JP7828703B2

JP7828703B2 - モデル依存情報についてのクエリ命令

Info

Publication number: JP7828703B2
Application number: JP2023577240A
Authority: JP
Inventors: スレーゲル、ティモシー; アルバラカット、ライス; ブラッドベリー、ジョナサン; リヒテナウ、セドリック; ヴァイスハウプト、サイモン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-06-17
Filing date: 2022-06-13
Publication date: 2026-03-12
Anticipated expiration: 2042-06-13
Also published as: US20220405100A1; WO2022264003A1; JP2024524901A; TWI804285B; CN117396902A; GB202319034D0; US11675592B2; TW202301204A; DE112022003109T5; GB2622333B; GB2622333A

Description

１つ以上の態様は、一般に、コンピューティング環境内の処理を容易にすることに関し、より具体的には、そのような処理を改善することに関する。

データ集約的、もしくは計算集約的、またはその両方であるコンピューティング環境における処理を向上させるために、人工知能アクセラレータ（ニューラルネットワークプロセッサまたはニューラルネットワークアクセラレータとも呼ばれる）などのコプロセッサが利用される。このようなアクセラレータは、例えば、行列やテンソルの計算など、関係する計算を実行する際に使用される大量の計算能力を提供する。

テンソル計算は、一例として、機械学習のサブセットであるディープラーニングを含む複雑な処理で使用される。人工知能の一態様であるディープラーニングまたは機械学習は、様々な技術（特に限定されないが、工学、製造、医療技術、自動車技術、コンピュータ処理など）において使用されている。

テンソルおよびテンソル計算により、膨大なデータもしくは詳細なデータまたはその両方をディープラーニング処理に入力することが可能になる。しかし、ディープラーニング処理に使用されるアクセラレータは、アクセラレータとの間のデータ帯域幅によって制限される。現在、この制限に対処するために、アクセラレータでのデータ局所性（data locality）とデータ再利用（data re-use）が採用されている。テンソルの使用における進歩、もしくはそのようなテンソルを使用した処理、またはその両方により、コンピュータ処理を含む機械学習を使用した技術の向上が予想される。

コンピューティング環境内の処理を容易にするためのコンピュータプログラム製品の提供を通じて、従来技術の欠点が克服されるとともに、さらなる利点が得られる。コンピュータプログラム製品は、１つ以上のコンピュータ可読記憶媒体と、当該１つ以上のコンピュータ可読記憶媒体にまとめて記憶された、方法を実行するためのプログラム命令と、を含む。当該方法は、クエリ関数を実行する命令を実行することを含む。当該命令を実行することは、プロセッサの選択されたモデルに関する情報を取得することを含む。当該情報は、当該プロセッサの当該選択されたモデルの少なくとも１つのモデル依存データ属性を含む。当該情報は、少なくとも１つのアプリケーションが１つ以上の関数を実行する際に使用するために、選択された場所に配置される。

クエリ関数は、マシンの特定のモデルに存在する機能にマシンを適応させ、より大きなデータを含む問題の解決を容易にする情報を提供する。これにより、コンピュータ処理を含む機械学習を使用する技術が向上する。

クエリ関数を実行することにより、少なくとも１つのデータ属性のモデル依存情報が取得され、この情報は、少なくとも１つのデータ属性を有するデータを使用して１つ以上の関数を実行する際に使用可能である。少なくとも１つのデータ属性を知ることにより、この少なくとも１つのデータ属性用にアプリケーションを準備することによって、実行時間を節約することができる。そして、これにより、アプリケーションをデータ、データレイアウト、もしくはデータサイズまたはその組み合わせに適合させ、例えばその特定のモデル上でニューラルネットワーク処理を実行できるようにすることができる。アプリケーションを準備することにより、エラーが減少し、実行時間が節約され、システム性能が向上する。

クエリ関数は、少なくとも１つのデータ属性がテンソルに関連する場合、もしくは処理がそのようなテンソルを使用する場合、またはその両方の場合に、テンソルの使用もしくはそのようなテンソルを使用した処理またはその両方における向上を実現する。

一例において、少なくとも１つのモデル依存データ属性は、プロセッサの選択されたモデルの１つ以上のサポートされるデータタイプを含む。サポートされるデータタイプを取得することによって、アプリケーションは、プロセッサの特定のモデルによってサポートされるデータタイプに合わせて調整される。これにより、アプリケーションをデータ、データレイアウト、もしくはデータサイズまたはその組み合わせに適合させ、例えばその特定のモデル上でニューラルネットワーク処理を実行できるようにすることができる。アプリケーションを準備することにより、エラーが減少し、実行時間が節約され、システム性能が向上する。

選択された場所は、例えば、少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含み、１つ以上のサポートされるデータタイプは、パラメータブロックの１つ以上のフィールドに含まれる。パラメータブロックが少なくとも１つのアプリケーションにアクセス可能であることによって、アプリケーションは、サポートされるデータタイプを学習することができ、この知識を処理に使用することができる。これにより、アプリケーションをデータ、データレイアウト、もしくはデータサイズまたはその組み合わせに適合させ、例えばその特定のモデル上でニューラルネットワーク処理を実行できるようにすることができる。アプリケーションを準備することにより、エラーが減少し、実行時間が節約され、システム性能が向上する。

一例において、少なくとも１つのモデル依存データ属性は、プロセッサの選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含む。１つ以上のサポートされるデータレイアウトフォーマットを取得することによって、アプリケーションは、プロセッサの特定のモデルによってサポートされる１つ以上のデータレイアウトフォーマットに合わせて調整される。これにより、アプリケーションをデータ、データレイアウト、もしくはデータサイズまたはその組み合わせに適合させ、例えばその特定のモデル上でニューラルネットワーク処理を実行できるようにすることができる。アプリケーションを準備することにより、エラーが減少し、実行時間が節約され、システム性能が向上する。

選択された場所は、例えば、少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含み、１つ以上のサポートされるデータレイアウトフォーマットは、パラメータブロックの１つ以上のフィールドに含まれる。パラメータブロックが少なくとも１つのアプリケーションにアクセス可能であることによって、アプリケーションは、１つ以上のサポートされるデータレイアウトフォーマットを学習することができ、この知識を処理に使用することができる。これにより、アプリケーションをデータ、データレイアウト、もしくはデータサイズまたはその組み合わせに適合させ、例えばその特定のモデル上でニューラルネットワーク処理を実行できるようにすることができる。アプリケーションを準備することにより、エラーが減少し、実行時間が節約され、システム性能が向上する。

一例において、少なくとも１つのモデル依存データ属性は、プロセッサの選択されたモデルの１つ以上のサポートされるデータサイズを含む。サポートされるデータサイズを取得することによって、アプリケーションは、プロセッサの特定のモデルによってサポートされる１つ以上のデータサイズに合わせて調整される。これにより、アプリケーションをデータ、データレイアウト、もしくはデータサイズまたはその組み合わせに適合させ、例えばその特定のモデル上でニューラルネットワーク処理を実行できるようにすることができる。アプリケーションを準備することにより、エラーが減少し、実行時間が節約され、システム性能が向上する。

選択された場所は、例えば、少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含み、１つ以上のサポートされるデータサイズは、パラメータブロックの１つ以上のフィールドに含まれる。パラメータブロックが少なくとも１つのアプリケーションにアクセス可能であることによって、アプリケーションは、サポートされるデータサイズを学習することができ、この知識を処理に使用することができる。これにより、アプリケーションをデータ、データレイアウト、もしくはデータサイズまたはその組み合わせに適合させ、例えばその特定のモデル上でニューラルネットワーク処理を実行できるようにすることができる。アプリケーションを準備することにより、エラーが減少し、実行時間が節約され、システム性能が向上する。

例として、１つ以上のサポートされるデータサイズは、最大次元インデックスサイズおよび最大テンソルサイズを含む。

一例として、選択された場所は、少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含み、パラメータブロックは、選択されたモデルの複数のモデル依存データ属性を記憶するための複数のフィールドを含む。複数のフィールドは、例えば、プロセッサの選択されたモデルの１つ以上のサポートされるデータタイプを含むインストール済みデータタイプフィールド、プロセッサの選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含むインストール済みデータレイアウトフォーマットフィールド、およびプロセッサの選択されたモデルのサポートされるデータサイズを含む１つ以上のフィールドを含む。パラメータブロックが少なくとも１つのアプリケーションにアクセス可能であることによって、アプリケーションは、サポートされるデータタイプ、データレイアウトフォーマット、およびデータサイズを学習することができ、この知識を処理に使用することができる。これにより、アプリケーションをデータ、データレイアウト、もしくはデータサイズまたはその組み合わせに適合させ、例えばその特定のモデル上でニューラルネットワーク処理を実行できるようにすることができる。アプリケーションを準備することにより、エラーが減少し、実行時間が節約され、システム性能が向上する。

一例において、パラメータブロックは、インストール済み関数ベクトルフィールドおよびインストール済みパラメータブロックフォーマットフィールドのうちの少なくとも１つをさらに含む。インストール済み関数ベクトルフィールドは、プロセッサの選択されたモデルの１つ以上のサポートされる関数を示し、インストール済みパラメータブロックフォーマットフィールドは、パラメータブロックの１つ以上のサポートされるフォーマットを示す。

１つ以上の態様に関連するコンピュータ実装方法およびシステムも本明細書にて説明され、特許請求される。さらに、１つ以上の態様に関連するサービスもまた、本明細書にて説明され、特許請求される場合がある。

さらなる特徴および利点が、本明細書に記載の技術によって実現される。他の実施形態および態様が、本明細書において詳細に説明され、特許請求される態様の一部と見なされる。

１つ以上の態様が、本明細書の末尾の特許請求の範囲において例として具体的に指摘され、明確に特許請求される。上述の内容、ならびに１つ以上の態様の目的、特徴、および利点は、添付の図面と併せて行われる以下の詳細な説明から明らかになる。
本発明の１つ以上の態様を組み込んで使用するコンピューティング環境の一例を示す図である。本発明の１つ以上の態様に係る、図１Ａのプロセッサのさらなる詳細を示す図である。本発明の１つ以上の態様に係る、クエリ関数の処理の一例を示す図である。本発明の１つ以上の態様に係る、クエリ関数を実行するためのニューラルネットワーク処理アシスト命令のフォーマットの一例を示す図である。本発明の１つ以上の態様に係る、ニューラルネットワーク処理アシスト命令によって使用される汎用レジスタの一例を示す図である。本発明の１つ以上の態様に係る、ニューラルネットワーク処理アシスト命令によってサポートされる関数コードの例を示す図である。本発明の１つ以上の態様に係る、ニューラルネットワーク処理アシスト命令によって使用される別の汎用レジスタの一例を示す図である。本発明の１つ以上の態様に係る、ニューラルネットワーク処理アシスト命令のクエリ関数によって使用されるパラメータブロックの一例を示す図である。本発明の１つ以上の態様に係る、ニューラルネットワーク処理アシスト命令の１つ以上の非クエリ関数によって使用されるパラメータブロックの一例を示す図である。本発明の１つ以上の態様に係る、ニューラルネットワーク処理アシスト命令によって使用されるテンソル記述子の一例を示す図である。本発明の１つ以上の態様に係る、ニューラルネットワーク処理（ＮＮＰ）－データタイプ１のデータタイプのフォーマットの一例を示す図である。（Ａ）～（Ｃ）は、本発明の１つ以上の態様に係る、ニューラルネットワーク処理アシスト命令によって使用される入力データレイアウトの一例を示す図である。（Ａ）～（Ｃ）は、本発明の１つ以上の態様に係る、図５の（Ａ）～図５の（Ｃ）の入力データレイアウトに対応する出力例を示す図である。本発明の１つ以上の態様に係る、コンピューティング環境内の処理を容易にする一例を示す図である。本発明の１つ以上の態様に係る、コンピューティング環境内の処理を容易にする一例を示す図である。本発明の１つ以上の態様を組み込んで使用するコンピューティング環境の別の例を示す図である。本発明の１つ以上の態様に係る、図８Ａのメモリのさらなる詳細の一例を示す図である。本発明の１つ以上の態様に係る、図８Ａのメモリのさらなる詳細の別の例を示す図である。本発明の１つ以上の態様を組み込んで使用するコンピューティング環境のさらに別の例を示す図である。本発明の１つ以上の態様に係る、図９Ａのメモリのさらなる詳細を示す図である。本発明の１つ以上の態様に係る、クラウドコンピューティング環境の一実施形態を示す図である。本発明の１つ以上の態様に係る、抽象化モデルレイヤの一例を示す図である。

本発明の１つ以上の態様によれば、コンピューティング環境内の処理を容易にする能力が提供される。一例として、例えば、プロセッサの選択された属性（プロセッサの特定のモデルの選択された属性など）に関するモデル依存（model-dependent）の詳細情報を伝達するクエリ関数（query function）が提供される。選択された属性には、例えば、データレイアウト、データタイプ、もしくはデータサイズまたはその組み合わせなど、プロセッサによって記憶もしくは使用またはその両方が行われるデータに関する選択された属性が含まれる。

一例において、クエリ関数は、例えばクエリ関数を含む複数の関数を実行するように構成された単一の命令（例えば、ハードウェア／ソフトウェアインタフェースにおける単一のアーキテクチャ化されたハードウェア機械命令）などの命令の一部として含まれる。クエリ関数は、命令によってサポートされる関数／演算、および１つ以上のデータ属性に関する詳細情報を示すように構成される。各関数は、単一の命令（例えば、単一のアーキテクチャ化された命令）の一部として構成されるため、システムリソース使用および複雑さを低減し、システム性能を向上させることができる。

命令は、汎用プロセッサなどのプロセッサ上のプログラムによってディスパッチされる、汎用プロセッサ命令セットアーキテクチャ（ＩＳＡ）の一部であってもよい。命令は、汎用プロセッサによって実行されてもよいし、命令の１つ以上の関数が、汎用プロセッサに結合されるかまたはその一部である、特定の関数用に構成されたコプロセッサなどの専用プロセッサによって実行されてもよいし、その両方であってもよい。その他の変形も可能である。

クエリ関数を含みかつそれを使用する命令の一例として、テンソル計算（tensor computations）もしくは他の演算またはその両方に関連する機能を提供するために使用されるニューラルネットワーク処理アシスト命令（Neural Network Processing Assist instruction）が挙げられる。この命令の一例については後段で詳述する。なお、ニューラルネットワーク処理アシスト命令は、クエリ関数を使用する命令の一例であるが、他の命令もこのような関数を使用することができる。

本発明の１つ以上の態様を組み込んで使用するコンピューティング環境の一実施形態を、図１Ａを参照して説明する。一例として、コンピューティング環境は、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ（登録商標）命令セットアーキテクチャ（インターナショナル・ビジネス・マシーンズ・コーポレーション（ニューヨーク州アーモンク）製）に基づいている。ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャの一実施形態は、「ｚ／ＡｒｃｈｉｔｅｃｔｕｒｅＰｒｉｎｃｉｐｌｅｓｏｆＯｐｅｒａｔｉｏｎ」と題された刊行物（ＩＢＭ刊行物番号ＳＡ２２－７８３２－１２、第１３版、２０１９年９月）に記載されており、その全体が参照により本明細書に組み込まれる。ただし、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャは、一例に過ぎず、インターナショナル・ビジネス・マシーンズ・コーポレーションおよび／もしくは他のエンティティの他のアーキテクチャもしくは他のタイプのコンピューティング環境またはその両方が、本発明の１つ以上の態様を含む、もしくは使用する、またはその両方を行うことができる。なお、ｚ／ＡｒｃｈｉｔｅｃｔｕｒｅおよびＩＢＭは、少なくとも１つの法域における、インターナショナル・ビジネス・マシーンズ・コーポレーションの商標または登録商標である。

図１Ａを参照すると、コンピューティング環境１００は、例えば、コンピュータシステム１０２を含む。コンピュータシステム１０２は例えば、汎用コンピューティングデバイスとして示される。コンピュータシステム１０２は、特に限定されないが、１つ以上のバスもしくは他の接続またはその両方を介して互いに結合された、１つ以上の汎用プロセッサまたは処理ユニット１０４（例えば、中央処理装置（ＣＰＵ））と、ニューラルネットワークプロセッサ１０５などの少なくとも１つの専用プロセッサと、メモリ１０６（または、例えば、システムメモリ、メインメモリ、メインストレージ、中央ストレージ、またはストレージとも呼ばれる）と、１つ以上の入力／出力（Ｉ／Ｏ）インタフェース１０８とを含んでもよい。例えば、プロセッサ１０４、１０５およびメモリ１０６は、１つ以上のバス１１０を介してＩ／Ｏインタフェース１０８に結合され、プロセッサ１０４、１０５は、１つ以上のバス１１１を介して互いに結合される。

バス１１１は、例えば、メモリまたはキャッシュコヒーレンスバス（cache coherence bus）である。バス１１０は、例えば、メモリバスまたはメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、および様々なバスアーキテクチャのいずれかを使用するプロセッサまたはローカルバスを含む、複数のタイプのバス構造のいずれか１つ以上を表す。例えば、特に限定されないが、このようなアーキテクチャには、インダストリスタンダードアーキテクチャ（ＩＳＡ：Industry Standard Architecture）、マイクロチャネルアーキテクチャ（ＭＣＡ：Micro Channel Architecture）、拡張ＩＳＡ（ＥＩＳＡ：Enhanced ISA）、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ：Video Electronics Standards Association）ローカルバス、およびペリフェラルコンポーネントインターコネクト（ＰＣＩ：Peripheral Component Interconnect）が含まれる。

例として、１つ以上の専用プロセッサ（例えば、ニューラルネットワークプロセッサ）は、１つ以上の汎用プロセッサと別体であってこれらに結合されていてもよいし、これらに組み込まれていてもよいし、その両方であってもよい。多くの変形が可能である。

例えば、メモリ１０６は、例えば１つ以上のバス１１１を介してプロセッサ１０４のローカルキャッシュ１１４もしくはニューラルネットワークプロセッサ１０５またはその両方に結合可能な、共有キャッシュなどのキャッシュ１１２を含んでもよい。さらに、メモリ１０６は、１つ以上のプログラムまたはアプリケーション１１６および少なくとも１つのオペレーティングシステム１１８を含んでもよい。オペレーティングシステムの一例としては、ｚ／ＯＳ（登録商標）オペレーティングシステム（インターナショナル・ビジネス・マシーンズ・コーポレーション（ニューヨーク州アーモンク）製）。なお、ｚ／ＯＳは、少なくとも１つの法域における、インターナショナル・ビジネス・マシーンズ・コーポレーションの商標または登録商標である。インターナショナル・ビジネス・マシーンズ・コーポレーションもしくは他のエンティティまたはその両方が提供する他のオペレーティングシステムを使用してもよい。メモリ１０６はまた、本発明の態様の実施形態の機能を実行するように構成可能な、１つ以上のコンピュータ可読プログラム命令１２０を含んでもよい。

さらに、１つ以上の実施形態において、メモリ１０６は、プロセッサファームウェア１２２を含む。プロセッサファームウェアは、例えば、プロセッサのマイクロコードまたはミリコードを含む。プロセッサファームウェアは、例えば、より上位レベルのマシンコードの実装において使用されるハードウェアレベルの命令もしくはデータ構造またはその両方を含む。一実施形態において、プロセッサファームウェアは、例えば、信頼できるソフトウェアを含むマイクロコードもしくはミリコード、または基礎となるハードウェアに固有のマイクロコードもしくはミリコードとして通常は提供される、システムハードウェアへのオペレーティングシステムのアクセスを制御する独自コードを含む。

コンピュータシステム１０２は、例えばＩ／Ｏインタフェース１０８を介して、ユーザ端末、テープドライブ、ポインティングデバイス、ディスプレイ、および１つ以上のデータストレージデバイス１３４などの１つ以上の外部デバイス１３０と通信してもよい。データストレージデバイス１３４は、１つ以上のプログラム１３６、１つ以上のコンピュータ可読プログラム命令１３８、もしくはデータまたはその組み合わせなどを記憶してもよい。コンピュータ可読プログラム命令は、本発明の態様の実施形態の機能を実行するように構成されてもよい。

コンピュータシステム１０２はまた、例えばＩ／Ｏインタフェース１０８を介して、ネットワークインタフェース１３２と通信してもよい。これにより、コンピュータシステム１０２は、ローカルエリアネットワーク（ＬＡＮ）、汎用ワイドエリアネットワーク（ＷＡＮ）、もしくは公衆ネットワーク（例えば、インターネット）またはその組み合わせなどの１つ以上のネットワークと通信することができ、他のコンピューティングデバイスまたはシステムとの通信を実現することができる。

コンピュータシステム１０２は、取り外し可能／取り外し不可能な揮発性／不揮発性コンピュータシステム可読媒体を含んでもよいし、これらの媒体に結合されてもよいし、その両方であってもよい。例えば、コンピュータシステム１０２は、取り外し不可能な不揮発性磁気媒体（一般的に「ハードドライブ」と呼ばれる）、取り外し可能な不揮発性磁気ディスク（例えば、「フロッピーディスク」）への読み書きのための磁気ディスクドライブ、もしくは、取り外し可能な不揮発性光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭや他の光媒体など）への読み書きのための光ディスクドライブ、またはその組み合わせを含んでもよいし、これらの媒体に結合されてもよいし、その両方であってもよい。なお、他のハードウェアコンポーネントもしくはソフトウェアコンポーネントまたはその両方をコンピュータシステム１０２とともに使用してもよい。例としては、特に限定されないが、マイクロコードまたはミリコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、データアーカイブストレージシステムなどが挙げられる。

コンピュータシステム１０２は、他の多くの汎用または専用コンピューティングシステム環境または構成とともに動作してもよい。コンピュータシステム１０２とともに使用するのに適した周知のコンピューティングシステム、環境、もしくは構成またはその組み合わせの例としては、特に限定されないが、パーソナルコンピュータ（ＰＣ）システム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステム、および、これらのシステムまたはデバイスのいずれかを含む分散型クラウドコンピューティング環境などが挙げられる。

一例として、プロセッサ（例えば、プロセッサ１０４もしくはプロセッサ１０５またはその両方）は、命令を実行するために使用される複数の機能コンポーネント（またはそのサブセット）を含む。図１Ｂに示すように、これらの機能コンポーネントは、例えば、実行される命令をフェッチする命令フェッチコンポーネント１５０と、フェッチされた命令をデコードし、デコードされた命令のオペランドを取得する命令デコードユニット１５２と、デコードされた命令を実行する１つ以上の命令実行コンポーネント１５４と、必要に応じて命令実行のためにメモリにアクセスするメモリアクセスコンポーネント１５６と、実行された命令の結果を提供するライトバック（write back）コンポーネント１５８とを含む。コンポーネントのうちの１つ以上は、命令処理において１つ以上のレジスタ１６０にアクセスする、もしくはレジスタ１６０を使用する、またはその両方を行うことができる。さらに、コンポーネントのうちの１つ以上は、本発明の１つ以上の態様に従って、例えば本明細書に記載するニューラルネットワーク処理アシスト命令（または本発明の１つ以上の態様を使用可能な他の処理）のクエリ関数もしくはニューラルネットワーク処理アシスト処理またはその両方を実行する際に使用される１つ以上の他のコンポーネントの少なくとも一部を含むか、またはこれら１つ以上の他のコンポーネントにアクセスすることができる。これら１つ以上の他のコンポーネントには、例えば、クエリ関数コンポーネント１７０もしくはニューラルネットワーク処理アシストコンポーネント１７２またはその両方（および／または１つ以上の他のコンポーネント）が含まれる。

本発明の１つ以上の態様に従って、選択されたプロセッサ（例えば、ニューラルネットワークプロセッサ１０５）の特定のモデルに関する詳細情報を伝達するクエリ関数が提供される。例えば、クエリ関数は、プロセッサ１０４において実装される（選択されたプロセッサの特定のモデルの詳細をプロセッサは把握しているため）か、または、選択されたプロセッサ（例えば、ニューラルネットワークプロセッサ１０５）において実装される。詳細情報には、例えば、プロセッサの特定のモデルなど、プロセッサによってサポートされるモデル依存データ属性、および選択された命令によって提供される関数／演算が含まれる。一例において、プロセッサは、ニューラルネットワークプロセッサ１０５などのニューラルネットワークプロセッサ（ニューラルネットワークアクセラレータとも呼ばれる）であり、クエリ関数は、少なくとも、ニューラルネットワークプロセッサの特定のモデルによってサポートされるデータ属性に関する詳細情報を伝達するために使用される。

クエリ関数を処理する一例を、図２を参照して説明する。この処理は、汎用プロセッサ１０４などの汎用プロセッサによって実行される。他の実施形態において、この処理はニューラルネットワークプロセッサ１０５などの専用プロセッサによって実行されてもよい。他の実施形態も可能である。

図２を参照すると、一実施形態において、クエリ関数は命令を介して開始される。したがって、ステップ２００にて命令が取得され、ステップ２１０にて実行される。一例において、この実行は、ステップ２２０にて、クエリ関数がこの命令によって指定されているかどうかを判断することを含む。これには、例えば、命令を解読し、命令の少なくとも１つのオペランドをチェックして、どの関数が開始されるかを判断することが含まれる。ステップ２２０にてクエリ関数が指定されていない場合、ステップ２３０にて他の命令処理が実行される。これに対して、ステップ２２０にてクエリ関数が指定された場合、ステップ２４０にて、特定のプロセッサ、特にプロセッサの特定のモデルに関する情報が取得される。マシンまたはプロセッサの特定のモデルは、特定の能力を有する。（例えば、現在実装されている）マシンまたはプロセッサの別のモデルは、追加の能力、より少ない能力、もしくは異なる能力もしくはその組み合わせを有している場合があり、かつ／または、追加の能力、より少ない能力、もしくは異なる能力もしくはその組み合わせを有する異なる世代（例えば、現在または将来の世代）のものである場合がある。取得される情報には、例えば、特定のプロセッサのモデル依存属性、特に、特定のプロセッサの特定のモデルによって使用もしくは記憶またはその両方が行われるデータに関する属性が含まれる。クエリ関数はまた、例えば、クエリ関数を実行するために使用される命令などを介して、プロセッサ上で実行される可能のある特定の関数の表示（indication）も取得する。追加の情報、これより少ない情報、もしくは他の情報またはその組み合わせを取得してもよい。

一例において、情報は、クエリ関数を実行するプロセッサのファームウェアによって取得される。ファームウェアは、特定のプロセッサ（例えば、ニューラルネットワークプロセッサ）の特定のモデルの属性に関する知識を有する。この情報は、例えば、制御ブロック、レジスタ、もしくはメモリもしくはその組み合わせに記憶されてもよいし、かつ／または、クエリ関数を実行するプロセッサがアクセス可能であってもよい。

取得した情報は、ステップ２５０にて、例えば、さらなる処理においてこの情報を使用する可能性のある１つ以上のアプリケーションにアクセス可能であるか、これら１つ以上のアプリケーションとともに使用されるか、またはその両方であるパラメータブロック（parameter block）または他の構造内に配置される。一例において、パラメータブロックもしくはパラメータブロックの情報またはその両方は、メモリ内に保持される。他の実施形態において、パラメータブロックもしくは情報またはその両方は、１つ以上のハードウェアレジスタ内に保持されてもよい。別の例として、クエリ関数は、この情報をアプリケーションまたは他の非特権（non-privileged）プログラムが利用できるようにするためのアプリケーションプログラミングインタフェースを利用可能にする、オペレーティングシステムによって実行される特権操作（privileged operation）であってもよい。さらに別の例では、クエリ関数は、ニューラルネットワークプロセッサ１０５などの専用プロセッサによって実行される。他の例も可能である。

一具体例において、クエリ関数は、ニューラルネットワークプロセッサ１０５などのニューラルネットワークプロセッサに関する情報を決定するために実行される。この情報には、たとえば、ニューラルネットワークプロセッサの選択されたモデルによってサポートされるデータタイプ、データサイズ、もしくはデータレイアウトフォーマットまたはその組み合わせが含まれる。この情報は、他のモデル（例えば、以前のモデルもしくは将来のモデルまたはその両方）が同じデータタイプ、データサイズ、もしくはデータレイアウトフォーマットまたはその組み合わせなどの同じデータ属性をサポートしない可能性があるという点で、モデル依存である。

他の実施形態において、他の情報が取得されてもよい。取得された情報（例えば、モデル依存データ属性もしくは他の情報またはその両方）は、例えば、さらなる処理においてアプリケーションによって使用される。例えば、アプリケーションは、ニューラルネットワークプロセッサに関するモデル依存情報（例えば、モデル依存データ属性）もしくは他の情報（例えば、命令もしくはニューラルネットワークプロセッサまたはその両方によってサポートされる機能、パラメータブロックフォーマットなど）またはその両方を取得するために、汎用プロセッサ１０４などのプロセッサ上でニューラルネットワーク処理アシスト命令を実行する。次に、取得された情報（少なくとも選択された情報）は、命令によって指定された他の関数（本明細書において「非クエリ関数（non-query functions）」と呼ぶ）を実行するために、ニューラルネットワーク処理アシスト命令の他の実行において使用される。これらの非クエリ関数を使用して、例えばテンソル計算に関連する演算が実行される。一実施形態において、ニューラルネットワーク処理アシスト命令の他の実行は汎用プロセッサによって開始されるが、命令によって指定された非クエリ関数は、取得された情報の少なくとも一部を使用して専用プロセッサ（例えば、ニューラルネットワークプロセッサ１０５）によって実行される。クエリ関数およびニューラルネットワーク処理アシスト命令に関連するさらなる詳細は後述する。

ニューラルネットワーク処理アシスト命令の一例を、図３Ａを参照して説明する。一例において、命令は汎用プロセッサ（例えば、プロセッサ１０４）上で開始され、命令によって指定された関数は、当該関数に応じて汎用プロセッサもしくは専用プロセッサ（例えば、専用プロセッサ１０５）またはその両方において実行される。その後、命令は汎用プロセッサ上で完了する。他の例において、命令は、１つ以上の汎用プロセッサまたは１つ以上の専用プロセッサ上で開始、実行、完了される。他の変形も可能である。なお、本明細書における説明では、特定の場所、特定のフィールド、もしくはフィールドの特定のサイズまたはその組み合わせが示される（例えば、特定のバイトもしくはビットまたはその両方）。ただし、他の場所、フィールド、もしくはサイズまたはその組み合わせが提供されてもよい。さらに、ビットを特定の値、例えば１または０に設定することが指定される場合があるが、これは一例に過ぎない。他の例において、ビットが設定される場合、反対の値や別の値など、異なる値に設定されてもよい。多くの変形が可能である。

一例において、図３Ａを参照すると、ニューラルネットワーク処理アシスト命令３００は、拡張操作コード（オペコード（opcode））によってレジスタおよびレジスタ操作を示すＲＲＥフォーマットを有する。図３Ａに示すように、一例において、ニューラルネットワーク処理アシスト命令３００は、ニューラルネットワーク処理アシスト操作を示す操作コード（オペコード）フィールド３０２（例えば、ビット０～１５）を含む。一例において、命令のビット１６～３１は予備（reserved）で、０を含むようになっている。

一例において、命令は、命令によって暗黙的に（implicitly）指定された複数の汎用レジスタを使用する。例えば、ニューラルネットワーク処理アシスト命令３００は、暗黙のレジスタである汎用レジスタ０および汎用レジスタ１を使用する。これらの例は、それぞれ図３Ｂおよび図３Ｄを参照して説明する。

図３Ｂを参照すると、一例において、汎用レジスタ０は、関数コードフィールドと、命令の完了時に更新される可能性のあるステータスフィールドとを含む。一例として、汎用レジスタ０は、応答コードフィールド３１０（例えば、ビット０～１５）と、例外フラグフィールド３１２（例えば、ビット２４～３１）と、関数コードフィールド３１４（例えば、ビット５６～６３）とを含む。さらに、一例において、汎用レジスタ０のビット１６～２３およびビット３２～５５は予備で、０を含むようになっている。１つ以上のフィールドは、命令によって実行される特定の関数によって使用される。一例において、すべてのフィールドがすべての関数で使用されるわけではない。各フィールドについて以下に説明する。

応答コード（ＲＣ）３１０：このフィールド（例えば、ビット位置０～１５）は、応答コードを含む。ニューラルネットワーク処理アシスト命令の実行が、例えば「１」の条件コードで完了すると、応答コードが記憶される。無効な入力条件に遭遇すると、実行中に認識された無効な入力条件の原因を示す０以外の値が応答コードフィールドに記憶され、選択された条件コード、例えば「１」が設定される。応答コードフィールドに記憶されるコードは、一例として以下のように定義される。

応答コード意味

０００１パラメータブロックのバージョン番号で指定されているパラメータブロックのフォーマットが、モデルでサポートされていない。

０００２指定された関数が定義されていないか、マシンにインストールされていない。

００１０指定されたテンソルのデータレイアウトフォーマットがサポートされていない。

００１１指定されたテンソルのデータタイプがサポートされていない。

００１２指定された単一のテンソル次元（single tensor dimension）が最大次元インデックスサイズ（maximum dimension index size）より大きい。

００１３指定されたテンソルのサイズが最大テンソルサイズより大きい。

００１４指定されたテンソルのアドレスが４Ｋバイト境界（4 K-byte boundary）にアライメントされていない。

００１５関数固有セーブ領域アドレス（function-specific-save-area-address）が４Ｋバイト境界にアライメントされていない。

Ｆ０００－ＦＦＦＦ関数固有応答コード。これらの応答は、特定の関数に対して定義される。

例外フラグ（ＥＦ）３１２：このフィールド（例えば、ビット位置２４～３１）は、例外フラグを含む。命令の実行中に例外条件が検出された場合、対応する例外フラグ制御（例えば、ビット）が、例えば１に設定され、そうでない場合、制御は変更されない。例外フラグフィールドは、命令の最初の呼び出しの前に０に初期化される。予備のフラグは、命令の実行中に変更されない。例外フラグフィールドに記憶されるフラグは、一例として以下のように定義される。

ＥＦ（ビット）意味

０範囲違反。このフラグは、非数値（non-numeric value）が入力テンソルで検出されたか、または出力テンソルに記憶されたときにセットされる。このフラグは、例えば、命令が例えば「０」の条件コードで完了したときにのみ有効である。

１～７予備

関数コード（ＦＣ）３１４：このフィールド（例えば、ビット位置５６～６３）は、関数コードを含む。ニューラルネットワーク処理アシスト命令に対して割り当てられた関数コードの例を、図３Ｃに示している。他のすべての関数コードは未割り当てである。未割り当てまたは未インストールの関数コードが指定された場合、例えば１６進数「０００２」の応答コードと、例えば「１」の選択条件コードとが設定される。このフィールドは、実行中に変更されない。

ここで示すように、ニューラルネットワーク処理アシスト命令は、汎用レジスタ０に加えて汎用レジスタ１も使用する。汎用レジスタ１の例を、図３Ｄに示している。例として、２４ビットアドレス指定モードにおけるビット４０～６３、３１ビットアドレス指定モードにおけるビット３３～６３、または６４ビットアドレス指定モードにおけるビット０～６３は、パラメータブロック３２０のアドレスを含む。汎用レジスタ１の内容は、例えば、ストレージ内のパラメータブロックの左端バイト（leftmost byte）の論理アドレスを指定する。パラメータブロックは、ダブルワード境界（doubleword boundary）で指定される。そうでない場合、指定例外が認識される。すべての関数について、汎用レジスタ１の内容は変更されない。

アクセスレジスタモードでは、アクセスレジスタ１は、一例として、パラメータブロック、入力テンソル、出力テンソル、および関数固有セーブ領域を含むアドレス空間を指定する。

一例において、パラメータブロックは、実行される命令によって指定される関数に応じて、異なるフォーマットを有することができる。例えば、クエリ関数はあるフォーマットのパラメータブロックを有し、命令の他の関数は別のフォーマットのパラメータブロックを有する。別の例では、すべての関数が同じパラメータブロックフォーマットを使用する。他の変形も可能である。

ＮＮＰＡ－ＱＡＦ（使用可能関数照会（Query Available Functions））演算などのクエリ関数によって使用されるパラメータブロックの一例について、図３Ｅを参照して説明する。図示するように、一例において、ＮＮＰＡ－ＱＡＦパラメータブロック３３０は、例えば以下を含む。

インストール済み関数ベクトル（installed functions vector）３３２：パラメータブロックのこのフィールド（例えば、バイト０～３１）は、インストール済み関数のベクトルを含む。一例において、インストール済み関数ベクトルのビット０～２５５は、ニューラルネットワーク処理アシスト命令の関数コード０～２５５にそれぞれ対応する。ビットが例えば１の場合、対応する関数がインストールされ、そうでない場合、関数はインストールされない。

インストール済みパラメータブロックフォーマットベクトル（installed parameter block formats vector）３３４：パラメータブロックのこのフィールド（例えば、バイト３２～４７）は、インストール済みパラメータブロックフォーマットのベクトルを含む。一例において、インストール済みパラメータブロックフォーマットベクトルのビット０～１２７は、ニューラルネットワーク処理アシスト命令の非クエリ関数のパラメータブロックフォーマット０～１２７に対応する。ビットが例えば１の場合、対応するパラメータブロックフォーマットがインストールされ、そうでない場合、パラメータブロックフォーマットはインストールされない。

インストール済みデータタイプ３３６：パラメータブロックのこのフィールド（例えば、バイト４８～４９）は、インストール済みデータタイプのベクトルを含む。一例において、インストール済みデータタイプベクトルのビット０～１５は、インストールされるデータタイプに対応する。ビットが例えば１の場合、対応するデータタイプがインストールされ、そうでない場合、データタイプはインストールされない。データタイプの例としては、以下のものが挙げられる（なお、追加のデータタイプ、より少ないデータタイプ、もしくは他のデータタイプ、またはその組み合わせも可能である）。

ビットデータタイプ

０ＮＮＰ－データタイプ１

１～１５予備

インストール済みデータレイアウトフォーマット３３８：パラメータブロックのこのフィールド（例えば、バイト５２～５５）は、インストール済みデータレイアウトフォーマットのベクトルを含む。一例において、インストール済みデータレイアウトフォーマットベクトルのビット０～３１は、インストールされるデータレイアウトフォーマットに対応する。ビットが例えば１の場合、対応するデータレイアウトフォーマットがインストールされ、そうでない場合、データレイアウトフォーマットはインストールされない。データレイアウトフォーマットの例としては、以下のものが挙げられる（なお、追加のデータレイアウトフォーマット、より少ないデータレイアウトフォーマット、もしくは他のデータレイアウトフォーマット、またはその組み合わせも可能である）。

ビットデータレイアウトフォーマット

０４次元特徴テンソル（4D-feature tensor）

１４次元カーネルテンソル（4D-kernel tensor）

２～３１予備

最大次元インデックスサイズ３４０：パラメータブロックのこのフィールド（例えば、バイト６０～６３）は、例えば、任意の指定のテンソルについての指定の次元インデックスサイズ内の要素の最大数を指定する３２ビットの符号なし２進整数を含む。別の例において、最大次元インデックスサイズは、任意の指定のテンソルについての指定の次元インデックスサイズ内の最大バイト数を指定する。他の例も可能である。

最大テンソルサイズ３４２：パラメータブロックのこのフィールド（例えば、バイト６４～７１）は、例えば、テンソルフォーマットによって必要とされるパッドバイト（pad bytes）を含む、任意の指定のテンソルの最大バイト数を指定する３２ビットの符号なし２進整数を含む。別の例において、最大テンソルサイズは、テンソルフォーマットによって必要とされる任意のパディング（padding）を含む、任意の指定のテンソルの最大総要素数を指定する。他の例も可能である。

インストール済みＮＮＰ－データタイプ１変換ベクトル３４４：パラメータブロックのこのフィールド（例えば、バイト７２～７３）は、インストール済みＮＮＰ－データタイプ１変換のベクトルを含む。一例において、インストール済みＮＮＰ－データタイプ１変換ベクトルのビット０～１５は、ＮＮＰ－データタイプ１フォーマットからの／へのインストール済みデータタイプの変換に対応する。ビットが１の場合、対応する変換がインストールされ、そうでない場合、変換はインストールされない。追加の変換、より少ない変換、もしくは他の変換、またはその組み合わせが指定されてもよい。

ビットデータタイプ

０予備

１ＢＦＰタイニーフォーマット（tiny format）

２ＢＦＰショートフォーマット（short format）

３～１５予備

図３Ｅを参照してクエリ関数のパラメータブロックの一例を説明したが、ＮＮＰＡ－ＱＡＦ演算を含むクエリ関数のパラメータブロックの他のフォーマットを使用してもよい。フォーマットは、一例において、実行されるクエリ関数のタイプに依存する場合がある。さらに、パラメータブロックもしくはパラメータブロックの各フィールドまたはその両方は、追加の情報、より少ない情報、もしくは他の情報、またはその組み合わせを含んでもよい。

クエリ関数用のパラメータブロックに加えて、一例において、ニューラルネットワーク処理アシスト命令の非クエリ関数などの、非クエリ関数用のパラメータブロックフォーマットが存在する。ニューラルネットワーク処理アシスト命令の非クエリ関数などの非クエリ関数によって使用されるパラメータブロックの一例を、図３Ｆを参照して説明する。

図示するように、一例において、例えばニューラルネットワーク処理アシスト命令の非クエリ関数によって採用されるパラメータブロック３５０には、例えば以下のものが含まれる。

パラメータブロックバージョン番号３５２：パラメータブロックのこのフィールド（例えば、バイト０～１）は、パラメータブロックのバージョンおよびサイズを指定する。一例において、パラメータブロックバージョン番号のビット０～８は予備で、０を含むようになっており、パラメータブロックバージョン番号のビット９～１５は、パラメータブロックのフォーマットを指定する符号なし２進整数を含む。クエリ関数は、使用可能なパラメータブロックフォーマットを示すメカニズムを提供する。指定されたパラメータブロックのサイズまたはフォーマットがモデルによってサポートされていない場合、例えば１６進数「０００１」の応答コードが汎用レジスタ０に記憶され、条件コード（例えば、条件コード「１」）を設定することによって命令が完了する。パラメータブロックバージョン番号はプログラムによって指定され、命令の実行中に変更されることはない。

モデルバージョン番号３５４：パラメータブロックのこのフィールド（例えば、バイト２）は、命令（例えば、特定の非クエリ関数）を実行したモデルを識別する符号なし２進整数である。継続フラグ（後述）が１である場合、モデルバージョン番号は、パラメータブロックの継続状態バッファフィールド（後述）の内容を解釈して演算を再開する目的で、演算に対する入力となることができる。

継続フラグ３５６：パラメータブロックのこのフィールド（例えば、ビット６３）は、例えば、１のとき、演算が部分的に完了しており、継続状態バッファの内容を使用して演算が再開可能であることを示す。プログラムは、継続フラグを０に初期化し、演算を再開する目的で命令が再実行される場合には、継続フラグを変更しない。それ以外の場合、結果は予測不可能となる。

演算の最初に継続フラグがセットされ、パラメータブロックの内容が最初の呼び出し以降に変更された場合、結果は予測不可能となる。

関数固有セーブ領域アドレス３５８：パラメータブロックのこのフィールド（例えば、バイト５６～６３）は、関数固有セーブ領域の論理アドレスを含む。一例において、関数固有セーブ領域アドレスは４Ｋバイト境界にアライメントされる。そうでない場合、汎用レジスタ０に例えば１６進数「００１５」の応答コードが設定され、命令は例えば「１」の条件コードで完了する。アドレスは現在のアドレス指定モードに従う。関数固有セーブ領域のサイズは、関数コードに依存する。

関数固有セーブ領域全体がプログラムイベント記録（ＰＥＲ：program event recording）ストレージ領域指定と重なる場合、関数固有セーブ領域について、該当する場合、ＰＥＲストレージ変更イベントが認識される。関数固有セーブ領域の一部のみがＰＥＲストレージ領域指定と重なる場合、以下のいずれが発生するかはモデルに依存する：

＊関数固有セーブ領域全体について、該当する場合、ＰＥＲストレージ変更イベントが認識される。

＊関数固有セーブ領域の記憶される部分について、該当する場合、ＰＥＲストレージ変更イベントが認識される。

パラメータブロック全体がＰＥＲストレージ領域指定と重なる場合、パラメータブロックについて、該当する場合、ＰＥＲストレージ変更イベントが認識される。パラメータブロックの一部のみがＰＥＲストレージ領域指定と重なる場合、以下のいずれが発生するかはモデルに依存する。

＊パラメータブロック全体について、該当する場合、ＰＥＲストレージ変更イベントが認識される。

＊パラメータブロックの記憶される部分について、該当する場合、ＰＥＲストレージ変更イベントが認識される。

パラメータブロックについて、該当する場合、ＰＥＲゼロアドレス検出イベント（PER zero-address detection event）が認識される。ゼロアドレス検出は、一例において、テンソルアドレスまたは関数固有セーブ領域アドレスには適用されない。

出力テンソル記述子（descriptor）（例えば、１～２）３６０／入力テンソル記述子（例えば、１～３）３６５：テンソル記述子の一例を、図３Ｇを参照して説明する。一例において、テンソル記述子３６０、３６５は以下を含む。

データレイアウトフォーマット３８２：テンソル記述子のこのフィールド（例えば、バイト０）は、データレイアウトフォーマットを指定する。有効なデータレイアウトフォーマットには、例えば以下のようなものがある（なお、追加のデータレイアウトフォーマット、より少ないデータレイアウトフォーマット、もしくは他のデータレイアウトフォーマット、またはその組み合わせも可能である）。

フォーマット説明アライメント（バイト）

０４次元特徴テンソル４０９６

１４次元カーネルテンソル４０９６

２～２５５予備－

サポートされていない、または予備のデータレイアウトフォーマットが指定された場合、例えば、１６進数「００１０」の応答コードが汎用レジスタ０に記憶され、例えば「１」の条件コードを設定することによって命令が完了する。

データタイプ３８４：このフィールド（例えば、バイト１）は、テンソルのデータタイプを指定する。サポートされるデータタイプの例を以下に示す（なお、追加のデータタイプ、より少ないデータタイプ、もしくは他のデータタイプ、またはその組み合わせも可能である）。

値データタイプデータサイズ（ビット）

０ＮＮＰデータタイプ－１１６

１～２５５予備－

サポートされていない、または予備のデータタイプが指定された場合、例えば、１６進数「００１１」の応答コードが汎用レジスタ０に記憶され、例えば「１」の条件コードを設定することによって命令が完了する。

次元１～４インデックスサイズ３８６：まとめて、次元インデックスサイズ１～４は、４次元テンソルの形状を指定する。各次元インデックスサイズは、０より大きく、最大次元インデックスサイズ（３４０、図３Ｅ）以下である。そうでない場合、例えば１６進数「００１２」の応答コードが汎用レジスタ０に記憶され、例えば「１」の条件コードを設定することによって命令が完了する。総テンソルサイズは、最大テンソルサイズ（３４２、図３Ｅ）以下である。そうでない場合、例えば１６進数「００１３」の応答コードが汎用レジスタ０に記憶され、例えば「１」の条件コードを設定することによって命令が完了する。

一例において、ＮＮＰＡ－データタイプ１の要素を持つ４Ｄ特徴テンソルのバイト数（すなわち、総テンソルサイズ）を決定するために、以下が使用される：次元インデックス４＊次元インデックス３＊ｃｅｉｌ（次元インデックス２／３２）＊３２＊ｃｅｉｌ（次元インデックス１／６４）＊６４＊２。

テンソルアドレス３８８：テンソル記述子のこのフィールド（例えば、バイト２４～３１）は、テンソルの左端バイトの論理アドレスを含む。アドレスは現在のアドレス指定モードに従う。

アドレスが関連するデータレイアウトフォーマットの境界にアライメントされていない場合、例えば１６進数「００１４」の応答コードが汎用レジスタ０に記憶され、例えば「１」の条件コードを設定することによって命令が完了する。

アクセスレジスタモードでは、アクセスレジスタ１は、ストレージ内のすべてのアクティブな入出力テンソルを含むアドレス空間を指定する。

図３Ｆに戻ると、パラメータブロック３５０は、一例において、本明細書で説明するように、特定の関数によって使用可能な関数固有パラメータ１～５（３７０）をさらに含む。

さらに、パラメータブロック３５０は、一例において、継続状態バッファ（continuation state buffer）フィールド３７５を含む。このフィールドは、この命令の演算が再開される場合に使用されるデータ（またはデータの位置）を含む。

演算への入力として、パラメータブロックの予備フィールドは０を含む必要がある。演算が終了すると、予備フィールドは０として記憶されてもよいし、変更されなくてもよい。

図３Ｆを参照して非クエリ関数のパラメータブロックの一例を説明したが、ニューラルネットワーク処理アシスト命令の非クエリ関数を含む、非クエリ関数のパラメータブロックの他のフォーマットを使用してもよい。フォーマットは、一例において、実行される関数のタイプに依存してもよい。さらに、図３Ｇを参照してテンソル記述子の一例を説明したが、他のフォーマットを使用してもよい。さらに、入出力テンソルについて異なるフォーマットを使用してもよい。他の変形も可能である。

ニューラルネットワーク処理アシスト命令の一実施形態によってサポートされる様々な関数に関するさらなる詳細を以下に説明する。

関数コード０：ＮＮＰＡ－ＱＡＦ（使用可能関数照会）

ニューラルネットワーク処理アシスト（ＮＮＰＡ：Neural Network Processing Assist）クエリ関数は、例えば、インストールされた関数の利用可能性、インストールされたパラメータブロックフォーマット、インストールされたデータタイプ、インストールされたデータレイアウトフォーマット、最大次元インデックスサイズ、最大テンソルサイズなどの選択された情報を表示するメカニズムを提供する。情報は取得されると、パラメータブロック（例えば、パラメータブロック３３０）などの選択された場所に配置される。演算が終了すると、パラメータブロックの予備フィールドは０として記憶されてもよいし、変更されなくてもよい。

クエリ関数の一実施形態の実行において、汎用プロセッサ１０４などのプロセッサは、ニューラルネットワークプロセッサ１０５などのニューラルネットワークプロセッサの特定のモデルなど、選択されたプロセッサの特定のモデルに関する情報を取得する。取得された情報は、パラメータブロック（例えば、パラメータブロック３３０）内に配置されるか、あるいは、さらなる処理においてこの情報を使用する可能性のある１つ以上のアプリケーションがアクセス可能であるか、もしくはこれら１つ以上のアプリケーションとともに使用されるか、またはその両方である他の構造内に配置される。

取得される情報は、例えば、特定のプロセッサの選択されたモデルの１つ以上のインストールまたはサポートされたデータタイプ、１つ以上のインストールまたはサポートされたデータレイアウトフォーマット、もしくは１つ以上のインストールまたはサポートされたデータサイズ、またはその組み合わせを含む、特定のプロセッサの少なくとも１つ以上のデータ属性に関するモデル依存詳細情報を含む。この情報は、他のモデル（例えば、以前のモデルもしくは将来のモデルまたはその両方）が同じデータタイプ、データサイズ、もしくはデータレイアウトフォーマット、またはその組み合わせなどの同じデータ属性をサポートしない可能性があるという点で、モデル依存である。クエリ関数（例えば、ＮＮＰＡ－ＱＡＦ関数）の実行が完了すると、一例として、条件コード０が設定される。条件コード１、２、３は、一例において、クエリ関数には適用されない。取得される情報に関するさらなる詳細を以下に説明する。

ここで示すように、一例において、取得される情報は、例えば、ニューラルネットワークプロセッサの特定のモデルの１つ以上のデータ属性に関するモデル依存情報を含む。データ属性の一例は、ニューラルネットワークプロセッサのインストールされたデータタイプである。例えば、ニューラルネットワークプロセッサ（または他のプロセッサ）の特定のモデルは、例として、ＮＮＰ－データタイプ１データタイプ（ニューラルネットワーク処理－データタイプ１データタイプとも呼ぶ）もしくは他のデータまたはその両方などの１つ以上のデータタイプをサポートしてもよい。ＮＮＰ－データタイプ１データタイプは、１６ビット浮動小数点（floating-point）フォーマットであり、例えば、ディープラーニングの訓練と推論演算について多くの利点を提供する。利点は例えば、ディープラーニングネットワークの精度を維持する、サブノーマルフォーマットを排除して丸めモード（rounding mode）とコーナーケース（corner case）の取り扱いを簡素化する、算術演算で最も近い値に自動的に丸める、無限大と非数（ＮａＮ：not-a-number）の特別なエンティティを１つの値（ＮＩＮＦ）に結合し、算術演算で受け入れられ取り扱われるようにする、などである。ＮＩＮＦは、指数オーバーフローや無効な演算（０による除算など）に対するより良いデフォルトを提供する。これにより、多くのプログラムはそのようなエラーを隠すことなく、また専用の例外ハンドラを使用することなく実行を続けることができる。その他のモデル依存データタイプも可能である。

ＮＮＰ－データタイプ１データタイプのフォーマットの一例を図４に示す。図示するように、一例において、ＮＮＰ－データタイプ１のデータは、例えば、フォーマット４００で表すことができる。フォーマット４００は、例えば、符号４０２（例えば、ビット０）、指数＋３１（４０４）（例えば、ビット１～６）、および小数４０６（例えば、ビット７～１５）を含む。

ＮＮＰ－データタイプ１のフォーマットの特性の例を以下に示す。

特性ＮＮＰ－データタイプ１

フォーマット長（ビット）１６ビット

バイアス付き指数長（ビット）６ビット

小数長（ビット）９ビット

精度（ｐ）１０ビット

最大左単位表示（left-units-view）指数（Ｅｍａｘ）３２

最小左単位表示指数（Ｅｍｉｎ）－３１

左単位表示（ＬＵＶ）バイアス３１

ＮＮＰ－データタイプ１データタイプに関するさらなる詳細を以下に説明する。

バイアス付き指数（biased exponent）：指数を符号なし数（unsigned numbers）として表現できるようにするために使用されるバイアスを上に示している。バイアス付き指数は、ＮＮＰ－データタイプ１データタイプのクラスを参照して後述するように、すべての０とすべての１のバイアス付き指数に対して特別な意味が付されていないことを除いて、バイナリ浮動小数点フォーマットの特性に類似する。

仮数（significand）：ＮＮＰ－データタイプ１の数値の２進小数点（binary point）は、左端の小数ビットの左側にあるとみなされる。２進小数点の左側には暗黙の（implied）単位ビットが存在し、これは正規数（normal numbers）の場合は１、ゼロの場合は０とみなされる。左側に暗黙の単位ビットが付加された小数部（fraction）が、数値の仮数となる。

通常のＮＮＰ－データタイプ１の値は、仮数に基数２を乗じた値を非バイアス付き指数のべき乗にしたものである。

非ゼロ数（non-zero numbers）の値：非ゼロ数の値を以下に示す。

数値クラス値

正規数 ±2^e-31 x (1.f)

ここで、ｅは１０進数で示されるバイアス付き指数であり、ｆは２進数で示される小数である。

一実施形態において、ＮＮＰ－データタイプ１のデータには、数値エンティティおよび関連する非数値エンティティを含む３つのクラスがある。各データ項目は、符号、指数、および仮数を含む。指数は、すべてのバイアス付き指数が非負（non-negative）の符号なし数値となり、最小のバイアス付き指数が０であるようにバイアスが付いている。仮数は、明示的な小数部、および２進小数点の左側の暗黙的な単位ビットを含む。符号ビットは、プラスの場合が０、マイナスの場合が１である。

許容されるすべての非ゼロ有限数は、一意のＮＮＰ－データタイプ１表現を有する。同じ値に対して複数の表現を可能とする非正規（subnormal）数は存在せず、非正規の算術演算は存在しない。この３つのクラスには、例えば以下が含まれる。

データクラス符号バイアス付き指数単位ビット＊小数部

ゼロ ± ０００

正規数 ± ０１非０

正規数 ± 非０、すべて１ではない１いずれかの値

正規数 ± すべて１－すべて１ではない

ＮＩＮＦ ± すべて１－すべて１
ここで、「－」は該当しないことを示し、「＊」は暗黙の単位ビットを示し、ＮＩＮＦは数値または無限大ではないことを示す。

各クラスに関するさらなる詳細を以下に説明する。

ゼロ：ゼロは、ゼロのバイアス付き指数およびゼロの小数部を持つ。暗黙の単位ビットはゼロである。

正規数：正規数は任意の値のバイアス付き指数を持つことができる。バイアス付き指数が０の場合、小数部は非０となる。バイアス付き指数がすべて１の場合、小数部はすべて１にはならない。その他のバイアス付き指数値は、どのような小数値でもよい。暗黙の単位ビットは、すべての正規数に対して１である。

ＮＩＮＦ：ＮＩＮＦは、すべての１のバイアス付き指数とすべての１の小数部で表される。ＮＩＮＦは、ＮＮＰ－データタイプ１（すなわち、６つの指数ビットと９つの小数ビットを持つディープラーニング用に設計された１６ビット浮動小数点）の表現可能な値の範囲にない値を表す。通常、ＮＩＮＦは演算中に伝搬されるだけなので、演算が終わっても表示されたままになる。

一例において、ＮＮＰ－データタイプ１がサポートされているが、他のモデル依存（例えば、専用または非標準）データタイプ、および、１つ以上の標準データタイプ（例えば、ＩＥＥＥ７５４短精度（short precision）、バイナリ浮動小数点１６ビット、ＩＥＥＥ半精度（half precision）浮動小数点、８ビット浮動小数点、４ビット整数フォーマット、もしくは８ビット整数フォーマットまたはその組み合わせなど）がサポートされてもよい。これらのデータフォーマットは、ニューラルネットワーク処理について異なる性質を有する。一例として、より小さいデータタイプ（例えば、より少ないビット）は、より高速に処理することができるとともに、キャッシュ／メモリの使用を少なくすることができる。より大きいデータタイプは、ニューラルネットワークにおいて結果の精度が高くなる。サポートされるデータタイプは、照会パラメータブロックにおいて（例えば、パラメータブロック３３０のインストール済みデータタイプフィールド３３６において）１つ以上の割り当てビットを有することができる。例えば、特定のプロセッサによってサポートされるモデル依存、専用、または非標準データタイプは、インストール済みデータタイプフィールドにおいて示されるが、標準データタイプは示されない。他の実施形態では、１つ以上の標準データタイプも示される。その他の変形も可能である。

一具体例において、インストール済みデータタイプフィールド３３６のビット０は、ＮＮＰ－データタイプ１のデータタイプ用に予約され、例えば１に設定されると、プロセッサがＮＮＰ－データタイプ１をサポートすることを示す。一例において、インストール済みデータタイプのビットベクトルは、最大１６のデータタイプを表すように構成され、各データタイプにビットが割り当てられる。ただし、他の実施形態において、ビットベクトルは、より多いデータタイプをサポートしてもよいし、より少ないデータタイプをサポートしてもよい。さらに、ベクトルは、１つ以上のビットが一のデータタイプに割り当てられるように構成されてもよい。多くの例が可能であり、かつ／または、追加のデータタイプ、より少ないデータタイプ、もしくは他のデータタイプ、もしくはその組み合わせがベクトルにおいてサポートもしくは表示もしくはその両方が行われてもよい。

一例において、クエリ関数は、モデル依存プロセッサにインストールされているデータタイプの表示を取得し、例えば、パラメータブロック３３０のインストール済みデータタイプフィールド３３６に１つ以上のビットを設定することによって、当該表示をパラメータブロックに配置する。さらに、一例において、クエリ関数は、インストール済みデータレイアウトフォーマット（別のデータ属性）の表示を取得し、例えば、インストール済みデータレイアウトフォーマットフィールド３３８に１つ以上のビットを設定することによって、当該情報をパラメータブロックに配置する。データレイアウトフォーマットの例としては、例えば、４次元特徴テンソルレイアウト（4D-feature tensor layout）および４次元カーネルテンソルレイアウト（4D-kernel tensor layout）が挙げられる。４次元特徴テンソルレイアウトは、一例において、本明細書で説明する関数によって使用され、一例において、畳み込み関数が４次元カーネルテンソルレイアウトを使用する。これらのデータレイアウトフォーマットは、ニューラルネットワーク処理アシスト命令の関数を実行する際の処理効率を向上させる方法で、ストレージ内のデータをテンソル用に配置する。例えば、ニューラルネットワーク処理アシスト命令は、効率的に動作するために、特定のデータレイアウトフォーマットで提供される入力テンソルを使用する。なお、例示的なレイアウトを提供したが、本明細書に記載の関数もしくは他の関数またはその両方について、追加のレイアウト、より少ないレイアウト、もしくは他のレイアウト、またはその組み合わせが提供されてもよい。

特定のプロセッサモデルに対するレイアウトの使用または利用可能性は、インストール済みデータレイアウトフォーマットのベクトル（たとえば、パラメータブロック３３０のフィールド３３８）によって提供される。このベクトルは、例えば、インストール済みデータレイアウトフォーマットのビットベクトルであり、ＣＰＵが、どのレイアウトがサポートされているかをアプリケーションに伝えることを可能にする。例えば、ビット０は４次元特徴テンソルレイアウト用に予約され、例えば１に設定されると、プロセッサが４次元特徴テンソルレイアウトをサポートしていることを示す。ビット１は４次元カーネルテンソルレイアウト用に予約され、例えば１に設定されると、プロセッサが４次元カーネルテンソルレイアウトをサポートしていることを示す。一例において、インストール済みデータレイアウトフォーマットのビットベクトルは、最大１６個のデータレイアウトを表すように構成され、各データレイアウトにビットが割り当てられる。ただし、他の実施形態において、ビットベクトルは、これより多いまたはこれより少ないデータレイアウトをサポートしてもよい。さらに、１つ以上のビットがデータレイアウトに割り当てられるようにベクトルが構成されてもよい。多くの例が可能である。４次元特徴テンソルレイアウトと４次元カーネルテンソルレイアウトの詳細は後述する。繰り返しになるが、性能を最適化するために、現在または将来において他のレイアウトを使用してもよい。

一例において、ニューラルネットワーク処理アシスト命令は、４次元テンソル、すなわち４次元を有するテンソルで動作する。これらの４次元テンソルは、本明細書で説明する一般的な入力テンソルから、たとえば行優先（row-major）の方法で得られる。すなわち、テンソル要素をメモリアドレスの増加順に列挙するときに、Ｅ１と呼ばれる内部次元は、まず、０から始まりＥ１インデックスサイズ１までＥ１インデックスサイズの値をステップアップし、その後、Ｅ２次元のインデックスが増加し、Ｅ１次元のステッピングが繰り返される。最後に、Ｅ４次元と呼ばれる外部次元のインデックスが増加される。

より低い次元数を持つテンソル（例えば、３次元または１次元テンソル）は、４次元テンソルとして表現され、４次元テンソルのうち元のテンソルの次元を超える１つ以上の次元は１に設定される。

次元Ｅ４、Ｅ３、Ｅ２、Ｅ１を有する行優先汎用４次元テンソルの、４次元特徴テンソルレイアウト（本明細書において、ＮＮＰＡデータレイアウトフォーマット０－４次元特徴テンソルとも呼ぶ）への変換について説明する。

結果として得られるテンソルは、例えば、６４要素ベクトルの４次元テンソル、または以下の次元を有する５次元テンソルとして表すことができる。

汎用テンソル（generic tensor）の要素［ｅ４］［ｅ３］［ｅ２］［ｅ１］は、結果として得られる５次元テンソルの以下の要素にマッピングされる。

結果として得られるテンソルは、汎用テンソルより大きくなる場合がある。結果として得られるテンソルの要素のうち、汎用テンソルに対応する要素がないものは、パッド要素（pad elements）と呼ばれる。

６４要素ベクトルのＮＮＰＡデータレイアウトフォーマット０－４次元特徴テンソルの要素［ｆｅ４］［ｆｅ１］［ｆｅ３］［ｆｅ２］［ｆｅ０］、またはそれと同等の表現を、要素の５次元テンソルと考える。この要素は、パッド要素であるか、または次元Ｅ４、Ｅ３、Ｅ２、Ｅ１を持つ汎用４次元テンソルの対応する要素のいずれかであり、以下の式で決定することができる。

fe2 ≧ E2の場合、Ｅ２（またはページ）パッド要素である。

そうでなければ、fe1 * 64 + fe0 ≧ E1の場合、Ｅ１（または行）パッド要素である。

そうでなければ、汎用４次元テンソルの対応する要素は以下の通りになる。

[fe4][fe3][fe2][fe1 * 64 + fe0]

畳み込みニューラルネットワークベースの人工知能モデルの場合、特徴テンソルの４次元の意味は、一般的に以下のようにマッピングできる。

Ｅ４：Ｎ－ミニバッチ（mini-batch）のサイズ

Ｅ３：Ｈ－３次元テンソル／画像の高さ

Ｅ２：Ｗ－３次元テンソル／画像の幅

Ｅ１：Ｃ－３次元テンソルのチャンネルまたはクラス

機械学習またはリカレントニューラルネットワークベースの人工知能モデルの場合、４次元特徴テンソルの４次元の意味は、一般的に以下のようにマッピングできる。

Ｅ４：Ｔ－時間ステップまたはモデルの数

Ｅ３：予備。通常は１に設定

Ｅ２：Ｎ_ｍｂ－ミニバッチサイズ

Ｅ１：Ｌ－特長

ＮＮＰＡデータレイアウトフォーマット０は、例えば、４ｋバイトのデータブロック（ページ）の２次元データ局所性と、生成テンソルの外部次元に対する４ｋバイトのブロックデータアライメントを提供する。

パッド要素バイトは入力テンソルでは無視され、出力テンソルでは予測不可能である。パッドバイト上のＰＥＲストレージの変更は予測不可能である。

次元Ｅ１、Ｅ２、Ｅ３、Ｅ４を有する４次元特徴テンソルレイアウトの入力データレイアウトの一例を図５の（Ａ）～（Ｃ）に示し、４次元特徴テンソルレイアウトの出力例を図６の（Ａ）～（Ｃ）に示す。図５の（Ａ）を参照すると、次元Ｅ１、Ｅ２、Ｅ３を有する３次元テンソル５００が示されている。一例において、各３次元テンソルは複数の２次元テンソル５０２を含む。各２次元テンソル５０２内の数値は、その各要素がメモリ内のどこに配置されるかのメモリオフセットを記述する。入力は、図５の（Ａ）～（Ｃ）に対応する図６の（Ａ）～（Ｃ）に示されるように、メモリ内の元のテンソル（例えば、図５の（Ａ）～（Ｃ）の元の４次元テンソル）のデータをレイアウトするために使用される。

図６の（Ａ）では、一例として、メモリ６００のユニット（例えば、メモリページ）は、各々が、例えばｅ２＿ｐａｇｅ＿ｉｄｘによって識別される、予め選択された数（例えば、３２）の行６０２を含む。各行は、各々が、例えばｅ１＿ｐａｇｅ＿ｉｄｘによって識別される、予め選択された数（例えば、６４）の要素６０４を有する。ある行が、予め選択された数の要素を含まない場合、行パディングまたはＥ１パディングと呼ばれるパディング６０６が行われる。メモリユニットが、予め選択された数の行を持たない場合、ページパディングまたはＥ２パディングと呼ばれるパディング６０８が行われる。例として、行パディングは、例えば、０または他の値であり、ページパディングは、例えば、既存の値、０、または他の値である。

一例において、行の出力要素は、その対応する入力のＥ１方向における要素位置に基づいて、メモリ内（たとえばページ内）に提供される。例えば、図５の（Ａ）を参照すると、図示の３つの行列の要素位置０、１および２（例えば、各行列の同じ位置における要素位置）は、図６の（Ａ）のページ０の行０に示されている、などである。この例では、４次元テンソルは小さく、４次元テンソルを表す各２次元テンソルの要素のすべてが１ページに収まっている。ただし、これは一例に過ぎない。２次元テンソルは、１つ以上のページを含んでもよい。２次元テンソルが４次元テンソルの再編成（reformatting）に基づいて作成される場合、２次元テンソルのページ数は、４次元テンソルのサイズに基づく。一例において、１つ以上のｃｅｉｌ関数を使用して、何ページ使用されるかを示す、２次元テンソルの行数および各行の要素数が決定される。他の変形も可能である。

一例において、４次元特徴テンソルレイアウトに加えて、ニューラルネットワークプロセッサは、畳み込みなどの特定の人工知能（例えば、ニューラルネットワーク処理アシスト）演算を実行する際に、メモリアクセスおよびデータ収集ステップの数を削減するために４次元テンソルの要素を再配置する、４次元カーネルテンソルをサポートしてもよい。一例において、次元Ｅ４、Ｅ３、Ｅ２、Ｅ１を持つ行優先汎用４Ｄテンソルは、本明細書で説明するように、ＮＮＰＡデータレイアウトフォーマット１－４次元カーネルテンソル（４次元カーネルテンソル）に変換される。

結果として得られるテンソルは、例えば６４要素ベクトルの４次元テンソル、または以下の次元を持つ５次元テンソルとして表すことができる。

結果として得られるテンソルは、汎用テンソルより大きくなる場合がある。結果として得られるテンソルの要素のうち、汎用テンソルに対応する要素がないものは、パッド要素と呼ばれる。

６４要素ベクトルのＮＮＰＡデータレイアウトフォーマット１－４次元特徴テンソルの要素［ｆｅ４］［ｆｅ１］［ｆｅ３］［ｆｅ２］［ｆｅ０］、またはそれと同等の表現を、要素の５次元テンソルと考える。この要素は、パッド要素であるか、または次元Ｅ４、Ｅ３、Ｅ２、Ｅ１を持つ汎用４次元テンソルの対応する要素のいずれかであり、以下の式で決定することができる。

fe2 ≧ E2の場合、Ｅ２（またはページ）パッド要素である。

[fe4][fe3][fe2][fe1 * 64 + fe0]

畳み込みニューラルネットワークベースの人工知能モデルの場合、カーネルテンソルの４次元の意味は、一般的に以下のようにマッピングできる。

Ｅ４：Ｈ－３次元テンソル／画像の高さ

Ｅ３：Ｗ－３次元テンソル／画像の幅

Ｅ２：Ｃ－３次元テンソルのチャンネル数

Ｅ１：Ｋ－カーネル数

ＮＮＰＡデータレイアウトフォーマット１は、効率的な処理のために、例えば、４ｋバイトのデータブロック（ページ）内の２次元カーネル並列性（parallelism）と、生成テンソルの外部次元に対する４ｋバイトブロックデータアライメントを提供する。

パッドバイトは入力テンソルでは無視される。パッドバイト上のＰＥＲストレージの変更は予測不可能である。

繰り返しになるが、例示的なデータレイアウトフォーマットは４次元特徴テンソルレイアウトおよび４次元カーネルテンソルレイアウトを含むが、他のデータレイアウトフォーマットがプロセッサ（例えば、ニューラルネットワークプロセッサ１０５）によってサポートされてもよい。サポートされるデータレイアウトの表示は、例えば、フィールド３３８に１つ以上のビットを設定することによって取得され、クエリパラメータブロックに配置される。

照会パラメータブロックはまた、本発明の１つ以上の態様に従って、他のデータ属性情報を含む。他のデータ属性情報は、例えば、データのサポートサイズ情報（supported size information）を含む。ニューラルネットワークプロセッサなどのプロセッサは、通常、テンソルの次元の最大サイズもしくはテンソルの全体サイズまたはその両方を制限することができる内部バッファサイズ、処理ユニット、データバス構造、ファームウェア制限などに基づく制限を有する。したがって、クエリ関数はこれらの制限をアプリケーションに伝達するためのフィールドを提供する。例えば、プロセッサは、クエリ関数の実行に基づいて、最大次元インデックスサイズ（例えば、６５，５３６要素）および最大テンソルサイズ（例えば、８ＧＢ）などの様々なデータサイズを取得し、この情報をパラメータブロック（例えば、パラメータブロック３３０）のフィールド３４０および３４２にそれぞれ含める。なお、追加のサイズ情報、より少ないサイズ情報、もしくは他のサイズ情報、またはその組み合わせがプロセッサ（例えば、ニューラルネットワークプロセッサ１０５）によってサポートされてもよく、したがって、取得され、パラメータブロック（例えば、フィールド３４０、３４２もしくは他のフィールドまたはその両方）に配置されてもよい。他の実施形態において、制限はより小さくてもより大きくてもよいし、もしくは、サイズは要素の代わりにバイト、バイトの代わりに要素など、他の単位であってもよいし、その両方であってもよい。さらに、他の実施形態において、すべての次元について同じ最大サイズではなく、各次元の最大サイズが異なっていてもよい。多くの変形が可能である。

本発明の１つ以上の態様に従って、選択されたプロセッサ（例えば、ニューラルネットワークプロセッサ１０５）の特定のモデルに関連する詳細情報を伝達するクエリ関数が提供される。詳細情報には、例えば、特定のプロセッサに関連するモデル依存情報が含まれる（プロセッサはまた、標準データタイプ、標準データレイアウトなどの標準データ属性をサポートしてもよく、これらは、クエリ関数によって暗示され、必ずしも提示はされない。ただし、他の実施形態において、クエリ関数は、データ属性のすべてまたは種々の選択されたサブセットなどを表示してもよい）。例示的な情報を提供しているが、他の実施形態において、他の情報が提供されてもよい。取得された情報（これは、一のプロセッサの異なるモデル、もしくは異なるプロセッサの異なるモデル、またはその両方において異なっていてもよい）は、人工知能処理もしくは他の処理またはその両方を実行するために使用される。人工知能処理もしくは他の処理またはその両方は、例えば、ニューラルネットワーク処理アシスト命令の１つ以上の非クエリ関数を採用してもよい。処理に採用される特定の非クエリ関数は、ニューラルネットワーク処理アシスト命令を１回以上実行し、特定の非クエリ関数を指定することによって実行される。

ニューラルネットワーク処理アシスト命令によってサポートされる非クエリ関数の例を以下に説明する（なお、他の実施形態において、追加の関数、より少ない関数、もしくは他の関数、またはその組み合わせがサポートされてもよい）。

関数コード１６：ＮＮＰＡ－ＡＤＤ（加算）

ＮＮＰＡ－ＡＤＤ関数が指定されると、テンソル記述子１によって記述された入力テンソル１の各要素が、テンソル記述子２によって記述された入力テンソル２の対応する要素に加算され、その結果の和が、出力テンソル記述子によって記述された出力テンソルの対応する要素に配置される。

一例において、指定されたテンソル記述子のいずれかの指定されたデータレイアウトが４次元特徴テンソルを指定しない場合（例えば、データレイアウト＝０）、または、指定されたテンソル記述子のデータタイプがＮＮＰ－データタイプ１を指定しない場合（例えば、データタイプ＝０）、応答コード（例えば、それぞれ１６進数「００１０」または１６進数「００１１」）が汎用レジスタ０に設定され、命令は、例えば「１」の条件コードで完了する。

一例において、入力テンソル１、入力テンソル２、および出力テンソルの形状、データレイアウト、およびデータタイプは同じである。そうでない場合、一般オペランドデータ例外（general operand data exception）が認識される。

一例において、出力テンソル記述子２、入力テンソル記述子３、関数固有パラメータ１～５、および関数固有セーブ領域アドレスフィールドは無視される。

関数コード１７：ＮＮＰＡ－ＳＵＢ（減算）

ＮＮＰＡ－ＳＵＢ関数が指定されると、テンソル記述子２によって記述された入力テンソル２の各要素が、テンソル記述子１によって記述された入力テンソル１の対応する要素から減算され、その結果得られた差分が、出力テンソルの対応する要素に配置される。

一例において、入力テンソル１、入力テンソル２、および出力テンソルの形状、データレイアウト、およびデータタイプは同じである。そうでない場合、一般オペランドデータ例外が認識される。

関数コード１８：ＮＮＰＡ－ＭＵＬ（乗算）

ＮＮＰＡ－ＭＵＬ関数が指定されると、テンソル記述子１によって記述された入力テンソル１の各要素（乗数）と、テンソル記述子２によって記述された入力テンソル２の対応する要素（被乗数）との積が、出力テンソルの対応する要素に配置される。

関数コード１９：ＮＮＰＡ－ＤＩＶ（除算）

ＮＮＰＡ－ＤＩＶ関数が指定されると、テンソル記述子１によって記述された入力テンソル１の各要素（被除数）は、テンソル記述子２によって記述された入力テンソル２の対応する要素（除数）で除算され、その商が出力テンソルの対応する要素に配置される。

関数コード２０：ＮＮＰＡ－ＭＩＮ（最小）

ＮＮＰＡ－ＭＩＮ関数が指定されると、テンソル記述子１によって記述された入力テンソル１の各要素が、テンソル記述子２によって記述された入力テンソル２の対応する要素と比較される。２つの値のうち小さい方が、出力テンソル記述子の対応する要素に配置される。両方の値が等しい場合、その値が出力テンソルの対応する要素に配置される。

関数コード２１：ＮＮＰＡ－ＭＡＸ（最大）

ＮＮＰＡ－ＭＡＸ関数が指定されると、テンソル記述子１によって記述された入力テンソル１の各要素が、テンソル記述子２によって記述された入力テンソル２の対応する要素と比較される。２つの値のうち大きい方が、出力テンソル記述子の対応する要素に配置される。両方の値が等しい場合、その値が出力テンソルの対応する要素に配置される。

関数コード３２：ＮＮＰＡ－ＬＯＧ（自然対数）

ＮＮＰＡ－ＬＯＧ関数が指定されると、テンソル記述子１によって記述された入力テンソルの各要素について、その要素が０より大きい場合、出力テンソル記述子によって記述された出力テンソルの対応する要素は、その要素の自然対数となる。そうでない場合、出力テンソルの対応する要素は数値表現できず、対象データタイプの負の無限大（negative infinity）に関連する値が記憶される。

一例において、入力テンソル１および出力テンソルの形状、データレイアウト、およびデータタイプは同じである。そうでない場合、一般オペランドデータ例外が認識される。

一例において、出力テンソル記述子２、入力テンソル記述子２、入力テンソル記述子３、関数固有パラメータ１～５、および関数固有セーブ領域アドレスフィールドは無視される。

関数コード３３：ＮＮＰＡ－ＥＸＰ（指数）

ＮＮＰＡ－ＥＸＰ関数が指定されると、テンソル記述子１によって記述された入力テンソルの各要素について、出力テンソル記述子によって記述された出力テンソルの対応する要素が、その要素の指数となる。

関数コード４９：ＮＮＰＡ－ＲＥＬＵ（正規化線形ユニット（Rectified Linear Unit））

ＮＮＰＡ－ＲＥＬＵ関数が指定されると、テンソル記述子１によって記述された入力テンソルの各要素について、その要素が０以下の場合、出力テンソル記述子によって記述された出力テンソルの対応する要素は０である。そうでない場合、出力テンソルの対応する要素は、入力テンソルの要素と、関数固有パラメータ１で指定されたクリッピング値（clipping value）とのうちの最小値となる。

一例として、関数固有パラメータ１は、ＲＥＬＵ操作のクリッピング値を定義する。例えば、クリッピング値は関数固有パラメータ１のビット１６～３１にある。クリッピング値は、例えば、ＮＮＰＡ－データタイプ１フォーマットで指定される。０のクリッピング値は、正の最大値が使用されること、言い換えると、クリッピングが行われないことを示す。負の値が指定された場合、一般オペランドデータ例外が認識される。

一例において、出力テンソル記述子２、入力テンソル記述子２、入力テンソル記述子３、および関数固有セーブ領域アドレスフィールドは無視される。一例において、関数固有パラメータ２～５はゼロを含む。

関数コード５０：ＮＮＰＡ－ＴＡＮＨ

ＮＮＰＡ－ＴＡＮＨ関数が指定されると、テンソル記述子１によって記述された入力テンソルの各要素について、出力テンソル記述子によって記述された出力テンソルの対応する要素値は、その要素の双曲線正接となる。

関数コード５１：ＮＮＰＡ－ＳＩＧＭＯＩＤ

ＮＮＰＡ－ＳＩＧＭＯＩＤ関数が指定されると、テンソル記述子１によって記述された入力テンソルの各要素について、出力テンソル記述子によって記述された出力テンソルの対応する要素は、その要素のＳ字形(sigmoidal)となる。

関数コード５２：ＮＮＰＡ－ＳＯＦＴＭＡＸ

ＮＮＰＡ－ＳＯＦＴＭＡＸ関数が指定されると、入力テンソル１の次元１の各ベクトルについて、以下に説明するように、出力テンソルの対応するベクトルが計算される。

＊ベクトルの最大値が計算される。

＊ベクトルの次元１の各要素と上記で計算された最大値との差の指数の和が計算される。入力ベクトルの次元１の要素と上記で計算された最大値の両方が数値であり、差が非数値である場合、その要素の指数の結果は強制的にゼロになる。

＊ベクトルの各要素について、その要素と上記で計算された最大値との差の指数を上記で計算された和で割ることにより、中間商（intermediate quotient）が形成される。任意の活性化関数がこの中間商に適用され、出力ベクトルの対応する要素が形成される。

このプロセスは、例えば、次元１のすべての次元４インデックスサイズ×次元３インデックスサイズ×次元２インデックスサイズのベクトルについて繰り返される。

一例において、ＮＮＰＡ－ＳＯＦＴＭＡＸ関数固有パラメータ１は、活性化関数を制御する。一例として、関数固有パラメータ１のＡＣＴフィールド（例えば、ビット２８～３１）が活性化関数を指定する。活性化関数の例には以下が含まれる。

ＡＣＴ活性化関数

０活性化関数は実行しない

１ＬＯＧ

２～１５予備

ＡＣＴフィールドに予備の値が指定された場合、例えば１６進数「Ｆ００１」の応答コードが報告され、例えば「１」の条件コードで演算が完了する。

一例において、入力テンソルの次元３インデックスサイズが１に等しくない場合、例えば、１６進数「Ｆ０００」の応答コードが記憶され、命令は、例えば「１」の条件コードで完了する。

一例において、出力テンソル記述子２、入力テンソル記述子２、および入力テンソル記述子３は無視される。一例において、関数固有パラメータ２～５はゼロを含む。

８Ｋバイトの関数固有セーブ領域が、この関数によって使用されてもよい。

一実施形態において、次元１のベクトルを取得する場合、指定されたデータレイアウトフォーマットによっては、メモリ内で要素が連続しない場合がある。入力テンソル１の次元１のベクトルのすべての要素が、指定されたデータタイプで表現可能な最大の大きさの負の数を含む場合、結果の精度が低下する可能性がある。

関数コード６４：ＮＮＰＡ－ＢＡＴＣＨＮＯＲＭ（バッチ正規化）

ＮＮＰＡ－ＢＡＴＣＨＮＯＲＭ関数が指定されると、入力１テンソルの次元１の各ベクトルについて、そのベクトルの各要素に、入力２テンソルを構成する次元１ベクトルの対応する要素を乗算することによって、出力テンソルの次元１の対応するベクトルが計算される。そして、完全精度積（full precision product）が、入力３テンソルを構成する次元１ベクトルの対応する要素に加算され、出力テンソルの指定されたデータタイプの精度に丸められる。このプロセスは、例えば、次元１のすべての次元４インデックスサイズ×次元３インデックスサイズ×次元２インデックスサイズのベクトルについて繰り返される。

一例において、以下の条件が真となり、そうでない場合、一般オペランドデータ例外が認識される。

＊入力テンソル１と出力テンソルの形状およびデータレイアウトは同じである。

＊入力テンソルと出力テンソルのデータタイプは同じである。

＊入力テンソル１、２、３と出力テンソルの次元１インデックスサイズは同じである。

＊入力テンソル２および３の次元２、３、４インデックスサイズは１である。

一例において、出力テンソル記述子２および関数固有セーブ領域アドレスフィールドは無視される。一例において、関数固有パラメータ２～５はゼロを含む。

関数コード８０：ＮＮＰＡ－ＭＡＸＰＯＯＬ２Ｄ
関数コード８１：ＮＮＰＡ－ＡＶＧＰＯＯＬ２Ｄ

ＮＮＰＡ－ＭＡＸＰＯＯＬ２Ｄ関数またはＮＮＰＡ－ＡＶＧＰＯＯＬ２Ｄ関数のいずれかが指定されると、入力テンソル１記述子によって記述された入力テンソル１が、指定された演算によって縮小し、入力ウィンドウ（windows of the input）を要約（summarize）する。入力ウィンドウは、次元インデックス２および３上で２次元スライディングウィンドウを移動することによって選択される。ウィンドウの要約は、出力テンソルの要素となる。スライディングウィンドウの次元は、例えば関数固有パラメータ４および関数固有パラメータ５によって記述される。隣接する出力テンソル要素を計算する際に、スライディングウィンドウが入力１テンソル上を移動する量をストライド（stride）と呼ぶ。スライディングウィンドウのストライドは、例えば関数固有パラメータ２および関数固有パラメータ３によって指定される。ＮＮＰＡ－ＭＡＸＰＯＯＬ２Ｄ演算が指定された場合、以下に定義するＭａｘ演算がウィンドウに対して実行される。ＮＮＰＡ－ＡＶＧＰＯＯＬ２Ｄ演算が指定された場合、以下に定義するＡＶＧ演算がウィンドウに対して実行される。指定されたパディングタイプが「Ｖａｌｉｄ」の場合、ウィンドウ内のすべての要素が、出力要素の計算に使用される集合（collection）に追加される。指定されたパディングタイプが「Ｓａｍｅ」の場合、ウィンドウの位置に応じて、ウィンドウからの要素のサブセットのみが、出力要素の計算に使用される集合に追加されてもよい。

一例において、ＣｏｌｌｅｃｔＥｌｅｍｅｎｔｓ演算は、要素の集合に一の要素を追加し、集合内の要素の数をインクリメントする。ウィンドウの開始位置が移動するたびに、集合は空になる。演算の実行に必要のない要素にアクセスするかどうかは予測不可能である。

Ｍａｘ演算：一例において、ウィンドウ内の要素の集合の最大値は、集合内のすべての要素を互いに比較し、最大の値を返すことによって計算される。

Ａｖｇ（平均）演算：一例において、ウィンドウ内の要素の集合の平均値は、集合内のすべての要素の合計を集合内の要素の数で割ったものとして計算される。

一例において、フィールドは以下のように割り当てられる。

＊プーリング関数固有パラメータ１は、パディングタイプを制御する。例えば、関数固有パラメータ１のビット２９～３１は、パディングタイプを指定するＰＡＤフィールドを含む。タイプの例には、例えば以下が含まれる。

ＰＡＤパディングタイプ

０Ｖａｌｉｄ

１Ｓａｍｅ

２～７予備

ＰＡＤフィールドに予備の値が指定された場合、例えば１６進数「Ｆ０００」の応答コードが報告され、演算は、例えば「１」の条件コードで完了する。

一例において、関数固有パラメータ１のビット位置０～２８は予備であり、ゼロを含む。

＊関数固有パラメータ２は、例えば、次元２でスライディングウィンドウが移動する要素数を指定する次元２ストライド（Ｄ２Ｓ：dimension-2-stride）を指定する３２ビットの符号なし２進整数を含む。

＊関数固有パラメータ３は、例えば、次元３でスライディングウィンドウが移動する要素数を指定する次元３ストライド（Ｄ３Ｓ）を指定する３２ビットの符号なし２進整数を含む。

＊関数固有パラメータ４は、例えば、スライディングウィンドウが含む次元２の要素数を指定する次元２ウィンドウサイズ（Ｄ２ＷＳ：dimension-2-window-size）を指定する３２ビットの符号なし２進整数を含む。

＊関数固有パラメータ５は、例えば、スライディングウィンドウが含む次元３の要素数を指定する次元３ウィンドウサイズ（Ｄ３ＷＳ）を指定する３２ビットの符号なし２進整数を含む。

一例において、関数固有パラメータ２～５の指定値は最大次元インデックスサイズ以下であり、関数固有パラメータ４～５の指定値はゼロより大きい。そうでない場合、例えば１６進数「００１２」の応答コードが報告され、演算は、例えば「１」の条件コードで完了する。

次元２ストライドおよび次元３ストライドがともに０であり、かつ次元２ウィンドウサイズまたは次元３ウィンドウサイズのいずれかが例えば１０２４より大きい場合、例えば１６進数「Ｆ００１」の応答コードが記憶される。次元２ストライドおよび次元３ストライドがともに例えば０より大きく、かつ次元２ウィンドウサイズまたは次元３ウィンドウサイズのいずれかが例えば６４より大きい場合、例えば１６進数「Ｆ００２」の応答コードが記憶される。次元２ストライドおよび次元３ストライドがともに例えば０より大きく、かつ次元２ストライドまたは次元３ストライドのいずれかが例えば３０より大きい場合、例えば１６進数「Ｆ００３」の応答コードが記憶される。次元２ストライドおよび次元３ストライドがともに例えば０より大きく、入力テンソル次元２インデックスサイズまたは入力テンソル次元３インデックスサイズのいずれかが例えば１０２４より大きい場合、例えば１６進数「Ｆ００４」の応答コードが記憶される。上記のすべての条件について、命令は、例えば「１」の条件コードで完了する。

＊入力テンソルと出力テンソルの次元４インデックスサイズおよび次元１インデックスサイズは同じである。

＊入力テンソルと出力テンソルのデータレイアウトおよびデータタイプは同じである。

＊次元２ストライドおよび次元３ストライドがともに０である場合、一例において以下の追加の条件が真となる。

＊入力テンソル次元２インデックスサイズは、次元２ウィンドウサイズと等しい。

＊入力テンソルの入力テンソル次元３インデックスサイズは、次元３ウィンドウサイズと等しい。

＊出力テンソルの次元２インデックスサイズと次元３インデックスサイズは１である。

＊指定されたパディングはＶａｌｉｄである。

＊次元２ストライドまたは次元３ストライドのいずれかが非０である場合、一例において、両方のストライドが非０である。

＊次元２ストライドと次元３ストライドがともに０より大きい場合、一例において以下の追加の条件が真となる。

＊指定されたパディングがＶａｌｉｄの場合、次元２ウィンドウサイズは、入力テンソルの次元２インデックスサイズ以下である。

＊指定されたパディングがＶａｌｉｄの場合、次元３ウィンドウサイズは、入力テンソルの次元３インデックスサイズ以下である。

＊指定されたパディングがＳａｍｅの場合、入力テンソルと出力テンソルの次元２インデックスサイズと次元３インデックスサイズとの間で以下の関係が満たされる（プーリングＳａｍｅパディング）。

ここで、以下の通りである。

ＩｘＤｙＩＳテンソル記述子ｘで定義される入力テンソルｘの次元ｙインデックスサイズ

ＯｘＤｙＩＳテンソル記述子ｘで定義される出力テンソルｘの次元ｙインデックスサイズ

Ｄ２Ｓ次元２ストライド

Ｄ３Ｓ次元３ストライド

＊指定されたパディングがＶａｌｉｄの場合、入力テンソルと出力テンソルの次元２インデックスサイズと次元３インデックスサイズとの間で以下の関係が満たされる（プーリングＶａｌｉｄパディング）。

ここで、Ｄ２ＷＳは次元２ウィンドウサイズであり、Ｄ３ＷＳは次元３ウィンドウサイズである。

出力テンソル記述子２、入力テンソル記述子２、３、および関数固有セーブ領域アドレスフィールドは無視される。

関数コード９６：ＮＮＰＡ－ＬＳＴＭＡＣＴ（長・短期記憶活性化（Long Short-Term Memory Activation））

ＮＮＰＡ－ＬＳＴＭＡＣＴ関数が指定されると、入力テンソル１記述子によって記述され、各次元４インデックス値について４つのサブテンソルに分割された入力テンソル１が、入力テンソル２記述子によって記述され、各次元４インデックス値について４つのサブテンソルに分割された入力テンソル２、および入力テンソル３記述子によって記述された入力テンソル３とともに、ＬＳＴＭＡＣＴ演算の入力となる。ＬＳＴＭＡＣＴ演算の終了時には、出力テンソル１記述子によって記述された出力テンソル１と、出力テンソル２記述子によって記述された出力テンソル２とに結果が書き込まれる。

一例において、指定されたテンソル記述子のいずれかの指定されたデータレイアウトが４次元特徴テンソルを指定しない場合（例えば、データレイアウト＝０）、または、指定されたテンソル記述子のデータタイプがＮＮＰ－データタイプ１を指定しない場合（例えば、データタイプ＝０）、それぞれ１６進数「００１０」または１６進数「００１１」の応答コードが汎用レジスタ０に設定され、命令は、例えば「１」の条件コードで完了する。

一実施形態において、以下の条件が真となり、そうでない場合、一般オペランドデータ例外が認識される。

＊入力テンソル３と出力テンソル１、２の次元４インデックスサイズは、例えば１に等しい。

＊入力テンソル１と入力テンソル２の次元４インデックスサイズは、例えば４に等しい。

＊例えば、すべての入力テンソルと２つの出力テンソルの次元３インデックスサイズは、例えば１に等しい。

＊例えば、すべての入力テンソルと２つの出力テンソルのデータレイアウトおよびデータタイプは同じである。

＊例えば、すべての入力テンソルと２つの出力テンソルの次元１インデックスサイズは同じである。

＊例えば、すべての入力テンソルと２つの出力テンソルの次元２インデックスサイズは同じである。

一例において、関数固有セーブ領域アドレスフィールドは無視される。関数固有パラメータ１～５は、一例において０を含む。

関数コード９７：ＮＮＰＡ－ＧＲＵＡＣＴ（ゲート付き再帰ユニット活性化（Gated Recurrent Unit Activation））

ＮＮＰＡ－ＧＲＵＡＣＴ関数が指定されると、入力テンソル１記述子によって記述され、各次元４インデックス値について３つのサブテンソルに分割された入力テンソル１が、入力テンソル２記述子によって記述され、各次元４インデックス値について３つのサブテンソルに分割された入力テンソル２、および入力テンソル３記述子によって記述された入力テンソル３とともに、ＧＲＵＡＣＴ演算の入力となる。ＧＲＵＡＣＴ演算の終了時には、出力テンソル記述子によって記述された出力テンソルが記録される。

＊出力テンソルと入力テンソル３の次元４インデックスサイズは、例えば１に等しい。

＊例えば、入力テンソル１と入力テンソル２の次元４インデックスサイズは、例えば３に等しい。

＊例えば、すべての入力テンソルと出力テンソルの次元３インデックスサイズは、例えば１に等しい。

＊例えば、すべての入力テンソルと出力テンソルの次元１インデックスサイズは同じである。

＊例えば、すべての入力テンソルと出力テンソルの次元２インデックスサイズは同じである。

＊例えば、すべての入力テンソルと出力テンソルのデータレイアウトおよびデータタイプは同じである。

一例において、出力テンソル記述子２および関数固有セーブ領域アドレスフィールドは無視される。関数固有パラメータ２～５は、一例において０を含む。

関数コード１１２：ＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ

ＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ関数が指定されると、出力テンソル１記述子によって記述された出力テンソルの各出力要素について、次元インデックス３、２、１からなる３次元入力１ウィンドウが、入力テンソル１記述子によって記述された入力テンソル１から選択される。次元インデックス４、３、２からなる同じサイズの３次元入力２ウィンドウが、入力テンソル２記述子によって記述されたテンソル２から選択される。入力１ウィンドウの要素は、入力２ウィンドウの対応する要素と乗算され、すべての積が加算されて初期和（initial summation）が作成される。この初期和を入力テンソル３の対応する要素に加算し、中間和（intermediate summation）の値を計算する。出力テンソルの要素は、中間和に対して指定の活性化関数を実行した結果となる。活性化関数が指定されていない場合、出力要素は中間和に等しい。

指定されたパディングタイプがＶａｌｉｄの場合、ウィンドウのすべての要素が、初期和を計算するために使用される。指定されたパディングタイプがＳａｍｅの場合、ウィンドウの位置によっては、初期和を計算する際に、入力１ウィンドウの一部の要素が暗黙的に０となる場合がある。

演算の実行に必要でない要素がアクセスされるかどうかは予測不可能である。

一例において、畳み込み関数によって使用される関数固有パラメータのフィールドは、以下のように割り当てられる。

＊ＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ関数固有パラメータ１は、パディングタイプおよび活性化関数を制御する。一例において、関数固有パラメータ１のビット２９～３１は、パディングタイプを指定するＰＡＤフィールドを含む。以下にタイプの例を示す。

ＰＡＤパディングタイプ

０Ｖａｌｉｄ

１Ｓａｍｅ

２～７予備

ＰＡＤフィールドに予備の値が指定された場合、例えば１６進数「Ｆ０００」の応答コードが報告され、例えば「１」の条件コードで動作が完了する。

さらに、一例において、ＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ関数固有パラメータ１のビット２４～２７は、活性化関数を指定する活性化フィールドを含む。関数の例を以下に示す。

ＡＣＴ活性化関数

０活性化関数は実行しない

１ＲＥＬＵ

２～１５予備

ＲＥＬＵの活性化関数が指定された場合、次のように出力要素値が決定される。中間和の値が０以下であれば、出力テンソルの対応する要素は０となる。そうでない場合、出力テンソルの対応する要素は、中間和の値と、関数固有パラメータ４で指定されたクリッピング値とのうちの最小値となる。

ＡＣＴフィールドに予備の値が指定された場合、例えば１６進数「Ｆ００１」の応答コードが報告され、例えば「１」の条件コードで動作が完了する。

＊関数固有パラメータ２は、例えば、次元２でスライディングウィンドウが移動する要素数を指定する次元２ストライド（Ｄ２Ｓ）を指定する３２ビットの符号なし２進整数を含む。

関数固有パラメータ２～３の指定された値は、最大次元インデックスサイズよりも小さい。そうでない場合、例えば１６進数「００１２」の応答コードが報告され、演算は、例えば「１」の条件コードで完了する。

＊関数固有パラメータ４は、任意のＲＥＬＵ演算のクリッピング値を定義する。一例において、クリッピング値は関数固有パラメータ４のビット１６～３１にある。

一例において、ＡＣＴフィールドが０の場合、クリッピング値フィールドは無視される。ＡＣＴフィールドがＲＥＬＵを指定する場合、クリッピング値はＮＮＰ－データタイプ１フォーマットで指定される。０のクリッピング値は、正の最大値が使用されること、言い換えると、クリッピングが行われないことを示す。非０が指定された場合、一般オペランドデータ例外が認識される。

一例において、入力テンソル２を除く指定されたテンソル記述子のいずれかの指定されたデータレイアウトが４次元特徴テンソルを指定しない場合（例えば、データレイアウト＝０）、または、入力テンソル２の指定されたデータレイアウトが４次元カーネルテンソルを指定しない場合（例えば、データレイアウト＝１）、例えば１６進数「００１０」の応答コードが汎用レジスタ０に設定され、命令は、例えば「１」の条件コードで完了する。一例において、指定されたテンソル記述子のデータタイプがＮＮＰ－データタイプ１を指定しない場合（例えば、データタイプ＝０）、例えば１６進数「００１１」の応答コードが汎用レジスタ０に設定され、命令は、例えば「１」の条件コードで完了する。

次元２ストライドおよび次元３ストライドがともに０であり、かつ入力テンソル２の次元３インデックスサイズまたは次元４インデックスサイズが例えば４４８より大きい場合、例えば１６進数「Ｆ００２」の応答コードが記憶される。次元２ストライドおよび次元３ストライドがともに０より大きく、入力テンソル２の次元３インデックスサイズまたは次元４インデックスサイズのいずれかが例えば６４より大きい場合、例えば１６進数「Ｆ００３」の応答コードが記憶され、演算は、例えば「１」の条件コードで完了する。次元２ストライドまたは次元３ストライドのいずれかが例えば１３より大きい場合、例えば１６進数「Ｆ００４」の応答コードが記憶され、演算は、例えば「１」の条件コードで完了する。

＊入力テンソル１、入力テンソル３、および出力テンソルのデータレイアウトは同じである。

＊すべての入力テンソルと出力テンソルのデータタイプは同じである。

＊入力３テンソルの次元２、次元３、次元４インデックスサイズは１である。

＊出力テンソルの次元４インデックスサイズは、入力１テンソルの次元４インデックスサイズに等しい。

＊出力テンソルの次元１インデックスサイズは、入力２テンソルの次元１インデックスサイズおよび入力３テンソルの次元１インデックスサイズに等しい。

＊入力１テンソルの次元１インデックスサイズは、入力２テンソルの次元２インデックスサイズに等しい。

＊次元２ストライドと次元３ストライドがともに０である場合、一例において以下の追加の条件が真となる。

＊入力１テンソルの次元２インデックスサイズは、入力２テンソルの次元３インデックスサイズに等しい。

＊入力１テンソルの次元３インデックスサイズは、入力２テンソルの次元４インデックスサイズに等しい。

＊出力テンソルの次元２インデックスサイズおよび次元３インデックスサイズは１である。

＊指定されたパディングはＶａｌｉｄである。

＊次元２ストライドまたは次元３ストライドのいずれかが非０である場合、両方のストライドが非０である。

＊指定されたパディングがＶａｌｉｄの場合、入力１テンソルの次元２インデックスサイズは、入力テンソル２の次元３インデックスサイズ以上である。

＊指定されたパディングがＶａｌｉｄの場合、入力１テンソルの次元３インデックスサイズは、入力２テンソルの次元４インデックスサイズ以上である。

＊指定されたパディングがＳａｍｅの場合、一例において、入力１テンソルと出力テンソルの次元２インデックスサイズと次元３インデックスサイズとの間で以下の関係が満たされる（畳み込みＳａｍｅパディング）。

ここで、以下の通りである。

Ｏ１Ｄ２ＩＳ出力テンソルの次元２インデックスサイズ

Ｏ１Ｄ３ＩＳ出力テンソルの次元３インデックスサイズ

Ｉ１Ｄ２ＩＳ入力１テンソルの次元２インデックスサイズ

Ｉ１Ｄ３ＩＳ入力１テンソルの次元３インデックスサイズ

Ｄ２Ｓ次元２ストライド

Ｄ３Ｓ次元３ストライド

＊指定されたパディングがＶａｌｉｄの場合、一例において、入力１テンソルの次元２インデックスサイズおよび次元３インデックスサイズと、入力２テンソルの次元３インデックスサイズおよび次元４インデックスサイズと、出力テンソルとの間で以下の関係が満たされる（畳み込みＶａｌｉｄパディング）。

ここで、以下の通りである。

Ｏ１Ｄ２ＩＳ出力テンソルの次元２インデックスサイズ

Ｏ１Ｄ３ＩＳ出力テンソルの次元３インデックスサイズ

Ｉ１Ｄ２ＩＳ入力１テンソルの次元２インデックスサイズ

Ｉ１Ｄ３ＩＳ入力１テンソルの次元３インデックスサイズ

Ｉ２Ｄ３ＩＳ入力２テンソルの次元３インデックスサイズ

Ｉ２Ｄ４ＩＳ入力２テンソルの次元４インデックスサイズ

Ｄ２Ｓ次元２ストライド

Ｄ３Ｓ次元３ストライド

一例において、出力テンソル記述子２および関数固有セーブ領域アドレスフィールドは無視される。関数固有パラメータ５は、一例において０を含む。

関数コード１１３：ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ（行列乗算演算（Matrix Multiplication Operation））

ＮＮＰＡ－ＭＡＴＭＵＬ関数が指定された場合、出力テンソル記述子によって記述された出力テンソルの各要素は、一例において以下に説明するように計算される。

＊入力テンソル１記述子によって記述された入力テンソル１から、後述する次元１ベクトル取得演算（get-dimension-1-vector operation）を用いて、次元１ベクトルが選択される。

＊入力テンソル２記述子によって記述された入力テンソル２から、後述する次元２ベクトル取得演算（get-dimension-2-vector operation）を用いて、次元２ベクトルが選択される。

＊次元１ベクトルと次元２ベクトルの中間ドット積（intermediate dot product）は、後述するドット積演算を用いて計算される。

＊中間ドット積と、入力テンソル３記述子によって記述された、出力テンソル要素と同じ次元インデックス４および次元インデックス１の値を持つ入力テンソル３の要素とに対して演算が実行される。得られた要素は出力テンソルに記憶される。融合演算（fused operation）は関数固有パラメータ１によって決定され、以下に説明される。

次元１ベクトル取得演算：指定された出力要素について、入力１テンソルから次元１ベクトルが選択される。ここで、入力次元４インデックスが出力次元４インデックスであり、入力次元３インデックスが出力次元３インデックスであり、入力次元２インデックスが出力次元２インデックスである。

次元２ベクトル取得演算：指定された出力要素について、入力２テンソルから次元２ベクトルが選択される。ここで、入力次元４インデックスが出力次元４インデックスであり、入力次元３インデックスが出力次元３インデックスであり、入力次元１インデックスが出力次元１インデックスである。

ドット積演算：同じサイズおよびデータタイプの２つのベクトルの中間ドット積は、入力ベクトル１の各要素と入力ベクトル２の対応する要素の積の和として計算される。

融合演算：関数固有パラメータ１は、中間ドット積と入力テンソル３からの対応する要素とに対して実行される演算を制御する。一例において、ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ関数固有パラメータ１は、例えばビット２４～３１に演算フィールドを含む。演算フィールドは、実行される演算を指定する。演算の例を以下に示す。

演算演算タイプ

０加算

１ドット積が高いか比較

２ドット積が低くないか比較

３ドット積と要素が等しいかどうか比較

４ドット積と要素が等しくないか比較

５ドット積が高くないか比較

６ドット積が低いか比較

一例において、加算の演算タイプの場合、入力テンソル３要素が中間ドット積に加算される。比較の演算タイプの場合、中間ドット積が入力テンソル３要素と比較され、比較が真であれば、結果は例えば＋１の値に設定され、そうでない場合、出力テンソルについて指定されたデータタイプにおいて、例えば＋０の値に設定される。

一例において、ＯＰＥＲＡＴＩＯＮフィールドの他の値はすべて予備である。ＯＰＥＲＡＴＩＯＮフィールドに予備の値が指定された場合、例えば１６進数「Ｆ０００」の応答コードが報告され、演算は、例えば「１」の条件コードで完了する。

＊すべての入力テンソルと出力テンソルの次元４インデックスサイズは同じである。

＊すべての入力テンソルと出力テンソルの次元３インデックスサイズは１に等しい。

＊入力テンソル３の次元２インデックスサイズは１に等しい。

＊入力テンソル１と出力テンソルの次元２インデックスサイズは同じである。

＊入力テンソル１の次元１インデックスサイズと入力テンソル２の次元２インデックスサイズは同じである。

＊入力テンソル２、入力テンソル３、および出力テンソルの次元１インデックスサイズは同じである。

＊すべての入力テンソルと出力テンソルのデータレイアウトおよびデータタイプは同じである。

一実施形態において、出力テンソル記述子２および関数固有セーブ領域アドレスフィールドは無視される。関数固有パラメータ２～５は、一例において０を含む。

関数コード１１４：ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ－ＢＣＡＳＴ２３（行列乗算演算－ブロードキャスト２３）

ＮＮＰＡ－ＭＡＴＭＵＬ－ＯＰ－ＢＣＡＳＴ２３関数が指定されると、出力テンソル記述子によって記述された出力テンソルの各要素が、一例として以下に説明するように計算される。

＊入力テンソル１記述子によって記述された入力テンソル１から、後述する次元１ベクトル取得演算を用いて、次元１ベクトルが選択される。

＊入力テンソル２記述子によって記述された入力テンソル２から、後述する次元２ベクトル取得演算を用いて、次元２ベクトルが選択される。

＊次元１ベクトルと次元２ベクトルのドット積は、後述するドット積演算を用いて計算される。

＊入力テンソル３記述子によって記述された、出力テンソル要素と同じ次元インデックス１の値を持つ入力テンソル３の要素が、先に計算されたドット積に加算され、出力テンソルに記憶される。

次元２ベクトル取得演算：指定された出力要素について、入力２テンソルから次元２ベクトルが選択される。ここで、入力次元４インデックスが１であり、入力次元３インデックスが出力次元３インデックスであり、入力次元１インデックスが出力次元１インデックスである。

ドット積演算：同じサイズおよびデータタイプの２つのベクトルの中間積は、入力ベクトル１の各要素と入力ベクトル２の対応する要素の積の和として計算される。

＊入力テンソル１と出力テンソルの次元４インデックスサイズは同じである。

＊入力テンソル２と入力テンソル３の次元４インデックスサイズは１に等しい。

一実施形態において、出力テンソル記述子２および関数固有セーブ領域アドレスフィールドは無視される。関数固有パラメータ１～５は、一例において０を含む。

ニューラルネットワーク処理アシスト命令について、一実施形態において、出力テンソルが入力テンソルのいずれかまたはパラメータブロックと重なる場合、結果は予測不可能である。

一例として、ニューラルネットワーク処理アシスト命令の実行が試行され、パラメータブロックが、例えばダブルワード境界上で指定されていない場合に、指定例外（specification exception）が認識される。

ニューラルネットワーク処理アシスト命令の実行が試行され、例えばテンソル記述子の不整合がある場合に、一般オペランドデータ例外が認識される。

ニューラルネットワーク処理アシスト命令に対する条件コードの結果は、例えば、以下を含む。０：正常終了、１：応答コードが設定される、２：－、３：ＣＰＵが決定したデータ処理量。

一実施形態において、ニューラルネットワーク処理アシスト命令に対する実行の優先順位は、例えば、以下を含む。

１．～７．一般的な場合のプログラム割り込み条件の優先順位と同じ優先順位を有する例外

８．Ａ未割り当てまたは未インストールの関数コードが指定されたことによる条件コード１

８．Ｂパラメータブロックがダブルワード境界上で指定されていないことによる指定例外

９．パラメータブロックへのアクセスのアクセス例外

１０．パラメータブロックの指定されたフォーマットがモデルによってサポートされていないことによる条件コード１

１１．Ａ指定されたテンソルデータレイアウトがサポートされていないことによる条件コード１

１１．Ｂテンソル記述子間のデータレイアウトが異なっていることによる一般オペランドデータ例外。

１２．Ａ上記の８．Ａ、１０、１１．Ａ、および下記の１２．Ｂ．１に含まれる条件以外の条件による条件コード１

１２．Ｂ．１ＮＮＰＡ－ＲＥＬＵおよびＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮの出力テンソルのデータタイプが無効であることによる条件コード１

１２．Ｂ．２ＮＮＰＡ－ＲＥＬＵ関数固有パラメータ１およびＮＮＰＡ－ＣＯＮＶＯＬＵＴＩＯＮ関数固有パラメータ４の無効な値に対する一般オペランドデータ例外

１３．Ａ出力テンソルへのアクセスのアクセス例外

１３．Ｂ入力テンソルへのアクセスのアクセス例外

１３．Ｃ関数固有セーブ領域へのアクセスのアクセス例外

１４．条件コード０

本明細書で説明するように、単一の命令（例えば、ニューラルネットワーク処理アシスト命令）は、クエリ関数を含む複数の関数を実行するように構成される。クエリ関数は、本発明の１つ以上の態様に従って、１つ以上の関数（例えば、テンソル計算に関連する関数）を実行する際にアプリケーションに有用な情報を提供する。この情報は、命令もしくはプロセッサまたはその両方によってサポートされる関数だけでなく、命令もしくはプロセッサまたはその両方によって使用されるデータに関連する情報など、命令もしくはプロセッサまたはその両方がどのように動作するかに関する追加情報も伝える。一例として、この情報には、プロセッサにインストールされているデータタイプやプロセッサがサポートする利用可能なデータレイアウトフォーマットなどのモデル依存データ属性、および最大テンソルサイズや最大次元インデックスサイズなどのデータサイズ情報が含まれる。クエリ関数により、アプリケーションは、非クエリ関数が実行される特定のモデルの属性とともに動作するように自身が設計されているかどうかを判断することができる。あるいは、アプリケーションは、クエリ命令によって決定されたモデルの正確な属性に応じて、異なるモデル上で動作するように動的に自身の動作を変更するように記述することもできる。アプリケーションが特定のモデルの扱い方を知らない場合、アクセラレータ関数を使用する代わりに、ソフトウェアでニューラルネットワークの計算を実行できる場合もある。

クエリ関数は、例えば、アプリケーションを実行するモデルに対してアプリケーションが自身の動作を最適化できるようにする仮想マシンのライブマイグレーション（live migration）を含む、様々なタスクで有用である。クエリ関数は、他の多くのタスクでも使用可能である。

一例として、クエリ関数をニューラルネットワーク処理アシスト命令の一部として提供しているが、クエリ関数を他の命令とともに使用して、プロセッサの機能、動作、および／もしくは属性、もしくはプロセッサに関連する動作、またはその組み合わせに関する詳細情報を提供してもよい。ニューラルネットワーク処理アシスト命令は一例に過ぎない。

本発明の１つ以上の態様は、コンピュータ技術と密接に結びついており、コンピュータ内の処理を容易にし、その性能を向上させる。クエリ関数を含む様々な関数を実行するように構成された単一のアーキテクチャ化された機械命令を使用することにより、複雑さを低減し、リソースの使用を低減し、処理速度を向上させることによって、コンピューティング環境内の性能を向上させる。クエリ関数を使用し、データ属性を含むプロセッサのモデル依存属性を記述する詳細情報を取得することによって、処理が向上する。一例として、非クエリ関数が実行される前に、プロセッサがサポートしている内容を判断することによって、性能が向上する。アプリケーションは、事前に何が起こるか分かっているので、実行時間だけでなく、アプリケーション処理の複雑さも低減される。データもしくは命令またはその両方は、コンピュータ処理、医療処理、工学、自動車技術、製造など、多くの技術分野で使用することができる。モデル依存のプロセッサ関連データの取得における最適化を実現することで、実行時間を短縮することにより、これらの技術分野が改善される。

本発明の１つ以上の態様に関連する、コンピューティング環境内の処理を容易にする一実施形態のさらなる詳細を、図７Ａ～７Ｂを参照して説明する。

図７Ａを参照すると、一実施形態において、クエリ関数を実行する命令が実行される（７００）。実行は、例えば、プロセッサの選択されたモデルに関連する情報を取得することを含む（７０２）。一例として、情報は、プロセッサの選択されたモデルの少なくとも１つのモデル依存データ属性を含む（７０４）。情報は、１つ以上の関数を実行する際に少なくとも１つのアプリケーションが使用するために、選択された場所に配置される（７０６）。

クエリ関数は、マシンの特定のモデルに存在する機能にマシンを適応させ、より大きなデータを含む問題の解決を容易にする情報を提供する。これにより、コンピュータ処理を含む機械学習を使用した技術が向上する。

一例として、少なくとも１つのモデル依存データ属性は、プロセッサの選択されたモデルの１つ以上のサポートされるデータタイプ（７１０）、プロセッサの選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマット（７１２）、もしくは、プロセッサの選択されたモデルの１つ以上のサポートされるデータサイズ（７１４）、またはその組み合わせを含む。サポートされるデータタイプ、データレイアウトフォーマット、もしくはデータサイズまたはその組み合わせを取得することによって、アプリケーションは、プロセッサの特定のモデルによってサポートされるデータタイプ、データレイアウトフォーマット、もしくはデータサイズに合わせて調整される。これにより、アプリケーションをデータ、データレイアウト、もしくはデータサイズまたはその組み合わせに適合させ、例えばその特定のモデル上でニューラルネットワーク処理を実行できるようにすることができる。アプリケーションを準備することにより、エラーが減少し、実行時間が節約され、システム性能が向上する。

一例では、選択された場所は、少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含む（７２０）。例として、１つ以上のサポートされるデータタイプが、パラメータブロックの１つ以上のフィールドに含まれる（７２２）、もしくは、１つ以上のサポートされるデータレイアウトフォーマットが、パラメータブロックの１つ以上のフィールドに含まれる（７２４）、もしくは、１つ以上のサポートされるデータサイズが、パラメータブロックの１つ以上のフィールドに含まれる（７２６）、またはこれらの組み合わせとなる。パラメータブロックが少なくとも１つのアプリケーションにアクセス可能であることによって、アプリケーションは、１つ以上のサポートされるデータタイプ、１つ以上のサポートされるデータレイアウトフォーマット、もしくは１つ以上のデータサイズ、またはその組み合わせを学習することができ、この知識を処理に使用することができる。これにより、アプリケーションをデータ、データレイアウト、もしくはデータサイズまたはその組み合わせに適合させ、例えばその特定のモデル上でニューラルネットワーク処理を実行できるようにすることができる。アプリケーションを準備することにより、エラーが減少し、実行時間が節約され、システム性能が向上する。

図７Ｂを参照すると、一例において、プロセッサの選択されたモデルの１つ以上のサポートされるデータサイズは、最大次元インデックスサイズおよび最大テンソルサイズを含む（７３０）。

一例において、パラメータブロックは、選択されたモデルの複数のモデル依存データ属性を記憶するための複数のフィールドを含む（７４０）。複数のフィールドは、例えば、プロセッサの選択されたモデルの１つ以上のサポートされるデータタイプを含むためのインストール済みデータタイプフィールドと、プロセッサの選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含むためのインストール済みデータレイアウトフォーマットフィールドと、プロセッサの選択されたモデルの１つ以上のサポートされるデータサイズを含むための１つ以上のフィールドとを含む（７４２）。

パラメータブロックは、例えば、インストール済み関数ベクトルフィールドおよびインストール済みパラメータブロックフォーマットフィールドのうちの少なくとも１つをさらに含む（７５０）。インストール済み関数ベクトルフィールドは、一例として、プロセッサの選択されたモデルの１つ以上のサポートされる関数を示す（７５２）。さらに、一例において、インストール済みパラメータブロックフォーマットフィールドは、パラメータブロックの１つ以上のサポートされるフォーマットを示す（７５４）。

クエリ関数を使用して、選択された関数が実行されるプロセッサのモデル依存属性を決定することによって、適切な情報を有することによりアプリケーションの複雑さを低減することができ、かつ／または、正しい属性（例えば、データタイプ、データレイアウトフォーマット、もしくはデータサイズもしくはその組み合わせ）を使用するようにアプリケーションを調整することができる。関数はより高速に実行され、実行時間が短縮され、プロセッサもしくはシステム全体またはその両方の性能が向上する。

他の変形および実施形態も可能である。

本発明の態様は、多くの種類のコンピューティング環境で使用することができる。本発明の１つ以上の態様を組み込んで使用するコンピューティング環境の別の例を、図８Ａを参照して説明する。一例として、図８Ａのコンピューティング環境は、インターナショナル・ビジネス・マシーンズ・コーポレーション（ニューヨーク州アーモンク）製のｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ（登録商標）命令セットアーキテクチャに基づいている。ただし、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャは、アーキテクチャの一例に過ぎない。繰り返しになるが、コンピューティング環境は、Ｉｎｔｅｌ（登録商標）ｘ８６アーキテクチャ、インターナショナル・ビジネス・マシーンズ・コーポレーションの他のアーキテクチャ、もしくは他社のアーキテクチャまたはその組み合わせを含む（ただし、これらに限定されない）他のアーキテクチャに基づいてもよい。なお、Ｉｎｔｅｌは、インテル・コーポレーションまたはその子会社の米国およびその他の国における商標または登録商標である。

一例として、コンピューティング環境１０は、中央電子処理装置（ＣＥＣ：central electronics complex）１１を含む。中央電子処理装置１１は、複数のコンポーネントを含む。複数のコンポーネントは、例えば、１つ以上の汎用プロセッサ（別名、中央処理装置（ＣＰＵ）１３）および1つ以上の専用プロセッサ（例えば、ニューラルネットワークプロセッサ３１）などの１つ以上のプロセッサと、入出力（Ｉ／Ｏ）サブシステム１４とに結合されたメモリ１２（別名、システムメモリ、メインメモリ、メインストレージ、中央ストレージ、ストレージ）を含む。

例として、１つ以上の専用プロセッサは、１つ以上の汎用プロセッサと別体に設けられてもよいし、少なくとも１つの専用プロセッサが、少なくとも１つの汎用プロセッサ内に組み込まれてもよいし、その両方であってもよい。他の変形も可能である。

Ｉ／Ｏサブシステム１４は、中央電子処理装置の一部であってもよいし、そこから分離していてもよい。Ｉ／Ｏサブシステム１４は、メインストレージ１２と、中央電子処理装置に結合された入出力制御ユニット１５および入出力（Ｉ／Ｏ）デバイス１６との間の情報フローを指示する。

多くのタイプのＩ／Ｏデバイスを使用することができる。１つの特定のタイプとして、データストレージデバイス１７が使用される。データストレージデバイス１７は、１つ以上のプログラム１８、１つ以上のコンピュータ可読プログラム命令１９、もしくはデータまたはその組み合わせなどを記憶することができる。コンピュータ可読プログラム命令は、本発明の態様に係る実施形態の機能を実行するように構成することができる。

中央電子処理装置１１は、取り外し可能／取り外し不可能な揮発性／不揮発性のコンピュータシステムストレージ媒体を含むことができ、もしくはこれに結合することができ、またはその両方とすることができる。例えば、中央電子処理装置１１は、取り外し不可能な不揮発性磁気媒体（一般的に「ハードディスク」と呼ばれる）、取り外し可能な不揮発性磁気ディスク（例えば「フロッピーディスク」）に対して読み書きを行うための磁気ディスクドライブ、もしくは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭや他の光学媒体など、取り外し可能な不揮発性の光ディスクに対して読み書きを行うための光ディスクドライブを含むことができ、もしくはこれに結合することができ、またはその両方とすることができる。なお、他のハードウェアもしくはソフトウェアまたはその両方のコンポーネントを中央電子処理装置１１と組み合わせて使用してもよい。これらのコンポーネントの例としては、特に限定されないが、マイクロコードまたはミリコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、およびデータアーカイブストレージシステムなどが挙げられる。

さらに、中央電子処理装置１１は、多くの他の汎用もしくは専用コンピューティングシステム環境または構成とともに動作可能である。中央電子処理装置１１とともに使用するのに適した周知のコンピューティングシステム、環境、もしくは構成またはその組み合わせの例としては、特に限定されないが、パーソナルコンピュータ（ＰＣ）システム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークＰＣ、ミニコンピュータシステム、メインフレームコンピュータシステム、および、これらのシステムまたはデバイスのいずれかを含む分散型クラウドコンピューティング環境などが挙げられる。

中央電子処理装置１１は、１つ以上の実施形態において、論理パーティショニングもしくは仮想化サポートまたはその両方を提供する。一実施形態において、図８Ｂに示すように、メモリ１２は、例えば、１つ以上の論理パーティション２０、論理パーティションを管理するハイパーバイザ２１、およびプロセッサファームウェア２２を含む。ハイパーバイザ２１の一例としては、インターナショナル・ビジネス・マシーンズ・コーポレーション（ニューヨーク州アーモンク）製のＰｒｏｃｅｓｓｏｒＲｅｓｏｕｒｃｅ／ＳｙｓｔｅｍＭａｎａｇｅｒ（ＰＲ／ＳＭ^ＴＭ）が挙げられる。なお、ＰＲ／ＳＭは、少なくとも１つの法域におけるインターナショナル・ビジネス・マシーンズ・コーポレーションの商標または登録商標である。

各論理パーティション２０は、別個のシステムとして機能することができる。すなわち、各論理パーティションは、独立してリセットされ、ゲストオペレーティングシステム２３（インターナショナル・ビジネス・マシーンズ・コーポレーション（ニューヨーク州アーモンク）製のｚ／ＯＳ（登録商標）オペレーティングシステムなど）、または他の制御コード２４（結合ファシリティ制御コード（ＣＦＣＣ：coupling facility control code）など）を実行し、異なるプログラム２５とともに動作することができる。論理パーティション内で実行されているオペレーティングシステムまたはアプリケーションプログラムは、全体の完全なシステムにアクセスできるように見えるが、実際には、その一部しか利用できない。なお、ｚ／ＯＳオペレーティングシステムを例示したが、インターナショナル・ビジネス・マシーンズ・コーポレーションもしくは他の企業またはその両方が提供する他のオペレーティングシステムを、本発明の１つ以上の態様に従って使用してもよい。

メモリ１２は、例えば、ＣＰＵ１３（図８Ａ）に結合される。ＣＰＵ１３は、論理パーティションに割り当てることができる物理プロセッサリソースである。例えば、論理パーティション２０は、１つ以上の論理プロセッサを含んでもよく、その各々は、論理パーティションに動的に割り当てることができる物理プロセッサリソース１３のすべてまたは割り当て分を表す。

さらなる一実施形態において、中央電子処理装置は、仮想マシンサポート（論理パーティショニングサポートを有するもの、または有しないものいずれか）を提供する。図８Ｃに示すように、中央電子処理装置１１のメモリ１２は、例えば、１つ以上の仮想マシン２６と、仮想マシンを管理するハイパーバイザ２７などの仮想マシンマネージャと、プロセッサファームウェア２８とを含む。ハイパーバイザ２７の一例としては、インターナショナル・ビジネス・マシーンズ・コーポレーション（ニューヨーク州アーモンク）製のｚ／ＶＭ（登録商標）ハイパーバイザが挙げられる。ハイパーバイザは、ホストと呼ばれることもある。なお、ｚ／ＶＭは、少なくとも１つの法域におけるインターナショナル・ビジネス・マシーンズ・コーポレーションの商標または登録商標である。

中央電子処理装置の仮想マシンサポートは、各々が異なるプログラム２９とともに動作し、Ｌｉｎｕｘ（登録商標）オペレーティングシステムなどのゲストオペレーティングシステム３０を実行することができる、多数の仮想マシン２６を運用する能力を提供する。各仮想マシン２６は、別個のシステムとして機能することができる。すなわち、各仮想マシンは、独立してリセットされ、ゲストオペレーティングシステムを実行し、異なるプログラムとともに動作することができる。仮想マシン内で実行されるオペレーティングシステムまたはアプリケーションプログラムは、全体の完全なシステムにアクセスできるように見えるが、実際には、その一部しか利用できない。なお、ｚ／ＶＭおよびＬｉｎｕｘを例示したが、他の仮想マシンマネージャもしくはオペレーティングシステムまたはその両方を、本発明の１つ以上の態様に従って使用してもよい。なお、登録商標Ｌｉｎｕｘは、世界規模での当該商標の所有者であるＬｉｎｕｓＴｏｒｖａｌｄｓの独占的ライセンシーであるＬｉｎｕｘＦｏｕｎｄａｔｉｏｎからのサブライセンスに従って使用される。

本発明の１つ以上の態様を組み込んで使用するコンピューティング環境の別の実施形態を、図９Ａを参照して説明する。この例では、コンピューティング環境３６は、例えば、ネイティブ中央処理装置（ＣＰＵ）３７と、メモリ３８と、例えば１つ以上のバス４０もしくは他の接続またはその両方介して互いに結合された１つ以上の入出力デバイス３９もしくは入出力インタフェース３９またはその両方と含む。一例として、コンピューティング環境３６は、インターナショナル・ビジネス・マシーンズ・コーポレーション（ニューヨーク州アーモンク）製のＰｏｗｅｒＰＣ（登録商標）プロセッサ、ヒューレット・パッカード・カンパニー（カリフォルニア州パロアルト）製のＩｎｔｅｌ（登録商標）Ｉｔａｎｉｕｍ（登録商標）ＩＩプロセッサ搭載ＨＰＳｕｐｅｒｄｏｍｅ、もしくは、インターナショナル・ビジネス・マシーンズ・コーポレーション、ヒューレット・パッカード、インテル・コーポレーション、オラクルもしくは他の企業またはその組み合わせが提供するアーキテクチャに基づく他のマシン、またはその組み合わせを含むことができる。なお、ＰｏｗｅｒＰＣは、少なくとも１つの法域におけるインターナショナル・ビジネス・マシーンズ・コーポレーションの商標または登録商標である。Ｉｔａｎｉｕｍは、インテル・コーポレーションまたはその子会社の米国およびその他の国における商標または登録商標である。

ネイティブ中央処理装置３７は、環境内での処理中に使用される１つ以上の汎用レジスタもしくは１つ以上の専用レジスタまたはその両方などの、１つ以上のネイティブレジスタ４１を含む。これらのレジスタは、任意の特定の時点における環境の状態を表す情報を含む。

さらに、ネイティブ中央処理装置３７は、メモリ３８に記憶されている命令およびコードを実行する。１つの具体例では、中央処理装置は、メモリ３８に記憶されているエミュレータコード４２を実行する。このコードは、あるアーキテクチャで構成されたコンピューティング環境が別のアーキテクチャをエミュレートすることを可能にする。例えば、エミュレータコード４２は、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャ以外のアーキテクチャ（ＰｏｗｅｒＰＣプロセッサ、ＨＰＳｕｐｅｒｄｏｍｅサーバなど）に基づくマシンが、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャをエミュレートし、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャに基づいて開発されたソフトウェアおよび命令を実行することを可能にする。

エミュレータコード４２に関連するさらなる詳細を、図９Ｂを参照して説明する。メモリ３８に記憶されたゲスト命令（guest instructions）４３は、ネイティブＣＰＵ３７のアーキテクチャ以外のアーキテクチャで実行されるように開発されたソフトウェア命令（例えば、マシン命令と相互に関連付けられた）を含む。例えば、ゲスト命令４３は、ｚ／Ａｒｃｈｉｔｅｃｔｕｒｅ命令セットアーキテクチャに基づくプロセッサ上で実行されるように設計されていた可能性があるが、その代わりに、ネイティブＣＰＵ３７（例えばＩｎｔｅｌＩｔａｎｉｕｍＩＩプロセッサであってもよい）上でエミュレートされている。一例として、エミュレータコード４２は、メモリ３８から１つ以上のゲスト命令４３を取得し、取得した命令に対して必要に応じてローカルバッファを提供するための命令フェッチルーチン（instruction fetching routine）４４を含む。また、エミュレータコード４２は、取得したゲスト命令のタイプを決定し、ゲスト命令を１つ以上の対応するネイティブ命令（native instructions）４６に変換するための命令変換ルーチン（instruction translation routine）４５を含む。この変換は、例えば、ゲスト命令によって実行される機能を特定することと、当該機能を実行するためのネイティブ命令を選択することとを含む。

さらに、エミュレータコード４２は、ネイティブ命令を実行させるためのエミュレーション制御ルーチン（emulation control routine）４７を含む。エミュレーション制御ルーチン４７は、ネイティブＣＰＵ３７に、１つ以上の以前に取得したゲスト命令をエミュレートするネイティブ命令のルーチンを実行させ、このような実行の終了時に、次のゲスト命令またはゲスト命令グループの取得をエミュレートするために、制御を命令フェッチルーチンに戻させてもよい。ネイティブ命令４６の実行は、メモリ３８からレジスタにデータをロードすること、レジスタからメモリにデータを戻して記憶すること、または、変換ルーチンによって決定される何らかのタイプの算術演算または論理演算を実行することを含んでもよい。

各ルーチンは、例えば、メモリに記憶されかつネイティブ中央処理装置３７によって実行されるソフトウェアにおいて実装される。他の例において、ルーチンまたは操作のうちの１つ以上は、ファームウェア、ハードウェア、ソフトウェアまたはそれらの組み合わせにおいて実装される。エミュレートされたプロセッサのレジスタは、ネイティブＣＰＵのレジスタ４１を使用してエミュレートされてもよいし、メモリ３８内の位置を使用してエミュレートされてもよい。実施形態において、ゲスト命令４３、ネイティブ命令４６およびエミュレータコード４２は、同じメモリに存在してもよいし、異なるメモリデバイス間に分散されてもよい。

エミュレート可能な命令は、本発明の１つ以上の態様に従って、本明細書に記載のニューラルネットワークアシスト処理命令を含む。さらに、本発明の１つ以上の態様に従って、他の命令もしくはクエリ関数自体またはその両方がエミュレートされてもよい。

上述したコンピューティング環境は、使用可能なコンピューティング環境の例に過ぎない。他の環境（特に限定されないが、非パーティション化環境、パーティション化環境、クラウド環境もしくはエミュレートされた環境またはその組み合わせを含む）を使用してもよく、実施形態はいずれか１つの環境に限定されない。本明細書では、コンピューティング環境の様々な例を説明しているが、本発明の１つ以上の態様は、多くのタイプの環境とともに使用することができる。本明細書で提供されるコンピューティング環境は、例示に過ぎない。

各コンピューティング環境は、本発明の１つ以上の態様を含むように構成することができる。

１つ以上の態様は、クラウドコンピューティングに関係してもよい。

本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実装形態は、クラウドコンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在公知のまたは後に開発される任意の他のタイプのコンピューティング環境と組み合わせて実施することが可能である。

クラウドコンピューティングは、設定可能なコンピューティングリソース（例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシンおよびサービス）の共有プールへの簡便かつオンデマンドのネットワークアクセスを可能にするためのサービス提供のモデルであり、リソースは、最小限の管理労力または最小限のサービスプロバイダとのやり取りによって速やかに準備（provision）およびリリースできるものである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、および少なくとも４つの展開モデルを含むことができる。

特性は以下の通りである。

オンデマンド・セルフサービス：クラウドの消費者は、サービスプロバイダとの人的な対話を必要することなく、必要に応じて自動的に、サーバ時間やネットワークストレージなどのコンピューティング能力を一方的に準備することができる。

ブロード・ネットワークアクセス：コンピューティング能力はネットワーク経由で利用可能であり、また、標準的なメカニズムを介してアクセスできる。それにより、異種のシンまたはシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、ＰＤＡ）による利用が促進される。

リソースプーリング：プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを利用して複数の消費者に提供される。様々な物理リソースおよび仮想リソースが、需要に応じて動的に割り当ておよび再割り当てされる。一般に消費者は、提供されたリソースの正確な位置を管理または把握していないため、位置非依存（location independence）の感覚がある。ただし消費者は、より高い抽象レベル（例えば、国、州、データセンタ）では場所を特定可能な場合がある。

迅速な柔軟性（elasticity）：コンピューティング能力は、迅速かつ柔軟に準備することができるため、場合によっては自動的に、直ちにスケールアウトし、また、速やかにリリースされて直ちにスケールインすることができる。消費者にとって、準備に利用可能なコンピューティング能力は無制限に見える場合が多く、任意の時間に任意の数量で購入することができる。

サービスの測定：クラウドシステムは、サービスの種類（例えば、ストレージ、処理、帯域幅、アクティブユーザアカウント）に適したある程度の抽象化レベルでの計量機能（metering capability）を活用して、リソースの使用を自動的に制御し最適化する。リソース使用量を監視、制御、および報告して、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供することができる。

サービスモデルは以下の通りである。

サービスとしてのソフトウェア（ＳａａＳ）：消費者に提供される機能は、クラウドインフラストラクチャ上で動作するプロバイダのアプリケーションを利用できることである。当該そのアプリケーションは、ウェブブラウザ（例えばウェブメール）などのシンクライアントインタフェースを介して、各種のクライアント装置からアクセスできる。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージや、個別のアプリケーション機能さえも含めて、基礎となるクラウドインフラストラクチャの管理や制御は行わない。ただし、ユーザ固有の限られたアプリケーション構成の設定はその限りではない。

サービスとしてのプラットフォーム（ＰａａＳ）：消費者に提供される機能は、プロバイダによってサポートされるプログラム言語およびツールを用いて、消費者が作成または取得したアプリケーションを、クラウドインフラストラクチャに展開（deploy）することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、展開されたアプリケーションを制御でき、かつ場合によってはそのホスティング環境の構成も制御できる。

サービスとしてのインフラストラクチャ（ＩａａＳ）：消費者に提供される機能は、オペレーティングシステムやアプリケーションを含む任意のソフトウェアを消費者が展開および実行可能な、プロセッサ、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースを準備することである。消費者は、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、オペレーティングシステム、ストレージ、および展開されたアプリケーションを制御でき、かつ場合によっては一部のネットワークコンポーネント（例えばホストファイアウォール）を部分的に制御できる。

展開モデルは以下の通りである。

プライベートクラウド：このクラウドインフラストラクチャは、特定の組織専用で運用される。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。

コミュニティクラウド：このクラウドインフラストラクチャは、複数の組織によって共有され、共通の関心事（例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス）を持つ特定のコミュニティをサポートする。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。

パブリッククラウド：このクラウドインフラストラクチャは、不特定多数の人々や大規模な業界団体に提供され、クラウドサービスを販売する組織によって所有される。

ハイブリッドクラウド：このクラウドインフラストラクチャは、２つ以上のクラウドモデル（プライベート、コミュニティまたはパブリック）を組み合わせたものとなる。それぞれのモデル固有の実体は保持するが、標準または個別の技術によってバインドされ、データとアプリケーションの可搬性（例えば、クラウド間の負荷分散のためのクラウドバースティング）を実現する。

クラウドコンピューティング環境は、ステートレス性（statelessness）、低結合性（low coupling）、モジュール性（modularity）および意味論的相互運用性（semantic interoperability）に重点を置いたサービス指向型環境である。クラウドコンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

ここで、図１０に例示的なクラウドコンピューティング環境５０を示す。図示するように、クラウドコンピューティング環境５０は１つ以上のクラウドコンピューティングノード５２を含む。これらに対して、クラウド消費者が使用するローカルコンピュータ装置（例えば、ＰＤＡもしくは携帯電話５４Ａ、デスクトップコンピュータ５４Ｂ、ラップトップコンピュータ５４Ｃ、もしくは自動車コンピュータシステム５４Ｎまたはこれらの組み合わせなど）は通信を行うことができる。ノード５２は互いに通信することができる。ノード５２は、例えば、上述のプライベート、コミュニティ、パブリックもしくはハイブリッドクラウドまたはこれらの組み合わせなど、１つ以上のネットワークにおいて、物理的または仮想的にグループ化（不図示）することができる。これにより、クラウドコンピューティング環境５０は、サービスとしてのインフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせを提供することができ、クラウド消費者はこれらについて、ローカルコンピュータ装置上にリソースを維持する必要がない。なお、図１０に示すコンピュータ装置５４Ａ～Ｎの種類は例示に過ぎず、コンピューティングノード５２およびクラウドコンピューティング環境５０は、任意の種類のネットワークもしくはネットワークアドレス指定可能接続（例えば、ウェブブラウザの使用）またはその両方を介して、任意の種類の電子装置と通信可能であることを理解されたい。

ここで、クラウドコンピューティング環境５０（図１０）によって提供される機能的抽象化レイヤのセットを図１１に示す。なお、図１１に示すコンポーネント、レイヤおよび機能は例示に過ぎず、本発明の実施形態はこれらに限定されないことをあらかじめ理解されたい。図示するように、以下のレイヤおよび対応する機能が提供される。

ハードウェアおよびソフトウェアレイヤ６０は、ハードウェアコンポーネントおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム６１、縮小命令セットコンピュータ（ＲＩＳＣ）アーキテクチャベースのサーバ６２、サーバ６３、ブレードサーバ６４、記憶装置６５、ならびにネットワークおよびネットワークコンポーネント６６が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア６７およびデータベースソフトウェア６８を含む。

仮想化レイヤ７０は、抽象化レイヤを提供する。当該レイヤから、例えば、仮想サーバ７１、仮想ストレージ７２、仮想プライベートネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティングシステム７４、ならびに仮想クライアント７５などの仮想エンティティを提供することができる。

一例として、管理レイヤ８０は以下の機能を提供することができる。リソース準備８１は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を可能にする。計量および価格設定８２は、クラウドコンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費に対する請求またはインボイス送付を可能にする。一例として、これらのリソースはアプリケーションソフトウェアのライセンスを含んでもよい。セキュリティは、データおよび他のリソースに対する保護のみならず、クラウド消費者およびタスクの識別確認を可能にする。ユーザポータル８３は、消費者およびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理８４は、要求されたサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当ておよび管理を可能にする。サービス品質保証（ＳＬＡ）の計画および履行８５は、ＳＬＡに従って将来必要になると予想されるクラウドコンピューティングリソースの事前手配および調達を可能にする。

ワークロードレイヤ９０は、クラウドコンピューティング環境の利用が可能な機能の例を提供する。このレイヤから提供可能なワークロードおよび機能の例には、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育の配信９３、データ分析処理９４、取引処理９５、クエリもしくはニューラルネットワーク処理アシスト処理またはその両方９６が含まれる。

本発明の態様は、任意の可能な技術詳細レベルで統合されたシステム、方法もしくはコンピュータプログラム製品またはそれらの組み合わせとすることができる。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を記憶したコンピュータ可読記憶媒体を含んでもよい。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用される命令を保持し、記憶することができる有形のデバイスとすることができる。コンピュータ可読記憶媒体は、一例として、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイスまたはこれらの適切な組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な一例としては、ポータブルコンピュータディスケット、ハードディスク、ＲＡＭ、ＲＯＭ、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ＣＤ－ＲＯＭ、ＤＶＤ、メモリスティック、フロッピーディスク、パンチカードまたは溝内の隆起構造などに命令を記録した機械的に符号化されたデバイス、およびこれらの適切な組み合せが挙げられる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波管もしくは他の伝送媒体を介して伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、またはワイヤを介して送信される電気信号のような、一過性の信号それ自体として解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティングデバイス／処理デバイスへダウンロードすることができる。あるいは、ネットワーク（例えばインターネット、ＬＡＮ、ＷＡＮもしくは無線ネットワークまたはこれらの組み合わせ）を介して、外部コンピュータまたは外部ストレージデバイスへダウンロード可能である。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータもしくはエッジサーバまたはこれらの組み合わせを備えることができる。各コンピューティングデバイス／処理デバイス内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、各々のコンピューティングデバイス／処理デバイスにおけるコンピュータ可読記憶媒体に記憶するために転送する。

本発明の動作を実施するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用構成データ、または、スモールトークやＣ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語や類似のプログラミング言語などの手続き型プログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかとすることができる。コンピュータ可読プログラム命令は、スタンドアロン型ソフトウェアパッケージとして完全にユーザのコンピュータ上で、または部分的にユーザのコンピュータ上で実行可能である。あるいは、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または、完全にリモートコンピュータもしくはサーバ上で実行可能である。後者の場合、リモートコンピュータは、ＬＡＮやＷＡＮを含む任意の種類のネットワークを介してユーザのコンピュータに接続してもよいし、外部コンピュータに（例えば、インターネットサービスプロバイダを使用してインターネットを介して）接続してもよい。いくつかの実施形態において、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行する目的で当該電子回路をカスタマイズするために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行することができる。

本発明の態様は、本明細書において、本発明の実施形態に係る方法、装置（システム）、およびコンピュータプログラム製品のフローチャートもしくはブロック図またはその両方を参照して説明されている。フローチャートもしくはブロック図またはその両方における各ブロック、および、フローチャートもしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実行可能である。

これらのコンピュータ可読プログラム命令は、機械を生産するために、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供することができる。これにより、このようなコンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行されるこれらの命令が、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作を実行するための手段を創出する。これらのコンピュータ可読プログラム命令はさらに、コンピュータ、プログラマブルデータ処理装置もしくは他のデバイスまたはこれらの組み合わせに対して特定の態様で機能するよう命令可能なコンピュータ可読記憶媒体に記憶することができる。これにより、命令が記憶された当該コンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作の態様を実行するための命令を含む製品を構成する。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブル装置、または他のデバイスにロードし、一連の動作ステップを当該コンピュータ、他のプログラマブル装置、または他のデバイス上で実行させることにより、コンピュータ実行プロセスを生成してもよい。これにより、当該コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令が、フローチャートもしくはブロック図またはその両方における１つ以上のブロックにて特定される機能／動作を実行する。

図面におけるフローチャートおよびブロック図は、本発明の種々の実施形態に係るシステム、方法およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図における各ブロックは、特定の論理機能を実行するための１つ以上の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表すことができる。他の一部の実装形態において、ブロック内に示した機能は、各図に示す順序とは異なる順序で実行されてもよい。例えば、関係する機能に応じて、連続して示される２つのブロックが、実際には、１つの工程として達成されてもよいし、同時もしくは略同時に実行されてもよいし、部分的もしくは全体的に時間的に重複した態様で実行されてもよいし、ブロックが場合により逆順で実行されてもよい。なお、ブロック図もしくはフローチャートまたはその両方における各ブロック、および、ブロック図もしくはフローチャートまたはその両方における複数のブロックの組み合わせは、特定の機能もしくは動作を行う、または専用ハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェアベースのシステムによって実行可能である。

上記に加えて、１つ以上の態様は、顧客環境の管理を提供するサービスプロバイダによって供与、提供、展開、管理、サービスなどが行われてもよい。例えば、サービスプロバイダは、１つ以上の顧客のために１つ以上の態様を実施するコンピュータコードもしくはコンピュータインフラストラクチャまたはその両方の作成、保守、サポートなどを行うことができる。見返りに、サービスプロバイダは、例えば、サブスクリプションもしくは料金契約またはその両方に基づいて、顧客から支払いを受けることができる。これに加えて、またはこれに代えて、サービスプロバイダは、１つ以上の第三者に対する広告コンテンツの販売から支払いを受けてもよい。

一態様において、１つ以上の実施形態を実施するために、アプリケーションを展開してもよい。一例として、アプリケーションの展開は、１つ以上の実施形態を実施するように動作可能なコンピュータインフラストラクチャを提供することを含む。

さらなる態様として、コンピュータ可読コードをコンピューティングシステムに統合することを含む、コンピューティングインフラを展開してもよい。この場合、コンピューティングシステムと組み合わせたコードは、１つ以上の実施形態を実施することができる。

さらに別の態様として、コンピュータ可読コードをコンピュータシステムに統合することを含む、コンピューティングインフラを統合するためのプロセスを提供してもよい。コンピュータシステムは、コンピュータ可読媒体を含む。コンピュータ媒体は、１つ以上の実施形態を含む。コンピュータシステムと組み合わせたコードは、１つ以上の実施形態を実施することができる。

様々な実施形態を上述したが、これらは一例に過ぎない。例えば、他のアーキテクチャのコンピューティング環境を使用して、１つ以上の態様を組み込む、もしくは使用する、またはその両方を行うことができる。さらに、異なる命令または操作を使用してもよい。さらに、異なるタイプのレジスタもしくは異なるレジスタまたはその両方を使用してもよい。さらに、他のデータフォーマット、データレイアウト、もしくはデータサイズまたはその組み合わせがサポートされてもよい。１つ以上の実施形態において、１つ以上の汎用プロセッサ、１つ以上の専用プロセッサ、または汎用プロセッサと専用プロセッサの組み合わせが使用されてもよい。多くの変形が可能である。

本明細書では、様々な態様を説明している。さらに、本発明の態様の主旨から逸脱することなく、多くの変形が可能である。特に矛盾しない限り、本明細書に記載の各態様または特徴、およびその変形は、任意の他の態様または特徴と組み合わせてもよい。

さらに、他のタイプのコンピューティング環境も本発明の恩恵を受け、使用することができる。一例として、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも２つのプロセッサを含む、プログラムコードの記憶もしくは実行またはその両方に適したデータ処理システムを使用することができる。メモリ要素には、例えば、プログラムコードの実際の実行中に使用されるローカルメモリ、バルクストレージ、および、実行中にバルクストレージからコードを取得する回数を減らすために少なくとも一部のプログラムコードの一時的なストレージを提供するキャッシュメモリがある。

入出力またはＩ／Ｏデバイス（特に限定されないが、キーボード、ディスプレイ、ポインティングデバイス、ＤＡＳＤ、テープ、ＣＤ、ＤＶＤ、サムドライブおよび他のメモリ媒体など）は、直接的に、またはＩ／Ｏコントローラを間に介してシステムに結合することができる。また、ネットワークアダプタをシステムに結合して、データ処理システムを、プライベートネットワークまたはパブリックネットワークを間に介して他のデータ処理システム、リモートプリンタまたはストレージデバイスに結合できるようにしてもよい。利用可能なネットワークアダプタを数種類挙げると、モデム、ケーブルモデム、イーサネットカードなどがある。

本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、種々の実施形態を限定することを意図するものではない。本明細書において、単数形「ある（a）」、「ある（an）」および「その（the）」は、文脈上そうではないことが明らかでない限り、複数形も含むことを意図している。さらに、本明細書において、「含む（comprises）」もしくは「含んでいる（comprising）」またはその両方の用語が用いられる場合、記載された特徴、整数、ステップ、操作、要素、もしくは構成要素またはその組み合わせが存在することを規定するが、１つ以上の他の特徴、整数、ステップ、操作、要素、構成要素、もしくはそれらのグループまたはその組み合わせが存在したり、追加されたりすることを排除するものではない。

以下の特許請求の範囲に存在する場合、すべてのミーンズプラスファンクション要素またはステッププラスファンクション要素の対応する構造、材料、動作、および均等物は、具体的に特許請求された他の特許請求要素と組み合わせて機能を実行するための任意の構造、材料、または動作を含むことを意図している。１つ以上の実施形態の記載は、例示および説明を目的として提示されたものであり、網羅的であることや、開示した形態に限定することを意図したものではない。多くの変更および変形が当業者には明らかである。本実施形態は、様々な態様および実際の応用例を最もよく説明するために、かつ他の当業者が、企図している特定の用途に適した各種の変更を伴う各種の実施形態を理解できるように選択され記載されたものである。

Claims

コンピューティング環境内での処理を容易にするための方法を実行するためのコンピュータプログラムであって、当該方法は、
クエリ関数を実行する命令を実行することを含み、当該命令を実行することは、
プロセッサの選択されたモデルに関する情報を取得することであって、当該情報は、当該プロセッサの当該選択されたモデルの少なくとも１つのモデル依存データ属性を含む、ことと、
少なくとも１つのアプリケーションが１つ以上の関数を実行する際に使用するために、前記情報を選択された場所に配置することと、
を含み、
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータタイプを含む、コンピュータプログラム。
前記選択された場所は、前記少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含み、前記１つ以上のサポートされるデータタイプは、当該パラメータブロックの１つ以上のフィールドに含まれる、請求項１に記載のコンピュータプログラム。
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含む、請求項１または２に記載のコンピュータプログラム。
コンピューティング環境内での処理を容易にするための方法を実行するためのコンピュータプログラムであって、当該方法は、
クエリ関数を実行する命令を実行することを含み、当該命令を実行することは、
プロセッサの選択されたモデルに関する情報を取得することであって、当該情報は、当該プロセッサの当該選択されたモデルの少なくとも１つのモデル依存データ属性を含む、ことと、
少なくとも１つのアプリケーションが１つ以上の関数を実行する際に使用するために、前記情報を選択された場所に配置することと、
を含み、
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含む、コンピュータプログラム。
前記選択された場所は、前記少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含み、前記１つ以上のサポートされるデータレイアウトフォーマットは、当該パラメータブロックの１つ以上のフィールドに含まれる、請求項３に記載のコンピュータプログラム。
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータサイズを含む、請求項１に記載のコンピュータプログラム。
前記選択された場所は、前記少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含み、前記１つ以上のサポートされるデータサイズは、当該パラメータブロックの１つ以上のフィールドに含まれる、請求項６に記載のコンピュータプログラム。
前記プロセッサの前記選択されたモデルの前記１つ以上のサポートされるデータサイズは、最大次元インデックスサイズおよび最大テンソルサイズを含む、請求項６または７に記載のコンピュータプログラム。
コンピューティング環境内での処理を容易にするための方法を実行するためのコンピュータプログラムであって、当該方法は、
クエリ関数を実行する命令を実行することを含み、当該命令を実行することは、
プロセッサの選択されたモデルに関する情報を取得することであって、当該情報は、当該プロセッサの当該選択されたモデルの少なくとも１つのモデル依存データ属性を含む、ことと、
少なくとも１つのアプリケーションが１つ以上の関数を実行する際に使用するために、前記情報を選択された場所に配置することと、
を含み、
前記選択された場所は、前記少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含み、当該パラメータブロックは、前記選択されたモデルの複数のモデル依存データ属性を記憶するための複数のフィールドを含み、当該複数のフィールドは、前記プロセッサの当該選択されたモデルの１つ以上のサポートされるデータタイプを含むためのインストール済みデータタイプフィールドと、当該プロセッサの当該選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含むためのインストール済みデータレイアウトフォーマットフィールドと、当該プロセッサの当該選択されたモデルの１つ以上のサポートされるデータサイズを含むための１つ以上のフィールドとを含む、コンピュータプログラム。
前記パラメータブロックは、インストール済み関数ベクトルフィールドおよびインストール済みパラメータブロックフォーマットフィールドの少なくとも一方をさらに含み、当該インストール済み関数ベクトルフィールドは、前記プロセッサの前記選択されたモデルの１つ以上のサポートされる関数を示し、当該インストール済みパラメータブロックフォーマットフィールドは、当該パラメータブロックの１つ以上のサポートされるフォーマットを示す、請求項９に記載のコンピュータプログラム。
コンピューティング環境内での処理を容易にするためのコンピュータシステムであって、
メモリと、
前記メモリと通信する少なくとも１つのプロセッサと、を備え、前記コンピュータシステムは方法を実行するように構成され、当該方法は、
クエリ関数を実行する命令を実行することを含み、当該命令を実行することは、
プロセッサの選択されたモデルに関する情報を取得することであって、当該情報は、当該プロセッサの当該選択されたモデルの少なくとも１つのモデル依存データ属性を含む、ことと、
少なくとも１つのアプリケーションが１つ以上の関数を実行する際に使用するために、前記情報を選択された場所に配置することと、
を含み、
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータタイプを含む、コンピュータシステム。
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含む、請求項１１に記載のコンピュータシステム。
コンピューティング環境内での処理を容易にするためのコンピュータシステムであって、
メモリと、
前記メモリと通信する少なくとも１つのプロセッサと、を備え、前記コンピュータシステムは方法を実行するように構成され、当該方法は、
クエリ関数を実行する命令を実行することを含み、当該命令を実行することは、
プロセッサの選択されたモデルに関する情報を取得することであって、当該情報は、当該プロセッサの当該選択されたモデルの少なくとも１つのモデル依存データ属性を含む、ことと、
少なくとも１つのアプリケーションが１つ以上の関数を実行する際に使用するために、前記情報を選択された場所に配置することと、
を含み、
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含む、コンピュータシステム。
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータサイズを含む、請求項１１に記載のコンピュータシステム。
コンピューティング環境内での処理を容易にするためのコンピュータシステムであって、
メモリと、
前記メモリと通信する少なくとも１つのプロセッサと、を備え、前記コンピュータシステムは方法を実行するように構成され、当該方法は、
クエリ関数を実行する命令を実行することを含み、当該命令を実行することは、
プロセッサの選択されたモデルに関する情報を取得することであって、当該情報は、当該プロセッサの当該選択されたモデルの少なくとも１つのモデル依存データ属性を含む、ことと、
少なくとも１つのアプリケーションが１つ以上の関数を実行する際に使用するために、前記情報を選択された場所に配置することと、
を含み、
前記選択された場所は、前記少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含み、当該パラメータブロックは、前記選択されたモデルの複数のモデル依存データ属性を記憶するための複数のフィールドを含み、当該複数のフィールドは、前記プロセッサの当該選択されたモデルの１つ以上のサポートされるデータタイプを含むためのインストール済みデータタイプフィールドと、当該プロセッサの当該選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含むためのインストール済みデータレイアウトフォーマットフィールドと、当該プロセッサの当該選択されたモデルの１つ以上のサポートされるデータサイズを含むための１つ以上のフィールドとを含む、コンピュータシステム。
コンピューティング環境内での処理を容易にするためのコンピュータ実装方法であって、
クエリ関数を実行する命令を実行することを含み、当該命令を実行することは、
プロセッサの選択されたモデルに関する情報を取得することであって、当該情報は、当該プロセッサの当該選択されたモデルの少なくとも１つのモデル依存データ属性を含む、ことと、
少なくとも１つのアプリケーションが１つ以上の関数を実行する際に使用するために、前記情報を選択された場所に配置することと、
を含み、
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータタイプを含む、
コンピュータ実装方法。
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含む、請求項１６に記載のコンピュータ実装方法。
コンピューティング環境内での処理を容易にするためのコンピュータ実装方法であって、
クエリ関数を実行する命令を実行することを含み、当該命令を実行することは、
プロセッサの選択されたモデルに関する情報を取得することであって、当該情報は、当該プロセッサの当該選択されたモデルの少なくとも１つのモデル依存データ属性を含む、ことと、
少なくとも１つのアプリケーションが１つ以上の関数を実行する際に使用するために、前記情報を選択された場所に配置することと、
を含み、
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含む、コンピュータ実装方法。
前記少なくとも１つのモデル依存データ属性は、前記プロセッサの前記選択されたモデルの１つ以上のサポートされるデータサイズを含む、請求項１６に記載のコンピュータ実装方法。
コンピューティング環境内での処理を容易にするためのコンピュータ実装方法であって、
クエリ関数を実行する命令を実行することを含み、当該命令を実行することは、
プロセッサの選択されたモデルに関する情報を取得することであって、当該情報は、当該プロセッサの当該選択されたモデルの少なくとも１つのモデル依存データ属性を含む、ことと、
少なくとも１つのアプリケーションが１つ以上の関数を実行する際に使用するために、前記情報を選択された場所に配置することと、
を含み、
前記選択された場所は、前記少なくとも１つのアプリケーションにアクセス可能なパラメータブロックを含み、当該パラメータブロックは、前記選択されたモデルの複数のモデル依存データ属性を記憶するための複数のフィールドを含み、当該複数のフィールドは、前記プロセッサの当該選択されたモデルの１つ以上のサポートされるデータタイプを含むためのインストール済みデータタイプフィールドと、当該プロセッサの当該選択されたモデルの１つ以上のサポートされるデータレイアウトフォーマットを含むためのインストール済みデータレイアウトフォーマットフィールドと、当該プロセッサの当該選択されたモデルの１つ以上のサポートされるデータサイズを含むための１つ以上のフィールドとを含む、コンピュータ実装方法。