JP2024010137A

JP2024010137A - 外部メモリを機械学習アクセラレータにとってローカルとする仮想化

Info

Publication number: JP2024010137A
Application number: JP2023186440A
Authority: JP
Inventors: マダー，ローレンス・ジェイ，ザ・サード; Madar Lawrence Iii; ファデル，テミタヨ; Fadelu Temitayo; カイタン，ハーシット; Khaitan Harshit; ナラヤナスワミ，ラビ; Narayanaswami Ravi
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-04-29
Filing date: 2023-10-31
Publication date: 2024-01-23
Also published as: JP7412438B2; US20200342350A1; TWI816566B; CN113632068A; US20220044153A1; EP3924833A1; TW202040365A; TWI777775B; TW202303402A; JP2022530309A; WO2020222874A1; TWI741416B; US11176493B2; TW202203035A; CN113632068B

Abstract

【課題】コンピュータ記憶媒体上にエンコードされたコンピュータプログラムを含み、外部メモリを機械学習アクセラレータのローカルメモリとして仮想化するための方法、システムおよび装置を提供する。
【解決手段】コンピューティング装置において、環境コンピューティングシステムは、環境機械学習（ＭＬ）エンジンと、低電力ＣＰＵと、少なくとも環境ＭＬエンジンと低電力ＣＰＵとの間で共有されるＳＲＡＭと、を備える。環境ＭＬエンジンは、環境ＭＬエンジンによって生成された仮想アドレスを、ＳＲＡＭ内の物理アドレスに変換するための仮想アドレスロジックを含む。
【選択図】図１

Description

背景
本明細書は、機械学習アクセラレータに関する。

機械学習（ＭＬ）アクセラレータは、機械学習モデルを効率的にトレーニングすること、機械学習モデルを実行すること、または機械モデルをトレーニングすることおよび機械学習モデルを実行することの両方を行うように設計された専用アーキテクチャを有する装置または装置上のコンポーネント、例えば、集積回路である。

ＭＬアクセラレータは、１つ以上の機械学習モデルを通る推論パスを実行するように構成されてもよい。各推論パスは、機械学習モデルの入力および学習済みパラメータ値を用いて、学習済みモデルによって予測される１つ以上の出力を生成する。ＭＬアクセラレータは、１つ以上の計算タイルを含むことができる。一般に、計算タイルは、一れの計算を独立して実行するように構成された完結型計算コンポーネントである。ＭＬアクセラレータのタイルは、ネットワークに配置され、ＭＬアクセラレータの各タイルが機械学習モデルを通る推論パスの一部の動作を実行するようにプログラムされてもよい。例えば、機械学習モデルがニューラルネットワークである場合、メインＭＬエンジン１５０内の各タイルは、ニューラルネットワークの１つの層の計算を計算するように構成されてもよい。

ＭＬアクセラレータは、異なる種類の機械学習モデルを柔軟に処理するために大量のメモリを必要とする。ＭＬアクセラレータが低電力状態でも環境からの入力を監視および応答することができる環境コンピューティング装置、例えば、携帯電話または他のコンピューティング装置内のコンポーネントである場合、この要件は、少なくとも２つの課題を引き起こす。

第１に、より大きな機械学習モデルに対応するために上限のメモリを割り当てることは、ＭＬアクセラレータを使用する殆どの環境コンピューティング装置にとってコストが高すぎる。また、この手法は、しばしば割り当てられたメモリの一部のみでモデルを実行する可能性があるＭＬアクセラレータに与えられたメモリを無駄にする。また、携帯性を念頭に置いて設計された環境コンピューティング装置の緊密にパックされたチップ上の物理空間を無駄にする。さらに、ＭＬアクセラレータに割り当てられるメモリは、装置の他の処理コンポーネントによって利用できない。

第２に、機械学習モデルの処理に使用されていないメモリは、依然として装置の電力を使用するため、エネルギーを浪費する。この課題は、低消費電力を念頭に置いて設計された多くの環境コンピューティング装置においてさらに酷くなる。

概要
本明細書は、ＭＬアクセラレータによって使用される外部メモリを仮想化するための技術を説明する。ＭＬアクセラレータは、例えば、機械学習モデルを処理またはトレーニングすると共に、ＭＬアクセラレータによってアクセスされる仮想メモリアドレスを変換するための集積回路として実装されるロジックを含むことができる。仮想メモリアドレスは、ＭＬアクセラレータの外部装置、例えば、ＭＬアクセラレータを実装する処理サブシス
テムに通信可能に接続されたＲＡＭまたはシステムレベルキャッシュ上のメモリ位置に変換される。対応するパラメータを含む機械学習モデルは、ＭＬアクセラレータの外部からストリームされ、ＭＬアクセラレータのローカルメモリの位置の読み書きをシミュレートするように、ＭＬアクセラレータによってアクセスされてもよい。

本明細書に記載された主題の特定の実施形態は、以下の利点のうちの１つ以上を実現するように実装されてもよい。小型低電力のＭＬアクセラレータは、環境コンピューティング装置によって受信された環境信号を処理するように実装されてもよい。ＭＬアクセラレータは、大きな共有メモリキャッシュにアクセスできる単一の計算タイルであってもよい。この大きな共有メモリキャッシュへのアクセスは、ＭＬアクセラレータのみに限定されない。

ＭＬアクセラレータが特定の機械学習モデルのメモリ要件によって指定された仮想メモリアドレスの範囲を拡張または縮小することができるため、機械学習モデルおよび対応するパラメータを経済的にストリームするように、仮想メモリアドレスを割り当てることができる。ＭＬアクセラレータは、データを再度ストリームする必要なく、例えば、畳み込みニューラルネットワークにおいてしばしば再利用されるモデルパラメータを再度ストリームする必要なく、ＭＬアクセラレータの外部メモリに格納された機械学習モデルおよびパラメータにアクセスすることができる。また、ＭＬアクセラレータは、特別な構成なしに、外部に格納された機械学習モデルおよびパラメータにアクセスすることができる。換言すれば、ＭＬアクセラレータの視点から、ＭＬアクセラレータは、アクセラレータのローカルメモリにアクセスしているように見える。

同様に、ＭＬアクセラレータは、システムレベルキャッシュというメモリ構成を有する装置のシステムレベルキャッシュに記憶されたデータにアクセスすることもできる。仮想メモリアドレスを割り当てることによって、ＭＬアクセラレータに大量の専用メモリを割り当てる必要を無くし、電力消費およびＭＬアクセラレータが環境コンピューティング装置に占有する物理空間を低減することができる。

ＭＬアクセラレータ上で実行するようにコンパイルされた機械学習モデルは、大規模な構成またはカスタマイズなしに、開示されたメモリ仮想化機能を利用することができる。機械学習モデルのコンパイラは、使用される仮想メモリを示す最小の追加命令で、当該モデルをコンパイルすることができる。

本明細書の主題の１つ以上の実施形態の詳細は、添付の図面および以下の説明に記載される。本明細書の主題の他の特徴、態様および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。

仮想アドレスロジックを含むＭＬアクセラレータを実装する例示的なコンピューティング装置を示す図である。図１のコンピューティング装置に通信可能に接続されたＳＬＣを実装する例示的なＳＯＣ上のシステムを示す図である。メモリ仮想化を用いてＭＬアクセラレータ上で機械学習モデルを実行するための例示的なプロセスを示すフローチャートである。

詳細な説明
様々な図面において、同様の参照番号および名称は、同様の要素を示す。

本明細書は、仮想メモリを、機械学習（ＭＬ）アクセラレータのローカルメモリとして実装するための技術を説明する。大量のメモリをＭＬアクセラレータのローカルメモリとして専用化する代わりに、ＭＬアクセラレータは、ＭＬアクセラレータのローカル仮想アドレスロジックによって自動的に割り当てられた仮想メモリアドレスを介して、外部メモリにアクセスすることができる。また、ＭＬアクセラレータの仮想アドレスロジックは、機械学習モデルを通る推論パスを実装するためのプログラムをコンパイルする時に当該モデルに追加された構成オプションに応じて、このメモリ仮想化機能をオンまたはオフにするためのロジックを含むことができる。

以下で説明するように、この構成オプションおよび他の構成オプションは、機械学習モデルをコンパイルする時に、環境ＭＬエンジン１３４またはメインＭＬエンジン１５０などのＭＬアクセラレータによって実行可能なコンパイル済み命令として含まれてもよい。

図１は、仮想アドレスロジックを含むＭＬアクセラレータを実装する例示的なコンピューティング装置１００を示す図である。装置１００は、任意の適切なコンピューティング装置、例えば、スマートフォン、スマートウォッチ、フィットネストラッカ、携帯情報端末（ＰＤＡ）、電子タブレットまたはラップトップに実装される環境コンピューティングシステム１１０を含むことができる。コンピューティング装置１００の環境コンピューティングシステム１１０を使用することによって、コンピューティング装置１００は、低電力状態を維持しながら、システムの適切な処理コンポーネントを順次にウェークアップすることによって環境からの入力を継続的に監視および応答することができる。本明細書において、図１を参照して環境コンピューティングシステム１１０を説明するが、低電力環境コンピューティングシステムの実装に関する総合考察は、その全体が参照により本明細書に組み込まれる国際出願番号ＰＣＴ／ＵＳ２０１８／０６２３２９に記載されている。

コンピューティング装置１００の１つ以上のコンポーネントは、コンピューティング装置内のシステムオンチップ（ＳＯＣ）上に実装されてもよい。ＳＯＣは、単一のシリコン基板上のシステム、またはシリコンインターポーザ、積層ダイまたは相互接続ブリッジなどの複数の相互接続ダイ上のシステムの各コンポーネントを含む集積回路であってもよい。コンピューティング装置の他のコンポーネント、例えばメインＣＰＵクラスタ１４０、メインＭＬエンジン１５０、または処理サブシステム１３０は、同一のダイ上に実装されてもよく、または別個のダイ上に実装されてもよい。

コンピューティング装置１００は、ＳＯＣから離れ且つＳＯＣから独立しているセンサ１１２、１つ以上のディスプレイ、バッテリ、および他のコンポーネントを含むコンポーネントを含むことができる。これらのコンポーネントは、例えば、共通のハウジングに搭載されてもよい。コンピューティング装置１００は、システム内のコンポーネントへの電力およびセンサ信号の供給を制御するための制御サブシステム１２０を含む。装置１００は、センサ信号を処理し、出力を生成するための処理サブシステム１３０を含む。

装置１００は、いくつかの周辺センサ１１２を含むことができる。周辺センサ１１２は、１つ以上の音声センサ１０２、１つ以上のレーダセンサ１０４、１つ以上のタッチセンサ１０６、全地球測位システム（ＧＰＳ）センサ１０８、および／または加速度センサ１０９を含むことができる。システムは、追加の周辺センサ、より少ない周辺センサ、または代替の周辺センサを含むことができる。周辺センサ１１２は、環境入力に応答してセンサ信号を生成するように構成された装置であってもよい。

環境コンピューティングシステム１１０は、１つ以上の周辺インターフェイス１１４を含むことができる。周辺インターフェイス１１４は、コンピューティング装置１００が最
低電力状態にあっても電源をオンにすることができる装置のコンポーネントであってもよい。周辺インターフェイス１１４は、周辺センサ１１２から受信した入力を、環境コンピューティングシステム１１０によって使用されるセンサ信号に変換するための任意の適切な周辺インターフェイスを含むことができる。

各々の周辺インターフェイス１１４は、環境入力を検出すると、対応する割り込みを生成するように構成される。一般に、各割込みは、センサデータのソース、例えば、割込みを生成する周辺インターフェイスまたはセンサの識別子を特定することができる。割り込みは、１つ以上の割り込みコントローラ１２４によって受信され、処理される。例えば、割込みを受信すると、割込みコントローラ１２４は、電力管理ユニット（ＰＭＵ）１２２およびクロック制御ユニット１２３を含む電力制御ユニット（ＰＣＵ）１２１をウェークアップすることができる。ＰＭＵ１２２は、電力を受け取る装置１００のコンポーネントおよび各コンポーネントの電力の受け取り量を制御することができる。クロック制御ユニット１２３は、装置１００のコンポーネントが動作する頻度を制御することができる。

本明細書においてセンサ信号を他の処理コンポーネントの入力として記載する場合、この入力は、センサ自体によって生成されたアナログ電気信号、センサ信号のデジタル表現、または元の信号の１つ以上の特性を表す処理済みセンサ信号のデジタル表現であってもよい。

割り込みを受信すると、ＰＣＵ１２１は、割り込みのソースに基づいて、割り込みを引き起こすセンサ信号をさらに処理するために、環境コンピューティングシステム１１０のどのコンポーネントを起動すべきかを判断することができる。このようなコンポーネントに処理サポートを提供するために、ＰＣＵ１２１は、スタティックランダムアクセスメモリ（ＳＲＡＭ）１３９およびシステム通信ファブリックをウェークアップすることができる。

システム通信ファブリックは、環境コンピューティングシステム１１０の内部コンポーネント、外部コンポーネントへの通信、またはこれらの組み合わせを通信可能に連結するための通信サブシステムである。ファブリックは、通信ハードウェア、例えば、バスまたは専用の相互接続回路の任意の適切な組み合わせを含むことができる。

図示されていないが、コンピューティング装置１００は、一部の例として、このようなコンピューティング装置上に一般に見られる１つ以上の他のコンポーネント、例えば、ディスプレイ、モデム、グラフィック処理ユニット、ディスプレイプロセッサ、または専用イメージプロセッサを含むことができる。以下で説明するように、システムは、低電力状態の時にこれらのコンポーネントの電源をオフにすることができ、センサ信号に基づいてアプリケーションがこれらのコンポーネントの起動を必要とすると判断した場合に、これらのコンポーネントを起動することができる。

また、装置１００は、メインＣＰＵクラスタ１４０を含む。メインＣＰＵクラスタ１４０は、コンピューティング装置１００のコンポーネントであり、処理サブシステム１３０のコンポーネントとは別個の１つ以上の汎用プロセッサを含むことができる。メインＣＰＵクラスタ１４０のプロセッサは、一般に、処理サブシステム１３０のコンポーネントよりも多くの計算電力を有するため、処理サブシステム１３０のコンポーネントよりも多くの電力を消費する。

制御サブシステム１２０は、システムの故障を検出し、これらの故障を解決することができる電子タイマであるタイマ１２９を含むことができる。通常の動作時に、制御サブシステム１２０は、タイマ１２９を定期的にリセットすることによって、タイマ１２９のタ
イムアウトを防ぐことができる。例えば、ハードウェア故障またはプログラムエラーによって制御サブシステム１２０がタイマをリセットすることができない場合、タイマは、継続的に動作し、タイムアウト信号を生成する。タイムアウト信号は、１つ以上の修正動作を開始するように使用されてもよい。修正動作は、環境コンピューティングシステム１１０を安全状態に設定すること、およびシステムを通常動作に回復することを含むことができる。

処理サブシステム１３０は、環境機械学習エンジン１３４を含む。環境ＭＬエンジン１３４は、１つ以上の機械学習モデルを通る推論パスを実行するように構成された専用処理装置である。

環境ＭＬエンジン１３４は、ニューラルネットワークの起動または他のニューラルネットワーク層の出力を計算するための１つ以上の乗算累積（ＭＡＣ）ユニットおよび１つ以上のサムレジスタ（sum register）と、サムレジスタとＭＡＣユニットとの間のデータ交換を制御するためのコントローラとを含むことができる。また、環境ＭＬエンジン１３４は、命令メモリ、ダイレクトメモリアクセス経路、レジスタ、および他の処理コンポーネントを含むことができる。いくつかの実装形態において、環境ＭＬエンジン１３４は、機械学習による推論パスの計算を加速するように構成された単一の機械学習計算タイルである。

環境ＭＬエンジンは、仮想アドレスロジック１３５を含む。仮想アドレスロジック１３５は、環境ＭＬエンジン１３４内の専用回路であってもよい。仮想アドレスロジック１３５は、環境ＭＬエンジンによって生成された仮想アドレスを、環境ＭＬエンジン１３４の非ローカルメモリであるＳＲＡＭ１３９内の物理メモリアドレスに変換することができる。本明細書において、コンピューティング装置１００のコンポーネント、例えば環境ＭＬエンジン１３４の非ローカルメモリは、当該コンポーネントおよび１つ以上の他のコンポーネントによって使用されるメモリを意味する。換言すれば、非ローカルメモリは、当該コンポーネントによって独占的に使用されない。

例えば、ＳＲＡＭ１３９は、処理サブシステム１３０の複数の処理コンポーネント、例えば、低電力ＤＳＰ１３６、高電力ＤＳＰ１３８、低電力ＣＰＵ１３２、および環境ＭＬエンジン１３４によって共有され得る汎用のスタティックランダムアクセスメモリ装置であってもよい。したがって、ＳＲＡＭは、環境ＭＬエンジン１３４の非ローカルメモリである。対照的に、環境ＭＬエンジン１３４はまた、環境ＭＬエンジン１３４によって独占的に使用され、環境ＭＬエンジンの他の部分と同じシリコンダイに集積され得るローカルメモリを含むことができる。例えば、環境ＭＬエンジン１３４は、１つ以上の集積レジスタを含むローカルメモリを有することができる。集積レジスタ内のデータが環境ＭＬエンジン１３４のみによって読み出されるまたは書き込まれるため、集積レジスタは、環境ＭＬエンジン１３４のローカルメモリである。

ＳＲＡＭ１３９は、センサ信号、プロセッサの命令およびデータ、システムの出力、および他のデータ、例えば、環境ＭＬエンジン１３４によって実装されるニューラルネットワークモデルのニューラルネットワークパラメータを格納することができる。

一般に、ＳＲＡＭは、周期的にリフレッシュする必要がないという点で、ＤＲＡＭと異なる。以下でより詳細に説明するように、処理サブシステム１３０内の処理コンポーネントは、直接にまたはダイレクトメモリアクセス（ＤＭＡ）コントローラ１２８を介して、ＳＲＡＭ１３９にアクセスすることができる。いくつかの実装形態において、ＳＲＡＭ１３９は、複数のメモリバンクを含み、各々のメモリバンクは、実質的に同様のデータ容量、例えば１ＭＢ、１０ＭＢ、または１００ＭＢのデータ容量を有する。さらに、各メモリ
バンクは、低電力状態の時に個々の電源をオフにすることができる複数のメモリブロックを含むことができる。複数のメモリバンクのメモリブロックの電源をオフにする順序を慎重に設置することによって、ＳＲＡＭのメモリアドレス空間を連続にすることができる。

仮想アドレスロジック１３５は、環境ＭＬエンジン１３４によって生成された仮想メモリアドレスを変換することができる。いくつかの実装形態において、仮想アドレスロジック１３５は、例えば、環境ＭＬエンジン１３４によって生成された仮想アドレスの最上位ビットを用いて、仮想ページと物理ページとの間のマッピングを維持する。

仮想アドレスロジック１３５は、環境ＭＬエンジン１３４によって実行されるコンパイル済み命令によって生成された仮想アドレスの読み書き要求を受信することができる。その後、仮想アドレスロジック１３５は、仮想アドレスをＳＲＡＭ１３９内の物理アドレスにマッピングすることができる。いくつかの実装形態において、仮想アドレスロジック１３５は、仮想ページ番号を物理ページ番号にマッピングし、最下位ビットをコピーすることによって、物理アドレスを生成する。

仮想メモリアドレスを物理メモリアドレスに変換することは、ＭＬアクセラレータが機械学習モデルのコンパイル済み命令を実行するときに、コンパイル済み命令内のメモリアドレス位置のデータの各読み出しまたは書き込み命令が、対応する物理メモリアドレス位置のデータの読み出しまたは書き込みをもたらすことを意味する。いくつかの実装形態において、仮想アドレスロジック１３５は、環境ＭＬエンジン１３４が対応する物理メモリアドレスにマッピングされた仮想メモリアドレス位置のデータの読み出しまたは書き込み命令を実行することに応答して、ＳＲＡＭ１３９の対応する物理メモリアドレス位置に読み出しまたは書き込み命令を発行するように構成される。

仮想アドレスロジック１３５は、仮想メモリアドレスを、環境ＭＬエンジン１３４の非ローカルメモリ位置の物理メモリアドレスにマッピングすることができる。いくつかの実装形態において、処理サブシステム１３０は、マッピングされた物理メモリアドレスによって参照される位置の既存のデータを上書きすることができる。仮想アドレスロジック１３５は、この初期化ステップを自動的に実行するように構成されてもよく、または機械学習モデル上で推論パスを実行するコンパイル済みプログラムによって指定された構成オプション、例えば環境ＭＬエンジン１３４上で実行されるコンパイル済みプログラムの１つ以上の命令に応答して、この初期化ステップを実行するように構成されてもよい。

環境ＭＬエンジン１３４は、機械学習モデルを用いて、割り当てられた非ローカルメモリにアクセスすることによって、推論パスを実行する１つ以上の命令を含むコンパイル済みプログラムを実行することができる。環境ＭＬエンジン１３４の視点から、仮想メモリアドレス位置でアクセスされるデータは、環境ＭＬエンジン１３４のローカルデータとして扱われる。実際には、このデータは、ＳＲＡＭ１３９またはシステムレベルキャッシュなどの共有メモリソースからアクセスされる。

また、装置１００は、必要に応じて、メインＭＬエンジン１５０を含むことができる。メインＭＬエンジン１５０は、１つ以上の機械学習モデルを通る推論パスを実行する、すなわち、メインＭＬエンジン１５０上で機械学習モデルを実行するように構成された専用処理装置である。各推論パスは、機械学習モデルの入力および学習済みパラメータ値を用いて、環境ＭＬエンジン１３４と同様に、学習済みモデルによって予測された１つ以上の出力を生成する。メインＭＬエンジン１５０は、１つ以上の計算タイルを含むことができ、１つ以上の計算タイルは、ネットワークに配置され、メインＭＬエンジン１５０の各タイルが機械学習モデルを通る推論パスの一部の動作を実行するようにプログラムされてもよい。複数の計算タイルを含む適切な機械学習エンジンは、参照によりその全体が本明細
書に組み込まれる米国特許９７１０２６５に記載されている。

装置１００がメインＭＬエンジン１５０および環境ＭＬエンジン１３４の両方を含む場合、一般に、環境ＭＬエンジン１３４は、メインＭＬエンジン１５０に比べてより少ない計算タイルを有し、したがって、メインＭＬエンジン１５０に比べてより少ない処理能力を有し、より少ない電力を消費する。例えば、環境ＭＬエンジン１３４は、１つまたは２つの計算タイルとして実装することができる一方、メインＭＬエンジン１５０は、８つ以上の相互接続タイルを有することができる。

各計算タイルは、少量のローカルメモリを有することができる。計算タイルのローカルメモリだけでは、機械学習モデルを処理するのに不十分であることが多い。したがって、上述したように、個々のタイルをネットワークに構成することによって、リソースを共有し、所定入力の機械学習モデルを処理するタスクを一連のサブタスクとして各計算タイルに割り当てることができる。

環境ＭＬエンジン１３４が一般にメインＭＬエンジン１５０よりも比較的少ない計算タイルで実装されるため、ネットワーク構成を最適化してもまたは処理をタイルに分配しても、利用可能な１つまたは２つの計算タイルは、機械学習モデルを処理するのに十分でない可能性がある。その理由として、計算タイルは、機械学習モデルを処理するための計算能力を有しない、または十分なメモリを有しない可能性があるからである。いくつかの実装形態において、環境ＭＬエンジン１３４が単一の計算タイルとして実装されるため、最も基本的なネットワーキングまたは分配でさえも利用できない。したがって、仮想アドレスロジック１３５は、機械学習モデルを実行する環境ＭＬエンジン１３４によって必要とされるメモリ仮想化を実行することができる。

図１には示されていないが、メインＭＬエンジン１５０は、メインＭＬエンジン１５０のために非ローカルメモリを仮想化するための仮想アドレスロジックを含むこともできる。メインＭＬエンジン１５０は、一般に環境ＭＬエンジン１３４よりも多くの計算リソースを有すると共に、特定の機械学習モデルを実行するためにメインＭＬエンジン１５０の非ローカルメモリにアクセスする必要がある。この場合、環境ＭＬエンジン１３４内の仮想アドレスロジック１３５に関して説明した技術と同じ技術を使用して、メインＭＬエンジン１５０に仮想アドレスロジックを実装することができる。環境ＭＬエンジン１３４に関して説明したように、仮想メモリアドレスをＳＲＡＭ内の物理メモリアドレスに変換する代わりに、メインＭＬエンジン１５０の仮想アドレスロジックは、仮想メモリアドレスをシステムレベルキャッシュ（ＳＬＣ）の物理メモリアドレスに変換するように構成されてもよい。

ＳＬＣは、システム内の複数の異なるハードウェア装置のメモリから取り出されたデータまたはメモリに記憶されたデータをキャッシュすることができる装置または装置のコンポーネント、例えばコンピューティング装置１００であってもよい。換言すれば、ＳＬＣの異なるキャッシュラインは、異なるハードウェア装置のデータを記憶することができる。いくつかの実装形態において、図２を参照して以下で説明するように、メインＭＬエンジン１５０上で仮想アドレスロジックを実装することによって、ＳＬＣ上の物理メモリロケーションに対応する仮想アドレスを変換することができる。

次に、環境コンピューティングシステム１１０の例示的な動作を検討する。本明細書において、「ウェーク」（wake）および「起動」（activate）という用語は、電子機器の特定の処理コンポーネントまたは他の回路に増加した電力量を供給することを意味する。環境コンピューティングシステム１１０は、ウェークアップされているまたは起動されている処理コンポーネントまたは他の回路に電力を供給してもよく、供給しなくてもよい。換
言すれば、ウェークアップされているまたは起動されているコンポーネントの以前の電源は、完全に切断されてもよく、切断されなくてもよい。処理コンポーネントをウェークアップまたは起動することによって、処理コンポーネントは、ブートプロセスを実行し、処理コンポーネントの命令およびデータをランダムアクセスメモリにロードすることができる。代替的にまたは追加的に、処理コンポーネントのウェークアップまたは起動は、以前の一時停止状態からの再開を含むことができる。

ＰＣＵ１２１は、ＳＲＡＭ１３９をウェークアップする場合、ＳＲＡＭ１３９の一部のブロックまたは一部のメモリバンクをウェークアップすることができる。代わりに、ＰＣＵ１２１は、処理サブシステム１３０の次のコンポーネントが装置１００のコンポーネントの電力供給をさらに増大させるか否かを判断するのに十分な数のブロックのみをウェークアップすることができる。

また、ＰＣＵ１２１は、ＳＲＡＭ１３９の異なるブロックに異なるレベルの電力を供給することができる。例えば、監視電力状態において、ＰＭＵ１２２は、ＳＲＡＭ１３９の全体により低い保持電圧を供給することによって、その電力消費を低減することができる。処理コンポーネントがＳＲＡＭ１３９にアクセスする必要がない場合に、ＰＭＵ１２２は、ＳＲＡＭ１３９に保持電圧を供給することができる。処理電力状態において、ＰＭＵ１２２は、ＳＲＡＭ１３９の全部または一部に通常電圧を供給し、ＳＲＡＭ１３９の他の部分に低い電圧を供給するまたは電圧を供給しない。

また、割り込みを処理するプロセスにおいて、環境コンピューティングシステム１１０は、１つ以上のＤＭＡコントローラ１２８をウェークアップすることができる。ＤＭＡコントローラ１２８は、入来センサ信号に対してより広いデータ帯域幅を可能にするＤＭＡ経路を管理することができる。例えば、ＤＭＡコントローラを用いて、マイクロフォンからの音声データを、処理サブシステム１３０内の処理コンポーネントによってアクセスされるＳＲＡＭ１３９に連続的にストリームすることができる。逆に、ＤＭＡコントローラを用いて、ＳＲＡＭ１３９に記憶された音声データを、１つ以上のスピーカを介して音声として出力するように連続的にストリームすることができる。また、ＤＭＡコントローラ１２８を用いて、任意の適切なセンサデータをＳＲＡＭ１３９にストリームすることができるが、少量のデータの場合に、プログラムドＩＯ（programmed IO）を使用することは
、ＤＭＡコントローラを起動することよりも計算上安価である。したがって、環境コンピューティングシステム１１０は、比較的に高い帯域幅のセンサデータ、例えば音声データおよびレーダーデータをストリームする場合にＤＭＡコントローラ１２８を起動して使用することができ、他の種類のセンサデータをストリームする場合にプログラムドＩＯを使用することができる。

ファブリックおよびＳＲＡＭ１３９を用意した後、ＰＣＵ１２１は、割り込みを用いて、ウェークアップすべき処理サブシステム１３０のコンポーネントを決定することができる。例えば、ＰＭＵ１２２は、１つ以上のセンサのうち、割り込みを生成したセンサに応じて、処理サブシステム１３０の低電力ＣＰＵ１３２、低電力ＤＳＰ１３６または他のコンポーネントに電力を供給するか否かを制御することができる。いくつかの実装形態において、周辺インターフェイス１１４および制御サブシステム１２０のコンポーネントのみは、監視電力状態で電源がオンにされる装置１００のコンポーネントである。この監視電力状態において、環境コンピューティングシステム１１０は、コンピューティング装置への環境入力による割り込みの受信を待機している。

処理サブシステム１３０の処理コンポーネントは、低電力ＣＰＵ１３２と、環境ＭＬエンジン１３４と、低電力ＤＳＰ１３６と、高電力ＤＳＰ１３８とを含むことができる。いくつかの実装形態において、処理サブシステムは、これらのコンポーネントのうちの１つ
以上の複数のインスタンス、例えば、複数の低電力ＤＳＰまたは複数の高電力ＤＳＰを含む。例えば、処理サブシステム１３０は、音声信号を処理するために専用の１つの高電力ＤＳＰと、レーダ信号を処理するために専用の別個の高電力ＤＳＰとを含むことができる。代替的にまたは追加的に、処理サブシステム１３０は、画像データを処理するために専用の高電力ＤＳＰを含むことができる。

監視電力状態において、処理サブシステム１３０内の処理コンポーネントは、保持モードで維持されてもよい。ＰＣＵ１２１は、コンポーネントに供給される電力を低減または削減することによって、このコンポーネントを保持モードに維持することができる。例えば、保持モードにおいて、ＰＣＵ１２１は、レジスタの状態を維持するのに十分な電力のみを処理コンポーネントに供給するが、レジスタ内のデータを処理するのに十分な電力を供給しない。

低電力ＣＰＵ１３２は、レジスタ、制御回路、および演算ロジックユニット（ＡＬＵ）を含むプログラム可能な汎用プロセッサであってもよい。一般に、低電力ＣＰＵ１３２は、コンピューティング装置のメインＣＰＵクラスタ１４０よりも少ない電力を消費し、より少ない処理コアを含むことができる。いくつかの実装形態において、低電力ＣＰＵ１３２は、主に、単一の命令および単一のデータ入力で動作するスカラープロセッサである。低電力ＣＰＵ１３２は、受信したセンサ信号の種類および特性に基づいて、起動すべきであるシステムのコンポーネント、例えば、通信ファブリック、ＤＭＡコントローラ１２８、ＳＲＡＭ１３９の一部もしくは全部、またはこれらの組み合わせを判断することができる。これらのコンポーネントを起動した後、低電力ＣＰＵ１３２は、必要に応じて非作動状態に戻ることができる。

低電力ＣＰＵ１３２は、さらなる解明のために、センサ信号または処理済み信号を環境ＭＬエンジン１３４に提供することができる。例えば、低電力ＣＰＵ１３２は、加速度センサ入力に対応するセンサ信号を受信した場合、環境ＭＬエンジン１３４がセンサ信号をさらに処理すべきであると判断することができる。したがって、環境ＭＬエンジン１３４は、センサ信号をさらに処理することができる。

環境ＭＬエンジン１３４の１つのタスクは、センサ信号を用いて、機械学習モデルを通る推論パスを実行することによって、センサ信号をさらに処理するための他の処理コンポーネントのウェークアップをトリガすることができる出力を生成することである。換言すれば、環境ＭＬエンジン１３４は、センサ信号または低電力ＣＰＵ１３２または別の処理コンポーネントによって生成された処理済み信号を受信することができ、センサ信号をさらに処理すべき処理コンポーネントを表す出力を生成することができる。

また、環境ＭＬエンジン１３４は、機械学習モデルを実行することによって、オンチップ自動音声認識、テキスト音声生成、またはコンピューティング装置のユーザのジェスチャー認識を含む様々な異なるタスクを行うことができる。環境ＭＬエンジン１３４は、さらなる動作のために、機械学習モデルの実行による出力を低電力ＣＰＵ１３２または別の処理コンポーネントに提供することができる。

上述したように、仮想アドレスロジック１３５は、例えば機械学習モデルのコンパイル済み命令内の命令によって指示されると、メモリ仮想化を実行するように構成されてもよい。このオプションは、例えば、適切に構成されたコンパイラが機械学習モデルをコンパイルする時のデフォルトオプションとして設定されてもよく、またはコンパイラを実装するプログラムの実行を促すユーザからの入力に応答して設定されてもよい。環境ＭＬエンジン１３４上で機械学習モデルを実行するためのコンパイル済み命令は、メモリ仮想化が選択されたか否かに関わらず同じであるが、コンパイラは、例えば、１つ以上の命令を用
いて、環境ＭＬエンジン１３４が仮想メモリを使用して機械学習モデルを実行するべきであることをさらに示すことができる。

メモリ仮想化が有効化された場合、環境ＭＬエンジン１３４は、仮想アドレスロジック１３５によって生成された仮想メモリマッピングアドレスを用いて、環境ＭＬエンジン１３４の非ローカルメモリソースからモデルパラメータおよび他のモデル構成情報をストリームすることができる。例えば、機械学習モデルのモデルパラメータは、ＳＲＡＭ１３９に記憶され、１つ以上の物理メモリアドレスによって参照されてもよい。

機械学習モデルのコンパイル済み命令は、メモリ内のデータをロードするための命令、読み出すための命令、および書き込むための命令を含むことができる。仮想アドレスロジックは、コンパイル済み命令のメモリ参照を変更することなく、コンパイル住機械学習モデルのコンパイル済み命令によって参照される仮想メモリアドレスを対応する物理メモリアドレスに変換するように構成されてもよい。

追加のステップとして、処理サブシステム１３０は、まず、機械学習モデルのモデルパラメータおよび他の構成情報を、別のメモリ装置からＳＲＡＭ１３９にロードすることができる。例えば、ＤＭＡコントローラ１２８は、モデルパラメータをＤＲＡＭからＳＲＡＭ１３９にストリームすることができる。ＤＲＡＭは、環境コンピューティングシステム１１０のローカルメモリであってもよく、外部メモリであってもよい。次いで、仮想アドレスロジック１３５は、仮想メモリアドレスを、モデルパラメータがロードされたＳＲＡＭ１３９内の物理メモリ位置にマッピングすることができる。ＤＭＡコントローラ１２８は、パラメータをＳＲＡＭ１３９にストリームすることの一部として、ＳＲＡＭ１３９に記憶された既存のデータを上書きするように構成されてもよく、またはモデルパラメータをＳＲＡＭ１３９内の利用可能な空間にストリームするように構成されてもよい。機械学習モデルのコンパイル済み命令のうち、１つ以上の命令は、ＤＭＡコントローラ１２８がＳＲＡＭ１３９内の既存のデータを上書きすべきか否かを指定することができる。

上述したように、ＳＲＡＭ１３９は、コンピューティング装置１００の状態に応じてアクティブ化されているまたはアクティブ化されていない複数のメモリバンクを含むことができる。ＳＲＡＭ１３９内のメモリのいくつかのブロックまたはバンクは、既存のデータがあるためまたは特定のブロックまたはメモリバンクがアクティブ化されていないため、利用可能でない場合がある。

ＤＲＡＭは、環境コンピューティングシステム１１０の一部であってもよく、環境コンピューティングシステム１１０の外部にあってもよい。いくつかの実装形態において、ＤＲＡＭは、環境コンピューティングシステム１１０の外部にあるが、環境コンピューティングシステム１１０と同じＳＯＣ上にある。いくつかの実装形態において、ＤＲＡＭは、環境コンピューティングシステムを実装したＳＯＣの外部にある。いずれの実装形態において、ＤＭＡコントローラ１２８は、ＤＲＡＭからモデルパラメータをストリームするように構成されてもよい。

例えば、ＳＲＡＭ１３９が現在では環境コンピューティングシステム１１０の他の処理コンポーネントによって使用されているため、モデルパラメータをＳＲＡＭ１３９にストリームすることができない場合、仮想アドレスロジック１３５は、仮想メモリアドレスを、モデルパラメータを直接に格納する物理メモリアドレスに変換することができる。いくつかの実装形態において、仮想アドレスロジックは、ＤＭＡコントローラ１２８を用いてモデルパラメータを最初にＳＲＡＭ１３９にストリームする代わりに、モデルパラメータを格納するＤＲＡＭの物理メモリアドレスを変換するように構成されてもよい。

また、機械学習モデルの構成情報は、コンパイル時に指定された、環境ＭＬエンジン１３４がアクセスすべきローカルメモリのサイズを示す１つ以上の命令を含むことができる。例えば、コンパイラは、機械学習モデルを実行するＭＬエンジンが割り当てられた特定のサイズのメモリを有するという仮定で、当該モデルを命令のセットにコンパイルした場合、仮想アドレスロジックは、当該サイズのメモリを、ＳＲＡＭ１３９内の物理メモリアドレスにマッピングされた仮想メモリアドレスとして提供するように構成されてもよい。代替的には、コンパイラを実行するプログラムは、コンパイル時に、ユーザプロンプトまたはデフォルト条件に応じて、メモリのサイズを設定することができる。

上述したように、環境ＭＬエンジン１３４は、環境ＭＬエンジン１３４のローカルメモリに記憶されたデータにアクセスすると共に、仮想メモリアドレスを参照することができる。環境ＭＬエンジン１３４が１つ以上のレジスタを含むいくつかの実装形態において、環境ＭＬエンジン１３４は、仮想メモリアドレスを介して環境ＭＬエンジン１３４の外部データにアクセスすることができ、アクセスしたデータを環境ＭＬエンジン１３４のレジスタにロードすることができる。このようにして、環境ＭＬエンジン１３４によって繰り返しアクセスされる可能性の高いデータ、例えば、畳み込みニューラルネットワークモデルにおいて畳み込みを行うためのパラメータまたは共通パラメータのサブセットを、環境ＭＬエンジン１３４に利用可能な最も速いメモリ（多くの場合、ローカルレジスタ）上に記憶することができる。

環境ＭＬエンジン１３４によって生成された出力は、処理コンポーネントＩＤの組み合わせまたは列挙された電力状態の識別子を明示的に指定することができ、またはセンサ信号を処理すべき他の高電力処理コンポーネントを特定するために、低電力処理コンポーネント、例えば低電力ＣＰＵまたは低電力ＤＳＰによって解釈された電力状態を示す表現であってもよい。このプロセスの一部として、低電力処理コンポーネントは、他の処理が必要であるか否かを明示的にまたは暗黙的に判断することができる。例えば、低電力処理コンポーネントは、環境ＭＬエンジン１３４の出力に基づいて、さらなる処理が要求されておらず、環境コンピューティングシステム１１０が監視電力状態に戻ることができることを判断することができる。

最低レベルの監視電力状態において、ＰＣＵ１２１は、環境ＭＬエンジン１３４を低電力状態に維持することができ、または環境ＭＬエンジン１３４の電源を完全に切ることができる。処理電力状態において、ＰＣＵ１２１は、周辺インターフェイス１１４においてどのセンサ信号が利用可能であるかおよび低電力ＣＰＵ１３２または低電力ＤＳＰ１３６がどのように信号を解釈するかに応じて、環境ＭＬエンジン１３４に電力を提供するまたは提供しない。いくつかの実装形態において、低電力ＤＳＰ１３６または低電力ＣＰＵ１３２は、信号を解釈して、追加の中間電力状態を維持するための電力を供給するようにＰＣＵ１２１に命令することができる。この中間電力状態において、推論パスを実行するために環境ＭＬエンジン１３４の電源をオンにするが、他の高電力処理コンポーネントの電源をオンにしない。

低電力ＤＳＰ１３６および高電力ＤＳＰ１３８は、高ベクトル化信号を効率的に復号および処理するために構成された専用プロセッサである。処理サブシステム１３０は、異なる目的のために設計された様々なＤＳＰを含むことができる。例えば、処理サブシステム１３０は、レーダ信号を処理するように構成されたＤＳＰ、または音声信号を処理するように構成されたＤＳＰを含むことができる。

上述したように、低電力ＤＳＰ１３６は、制御サブシステム１２０からのセンサ信号の初期解釈を実行することができる。また、低電力ＤＳＰ１３６は、他の信号処理タスクを実行することもできる。一般に、高電力ＤＳＰは、よりアクティブなレジスタを有するた
め、より多数のデータを並列にアクセスおよび処理するため、より多くのメモリ動作に依存するため、またはこれらの組み合わせによって、低電力ＤＳＰよりも多くの電力を消費する。

図２は、図１のコンピューティング装置１００に通信可能に接続されたＳＬＣを実装するＳＯＣ２００上の例示的なシステムを示す図である。ＳＯＣ２００は、例えば、コンピューティング装置１００に配置されてもよく、コンピューティング装置１００に集積されてもよく、または別個の装置もしくは別個の装置のコンポーネントであってもよい。

コンピューティング装置のコンポーネント２５０は、ＳＯＣファブリック２４０を介してＳＬＣ２３０と通信することができる。コンピューティング装置のコンポーネント２５０は、ＳＬＣ２３０と通信することができるように構成されたコンピューティング装置１００上の任意のコンポーネントであってもよく、メインＭＬエンジン１５０、メインＣＰＵクラスタ１４０、および環境コンピューティングシステム１１０を含んでもよい。

ＳＯＣファブリック２４０は、ＳＯＣ２００の通信サブシステムであり、コンピューティング装置のコンポーネント２５０が互いに通信することおよびＳＬＣ２３０上のデータを読み書きする要求を発行することを可能にする通信経路を含むことができる。ＳＬＣ２３０は、専用のキャッシュメモリを有する。このキャッシュメモリは、専用のレジスタまたは高速ＲＡＭで実装されてもよい。ＳＯＣファブリック２４０は、通信ハードウェア、例えばバスまたは専用の相互接続回路の任意の適切な組み合わせを含むことができる。

また、ＳＯＣ２００は、ＳＬＣ２３０とメモリコントローラ２２０との間の通信を可能にする通信経路２５２と、メモリコントローラ２２０とＳＯＣ２００の非ローカルＤＲＡＭ２１０との間の通信を可能にするチップ間通信経路２５４とを含む。メモリコントローラ２２０は、ＳＬＣ２３０およびＤＲＡＭ２１０のメモリを読み書きする要求を処理することができる。ＤＲＡＭ２１０のみが図２に示されているが、メモリコントローラ２２０は、図示されていない他のメモリ装置、例えば、ハードドライブまたはソリッドステートドライブなどの任意の揮発性または不揮発性メモリ装置と通信することができる。

ＳＬＣ２３０は、コンピューティング装置のコンポーネント２５０からの読出し要求、書込み要求、または両方をキャッシュすることができる。ＳＬＣ２３０は、キャッシュデータに記憶されたデータを含む要求に応答して、ＤＲＡＭ２１０から当該データを取得するのではなく、クライアント装置からの読出し要求をキャッシュすることができる。同様に、ＳＬＣは、新しいデータをＤＲＡＭに書き込むのではなく、新しいデータをキャッシュに書き込むことによって、クライアント装置からの書込み要求をキャッシュすることができる。その後、ＳＬＣ２３０は、キャッシュの書き戻しを実行することによって、更新されたデータをＤＲＡＭ２１０に格納することができる。

上述したように、メインＭＬエンジン１５０は、仮想メモリアドレスを、メインＭＬエンジン１５０の外部メモリにマッピングされた物理メモリアドレスに変換するための仮想アドレスロジックを含むことができる。いくつかの実装形態において、仮想アドレスロジック１３５は、物理メモリアドレスを処理サブシステム１３０の共有ＳＲＡＭ１３９にマッピングする一方、メインＭＬエンジン１５０の仮想アドレスロジックは、仮想メモリアドレスをＳＬＣ２３０内の物理メモリアドレスにマッピングすることができる。

メインＭＬエンジン１５０上で実行する機械学習モデルのメモリ仮想化が有効化された場合、仮想アドレスロジックは、仮想メモリアドレスをＤＲＡＭ２１０内の物理メモリアドレスに変換するために、ＳＯＣファブリック２４０を介してＳＬＣ２３０と通信するように構成されてもよい。初期化ステップとして、メモリコントローラ２２０は、ＳＯＣ２
００の外部のＤＲＡＭ２１０または他のメモリ装置からＳＬＣ２３０に最初にストリームされたモデルパラメータをストリームすることができる。

図３は、メモリ仮想化を用いてＭＬアクセラレータ上で機械学習モデルを実行するための例示的なプロセスを示すフローチャートである。便宜上、図３のプロセスは、１つ以上の場所に配置された１つ以上のコンピュータのシステムによって実行されるものとして説明される。例えば、本明細書に従って適切にプログラムされた環境コンピューティングシステム、例えば図１の環境コンピューティングシステム１１０は、図３のプロセスを実行することができる。図３のプロセスを実行することができるシステムを実装するためのさらなる詳細は、上記の図１および図２の説明において見出すことができる。

システムは、モデルパラメータを、システムの非ローカルメモリ装置から共有メモリ装置にストリームする（３１０）。図１および図２を参照して上述したように、ＭＬアクセラレータ上で実行される機械学習モデルのモデルパラメータは、システムの外部メモリ、例えばＤＲＡＭに記憶されてもよい。システムは、例えばＤＭＡコントローラを介して、機械学習モデルを実行するためのモデルパラメータおよび構成オプションをストリームすることができる。メモリ装置は、例えば共有ＳＲＡＭであってもよい。いくつかの実装形態において、前述したように、システムは、共有メモリ装置内の既存のデータを上書きすることができる。上述したように、ＭＬアクセラレータは、システムの環境ＭＬエンジンまたはメインＭＬエンジンであってもよい。ＭＬアクセラレータがシステムのメインＭＬエンジンである場合、共有メモリ装置は、システムレベルキャッシュであってもよい。

システムは、ＭＬアクセラレータ上の仮想アドレスロジックを介して、共有メモリ装置においてモデルパラメータを記憶する位置に対応する物理メモリアドレスにマッピングされる仮想メモリアドレスを生成する（３２０）。図１を参照して上述したように、仮想アドレスロジックは、機械学習モデルのコンパイル済み命令中の読み出しまたは書き込み命令によって参照されるメモリアドレスから、仮想メモリアドレスを生成することができる。また、仮想メモリロジックは、仮想メモリアドレスと物理メモリアドレスとの間のマッピング関係を生成し、そのマッピング関係をＭＬアクセラレータのローカルメモリ、例えばレジスタに格納するように構成されてもよい。

システムは、仮想アドレスロジックによって変換されたコンパイル済み命令を実行することによって、機械学習モデルを通る推論パスを実行するためのコンパイル済みプログラムを実行する（３００）。図１を参照して上述したように、システムは、機械学習モデルを用いて、具体的には共有メモリ装置に格納されたモデルパラメータを用いて、推論パスを実行するためのコンパイル済みプログラムを実行する。上述したように、仮想メモリアドレスと物理メモリアドレスとの間の変換は、適切な読み出しまたは書き込み命令を、コンパイル済み命令内の読み出しまたは書き込み命令と一致する物理メモリアドレス場所にまたは物理メモリアドレスにマッピングされた仮想メモリアドレスの位置に発行することを意味する。

本開示に記載された主題および機能的な動作の実施形態は、本開示に開示された構造およびそれらの構造的均等物を含むデジタル電子回路、有形化されたコンピュータソフトウェアまたはファームウェア、コンピュータハードウェア、もしくはそれらの１つ以上の組み合わせにおいて実現することができる。本開示に記載された主題の実施形態は、１つ以上のコンピュータプログラム、すなわち、有形化された非一時的なプログラム担体上にエンコードされ、データ処理装置によって実行されるまたはデータ処理装置の動作を制御するためのコンピュータプログラム命令の１つ以上のモジュールとして実装することができる。コンピュータ記憶媒体は、機械可読記憶装置、機械可読記憶基板、ランダムまたはシリアルアクセスメモリ装置、またはそれらの１つ以上の組み合わせであってもよい。代替
的にまたは追加的には、プログラム命令は、人為的に生成された伝播信号、例えば、データ処理装置による実行のため、情報を適切な受信機に送信するために符号化することによって生成された機械生成電気信号上にエンコードされてもよい。

「データ処理装置」という用語は、データ処理ハードウェアを指し、データを処理するためのあらゆる種類の機器、装置およびマシン、例えば、プログラム可能なプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む。また、この装置は、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）などの専用論理回路であってもよく、またはそれらをさらに含んでもよい。この装置は、ハードウェアに加えて、コンピュータプログラムの実行環境を生成するコード、例えばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの１つ以上の組み合わせを構成するコードを含むことができる。

プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとして呼ばれ得るまたは記述され得るコンピュータプログラムは、コンパイル言語またはインタープリタ言語、宣言型言語または手続き型言語を含む任意のプログラミング言語で記述することができ、スタンドアロンプログラムとしてまたはコンピューティング環境内の使用に適したモジュール、コンポーネント、サブルーチン、オブジェクトまたはその他のユニットとしての任意の形で使用することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応することができるが、必ずしも対応する必要がない。プログラムは、他のプログラムまたはデータ（例えば、マークアップ言語文書に記憶された１つ以上のスクリプト）を保持するファイルの一部、関与しているプログラムに専用の単一ファイル、または複数の同格ファイル（例えば、１つ以上のモジュール、サブプログラムまたはコードの一部を記憶するファイル）に記憶されてもよい。コンピュータプログラムは、１つのコンピュータ上で、または１つのサイトに配置されまたは複数のサイトにわたって分散され、データ通信ネットワークによって相互接続されている複数のコンピュータ上で動作しているように実装することができる。

特定の操作または動作を実行するように１つ以上のコンピュータからなるシステムを構成することは、作動されると、システムに操作または動作を実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせを、システムにインストールすることを意味する。特定の操作または動作を実行するように１つ以上のコンピュータプログラムを構成することは、１つ以上のプログラムが、データ処理装置によって実行されると、データ処理装置に操作または動作を実行させる命令を含むことを意味する。

「エンジン」または「ソフトウェアエンジン」という用語は、本明細書に使用された場合、入力とは異なる出力を提供するためのハードウェアまたはソフトウェア実装の入出力システムを指す。エンジンは、専用のデジタル回路としてまたはコンピューティング装置によって実行されるコンピュータ可読命令として実装されてもよい。各エンジンは、任意の適切な種類のコンピューティング装置、例えば、サーバ、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、音楽プレーヤ、電子書籍リーダ、ラップトップもしくはデスクトップコンピュータ、ＰＤＡ、スマートフォン、または１つ以上のプロセッサおよびコンピュータ可読媒体を含む他の固定装置もしくは携帯装置上で実装されてもよい。また、２つ以上のエンジンは、同じコンピューティング装置上で実装されてもよく、または異なるコンピューティング装置上で実装されてもよい。

本明細書に記載されたプロセスおよびロジックフローは、入力データを処理し、出力を生成することによって機能を実行するように、１つ以上のコンピュータプログラムを実行
する１つ以上のプログラム可能なコンピュータによって実行されてもよい。また、プロセスおよびロジックフローは、専用ロジック回路、例えばＦＰＧＡまたはＡＳＩＣによって、または専用ロジック回路と１つ以上のプログラムされたコンピュータとの組み合わせによって実行されてもよい。

コンピュータプログラムの実行に適したコンピュータは、汎用マイクロプロセッサまたは専用マイクロプロセッサもしくはその両方、または任意の他の種類の中央処理装置に基づいたものであってもよい。一般に、中央処理装置は、読み出し専用メモリまたはランダムアクセスメモリもしくはその両方から、命令およびデータを受信する。コンピュータの必須要素は、コンピュータの必須要素は、命令に従って動作を実行するためのプロセッサ、命令およびデータを記憶するための１つ以上のメモリ装置を含む。中央処理ユニットおよびメモリは、専用ロジック回路によって補完されてもよく、または専用ロジック回路に組み込まれてもよい。一般に、コンピュータはまた、データを記憶するための１つ以上の大容量記憶装置、例えば磁気ディスク、磁気光ディスクまたは光ディスクを含むおよび／またはこれらの大容量記憶装置とデータを送受信するように動作可能に結合される。しかしながら、コンピュータは、これらの装置を有する必要がない。さらに、コンピュータは、別の装置、例えば携帯電話、携帯情報端末（ＰＤＡ）、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、または携帯型記憶装置（例えば、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブ）を含むことができる。

コンピュータプログラム命令およびデータの記憶に適したコンピュータ可読媒体は、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭおよびフラッシュメモリ装置などの半導体メモリ装置、内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む全ての種類の不揮発性メモリ、媒体およびメモリ装置を含む。

ユーザとの対話を提供するために、本明細書で説明される主題の実施形態は、ユーザに情報を表示するためのディスプレイ装置、例えばＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ、ならびにキーボードおよびポインティング装置、例えばマウス、トラックボール、またはユーザがコンピュータに入力を提供することができる存在感応ディスプレイまたは他の表面を含むホスト装置上で実装されてもよい。他の種類の装置を用いて、ユーザとの対話を提供することもできる。例えば、ユーザに提供されるフィードバックは、任意種類の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであってもよく、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形で受信することができる。また、コンピュータは、ユーザによって使用される装置との間でドキュメントを送受信することによって、例えば、ウェブブラウザから受信した要求に応答して、ユーザ装置上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。さらに、コンピュータは、テキストメッセージまたは他の形態のメッセージをパーソナル装置、例えばスマートフォンに送信し、メッセージングアプリケーションを実行し、ユーザから応答メッセージを受信することによって、ユーザと対話することができる。

上記の実施形態に加えて、以下の実施形態も革新的である。
実施形態１は、環境機械学習エンジンと、低電力ＣＰＵと、少なくとも環境機械学習エンジンと低電力ＣＰＵとの間で共有されるＳＲＡＭとを備える環境コンピューティングシステムである。環境機械学習エンジンは、環境機械学習エンジンによって生成された仮想アドレスをＳＲＡＭ内の物理アドレスに変換するための仮想アドレスロジックを含む。

実施形態２は、実施形態１の環境コンピューティングシステムであって、環境コンピュ
ーティングシステムは、機械学習モデルのパラメータを環境コンピューティングシステムとは別個の第２のメモリからＳＲＡＭにストリームするように構成されている。

実施形態３は、実施形態１から２のいずれか１つに記載の環境コンピューティングシステムであって、環境コンピューティングシステムは、システムオンチップに集積され、第２のメモリは、システムオンチップとは別個のものである。

実施形態４は、実施形態１から３のいずれか１つに記載の環境コンピューティングシステムであって、第２のメモリから機械学習モデルのパラメータをストリームすることは、ＳＲＡＭ内の命令またはデータを上書きする。

実施形態５は、実施形態１から４のいずれか１つに記載の環境コンピューティングシステムであって、環境機械学習エンジンは、ＳＲＡＭから機械学習モデルのパラメータを読み出すことによって、機械学習モデルを通る推論パスを実行するように構成されている。

実施形態６は、実施形態１から５のいずれか１つに記載の環境コンピューティングシステムであって、ＳＲＡＭから機械学習モデルのパラメータを読み出すことは、環境機械学習エンジンがＳＲＡＭ内のアドレスに対応しない仮想アドレスを含む読み出し命令を実行することを含む。

実施形態７は、実施形態１から６のいずれか１つに記載の環境コンピューティングシステムであって、環境機械学習エンジンは、ＳＲＡＭ内の位置を表す物理アドレスを生成するために、読み出し命令の仮想アドレスを環境機械学習エンジンに提供するように構成されている。

実施形態８は、実施形態１から７のいずれか１つに記載の環境コンピューティングシステムであって、環境機械学習エンジンは、環境機械学習エンジンが利用できるローカルメモリのサイズを入力引数とするコンパイラプログラムによって入力プログラムから生成された命令を実行するように構成され、命令は、ローカルメモリとして利用可能なＳＲＡＭのサイズをコンパイラプログラムに提供することによって生成される。

実施形態９は、実施形態１から８のいずれか１つの環境コンピューティングシステムであって、環境コンピューティングシステムは、処理される１つ以上のセンサ信号の受信を表す割り込みを受信する動作と、１つ以上の他の処理コンポーネントのうちの第１の処理コンポーネントによって実行される命令をＳＲＡＭにストリームすることを含み、第１の処理コンポーネントを作動させる動作と、第１の処理コンポーネントが、ＳＲＡＭ内の命令を用いて１つ以上のセンサ信号を処理することによって、環境機械学習エンジンが１つ以上のセンサ信号をさらに処理すべきであると判断する動作と、環境機械学習エンジンによって使用されるパラメータをＳＲＡＭにストリームすることを含み、環境機械学習エンジンを作動させる動作と、環境機械学習エンジンが、ＳＲＡＭに記憶されたパラメータを用いて機械学習モデルの推論パスを実行する動作とを含む動作を実行するように構成されている。

実施形態１０は、実施形態１から９のいずれか１つに記載の環境コンピューティングシステムであって、環境機械学習エンジンによって使用されるパラメータをＳＲＡＭにストリームすることは、ＳＲＡＭに格納され且つ第１の処理コンポーネントによって実行される命令を上書きする。

実施形態１１は、実施形態１から１０のいずれか１つに記載の環境コンピューティングシステムであって、ＳＲＡＭは、ダイレクトメモリアクセスコントローラ、１つ以上の他
の機械学習エンジン、または１つ以上の他のプロセッサによってさらに共有される。

実施形態１２は、実施形態１から１１のいずれか１つに記載の環境コンピューティングシステムであって、１つ以上の他の機械学習エンジンは、メイン機械学習エンジンを含む。

実施形態１３は、環境コンピューティングシステム上でメモリを仮想化するための方法であって、システムは、環境機械学習エンジンと、低電力ＣＰＵと、少なくとも環境機械学習エンジンと低電力ＣＰＵとの間で共有されるＳＲＡＭとを含む。方法は、環境機械学習エンジンの仮想アドレスロジックが、環境機械学習エンジンによって生成された仮想アドレスを受信することと、環境機械学習エンジンの仮想アドレスロジックが、環境機械学習エンジンによって生成された仮想アドレスをＳＲＡＭ内の物理アドレスに変換することとを含む。

実施形態１４は、実施形態１３に記載のメモリを仮想化するための方法であって、環境コンピューティングシステムは、実施形態１～１２のいずれか１つに記載されたものである。

実施形態１５は、環境コンピューティングシステムの環境機械学習エンジンによって実行される命令がエンコードされた１つ以上のコンピュータ可読記憶媒体であって、環境コンピューティングシステムは、低電力ＣＰＵと、少なくとも環境機械学習エンジンと低電力ＣＰＵとの間で共有されるＳＲＡＭとをさらに含み、１つ以上の命令は、環境機械学習エンジンと低電力ＣＰＵとの間で共有されるＳＲＡＭ内の物理アドレスに対応する仮想アドレスを含む。

実施形態１６は、実施形態１５に記載の１つ以上のコンピュータ可読記憶媒体であって、環境コンピューティングシステムは、実施形態１～１２のいずれか１つに記載されたものである。

本開示は、多くの具体的な実施詳細を含むが、これらの詳細は、発明の範囲または請求可能な範囲を限定するものではなく、むしろ特定の発明の特定の実施形態に特有の特徴の説明として考えるべきである。本開示の個別の実施形態に記載された特定の特徴は、単一の実施形態において組み合わせとして実施することもできる。逆に、単一の実施形態に記載されたさまざまな特徴は、複数の実施形態において、別々にまたは任意の適切なサブ組み合わせで実施することもできる。さらに、上記で特徴を特定の組み合わせで作用するものとして説明したが、このような説明にも拘らず、１つ以上の特徴は、説明した組み合わせから削除されてもよく、説明した組み合わせは、部分組み合わせに変形されてもよい。

同様に、動作が特定の順序で図面に示されているが、望ましい結果を達成するために、図示された順序または順番に従ってこれらの動作を実行する必要があるまたは図示された全ての動作を実行する必要があると理解すべきではない。特定の状況において、マルチ作業および並列処理は、有利である可能性がある。例えば、並列処理を用いて、複数の言語検出メソッドを同時に実行することができる。さらに、上述の実施形態におけるさまざまなシステム要素の分離は、全ての実施形態においてそのような分離が必要であると理解すべきではなく、記載されたプログラム要素およびシステムは、一般的に、単一のソフトウェア製品に一体化されまたは複数のソフトウェア製品にパッケージ化することができると理解すべきである。

したがって、主題の特定の実施形態を説明した。他の実施形態は、添付の特許請求の範囲内にある。場合によって、請求項に列挙された動作は、異なる順序で実行され、依然と
して望ましい結果を達成することができる。さらに、望ましい結果を達成するために、添付の図面に示されるプロセスは、必ずしも示された特定の順序または順番に従う必要がない。特定の実現例において、マルチ作業および並列処理が有利である可能性がある。

Claims

環境コンピューティングシステムであって、
環境機械学習エンジンと、
低電力ＣＰＵと、
少なくとも環境機械学習エンジンと低電力ＣＰＵとの間で共有される外部メモリとを備え、
前記環境機械学習エンジンは、前記環境機械学習エンジンによって生成された仮想アドレスを前記外部メモリ内の物理アドレスに変換するための仮想アドレスロジックを含む、環境コンピューティングシステム。
前記環境コンピューティングシステムは、機械学習モデルのパラメータを、前記環境コンピューティングシステムとは別個の第２のメモリから前記ＳＲＡＭにストリームするように構成されている、請求項１に記載の環境コンピューティングシステム。
前記環境コンピューティングシステムは、システムオンチップに集積され、
前記第２のメモリは、前記システムオンチップとは別個のものである、請求項２に記載の環境コンピューティングシステム。
前記第２のメモリから前記機械学習モデルの前記パラメータをストリームすることは、前記外部メモリ内の命令またはデータを上書きする、請求項２または３に記載の環境コンピューティングシステム。
前記環境機械学習エンジンは、前記外部メモリから機械学習モデルのパラメータを読み出すことによって、前記機械学習モデルを通る推論パスを実行するように構成されている、先行する請求項のいずれか１項に記載の環境コンピューティングシステム。
前記外部メモリから前記機械学習モデルの前記パラメータを読み出すことは、前記環境機械学習エンジンが前記外部メモリ内のアドレスに対応しない仮想アドレスを含む読み出し命令を実行することを含む、請求項５に記載の環境コンピューティングシステム。
前記環境機械学習エンジンは、前記外部メモリ内の位置を表す物理アドレスを生成するために、前記読み出し命令の前記仮想アドレスを前記環境機械学習エンジンに提供するように構成されている、請求項６に記載の環境コンピューティングシステム。
前記環境機械学習エンジンは、前記環境機械学習エンジンが利用できるローカルメモリのサイズを入力引数とするコンパイラプログラムによって入力プログラムから生成された命令を実行するように構成され、
前記命令は、ローカルメモリとして利用可能な前記外部メモリのサイズを前記コンパイラプログラムに提供することによって生成される、先行する請求項のいずれか１項に記載の環境コンピューティングシステム。
前記環境コンピューティングシステムは、以下の動作を実行するように構成され、
前記動作は、
処理される１つ以上のセンサ信号の受信を表す割り込みを受信する動作と、
前記１つ以上の他の処理コンポーネントのうちの第１の処理コンポーネントによって実行される命令を前記外部メモリにストリームすることを含み、前記第１の処理コンポーネントを作動させる動作と、
前記第１の処理コンポーネントが、前記外部メモリ内の前記命令を用いて前記１つ以上のセンサ信号を処理することによって、前記環境機械学習エンジンが前記１つ以上のセ
ンサ信号をさらに処理すべきであると判断する動作と、
前記環境機械学習エンジンによって使用されるパラメータを前記外部メモリにストリームすることを含み、前記環境機械学習エンジンを作動させる動作と、
前記環境機械学習エンジンが、前記外部メモリに格納された前記パラメータを用いて機械学習モデルの推論パスを実行する動作とを含む、先行する請求項のいずれか１項に記載の環境コンピューティングシステム。
前記環境機械学習エンジンによって使用される前記パラメータを前記外部メモリにストリームすることは、前記外部メモリに格納され且つ前記第１の処理コンポーネントによって実行される前記命令を上書きする、請求項９に記載の環境コンピューティングシステム。
前記外部メモリはさらに、ダイレクトメモリアクセスコントローラ、１つ以上の他の機械学習エンジン、または１つ以上の他のプロセッサによって共有される、先行する請求項のいずれか１項に記載の環境コンピューティングシステム。
前記１つ以上の他の機械学習エンジンは、メイン機械学習エンジンを含む、請求項１１に記載の環境コンピューティングシステム。
前記外部メモリは、ＳＲＡＭであり、
前記第２メモリは、ＤＲＡＭである、先行する請求項のいずれか１項に記載の環境コンピューティングシステム。
環境コンピューティングシステム上でメモリを仮想化するための方法であって、
前記システムは、
仮想アドレスロジックを含む環境機械学習エンジンと、
低電力ＣＰＵと、
少なくとも前記環境機械学習エンジンと前記低電力ＣＰＵとの間で共有される外部メモリとを備え、
前記方法は、
前記環境機械学習エンジンの前記仮想アドレスロジックが、前記環境機械学習エンジンによって生成された仮想アドレスを受信することと、
前記環境機械学習エンジンの前記仮想アドレスロジックが、前記環境機械学習エンジンによって生成された仮想アドレスを前記外部メモリ内の物理アドレスに変換することとを含む、方法。
前記環境コンピューティングシステムは、機械学習モデルのパラメータを、前記環境コンピューティングシステムとは別個の第２のメモリから前記外部メモリにストリームするように構成されている、請求項１４に記載の方法。
前記環境コンピューティングシステムは、システムオンチップに集積され、
前記第２のメモリは、前記システムオンチップとは別個のものである、請求項１５に記載の方法。
前記第２のメモリから前記機械学習モデルの前記パラメータをストリームすることは、前記１つ以上の他の処理コンポーネントのうちの１つによって使用される前記外部メモリ内の命令またはデータを上書きする、請求項１５または請求項１６に記載の方法。
前記環境機械学習エンジンは、前記外部メモリから前記機械学習モデルのパラメータを読み出すことによって、前記機械学習モデルを通る推論パスを実行するように構成されて
いる、請求項１４から１７のいずれか１項に記載の方法。
前記外部メモリから前記機械学習モデルの前記パラメータを読み出すことは、前記環境機械学習エンジンが前記外部メモリ内のアドレスに対応しない仮想アドレスを含む読み出し命令を実行することを含む、請求項１８に記載の方法。
前記外部メモリはさらに、ダイレクトメモリアクセスコントローラ、１つ以上の他の機械学習エンジン、または１つ以上の他のプロセッサによって共有される、請求項１４から１９のいずれか１項に記載の方法。
環境コンピューティングシステムの環境機械学習エンジンによって実行される命令がエンコードされた１つ以上のコンピュータ可読記憶媒体であって、
前記環境コンピューティングシステムは、低電力ＣＰＵと、少なくとも前記環境機械学習エンジンと前記低電力ＣＰＵとの間で共有される外部メモリとをさらに含み、
前記１つ以上の命令は、前記環境機械学習エンジンと前記低電力ＣＰＵとの間で共有される前記外部メモリ内の物理アドレスに対応する仮想アドレスを含む、１つ以上のコンピュータ可読記憶媒体。
請求項１４から２０のいずれか１項に記載の前記方法を実行するための命令をさらに含む、請求項２１に記載の１つ以上のコンピュータ可読記憶媒体。