JP2022546271A

JP2022546271A - カーネルチューニングパラメータを予測するための方法及び装置

Info

Publication number: JP2022546271A
Application number: JP2022510786A
Authority: JP
Inventors: カーンジャハーンダッド; イサムローウェルダニエル
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2019-09-04
Filing date: 2020-08-25
Publication date: 2022-11-04
Also published as: WO2021045935A1; CN114286985A; US20210065051A1; KR20220054397A; EP4026004A1; EP4026004A4

Abstract

処理性能を改善する処理デバイスが提供され、処理デバイスは、データを記憶するように構成されたメモリと、メモリと通信するプロセッサと、を備える。プロセッサは、識別されたハードウェアデバイス上でプログラムの一部を実行するために、それぞれ数値を有するチューニングパラメータを受信し、チューニングパラメータの数値をワードに変換するように構成されている。また、プロセッサは、１つ以上の機械語学習アルゴリズムを使用して、性能効率に基づいて、識別されたハードウェアデバイス上でプログラムの一部を実行するために、何れのワードの組み合わせが良いかを予測し、識別されたハードウェアデバイス上でプログラムの一部を実行するために、ワードの予測された組み合わせを対応する数値に変換するように構成されている。【選択図】図３

Description

（関連出願への相互参照）
本願は、２０１９年９月４日に出願された「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＰＲＥＤＩＣＴＩＮＧＫＥＲＮＥＬＴＵＮＩＮＧＰＡＲＡＭＥＴＥＲＳ」と題される米国特許出願第１６／５６０，９５４号の利益を主張し、その全体が、言及することによって本明細書に組み込まれる。

プログラムの性能効率は、例えば、プログラムの命令がハードウェア（例えば、集積回路（ＩＣ）又はチップ）上で実行される速度又は時間によって判定される。ハードウェアの物理的特性及び仕様は、ハードウェアの世代又はバージョンによって異なる。したがって、プログラムの性能効率は、通常、ハードウェアデバイスの異なる世代間で大きく異なる。プログラムは、通常、異なるハードウェアに対するプログラムの性能効率を変化させるために使用されるチューニングパラメータを含む。

添付図面と共に例として与えられる以下の説明から、より詳細な理解を得ることができる。

本開示の１つ以上の特徴を実装可能な例示的なデバイスのブロック図である。追加の詳細を示す図１のデバイスのブロック図である。プログラムのチューニングパラメータを予測する方法の一例を示すブロック図である。図３に示す言語学習及び予測を実施する例示的な方法を示す図である。

識別されたハードウェアデバイスで実行するためにプログラムを展開する前に、プログラムは、通常、プログラムのチューニングパラメータの異なる組み合わせを使用してプログラムを実行することによって、識別されたハードウェアのプロファイリングを行い、パフォーマンスの効率を変化させる。識別されたハードウェアのプログラムチューニングパラメータは、結果として生じる性能効率に基づいて選択される。

プログラムの性能効率は、プログラムのチューニングパラメータの値によって変わる。プログラムは、通常、複数のチューニングパラメータ（例えば、１０個のパラメータ）を含み、各々が複数の異なる選択可能な値（例えば、１０個の値）を有する。これらのチューニングパラメータ値の異なる組み合わせによって正しい結果が計算されるが、これらの結果について性能効率が変わることがもたらされる。

従来のプロファイリングシステムは、解空間（solution space）を横断する検索アルゴリズムによって、プログラム（例えば、ＧＰＵコンピューティングカーネル）のチューニングパラメータ値を判定する。例えば、行列乗算命令の場合、従来のシステムでは、乗算される行列サイズの組み合わせ毎に、記憶されたチューニングパラメータ値のデータベースを継続的に検索する必要がある。

これらの検索アルゴリズムはコスト及び時間がかかる。例えば、これらの従来の検索アルゴリズムは、通常、プログラム（例えば、カーネル）を調整するために、多額のコストがかかる計算リソース及び多くの時間を必要とする。さらに、チューニングは、選択したプログラムのみに適用される。選択されていないプログラムを実行すると、通常、パフォーマンスが低下し、ユーザーが自身のカーネルをチューニングすることを選ぶと、長時間の遅延を経験する。また、これらの従来の検索アルゴリズムは、各プログラムに対する異なる入力サイズ及びプログラムが解決しようとしている様々なタイプの問題を考慮したチューニングパラメータ値を提供しない。

本明細書で説明するデバイス及び方法は、機械学習アルゴリズムを使用することによって、非効率的な検索アルゴリズムを使用せずに、識別されたハードウェア上で実行されるプログラムのチューニングパラメータ値を効率的に判定して、入力値（例えば、画像の寸法、行列の次元、カラーチャネルの数、実行する操作の数を含む入力テンソル値）に基づいてチューニングパラメータ値を予測する。

入力数値に基づいて数値を出力する従来の機械学習モデルとは対照的に、本明細書で説明する機械学習アルゴリズムは、入力数値をワード（すなわち、１文字以上の言語）に変換し、言語モデルを使用して、入力されたワードからパラメータを予測する。言語学習アルゴリズムは、ソース言語（例えば、１つ以上の数値から変換された入力ワード又はワードシーケンス）からターゲット言語（例えば、出力ワードシーケンス）に翻訳することを学習する。次に、出力ワードが数値に変換され、実行可能チューニングパラメータ値を取得する。

チューニングパラメータ値は、シーケンスで（並列入力とは対照的である）プログラムに入力されるチューニングパラメータ値に基づいて予測され、チューニングパラメータ値は、スカラー数ではなく個別のワードとしてエンコードされる。次に、個別のワードは、ニューラル機械語翻訳技術（例えば、多層パーセプトロン（ＭＬＰ）及び他のＭＬプリミティブ（畳み込み、アクティベーション、バッチ正規化、ドロップアウト、及び、リカレントニューラルネットワーク（ＲＮＮ））の組み合わせを使用して、ある言語から別の言語に文章を翻訳する技術）を使用して翻訳される。

従来の言語モデルとは対照的に、本明細書で説明する機械学習言語アルゴリズムは、事前に判定された（すなわち、実行前に判定された）制約（例えば、パラメータ値の組み合わせが無効であること、スレッド毎に割り当てられたレジスタの最大数、及び、スレッド毎にアクセス可能なメモリ量）に基づいて、チューニングパラメータ値を予測する。制約により、同時に存在できない値又は無効な結果を生じさせる値がチューニングパラメータ値として予測されるのを抑制する。したがって、チューニングパラメータ値が小さな空間（すなわち、潜在的なパラメータ値の小さい数）から予測されるため、制約は、より効率的な予測プロセスを促進し、また、選択されたチューニングパラメータ値が無効な結果を回避するため、より正確な予測を提供する。

処理性能を改善する処理デバイスが提供され、処理デバイスは、データを記憶するように構成されたメモリと、メモリと通信するプロセッサと、を含む。プロセッサは、識別されたハードウェアデバイス上でプログラムの一部を実行するために、それぞれ数値を有するチューニングパラメータを受信して、チューニングパラメータの数値をワードに変換するように構成されている。また、プロセッサは、１つ以上の機械語学習アルゴリズムを使用して、性能効率に基づいて、識別されたハードウェアデバイス上でプログラムの一部を実行するために、何れのワードの組み合わせが良いかを予測し、識別されたハードウェアデバイス上でプログラムの一部を実行するために、ワードの予測された組み合わせを対応する数値に変換するように構成されている。

処理性能を改善する方法が提供され、この方法は、識別されたハードウェアデバイス上でプログラムの一部を実行するために、それぞれ数値を有するチューニングパラメータを受信することと、チューニングパラメータの数値をワードに変換することと、を含む。また、方法は、１つ以上の機械語学習アルゴリズムを使用して、性能効率に基づいて、識別されたハードウェアデバイス上でプログラムの一部を実行するために、何れのワードの組み合わせが良いかを予測することと、識別されたハードウェアデバイス上でプログラムの一部を実行するために、ワードの予測された組み合わせを対応する数値に変換することと、を含む。

コンピュータに方法を実行させるための命令を含む非一時的なコンピュータ可読記憶媒体が提供され、この方法は、識別されたハードウェアデバイス上でプログラムの一部を実行するために、それぞれ数値を有するチューニングパラメータを受信することと、チューニングパラメータの数値をワードに変換することと、を含む。また、方法は、１つ以上の機械語学習アルゴリズムを使用して、性能効率に基づいて、識別されたハードウェアデバイス上でプログラムの一部を実行するために、何れのワードの組み合わせが良いかを予測することと、識別されたハードウェアデバイス上でプログラムの一部を実行するために、ワードの予測された組み合わせを対応する数値に変換することと、を含む。

本明細書で使用する場合、プログラムは、プロシージャ又はルーチン（例えば、操作、計算、機能、プロセス、ジョブ）を行うために１つ以上のプロセッサを使用して実行される任意の命令のシーケンスを含む。本明細書で使用する場合、プロセッサ上でプログラムされた命令（例えば、アプリケーション、ドライバ、オペレーティングシステム、又は、他のソフトウェア）の実行は、限定されないが、フェッチ、デコード、実行のスケジューリング、実行の開始、及び、プログラムされた命令の特定の部分の実行（例えば、フルスクリーンでのビデオのレンダリング）等の複数のステージのうち何れかを含む。プログラムされた命令は、チューニングパラメータ及びチューニングパラメータ設定を含み、チューニングパラメータ設定は、ハードウェアデバイス上で実行されるプログラムの性能効率を制御するために使用される調整可能（すなわち、変更可能）な値を有する。

図１は、本開示の１つ以上の特徴を実装可能な例示的なデバイス１００のブロック図である。デバイス１００は、例えば、コンピュータ、ゲーミングデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話、又は、タブレットコンピュータを含み得る。デバイス１００は、プロセッサ１０２と、メモリ１０４と、ストレージ１０６と、１つ以上の入力デバイス１０８と、１つ以上の出力デバイス１１０と、を含む。また、デバイス１００は、オプションで、入力ドライバ１１２及び出力ドライバ１１４を含み得る。デバイス１００は、図１に示されていない追加のコンポーネントを含み得ることを理解されたい。

様々な代替例では、プロセッサ１０２は、中央処理装置（ＣＰＵ）、グラフィックスプロセシングユニット（ＧＰＵ）、同一のダイ上に配置されたＣＰＵ及びＧＰＵ、又は、１つ以上のプロセッサコアを含み、各プロセッサコアは、ＣＰＵ又はＧＰＵであり得る。様々な代替例では、メモリ１０４は、プロセッサ１０２と同一のダイ上に位置する、又は、プロセッサ１０２とは別に位置する。メモリ１０４は、揮発性メモリ又は不揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックＲＡＭ、キャッシュ）を含む。

ストレージ１０６は、固定式ストレージ又はリムーバブルストレージ（例えば、ハードディスクドライブ、ソリッドステートドライブ、光ディスク、又は、フラッシュドライブ）を含む。入力デバイス１０８は、限定されないが、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロホン、加速度計、ジャイロスコープ、バイオメトリックススキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信用及び／若しくは受信用の無線ローカルエリアネットワークカード）を含む。出力デバイス１１０は、限定されないが、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上のライト、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信用及び／若しくは受信用の無線ローカルエリアネットワークカード）を含む。

入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、プロセッサ１０２が入力デバイス１０８から入力を受信することを可能にする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２が出力デバイス１１０に出力を送信することを可能にする。入力ドライバ１１２及び出力ドライバ１１４がオプションのコンポーネントであることと、入力ドライバ１１２及び出力ドライバ１１４が存在しない場合には、デバイス１００が同様に動作することに留意されたい。出力ドライバ１１４は、表示デバイス１１８に結合されたアクセラレーテッド処理デバイス（ＡＰＤ）１１６を含む。ＡＰＤは、プロセッサ１０２から計算コマンド及びグラフィックスレンダリングコマンドを受け入れ、それらの計算コマンド及びグラフィックスレンダリングコマンドを処理し、表示するために表示デバイス１１８にピクセル出力を提供するように構成されている。以下により詳細に説明するように、ＡＰＤ１１６は、単一命令複数データ（ＳＩＭＤ）パラダイムに従って計算を行うように構成された１つ以上の並列処理ユニットを含む。したがって、様々な機能が、ＡＰＤ１１６によって又はＡＰＤ１１６と連動して行われるものとして本明細書で説明しているが、様々な代替例では、ＡＰＤ１１６によって行われるものとして説明する機能は、ホストプロセッサ（例えば、プロセッサ１０２）によって駆動されず、表示デバイス１１８にグラフィカル出力を提供するように構成された同様の機能を有する他のコンピューティングデバイスによって追加的に又は代替的に行われる。例えば、ＳＩＭＤパラダイムに従って処理タスクを行う任意の処理システムが、本明細書で説明する機能を行うように構成され得ることが想定される。代替的に、ＳＩＭＤパラダイムに従って処理タスクを行わないコンピューティングシステムは、本明細書で説明する機能を行うことが想定される。

図２は、ＡＰＤ１１６上での処理タスクの実行に関連する追加の詳細を示す、デバイス１００のブロック図である。ＡＰＤ１１６は、複数の計算ユニット１３２と、処理パイプライン（例えば、グラフィックス処理パイプライン）１３４と、スケジューラ１３６と、を含む。プロセッサ１０２は、システムメモリ１０４内に、プロセッサ１０２が実行するための１つ以上の制御論理モジュールを保持する。制御論理モジュールは、オペレーティングシステム１２０と、カーネルモードドライバ１２２と、アプリケーション１２６と、を含む。これらの制御論理モジュールは、プロセッサ１０２及びＡＰＤ１１６の操作の様々な特徴を制御する。例えば、オペレーティングシステム１２０は、ハードウェアと直接通信し、プロセッサ１０２で実行される他のソフトウェアにハードウェアへのインターフェースを提供する。カーネルモードドライバ１２２は、例えば、プロセッサ１０２上で実行されるソフトウェア（例えば、アプリケーション１２６）にアプリケーションプログラミングインターフェース（ＡＰＩ）を提供することによって、ＡＰＤ１１６の操作を制御し、ＡＰＤ１１６の様々な機能にアクセスする。また、カーネルモードドライバ１２２は、ＡＰＤ１１６の処理コンポーネント（以下により詳細に説明するＳＩＭＤユニット１３８等）による実行のために、プログラムをコンパイルするジャストインタイムコンパイラを含む。

ＡＰＤ１１６は、並列処理に適し得るグラフィックス操作及び非グラフィックス操作等の選択された機能のためのコマンド及びプログラムを実行する。ＡＰＤ１１６は、ピクセル操作、幾何学計算等のグラフィックスパイプライン操作を実行するために、及び、プロセッサ１０２から受信したコマンドに基づいて表示デバイス１１８に画像をレンダリングするために使用することができる。また、ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ビデオに関連する操作、物理シミュレーション、計算流体力学、又は、他のタスク等のように、グラフィックス操作に直接関連しない計算処理操作も実行する。

ＡＰＤ１１６は、ＳＩＭＤパラダイムに従って並列にプロセッサ１０２の要求に応じて操作を行うように構成された１つ以上のＳＩＭＤユニット１３８を含む計算ユニット１３２を含む。ＳＩＭＤパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、ひいては、同じプログラムを実行するが、異なるデータでそのプログラムを実行することが可能なパラダイムである。一例では、ＳＩＭＤユニット１３８の各々は１６個のレーンを含み、各レーンは、ＳＩＭＤユニット１３８の他のレーンと同時に同じ命令を実行するが、異なるデータでその命令を実行することができる。全てのレーンが所定の命令を実行する必要がない場合、予測を使用してレーンをオフにすることができる。また、予測を使用して、分岐する制御フローでプログラムを実行することができる。より具体的には、制御フローが個々のレーンによって行われる計算に基づく条件付き分岐又は他の命令を有するプログラムの場合、現在実行されていない制御フローパスに対応するレーンの予測、及び、異なる制御フローパスの直列実行は、任意の制御フローを可能にする。

計算ユニット１３２における実行の基本単位は、ワークアイテムである。各々のワークアイテムは、特定のレーンにおいて並列に実行されることになるプログラムの単一のインスタンス化を表す。ワークアイテムは、単一のＳＩＭＤ処理ユニット１３８で「ウェーブフロント」として同時に実行することができる。１つ以上のウェーブフロントが「ワークグループ」に含まれ、「ワークグループ」は、同一のプログラムを実行するように指定されたワークアイテムの集合を含む。ワークグループは、ワークグループを構成するウェーブフロントの各々を実行することによって実行することができる。代替例では、ウェーブフロントは、単一のＳＩＭＤユニット１３８上で連続して、又は、異なるＳＩＭＤユニット１３８上で部分的若しくは完全に並列に実行される。ウェーブフロントは、単一のＳＩＭＤユニット１３８上で同時に実行可能なワークアイテムの最大の集合として考えられ得る。したがって、プロセッサ１０２から受信したコマンドが、プログラムが単一のＳＩＭＤユニット１３８上で同時に実行できない程度に特定のプログラムが並列処理されることを示す場合、そのプログラムは、２つ以上のＳＩＭＤユニット１３８上で並列処理されるウェーブフロント、又は、同一のＳＩＭＤユニット１３８上で直列処理される（又は、必要に応じて、並列処理及び直列処理の両方が行われる）ウェーブフロントに分割される。スケジューラ１３６は、異なる計算ユニット１３２及びＳＩＭＤユニット１３８上で様々なウェーブフロントをスケジューリングすることに関連する操作を行うように構成されている。

計算ユニット１３２によって許容される並列性は、画素値計算、頂点変換、及び、他のグラフィックス操作等のグラフィックス関連操作に適切である。したがって、ある場合、プロセッサ１０２からグラフィックスプロセッシングコマンドを受け付けるグラフィックス処理パイプライン１３４は、並列に実行するために計算タスクを計算ユニット１３２に提供する。

また、計算ユニット１３２を使用して、グラフィックに関連しない又はグラフィックス処理パイプライン１３４の「通常」操作の一部として行われない計算タスク（例えば、グラフィックス処理パイプライン１３４の操作に対して行われる処理を補足するために行われるカスタム操作）を行う。プロセッサ１０２上で実行されるアプリケーション１２６又は他のソフトウェアは、そのような計算タスクを定義するプログラムを、実行のためにＡＰＤ１１６に送信する。

図３は、識別されたハードウェアデバイス上で実行されるプログラムのチューニングパラメータを予測する例示的な方法３００を示すブロック図である。エンコード、変換、言語学習、比較及び予測等の方法３００の各部分は、例えば、ＡＰＤ１１６等のプロセッサによって行われる。

チューニングパラメータは、本質的にカテゴリー的なパラメータ（例えば、プログラムの性能効率を変えるためにプログラムに提供されるオプションを表すパラメータ）と、例えば、メモリ（例えば、メインメモリ）からアクセスされるデータ量、リンクにわたって行われる並列メモリアクセスの数（例えば、読み取り、書き込み）、入力画像のチャネル数（例えば、画像のカラーチャネル）、出力チャネル数（例えば、ハイパースペクトル画像の出力チャネル）、パイプラインの深さ（例えば、入力深度及び出力深度）等の特定のパラメータをチューニングするための数値を有するパラメータと、を含む。チューニングパラメータの目標値は、例えば、画像の高さ、画像幅、入力チャネルの総数、出力チャネルの総数、及び、一度に処理される画像数等の入力パラメータに従って判定される。さらに、チューニングパラメータは、部分的に、プログラム間で異なる解釈を有するパラメータによって異なる。

図３の３０２に示すように、方法３００は、識別されたハードウェアデバイス上で実行されるプログラムの複数のチューニングパラメータ（例えば、ハードウェアデバイスの識別バージョン）に関する数値を受信することを含む。数値チューニングパラメータ値の各々は、例えば、ＡＰＤ１１６によって連続して（すなわち、順番に）受信される。

図３の３０４に示すように、方法３００は、チューニングパラメータのシーケンスにおいて数値をエンコードすることを含む。エンコードは、チューニングパラメータ値を数値から言語のワードに変換することによって行われる。チューニングパラメータ値の変換は、１つの数値をワードに変換することと、１つ以上の数値をワードに変換することと、１つの数値を複数のワードに変換することと、を含む。エンコードの例は、ワンホット（one-hot）エンコードと、ワンホットエンコードから生成された高密度ベクトルと、を含む。

変換された各ワードは、機械語モデル３１２に提供され、言語学習及び予測プロセス３０６の一部として制約３１４に基づいて予測され、機械語学習及び予測アルゴリズムを使用して、性能効率に基づいて、識別されたハードウェアデバイス上でプログラムを実行するために何れのワードを使用するかを予測する。すなわち、機械語学習アルゴリズムは、何れのワードの組み合わせ（数値チューニングパラメータ値に対応する組み合わせ）が、識別されたハードウェアデバイス上でプログラムの一部を効率的に実行することをもたらすかを予測する（例えば、そのワードの組み合わせによって、他のワードの組み合わせよりも速くプログラムの一部が実行されるか、又は、他のワードの組み合わせよりも短い時間でプログラムの一部が実行されるかを予測する）。

機械語モデル３１２は、１つ以上の機械学習プリミティブに従って、チューニングパラメータの変換されたワード値を処理する。機械学習プリミティブの例は、畳み込みニューラルネットワーク（ＣＮＮ）と、畳み込み層及びプーリング層と、一方向及び双方向の長短期記憶（ＬＳＴＭ）セル又はゲートされたリカレントユニット（ＧＲＵ）を含むリカレントニューラルネットワーク（ＲＮＮ）と、ドロップアウト及び異なるアクティベーション機能を有する、密に接続されたディープニューラルネットワークと、を含む。

ワードは制約３１４に基づいて予測され、制約３１４は、例えば、パラメータ値の組み合わせが無効であること、スレッド毎に割り当てられたレジスタの最大数、及び、スレッド毎にアクセス可能なメモリ量を含む。制約３１４により、１つ以上の他のチューニングパラメータと一緒に同時に存在できないチューニングパラメータ値、又は、無効な結果を生じさせるチューニングパラメータ値の予測を防ぐ。制約により、予測が小さな空間で行われるので効率が向上する。さらに、予測されたチューニングパラメータ値では無効な結果が生じないため、制約によって予測の精度が向上する。

図３の３０８に示すように、方法３００は、予測されたチューニングパラメータ値をデコードすることを含む。デコードは、予測されたチューニングパラメータワード値を変換して数値に戻すことによって行われる。次に、図３の３１０に示すように、予測されたチューニングパラメータ数値は、予測された実行可能チューニングパラメータ値として提供される。プログラムの一部は、予測された実行可能チューニングパラメータ値を使用して、識別されたハードウェアデバイス上で実行される。

ここで、言語学習及び予測プロセス３０６の例は、図４に関してより詳細に説明される。上述したように、複数のチューニングパラメータ値を並行して受信するチューニングパラメータを判定するための従来のシステムとは対照的に、シーケンスでプログラムに入力されるチューニングパラメータ値に基づいて、本開示の特徴に応じて、チューニングパラメータ値が予測される。すなわち、入力チューニングパラメータ値の各々は連続して（すなわち、順番に）受信され、チューニングパラメータ値がシーケンスとして予測される。

図４は、入力チューニングパラメータ値の各々が連続して受信される図３の３０６に示す言語学習及び予測を実施する方法４００の例を示す。以下により詳細に説明するように、図４は、制約３１４を使用して中間チューニングパラメータ値候補のフィルタリングと、予測されたチューニングパラメータ値候補（例えば、他のチューニングパラメータ値候補よりも優れた性能効率性でプログラムの一部を実行する可能性が高いと判別された候補）を使用して、シーケンスにおける次のチューニングパラメータ値候補を予測することと、を含む、予測シーケンスの段階を示す。例えば、エンコード、変換、言語学習、比較、フィルタリング、判別、及び、予測等の方法４００の各部分は、例えば、ＡＰＤ１１６等のプロセッサによって行われる。

図４に示すように、入力ワードシーケンス４０２の各ワード４０２（１）～４０２（ｎ）が受信される。表現学習プロセス４０４は、１つ以上の機械学習プリミティブ（例えば、上述した１つ以上の機械学習プリミティブ）に従って各ワード４０２（１）～４０２（ｎ）に対して行われ、内部表現４０６（例えば、機械語モデル３１２の内部のワード４０２（１）～４０２（ｎ）の圧縮表現）を判定する。表現学習４０４の各ブロックは、例えば、入力ワードシーケンス４０２の対応するワードの内部表現を判定するために使用されるメモリセルを表す。

例えば、表現学習４０４の間に、第１のワード４０２（１）の内部表現が、第１のワード４０２（１）の内部表現４０６として出力される（例えば、一時的に記憶される）。また、第１のワード４０２（１）の内部表現は、上流に提供され（第１のワード４０２（１）のメモリセルと、第２のワード４０２（２）のメモリセルと、の間の左から右に向かう矢印によって示されている）、第２のワード４０２（２）の内部表現を判定するために使用される。

第２のワード４０２（２）の中間内部表現は、第１のワード４０２（１）及び第２のワード４０２（２）の内部表現に基づいて判定される。次に、第２のワード４０２（２）の中間内部表現は、第２のワード４０２（２）の内部表現４０６として出力される（例えば、一時的に記憶される）。また、第２のワード４０２（２）の内部表現は、第３のワード４０２（３）のメモリセルに向かうように上流に提供され（第２のワード４０２（２）のメモリセルと、第３のワード４０２（３）のメモリセルとの間の左から右に向かう矢印によって示されている）、第３のワード４０２（３）の内部表現を判定するために使用される。この処理は、入力ワードシーケンス４０２の残りのワード毎に、上流に（すなわち、表現学習４０４の左から右に向かう矢印の方向に）向かって継続する。

図４に示す例では、表現学習４０４は、双方向学習を含む。すなわち、各ワード４０２（１）～４０２（ｎ）の内部表現も下流に（すなわち、表現学習４０４の右から左に向かう矢印の方向に）提供される。したがって、各ワード４０２（１）～４０２（ｎ－１）の内部表現は、入力ワードシーケンス４０２の上流ワードに基づいて判定される（すなわち、直接的にシーケンスにおける次の上流ワードに基づいて、間接的に入力ワードシーケンス４０２の他の上流ワードに基づいて判定される）。また、本開示の特徴は、例えば、一方向学習（すなわち、左から右に向かう矢印の方向）によって実施される。

ワードの内部表現４０６を使用して、識別されたハードウェアデバイス上でプログラムの一部を実行するために、ワードのシーケンスが予測される。予測プロセスは、中間ワードシーケンス４０８及び出力ワードシーケンス４１０を生成することを含む。以下に説明するように、複数のチューニングパラメータ候補は、他の候補よりも優れた性能効率をもたらす可能性が高いと判定された候補を含み、実行のためにワードのシーケンスを予測するために使用される。例えば、最初の候補が１つ以上の制約３１４を満たさない場合、次に可能性が高い候補を使用して、シーケンスにおけるワードを予測する。

一例では、予測プロセス中に使用される数値チューニングパラメータ候補が事前に判定される（すなわち、実行前に判定される）。例えば、所定の予測数ｋが伝播され、ｋ個の予測が生じる。

次に、ワードシーケンス４０２のワード４０２（１）～４０２（ｎ）の内部表現が、中間ワードシーケンス４０８を生成するために同様の機械学習構造に提供される。図４の中間ワードシーケンス４０８の各ブロックは、例えば、中間ワードシーケンス４０８の対応するワード４０８（１）～４０８（ｎ）（すなわち、チューニングパラメータ値候補）を中間的に予測するために使用されるメモリセルを表す。

中間ワードシーケンス４０８の第１のワード４０８（１）（すなわち、第１の候補）は、上述した１つ以上の機械学習プリミティブに基づいて、識別されたハードウェアデバイス上でプログラムの一部を実行するために中間的に予測される。第１のワード４０８（１）の内部表現は、プログラムの一部（例えば、カーネルの一部）に対する１つ以上の制約３１４に基づいて分析される。すなわち、第１のワード４０８（１）が１つ以上の制約３１４の各々を満たす場合、第１のワード４０８（１）は、出力ワードシーケンス４１０のパラメータ値候補として中間的に予測される。第１のワード４０８（１）が１つ以上の制約３１４の各々を満たさない場合、第１のワード４０８（１）は、出力ワードシーケンス４１０のパラメータ値候補として選択されない。

また、第１のワード４０８（１）の内部表現は、中間ワードシーケンス４０８の第２のワード４０８（２）を判定するために、次のメモリセル（すなわち、次の上流メモリセル）にも提供される。第２のワード４０８（２）が第１のワード４０８（１）の代わりに１つ以上の制約３１４の各々を満たす場合、第２のワード４０８（２）は、出力ワードシーケンス４１０のパラメータ値候補として中間的に予測される。第２のワード４０８（２）が１つ以上の制約３１４の各々を満たさない場合、第２のワード４０８（２）は、出力ワードシーケンス４１０のパラメータ値候補として選択されない。中間ワードシーケンス４０８の残りのワード毎に処理が継続される。

また、予測プロセスは、チューニングパラメータ値を他のチューニングパラメータ値と比較して、何れのチューニングパラメータ値の組み合わせが、識別されたハードウェアデバイス上でプログラムの一部を実行するために、チューニングパラメータ値候補の他の組み合わせよりも優れた性能効率をもたらすものであるかを予測するアテンションメカニズム（attention mechanism）を含む。

例えば、出力ワードシーケンス４１０のチューニングパラメータ値候補４１０（１）～４１０（ｎ）は、他のチューニングパラメータ値候補よりも優れた性能効率でプログラムの一部を実行する可能性に従って比較及びランク付けされる。出力ワードシーケンス４１０の１つ以上のチューニングパラメータ値候補（例えば、他の候補よりも優れた性能効率をもたらす可能性が高いと判定されたチューニングパラメータ値候補）は、中間ワードシーケンス４０８のメモリセルに戻すように提供され、中間ワードシーケンス４０８の１つ以上のワード４０８（１）～４０８（ｎ）を中間的に予測する。したがって、機械学習アルゴリズムは、入力チューニングパラメータ値（例えば、入力ワードシーケンス４０２の値）と、機械学習アルゴリズムにフィードバックされる予測されたチューニングパラメータ値候補と、に基づいて、チューニングパラメータ値を予測することを学習する。

次に、図３のブロック３０８に示すように、出力ワードシーケンス４１０の予測されたチューニングパラメータ値候補４１０（１）～４１０（ｎ）を変換して数値に戻し、識別されたハードウェアデバイス上でプログラムの一部を実行するために、図３に示す予測された実行可能チューニングパラメータ値３１０として提供される。

本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上述されているが、各特徴又は要素は、他の特徴及び要素を伴わず単独で、又は、他の特徴及び要素の有無にかかわらず様々な組み合わせで使用することができる。

提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアで実施することができる。適切なプロセッサは、例として、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアに関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）回路、任意の他のタイプの集積回路（ＩＣ）、及び／又は、状態機械を含む。このようなプロセッサは、ハードウェア記述言語（ＨＤＬ）命令及びネットリストを含む他の中間データ（コンピュータ可読媒体に記憶可能な命令）の処理結果を使用して製造プロセスを構成することによって、製造されてもよい。このような処理結果は、電力性能管理のためにアプリケーションプロファイリングを実施するプロセッサを製造する半導体製造プロセスで使用されるマスクワークであってもよい。

図に示す及び／又は本明細書で説明する様々な機能ユニット（限定されないが、プロセッサ１０２、入力ドライバ１１２、入力デバイス１０８、出力ドライバ１１４、出力デバイス１１０、アクセラレーテッド処理デバイス１１６、スケジューラ１３６、グラフィックス処理パイプライン１３４、計算ユニット１３２、及び、ＳＩＭＤユニット１３８を含む）は、汎用コンピュータ、プロセッサ若しくはプロセッサコアとして、又は、プログラム、ソフトウェア若しくはファームウェアとして実装され、非一時的なコンピュータ可読記憶媒体又は別の媒体に記憶され、汎用コンピュータ、プロセッサ又はプロセッサコアによって実行可能であり得る。

本明細書で提供される方法又はフローチャートは、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれたコンピュータプログラム、ソフトウェア、ファームウェアに実装されてもよい。非一時的なコンピュータ可読記憶媒体の例は、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスク及びリムーバブルディスク等の磁気媒体、磁気光学媒体、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（ＤＶＤ）等の光学媒体を含む。

Claims

処理性能を改善する処理デバイスであって、
データを記憶するように構成されたメモリと、
前記メモリと通信するプロセッサと、を備え、
前記プロセッサは、
識別されたハードウェアデバイス上でプログラムの一部を実行するために、それぞれ数値を有するチューニングパラメータを受信することと、
前記チューニングパラメータの数値をワードに変換することと、
１つ以上の機械語学習アルゴリズムを使用して、性能効率に基づいて、前記識別されたハードウェアデバイス上で前記プログラムの前記一部を実行するために、何れのワードの組み合わせかが良いかを予測すること、
前記識別されたハードウェアデバイス上で前記プログラムの一部を実行するために、予測されたワードの組み合わせを対応する数値に変換することと、
を行うように構成されている、
処理デバイス。
前記プロセッサは、ワードシーケンスに入力されたワード毎に、機械語学習表現を連続して判定するように構成されている、
請求項１の処理デバイス。
前記プロセッサは、前記ワードシーケンス内の別のワードの判定された機械語学習表現に基づいて、前記ワードシーケンス内のワードの機械語学習表現を判定するように構成されている、
請求項２の処理デバイス。
前記プロセッサは、
前記ワード毎の機械語学習表現に基づいて、ワードの中間シーケンスを予測することと、
前記ワードが１つ以上の所定の制約の各々を満たす場合に、前記ワードの中間シーケンスの何れかのワードを、前記予測されたワードの組み合わせの候補ワードとして判定することと、
前記ワードが前記１つ以上の所定の制約の各々を満たさない場合に、前記ワードの中間シーケンスの前記何れかのワードを、前記予測されたワードの組み合わせの候補ワードではないと判定することと、
を行うように構成されている、
請求項２の処理デバイス。
前記１つ以上の所定の制約の各々は、前記ワードの組み合わせが、前記プログラムの一部を実行することによって無効な結果が生じているかどうかを示す、
請求項４の処理デバイス。
前記プロセッサは、
前記ワードの中間シーケンスの前記複数のワードを、前記予測されたワードの組み合わせの候補ワードとして判定することと、
他の候補ワードよりも優れた性能効率で前記プログラムの一部を実行する可能性がより高いと判定された候補ワードに基づいて、前記ワードの中間シーケンスの次のワードを予測することと、
を行うように構成されている、
請求項４の処理デバイス。
前記性能効率は、前記プログラムの一部を実行する速度又は時間の尺度であり、
前記プロセッサは、前記ワードの他の組み合わせよりも速く又は短い時間で前記プログラムの一部を実行させるために何れの前記ワードの組み合わせが良いかを予測することによって、前記性能効率に基づいて、前記識別されたハードウェアデバイス上で前記プログラムを実行するために、何れの前記ワードの組み合わせが良いかを判定するように構成されている、
請求項１の処理デバイス。
前記複数のチューニングパラメータの受信された数値は、テンソル入力値である、
請求項１の処理デバイス。
前記１つ以上の機械語学習アルゴリズムは、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、及び、結合ニューラルネットワークのうち少なくとも１つを含む、
請求項１の処理デバイス。
処理性能を改善する方法であって、
識別されたハードウェアデバイス上でプログラムの一部を実行するために、それぞれ数値を有するチューニングパラメータを受信することと、
前記チューニングパラメータの数値をワードに変換することと、
１つ以上の機械語学習アルゴリズムを使用して、性能効率に基づいて、前記識別されたハードウェアデバイス上で前記プログラムの一部を実行するために、何れのワードの組み合わせかが良いかを予測することと、
前記識別されたハードウェアデバイス上で前記プログラムの一部を実行するために、予測されたワードの組み合わせを対応する数値に変換することと、を含む、
方法。
ワードシーケンスに入力されたワード毎に、機械語学習表現を連続して判定することをさらに含む、
請求項１０の方法。
前記ワードシーケンス内の別のワードの判定された機械語学習表現に基づいて、前記ワードシーケンス内のワードの機械語学習表現を判定することをさらに含む、
請求項１１の方法。
前記ワード毎の機械語学習表現に基づいて、ワードの中間シーケンスを予測することと、
前記ワードが１つ以上の所定の制約の各々を満たす場合に、前記ワードの中間シーケンスの何れかのワードを、前記予測されたワードの組み合わせの候補ワードとして判定することと、
前記ワードが前記１つ以上の所定の制約の各々を満たさない場合に、前記ワードの中間シーケンスの前記何れかのワードを、前記予測されたワードの組み合わせの候補ワードではないと判定することと、をさらに含む、
請求項１０の方法。
前記１つ以上の所定の制約の各々は、前記ワードの組み合わせが、前記プログラムの一部を実行することによって無効な結果が生じているかどうかを示す、
請求項１３の方法。
前記ワードの中間シーケンスの前記複数のワードを、前記予測されたワードの組み合わせの候補ワードとして判定することと、
他の候補ワードよりも優れた性能効率で前記プログラムの一部を実行する可能性がより高いと判定された候補ワードに基づいて、前記ワードの中間シーケンスの次のワードを予測することと、をさらに含む、
請求項１３の方法。
前記ワードの中間シーケンスの前記複数のワードの各々を、前記他の候補ワードよりも優れた性能効率で前記プログラムの一部を実行する候補ワードの可能性に従ってランク付けすることをさらに含む、
請求項１５の方法。
前記性能効率は、前記プログラムの一部を実行する速度又は時間の尺度であり、
前記方法は、前記ワードの他の組み合わせよりも速く又は短い時間で前記プログラムの一部を実行させるために何れの前記ワードの組み合わせが良いかを予測することによって、前記性能効率に基づいて、前記識別されたハードウェアデバイス上で前記プログラムを実行するために、何れの前記ワードの組み合わせが良いかを判定することを含む、
請求項１１の方法。
前記複数のチューニングパラメータの受信された数値は、テンソル入力値である、
請求項１１の方法。
前記１つ以上の機械語学習アルゴリズムは、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、及び、結合ニューラルネットワークのうち少なくとも１つを含む、
請求項１１の方法。
コンピュータに方法を実行させるための命令を有するコンピュータ可読記憶媒体であって、
前記方法は、
識別されたハードウェアデバイス上でプログラムの一部を実行するために、それぞれ数値を有するチューニングパラメータを受信することと、
前記チューニングパラメータの数値をワードに変換することと、
１つ以上の機械語学習アルゴリズムを使用して、性能効率に基づいて、前記識別されたハードウェアデバイス上で前記プログラムの一部を実行するために、何れのワードの組み合わせかが良いかを予測することと、
前記識別されたハードウェアデバイス上で前記プログラムの一部を実行するために、予測されたワードの組み合わせを対応する数値に変換することと、を含む、
コンピュータ可読記憶媒体。