JP2021174558A

JP2021174558A - Ｉｎｔ９量子化のためのシステム及び方法

Info

Publication number: JP2021174558A
Application number: JP2021076849A
Authority: JP
Inventors: ソダニアヴィナッシュ; Sodani Avinash; ハーネビュートウルフ; Hanebutte Ulf; チェンチア−シン; Chia-Hsin Chen
Original assignee: Marvell Asia Pte Ltd
Current assignee: Marvell Asia Pte Ltd
Priority date: 2020-04-29
Filing date: 2021-04-28
Publication date: 2021-11-01
Also published as: US11551148B2; US20230096994A1; US20210342734A1; CN113568664A; DE102021111028A1; DE102021111028A9; US11977963B2

Abstract

【課題】メモリに格納されるデータを第１のフォーマットから第２のフォーマットに変換する方法を提供する。【解決手段】方法は、ダブルデータレート（ＤＤＲ）メモリに格納されるデータのビットの数を１ビット分拡張して、拡張されたデータを形成する段階と、ＤＤＲに格納されるデータが符号付きであるか、符号なしデータであるかを判定する段階と、データが符号付きであると判定したことに応じて、拡張されたデータの最上位ビットに符号値が追加され、データは、拡張されたデータの下位ビットにコピーする段階と、を含む。データが符号なしであると判定したことに応じて、データは、拡張されたデータの下位ビットにコピーされ、最上位ビットは、符号なしの値、例えば、ゼロに設定される。拡張されたデータは、機械学習コンピュータアレイの処理タイルのオンチップメモリ（ＯＣＭ）に格納される。【選択図】図３Ａ

Description

ハードウェアベースの機械学習（ＭＬ）システムは、典型的には、マルチコア／サブシステム（ブロック及びタイル）を含み、それぞれ独自の処理ユニット及びオンチップメモリ（ＯＣＭ）を有する。ＭＬシステムは、様々な計算のために量子化された数値を処理し得る。例えば、データが様々なＭＬ演算のために処理ユニットにより処理されることができるように、メモリユニット、例えば、ダブルデータレート（ＤＤＲ）メモリに格納されている量子化データが処理タイルに伝送され得る。

一般に、浮動小数点数（データ）は、例えば、ＤＤＲ内のストレージ、及び、例えば、ＭＬシステムによる後続の処理のために量子化データフォーマットに変換される。量子化フォーマットは、限定されるものではないが、算術論理演算ユニット（ＡＬＵ）計算において用いられる符号付き整数、符号なし整数などを含み得る。様々な計算のために、量子化フォーマットタイプの混合が、例えば、ＭＬシステムにより用いられることが多い。

残念なことに、現在のところ、オフセットを導入することなく量子化フォーマットタイプの混合に対してＡＬＵ計算を実行するためのメカニズムは存在していない。したがって、各オペランドのフォーマットタイプは、量子化フォーマットタイプの混合がＡＬＵ計算において用いられる場合に追跡され、ＡＬＵ計算に関する複雑さ及びレイテンシを増加させる。さらに、ＭＬシステムにおいて、整数値は、処理ユニットに入力される前に再スケーリングされる必要があり得る。しかしながら、プロセッサにおける数学的除算は、時間が掛かり、時間効率が悪いことが多い。

関連技術前述の例及びそれに関連する限定事項は、例示を目的としたものであり、排他的なものではない。関連技術の他の限定事項は、明細書から得られる解釈及び図面から得られる知識により明らかとなるだろう。

添付の図と共に読まれるときに、本開示の態様が以下の詳細な説明から最も理解される。産業における慣例に従って、様々な特徴は一定の縮尺で描かれていないことに留意する。実際には、様々な特徴の寸法は、説明を明確にするために、任意に大きくなったり、小さくなったりし得る。

本実施形態の一態様に係る機械学習をサポートするように構成されるハードウェアベースのプログラマブルアーキテクチャの例示的な例を示す。

図１におけるハードウェアベースのプログラマブルアーキテクチャにより実装されるある数字フォーマットタイプから別のものへの量子化を示す。図１におけるハードウェアベースのプログラマブルアーキテクチャにより実装されるある数字フォーマットタイプから別のものへの量子化を示す。図１におけるハードウェアベースのプログラマブルアーキテクチャにより実装されるある数字フォーマットタイプから別のものへの量子化を示す。図１におけるハードウェアベースのプログラマブルアーキテクチャにより実装されるある数字フォーマットタイプから別のものへの量子化を示す。

本実施形態の一態様に係る、格納されるデータを第１のフォーマットから第２のフォーマットへ変換するためのフロー図を示す。本実施形態の一態様に係る、格納されるデータを第１のフォーマットから第２のフォーマットへ変換するためのフロー図を示す。

本実施形態の一態様に係る、ＰＯＤユニットのアーキテクチャの例の図を示す。

示される本実施形態の一態様に係る機械学習演算における整数データの再スケーリングのための方法を示す。

以下の説明では、本主題の異なる特徴を実装するように、多くの異なる実施形態又は例を提供する。コンポーネント及び配置の特定の例が、本開示を簡略化するように以下に説明される。これらは、もちろん、例に過ぎず、限定することを目的とするものではない。さらに、本開示は、様々な例において、参照符号及び／又は文字を繰り返すことがある。この繰り返しは、簡略かつ明確にすることを目的とするものであり、それ自体において、説明される様々な実施形態及び／又は構成の間の関係を定めるものではない。

様々な実施形態がより詳細に説明される前に、そのような実施形態における要素が異なり得るので、実施形態が限定的なものではないことが理解されたい。本明細書で説明及び／又は図示される特定の実施形態が、特定の実施形態から容易に分離され得る、及び、任意には、いくつかの他の実施形態のいずれかと組み合わせられ得る、又は、本明細書において説明されるいくつかの他の実施形態のいずれかにおける要素に置き換えられ得る要素を有することが、同様に理解されたい。本明細書で用いられる用語は、一定の概念を説明する目的であり、用語は限定することを目的としたものではないことが、また理解されたい。そうではないと規定されない限り、本明細書において用いられるすべての技術及び科学的用語は、実施形態が属する技術分野において一般的に理解されるものと同じ意味を有する。

機械学習（ＭＬ）のための新たなプログラマブルハードウェアアーキテクチャが提案され、少なくともホスト、メモリ、コア、データストリーミングエンジン、命令ストリーミングエンジン及びインタフェースエンジンを含む。メモリは、限定されるものではないが、ｉｎｔ８、ｕｉｎｔ８などを含む量子化フォーマットで浮動小数点数を格納するように構成されている。いくつかの実施形態によれば、メモリに格納される量子化データは、ｉｎｔ９フォーマットに変換されることにより、異なる量子化データフォーマットタイプ、例えば、一様にｉｎｔ８、ｕｉｎｔ８などを表し、同様に、オフセット計算を実行する必要性を排除しつつ、データの対称量子化（すなわち、量子化はゼロを基準にして対称である）を提供する。データをｉｎｔ９フォーマットタイプに変換することは、推論エンジンが、量子化オペランドに対するフォーマットタイプの追跡を維持することを必要とせずに、ホモジニアスｉｎｔ９フォーマットタイプのオペランドに対してＡＬＵ計算を実行することを可能にすることにより、複雑さを簡略化し、同様に、結果として、より速い処理時間をもたらすことが理解される。

いくつかの実施形態において、メモリユニット、例えば、ＤＤＲからデータが読み出される場合、８ビット数値は、非限定的な例として、メモリユニットに格納される数値がｉｎｔ８であるか、ｕｉｎｔ８であるかに基づいて、ｉｎｔ９フォーマットタイプに変換される。いくつかの実施形態において、９ビットが用いられ、ｉｎｔ８フォーマットタイプは、ｉｎｔ９フォーマットタイプへの符号拡張版であり、ｕｉｎｔ８フォーマットタイプは、９ビットのデータの最下位ビットにコピーされ、その最上位ビット（すなわち、ビットオーダ９）は、符号なしである、例えば、ゼロに設定される。８個のビットは、フルｉｎｔ９レンジを格納するのに十分ではないので、ソフトウェアコンポーネントは、メモリユニット、例えば、８ビットＤＤＲに書き込まれるｉｎｔ９の値が、ｉｎｔ８、ｕｉｎｔ８などの適正レンジ内にあることを確実し得ることが理解される。

いくつかの実施形態において、ソフトウェアコンポーネントは、ｉｎｔ９数値のレンジをｉｎｔ８、ｕｉｎｔ８などのレンジ内となるように制限する演算を実行する、又は、代替的に、ｉｎｔ９数値に対する演算を実行して、それを、１つはｉｎｔ８レンジ内にあり、もう１つはｕｉｎｔ８レンジ内にある２つのｉｎｔ９数値として表すように構成される。１つはｉｎｔ８レンジ内にあり、もう１つはｕｉｎｔ８レンジ内にある２つのｉｎｔ９数値として、ｉｎｔ９数値を表すことは、情報を保存しつつ、ｉｎｔ９数値の最下位ビットが８ビットＤＤＲにコピーされることを可能にする。

いくつかの実施形態において、プログラマブルハードウェアアーキテクチャのコアは、ホストから受信したＭＬ演算及び／又はデータに対する複数のＭＬコマンド／命令を解釈し、受信したＭＬコマンドにおけるデータに基づいて、ストリーミング及び推論エンジンのアクティビティを調整するように構成される。推論エンジンは、密演算エンジン及び不規則演算エンジンを含んでよい。密演算エンジンは、通常の演算、例えば、行列演算、例えば、乗算、行列操作、ｔａｎｈ、シグモイドなどで、密なデータを効率的に処理するために最適化されるエンジンである。一方、不規則演算エンジンは、不規則演算、例えば、メモリトランスポーズ（ｍｅｍｏｒｙｔｒａｎｓｐｏｓｅ）、不規則なデータ構造（例えば、ツリー、グラフ及び優先キュー）に対する演算で、散発的データを効率的に処理するために最適化されるエンジンである。いくつかの実施形態によれば、コアは、処理されるホストから受信される命令のいくつかを調整してよい。いくつかの実施形態において、コアは、汎用プロセッサ、例えば、ＣＰＵであってよい。

いくつかの実施形態において、コアは、具体的には、コアと推論エンジンとの間で、効率的な実行のために複数のＭＬコマンドを分割するように構成される。推論エンジンにより実行されるＭＬコマンド及び関連データは、推論エンジンへの効率的なストリーミングのために、コア及びメモリから命令ストリーミングエンジン及びデータストリーミングエンジンに伝送される。上述したように、メモリユニットから読み出されるデータは、ｉｎｔ９フォーマットに変換される。データ及び命令ストリーミングエンジンは、コアから受信したプログラミング命令に応じて、１つ又は複数のデータストリーム及びＭＬコマンドを推論エンジンに送信するように構成される。推論エンジンは、命令／データストリーミングエンジンから受信したプログラミング命令に従って、ＭＬ演算のためにデータ／命令ストリームエンジンから受信した命令／データストリームを処理するように構成される。

推論エンジンの密演算エンジンのデータ入力は、一定の演算、例えば、ｔａｎｈ、シグモイドなどの前に再スケーリングされる必要があり得ることが理解される。効率的な方式で再スケーリングするために、ｉｎｔ３２フォーマットに入力されるデータは、整数スケール値で乗算され、後でシフトされる。計算の可能な限り最も高い精度及び最も低いエラーを実現するために、整数スケール値とシフト値との間の関係は、整数データ、例えば、ｉｎｔ３２を格納するレジスタのサイズに基づいて取得される。

ここで、図１を参照すると、機械学習をサポートするように構成されるハードウェアベースのプログラマブルシステム／アーキテクチャ１０１の図の例が示されている。図は、コンポーネントを機能的に分離したものとして示しているが、そのような表現は、例示の目的に過ぎない。この図に描かれているコンポーネントは、恣意的に組み合わされ、別個のソフトウェア、ファームウェア及び／又はハードウェアコンポーネントに分割され得ることが明らかである。さらに、そのようなコンポーネントは、それらがどのように組み合わされ、又は、分割されるかに関わらず、同じホスト又は複数のホスト上で実行でき、複数のホストが１つ又は複数のネットワークにより接続され得ることも明らかである。アーキテクチャ１０１内のエンジンのそれぞれは、１つ又は複数のマイクロプロセッサ、及び、様々な機械学習演算のためにユーザによりプログラミングされたデータ及びソフトウェア命令を格納するオンチップメモリユニットを含む専用のハードウェアブロック／コンポーネントである。以下で詳細に説明されるように、ソフトウェア命令がマイクロプロセッサにより実行される場合、ハードウェアコンポーネントのそれぞれは、一定の機械学習機能を訓練するための専用ハードウェアコンポーネントになる。いくつかの実施形態において、アーキテクチャ１０１は、単一のチップ、例えば、システムオンチップ（ＳＯＣ）である。

図１の例において、アーキテクチャ１０１は、メモリ（例えば、ＤＤＲ）１２０及びコアエンジン１３０に連結されるホスト１１０を含んでよい。メモリ１２０は、外部データを受信するために、ダイレクトメモリアクセス（ＤＭＡ）エンジン（示されていない）及びネットワークインターフェースコントローラ（ＮＩＣ）（示されていない）に連結されてよい。メモリ１２０は、データストリーミングエンジン１４０に内部で接続されてよい。コア１３０は、データストリーミングエンジン１４０に連結される命令ストリーミングエンジン１５０に連結される。コア１３０はまた、汎用プロセッサ１６５に連結される。いくつかの実施形態において、汎用プロセッサ１６５は、コア１３０の一部であり得る。命令ストリーミングエンジン１５０及びデータストリーミングエンジン１４０は、密演算エンジン１６１及び不規則演算エンジン１６３を含む推論エンジン１６０に連結される。推論エンジン１６０は、様々な計算を実行するためのアレイを含んでよいことが理解される。推論エンジン１６０において様々な計算を実行するためのアレイの任意の説明は、例示の目的としており、実施形態の範囲を限定するものとして解釈されるべきではないことが理解される。例えば、いくつかの実施形態において、様々な計算を実行するためのアレイは、推論エンジン１６０以外に存在してよい。

外部データは、浮動小数点フォーマット、例えば、３２ビット浮動小数点であってよいことが理解される。したがって、データがメモリ１２０、例えば、８ビットＤＤＲに格納されている場合、当該データは、整数フォーマットタイプ、例えば、ｉｎｔ８、ｕｉｎｔ８などに変換されてよい。ｕｉｎｔ８は、０から２５５のレンジにあり、一方、ｉｎｔ８は、−１２８から１２７のレンジにあることが理解される。一方、ｉｎｔ９は−２５６から２５５のレンジにあり、したがって、任意のオフセット計算なしにｉｎｔ８及びｕｉｎｔ８の両方を表すことができる。ｕｉｎｔ８レンジ及びｉｎｔ８レンジとして、ｉｎｔ９を用いることは、データが標準的な８ビットＤＤＲにコピーされることを可能にする。３２ビット浮動小数点及び８ビットＤＤＲの使用に関する説明は、例示の目的であり、実施形態の範囲を限定するものとして解釈されるべきではないことが理解される。浮動小数点データは、最終的に、ｉｎｔ８又はｕｉｎｔ８の代わりに、ｉｎｔ９に量子化される。さらに、ｉｎｔ９レンジは、正の値及び負の値の両方をカバーしているので、結果的に、ゼロオフセットとなり、ＭＬシステムにおけるｉｎｔ９数値の再スケーリングをさらに簡略化する。したがって、メモリ１２０、例えば、８ビットＤＤＲからデータが読み出されている場合、データは、ｉｎｔ９フォーマットに変換される。データがｉｎｔ９フォーマットに変換されると、異なるフォーマットタイプの混合が計算において用いられる場合、オペランドのタイプを追跡する必要がないことが理解される。例えば、ｉｎｔ９を用いることは、実行される計算におけるオペランドがｉｎｔ８であるか、ｕｉｎｔ８であるかなどを追跡する必要性を排除する。

いくつかの実施形態において、メモリ１２０、例えば、ＤＤＲは、浮動小数点数、例えば、３２ビット浮動小数点を４つの８ビット値として格納してよいことがさらに理解される。したがって、メモリ１２０、例えば、８ビットＤＤＲからオンチップメモリにデータが読み込まれる場合、汎用プロセッサ１６５又は不規則演算エンジン１６３のいずれかにおいて、３２ビット浮動小数点からｉｎｔ９へと量子化が実行される。いくつかの実施形態において、汎用プロセッサ１６５及び／又は不規則演算エンジン１６３内のレジスタは、３２ビット浮動小数点値を保持する３２ビット幅を格納する。したがって、ＭＬシステムにおける使用のために、浮動小数点数はｉｎｔ９数値に変換されてよい。しかしながら、３２ビット浮動小数点数は、まず、ｉｎｔ９フォーマットに変換するためにスケーリングされる。例えば、適切なスケールは以下のとおりであってよい。スケール＝（浮動小数点の上限レンジ−浮動小数点の下限レンジ）／（ｉｎｔ９の上限レンジ−ｉｎｔ９の下限レンジ）＝（エンド−（−エンド））／（２５５−（−２５５））＝２エンド／（２（２５５））＝エンド／２５５。

同じスケールがｉｎｔ９の下限レンジの−２５６を含むように拡張される場合に用いられ得ることが理解される。図２Ａは、３２ビット浮動小数点のｉｎｔ９のフルレンジへの対称量子化及びマッピングを示し、一方、図２Ｂは、ｉｎｔ９の−２５６を含むように図２Ａのマッピングを示すことが理解される。図示されるように、図２Ａ及び図２Ｂの両方に対して同じスケールが用いられてよい。図２Ｃは、３２ビット浮動小数点をｉｎｔ９及びｉｎｔ９レンジ内のｉｎｔ８の表現にマッピングすることを示す。ｉｎｔ９レンジ内のｉｎｔ８の表現に対するスケールは、上記で判定されたスケールとは異なることが理解される。いくつかの実施形態において、９ビットを用いてｉｎｔ８を表現するためのスケールは、以下のとおりであってよい。スケール＝（浮動小数点の上限レンジ−浮動小数点の下限レンジ）／（ｉｎｔ８の上限レンジ−ｉｎｔ８の下限レンジ）＝（エンド−（−エンド））／（１２７−（−１２７））＝エンド／１２７。

図２Ｄは、３２ビット浮動小数点をｉｎｔ９及びｉｎｔ９レンジ内のｕｉｎｔ８の表現にマッピングすることを示す。ｉｎｔ９レンジ内のｕｉｎｔ８の表現は、図２Ａ及び図２Ｂのものと同じスケールを有することが理解される。

いくつかの実施形態において、メモリ１２０から、アレイ、例えば、推論エンジン１６０などにデータを転送する場合、転送されるデータは、転送されるデータがｉｎｔ８であるか、ｕｉｎｔ８であるかに応じて拡張された符号又は拡張されたゼロである。すなわち、データは、あるフォーマットタイプ、例えば、ｉｎｔ８、ｕｉｎｔ８などから、別のフォーマットタイプ、例えば、ｉｎｔ９に変換される。非限定的な例として、データをｉｎｔ８又はｕｉｎｔ８からｉｎｔ９フォーマットに変換する場合、８ビットのデータは、１ビット分、ビットの数を拡張することにより、９ビットのデータに変換される。変換されるデータが符号付き、例えば、ｉｎｔ８であるか、又は、符号なし、例えば、ｕｉｎｔ８であるかが判定される。変換されるデータが符号付きである場合、ｉｎｔ９に対する９ビットのデータの最上位ビットは拡張された符号であり、変換されるデータが符号なしである場合、ｉｎｔ９に対する９ビットのデータの最上位ビットはゼロに設定される。ｉｎｔ８又はｕｉｎｔ８が、ｉｎｔ９データの下位ビット（すなわち、下位８ビットオーダ）に直接コピーされることが理解される。ｉｎｔ９データは、ｉｎｔ８又はｕｉｎｔ８フォーマットタイプと比較して、拡張されたデータと称されてよいことが理解される。この例においてｉｎｔ９フォーマットタイプである拡張されたデータは、演算対象の推論エンジン１６０に格納される。いくつかの実施形態において、拡張されたデータは、ＭＬコンピュータアレイの処理タイルにより処理されるべく、推論エンジン１６０のオンチップメモリ（ＯＣＭ）に格納されてよい。いくつかの実施形態において、浮動小数点数、例えば、３２ビット浮動小数点は、整数表現、例えば、ｉｎｔ９に変換されてよいことが理解される。１つの例示的な実施形態において、浮動小数点数は、ｉｎｔ９フォーマットタイプに変換されるべく、図２Ａ〜図２Ｄに図示されるように、適切に量子化及びスケーリングされる。図示されるように、あるスケーリング値は、ｉｎｔ９フォーマットタイプのｉｎｔ８に対する浮動小数点数を表すために用いられてよく、一方、異なるスケーリング値は、ｉｎｔ９フォーマットタイプのｕｉｎｔ８に対する浮動数を表すために用いられてよい。メモリユニット１２０、例えば、ＤＤＲに格納される１６ビット浮動小数点数は、メモリユニット１２０から推論エンジン１６０のＯＣＭに格納される場合と同じままであることが理解される。非限定的な例として、１６ビット浮動小数点の下位７ビットは、その仮数の下位７ビットと同じであり、８番目のビットは、拡張されるが、演算において用いられることはなく、残りの仮数ビットは、９番目及び１０番目のビットの後に指数が続き、及び、符号付きビットの後に、任意の演算において用いられない追加の拡張ビットが続く。

推論エンジン１６０は、複数の行及び列、例えば、８行×８列の２次元アレイで配置される複数の処理タイルを含んでよいことが理解される。各処理タイルは、少なくとも１つのＯＣＭ、１つのＰＯＤユニット及び１つの処理エンジン／エレメント（ＰＥ）を含んでよい。ここで、処理タイル内のＯＣＭは、ストリーミング方法でデータストリーミングエンジン１４０からデータを受信するように構成される。上記で説明したように、受信されたデータは、ｉｎｔ９フォーマットであってよいことが理解される。ＯＣＭは、処理タイルごとのデータに対する効率的なローカルアクセスを可能にする。処理ユニット、例えば、ＰＯＤ及びＰＥは、高度に専門化されたタスク、例えば、ＯＣＭにおいて受信されたデータに対して、ＭＬ演算の密又は疎計算をそれぞれ実行するように構成される。

それぞれの処理タイルのＯＣＭは、ＭＬ演算と関連付けられた様々なＡＬＵ演算に対するｉｎｔ９フォーマットタイプのデータを受信してよいことが理解される。いくつかの実施形態において、メモリ１２０に格納されるデータのフォーマットタイプ、例えば、符号付きであるか符号なしであるかどうかは、適切な処理ユニット、例えば、処理タイルのそれぞれのＰＯＤ／ＰＥによる実行のためにストリーミングされるように、適切な命令がスケジューリングされ得るように追跡されることが理解される。すなわち、処理タイルにより、ｉｎｔ９フォーマットで受信されるデータに対して、様々なＡＬＵ演算が実行される。ｉｎｔ９フォーマットで受信されるデータは、様々なＡＬＵ演算のオペランドであってよい。ｉｎｔ９フォーマットタイプでの様々なＡＬＵ演算の結果は、そのそれぞれのＯＣＭに格納されてよい。

いくつかの実施形態において、推論エンジン１６０は、通常の演算、例えば、行列演算、例えば、乗算、行列操作、ｔａｎｈ、シグモイドなどで、密なデータ、例えば、ｉｎｔ９フォーマットのメモリ１２０から受信したデータを効率的に処理するために最適化される密演算エンジン１６１を含む。一方、推論エンジン１６０はまた、不規則演算、例えば、メモリトランスポーズ（ｍｅｍｏｒｙｔｒａｎｓｐｏｓｅ）、追加の演算、不規則なデータ構造（例えば、ツリー、グラフ及び優先キュー）に対する演算で、例えば、ｉｎｔ９フォーマットタイプの散発的データを効率的に処理するために最適化される不規則演算エンジン１６３を含んでよい。いくつかの実施形態によれば、コア１３０は、汎用プロセッサ１６５、例えば、ＣＰＵなどにより処理されるホスト１１０から受信される命令のいくつかを調整してよい。

いくつかの実施形態において、コア１３０は、一般的な高水準言語を通じて書き込まれる任意のソフトウェアコードを実行するように構成される。コア１３０は、複数のパフォーマンス非クリティカル演算、例えば、データ／命令予備作業、データ収集、データマッピングなどを処理するように構成される。いくつかの実施形態において、パフォーマンス非クリティカル演算は、コア１３０により処理されることができ、パフォーマンスクリティカル演算（例えば、行列乗算）は、推論エンジン１６０により処理されることができるように、コア１３０は、受信したＭＬコマンドをパフォーマンスクリティカル及び非クリティカル演算／タスクに分類するように構成されてもよい。すなわち、コア１３０は、コア１３０と推論エンジン１６０との間で、それらの効率的な実行のために複数のＭＬコマンドを分割するように構成される。いくつかの実施形態において、コア１３０は、処理のために、複数のＭＬコマンド（タスク又はサブタスクとも称される）を様々なコンポーネント、例えば、推論エンジン１６０に割り当てる／分割するように構成されてもよい。いくつかの実施形態において、コア１３０又はアーキテクチャ１０１における他のコンポーネント、例えば、推論エンジン１６０によりアクセスされ、用いられるように、コア１３０は、タスク／コマンド、データ、データが処理された後の結果などを格納するために、メモリ１２０に１つ又は複数の場所を割り当てるように構成される。したがって、コア１３０及び推論エンジン１６０は、一定のＭＬコマンド又は演算を実行するためにホスト１１０に依存又は要求する代わりに、ＭＬアルゴリズム全体、及び、それらによる演算を実行するように構成される。プログラマブルハードウェアアーキテクチャ１０１でのＭＬ演算全体をサポート及び実行することにより、コア１３０は、データをホスト１１０に転送して、任意のサポートされていないＭＬ演算を実行するために戻すパフォーマンスオーバヘッドを排除し、ホスト１１０に対する負担を軽減して、より高いパフォーマンスを実現する。

いくつかの実施形態において、推論エンジン１６０により実行される、例えば、それらのｉｎｔ８フォーマットのＭＬコマンド及び関連データは、推論エンジン１６０に対する効率的なストリーミングのために、コア１３０及びメモリ１２０から、命令ストリーミングエンジン１５０及びデータストリーミングエンジン１４０に伝送される。いくつかの実施形態において、データ／命令ストリーミングエンジン１４０−１５０は、コア１３０から受信したＭＬコマンドに応じて、１つ又は複数のデータストリーム及びプログラミング命令を推論エンジン１６０に送信するように構成される。いくつかの実施形態において、メモリ１２０に格納されるデータのフォーマットタイプ、例えば、符号付きであるか符号なしであるかどうかは、推論エンジン１６０の密演算エンジン１６１及び／又は不規則演算エンジン１６３にストリーミングされるように、適切な命令がスケジューリングされ得るように追跡されることが理解される。すなわち、推論エンジン１６０内のエンジンにより、ｉｎｔ９フォーマットで受信されるデータに対して、様々なＡＬＵ演算が実行される。ｉｎｔ９フォーマットで受信されるデータは、様々なＡＬＵ演算のオペランドであってよい。ｉｎｔ９フォーマットタイプでの様々なＡＬＵ演算の結果は、推論エンジン１６０の密演算エンジン１６１及び／又は不規則演算エンジン１６３内に格納されてよい。いくつかの実施形態において、結果は、ＭＬコンピュータアレイの処理タイルの適切なＯＣＭに格納されてよい。

いくつかの実施形態において、推論エンジン１６０内のＡＬＵ演算の結果は、推論エンジン１６０内のそれぞれの処理タイルのメモリコンポーネント、例えば、ＯＣＭ内に格納されることが理解される。推論エンジン１６０に格納される結果は、メモリユニット１２０、例えば、ＤＤＲへの格納のために伝送されてよい。しかしながら、結果を格納する前に、結果の値がメモリユニット１２０内のデータのフォーマットタイプの上限、例えば、最大値を超える場合には、当該値がデータに対する上限レンジに調整されてよく、結果の値がメモリユニット１２０の下限レンジより小さい場合、当該値がデータに対する下限レンジ、例えば、最小に調整されてよい。それぞれの処理タイルのＯＣＭからメモリユニット１２０に結果を格納する場合、ｉｎｔ９結果の最上位ビットがドロップされることが理解される。

いくつかの実施形態において、それぞれのＯＣＭに格納される処理の結果は、格納のために伝送されて、メモリユニット１２０、例えば、ＤＤＲに戻されてよいことが理解される。しかしながら、結果を格納する前に、結果の値がメモリユニット１２０内のデータのフォーマットタイプの上限、例えば、最大値を超える場合、当該値がデータに対する上限レンジに調整されてよく、結果の値がメモリユニット１２０の下限レンジより小さい場合、当該値がデータに対する下限レンジ、例えば、最小に調整されてよい。すなわち、データは、適正レンジ、例えば、ｉｎｔ８レンジ、ｕｉｎｔ８レンジ内などにするためにクランプされてよい。それぞれの処理タイルのＯＣＭからメモリユニット１２０に結果を格納する場合、ｉｎｔ９結果の最上位ビットがドロップされることが理解される。さらに、推論エンジン、例えば、推論エンジン１６０のそれぞれのＯＣＭからメモリユニット１２０、例えば、ＤＤＲにデータを転送する場合に、ｉｎｔ９データフォーマットタイプが、適切なフォーマットタイプ、例えば、メモリユニット１２０内のｉｎｔ８フォーマットであったデータに関してはｉｎｔ８、メモリユニット１２０内のｕｉｎｔ８フォーマットであったデータに関してはｕｉｎｔ８などと、正確に解釈されることができるように、ソフトウェアモジュールは、メモリユニット１２０に格納されるデータが、符号付きであったか、符号なしであったかを追跡してよいことが理解される。

ここで、図３Ａ及び図３Ｂを参照すると、図１〜図２Ｄにおいて説明したように、メモリ、例えば、ＤＤＲに格納されるデータを、第１のフォーマット、例えば、ｉｎｔ８、ｕｉｎｔ８、浮動小数点などから第２のフォーマットタイプ、例えば、ｉｎｔ９に変換することをサポートする処理の例が示されている。図は、図示の目的のために、特定の順序で機能的な段階を示しているが、当該処理は、段階の任意の特定の順序又は配置に限定されることはない。当業者であれば、この図に描かれている様々な段階が、様々な方法で、省略され、再配置され、組み合わせられ、及び、適合され得ることを理解する。

図３Ａ及び図３Ｂに示されるように、段階３１０において、メモリユニット１２０、例えば、ＤＤＲに格納されるビットの数は、拡張されたデータ、例えば、ｉｎｔ９を形成するために、１ビット分拡張される。したがって、８ビットを含むｉｎｔ８又はｕｉｎｔ８は、９ビットに拡張される。いくつかの実施形態において、メモリユニット１２０に格納されるデータは浮動小数点数であることが理解される。段階３２０において、メモリ１２０に格納されるデータが、符号付き、例えば、ｉｎｔ８であるか、又は、符号なし、例えば、ｕｉｎｔ８であるかが判定される。段階３３０において、データが符号付きであると判定したことに応じて、拡張されたデータは、符号拡張される。一方、段階３４０において、データが符号なしであると判定したことに応じて、拡張されたデータの最上位ビットは、ゼロに設定される。段階３５０において、データは、下位ビットに、したがって、最上位ビットを除くすべての順位のビットにコピーされる。段階３６０において、拡張されたデータは、推論エンジン１６０、例えば、推論エンジン１６０のＯＣＭにコピーされる。段階３７０において、メモリユニット１２０、例えば、ＤＤＲに格納されるデータが符号付きであるか、符号なしであるかが追跡され、したがって、段階３８０において、拡張されたデータに対する適切な命令がスケジューリングされることが理解される。段階３８２において、拡張されたデータに対して、様々なＡＬＵ演算が実行されてよい。段階３８４において、ＡＬＵ演算の結果がＯＣＭに格納される。段階３８６において、ＯＣＭに格納されたＡＬＵ演算の結果はまた、メモリユニット１２０、例えば、ＤＤＲに格納／コピーされる。段階３８８において、結果をＯＣＭからＤＤＲに格納する前に、結果の最上位ビットがドロップされる。任意には、段階３９０において、メモリユニット１２０に格納される数字フォーマットタイプのレンジに基づいて、ＯＣＭからメモリユニット１２０、例えば、ＤＤＲに格納する前に、ＡＬＵの結果の値が調整されてよいことが理解される。例えば、ＯＣＭに格納される結果の値が、メモリユニット１２０に格納される数値タイプ、例えば、ｉｎｔ８又はｕｉｎｔ８などの上限レンジを超える場合、数値、したがって、ｉｎｔ８、ｕｉｎｔ８などの最大又は上限レンジに対して、結果が調整及び変更される。

図４は、ＰＯＤのアーキテクチャの例の図を示す。図４に示されるコンポーネントの数、コンポーネントのサイズ及びビットの数、行列サイズなどは、例示の目的であり、実施形態の範囲を限定することを目的としたものではないことが理解される。以下の説明では、非限定的な例として行列乗算が用いられるが、ＰＯＤはまた、ＭＬ演算の他のタイプの密計算タスクを実行するように構成されることが理解される。図４の例では、ＰＯＤは、様々なコンポーネント、例えば、レジスタ、ｔａｎｈ／シグモイドユニット６１４などへのデータ／命令のロードを制御するように構成される計算ＰＯＤ命令制御６９９を含む。ＰＯＤは、Ｘ個の行及びＹ個の列を有する２次元アレイである行列乗算ブロック６０２を含み、アレイ内の各エレメント／セルは、一定の数のレジスタ（例えば、インターロックされたパイプラインステージを用いないＭＩＰＳ又はマイクロプロセッサ）を有することが理解される。行列乗算ブロック６０２は、２つの行列、Ｘ個の行及びＺ個の列で構成される行列Ａと、Ｚ個の行及びＹ個の列で構成される行列Ｂとを乗算して、Ｘ個の行及びＹ個の列で構成される行列Ｃを生成するように構成される。たとえ、メモリユニット１２０に格納されるデータが異なるタイプのフォーマット、例えば、ｉｎｔ８、ｕｉｎｔ８、浮動小数点などであったとしても、乗算されるデータは、それぞれのＯＣＭに格納されるｉｎｔ９フォーマットタイプであってよいことが理解される。

図４の例において、ＰＯＤは、行列乗算のために行列乗算ブロック６０２に行列データを供給する３つのタイプのレジスタ、すなわち、Ａレジスタ６０４、Ｂレジスタ６０６及びＣレジスタ６０８をさらに含む。Ａレジスタ６０４は、レジスタのバンク、例えば、ｍ個のレジスタを含み、それぞれ、行列乗算ブロック６０２のアレイの列に供給されるＡ行列のある行／列を維持するように構成される。各Ａレジスタは、複数のエントリ、例えば、ｋ個の要素を有してよく、それぞれは、一定の数のビット幅を有し、サイクルごとのある読み出し又は書き込み演算をサポートする。たとえ、メモリユニット１２０に格納されるデータが異なるフォーマットタイプ、例えば、ｉｎｔ８、ｕｉｎｔ８、浮動タイプなどであったとしても、データは、ｉｎｔ９フォーマットタイプで各レジスタにあってよいことが理解される。すなわち、データは、ＰＥ及び／又はＰＯＤ演算のＡＬＵ計算において用いられる処理タイルのそれぞれのＯＣＭに格納されるように、メモリユニット１２０のあるフォーマットから異なるフォーマットタイプ、例えば、ｉｎｔ９に変換される。エントリは、各Ａレジスタが、それらが行列乗算ブロック６０２による計算のために必要となる前にＡ行列の次の部分に前もってフェッチすることを可能にする。Ｂレジスタ６０６は、レジスタのバンク、例えば、ｎ個のレジスタを含み、それぞれは、乗算ブロック６０２のアレイの行に供給されるＢ行列のある行／列を維持するように構成される。Ａレジスタ６０４と同様に、各Ｂレジスタは、複数のエントリ、例えば、ｋ個の要素を有してよく、それぞれは、一定の数のビット幅を有し、サイクルごとのある読み出し又は書き込み演算をサポートする。エントリは、各Ｂレジスタが、それらが行列乗算ブロック６０２による計算のために必要となる前にＢ行列の次の部分に前もってフェッチすることを可能にする。Ｃレジスタ６０８は、乗算ブロック６０２により生成される行列−乗算の結果−Ｃ行列−を保持するように構成される。Ｃレジスタ６０８は、複数のバンクを含み、それぞれは、Ｃ行列のある行／列を維持するように構成される。Ｃ行列は、ｍ×ｎ成分を有するように構成される。

行列乗算処理中に、行列乗算ブロック６０２は、（行列の各行又は列を読み出す代わりに）ＯＣＭから行列Ａ及びＢの成分を一回だけＡ及びＢレジスタにそれぞれ読み込むように構成され、したがって、ＯＣＭへのメモリアクセス時間を節約する。具体的には、各行列の乗算演算は固有の構造を有し、第１の行列の行が第２の行列におけるすべての列と乗算され、第２の行列における列が第１の行列におけるすべての行と乗算される。行列乗算ブロック６０２が行列乗算演算を実行するので、Ａレジスタ６０４の各行は同じままであり、一方、Ｂレジスタ６０６の列は、Ａレジスタ６０４内の行で乗算されるように、一度に一つずつ行列乗算ブロック６０２に供給される。同時に、Ｂレジスタ６０６の各列は同じままであり、一方、Ａレジスタ６０４の行は、Ｂレジスタ６０６の列で乗算されるように、一度に一つずつ行列乗算ブロック６０２に供給される。したがって、行列乗算ブロック６０２は、同時に、第１の行列の各行を第２の行列のすべての列と乗算し、第２の行列の各列を第１の行列のすべての行と乗算するように構成される。これらの乗算からのこれらの出力は、行列乗算処理が完了するまで、Ｃレジスタに蓄積及び格納される。

図４の例に示されるように、Ａレジスタ６０４、Ｂレジスタ６０６及びＣレジスタ６０８は、それぞれ、対応するＯＣＭストリーマ６０３、６０５又は６０７とそれぞれ関連付けられており、ＯＣＭストリーマのそれぞれは、プログラミングされており、行列乗算演算が、簡素化された方法で行列乗算ブロック６０２により実行され得ることを確実にするために、データをＯＣＭから対応するレジスタにストリーミングするように構成される。各ＯＣＭストリーマは、読み込み対象のＯＣＭのアドレスレンジと、次の読み出しのために追跡されるストライドとを有する。Ａ又はＢタイプのレジスタは、バンクごとの次のライン準備完了信号をその対応するストリーマに送信するように構成され、信号のビットパターンは、どのバンクがデータの次のラインを要求するかを示している。Ａ又はＢレジスタの対応するストリーマは、データの対応するラインをＯＣＭからレジスタに送信することにより、読み出された信号に応答する。ストリーマは、伝送されるデータの最後のラインを送信した場合に、その対応するレジスタに完了信号を送信する。レジスタのバンクのすべてがデータのラインを有する場合、Ａ又はＢレジスタは、Ａ又はＢレジスタの次のセットが行列乗算のために行列乗算ブロック６０２に読み込まれる準備ができているという準備信号を行列乗算ブロック６０２に送信する。いくつかの実施形態において、各レジスタバンクは、どの値が有効であり、演算されるべきかを行列乗算ブロック６０２に通知する有効ビットを有する。

行列乗算が完了した場合、例えば、Ａ行列の行の終わり及びＢ行列の列の終わりに達した場合、行列乗算ブロック６０２は、Ｃレジスタ６０８のエントリ内のすべての蓄積が完了し、エントリがその対応するストリーマ６０７を介してＯＣＭにライトバックされる準備ができていることをＣレジスタ６０８に通知する。Ｃレジスタ６０８の各バンクは、次に、データをＯＣＭに送信する。ＯＣＭがＣレジスタ６０８のバンクからのデータを受け入れる準備ができていない場合、ＰＥがバンクからのデータを受け入れる準備ができるまで、送信が引き延ばされ、次のサイクルで再試行される。いくつかの実施形態において、Ｃレジスタ６０８は、データと共に予めロードされる、又は、次の行列乗算演算中の次のセットの蓄積の前に、ゼロにリセットされる。そのような予めロードすることは、次の行列乗算の一部としてバイアスを加えることを可能にする。いくつかの実施形態において、各ＰＥは、ＰＯＤの行列乗算ブロック６０２から出力Ｃ行列を受け入れ、処理し、ＯＣＭに書き込むように構成される。

一例によれば、それぞれのＯＣＭに格納される処理の結果は、格納のために伝送されて、メモリユニット１２０、例えば、ＤＤＲに戻されてよい。しかしながら、結果を格納する前に、結果の値がメモリユニット１２０内のデータのフォーマットタイプの上限、例えば、最大値を超える場合、当該値がデータに対する上限レンジに調整されてよく、結果の値がメモリユニット１２０の下限レンジより小さい場合、当該値がデータに対する下限レンジ、例えば、最小に調整されてよい。すなわち、データは、適正レンジ、例えば、ｉｎｔ８レンジ、ｕｉｎｔ８レンジ内などにするためにクランプされてよい。それぞれの処理タイルのＯＣＭからメモリユニット１２０に結果を格納する場合、ｉｎｔ９結果の最上位ビットがドロップされてよいことが理解される。さらに、推論エンジン、例えば、推論エンジン１６０のそれぞれのＯＣＭからメモリユニット１２０、例えば、ＤＤＲにデータを転送する場合、ｉｎｔ９データフォーマットタイプが、適切なフォーマットタイプ、例えば、メモリユニット１２０内のｉｎｔ８フォーマットであったデータに関してはｉｎｔ８、メモリユニット１２０内のｕｉｎｔ８フォーマットであったデータに関してはｕｉｎｔ８などと、正確に解釈されることができるように、ソフトウェアモジュールは、メモリユニット１２０に格納されるデータが、符号付きであったか、符号なしであったかを追跡してよいことが理解される。

いくつかの実施形態において、推論エンジン１６０は、各ＰＥによるこれら後の行列乗算演算を対応するＰＯＤによる行列乗算演算と融合／統合するように構成されることで、まずＯＣＭに出力を伝送及び保存して、これら後の行列乗算演算に対して再びＯＣＭからＣ行列を読み出すことなく、行列乗算ブロック６０２からの出力に対して即座にこれら後の行列乗算演算が実行される。ＯＣＭへのラウンドトリップをバイパスすることにより、後の行列乗算演算と行列乗算演算との融合は、時間を節約し、推論エンジン１６０の効率を向上させる。例えば、いくつかの実施形態において、追加の通常の演算、例えば、正規化線形ユニット（ＲｅＬＵ）、量子化などは、出力Ｃ行列に対して必要とされ得ることが理解される。したがって、スイッチングメカニズムは、追加の通常の演算が必要となるか否かを判定するために、ＰＯＤアーキテクチャ内に統合されてよく、もし必要な場合、出力Ｃ行列を別のメモリ位置に書き込む代わりに、当該出力が操作され得る。例えば、正規化線形演算が必要とされる場合、出力Ｃ行列は、Ｃ行列に対してＲｅＬＵ演算を実行するように構成されるＲｅＬＵユニット６０１にストリーミングされる。同様に、量子化が必要とされる場合、出力Ｃ行列又はＲｅＬＵユニット６０１の出力は、Ｃ行列又はＲｅＬＵ演算からの結果を量子化するように構成される量子化ユニット６１２にストリーミングされる。

いくつかの実施形態において、量子化／再量子化演算に必要とされるスケール値、シフト値及び／又はオフセット値は、コア１３０により静的に設定されてよく、異なるＭＬ演算とは異なっていてよい。いくつかの実施形態において、これらの値は、コアにダウンロードされるＭＬモデルの一部であってよく、ＭＬ演算に対応する値は、量子化演算が開始する前に、モデルから読み出され、適切なレジスタに書き込まれてよい。量子化６１２及び／又はｔａｎｈ／シグモイドユニット６１４への入力ために、及び、後に、そのそれぞれのＯＣＭブロックへのダイレクトストレージのために、再量子化は、Ｃレジスタ６０８に格納された出力値の再スケーリングを実行することが理解される。出力データ、例えば、この例ではＣレジスタ６０８に対して、再量子化が実行されてよいが、他の例では、他のレジスタからの他の出力に対して再量子化を実行できることが理解される。したがって、Ｃレジスタ６０８に格納されたデータに対して再量子化を実行することは、例示の目的であり、実施形態の範囲を限定するものと解釈されるべきではない。いくつかの実施形態において、出力のすべてのエレメントに対して、単一のスケーリング値が適用される。除算演算であるスケーリング演算は、整数乗算及びシフト演算と置き換えられてよいことが理解される。整数乗算の値（整数スケール値とも称される）と、シフト値との間の関係がシステム内の精度及びエラーを決定することがさらに理解される。いくつかの実施形態において、整数スケール値とシフト値との間の関係が取得され、整数スケール値及びその対応するスケール値に対して可能な限り最も大きい値が、乗算（Ｃレジスタ６０８からの出力と整数スケール値との乗算）の結果を格納するレジスタのサイズに基づいて選択される。いくつかの実施形態において、Ｃレジスタ６０８からの出力は、Ｖとして示されてよく、量子化乗数は、ｘとして示されてよく、ｘは１より大きい又は小さいとすることができる。整数スケール値とシフト値との間の関係が量子化乗数を決定することが理解される。整数スケール値とシフト値との間の関係は、以下の数式（１）により近似的に与えられる。
ｘ〜整数スケール値／（２^シフト値）（１）である。したがって、
整数スケール値＝ｉｎｔ（ｘ＊２^シフト値）（２）である。最も大きい整数スケール値が、整数乗算の結果を保持するレジスタのサイズにより制限され、したがって、整数スケール値により、Ｃレジスタ６０８の出力、例えば、Ｖ値が制限されることが理解される。例えば、Ｖが３２ビットであり、レジスタサイズが６４ビットである場合、整数スケール値は、最も大きい３２ビット整数より小さくなければならず、そうでなければ、オーバフローしてしまう。すなわち、最も大きい可能な値は、２１４７４８３６４７である。他のサイズに対して最も大きい可能な値は異なっていてよく、上記で提供された例は、例示の目的としたものに過ぎず、実施形態の範囲を限定することを目的としたものではないことが理解される。したがって、以下の数式（３）に示される条件が合致することになる。整数スケール値／最も大きい可能な値＜１（３）

いくつかの実施形態において、可能な限り最大の整数スケール値を取得するために、数式（２）及び（３）が全体的に繰り返される。最初に、シフト値は０であり、各反復に伴って、シフト値は、値、例えば、１、２、５、６、７、１１など分インクリメントされる。シフト値は、可能な整数スケール値を決定し、数式（３）により特定される条件が当てはまる限り、反復がもう一回実行される。数式（３）がもはや真ではなくなるまで、処理が繰り返され、その時点で、以前のシフト値及びその対応する整数スケール値が選択される。たとえ、最も大きい以前の整数スケール値及びその対応するスケール値がレジスタのサイズを与えられた最も高い精度を提供するとしても、以前のシフト値及びその対応する整数スケール値のいずれかが選択され得ることが理解される。可能な限り最大の整数スケール値及びその対応するスケール値を選択する上記の処理は、パイソンで示される。

整数スケール値及びその対応するスケール値が選択されると、量子化／再量子化演算が実行されてよいことが理解される。Ｃレジスタ６０８の出力は、整数スケール値で乗算される。乗算の結果は、スケーリングされた整数データを形成するために上記で選択されたように、シフト値によりシフトされる。データがスケーリングされると、追加の演算、例えば、ｔａｈｎ演算、シグモイド演算、丸め演算、クリッピング／クランピング演算などが実行されてよい。いくつかの実施形態において、シフト演算に起因して脱落する最上位ビットを考慮することにより、丸め演算が実行され、脱落した最上位ビットに基づいて残りの結果を丸める。スケーリングされた整数データは、整数データに対するレンジに基づいて、さらに調整されてよいことが理解される。例えば、メモリユニット１２０に格納される整数データがｉｎｔ８である場合、及び、スケーリングされた整数データがｉｎｔ８の上限を超える場合、スケーリングされた整数データは、ｉｎｔ８の最大又は上限に変更及び調整される。同様に、メモリユニット１２０に格納される整数データがｕｉｎｔ８である場合、及び、スケーリングされた整数データがｕｉｎｔ８の上限を超える場合、スケーリングされた整数データは、ｕｉｎｔ８の最大又は上限に変更及び調整される。一方、スケーリングされた整数データが、メモリユニット１２０、例えば、ｉｎｔ８又はｕｉｎｔ８に格納されるデータの最小又は下限レンジより低い値を有する場合、スケーリングされた整数データは、メモリユニット１２０内の整数データの最小又は下限レンジに調整及び変更される。

ここで、図５を参照すると、機械学習演算における整数データを再スケーリングするための方法が示される。図５に図示される方法は、図４において説明されたような演算に関する方法のフローであることが理解される。段階５１０において、数式（１）において説明したように、整数スケール値とシフト値との間の関係が決定される。段階５２０において、数式（３）に示される条件がもはや真ではなく、したがって、値が１より大きい又はそれに等しくなるまで、シフト値を反復的に増加させ、その対応する整数スケール値が数式（２）に関して取得される。段階５３０において、数式（３）がもはや真ではなくなる前に、シフト値及びその対応する整数スケール値が選択される。いくつかの非制限的な例において、コンパイル段階中及び推論エンジン１６０による任意の推論の前に、段階５１０〜段階５３０が実行されることが理解される。段階５４０において、整数値、例えば、ｉｎｔ３２フォーマットは、例えば、Ｃレジスタ６０８から受信される。段階５５０において、受信した整数値は、選択された整数スケール値で乗算される。段階５６０において、乗算の結果は、選択した整数スケール値に対応するシフト値分シフトされる。段階５７０において、さらなる演算、例えば、ｔａｎｈ、シグモイド、丸め、クリッピング、クランピングなどが実行されてよい。段階５８０において、スケーリングされた整数データの値は、メモリユニット１２０に格納される整数データのレンジに基づいて調整されてよい。例えば、ｉｎｔ８タイプデータがメモリユニット１２０、例えば、ＤＤＲに格納される場合、次に、スケーリングされた整数データがｉｎｔ８データタイプの上限を超える場合、スケーリングされた整数データは、ｉｎｔ８タイプデータの最大又は上限値に変更される。同様に、ｕｉｎｔ８タイプデータがメモリユニット１２０、例えば、ＤＤＲに格納される場合、次に、スケーリングされた整数データがｕｉｎｔ８データタイプの上限を超える場合、スケーリングされた整数データは、ｕｉｎｔ８タイプデータの最大又は上限値に変更される。一方、スケーリングされた整数データが、ｉｎｔ８データタイプの下限より小さい場合、スケーリングされた整数データは、メモリユニット１２０、例えば、ＤＤＲに格納されるｉｎｔ８データタイプの最小又は下限に変更される。同様に、スケーリングされた整数データが、ｕｉｎｔ８データタイプの下限より小さい場合、スケーリングされた整数データは、メモリユニット１２０、例えば、ＤＤＲに格納されるｕｉｎｔ８データタイプの最小又は下限に変更される。したがって、レジスタのサイズのサイズに基づいて、より高い精密性及び精度が実現される。

請求項に係る主題の様々な実施形態についての前述の説明は、図示及び説明の目的で提供されている。請求項に係る主題を、開示された正確な形に徹底すること、又は限定することを目的とするものではない。多くの修正及びバリエーションが当業者に対して明らかである。実施形態は、発明の原則及びその実際の用途を最適に説明すべく選ばれ、説明されたが、それにより、関連技術の他の当業者が、請求項に係る主題、様々な実施形態、及び、検討される特定の用途に適する様々な修正を理解することを可能にする。

Claims

機械学習（ＭＬ）演算のために、メモリに格納されるデータを第１のフォーマットから第２のフォーマットに変換する方法であって、
ダブルデータレート（ＤＤＲ）メモリに格納される前記データのビットの数を１ビット分拡張して、拡張されたデータを形成する段階と、
前記ＤＤＲメモリに格納される前記データが符号付きであるか、符号なしデータであるかを判定する段階と、
前記データが符号付きであると判定したことに応じて、符号値を前記拡張されたデータの最上位ビットに追加し、前記データを前記拡張されたデータの下位ビットにコピーする段階と、
前記データが符号なしであると判定したことに応じて、前記データを前記拡張されたデータの下位ビットにコピーし、前記最上位ビットを符号なしの値に設定する段階と、
機械学習コンピュータアレイの処理タイルのオンチップメモリ（ＯＣＭ）に、前記拡張されたデータを格納する段階と
を備える方法。
前記データは符号なし整数である、請求項１に記載の方法。
前記データは符号付き整数である、請求項１に記載の方法。
前記データは８ビットであり、前記拡張されたデータは９ビットである、請求項１から３のいずれか一項に記載の方法。
前記拡張されたデータはｉｎｔ９データである、請求項１から４のいずれか一項に記載の方法。
前記ＤＤＲメモリに格納される前記データが符号付きであるか、符号なしであるかを追跡する段階と、
前記データが符号付きであるか、符号なしであるかに基づいて、前記拡張されたデータに対する適切な命令をスケジューリングする段階と
をさらに備える、請求項１から５のいずれか一項に記載の方法。
オペランドとして、前記拡張されたデータに対して算術論理演算ユニット（ＡＬＵ）演算を実行する段階をさらに備える、請求項６に記載の方法。
前記機械学習コンピュータアレイの前記処理タイルの前記ＯＣＭに前記演算の結果を格納する段階をさらに備える、請求項７に記載の方法。
前記ＯＣＭに格納された前記結果を前記ＤＤＲメモリに格納する段階をさらに備える、請求項８に記載の方法。
前記ＤＤＲメモリに前記結果を格納する段階の前に、前記結果の前記値が前記データに対するレンジの最大値を超える場合、前記結果の値を前記最大値に調整し、前記結果の前記値が前記データに対する前記レンジの最小値より低い場合、前記結果の前記値を前記データに対する前記レンジの最小値に調整する段階をさらに備える、請求項９に記載の方法。
前記ＯＣＭから前記ＤＤＲメモリに前記結果を格納する段階の前に、前記結果の前記最上位ビットをドロップする段階をさらに備える、請求項９又は１０に記載の方法。
前記ＤＤＲメモリに格納される前記データは、浮動小数点データに関する前記データの整数表現である、請求項１から１１のいずれか一項に記載の方法。
前記浮動小数点データは、前記第１のフォーマットで前記データを形成するために、スケーリング及び量子化される、請求項１２に記載の方法。
前記浮動小数点データをｉｎｔ８フォーマットに変換するために、第１のスケーリング値が用いられ、前記浮動小数点データをｕｉｎｔ８フォーマットに変換するために、第２のスケーリング値が用いられる、請求項１２又は１３に記載の方法。
第１のフォーマットで整数データを格納するように構成されるダブルデータレート（ＤＤＲ）メモリと、
複数の処理タイルを有する機械学習処理ユニットと
を備え、各処理タイルは、
様々なＭＬ演算のために、前記ＤＤＲメモリからの前記第１のフォーマットの前記整数データから変換される拡張されたデータを受け入れて維持するように構成されるオンチップメモリ（ＯＣＭ）を有し、前記拡張されたデータは、前記第１のフォーマットの前記整数データと比較して、１つの追加のビットを含み、前記第１のフォーマットの前記整数データが符号付きである場合、前記拡張されたデータの最上位ビットは符号付きであり、前記第１のフォーマットの前記整数データが符号なしである場合、前記拡張されたデータの前記最上位ビットは、符号なしの値に設定され、前記拡張されたデータの最下位ビットは、前記第１のフォーマットの前記整数データと同じである、システム。
前記第１のフォーマットの前記整数データは、ｉｎｔ８かｕｉｎｔ８のいずれかである、請求項１５に記載のシステム。
前記拡張されたデータはｉｎｔ９である、請求項１５又は１６に記載のシステム。
前記ＤＤＲメモリに格納される前記第１のフォーマットの前記整数データが符号付きであるか、符号なしであるかが追跡され、前記第１のフォーマットの前記整数データが符号付きであるか、符号なしであるかに応じて、適切な命令がスケジューリングされる、請求項１５から１７のいずれか一項に記載のシステム。
前記拡張されたデータは、演算のためのオペランドである、請求項１５から１８のいずれか一項に記載のシステム。
前記演算の結果は、前記ＯＣＭに格納される、請求項１９に記載のシステム。
前記ＯＣＭに格納される前記演算の前記結果は、さらに、前記ＤＤＲメモリに格納される、請求項２０に記載のシステム。
前記結果の値は、前記結果の前記値が最大値を超える場合、前記第１のフォーマットの前記整数データに対するレンジの前記最大値に調整され、前記結果の前記値が前記データに対する前記レンジの最小値より低い場合、前記ＤＤＲメモリに前記結果を格納する前に、前記結果の前記値を前記第１のフォーマットの前記整数データに対する前記レンジの最小値に調整する、請求項２１に記載のシステム。
前記ＤＤＲメモリに前記結果を格納する前に、前記結果の前記最上位ビットがドロップされる、請求項２１又は２２に記載のシステム。
前記第１のフォーマットの前記整数データは、浮動小数点データの整数表現であり、前記浮動小数点データは、前記第１のフォーマットの前記整数データを形成するために、スケーリング及び量子化される、請求項１５から２３のいずれか一項に記載のシステム。
前記浮動小数点データをｉｎｔ８フォーマットに変換するために、第１のスケーリング値が用いられ、前記浮動小数点データをｕｉｎｔ８フォーマットに変換するために、第２のスケーリング値が用いられる、請求項２４に記載のシステム。