JP2022519258A

JP2022519258A - アンカーデータ要素における特殊値の符号化

Info

Publication number: JP2022519258A
Application number: JP2021544755A
Authority: JP
Inventors: バーゲス、ネイル; ニールヒンズ、クリストファー; レイモンドルッツ、デビット
Original assignee: アーム・リミテッド
Priority date: 2019-02-06
Filing date: 2019-12-02
Publication date: 2022-03-22
Also published as: WO2020161458A1; EP3921942A1; KR20210122828A; US10459688B1; CN113454915A

Abstract

【解決手段】装置は、データ処理を実行するための処理回路と、アンカーデータ処理動作を実行してアンカーデータ要素を生成するように処理回路を制御する命令デコーダとを含む。アンカーデータ要素は、アンカーデータ要素が、アンカーデータ要素を使用して表現可能な所与の有意性の範囲に対応する２の補数のビットの一部分を表すか、又は２の補数のビットの当該一部分以外の特殊値を表すか、を示す型情報を含む符号化を有する。
【選択図】図９

Description

本技術は、データ処理分野に関するものである。

データ処理システムでは、浮動小数点（ＦＰ）表現を使用するのが一般的である。浮動小数点数は、仮数と、その仮数のビットの有意性を示す指数とを含む。これにより、有限数のビットを用いて広い範囲の数値を表現することができる。しかし、浮動小数点演算の問題点は、一般的に計算が非結合的であるため、和が問題となる点である。特にプログラマは、少数の値を加算するときでさえ、異なる結果を得ることを気にしなければならない。

この結合性の問題を解決するために、高精度アンカー（ＨＰＡ）数と呼ばれる新しいデータ型が提案されている。高精度アンカー（ＨＰＡ）数は、通常ｉの最小ビットの有意性を指定することにより、長い２の補数（例えば２００ビット）の整数ｉと、ｉのビットの重みを表す小さいアンカー整数ａと、を含むペア（ｉ，ａ）で構成され得る。浮動小数点値をＨＰＡ形式に変換し、その後、結合的に加算を実行することができる。

少なくともいくつかの例は、装置であって、データ処理を実行するための処理回路と、アンカーデータ処理動作を実行してアンカーデータ要素を生成するように処理回路を制御する命令デコーダと、を備え、アンカーデータ要素は、アンカーデータ要素が、アンカーデータ要素を使用して表現可能な所与の有意性の範囲に対応する２の補数のビットの一部分を表すか、又は２の補数のビットの当該一部分以外の特殊値を表すか、を示す型情報を含む符号化を有する、装置、を提供する。

少なくともいくつかの例は、命令を実行するための命令実行環境を提供するようにホストデータ処理装置を制御するためのコンピュータプログラムであって、コンピュータプログラムは、データ処理を実行するようにホストデータ処理装置を制御する、ターゲットコードのプログラム命令をデコードするための命令デコードプログラムロジックを含み、当該命令デコードプログラムロジックは、アンカーデータ要素を生成するためにアンカーデータ処理動作を実行するようにホストデータ処理装置を制御するアンカーデータ処理プログラムロジックを含み、アンカーデータ要素は、アンカーデータ要素が、アンカーデータ要素を使用して表現可能な所与の有意性の範囲に対応する２の補数のビットの一部分を表すか、又は２の補数のビットの当該一部分以外の特殊値を表すかを示す型情報を含む符号化を有する、コンピュータプログラムを提供する。

コンピュータプログラムは、記憶媒体に格納されてもよい。記憶媒体は、非一時的な記憶媒体であってもよい。

少なくともいくつかの例は、データ処理方法であって、１つ以上の命令をデコードすることと、デコードされた命令に応答して、アンカーデータ要素を生成するためのアンカーデータ処理動作を実行するように処理回路を制御することと、を含み、アンカーデータ要素は、アンカーデータ要素が、アンカーデータ要素を使用して表現可能な所与の有意性の範囲に対応する２の補数のビットの当該一部分を表すか、又は２の補数のビットの当該一部分以外の特殊値を表すか、を示す型情報を含む符号化を有する、データ処理方法を提供する。

本技術の更なる態様、特徴、及び利点は、添付の図面と併せて読まれるべき以下の実施例の説明から明らかとなるであろう。

図１は、データ処理装置を模式的に示す図である。図２は、数値の異なる表現を模式的に示す図である。図３は、倍精度浮動小数点値と高精度アンカー（ＨＰＡ）値との関係の一例を模式的に示す図である。図４は、有意性が重複する複数のＮビット部分を含む冗長な表現を用いて数値を表す冗長ＨＰＡ値の一例を示す図である。図５は、一例において、ＨＰＡ整数がどのように複数のベクトルレジスタをまたがる選択されたレーン内に格納され得るかを模式的に示す図である。図６は、１つの例示的な構成による、どのように浮動小数点数をＨＰＡ形式に変換して処理し得るかを模式的に示したブロック図である。図７は、一例において使用され得るメタデータの形態を模式的に示す図である。図８は、一例における、各レーンに関連して提供され得る変換及び処理回路をより詳細に示す図である。図９は、アンカーデータ要素が２の補数のビットの一部分を表すのか、又は、特殊値を表すのか、を示す型情報を含むアンカーデータ要素の符号化を示す図である。図１０は、型情報の符号化を示す図である。図１１は、第１オペランド及び第２オペランドの型情報に基づいて、結果アンカーデータ要素の型情報を設定する際の異なる結果を示す図である。図１２は、型情報を含む２つのアンカーデータ要素の加算を実装するための回路ロジックの一例を示す図である。図１３は、重複伝搬命令の一例を示す図である。図１４は、重複クリア命令の一例を示す図である。図１５は、使用され得るシミュレータの例を示す図である。

発明を実施するための実施例

前述したように、浮動小数点演算の問題点は、一般的に計算が結合的であることであり、これが和算の問題点となっている。例えば、複数の浮動小数点値を加算する場合、前の加算の結果に別の値を加算するたびに、結果は丸められ、正規化され、これは値を加算する順序によって全体の結果が異なることを意味する。このため、全く同じ順序で加算しないと和の再現性がないため、浮動小数点演算の並列化が困難である。再現性のある結果を得るためには、通常、一連の加算又は減算を連続して実行しなければならず、これにより浮動小数点演算は、相対的に遅くなる。

そのため、プログラマは、このような異なる結果を回避するために、必要以上に高い精度を使用する。そのため、同じ順序で計算しないと和は再現性がないため、プログラマは簡単にコードを並列化することができない。

この問題は、プログラムが数百万の値を加算する必要があり得るハイパフォーマンスコンピューティング（ＨＰＣ）では特に顕著である。プログラマはこれらの問題を並列化したいが、そうすると再現性がないためにデバッグが難しくなる。マシンの構成が違う場合ですら、たとえそのマシン用の再プログラミングが完璧に行われたとしても、異なる答えが出てしまう。

前述のとおり、結合性の問題を解決するために、ＨＰＡ（高精度アンカー）数と呼ばれる新しいデータ型が提案されている。ＨＰＡ数は、長い２の補数の整数ｉ（例えば、２００ビット）と、通常、ｉの最小ビットの有意性を指定することによってｉのビットの重みを表すより小さいアンカー整数ａとからなるペア（ｉ，ａ）を含むことができる。このペアは、ＦＰ数の仮数と指数の値に多少類似しているが、長い整数ｉが正規化されておらず、通常はＦＰ仮数よりもはるかに大きいという点と、アンカー値ａがＨＰＡ動作のすべてのオペランドに対して固定されているという点で異なる。ＦＰ数を追加すると指数が変化させることはあるが、ＨＰＡ数を追加してもアンカーは変化しない。

自明な例として、１０ビットのｉとアンカー値ａ＝－４で構成されるＨＰＡ表現を考えてみる。このフォーマットのいくつかの値を表１に示す。

０．５と１．５とのように２つの数を足しても、アンカー（－４）は変わらないので、ｉの値だけを足すことで簡便に和が得られる。ＨＰＡの和は、ちょうど２の補数の足し算なので、範囲が十分であれば、ＨＰＡの和は結合的、正確、及び、反復可能である。

ＦＰ数は範囲が広い。倍精度数（ＦＰ６４）は２^{－１０００}より小さく、２^１０００より大きくなり得るが、ほとんどの集積はこの全範囲には及ばない。実際のところ、この範囲のすべての値を有意性のある形で加算するような問題を想像するのは難しく、ＨＰＣでさえほとんどの集積は限られた範囲で行われる。倍精度演算よりも広い範囲の演算を必要とするほとんどのアプリケーションには、２００ビット程度で十分足りると考えられる。プログラマが、ある和のデータはすべて２^１００より小さい大きさであり、２^－５０以下の大きさのビットは、和に有意性のある影響を与えないと判断するとする。ＨＰＡフォーマット（ｉ，－５０）で２００ビットのｉを使ってデータを加算すると、集積は結合的に行われ、少なくとも２^４９個の数をどのような順序でもオーバーフローの心配なく加算することができる。

近年のほとんどのアーキテクチャにはＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎＭｕｌｔｉｐｌｅＤａｔａ：単一命令複数データ）ユニットが搭載されており、これを使って長整数を表すことができる。６４ビットレーン間のキャリーを容易にするためのロジックを少し追加すれば、２５６ビットＳＩＭＤユニットを使って２５６ビットの整数を加算することができる。あるいは、詳細は後述するが、冗長な表現を用いることで、ほとんどの加算においてレーン間のキャリーを回避することができる。ＳＩＭＤレジスタでＨＰＡ（アンカーデータ）値（又は長整数）を表すための１つのアプローチは、ＨＰＡ値のいくつかのＨＰＡ（アンカーデータ）要素を、単一のＳＩＭＤレジスタ内のそれぞれのベクトルレーンに割り当てることである。あるいは、後述するように、ＨＰＡ値のそれぞれのアンカーデータ要素は、複数の異なるＳＩＭＤレジスタ内の対応するベクトルレーンに割り当てられ、全アンカーデータ値のそれぞれの部分は、異なるベクトルレジスタの対応する位置にあり、単一のベクトルレジスタには、複数のアンカーデータ要素が含まれており、それぞれが異なるアンカーデータ値（ＨＰＡ値）の一部を構成することも可能である。

以下に説明する技術において、装置は、データ処理を実行するための処理回路と、アンカーデータ処理動作を実行してアンカーデータ要素を生成するように処理回路を制御する命令デコーダとを有してもよく、アンカーデータ要素は、型情報を含む符号化を有する。型情報は、アンカーデータ要素が２の補数のビットの一部分（ビットのその一部分がアンカーデータ要素を使用して表現可能な所与の有意性の範囲に対応する）を表すか、又は所与の有意性の範囲内の２の補数のビットの一部分以外の特殊値を表すかを示す。２の補数の一部分以外の特殊値を表すことができる符号化の提供は、アンカーデータフォーマットが非数（ＮａＮ）又は無限大などの浮動小数点数の特殊値を表すことを可能にするのに有用である。また、特殊値は、アンカーデータ要素に対して想定される所与の有意性の範囲が、処理回路によって実行される処理動作から生じる数を表すのに適切でない場合を表すのに有用であり得る。

特殊値を処理するための１つの代替的な手法は、アンカーデータ要素が、アンカーデータ要素自体とは別の特殊値を表すという事実を、別のレジスタ内で、又は、アンカーデータ要素又はアンカーデータ要素を符号化する方法に関する他の情報を使用して表現可能な、所与の有意性の範囲を識別するアンカー情報又はメタデータを定義するレジスタ内で符号化することである。しかしながら、この手法の問題は、アンカーデータ処理動作を実行するときに、処理回路が２つの別個のデスティネーションレジスタを更新する必要がある場合があることである。これは、処理回路用に２つの別個のレジスタ書き込みポートを提供する必要がある場合があるため、一部のマイクロアーキテクチャの実装には望ましくない可能性がある。命令設定アーキテクチャでは、２つ以上のデスティネーションレジスタを更新する必要のある命令は比較的少ないため、多くのマイクロアーキテクチャの実装形態では、１つのレジスタ書き込みポートしか提供されないことがある。したがって、特殊値の符号化をサポートするために第２のレジスタ書き込みポートを提供する必要を回避することは、回路面積及び電力消費を削減するのに役立つ。あるいは、装置が２つ以上のレジスタライトポートを有している場合でも、アンカーデータ処理動作を処理する際に、第２のライトポートは、第１のレジスタ書き込みポートと同じ命令に使用されるのではなく、異なる命令に応じて異なるレジスタライトを実行するために使用される可能性がある。したがって、アンカーデータ値の特殊値は、第２のレジスタ書き込みポートを使用せずに表すことができ、これにより、回路面積を節約することができ、及び／又は利用可能なレジスタ書き込みポートを追加の命令の処理に使用できるようにすることで、性能を向上させることができる。

処理回路は、アンカーデータ要素と同じレジスタに型情報を格納することができる。

一例では、アンカーデータ処理動作は、浮動小数点値をアンカーデータ要素に変換するための浮動小数点からアンカーデータへの変換動作を含むことができる。特殊値の符号化は、浮動小数点数の特殊値を収容するのに役立つ可能性があるため、浮動小数点からアンカーデータへの変換動作に特に有用であり得る。例えば、変換される浮動小数点値が正又は負の無限大、あるいはＮａＮなどの特殊数を表す場合、処理回路は、アンカーデータ要素が特殊値を表すことを示す型情報を有するアンカーデータ要素を生成することができる。型情報は、浮動小数点値によって表される特殊数が正の無限大であるか、負の無限大であるか、又はＮａＮであるかを区別することができる。したがって、型情報は、正の無限大、負の無限大、及びＮａＮの各ケースを表すために割り当てられた異なる符号化を有する場合がある。

浮動小数点からアンカーデータへの変換動作において、処理回路は、アンカーデータ要素の所与の有意性の範囲を示すアンカーメタデータに基づいて、アンカーデータ要素を生成することができる。例えば、アンカーデータ要素は、アンカーデータ要素の最下位ビットの有意性を指定することができ（有意性は、その最下位ビットによって表される２の累乗を示す）、また、アンカーデータ要素によって表される２の補数の一部分の幅（ビット数）を示すパラメータを提供することができる。浮動小数点からアンカーデータへの変換動作では、このメタデータを使用して、提供された浮動小数点数に基づいてアンカーデータ要素内のビットの値をどのように設定するかを判断することができる。アンカーメタデータはまた、以下で説明する重複ビットの数、及び／又は、１つ以上のアンカーデータ要素で構成されるアンカー値について、他の要素に対するアンカーデータ要素の相対位置を示すレーン情報、例えば、アンカーデータ要素がアンカーデータ値の最上位要素、最下位要素、又は中間要素のいずれかを表すかなどの他の特性を示すことができる。これにより、アンカーデータ値は、多数のベクトル要素を使用して長い２の補数を表すことができる。

上記の例は、個々のデータ要素の生成について論じているが、アンカーデータ要素に対する動作は、１つの命令に応答して処理の多数のレーンを実行し、処理の各レーンによって、入力として提供された対応するオペランドに基づいてそれぞれのアンカーデータ要素を生成する、ベクトル命令で実装できることが理解されるであろう。浮動小数点からアンカーデータへの変換動作では、それぞれの浮動小数点値を各レーンに提供し、アンカーメタデータのベクトルに基づいてそれぞれのアンカーデータ要素に変換することができる。以下で説明する加算動作の場合、アンカーデータ要素の多数の独立したそれぞれのペアをベクトル動作で加算することができる。以下に説明するように、多数の異なるベクトルレジスタ内の対応する位置にある対応するデータ要素にわたって、所与のアンカーデータ値のそれぞれのアンカーデータ要素をストライプすることは有用であり得る。しかし、単一のベクトルレジスタのそれぞれのベクトルレーンで単一のアンカーデータ値のそれぞれの要素を表すことも可能である。

いくつかの例では、型情報は、アンカーデータ要素が飽和型のアンカーデータ要素であるかどうかを指定することができる。飽和型のアンカーデータ要素は、対応するアンカーデータ要素をオーバーフローさせた以前のアンカーデータ処理動作、又は変換される浮動小数点値が１つ以上のアンカーデータ要素を含むアンカーデータ値の許容される数値範囲外である以前の浮動小数点からアンカーデータへの変換動作に依存するものであってもよい。上記の正の無限大、負の無限大又はＮａＮを表す特殊値に加えて、飽和型をサポートできるが、これらとは異なり、飽和型は浮動小数点表現において類似した特殊値を有しない。飽和型は、アンカーデータ値に対して定義された有意性の範囲がアンカーデータ処理動作に必要な入力を収容するのに不適切な場合を示すために使用できる。例えば、アンカーデータ値に関連付けられたメタデータが特定の数値範囲を定義しているが、その範囲外の入力として浮動小数点値が提供される場合、その浮動小数点値を処理した場合の正しい数値結果は、アンカーメタデータによって定義された有意性の範囲を使用して適切に表すことができず、飽和型のアンカーデータ要素を使用してこれを示すことができる。

したがって、一例では、浮動小数点値をアンカーデータ要素に変換するために浮動小数点からアンカーデータへの変換動作が実行される場合、処理回路は、当該アンカーデータ要素が１つ以上のアンカーデータ値を含むアンカーデータ値の最上位要素を表し、浮動小数点値を２の補数として表すには、当該アンカーデータ要素を使用して表現可能な所与の有意性の範囲よりも高い有意性の少なくとも１ビットが必要である場合、又は、当該アンカーデータ要素が１つ以上のアンカーデータ値を含むアンカーデータ値の最下位要素を表し、浮動小数点値を２の補数として表すには、当該アンカーデータ要素を使用して表現可能な所与の有意性の範囲よりも低い有意性の少なくとも１ビットが必要である場合のいずれかの場合、アンカーデータ要素の型情報を飽和型を示すように設定することができる。

したがって、変換される浮動小数点値が特殊数を表す場合、アンカーデータ値は、上述したように、正の無限大、負の無限大、又はＮａＮのいずれかを表す特殊値として符号化することができるのに対して、浮動小数点値がアンカーデータ要素を使用して表現可能な範囲内の２の補数にマップされないという事実が、そのアンカーデータ要素の範囲定義情報の不適切な設定によるものである場合、代わりに飽和型を使用することができる。飽和型を他の型の特殊値と区別することは、ソフトウェアコードが、アンカーデータ値の処理を含む動作のシーケンスの失敗の原因を特定できるようにするために使用することができる。

型情報の符号化は、飽和型として指定されたアンカーデータ要素について、アンカーデータ要素が正の値を表すか負の値を表すかを区別できない場合がある。対照的に、無限大の場合、正の無限大と負の無限大にそれぞれ異なる型の符号化を提供することができる。これは、アンカーデータ値の許容範囲を定義するアンカーメタデータが不適切に設定されて飽和が発生した場合、値が正であるか負であるかを知ることは重要ではないことを認識し、なぜなら、これらの場合、コードが異なるメタデータを使用して遅れて再実行される可能性が高いためである。飽和型としてマークされた正の値と負の値を区別できない符号化を提供することにより、符号化空間を節約することができ、アンカーデータ要素のより効率的な符号化を可能にし、表される２の補数のビットを表すためにより多くのビットを保持することができる。

処理回路は、２つのアンカーデータ要素の加算を実行して結果アンカーデータ要素を生成するための加算回路を有し得る。上述したように、場合によっては、これはベクトル動作として実装されてもよく、その結果、第１のアンカーデータ要素のベクトル及び第２のアンカーデータ要素のベクトルを加算することができ、ベクトル命令に応答してそれぞれのベクトル内の対応する位置における要素の多数の独立した加算を実行して、多数の結果アンカーデータ要素を含む結果ベクトルを生成する。しかし、２つのアンカーデータ要素の単一の加算を実行して結果アンカーデータ要素を生成するスカラ加算命令を実装することも可能である。

このような２つのアンカーデータ要素の加算を実行すると、オーバーフローが発生する場合がある。例えば、アンカーデータ値の最上位要素を表す結果アンカーデータ要素を生成する加算において、加算される２つのアンカーデータ要素の合計が、アンカーメタデータによって定義された許容有意性の範囲内のアンカーデータ値によって表現可能な最上位ビットよりも有意性の高い少なくとも１つのビットを必要とする場合、オーバーフローが発生する可能性がある。結果アンカーデータ要素がアンカーデータ値の最上位要素である加算において結果アンカーデータ要素を生成するときにオーバーフローが発生した場合、加算回路は、結果アンカーデータ要素が飽和型であることを指定する型情報を有する結果アンカーデータ要素を生成することができる。

アンカーデータ要素の型情報は、多数の方法で符号化することができる。しかしながら、一例では、アンカーデータ要素は、アンカーデータ要素の所定のビットが第１の値を有する場合、アンカーデータ要素は２の補数のビットの一部分を表し、アンカーデータ要素の所定のビットが第２の値を有する場合、アンカービット要素は特殊値を表す、符号化を有してもよい。例えば、所定のビットは、アンカーデータ要素の最上位ビットであってよい。したがって、デコーダは、表される特殊値の特定の形式を識別するためにアンカーデータ要素の更なるビットを検査する必要があるかどうか、又は要素が単に特殊値ではない２の補数の一部分を表すかどうかを単一のビットからチェックすることができるため、これは、デコードするのに効率的であり得る。例えば、所定のビットが第２の値を有する場合、少なくとも１つの更なるビットは、表される特定の型の特殊値を表すことができる。一方、所定のビットが第１の値を有する場合、少なくとも１つの更なるビットは、２の補数自体の一部分の一部を表すか、又は２の補数の一部分を表すアンカーデータ要素の一部からのキャリーを収容するための少なくとも１つの重複ビットを表すために再利用できる。要素が特殊値を表さないより一般的な場合では、特定の型の特殊値を符号化するために使用されるビットは他の目的に再利用できるため、これは特に効率的な符号化を提供する。

一般に、所与のアンカーデータ処理動作において、入力アンカーデータ要素が第２の値に等しい所定のビットを有する場合、処理回路は、第２の値に等しい所定のビットを有する対応する結果アンカーデータ要素を生成することができる。したがって、所定の処理動作のシーケンスにおいて所与のビットが設定されると、後続の動作において生成される対応するアンカーデータ要素が、第２の値に等しい所定のビットを保持し続けて、その動作のシーケンスのどこかで特殊数である浮動小数点値が検出されたか、又はアンカーデータ処理動作の結果が、所与のアンカーデータ要素に対してアンカーメタデータによって定義された所与の有意性の範囲内で正確に表現できないことを示すフラグを立てるという意味で、スティッキーであり得る。

より一般的には、入力アンカーデータ要素が型情報によって特殊数であると示されている所与のアンカーデータ処理動作において、対応する結果アンカーデータ要素も、結果アンカーデータ要素が特殊値を表すことを指定する型情報で示すことができる。結果に対して示される特殊値の特定の形式は、入力アンカーデータ要素に対して示される特殊値の形式と常に同じであるとは限らないことに注意されたい。例えば、２つのアンカーデータ要素の加算において、２つのアンカーデータ要素の型情報が、一方が正の無限大を表し、もう一方が負の無限大を表すことを示す場合、結果がＮａＮを表すことを指定する型情報を有する結果アンカーデータ要素を生成することができる。

いくつかの例では、アンカーデータ要素は、データ要素の有意性の低い部分で実行された追加によって生じるキャリーに対応するために、要素内にいくつかの重複ビットが割り当てられる冗長な表現を使用して表されてもよい。これにより、一連のアンカーデータ処理動作によってアンカーデータ要素からオーバーフローが発生する可能性を減らすことができる。当該表現は、重複ビットと非重複ビットの異なる組み合わせであるすべてが２の補数の同じ数値を表すことができる複数のアンカーデータ要素で形成されたアンカーデータ値のビットの異なるパターンが多数存在する可能性があるという意味で、冗長であってもよい。詳細を以下に提供する。

したがって、一般に、アンカーデータ要素は、Ｖ個の重複ビット及びＷ個の非重複ビットを含むＮビット値を含み得る。特定の数の重複ビットと非重複ビットは、固定されていてもよく、あるいは、例えば上述のアンカーメタデータ内の情報を指定するなどして可変であることもある。

浮動小数点値をアンカーデータ要素に変換するための浮動小数点からアンカーデータへの変換動作において、浮動小数点値が特殊数以外の数を表し、その数が、アンカーデータ要素が一部分を構成するアンカーデータ値の許容される数値範囲内にある場合、処理回路は、浮動小数点値に対応する２の補数のビットの一部分を表すように、アンカーデータ要素のＷ個の非重複ビットを設定することができる。一方、アンカーデータ要素のＶ個の重複ビットには、Ｗ個の非重複ビットの符号拡張に設定されてもよい。したがって、最初は、重複ビットは、符号拡張に、例えば、すべてゼロ又はすべて１に設定されていてもよい。しかし、浮動小数点からアンカーデータへの変換動作によって生成されたアンカーデータ要素が一連の加算処理をされると、重複ビットにいくつかのキャリーが発生する可能性がある。アンカーデータ値全体で表される２の補数を非冗長表現で計算するために、１つのアンカーデータ要素の重複ビットで表されるキャリーを、アンカーデータ値の次に高いアンカーデータ要素の非重複ビットに伝搬する重複伝搬動作を行うことができる。

一部の例では、Ｎ－Ｖ－Ｗは、０より大きくてもよい。つまり、重複ビットと非重複ビットはともに、アンカーデータ要素のＮ個のビットのすべてを占めるわけではない。これは、要素が特殊値を表すかどうかを示す型情報を表すために、少なくとも１つの他のビットが使用される可能性があるためである。

上記のように、重複ビットによって表されるキャリーを次に最上位のデータ要素に伝搬するために、重複伝搬動作を定期的に実行することができる。重複伝搬命令は、重複伝搬動作を実行するように処理回路を制御するために提供され得る。重複伝搬命令に応答して、処理回路は、第１のアンカーデータ要素のＶ個の重複ビットを第２のアンカーデータ要素のＷ個の非重複ビットと整列させ、整列された重複ビットと非重複ビットを加算して第２のアンカーデータ要素の更新値を生成し得る。この場合も、これはベクトル動作として実行されてもよく、単一の命令に応答して、第１及び第２のアンカーデータ要素のそれぞれのペアに対して多数のレーンの重複伝搬が実行される。

重複伝搬動作では、第１及び第２のアンカーデータ要素で指定された型情報を考慮して、第２のアンカーデータ要素の更新値をどのように生成するかを判断することができる。第１のアンカーデータ要素及び第２のアンカーデータ要素の１つが、それが上記の特殊値の型の１つを表すことを指定する型情報を有する場合、処理回路は、第２のアンカーデータ要素の以前の値を保持することができる。例えば、第２のアンカーデータ要素の更新は、第１のアンカーデータ要素からの整列された重複ビットを追加することなく抑制されてもよい。これにより、以前に実行されたアンカーデータ処理動作のシーケンスによって特殊値が生成された場合、重複伝搬動作の実行によってその型情報が上書きされることがなく、重複伝播操作を実行しているにもかかわらず、特殊値が検出されたという事実を最終結果から識別できることが保証される。これにより、特殊値であるかどうかを頻繁にチェックする必要がないことを意味するため、アンカーデータ処理動作を実行するためのコードの作成又はコンパイルが簡単になる。あるいは、第１のアンカーデータ要素が特殊値である場合、第２のアンカーデータ要素の型情報を、第１のアンカーデータ要素の型情報と一致するように更新することができる。これにより、型情報がＨＰＡ値の上位要素に向けて伝搬され、一連のアンカーデータ処理動作を実行した後の型情報のチェックが簡素化され得る。

一方、整列された重複ビット及び非重複ビットの加算が、第２のアンカーデータ要素のオーバーフローを引き起こした場合、処理回路は、飽和型値を示すように第２のアンカーデータ要素の型情報を設定することができる。ここで、非重複ビットから重複ビットへのオーバーフローが発生した場合ではなく、最上位重複ビットからオーバーフローが発生した場合に、オーバーフローが発生するとみなされる。重複伝搬動作の加算により最上位重複ビットからオーバーフローが発生した場合、これは、正しい結果がもはや第２のアンカーデータ要素において正しく表現できなくなることを意味し、したがって、後続の命令が何か問題が発生したことを検出できるようにするために、飽和型を指定してもよい。例えば、これは、ソフトウェアコードが重複伝搬動作をより頻繁にトリガする必要がある符号を示す可能性がある。

プログラムコード内で使用する場合、重複伝搬命令の１つの使用例は、同じアンカーデータ値の隣接するアンカーデータ要素のペアをそれぞれ第１及び第２のアンカーデータ要素として指定することであり得る（第２のアンカーデータ要素は、第１のアンカーデータ要素よりもアンカーデータ値のよりも油井精が高い部分を表す要素である）。ここで、命令を使用して、下位要素から同じアンカーデータ値の次に最上位の要素にキャリーを伝搬することができる。

ただし、別の使用例では、第１のアンカーデータ要素は、所与のアンカーデータ値の最上位アンカーデータ要素を含み、第２のアンカーデータ要素は、第１のアンカーデータ要素と同じアンカーデータ値の一部ではない「空」のアンカーデータ要素を含む場合がある。これは、アンカーデータ値の範囲を効果的に拡張して、追加要素を含めて、以前に表されたアンカーデータ要素の最上位要素からのキャリービットを収容するのに有用である可能性があり、これは、第１のアンカーデータ要素を含むアンカーデータ値が、後で第１のアンカーデータ要素のビットよりも有意性の高いビットを含む別のアンカーデータ値に加算される場合に有用である可能性がある。

これらは、重複伝搬命令がどのように使用され得るかの２つの例に過ぎず、プログラマ又はコンパイラは、他の用途も見出すことができることが理解されるであろう。

処理回路はまた、重複クリア命令に応答して、ターゲットアンカーデータ要素の重複ビットをゼロにクリアすることができる。この命令は、重複伝搬命令が重複ビットを次に最上位のアンカーデータ要素の非重複ビットにすでに加算した後、重複ビットをクリアするために使用することができる。重複伝搬及びクリア動作を２つの別々の命令に分離することで、１つの命令が２つのデスティネーションレジスタを更新する必要がなくなり、上記の利点が得られる。他の代替アーキテクチャでは、これらの命令を単一の命令に結合して、重複伝搬命令自体に応答して第１のアンカーデータ要素の重複ビットをクリアすることを選択することができる。第１のアンカーデータ要素の重複ビットもクリアするこのような結合された重複伝搬命令はまた、重複クリア命令の一例とみなすこともできる。

重複クリア命令に応答して、ターゲットアンカーデータ要素がそれが特殊値を表すことを指定する型情報を有する場合、処理回路は、ターゲットアンカーデータ要素の以前の値を保持することができる、即ち、重複ビットはクリアされない。また、これにより、型情報を保持することができる。

重複クリア命令の一部の例において、ターゲットアンカーデータ要素（プログラムにおいて、重複伝搬命令によって作用される第１及び第２の要素のペアの最下位要素に対応すると予想される場合がある）と同様に、重複クリア命令もまた、第２のアンカーデータ要素（ペアの上位要素に対応すると予想される）を指定することができ、処理回路は、第２アンカーデータ要素の型情報がそれが特殊値であることを示す場合、ターゲットアンカーデータ要素の以前の値を保持することもできる。したがって、重複ビットのクリア自体は第２のアンカーデータ要素に依存しないとしても、第２のアンカーデータ要素の型情報を考慮すると、重複クリア命令は、重複伝搬命令と類似の方法で進むことが可能であり、それにより、これらの要素のいずれかが、要素が特殊値を表すことを指定する場合、同じアンカーデータ値の下位及び上位アンカーデータ要素の所与のペアに変更がない。

上記のように、所与のアンカーデータ要素は、特殊値を表さない場合、アンカーデータ要素を使用して表現可能な所与の有意性の範囲に対応するビットの一部分を表す。ここで、有意性という用語は、所与のビット位置で２によって表される２の特定の累乗を指す。例えば、２^４を表す２の補数のビットは、２^３を表す２の補数のビットよりも高い有意性を有するとみなされる。つまり、２の補数の最上位ビットが最も高い有意性を有し、最下位ビットが最も低い有意性を有する。

ここで、特定の例を、図面を参照して説明する。

以下では、ＨＰＡ（高精度アンカー）フォーマットについて説明する。ＨＰＡフォーマットに関する詳細は、米国特許出願６２／０７４，１４９号、同第１４／５８２，９７４号、同第１４／５８２，８７５号、同第１４／５８２，８１２号、同第１４／５８２，８３６号、同第１４／５８２，９７８号、同第１４／６０６，５１０号、及び同第１４／５８２，９６８号で見つけることができ、これらの内容は参照により完全に本明細書に組み込まれている。

浮動小数点数
浮動小数点（ＦＰ）は、少数のビットを使って実数を近似する有用な方法である。ＩＥＥＥ７５４－２００８ＦＰ規格では、ＦＰ数の複数の異なるフォーマットが提案されており、そのうちのいくつかは、２進数６４（倍精度（ＤＰ）とも呼ばれる）、２進数３２（単精度（ＳＰ）とも呼ばれる）、及び２進数１６（半精度（ＨＰ）とも呼ばれる）である。６４、３２、１６という数は、それぞれのフォーマットに必要なビット数を表している。

表現
ＦＰ数は、科学の授業で習う「指数表記」とよく似ている。マイナス２００万の代わりに、－２．０×１０^６と書く。この数を構成するパーツは、符号（この場合は負）、仮数（２．０）、指数の底（１０）、指数（６）である。これらの部分はすべて、構成要素が２進数で格納されていること、及び、指数の基数が常に２であること、という最も重大な違いはあるものの、ＦＰ数に似ている。

より正確には、ＦＰ数は、符号ビット、いくつかのバイアス指数ビット、及び、いくつかのフラクションビットを含む。具体的には、ＤＰフォーマット、ＳＰフォーマット、ＨＰフォーマットは、以下のビットを含む。

符号は、負の数について１、正の数について０である。ゼロを含むすべての数には符号がある。

指数にはバイアスがかかっている。つまり、真の指数は、数に格納されているものとは異なる。例えば、バイアスのかかったＳＰ指数は８ビット長で、０から２５５までの範囲になる。指数０と２５５は特別なケースであるが、その他の指数はすべてバイアス１２７を有し、真の指数はバイアス指数よりも１２７小さいことを意味する。最小バイアス指数は１で、これは真の指数－１２６に相当する。バイアスのかかった指数の最大値は２５４で、これは真の指数１２７に相当する。ＨＰ指数とＤＰ指数も同じように動作し、上の表に示されたバイアスがかかる。

ＳＰ指数２５５（又はＤＰ指数２０４７、ＨＰ指数３１）は、無限大とＮａＮ（ｎｏｔａｎｕｍｂｅｒ：数ではない）と呼ばれる特殊記号のために予約されている。無限大（正の場合も負の場合もある）は、ゼロのフラクションを持つ。指数２５５の数で、フラクションが０でないものはＮａＮである。無限大は飽和値を提供しているので、実際には「この計算の結果、このフォーマットで表現できる数よりも大きい数が得られた」というような意味になる。ＮａＮは、例えばゼロによる除算また負の数の平方根を取るなど、実数に対して数学的に定義されていない動作に対して返される。

指数ゼロは、いずれのフォーマットにおいても、非正規数及びゼロのために予約されている。正規数は以下の値を表す。

－１^符号×１．フラクション×２^ｅ
ここでｅは、バイアス指数から計算された真の指数である。１．フラクションという言葉は仮数と呼ばれ、１はＦＰ数の一部としては格納されず、代わりに指数から推測される。ゼロと最大指数を除くすべての指数は、１．フラクションの形の仮数を示す。指数ゼロは、０．フラクションの形の仮数と、所与のフォーマットの１バイアスに等しい真の指数と、を示す。このような数は非正規（subnormal）と呼ばれる（歴史的にはこのような数は非正規（denormal）と呼ばれていたが、現代では非正規（subnormal）という言葉が好まれる）。

指数とフラクションの両方が０に等しい数はゼロである。

次の表は、ＨＰフォーマットの数の例である。エントリは２進法で、読みやすくするために「＿」を加えてある。（表の４行目、指数が０の）非正規エントリは、その前の行の正規エントリとは異なる仮数を生成することに注意すること。

ＦＰ実装の複雑さの大部分は非正規に起因するため、多くの場合、マイクロコード又はソフトウェアで処理される。一部のプロセッサでは、非正規をハードウェアで処理することで、ソフトウェア又はマイクロコードの実装形態と比べて、これらの動作を１０倍から１００倍に高速化している。

整数、固定小数点、浮動小数点
ＦＰの符号の処理法は「符号絶対値」と呼ばれ、通常のコンピュータでの整数の格納方法（２の補数）とは異なる。符号絶対値表現では、同じ数の正と負のバージョンは、符号ビットだけが異なる。符号ビットと３つの仮数ビットとを含む４ビットの符号絶対値整数は、プラス１とマイナス１を次のように表す。
＋１＝０００１
－１＝１００１

２の補数表現では、（ｎ＋１）ビットの２進整数は、数値ｉ－Ｓ^＊２^ｎを表す。ここで、ｉはｎビットの整数で、ｎ＋１ビット値の下位ｎビットで表され、Ｓは（ｎ＋１）ビット値の最上位ビットのビット値（０又は１）である。したがって、符号ビットが値の他のすべてのビットの符号を修正する符号絶対値数の場合とは異なり、２の補数値の場合、最上位ビットはマイナスに、他のすべてのビットはプラスに加重される。したがって、４ビットの２の補数の整数は、プラス１とマイナス１を次のように表す。
＋１＝０００１
－１＝１１１１

２の補数フォーマットは、コンピュータ演算を簡単にするため、符号付き整数では実質的に普遍的なフォーマットである。

一方、固定小数点は、見た目は整数と同じだが、実際には特定のビット数を持つ値を表す。センサデータは固定小数点フォーマットであることが多く、ＦＰが普及する前に書かれた固定小数点ソフトウェアも数多く存在する。プログラマは、「２進法」、つまり数の整数部と小数部の区切りを常に把握しておく必要があり、また、ビットを正しい位置に保つために常に数をシフトさせる必要があるため、固定小数点は、作業が非常に面倒である。ＦＰ数にはこのような困難はないので、固定小数点数とＦＰ数の変換ができることが望ましい。変換ができるということは、固定小数点のソフトウェアやデータを使い続けることができるということでもあり、新しいソフトウェアを書くときに固定小数点に縛られないということでもある。

ＦＰ数を丸める
ＩＥＥＥ－７５４規格では、ほとんどのＦＰ動作は、動作が範囲と精度が制限されていないかのように計算され、ＦＰ数に収まるように丸められることが要求されている。計算結果がＦＰ数と完全に一致する場合は、常にその値が返されるが、通常、計算結果は連続する２つの浮動小数点数の間の値になる。丸めるとは、連続する２つの連続する数のうち、どちらを返すべきかを選択する処理のことである。

複数の丸めの方法があり、丸めモードと呼ばれている。そのうちの６つは以下のとおりである。

この定義では、実際にどのように丸めるのかは不明である。一般的な１つの実装形態は、動作を行い、残りのすべてのビットと同様に切り捨てられた値（つまり、ＦＰフォーマットに収まる値）を見て、特定の条件が成立すれば切り捨てられた値を調整するというものである。これらの計算はすべて以下に基づく。
Ｌ－（最小）切り捨てられた値の最下位ビット
Ｇ－（ガード）次の最上位ビット（つまり、切り捨てに含まれない最初のビット）
Ｓ－（スティッキー）切り捨ての一部ではない残りのすべてのビットの論理和

これらの３つの値と切り捨てられた値が与えられると、次の表のように、常に正しく丸められた値を計算することができる。

例えば、２つの４ビットの仮数を乗算して、４ビットの仮数に丸めることを考える。
ｓｉｇ１＝１０１１（１０進数１１）
ｓｉｇ２＝０１１１（１０進数７）
乗算すると、
ｓｉｇ１×ｓｉｇ２＝１００１＿１０１（１０進数７７）
ＬＧｓｓ
となる。

切り捨てられた４ビットの結果の最下位ビットは、Ｌとラベルされ、次のビットはＧとラベルされ、Ｓはｓとラベルされた残りのビットの論理和（つまり、Ｓ＝０｜１＝１）となる。丸めるために、丸めモード及び上の表の計算に従って、４ビットの結果（１００１）を調整する。例えば、ＲＮＡ丸めでは、Ｇが設定されているので、１００１＋１＝１０１０を返すことになる。ＲＸ丸めではＧ｜Ｓが真なのでＬを１にセットして（既に１なのでこの場合は何も変わらない）１００１を返す。

整数及び固定小数点数の丸め
ＦＰ数を整数又は固定小数点に変換する場合も、丸めを行う。考え方は基本的にＦＰ丸めと同じである。ＦＰ数がたまたま整数であった場合、常にその整数に丸められる。それ以外のＦＰ数は、連続する２つの整数の間にあり、丸めによってどの整数を返されるかが決まる。残念なことに、整数の丸めロジックは、２の補数と符号絶対値形式の違いのために、やや難しくなっている。符号絶対値数が増分すると、常に絶対値が大きくなるので、増分された数はゼロから遠くなる。正の２の補数でも同じことが言えるが、負の２の補数は増分するとゼロに近づく。つまり、これは、整数が正か負かによって、丸めのロジックを変えなければならないことを意味する。また、基底値（増分するか否かの値）の選択にも注意が必要だということも意味する。正の整数の場合、その値はＦＰの仮数を切り捨てたものなので、１．３７は基本値が１で、結果は１又は２のどちらかになる。負の整数の場合、再び仮数を切り捨てて、その結果の１の補数を取る（１の補数とは、すべてのビットを反転させた元の数のことである）。－１．３７は１に切り捨てられた後に反転され、基本値－２になる。結果を－２又は（増分したときに）－１のいずれかにしたいのですべてがうまくいく。

更に複雑なことに、この変換方法では、負の整数に対するＬ、Ｇ及びＳを求めるためにいくつかの計算が必要になる。正しい丸めは、２の補数処理（反転して１を加える）を完了してからＬ、Ｇ、Ｓを計算することを必要とするが、１を加えるのは反転するだけの場合に比べて遅い。理想的には、シフトされた元の入力から（つまり、符号に手を加える前の入力から）実際のＬ、Ｇ、Ｓを計算することを望んでいる（浮動小数点の１．３７又は－１．３７は、どちらも右シフトされて整数の１になる）。

Ｌ０、Ｇ０及びＳ０を反転前の最下位ビット（ｌｓｂ）、ガード及びスティッキーとし、Ｌｉ、Ｇｉ及びＳｉを反転後のｌｓｂ、ガード及びスティッキーとし、最後にＬ、Ｇ及びＳを反転して１を加えた後のｌｓｂ、ガード及びスティッキーとする。

Ｓ０がゼロであれば、Ｓｉに寄与するビットはすべて１であり、したがって（それらのＳｉビットに１を加えて得られる）Ｓもゼロである。Ｓ０が０でない場合、Ｓｉはすべて１ではなく、したがってＳも０ではない。したがって、すべての場合においてＳ０＝Ｓとなる。

Ｇ０がゼロの場合、Ｇｉは１であり、Ｓ０がゼロである場合にのみ発生するＳビットからのキャリーインがある場合を除いて、Ｇも１である。Ｇ０が１の場合、Ｇｉはゼロであり、同じく、Ｓ０がゼロである場合にのみ発生するＳビットからのキャリーインがある場合を除いて、Ｇも１である。つまり、Ｇ＝Ｇ０＾Ｓ０である。

同様の論理で、Ｌ＝Ｌ０＾（Ｇ０｜Ｓ０）となる。

これで、負の整数と正の整数のＬ、Ｇ及びＳがわかったので、丸めのルールを考えることができる。

固定小数点数は、整数とまったく同じ方法で丸められる。符号なしの変換（整数又は固定小数点への変換）の規則は、正の変換の規則と同じである。

注入丸め
丸めをより速く行うには、ほとんどすべてのＦＰ動作の一部である仮数加算の一部に丸め定数を注入することである。これがどのように機能するかを見るために、ドルとセントで数を加算し、ドルに丸めることを考える。例えば、次のように加算する。
＄１．２７
＋＄２．３５
＄３．６２

合計の＄３．６２は、＄３よりも＄４に近いので、最近似丸めモードのいずれかが＄４を返すことがわかる。数を２進法で表現すれば、前節のＬ、Ｇ、Ｓ法でも同じ結果が得られる。しかし、５０セントを足して、その結果を切り捨てるとしたらどうだろうか。
１．２７
＋２．３５
＋０．５０（注入丸め）
４．１２

合計（＄４．１２）からドル金額（＄４）を返すだけの場合、ＲＮＡ丸めモードを使って正しく丸めることになる。＄０．５０ではなく＄０．９９を加える場合、ＲＰ丸めを使って正しく丸めることになる。ＲＮＥは少し複雑である。＄０．５０を加えて切り捨て、残りのセントを見る。残りのセントが０でない場合、切り捨てられた結果は正しい。残りのセントが０であれば、注入の前に２つのドルのちょうど中間にいたので、偶数のドルを選ぶ。２進法のＦＰでは、ドルの金額の最下位ビットをゼロにすることになる。

３つの数を足すのは、２つの数を足すよりもわずかに遅いだけなので、注入丸めを使えば、２つの仮数を足してＬ、Ｇ及びＳを調べ、丸めモードに応じて結果を増分するよりも、はるかに早く丸められた結果を得ることができる。

注入丸めの実装
ＦＰでは、注入丸めは３つの異なる値のうちの１つで、その値は丸めモードと（時には）結果の符号に依存する。

ＲＮＡとＲＮＥとの両方において、Ｇの位置に１を注入する必要がある（ドルとセントの例では０．５０ドルを加えるようなものである）。

ＲＰ及びＲＭ丸めは、モードだけでなく符号にも依存する。ＲＰは正の結果を切り上げる（正の無限大に向かって仮数の大きさを大きくする）が、負の結果は切り捨てる（正の無限大に近い仮数を選ぶ）。同様に、ＲＭは負の結果を切り上げる（負の無限大に向かって仮数の大きさを大きくする）が、正の結果は切り捨てる（負の無限大に近いほうの仮数を選ぶ）。そこで、ＲＭとＲＰを、符号が丸めの方向と一致する場合の丸め（ＲＵ）と、符号が注入丸めと異なる場合の切り捨て（ＲＺ）の２つの場合に分ける。ＲＵの場合は、Ｇビットの位置と、論理的にＳに寄与するすべての位置とに１を注入する（ドルとセントの例では０．９９ドルを加えるようなものである）。

ＲＺモード及びＲＸモード、そしてＲＺモードに還元されるＲＰモード及びＲＭモードには０を注入する。

ほとんどの丸めモードでは、注入丸めを加えてから切り捨てると、正しい丸め結果が得られる。２つの例外は、ＲＮＥ及びＲＸであり、加算後にＧとＳを調べる必要がある。ＲＮＥでは、Ｇ及びＳがともにゼロの場合、Ｌを０に設定する。ＲＸでは、Ｇ又はＳが０ない場合、Ｌを１に設定する。

ＦＰ数は実数ではない
ＦＰ数は、実数と同じように考えがちであるが、最も基本的な特性ですら、両者は根本的に異なる。

両者には関連しない。例えば、ＳＰでは３つの数を足して１００万又は０を返すことができるが、これはおそらく一般的に丸め誤差として考えるものではない。
（２^４５＋－２^４５）＋２^２０＝２^２０
２^４５＋（－２^４５＋２^２０）＝０

両者は、分配法則に従わない。再度ＳＰで：
３，０００，００１^＊（４．００００１＋５．００００１）＝０ｘ４ｂｃｄｆｅ８３
（３，０００，００１^＊４．００００１）＋（３，０００，００１^＊５．００００１）＝０ｘ４ｂｃｄｆｅ８２
となり、オーバーフローが発生すると更に状況が悪化する。
２^５０＊（２^７８－２^７７）＝２^１２７
（２^５０＊２^７８）－（２^５０＊２^７７）＝無限大

いくつかの実装形態の場合、一般的にｎａｎＡ＋ｎａｎＢ！＝ｎａｎＢ＋ｎａｎＡであるため、デフォルトのＮａＮモード（すべてのＮａＮを単一のＮａＮに変換するモード）でない限り、両者は可換ですらない。数値加算及び数値乗算は、可換である。

ＩＥＥＥのＮａＮルールのため、乗算又は加算の恒等式はない。１と０は、数値の恒等式として機能する。

ＦＰ数を考えるための１つの有用な方法は、ＦＰ数は、非常に長い固定小数点数で、多くても数ビット（ＤＰでは５３ビット）が連続して非ゼロになるだけだと考えることである。例えば、非無限ＤＰ数は、仮数の最初のビットが２０４６箇所のいずれかにあり、その最初のビットの後に他の５２個の仮数ビットが続き、更に符号ビットがあるので、任意の有限ＤＰ数は２０４６＋５２＋１＝２０９９ビットの固定小数点数として表すことができる。このように考えると、２つのＦＰ数を加算しても、一般的には別のＦＰ数にはならず、加算の結果は、ＦＰ数になるように丸める必要があることがよくわかる。

浮動小数点（ＦＰ）演算の問題点として知られているのが、和が問題になるという、非結合性であるということである。
・プログラマは、３つの数を加算するときですら、結果が大きく異なることを気にする必要がある。
・プログラマは、結果が大きく異なることを回避するために、必要以上に広いフォーマットを使用する。
・全く同じ順序で計算しないと和が再現できないため、プログラマはコードを簡単に並列化できない。

例えば、単精度の場合、
２^２０＋（－２^４４＋２^４４）＝２^２０
であるが、
（２^２０＋－２^４４）＋２^４４＝０

動作が実行される順序によって、結果が１００万又は０になる。これは指数が２４違うという極端な例であるが、指数が１違う場合、又は、指数がすべて同じで４つ以上のものを加えている場合でも、異なる答えを得る可能性がある。プログラミング言語Ｃでは、和を左から右へ順序に評価することで再現性の問題に対処しているが、これでは正しさの面では何の役にも立たないし、並列化も不可能である。

この問題は、何百万もの動作を実行するハイパフォーマンスコンピューティング（ＨＰＣ）では特に顕著である。プログラマは、これらの問題を並列化したいと考えるが、再現性がないためにデバッグが通常よりも困難になる。また、機械の構成が違えば、たとえその機械のための再プログラミングが完璧に行われたとしても、異なる答えが出てくる。

ＨＰＡ表現（アンカーデータ値）
プログラマが選択可能な範囲にある浮動小数点（ＦＰ）数を高速かつ正確に集積できる新しいデータ型が提案されている。ほとんどの問題に対応できる適度な範囲では、その集積はＦＰ加算よりも速く、また結合的である。結合的加算では、再現性のある正しい結果を得ながら問題を並列化することができ、既存のハードウェアと比較して、例えば１００倍以上のスピードアップが可能になる。このようなメリットは、ハイパフォーマンスコンピューティング（ＨＰＣ）の分野ではもちろんのこと、ハイパフォーマンスコンピューティング以外の多くのアプリケーションにとっても魅力的なものになると考えられる。

図１は、プログラム命令の制御下でデータ処理動作を実行するためのデータ処理装置２を模式的に示している。データ処理装置２は、プログラム命令６及び処理すべきデータ８を格納するメモリ４を含む。処理コア１０は、メモリ４に結合され、レジスタバンク１２、処理回路１４、命令フェッチユニット１６、命令パイプラインユニット１８、及び、命令デコーダ２０を含む。実際には、データ処理システム２は、多くの追加要素を含んでもよく、理解を助けるために図１の表現は簡略化されていることが理解されるであろう。動作において、プログラム命令６は、命令フェッチユニット１６によってメモリ４からフェッチされ、命令パイプライン１８に供給される。プログラム命令が命令パイプライン１８内の適切なステージに到達すると、命令デコーダ２０によってデコードされ、デコードされたプログラム命令によって指定された処理動作（単数又は複数）を実行するために、レジスタバンク１２及び処理回路１４の動作を制御するのに役立つ制御信号を生成する。複数の入力オペランドは、レジスタバンク１２から読み出され、処理回路１４に供給され、そこで操作され、その後、結果値がレジスタバンク１２に書き戻されてもよい。

レジスタバンク１２は、様々な異なる形態を有することができる。操作されるオペランドは、例えば、浮動小数点オペランド、固定小数点オペランド、整数オペランド、及びＨＰＡ又はＲＨＰＡ数オペランド（後述する）を含んでもよい。レジスタバンク１２は、レジスタバンク１２の構成に応じて、これらの型のオペランドの混合物を格納する役割を果たしてもよい。オペランドは、そのフォーマットによって事前に定義されるように、又は、ＨＰＡ数のオペランドに関連して後述するように、レジスタに関連付けられたメタデータを使用してプログラム可能に指定されるように、異なるレベルの精度を有することができる。

図１に示すように、レジスタバンク１２は、レジスタバンク１２の対応するデータレジスタに格納されたＨＰＡ値又はＲＨＰＡ値に関連するメタデータを指定するためのメタデータレジスタ２２を含んでもよい（メタデータの内容の例を以下に示す）。いくつかの場合においては、各データレジスタが対応するメタデータレジスタ２２を有していてもよく、他の場合には、２つ以上のデータレジスタが、単一のメタデータレジスタ２２によって指定されたメタデータを共有してもよい。

図２は、浮動小数点オペランドを模式的に示している。浮動小数点オペランドは、符号、指数、及び、仮数で形成される。浮動小数点オペランドは、指数値で示される様々な大きさの値を表すことができる。数を表現できる精度は、仮数の大きさによって制限される。浮動小数点動作は、一般的に整数演算よりも複雑で、遅い。

図２には、６４ビットの整数オペランドも示されている。このような整数オペランドは、符号なし整数の場合は０～（２^６４－１）、符号付き整数の場合は－２^６３～２^６３－１の範囲の数を表すことができる。整数演算は、処理速度が速く、（浮動小数点演算に比べて）実行するための消費エネルギーも比較的少ないのが特徴であるが、浮動小数点値で表現できる数の範囲に比べて、比較的限られた範囲の数を指定することになるというデメリットがある。

また、図２は、６４ビット整数をそれぞれが含む複数の成分（この例では３成分）のベクトルからなるＨＰＡ（高精度アンカー）数を示す。このＨＰＡ数には、関連付けられたメタデータを有する。このメタデータには、ＨＰＡ数の一部を構成する各成分のビットの有意性を示すアンカー値が含まれている。アンカー値（単数又は複数）は、ビット有意性の下限とビット有意性の上限とを、直接的又は間接的に指定するものである。以下、メタデータという用語は、ＨＰＡ数のビット有意性を指定するアンカー値（単数又は複数）を含むデータに対応するとみなすことができる。異なる成分を組み合わせることで、ビット有意性の範囲を連続してカバーするビット値が指定される。ビット有意性の下限とビット有意性の上限との位置に応じて、ビット有意性の範囲は、２進小数点の位置を含むことができる。また、２進小数点の位置が、特定のＨＰＡ値に対して指定されたビット有意性の範囲の外側にある可能性もある。

アンカー値（単数又は複数）は、浮動小数点値で表現可能な最小有意性（例えば、倍精度ＦＰ値）から、その浮動小数点値で表現可能な最大ビット有意性までのビット有意性の範囲を表現できるように提供されてもよい。

ＨＰＡ数を形成する成分の数は、異なる実装形態間で変わる可能性がある。成分のサイズは、一部の実装では固定されているが、他の実装では変化してもよい。いくつかの実施形態では、範囲のビット有意性の全体的な幅は、固定成分サイズの単位で変化するように制約されてもよい（例えば、６４ビット成分では、ビット有意性の範囲は、例えば、６４、１２８、１９２、２５６、．．．の幅を有してもよい）。また、ビット有意性の範囲の幅は、１ビット幅のステップで連続的に変化させることも可能である。

（メタデータ内の）アンカー値（単数又は複数）は、プログラマが対応するＨＰＡ値の有意性を設定できるように、プログラム可能であってもよい。アンカー値は、様々な異なる方法でビット有意性を指定することができる。一例は、各ベクトル成分の下限のビット有意性を指定することである。したがって、各ベクトルの成分は、ビット有意性の全体的な範囲内で値の有効ビットの部分を表す整数値と、その成分内の最下位ビット有意性を表す（アンカーする）メタデータを含んでもよい。また、アンカー値（単数又は複数）は、ＨＰＡ数全体のビット有意性の下限を、ビット有意性の範囲の全幅とともに指定するという方法もある。更に、アンカー値（単数又は複数）が、ビット有意性を表す範囲の下限と上限を指定するデータを含む場合もある。更に、固定幅の成分であることがわかっている場合には、アンカー値（単数又は複数）として、ビット有意性の範囲の下限と成分の数を含むなどのバリエーションも可能である。

図３は、倍精度浮動小数点で表すことができる値の範囲と、ＨＰＡ数の有意性の範囲との関係を模式的に示している。倍精度浮動小数点数の場合、指定可能なビット値の範囲は、約２^{－１０７４}～２^{＋１０２３}（非正規は数えない）までとなる。

図示されているように、ＨＰＡ数は、浮動小数点値を使用して表現可能なビット有意性の範囲内のビット有意性のウィンドウと考えられるプログラム可能なビット有意性の範囲を有している。このプログラム可能なビット有意性は、下限と上限との境界によって指定され、下限と上限との値に応じて、浮動小数点値によって提供されるビット有意性の範囲に沿ってスライドすると考えることができる。始点と終点と同様、ウィンドウの幅は、ビット有意性を指定するプログラム可能なメタデータ（アンカー値を含む）の適切な値によって指定することができる。このように、ＨＰＡ数は、実行する計算に合わせてプログラマが選択できる形式を有する。

ＨＰＡフォーマットでは、２つ以上の値の加算を、高速かつ正確に、そして結合的に実行することができるが、その一方で、幅広い有意性を持つ値を表現することができる。また、ＨＰＡ値は単なる２の補数であるため、整数加算器を使用して加算することができ、浮動小数点演算のような丸め又は正規化の必要がなく、これにより、値を加算する順序に関係なく結果が同じになるため、一連の加算を並列化することができる。しかし、ＨＰＡ値のプログラム可能な有意性を指定するメタデータを定義することで、同等の浮動小数点値の有意性の全範囲を表現することができるが、非常に広い加算器を用意する必要はなく（例えば、倍精度浮動小数点値で表現可能な全範囲にわたって２つの２の補数を加算するには、２０９８ビットの加算器が必要になる）、代わりに、プログラム可能な有意性により、より小さな加算器で、広い範囲の中のプログラム可能なビット有意性の特定のウィンドウに焦点を当てることができる。実際には、ほとんどの計算は、倍精度浮動小数点で利用可能な有意性の全範囲を必要としない。例えば、原子レベルの問題では非常に小さな値が、天文学的な問題では非常に大きな値が加算される可能性があるが、陽子の幅を加算して銀河間の距離にすることは一般的には有用ではない。ハイパフォーマンスコンピューティングの場合でも、ほとんどの集積は限られた範囲で起こる。

通常、プログラムを書いているプログラマは、有用な結果が落ちてくると予想される値の範囲を（アプリケーションに応じて）知っている。プログラマは、特定の和に対するすべてのデータが２^６０未満の大きさを有し、２^－５０未満の大きさを持つ値は合計に有意性のある影響を与えないと判断してもよく、この場合、データ幅１２８ビット、及び、最下位ビットの有意性を指定するアンカー値－５０のＨＰＡフォーマットを用いてデータを加算することで、このアプリケーションでは、任意の順序で結合的に数を加算することができる。

したがって、アンカー値を用いて結果を計算する際の有効範囲を制限することで、比較的小さなハードウェアを用いて、プログラム可能に定義されたウィンドウ内で結果を計算することができる。加算の結果、定義された範囲の有意性の上限を超えてオーバーフローした場合、又は有意性の下限を下回ってアンダーフローした場合は、例外が発生することがあり、これは、プログラマが誤った有意性の境界を定義したことを示しており、結果の有意性の異なるウィンドウを定義するために、異なるメタデータ（例えば、異なるアンカー値又はＨＰＡ値の全体サイズ）を使用して処理を繰り返す必要があることを示している。

２つのＨＰＡ値を加算又は減算する場合、アンカー値は両方のＨＰＡ値で同じであり、結果も同じアンカー値になる。これは、２つの値を加算又は減算すると、結果が正規化されるためにいずれかの入力と異なる指数を持つ結果になる浮動小数点演算とは異なる。入力が異なるアンカーメタデータで提供されている場合は、結果に必要なターゲット有意性範囲に合わせてシフトされる。入力がＨＰＡ以外の表現（例えば、整数又は浮動小数点）で提供されている場合は、同じアンカー値を持つＨＰＡ値に変換され、同じアンカー値を持つ結果となるように加算される。したがって、ＨＰＡレジスタ用のメタデータは、そのレジスタで生成される結果値の有意性のターゲット範囲を定義しているとみなすことができ、有意性ターゲット範囲外のビットは、入力値の実際の有意性にかかわらず、ハードウェアによって計算されない。

ＲＨＰＡ表現
ＨＰＡフォーマットでは、浮動小数点に比べてはるかに高速な加算が可能であるが、ＨＰＡ値のサイズが比較的大きくなると、２つのＨＰＡ値を整数演算で加算しても比較的遅い場合がある。例えば、ＨＰＡフォーマットでは、複数のレーンにまたがるオペランドの加算が必要になることがあるが、これは大規模なベクトル実装では望ましくない。例えば、２つの２５６ビット値又は５１２ビット値の加算では、１つのレーンから次のレーンに入力されるキャリーに対応するために６４ビットの各レーンの加算が順次実行されるので、時間がかかる場合がある。

そこで、図４に示す冗長高精度アンカー（ＲＨＰＡ）フォーマットを使うことで、より高速に加算を実行することができる。ＨＰＡフォーマットと同様に、ＲＨＰＡ数は、処理回路１４が各成分のビットの有意性を識別することを可能にするアンカー値を定義するメタデータを有する可変数の成分を含む。ここでも、アンカー値はプログラム可能であってもよい。ＲＨＰＡの場合、メタデータは、ＨＰＡについて上述した方法のいずれかで、各成分の有意性を識別してもよい。しかしながら、ＲＨＰＡフォーマットでは、ベクトルの隣り合うレーンが重複した有意性を有するビットが含む冗長な表現を用いて数値が表現されるため、計算されるレーンの数にかかわらず、一定時間の加算が可能となる。この冗長性により、加算器の長さを短くし、加算器間でキャリー情報を伝搬することなく、加算、集積、及び、乗算などの動作を行うことができる。これにより、データ値の処理が大幅に高速化される。

図４の（１）に示すように、ＲＨＰＡ表現を用いたＭビットのデータ値は、Ｎ＜ＭであるＮビットからなるそれぞれのベクトルレーン（成分、要素、又は、一部分ともいう）に分割される。この例ではＮは６４ビットであるが、これは一例であり、他のレーンサイズ（３２ビット又は１２８ビットなど）も可能である。各Ｎビット部分は、特定の数Ｖ個の重複ビットとＮ－Ｖ個の非重複ビットに分けられる。この例では、重複ビットの数Ｖは各Ｎビット部分で同じであるが、重複ビットの数が異なるＮビット部分を持つことも可能である。

整数又は浮動小数点数がＲＨＰＡフォーマットに変換されると、非重複ビットの一部には元の整数又は浮動小数点数からマッピングされた非符号情報が入り、重複ビットは符号ビットでポピュレートされる。レーンベースの加算及び減算では、各レーンは、Ｎビットの符号付き２の補数のように動作するが（必要に応じて、非重複部分から重複部分にキャリーが伝搬する）、マルチレーンの観点から見ると、レーンは、より大きなＰビット数の冗長な混合符号表現を形成する。図４の例では、４つのレーンがあるので、Ｍ＝２５６となるが、レーンの数は、ハードウェアの実装形態及び／又は所与のＲＨＰＡ数に定義されたメタデータに依存して変化する。

図４の（２）部は、（１）部で示したＲＨＰＡ数の各ビットの相対的な有意性を示している。最下位レーンの重複ビットＶ［０］は、次のレーンの非重複ビットＮＶ［１］のＶ個の最下位ビットと同じ有意性を有する。同様に、重複ビットＶ［１］とＶ［２］とは、非重複ビットＮＶ［２］とＮＶ［３］とのＶ個の最下位ビットと同じ有意性を有する。レーン間の有意性の重複は、ＲＨＰＡ数全体が、格納されている全ビット数Ｍよりも小さいＰビット値を表すことを意味する。Ｖが各Ｎビット部分（チップ部分を除く）で同じである場合、

となる。より一般的には、異なるレーンが異なる数の重複ビットを持つことができる場合、Ｐ＝Ｍ－ΣＶとなり、ここでΣＶはトップレーン以外の各レーンの重複ビット数の合計である。

Ｐビット値の各重複部分では、そのＰビット値の実際のビット値は、下位レーンの重複ビットＶと上位レーンの非重複ビットＮＶの合計で表される（非重複ビットＮＶと下位レーンの重複ビットを加算することで発生し得るキャリーを考慮している）。したがって、ＲＨＰＡ値を等価な整数値に変換する１つの方法として、図４の（３）部分に示すように、各レーンの重複ビットを符号拡張し、上位レーンの非重複ビットに加算する（下位から上位へ、各レーンの加算後に重複ビットを調整する）方法がある。

ＲＨＰＡ数は、ＭビットのＲＨＰＡ値を用いて、所与のＰビット数を表現する方法が２つ以上あるという意味で、冗長性がある。例えば、最下位２レーンの重複を考えると、重複ビット数Ｖ＝４の例では、Ｐビット値の対応するビットが１１１１であれば、下位レーンに重複ビットＶ［０］＝０ｂ００００、次の上位レーンに非重複ビットＮＶ［１］＝０ｂ１１１１を配置するのが一つの表現方法となる。しかしながら、同じ値を表現する別の方法として、Ｖ［０］＝０ｂ０１０１及びＮＶ［１］＝０ｂ１０１０、又は、Ｖ［０］＝０ｂ１１１１、ＮＶ［１］＝０ｂ００００などが考えられる。

なお、最上位レーンの重複ビットＶ［３］は、重複する上位レーンが存在しないため、実際には重複ビットではない。そのため、上位レーンは、すべて非重複ビットを有すると考えるのが有益である場合がある。したがって、いくつかのケースでは、トップレーンはすべて非重複ビットで形成されていると考えることができる（Ｐビット値の全体としての最上位ビットがトップレーンのＭビット値の最上位ビットに対応するように）。

しかし、他の実施形態では、トップレーンにも重複ビットがあるものとして扱い、ＲＨＰＡで表されるＰビット数値の最上位ビットが、トップレーンの非重複部分（重複部分を除く）の最上位ビットに対応するようにすることが好ましい場合がある。この方法により、各レーンをより対称的に処理することができれば（トップレーンの処理方法を他のレーンに比べて変更する回数を少なくすることができれば）、回路の実装が容易になる可能性がある。

図４のように、Ｐビット数値を冗長化して表現することで、所与のレーンにおいて非重複部分の加算によるキャリーを、キャリーを次のレーンに伝播させる必要がなく同じレーンの重複部分に格納できるため、レーン間でキャリーなく、複数のＲＨＰＡ数を加算することができる。各レーンで行われる加算は、単純に２つ以上のＮビット符号付き整数を見て、従来のＮビット２の補数加算を実行することで加算され、他のレーンの対応するＮビット加算とは全く独立している。これは、Ｎビット加算をそれぞれ並行して実行することができるため、レーンの数にかかわらず、Ｎビット加算を実行する時間でＭビット値全体を加算することができることを意味している。

実際には、少なくとも（２^Ｖ－１－１）個のこのようなＲＨＰＡ数は、レーン間のキャリーなしで加算することができ、非重複部分の加算によるキャリーは重複部分に集められる（異なる数の重複ビットを有するレーンがある場合、この表現におけるＶは、重複ビットを有する任意のレーンにおける重複ビットの最小数となる）。（２^Ｖ－１）番目の加算は、レーン間にキャリーを生成する可能性がある最初のものとなる（トップ重複ビットが符号ビットであるため、レーンのオーバーフローは、最上位から２番目の重複ビットから正又は負のオーバーフローがあったときに発生するが、これは、すべてのビットが０であるＲＨＰＡ数から開始した場合、最小で２^Ｖ－１個の更なる加算が実行された後に発生する可能性がある）。例えば、Ｖ＝１４の場合、単一のレーンからオーバーフローの危険性が生じる前に、少なくとも８１９１個のＲＨＰＡ数を集積器に追加することができる（すなわち、合計で８１９２個の値を追加することができる）。これは、多数の入力値を加算することが一般的なハイパフォーマンスコンピューティングの分野で特に有効である。実際には、すべての加算がオーバーフロー部分へのキャリーを引き起こすわけではないので、Ｎビット部分のトップビットからオーバーフローすることなく、２^Ｖ－１超の集積が可能な場合もある。

時には、Ｎビットレーンのトップビットからオーバーフローの危険性（又は実際のオーバーフロー）を引き起こすほどの十分な加算が実行された場合、重複削減動作を実行して、所与のＲＨＰＡ値を、重複ビットが所与のＲＨＰＡ値の重複ビットよりも小さい大きさを表す第２のＲＨＰＡ値に変換し、より多くのキャリーを収容するために重複部分のビットスペースを効果的に空けることができる。また、ＲＨＰＡ数を整数又は浮動小数点などの他のフォーマットに戻す際にも、このような重複削減を実行することがある。しかし、実際には、このような重複削減動作はあまり必要ではなく、複数の入力であるＭビットの加算をＮビットの加算の時間で実行することができるため、ＲＨＰＡは処理時間を大幅に短縮することができる。なお、「重複低減」といっても、すべてのレーンの重複ビットを低減しなければならないわけではない。少なくとも１つのレーンの重複ビットを低減すれば十分であり、重複削減の形態によっては、所与のレーンの重複ビットが大きくなる可能性もある。

ＨＰＡ数の効率的な格納と動作
以下の説明では、使用されるＨＰＡ形式は、各部分が多数の重複ビットを含む上述のＲＨＰＡ形式であると仮定するが、本明細書で説明する技術は、他のＨＰＡ形式、例えば、異なる部分が重複ビットを含まないＨＰＡ形式にも同様に適用可能である。以下、ＨＰＡという用語は、操作されるＨＰＡ値が冗長な形態であるか否かにかかわらず、操作されるＨＰＡ値を参照するために使用される。

先に述べた図４から明らかなように、ＨＰＡ数（アンカーデータ値）の異なるＨＰＡ部分（アンカーデータ要素）は、単一のベクトルレジスタの異なるレーン内に配置されてもよい。しかし、これにはいくつかの問題がある。例えば、浮動小数点オペランドからＨＰＡ形式を作成する場合、浮動小数点オペランドのフラクションは、希望するアンカー値とともに、関連するベクトルレジスタ内のすべてのレーンに伝搬される必要がある。そして、各レーンには、アンカー値に基づいて異なるレーンアンカーが設定される。更に、ベクトルレジスタがＨＰＡ数の長整数値よりも大幅に大きい場合、例えば１０２４ビットのレジスタがＨＰＡ数２００ビットの長整数を保持しているような状況では、ベクトルレジスタのリソースを無駄に使用することになり得る。また、ベクトルレジスタのビット数がＨＰＡ数の長整数のすべての部分を表現するのに不十分な場合、例えば、ベクトルレジスタの幅が１２８ビットであり、ＨＰＡ数の２００ビットの長整数を表す必要がある場合、処理に問題が生じることがある。

これから説明する例では、ＨＰＡ数の様々な部分のために、別の格納構成が用意されている。具体的には、図５に模式的に示すように、ＨＰＡ数の長整数は、複数のベクトルレジスタにまたがる共通のレーン内に格納されるように配置される。特に、各ベクトルレジスタがデータ値を格納するための複数のセクションを含むと考えられ得る一組のベクトルレジスタ１００が配置されている。更に、複数のレーンがベクトルレジスタを通って（図５に示す向きで垂直方向に）延びていると考えることができ、最初の４つのレーンは、図５において参照数字１０２、１０４、１０６、１０８で示されている。そして、ＨＰＡ整数値の異なる部分を異なるベクトルレジスタに格納することにより、ＨＰＡ数の長整数を共通のレーン内に格納することができる。これは、４つの部分を含み、１つの部分がベクトルレジスタＺ０、Ｚ１、Ｚ２及びＺ３のそれぞれに格納されていると考えられる例のＨＰＡ整数１１０について模式的に示されている。更に、すべての部分が共通レーン１０２内に格納されている。ＨＰＡ数の整数をこのように格納することで、これは多くの重要な利点を生じさせる。例えば、整数のサイズは、個々のベクトルレジスタの幅によって制約されない。更に、複数のＨＰＡ整数を様々なベクトルレジスタの異なるレーンに格納し、それらの整数値をＳＩＭＤ方式で並列に処理できるため、ベクトルレジスタの非効率な使用を回避することができる。例えば、図５を参照すると、図５に示された各ベクトルレジスタが１６レーンを提供する場合、１６個のＨＰＡ数が４つのベクトルレジスタＺ０からＺ３内に格納され、各ＨＰＡ数が異なるレーンを占めることになる。このように、この手法はスケーラビリティを大幅に向上させ、ベクトルの長さに依存しない手法を提供していることがわかる。これにより、この技術は、異なるサイズのベクトルレジスタを使用する様々なシステムで採用することができる。このようなＨＰＡ値の格納方法を採用することで、性能面で大きなメリットが得られるアプリケーションは数多くあるが、その一例として、アーム社が提唱するスケーラブルなベクトル拡張（Scalable Vector Extension：ＳＶＥ）を採用したシステムがある。

アーム社は、科学的なＨＰＣアプリケーションを対象とした６４ビットＩＳＡのスケーラブルなベクトル拡張（ＳＶＥ）を発表した。現在、ＳＶＥはＨＰＡサポートを含んでいないが、ＳＶＥは進化し続けており、その命令セットにささやかな追加をいくつか実行することで、非常に高いＨＰＡ性能を実現することができる。ＳＶＥの「スケーラブル」とは、すべての実装形態で同じベクトル長を必要としないことを意味する。ＳＶＥベクトルは、６４ビットレーンのペアを１２８ビットから２０４８ビットまでの任意の倍数でハードウェアに実装することができる。小型のチップでは１２８ビットのベクトルしか実装できないかもしれないが、スーパーコンピュータでは１０２４ビット又は２０４８ビットのベクトルが実装形態できるかもしれない。２００ビットの整数を単一のＳＶＥレジスタに保持することは、１２８ビットの実装では不可能であり、２０４８ビットの実装形態では無駄になるが、２００ビットの整数を４つのレジスタに分散して保持することで、ＳＶＥのスケーラビリティを最大限に活用し、小型から大型まであらゆるハードウェアの実装でうまく機能する。また、プログラマは、必要に応じて短整数又は長整数を使用することができる。１００ビットの整数は２本のベクトルレジスタのレーンに、５００ビットの整数は１０本のベクトルレジスタのレーンに収まる。

性能と面積の観点から、ＳＶＥは６４ビットレーンで演算を実行する。我々は、ｉという大きなＨＰＡ数を、より小さな冗長な部分に分割してＨＰＡの加算を行うことを提案する。６４ビットの各レーンには、ｉの指定された部分（例えばｐ＝５０ビットとするが、これはプログラム可能である）が格納され、残りの６４－ｐビットはレーン内のキャリーを保持するために使用される。この残りのビットは、次の最上位レーンのｌｓｂと同じ数値の重みを持つことから、「重複」ビットと呼ばれている。レーン内の加算は、通常の６４ビット整数の加算である。２^６４－ｐサイクルごと（つまりｐ＝５０の場合は約１６，０００サイクルごと）に、レーンのオーバーフローを防ぐための冗長性排除ステップが必要になることがあり、また、すべての計算の最後に、冗長性のない答えを得るためにレーンごとの処理が必要になる。

ＦＰ入力ｆをＨＰＡ数フォーマット（ｉ，ａ）に変換するために、各６４ビットレーンはｆの指数を調べ、アンカー＜ａと比較し、ｆの仮数の一部を検討中のｉの部分に追加すべきかどうかを判断する。この比較は、該当するすべてのレーンで並行して行うことができる。ｆの仮数は２つの部分（ＦＰ６４積の場合はｐの値に応じて３つの部分）にまたがるかもしれないが、各部分は独立して作成し、動作することができる。

ＦＰ３２数を、ａを０に、ｐを５０に選択して、２つの部分のＨＰＡに変換する例を以下に示する。この例では、ＦＰ３２数はベクトルレジスタレーンの「右側」の最下位３２ビットを占めるものとし、ＨＰＡ数は６４ビットのレジスタレーン（５０ビット値と１４個の重複ビットを含む）を占めるものとする。ＦＰ数の場合が下記の場合、
ｆ＝＋１．０１１０１０１１１０１０００１０１１１１０１１×２^６０
ＦＰ３２仮数、ｆ［２３：０］＝１０１１０１０１１１０１０００１０１１１１０１１

ＨＰＡ数の部分１は、調整部分アンカー＝５０となり、以下のように計算される。
ｉ［１］＝ｆ［２３：０］を（指数－２３）だけ左シフトしたもの－部分アンカー＝３７－５０＝－１３位
（－ｖｅ左シフトは、＋ｖｅ右シフト－＞ｉ［１］＝｛｛１４０’ｓ｝，｛３９０’ｓ｝，ｆ［２３：１３］＝１０１１０１０１１１０｝）
（２３による指数の調整は、浮動小数点値の指数が２３ビットのフラクションの最上位ビットの左側にある暗黙の小数点の有意性を表すのに対し、アンカーはフラクションの最下位ビットの有意性を表すという事実を考慮している）。

ＨＰＡ数の部分０は、部分アンカー＝０に調整され、以下のように計算される。
ｉ［０］＝ｆ［２３：０］を（指数－２３）だけ左シフトしたもの－部分アンカー＝３７－０＝３７位。
－＞ｉ［１］＝｛｛１４０’ｓ｝，ｆ［１２：０］＝１０００１０１１１１０１１，｛３７０’ｓ｝｝

この結果、ＨＰＡフォームは以下のようになる。

一般的に、ＨＰＡ結果を単一のＦＰ結果に正しく丸めるには、キャリーと丸めの情報をレーンごとに伝搬させる必要があり、連続的な処理が必要である。これには数サイクルが必要であるが、集積ごとに一度だけ実行すればよい。また、ｐ≦５３の場合は、複数の６４ビットレーンを占める非冗長なＨＰＡ数をＦＰ６４数のベクトルに並行して変換することもできる。その後、得られたベクトルを「再正規化」して、最上位要素が０．５ｕｌｐの精度で完全なＨＰＡ数を表すようにする。

以上、高次でのＨＰＡ処理の基本について説明したが、次に、ＳＶＥでＨＰＡ集積器をどのように実装するかについて、より詳しく説明する。

ＳＶＥは、現在の最大２０４８ビットまでのｋ×１２８ビットのベクトルレジスタ長をサポートし（即ち、１≦ｋ≦１６）、また、「ベクトル長非依存」（ＶＬＡ）処理に基づいており、これにより、異なるＳＶＥベクトルレジスタ長を有する異なるＣＰＵはすべて、同じＳＶＥプログラムを実行することができる。ＳＶＥプログラムは、システムレジスタから使用可能なベクトル長を読み取り、使用可能なベクトルレジスタ長を利用するように「自己調整」する。その結果、ＳＶＥプログラムは、ＣＰＵ処理とともに、使用可能なベクトルハードウェアの長さがサポートできる平行グラニュールの分だけ、１２８ビットのグラニュール内で実行される。

図５を参照して前述したように、ベクトル長に依存しないことを実現するために、ＨＰＡ数を複数のＳＶＥレジスタに分散して配置することができる。各レジスタは、異なるＨＰＡ数の同じ有意性のビットを保持してもよい。つまり、各レジスタは、ＨＰＡ数における各部分の位置に対して調整された数のアンカーの値を与える有意性と関連している。

先ほどの２００ビットのＨＰＡ数の例に戻ると、各部分にｐ＝５０ビットが保持されている場合、ＨＰＡ数のアンカーが－８０であれば、４つの部分の有意性情報は、６４ビットの部分ごとに１４重複ビットとともに（＋７０，＋２０，－３０，－８０）となる。なお、図５の例のように、ＨＰＡ数の個々の部分を連続したレジスタに格納する必要はない。

ＨＰＡ数をこのように配置する主な利点は、長いＨＰＡ数よりも短いＳＩＭＤ実装（１２８ビットのベクトルなど）にまたがる場合でも、ＨＰＡ数（又は長整数）をＳＩＭＤ方式で処理できることである。副次的な利点は、より長いＳＩＭＤ実装（例えば１０２４ビットのベクトル）が、各ベクトル内にずっと短いＨＰＡ数を格納することで無駄にならないことである。十分な数の整数又はＨＰＡ数があれば、ＳＶＥの実装形態の長さにかかわらず、ベクトルは十分に活用される。

また、ＨＰＡ数を複数のレジスタに配置することで、ＦＰ数のベクトルをそれぞれの６４ビットレーンに加算し、ＨＰＡ演算を高度に並列化することができる。更に、大量のＦＰ数をメモリからロードする際には、シンプルで効率的な連続したベクトルのロードになる。更に、このＨＰＡ数の配置では、複数のＨＰＡ整数を低次ビットから高次ビットまですべて並列に処理できるため、既存のＳＶＥ命令を使用して重要なＨＰＡ計算（冗長性の排除又はＨＰＡ数の加算など）を実行することができる。また、この方式では、複数のＨＰＡ数を高次レーンから低次レーンへ、又は、低次レーンから高次レーンへとすべて同時に処理できるため、ＨＰＡ数のＦＰへの変換又は再正規化も高速化される。

図６は、図５で説明した方法で配置されたＨＰＡ数をＳＩＭＤ方式でどのように処理することができるかを示している。この例では、一連の浮動小数点数がソースベクトルレジスタ１６５にロードされていると仮定している。この例では、各浮動小数点数は倍精度浮動小数点数であり、したがって、各浮動小数点数はソースレジスタ１６５内の６４ビットセクションを占めると想定される。

複数の６４ビットレーン１５２、１５４、１５６は、ベクトルレジスタのセットを通って延びると考えられ、別個の変換及び処理回路１７０、１７２、１７４は、各レーンに関連付けられる。回路１７０、１７２、１７４は、デスティネーションレジスタ１８０に格納されるべき対応する結果部分を生成するために、一度にＨＰＡ数の単一部分を動作するように配置される。先に説明した図５から、ＨＰＡ結果数の各結果部分が異なるデスティネーションレジスタを占有し、それに応じて、回路がＨＰＡ数の異なる部分を処理すると、対応する結果部分が異なるデスティネーションレジスタに書き込まれることが理解されるであろう。

後に詳述するように、メタデータは、変換及び処理回路１７０、１７２、１７４がその変換及び処理ステップを実行する際に、参照のために提供される。特に、この例では、メタデータは、各レーンについて、更なるソースレジスタ１６０内に格納される。レーンのメタデータ内では、そのレーン内で処理されたＨＰＡ数の各部分に対して、メタデータ部分が提供される。メタデータは、対応する部分に関連する有意性（調整済みアンカー）を識別し、重複ビットの数などの他の情報を識別してもよい。回路１７０、１７２、１７４がＨＰＡ数の特定の部分を処理しているとき、それらの回路は、ソースレジスタ１６０内に保持されているレーンメタデータから、関連するメタデータ部分を取り出す。

図６に示す例では、各変換処理回路は、入力浮動小数点オペランドと、処理されるべきＨＰＡ数の部分についての関連するメタデータ部分と、を受け取り、その後、例えば、表７に示す例を参照して先に説明した技術を用いて、入力浮動小数点オペランドから関連するＨＰＡ部分を生成する。生成されたＨＰＡ部分は、その後、結果レジスタ１８０に直接格納することができ、あるいは、関連する結果部分を生成するために、何らかの処理機能を受けてもよい。例えば、一実施形態では、集積動作を実行することができ、ここでは、現在のＨＰＡ結果部分がデスティネーションレジスタから取得され、その後、デスティネーションレジスタ１８０の関連セクションに書き戻される更新された結果部分を生成するために、入力浮動小数点オペランドから生成されたＨＰＡ部分と集積される。

このようなアプローチにより、複数の反復の実行を介して、集積された結果を表す結果部分を生成するために、各レーン内で複数の集積動作を並行して実行することができることがわかる。また、このプロセスは、各レーン内に一連の結果部分を生成するために、ＨＰＡ数の各部分について繰り返すことができ、これらの結果部分は集合的に結果ＨＰＡ値を表す。

１つの例示的な構成では、ＨＰＡ処理は、幅広い範囲の、アンカー、レーンの重複、及び、レーン型又は上位、下位、若しくは中間位置に関する情報（「メタデータ」）が必要である。ＨＰＡ数の幅は通常２００ビット以下で、アンカーの範囲はＩＥＥＥＦＰ３２と似ているため、ＨＰＡ集積器は通常４つ以下の部分で構成されることが予想される。そして、４つの６４ビット部分を横断する２００ビット集積器のＨＰＡメタデータは、図７に示すように、４つの１６ビットフィールドとして編成することができる。

特に、ソースレジスタ１６０を指定することができ、ここでは、各レーン（例えば６４ビット）内に、参照数字１６２、１６４、１６６、１６８で示されるように、４つのメタデータ部分が提供される。各メタデータ部分は、集積器の結果の関連部分のメタデータを提供することができる。図７の拡大図に示すように、有意性（調整済みアンカー）情報は、例えば９ビットを使用して第１のサブパート１９２に含めることができ、一方、重複情報は、例えば５ビットを含む第２のサブパート１９４にキャプチャすることができる。また、必要に応じて、レーン型情報を第３のサブパート１９６にキャプチャし、関連する部分がトップ部分（最上位ビットを表す）、ボトム部分（最下位ビットを表す）、又は中間部分のいずれであるかを識別することもできる。

任意の特定のレーン内では、集積されるＨＰＡ値は、すべて同じアンカーを持つように配置され、それに応じて、あるレーンのメタデータは、そのレーン内で処理されるすべてのＨＰＡ値に等しく適用される。

基本的には、レーンごとに異なるメタデータを指定することで、あるレーンで処理された値と別のレーンで処理された値とが同じアンカーを有する必要はない。しかし、すべてのレーン内で処理される値のすべてが同じアンカー値を持つように配置されることがしばしばあり、この場合、６４ビットのメタデータは、ベクトルレジスタ１６０全体に格納され、複製することができる。これにより、各レーンで生成された様々なＨＰＡの結果は、当然ながら、単一のスカラＨＰＡの結果を生成するために、互いに容易に集積することができる。

このような構成では、メタデータを参照する必要のあるＨＰＡ用のＳＶＥ命令は、処理されるＨＰＡ部分の特定の１６ビットのメタデータへの２ビットポインタとともにメタデータレジスタを指定することができる。

なお、図７は、メタデータを提供するための１つのメカニズムを示しているが、メタデータをより圧縮して格納するための別の仕組みを考案することも可能であり、例えば、８レーン分のメタデータを６４ビットで格納することもできる。特に、「レーン型」フィールドを必要としなくてもよいし、限られた数の利用可能な構成を反映させるために、ｏｖｌｐと有意性フィールドのサイズを低減してもよい。

ＨＰＡの重要な動作は、ＦＰ数をＨＰＡフォーマットに変換して加算することである。この動作は、加算されるすべてのＦＰ数に対して行われる可能性があるが、他のＨＰＡ動作（ＦＰへの変換、ＨＰＡの冗長性の排除など）は、数千分の１の頻度で実行される。そのため、ＦＰ数の変換と加算を効率的に行うためのハードウェアサポートが望まれる。

図８は、ベクトルユニットにわたって繰り返されるこの動作のための可能な６４ビットのデータパスを示しており、図８はそれゆえ、図６に示された変換及び処理回路１７０、１７２、１７４のそれぞれのための例示的な構成をより詳細に表している。

入力浮動小数点データ２１０は、符号部分２１２、指数部分２１４、及びフラクション部分２１６で構成される。そして、レーンについて保持されているメタデータから関連するメタデータ部分をメタデータ部分２００として抽出し、これには、レーン型フィールド２０２、重複フィールド２０４、及び、有意性フィールド２０６が含まれる。ＯＲ機能２２０は、指数のビットに対してＯＲ動作を実行して、仮数の最上位ビットを生成し、これをフラクションビット２１６にプリペンドして、仮数を形成するようにする。特に、指数がゼロでない場合、これは浮動小数点数が通常の浮動小数点数であることを示しており、それに応じて、仮数の最上位ビットは論理１の値となる。しかし、指数のすべてのビットがゼロである場合、これは非正規値を示し、それに応じて、仮数の最上位ビットはゼロに設定されるべきである。

減算ブロック２２２は、例えば、表７を参照して前述した技術を使用して、指数２１４から有意性２０６を減算し（指数のバイアスとフラクションのワード長のために必要に応じて調整される）、浮動小数点の仮数を適切な量だけシフトするようにシフト回路２２４を制御するために使用されるシフト量を（適切に右シフト又は左シフトのいずれかを実行しながら）生成するように配置される。

次に、ＡＮＤ回路２２６は、重複情報２０４を受け取り、シフト回路からの出力を指定された重複ビット数（６４－ｐに等しい）でマスクする。その後、ＸＯＲ回路２２８は、符号値２１２によって示されるように、浮動小数点数が負であった場合には、ＡＮＤ回路２２６からの出力に対して２の補数関数を実行する。この時点で、所与の有意性及び重複量を有する特定のＨＰＡ部分に関連する入力浮動小数点数のビットは、２の補数として利用可能であり、加算器回路２３０への１つの入力として提供されることができる（加算器はまた、浮動小数点オペランドが負である場合、１のキャリーイン値を取る）。その結果、関連するＨＰＡ部分は、入力された浮動小数点値から「オンザフライ」で生成することができ、その後、対応する結果部分を生成するために、適切な処理動作を受けることができることがわかる。

図示の例では、処理動作が選択的加算動作であることを想定している。特に、ＡＮＤ回路２４０は、レジスタ２３５に保持された現在の値を、加算器２３０への第２の入力として伝搬して戻すために選択的に使用することができ、レジスタ２３５に記憶された更新された結果部分を生成するために、前の結果部分を変換回路から出力された入力オペランド部分と加算することができる。６４ビットの加算器及びレジスタを図示の方法で組み込むことにより、バックツーバックのＨＰＡ変換・集積命令のパイプライン実行をサポートする。

図８に示された回路を上述の動作を実行するようにトリガすることができる方法はいくつかあるが、一実施形態では、図８の上述の機能を開始するために単一の命令が使用される。このような命令は、ＦＰ－ｔｏ－ＨＰＡ変換・加算命令と呼ばれる場合がある。

ＦＰ－ＨＰＡ変換・加算命令のオペコード（ニーモニック「ＦＣＶＴＨ｛Ａ｝」、｛Ａ｝はオプションの集積を示す）は、一例において、ＦＰソースレジスタ、メタデータレジスタ、デスティネーション集積器レジスタ、及び、メタデータレジスタのサブフィールドを選択するためのインデックスを含む。これは、オペコードが参照するベクトルレジスタの数を３つまでとするＳＶＥＩＳＡの設計原則に合致している。

既存のＳＶＥ命令の短いシーケンスを作成して、他の重要なＨＰＡ動作を実装することもできる。

部分オーバーフローを回避するためには、定期的にＨＰＡ数の冗長性を排除することが重要である。これは、単純に下位のＨＰＡ部分の重複領域に集積されたキャリービットを、次に上位のＨＰＡ部分のＬＳＢに加算するだけで実現できる。ＳＶＥでは、これは３つの命令手順で実現され得る。
（ｉ）下位部分をｐ個分算術右シフトする。
（ｉｉ）シフトされた重複ビットの次の上位のＨＰＡ部分に加算する。
（ｉｉｉ）かつ、下位のＨＰＡ部分のｐから導出されるマスクを用いて重複ビットをＡＮＤｉｍｍｅｄｉａｔｅして強制的にゼロにする。

この手順は、最下位のレーンから順に、隣接するＨＰＡ部分のすべてのペアに適用することができる。

また、以下の図１３及び図１４を参照して説明するように、重複伝搬及び重複削除のための専用の命令を提供してもよい。

ＦＰ数の大きなブロックが集積された後、その結果は複数のＳＶＥレーンに配置された複数の集積器に格納される。その後、これらの集積器を加算し、同じインデックスを持つＨＰＡレーンの各ベクトルに対してスカラ結果を返してもよい。ＳＶＥでは、複数のＨＰＡレーンに保持されている集積器に対してベクトル低減を実行して、スカラＨＰＡの結果を形成することで、これを容易に実現できる。結果として得られたスカラＨＰＡ数には、各部分の重複領域にキャリービットが含まれている可能性があるため、ＦＰ形式に変換する前に、スカラＨＰＡ数に対して冗長性排除ルーティンを実行してもよい。

最後に、再現可能なＨＰＡの加算結果を浮動小数点フォーマットに変換する。ＨＰＡ部分を正規化されたＦＰ６４数に正確に変換するためのアルゴリズム（つまり、ｐ≧５３と仮定した場合）は以下のとおりである。
（ｉ）ＣＬＺ（ｃｏｕｎｔｌｅａｄｉｎｇｚｅｒｏｅｓ：カウントリーディングゼロ）を実行し、先頭の「１」の位置を特定する。
（ｉｉ）指数を有意性＋（６３－ＣＬＺ）＋ＦＰ６４指数バイアスとして計算する。
（ｉｉｉ）最高位のＨＰＡ部分を除くすべての部分について、ＦＰ６４の結果のビット［６３］を０に設定する。ＦＰ６４の結果のビット［６２：５２］を計算された指数に設定する。バイアス指数＞０の場合、ＨＰＡ部分をＣＬＺ－１１個分論理的に左シフトし、そうでなければＦＰ６４の結果を０に設定する。
（ｉｖ）最高位のＨＰＡ部分のみの場合：その部分が負であれば、ＦＰ６４の結果のビット［６３］を１に設定し、その部分を否定して正の２の補数を得る。ＦＰ６４の結果のビット［６２：５２］を計算された指数に設定する。バイアス指数＞０の場合、ＨＰＡ部分をＣＬＺ－１１個分論理的に左シフトし、そうでなければＦＰ６４の結果を０に設定する。

この変換アルゴリズムは、ＨＰＡレーンごとに通常１５個のＳＶＥ命令で実装することができる。

なお、必要に応じて、上記の手順（ｉｉｉ）と（ｉｖ）を以下のように組み合わせて、最上位以外の部分が負になる場合をカバーすることもできる。
（ｉｉｉ）部分が負である場合、ＦＰ６４の結果のビット［６３］を１に設定し、部分を否定して正の２の補数を得る。ＦＰ６４の結果のビット［６２：５２］を、計算された指数に設定する。バイアス指数＞０の場合、ＨＰＡ部分をＣＬＺ－１１個分論理的に左シフトし、そうでなければＦＰ６４の結果を０に設定する。

必要に応じて、最終的な集積値を可能な限り正確に表す単一のＦＰ６４結果を作成することができる。これは、例えば、Ｙ．Ｈｉｄａ、Ｘ．Ｓ．Ｌｉ及びＤ．Ｈ．Ｂａｉｌｅｙ、「ＡｌｇｏｒｉｔｈｍｓｆｏｒＱｕａｄ－ＤｏｕｂｌｅＰｒｅｃｉｓｉｏｎＦｌｏａｔｉｎｇＰｏｉｎｔＡｒｉｔｈｍｅｔｉｃ」、Ｐｒｏｃ．１５ｔｈＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＡｒｉｔｈｍｅｔｉｃ、ＶａｉｌＣＯ、２００１年６月、１５５～１６２によって提案されたアルゴリズムを適用することによって達成することができる。

レーン一番下のペアから順に、Ｆａｓｔ２Ｓｕｍ動作を次の上位レーンに連続して適用し、Ｆａｓｔ２Ｓｕｍで得られた上位の合計を算出する。次に、今得られたばかりの最上位の値のペアを下に向かって作業し、次の下位の値とＦａｓｔ２Ｓｕｍから得られた下位の合計に連続して適用するプロセスを繰り返する。このようにして得られたＦＰ６４数のベクトルの最上位要素は、ＨＰＡ数から０．５ｕｌｐ以内であることが保証される。

ｌ個の部分からなるＨＰＡ集積器は、＜ｌ×ｐビットのワード長を持ち、ｌ個のＳＶＥベクトルレジスタを占有する。ｋ×１２８ビットのＳＶＥベクトルユニットで実行されるＦＣＶＴＨ｛Ａ｝命令は、２ｋ個のＦＰ６４又は４ｋ個のＦＰ３２数を変換して、２＜ｋ個のＨＰＡ集積器の一部分に集積することができる。ＦＣＶＴＨ｛Ａ｝命令は完全にパイプライン化されているので、ｎ個のＦＰ６４加算のブロックを２ｋｐ×ｌビットのＨＰＡ集積器にｎ×（ｌ／２ｋ）＋１サイクルで加算することができる。ｌとｋとの典型的な値は２～４（ただしｋは１６まで可能）なので、ｌ＝ｋとすると、ｎ個のＦＰ６４数（又は２ｎ個のＦＰ３２数）をｋ個の並列集積器にｎ／２サイクルで加算することができる。一方、アーム社のＣｏｒｔｅｘ－Ａ７２では、和が順序に行われなければならず、依存性のあるＦＭＡ（ＦｕｓｅｄＭｕｌｔｉｐｌｙ－Ａｄｄ：融合乗算・加算）では、追加の間に３サイクルが必要であるため、同じ再現性のある集積を行う場合、３ｎサイクルが必要になる。このようにＨＰＡは、ＦＰ３２の集積処理において、従来のＦＰ処理に比べて約１２倍の高速化を実現している。

上述したように、ＨＰＡの冗長性は定期的に排除又は解決する必要がある。上述の方法は、３×（ｌ－１）命令を必要とし、２^６４－ｐ回の集積ごとに１回実行する必要があるが、典型的な値であるｐ＝５０の場合、これは０．１％未満のわずかな処理オーバーヘッドになる。同様に、ＨＰＡ集積器のベクトルをスカラフォーマットに低減し、スカラＨＰＡの冗長性を解消し、スカラＨＰＡを変換してＦＰ６４フォーマットに戻す場合、ｎ≒１０^３以上のｎ個のＨＰＡ集積のための≒ｎ／４サイクルと比較して、代表的な値であるｌに対して、ｌ＋３×（ｌ－１）＋１５×ｌ≒１９×ｌ－３＝３５－７３の命令が必要となる。

図９は、アンカーデータ要素が２の補数の一部を表すか、又は、特殊値を表すか、を指定する型情報を含むアンカーデータ要素の符号化の別の例を示している。なお、図７に示すように、アンカーデータ要素の型情報は、メタデータのレーン型情報１９６とは異なる。この符号化では、最上位ビット（この例ではビット６３）を用いて、要素が２の補数の一部を表す標準的なＨＰＡデジットを表しているのか、それとも特殊値を表しているのかを示している。最上位ビットが０の場合、ＨＰＡ要素は２の補数を表す標準的なＨＰＡデジットを表し、重複部分のビットは、上述した例と同様に、ＨＰＡ値の次の上位桁の最下位ビットと同じ有意性を持つ。

しかし、要素の最上位ビットが１の場合、その要素は、正の無限大、負の無限大、非数（ＮａＮ）、及び、飽和値の中から選択されたＨＰＡ特殊値を表す。最上位ビットが１の場合、次の２つの最上位ビット（例えば、図９に示すように、ビット６１及び６２）は、表された特殊値の特定の型を表す。図１０は、標準的なＨＰＡデジットと、それぞれの型の特殊値のためのビット６３から６１の符号化を示している。

したがって、最上位ビットが０の場合、次の２つのビットは、ＨＰＡデジットの重複ビットの一部を表している。また、重複ビットを持たない非冗長なＨＰＡバリアントを使用する場合は、次の２ビットがＨＰＡデジットの非重複ビットを表すこともある。これにより、従来は、どの特定の型の特殊値を符号化するかを示すために使用していたビットを、２の補数のビットを表現するために再利用することができ、効率的な符号化が可能になる。

最上位ビットが１、最上位３ビットが０の場合、ＨＰＡ要素は無限大を表す。２番目の最上位ビットは、無限大の符号を表す。したがって、要素のビット６３～６１の符号化を１１０とすると、負の無限大を表し、符号化を１００とすると、正の無限大を表し得る。また、正の無限大と負の無限大の符号化を入れ替えることも可能である。ＨＰＡ要素が正又は負の無限大を表すと示されている場合は、浮動小数点値のＨＰＡフォーマットへの変換を含む動作が少なくとも１回行われる動作のシーケンスで生成され、その浮動小数点値が正又は負の無限大であったことを意味する。

要素の最上位３ビットが１０１を示している場合、その要素は非数（ＮａＮ）を表す。これは２つの方法で生じ得る。ＮａＮであった浮動小数点値の変換を含む一連の動作で要素が生成され得る、あるいは要素が２つのＨＰＡ値の加算に依存し得る、のいずれかであり、後者の場合、ＨＰＡ値の一方が正の無限大、他方が負の無限大であった。

一方、ＨＰＡ要素の最上位３ビットが１１１と符号化されている場合は、その値が飽和ＨＰＡ値であることを表している。飽和ＨＰＡ値は、浮動小数点領域では類例がない。正又は負の無限大は、ＨＰＡ値が正又は負の無限大の浮動小数点値を変換した結果であり、その浮動小数点値は、浮動小数点フォーマットで表されるよりも大きなサイズの数をもたらす計算から導出されたものであることを示す一方で、飽和ＨＰＡ型は、一連のＨＰＡ動作に入力された浮動小数点数が、ＮａＮ又は無限大ではない非特殊数であったにもかかわらず、ＨＰＡ動作自体によって飽和が生じたことを示していてもよく、例えば、ＨＰＡ値で表される有意性の範囲を設定したアンカーメタデータがそのようであり、入力された浮動小数点値及び／又はその処理結果が、メタデータで定義された範囲外の数を生成してしまった場合である。

例えば、（図７に示すレーン情報１９６で示される）ＨＰＡ値の最上位のＨＰＡ要素に作用するＨＰＡ動作の結果、最上位の重複ビットからオーバーフローした場合に、飽和型が発生する可能性がある。あるいは、最上位のＨＰＡ要素とＨＰＡ値の重複ビットとが、ＨＰＡ値で表される２の補数の一部とみなされない場合、ＨＰＡ値の最上位の要素が最上位の非重複ビットから最下位の重複ビットまでオーバーフローした場合に、飽和型が発生する可能性がある。定義によれば、トップ重複ビットからオーバーフローした場合、トップの２つの重複ビットは既に両方とも１と等しく、オーバーフローによって要素の最上位ビットが０から１に切り替わるため、オーバーフロー自体によって、対応する要素がトップの３つのビットの型情報が１１１と等しくなるように設定される可能性があるので、ＨＰＡ値のトップ要素の重複ビットが、ＨＰＡ値で表される全体の２の補数の一部とみなされる場合、ビット６３～６１で飽和型を１１１と符号化することは、定義上、特に有用である。これにより、オーバーフローを検出し、それに応じて型情報を設定するための特定の回路を必要としない場合があるので、型情報を設定するためのロジックを簡素化することができる。一方、重複ビットがＨＰＡ値で表される２の補数の一部とみなされない場合は、いくつかの追加ロジックが、非重複上位ビットから重複領域へのオーバーフローを検出し、それに応じて型情報のトップの３ビットを設定することができる。

また、ＨＰＡ動作でアンダーフローが発生した場合には、飽和型を使用することもできる。例えば、ＨＰＡフォーマットに変換される浮動小数点値が、ＨＰＡフォーマットで正確に表すためには、アンカーメタデータで定義されたＨＰＡフォーマットを用いて表すことができる最下位ビットよりも下位のビットが必要である場合、これは、アンダーフローとして検出され、飽和データ型が示されてもよい。また、オーバーフローとアンダーフローとを区別する型符号化を使用することもできる。しかし、実際には、アンダーフローは、単に精度の低下につながるが、オーバーフローは、誤った処理結果が返される可能性があるため、アンダーフローよりもオーバーフローがシグナルとして重要である場合がある。したがって、場合によっては、型情報で示されるデータ型を使用してアンダーフローを通知しないという選択をすることもできる。

一般に、ＨＰＡ値の飽和型の表示をサポートする型情報を提供することで、ＨＰＡ動作のシーケンスの後、プログラムコードは、その動作の結果として生じる任意の特殊値が、入力された浮動小数点数が特殊数であることに起因するものなのか、ＨＰＡ処理に起因するオーバーフローに起因するものなのかを判断することができる。これは、２つ目のシナリオでは、プログラムコードがアンカーメタデータを調整し、有効な結果を維持するために動作のシーケンスを繰り返すことができるため、有用であるが、一方、元の浮動小数点値に含まれる特殊数が原因で特殊値が発生した場合は、異なるアンカーメタデータを使用してＨＰＡ処理を繰り返しても、特殊でない結果は得られない。

図１０は、効率的な符号化方式を提供するのに有効な、型情報の１つの特定の符号化を示しているが、他の符号化方式を使用することも可能である。

図９は、単一のＨＰＡ要素に対する符号化を示している。ＨＰＡ値が２つ以上のＨＰＡ要素で構成されている場合、それらのＨＰＡ要素のうち１つでもトップビットが１に設定されていれば、そのＨＰＡ値は特殊値であると考えられる。実際には、図５に示すように、ＨＰＡ値が複数の異なるベクトルレジスタにまたがってストライピングされているため、各ＨＰＡ処理命令は一度に１つの要素しか見ることができず、ＨＰＡ要素の１つを処理する際に、同じベクトル値の他のＨＰＡ要素の１つが特殊値又はオーバーフローを検出することが明らかにならない場合がある。また、入力された浮動小数点値が無限大又は非数である場合、その浮動小数点値が変換されたＨＰＡ値のすべての要素が特殊値を示すように設定される可能性があるが、ＨＰＡ処理によって飽和が生じた場合は、例えば、ＨＰＡ値の最上位のＨＰＡ要素でのみ飽和型が示される可能性がある。

また、２つのＨＰＡ要素を加算する場合には、加算される２つの要素の型情報に応じて、結果要素の型情報を設定することができる。図１１は、第１オペランド及び第２オペランドのデータ型に応じて発生し得るデータ型の違いを示す表である。表の左側の列は、第１オペランドのデータ型の選択肢の違いを示し、表の上側の行は、第２オペランドのデータ型の選択肢の違いを示している。省略形Ｎｕｍは、標準の２の補数、即ち要素の最上位ビットが０の場合のデータ型を表す。

図１１に示すように、入力されたオペランドの両方が標準の２の補数の場合、結果は別の標準の２の補数、又は、ＨＰＡ値の最上位要素からオーバーフローした場合の飽和値のいずれかになり得る。加算される２つのオペランドのうち、少なくとも１つが特殊値である場合は、結果も特殊なものになる。したがって、ＨＰＡ要素の最上位ビットが１に設定されると、その要素に依存する後続のＨＰＡ要素はすべて最上位ビットが１になるように生成されるという意味でスティッキーであり、動作のシーケンスの最後に特殊値の発生を検出することができる。

図１１に示すように、加算されるオペランドのいずれかがＮａＮである場合、その結果もＮａＮになる。また、加算されるオペランドの一方が正の無限大であり、他方が負の無限大である場合もＮａＮとなり得る。加算されるオペランドの一方が正の無限大であり、他方が負の無限大又はＮａＮ以外である場合は、結果は正の無限大となる。同様に、オペランドの一方が負の無限大であり、他方が正の無限大又はＮａＮ以外である場合は、結果は負の無限大となる。最後に、オペランドの少なくとも１つが飽和値である場合、他のオペランドが標準の２の補数又は飽和値のいずれかであれば、結果も飽和される。

場合によっては、特定の結果を引き起こすＨＰＡの加算に応じて例外をトリガすることがある。加算される２つのオペランドが標準の２の補数であったにもかかわらず、オーバーフローが発生して結果が飽和した場合、オーバーフロー例外が通知されることがある。ＨＰＡ値の最上位要素以外のＨＰＡ要素では、特定の数のＨＰＡ加算が実行された後に、その数は、その数のＨＰＡの追加によってトップ重複ビットを超えるオーバーフローが発生しないように選択されプログラムコードが重複伝搬動作をトリガする必要があるため、この例外は発生しないはずである。ただし、最上位要素については、アンカーメタデータが正しく設定されていないと、オーバーフローが発生する可能性がある。

符号付き浮動小数点の無限大とは異なる加算を行い、その結果がＮａＮになった場合は、無効なオペランド例外が発生する可能性がある。

また、浮動小数点からＨＰＡへの変換時又はＨＰＡから浮動小数点への変換時には、表される特殊値の種類に応じて、他の種類の例外が発生する可能性がある。

図１２は、図９から図１１の例のように符号化された特殊値を考慮する場合に、ＨＰＡ加算を実行するための回路ロジック３００の一例を示す。回路ロジック３００は、６３ビット加算器３０２及び特殊値検出回路３０４を含む。加算器３０２は、値が特殊値であるかどうかを示す最上位ビットを除いて、加算される２つのＨＰＡ要素のそれぞれの下位６３ビットを受信し、６３ビットの２つのセットを加算して６３ビットの和を生成し、その和の前に０の単一ビット値を付けて非特殊値として符号化された６４ビットの結果を生成し、マルチプレクサ３０８に供給する。

加算器による加算と並行して、特殊値検出回路３０４は、加算される各ＨＰＡ要素の型情報（上位３ビット）を受信する。特殊値検出回路３０４は、型情報をチェックして、特殊値がある場合にはどの特殊値が表されているかを判断し、図１１の表に示される組み合わせに基づいて、ロジック３０４は、結果が特殊値を表すべきかどうかを判断し、表すべきである場合、どの型の特殊値を符号化すべきかを判断する。結果が特殊値である場合、特殊値検出回路は、２つのオペランドの型に基づいて選択された、図１１の表に示されている特殊値の型に従って符号化された上位３ビットを有する６４ビット結果３０６を生成する。特殊値が発生すると、ＨＰＡ値は範囲内の有効な２の補数を表すことができなくなるため、結果が特殊な場合、下位６１ビットのビット値は任意の値を取ることができ、したがって、下位６１ビットでどの情報を指定するかは重要ではない。

マルチプレクサ３０８は、特殊値検出回路３０４によって提供された６４ビット値と、０に等しい最上位ビットを含む加算器によって提供された６４ビットとの間で選択して、非特殊数を示す。マルチプレクサは、結果が特殊であるべきかどうかを示す特殊値検出回路によって提供される値３１０に基づいてこの選択を行う。実際には、この信号３１０は、図１２の点線に示されているように、単に６４ビット値３０６の上位ビットであり得る。

したがって、特殊値検出回路３０４は加算器自体と並列に動作するため、ロジックは、標準の飽和整数加算器と同じロジック深さを有するため、高速である。

結果が特殊値である場合、特殊値検出回路３０４はまた、結果に応じて様々な浮動小数点ステータスフラグを設定することができ、それは浮動小数点動作の特性を示すことができる。これにより、ＨＰＡ処理は、処理が完全に浮動小数点演算を使用して実行された場合に予想される処理を反映することができる。例えば、これらの浮動小数点フラグは、アンダーフロー又はオーバーフロー例外をシグナリングする必要があるかどうか、又は無効な動作があったかどうかを示すことができる。

図１２は、単一レーンの加算を示しているが、図６に示されている変換動作のベクトル化と同様に、ベクトルレジスタのペアの対応するレーン内のＨＰＡ要素のそれぞれのペアに対して個別の加算が実行される場合に、この回路ロジックは各ベクトルレーンに提供され得ることが理解されるであろう。

重複伝搬動作を実行するときに、特殊ＨＰＡ値を考慮することもできる。図１３は、３つのベクトルレジスタを入力として指定するベクトル命令である重複伝搬命令を示す。ベクトルレジスタＺｄｕは、同じＨＰＡ値の隣接するＨＰＡ要素のペアの上位ＨＰＡ要素を表すと予想されるＨＰＡ要素を提供し、また、ペアのその上位ＨＰＡ要素の更新値を格納するデスティネーションレジスタとしても機能する。ソースベクトルレジスタＺｌは、各レーンがＺｄｕの対応するベクトルレーン内の上位要素に対応する要素のペアの下位要素を提供する、ベクトルである。ベクトルレジスタＺｍは、ベクトル処理の各レーンにアンカーメタデータを提供する。一般に、レジスタＺｍ内のアンカーメタデータは、入力レジスタＺｌ内で指定された各ペアの下位ＨＰＡ要素に関連付けられたアンカーメタデータであるべきであるが、重複ビットの数が各ペアの上位ＨＰＡ要素と下位ＨＰＡ要素で同じである場合、各ペアの上位要素にアンカーメタデータを提供するレジスタを使用することも可能である。したがって、３つのレジスタの各ベクトルレーンは異なるＨＰＡ値に関連し、かつそのＨＰＡ値に対して隣接する要素Ｌｉ、Ｕｉのペア及び対応するメタデータＭｉを指定する（この例では、４つのベクトルレーンがあるため、ｉ＝０．．．３であるが、他の例ではレーン数が異なる可能性がある）。

したがって、ベクトル処理の各レーン内で、所与のＨＰＡ値の隣接する要素の対応するペアの上位要素Ｌｉ及び下位要素Ｕｉ、及びそのペアに関連付けられたメタデータＭｉに基づいて重複伝搬動作３５０を実行して、更新値Ｕｉ’を生成し、デスティネーションレジスタＺｄｕ内の対応する要素位置に格納する。

重複伝搬関数３５０の各レーン内で実行される動作は、図１３の下部に示されている。図示のように、動作は、メタデータレジスタＺｍの対応するレーンＭｉ内のメタデータに依存する整列シフト量だけ、対応する要素のペアの下位要素Ｌｉを右シフトすることを含む。ベクトル内の整列シフトのサイズは、各ペアの下位要素Ｌｉ内の非重複ビットＷの数に対応する場合がある。異なるベクトルレーンが完全に異なるＨＰＡ値に対応するため、それらの異なるレーンのメタデータが異なる数の重複ビットを指定する場合、異なるベクトルレーンは異なるサイズの整列シフトを有する可能性がある。整列シフト量は、重複ビット数を符号化する方法に応じて異なる方法で判断することができる。非重複ビットの数がメタデータによって直接指定された場合、これは単に整列シフトとして直接使用することができる。しかし、メタデータが重複ビットＶの数を指定する場合、それはデータ要素中のビットＮの総数と重複ビットＶの数から導出でき、その結果、１ビットが値が特殊であるかどうかの指示子として使用される場合、整列シフトサイズＳＨがＮ－Ｖ－１に等しくなる。

したがって、ペアの下位要素をＷビットだけ右シフトした後、シフトした値をペアの対応する上位要素Ｕｉに加算して、更新値Ｕｉ’を生成し、デスティネーションレジスタの対応するレーンに格納する。したがって、上位要素及び下位要素のいずれも特殊数ではない場合、上位要素Ｕｉ’の更新値は、非重複ビットが、ペア内の下位要素の重複ビットと上位要素の非重複ビットとの合計に等しくなるように設定される。

したがって、下位要素Ｌｉの最上位ビットが１であるか、又は上位要素Ｕｉの最上位ビットが１であり、これらの要素のいずれかが特殊ＨＰＡ値であることを示す場合、上位要素は、シフト及び重複ビットと非重複ビットの加算を実行せず、変更されないままにすることができる。これにより、必要なロジックの量を減らすことができる。したがって、特殊値及び特殊値に隣接する要素は、キャリー消去中に変更されないままにすることができ、その結果、特殊値が発生したという事実をＨＰＡ動作のシーケンスの最後に検出することができる。ＨＰＡ数の任意の１つ以上の要素が特殊値である場合、ＨＰＡ数全体は数値的に無効であるとみなされる可能性がある。

あるいは、特殊値の発生を処理するための別の手法は、ペアの下位要素Ｌｉが特殊である場合、下位要素Ｌｉからの型情報を更新された上位要素Ｕｉ’の型情報にコピーして、デスティネーションレジスタＺｄｕに書き込むことであり得る。この手法では、ＨＰＡ値の隣接する要素の連続するペアに対してキャリー伝搬命令を実行することによって一連のキャリー消去が実行されると、特殊値のシグナリングが徐々にトップレーンに伝搬される可能性があり、これにより、ＨＰＡ値のすべての要素の型情報をチェックする必要がなく、単にトップレーンの型情報をチェックすることによって特殊値の存在を検出することができるため、一連のＨＰＡ動作の終了に到達したときに特殊値が生成されたかどうかの検出がより簡単になる。

一方、ペアの下位要素と上位要素の両方が特殊ではないが、上位要素の非重複ビットと下位要素の重複ビットの加算によってオーバーフローが発生した場合、更新された上位要素Ｕｉ’のビット６３～６１を１１１に設定して、上記の加算の場合と同様の飽和値を示すことができる。

図１３の下部に示されている動作は、ベクトル処理の各レーンに対して独立して実行することができるため、１つのレーンにおける重複伝搬が特殊値を生成し、別のレーンでは生成しないことが可能である。

図１３に示すように、整列シフト、加算及び型情報の設定を実行するための個別の命令が必要な場合と比較して、専用の重複伝搬命令を提供することにより、重複伝搬の実行に必要なコードサイズを大幅に削減することができる。

図１４は、図１３に示すような重複伝搬動作の後に重複ビットを除去するための対応する重複クリア命令を示す。つまり、ペアの下位要素の重複ビットが上位要素に加算されると、下位要素の重複ビットを０にクリアすることができる。

重複伝搬命令に関しては、重複クリア命令は３つのベクトルレジスタを指定するが、このときデスティネーションレジスタＺｄｌは、ＨＰＡ数の隣接するＨＰＡ要素のペアの下位ＨＰＡ要素を提供し、これを重複クリア命令の結果として更新する。他の２つのソースレジスタＺｍ、Ｚｕは、それぞれメタデータとペアの上位要素を表す。同様に、これらはベクトルレジスタであり、したがって、それぞれのレジスタに対応して配置されたベクトル要素の各セットに対して、処理の多数の独立したレーンが実行される。このとき、対応する要素の各セットに対して実行される動作は、重複クリア動作３６０であり、これは、ＨＰＡ要素ＬｉとＵｉとのペアの値及び対応するメタデータＭｉを入力として取り、更新値Ｌｉ’を生成して、デスティネーションレジスタＺｄｌの対応するレーンに書き戻す。

重複クリア関数３６０のそれぞれで実行される動作は、図１４の下部に示されている。図１４に示すように、重複クリア動作は、単に下位要素Ｌｉの重複ビットを０にクリアするだけであり、０に設定されるビット数は、メタデータＺｍの対応する要素Ｍｉで指定された重複ビット１９４の数に依存する。下位要素の非重複ビットは変更されないままである。下位要素も上位要素も特殊値を表していない場合、下位要素内の重複ビットのクリアは上位要素Ｚｕとは無関係である。

下位要素Ｌｉの最上位ビットが１に設定されて特殊値を示す場合、更新値Ｌｉ’が入力値Ｌｉと等しくなるように、下位要素は変更されないままにすることができる。必要に応じて、上位要素Ｕｉが特殊な場合、下位要素も変更されないままにすることができるが、これは必須ではない。特定の実施形態において、上位要素が特殊値として示されているかどうかに関係なく重複クリアが実行される場合、命令は、上位要素Ｕｉに対応するレジスタＺｕを指定する必要が全くない。しかし、デスティネーションレジスタへの不必要な書き込みの実行を回避するために、上位要素が特殊であるかどうかに依存することは、動作に有用であり得る。図１３の重複伝搬命令とは異なり、図１４の重複クリア命令では、ＨＰＡ値内の隣接する要素の所与のペアの下位要素から上位要素に特殊値を伝搬することが望ましい可能性は低く、これは、命令用の第２のデスティネーションレジスタが必要であり、多くのマイクロアーキテクチャにはこれを行うのに十分な書き込みポートを有していない可能性があるためである。

したがって、使用時には、図１４の重複クリア命令は、図１３に示すような重複伝搬命令に続き得ることが予想され、重複クリア命令は、下位レジスタ及び上位レジスタとして指定された同じレジスタのペアに作用する。この動作を２つの別個の命令に分割することは、各命令が１つのデスティネーションレジスタを指定するだけでよいことを保証するのに有用であり、上述したように、これは、マイクロアーキテクチャにおいて実装するのがより簡単である。

しかしながら、同じ命令に応答して更新される２つの異なるデスティネーションレジスタを指定する命令が許可されるアーキテクチャでは、結合された命令が図１３及び図１４の両方の関数を実行することが可能である。つまり、非特殊入力の場合、命令は、下位要素の重複ビットを上位要素の非重複ビットに加算することと、下位要素の重複ビットを０にクリアすることとの両方をトリガすることができる。そのような命令は、図１３及び１４に関して前述したのと同じ方法で特殊値を処理することができ、いずれかの値が入力レジスタにおいて特殊である場合、出力値は変更されないままになるか、又は下位要素の型情報が上位要素に伝搬される。

図１３及び図１４は、重複伝搬命令及び重複クリア命令によって作用される第１及び第２のアンカーデータ要素が、同じＨＰＡ値の隣接する要素Ｌｉ、Ｕｉのペアである例を示すが、これは必須ではない。別の使用例として、重複伝搬／クリア命令によって指定された第１のアンカーデータ要素（Ｌｉ）が所与のＨＰＡ値の最上位要素であり、第２のアンカーデータ要素（Ｕｉ）が符号ビットのみが入力された「空」のＨＰＡ要素である場合がある。これは、第１のアンカーデータ値を含むＨＰＡ値を、より有意性の高いビットを含む別のＨＰＡ値に加算する場合に有用であり、この場合、第１のアンカーデータ値からのキャリービットを第２のＨＰＡ値内のより高い有意性の高いレーンに追加する必要があり、これは、最初に第１のＨＰＡ値の最上位要素から重複ビットを取り除き、そして、第２のＨＰＡ値の関連するＨＰＡ要素のレーン有意性に対応するレーン有意性を与えることができる他の「空」のＨＰＡ要素の非重複ビットにそれらを追加することによって、より簡単にすることができる。図１３及び図１４に示されている命令に対して他の使用例が可能であることが理解されよう。

図１５は、使用され得るシミュレータの実装形態を示している。先に説明した実施形態は、当該技術をサポートする特定の処理ハードウェアを動作するための装置及び方法の観点から本発明を実装するものであるが、コンピュータプログラムを使用して実装される本明細書に記載の実施形態に従った命令実行環境を提供することも可能である。このようなコンピュータプログラムは、ハードウェアアーキテクチャのソフトウェアベースの実装形態を提供する限りにおいて、シミュレータと呼ばれることが多い。シミュレータコンピュータプログラムの種類には、エミュレータ、仮想マシン、モデル、及び動的バイナリトランスレータを含むバイナリトランスレータが含まれる。典型的には、シミュレータの実装形態は、シミュレータプログラム４１０をサポートする、任意にホストオペレーティングシステム４２０を実行するホストプロセッサ４３０上で実行されてもよい。いくつかの構成では、ハードウェアと提供される命令実行環境との間に複数のシミュレーション層が存在してもよく、及び／又は、同じホストプロセッサ上で提供される複数の異なる命令実行環境が存在してもよい。歴史的に、合理的な速度で実行するシミュレータの実装形態を提供するためには、強力なプロセッサが必要とされてきたが、互換性又は再利用の理由から別のプロセッサにネイティブなコードを実行したい場合など、特定の状況では、そのようなアプローチが正当化される場合がある。例えば、シミュレータの実装形態では、ホストプロセッサのハードウェアではサポートされていない追加機能を備えた命令実行環境を提供すること、又は異なるハードウェアアーキテクチャに典型的に関連する命令実行環境を提供することができる。シミュレーションの概要は、「ＳｏｍｅＥｆｆｉｃｉｅｎｔＡｒｃｈｉｔｅｃｔｕｒｅＳｉｍｕｌａｔｉｏｎＴｅｃｈｎｉｑｕｅｓ」、ＲｏｂｅｒｔＢｅｄｉｃｈｅｋ、１９９０年冬ＵＳＥＮＩＸＣｏｎｆｅｒｅｎｃｅ、５３～６３頁に記載されている。

これまで、特定のハードウェア構成又は機能を参照して実施形態を説明してきたが、シミュレーションされた実施形態では、同等の機能を適切なソフトウェア構成又は機能によって提供することができる。例えば、特定の回路は、シミュレーションされた実施形態において、コンピュータプログラムロジックとして実装されてもよい。同様に、レジスタ又はキャッシュなどのメモリハードウェアは、ソフトウェアのデータ構造としてシミュレーションされた実施形態で実装することができる。先に説明した実施形態で参照されるハードウェア要素の１つ又は複数がホストハードウェア（例えば、ホストプロセッサ４３０）上に存在する構成では、いくつかのシミュレートされた実施形態は、適切な場合にはホストハードウェアを利用してもよい。

シミュレータプログラム４１０は、コンピュータ読み取り可能な記憶媒体（非一時的媒体であってもよい）に格納されてもよく、シミュレータプログラム４１０によってモデル化されているハードウェアアーキテクチャのアプリケーションプログラムインタフェースと同じであるプログラムインタフェース（命令実行環境）をターゲットコード４００（アプリケーション、オペレーティングシステム、ハイパーバイザを含んでもよい）に提供する。したがって、上述したＨＰＡ値の処理をサポートする命令を含むターゲットコード４００のプログラム命令は、シミュレータプログラム４１０を使用する命令実行環境内から実行されてもよく、上述した装置２のハードウェア機能を実際には有していないホストコンピュータ４３０がこれらの機能をエミュレートすることができる。シミュレータプログラム４１０は、ターゲットコード４００の命令をデコードして、ホストハードウェア４３０がサポートするネイティブ命令にマッピングするための命令デコードプログラムロジック４１２を含んでもよい。命令デコードプログラムロジック４１２は、ＨＰＡ処理命令を、上記のようなＦＰ変換、加算又は重複伝搬／クリア動作などのＨＰＡ（アンカーデータ処理）動作を実行するためのネイティブ命令のセットにマッピングするアンカーデータ処理プログラムロジック４１４を含む。

本出願において、「～ように構成される（configured to）」という用語は、装置の要素が、定義された動作を実行することができる構成を有することを意味するために使用される。このコンテキストにおいて、「構成」は、ハードウェア又はソフトウェアの相互接続の構成又は方法を意味する。例えば、装置は、定義された動作を提供する専用ハードウェアを有してもよく、又はプロセッサ若しくは他の処理デバイスは、機能を実行するようにプログラムされてもよい。「～ように構成される」は、定義された動作を提供するために、装置要素を任意の方法で変更する必要を意味しない。

本発明の例示的な実施形態が添付の図面を参照して本明細書で詳細に説明されてきたが、本発明はそれらの正確な実施形態に限定されず、添付の特許請求の範囲によって定義される本発明の範囲及び精神から逸脱することなく、当業者によって様々な変更及び修正を行うことができることを理解されたい。

Claims

装置であって、
データ処理を実行するための処理回路と、
アンカーデータ処理動作を実行してアンカーデータ要素を生成するように前記処理回路を制御する命令デコーダと、
を備え、
前記アンカーデータ要素は、前記アンカーデータ要素が、
前記アンカーデータ要素を使用して表現可能な所与の有意性の範囲に対応する２の補数のビットの一部分を表すか、又は
２の補数のビットの前記一部分以外の特殊値を表すか、
を示す型情報を含む符号化を有する、
装置。
前記処理回路は、前記アンカーデータ要素と同じレジスタに前記型情報を格納するように構成される、請求項１に記載の装置。
前記アンカーデータ処理動作は、浮動小数点値を前記アンカーデータ要素に変換するための浮動小数点からアンカーデータへの変換動作を含む、請求項１又は２に記載の装置。
前記浮動小数点値が特殊数を表す場合、前記処理回路は、前記アンカーデータ要素が前記特殊値を表すことを示す前記型情報を有する前記アンカーデータ要素を生成するように構成される、請求項３に記載の装置。
前記型情報は、前記浮動小数点値によって表される前記特殊数が正の無限大であるか、負の無限大であるか又は非数であるかを区別する、請求項４に記載の装置。
前記浮動小数点からアンカーデータへの変換動作において、前記処理回路は、前記アンカーデータ要素の前記所与の有意性の範囲を示すアンカーメタデータに基づいて、前記アンカーデータ要素を生成するように構成される、請求項３～５のいずれか１項に記載の装置。
前記型情報は、前記アンカーデータ要素が、
対応するアンカーデータ要素をオーバーフローさせた以前のアンカーデータ処理動作、及び、
前記浮動小数点値が１つ以上のアンカーデータ要素を含むアンカーデータ値の許容される数値範囲外であった以前の浮動小数点からアンカーデータへの変換動作
のうちのいずれか１つに依存する飽和型のアンカーデータ要素であるかどうかを指定する、請求項１～６のいずれか１項に記載の装置。
浮動小数点値を前記アンカーデータ要素に変換するための浮動小数点からアンカーデータへの変換動作において、前記処理回路は、
前記アンカーデータ要素が、１つ以上のアンカーデータ値を含むアンカーデータ値の最上位要素を表し、前記浮動小数点値を２の補数として表すには、前記アンカーデータ要素を使用して表現可能な前記所与の有意性の範囲よりも高い有意性の少なくとも１ビットが必要である場合、又は、
前記アンカーデータ要素は、１つ以上のアンカーデータ値を含むアンカーデータ値の最下位要素を表し、前記浮動小数点値を２の補数として表すには、前記アンカーデータ要素を使用して表現可能な前記所与の有意性の範囲よりも低い有意性の少なくとも１ビットが必要である場合
のいずれかの場合、前記飽和型を示すように、前記アンカーデータ要素の前記型情報を設定するように構成される、請求項７に記載の装置。
前記型情報の符号化は、前記飽和型として指定されたアンカーデータ要素について、前記アンカーデータ要素が正の値を表すか負の値を表すかを区別することができない、請求項７又は８に記載の装置。
前記処理回路は、２つのアンカーデータ要素の加算を実行して結果アンカーデータ要素を生成するための加算回路を含み、
前記アンカーデータ値によって表される２の補数のビットのそれぞれの一部分をそれぞれ示す１つ以上のアンカーデータ要素を含むアンカーデータ値の最上位要素を表す結果アンカーデータ要素を生成するときに、前記２つのアンカーデータ要素の前記加算がオーバーフロー引き起こした場合、前記加算回路は、前記結果アンカーデータ要素が前記飽和型であることを指定する前記型情報を有する前記結果アンカーデータ要素を生成するように構成される、
請求項７～９のいずれか１項に記載の装置。
前記アンカーデータ要素は、
前記アンカーデータ要素の所定のビットが第１の値を有する場合、前記アンカーデータ要素は２の補数のビットの前記一部分を表し、
前記アンカーデータ要素の前記所定のビットが第２の値を有する場合、前記アンカーデータ要素は前記特殊値を表す、
符号化を有する、請求項１～１０のいずれか１項に記載の装置。
前記アンカーデータ要素の前記所定のビットが前記第２の値を有する場合、前記アンカーデータ要素の少なくとも１つの更なるビットは、どの型の特殊値が前記アンカーデータ要素によって表されるかを表す、請求項１１に記載の装置。
前記アンカーデータ要素の前記所定のビットが前記第１の値を有する場合、前記アンカーデータ要素の前記少なくとも１つの更なるビットは、前記２の補数の前記一部分の一部、又は前記２の補数の前記一部分を表す前記アンカーデータ要素の一部からのキャリーを収容するための少なくとも１つの重複ビットを表す、請求項１２に記載の装置。
前記所定のビットは、前記アンカーデータ要素の最上位ビットである、請求項１１～１３のいずれか１項に記載の装置。
所与のアンカーデータ処理動作において、入力アンカーデータ要素が、前記入力アンカーデータ要素が特殊値であることを指定する前記型情報を有する場合、前記処理回路は、前記結果アンカーデータ要素が特殊値であることを指定する前記型情報を有する対応する結果アンカーデータ要素を生成するように構成される、請求項１～１４のいずれか１項に記載の装置。
前記処理回路は、２つのアンカーデータ要素の加算を実行して結果アンカーデータ要素を生成するための加算回路を含み、
前記２つのアンカーデータ要素の１つが正の無限大を表し、前記２つのアンカーデータ要素のもう１つが負の無限大を表すことを前記２つのアンカーデータ要素の前記２つの型情報が示す場合、前記加算回路は、前記結果アンカーデータ要素が非数を表すことを指定する型情報を有する前記結果アンカーデータ要素を生成するように構成される、請求項１～１５のいずれか１項に記載の装置。
前記アンカーデータ要素は、Ｖ個の重複ビット及びＷ個の非重複ビットを含むＮビット値であり、
浮動小数点値を前記アンカーデータ要素に変換するための浮動小数点からアンカーデータへの変換動作において、前記浮動小数点値が特殊数以外の数を表し、かつ前記浮動小数点値によって表される数が許容される数値範囲内にある場合、前記処理回路は、前記浮動小数点値に対応する２の補数のビットの一部分を表すように前記アンカーデータ要素の前記Ｗ個の非重複ビットを設定し、前記アンカーデータ要素の前記Ｖ個の重複ビットを前記Ｗ個の非重複ビットの符号拡張に設定するように構成される、
請求項１～１６のいずれか１項に記載の装置。
Ｎ－Ｖ－Ｗ＞０である、請求項１７に記載の装置。
前記処理回路は、重複伝搬命令に応答して、第１のアンカーデータ要素の前記Ｖ個の重複ビットを第２のアンカーデータ要素のＷ個の非重複ビットと整列させ、整列された重複ビット及び非重複ビットを加算して前記第２のアンカーデータ要素の更新値を生成する、請求項１７又は１８に記載の装置。
前記重複伝搬命令に応答して、前記第１のアンカーデータ要素及び前記第２のアンカーデータ要素のうちの１つが前記特殊値を指定する型情報を有する場合、前記処理回路は、
前記第２のアンカーデータ要素の以前の値を保持すること、又は、
前記第１のアンカーデータ要素の前記型情報が特殊値を示す場合、前記第１のアンカーデータ要素の前記型情報を前記第２のアンカーデータ要素の前記型情報に伝搬すること、
のうちの１つを実行するように構成される、請求項１９に記載の装置。
前記整列された重複ビット及び非重複ビットの前記加算が前記第２のアンカーデータ要素のオーバーフローを引き起こした場合、前記処理回路は、飽和型値を示すように前記第２のアンカーデータ要素の前記型情報を設定するように構成される、請求項１９又は２０に記載の装置。
前記処理回路は、重複クリア命令に応答して、ターゲットアンカーデータ要素の前記重複ビットをゼロにクリアする、請求項１７～２１のいずれか１項に記載の装置。
前記重複クリア命令に応答して、前記ターゲットアンカーデータ要素が前記特殊値を指定する型情報を有する場合、前記処理回路は、前記ターゲットアンカーデータ要素の以前の値を保持するように構成される、請求項２２に記載の装置。
命令を実行するための命令実行環境を提供するようにホストデータ処理装置を制御するためのコンピュータプログラムであって、前記コンピュータプログラムは、
データ処理を実行するように前記ホストデータ処理装置を制御する、ターゲットコードのプログラム命令をデコードするための命令デコードプログラムロジックを含み、
前記命令デコードプログラムロジックは、アンカーデータ要素を生成するためのアンカーデータ処理動作を実行するように前記ホストデータ処理装置を制御するアンカーデータ処理プログラムロジックを含み、
前記アンカーデータ要素は、前記アンカーデータ要素が、
前記アンカーデータ要素を使用して表現可能な所与の有意性の範囲に対応する２の補数のビットの一部分を表すか、又は、
２の補数のビットの前記一部分以外の特殊値を表すか、
を示す型情報を含む符号化を有する、
コンピュータプログラム。
データ処理方法であって、
１つ以上の命令をデコードすることと、
デコードされた命令に応答して、アンカーデータ要素を生成するためのアンカーデータ処理動作を実行するように処理回路を制御することと、を含み、
前記アンカーデータ要素は、前記アンカーデータ要素が、
前記アンカーデータ要素を使用して表現可能な所与の有意性の範囲に対応する２の補数のビットの一部分を表すか、又は、
２の補数のビットの前記一部分以外の特殊値を表すか、
を示す型情報を含む符号化を有する、データ処理方法。