JPH07210369A

JPH07210369A - 並列加算および平均演算を行うための回路およびその方法

Info

Publication number: JPH07210369A
Application number: JP6294231A
Authority: JP
Inventors: Ruby Bei-Loh Lee; ルビー・ベイ−ロー・リー; John Paul Beck; ジョン・ポール・ベック
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1993-11-29
Filing date: 1994-11-29
Publication date: 1995-08-11
Anticipated expiration: 2020-12-21
Also published as: DE69435047T2; DE69435047D1; EP0656582B1; US5883824A; EP0656582A1; JP3729881B2

Abstract

(57)【要約】【目的】加算器の幅よりも小さなワードを伴う多数の
加算を行う際に高効率で動作し、また単一のマシンサイ
クルで２つの数の平均を生成することのできる加算器を
提供すること【構成】２つの整数の平均の生成にも使用可能な装置
10,30,100である。この装置10,30,100は、入力された整
数のサブワードについて並列に演算を行う複数の副加算
器102へと分割可能なものである。従って、この加算器
は、各整数がある所定の長さのものである１組の２つの
整数の加算または減算を行うために、あるいは、各整数
の長さの合計が所定の長さ以下である場合に複数組の２
つの整数の加算または減算を行うために使用することが
できる。また、この装置10,30,100は、各サブワードの
和または差を２で除算した値を求めることもできる。単
一の命令に応じて並列演算を行うことが可能となる。そ
の２による除算結果は、その結果の偏りをなくすような
態様で丸められる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はコンピュータに関し、特
に、コンピュータで使用するための算術演算装置に関す
る。

【０００２】

【従来の技術】コンピュータは通常、所定の最大ビット
数の数値を加算する加算器を含む算術演算論理装置を備
えている。マイクロプロセッサ等では、32ビット長およ
び64ビット長のワード用の加算器が一般的である。それ
ら加算器はまた、それよりもずっと小さなワードについ
ても機能するが、その場合には、加算器に含まれる論理
回路の大部分がアイドル状態となる。例えば、64ビット
加算器を使用して２つの８ビットワードを加算すること
ができる。この加算は、対応する64ビットワードの最下
位部分に各８ビットワードを置き、次いでその64ビット
ワードを加算することにより行われる。この加算処理中
には、各ワードの上位７バイトの加算に関する論理回路
が事実上アイドル状態になる。したがって、この演算中
には加算器の能力の７／８が無駄になっている。

【０００３】マルチメディアデータ処理では、多数の小
さなワード対の加算を伴う計算に出会うことが多い。例
えば、２つのグレースケール画像を加算して加算画像を
生成することに関する問題について考察する。画像の各
画素は典型的には、その画像中の対応する一点における
光強度を表す１バイトの整数として格納される。記憶空
間は常に貴重なものであるので、画像の画素は一般には
ワードへとパックされる。コンピュータの基本ワードサ
イズが32ビットであれば、１ワードにつき４つの画素を
パックすることができる。各画像は100万個の画素を有
することができる。したがって、加算画像の計算には、
構成要素となる各画像から得た２つの画素を加算して加
算画像中の対応画素を生成することが含まれる。各画像
に100万個の画素が存在する場合には、そのような加算
を100万回実行しなければならない。各加算では、構成
要素となる各画像から１つずつ得た２ワードの「アンパ
ック」を行い、そのアンパックが行われた２つの１バイ
トを加算し、その結果を加算画像における１ワード内の
正しい１バイト中に記憶させる、ということが必要とさ
れる。

【０００４】コンピュータの基本ワードサイズが32ビッ
トである場合、そのコンピュータは、32ビット加算器を
有するのが普通である。上述のような計算時には、加算
器の加算能力の75％がアイドル状態となる。したがっ
て、従来の算術演算論理装置は、この種の画像計算を実
行する際には最適には使用されていない。

【０００５】この種の演算で行われる計算の回数は過度
なものとなり得る。このため、特殊並列コンピュータア
ーキテクチャを使用して、加算画像コマンドを実行して
から加算画像が完成するまでの時間を短縮させることが
多い。その全ての加算は互いに独立したものであり、こ
のため、その加算は順序にかかわらず並列に実行するこ
とができる。Ｍ個の加算器を備えたコンピュータは、原
則的には、メモリから加算器への画素の移動がネックに
ならない限り、１／Ｍの時間で結果を提供することがで
きる。したがって、多数の加算を並列に実行することが
可能なコンピュータアーキテクチャを提供するのが有用
であろう。残念ながら、このような追加の加算器とそれ
らを制御するのに必要なハードウェアとを提供するコス
トは法外な金額になることが多い。

【０００６】上述の画像加算に関する問題には平均画像
の生成が含まれることが多いことにも留意されたい。構
成要素となる各画像中の対応画素の平均である画素を有
する画像は、上述の加算画像の画素を生成してその各加
算画像画素の強度を２で除算したものと等価である。こ
の種の画像計算は、それによりオーバーフローが防止さ
れるので好適なものである。構成要素となる各画像の２
つの対応する画素値が128よりも大きな値を有する場合
には、その加算画像画素は８ビットの整数として表すこ
とができないものとなる。この問題を回避するために平
均画像が使用される。これは、構成要素となる画像の画
素が１バイト整数であれば平均画像画素は常に１バイト
整数として表すことができるからである。

【０００７】

【発明が解決しようとする課題】広範には、本発明の目
的は、改良された加算器を提供することにある。

【０００８】本発明の別の目的は、加算器の幅よりも小
さなワードを伴う多数の加算を行う際に高効率で動作す
る加算器を提供することにある。

【０００９】本発明のもう１つの目的は、単一のマシン
サイクルで２つの数の平均を生成することのできる加算
器を提供することにある。

【００１０】本発明の更なる目的は、加算器の幅よりも
小さな数の対の多数の平均値を計算するように適応させ
た加算器を提供することにある。

【００１１】本発明の上述その他の目的は、本発明の以
下の詳細な説明および図面から当業者にとって明らかな
ものとなろう。

【００１２】

【課題を解決するための手段】本発明は、２つの整数の
平均を生成するためにも使用することのできる算術演算
論理装置である。この算術演算論理装置は、入力された
整数のサブワードについて並列に演算を行う複数の副加
算器へと分割可能な加算器を含む。したがって、この加
算器は、各整数がある所定の長さのものである１組の２
つの整数を加算するために、また、各整数の長さの合計
が所定の長さ以下である場合には複数組の２つの整数を
加算するために使用することができる。この加算器は、
順序正しく接続された複数の加算器段から構成される。
各加算器段は、１つ以上のビットについて演算を行って
合計ビットおよび桁上げ出力ビットを生成する。入力さ
れたワードがサブワードへと区画化される際に桁上げ出
力がサブワードの境界を横切って伝搬するのを防止する
ために、サブワードの考え得る境界に切断回路が設けら
れる。

【００１３】２つのオペランドの平均を計算することの
できる本発明の実施例では、算術演算論理装置の各出力
ビットに、副加算器によって生成された結果に対して右
シフト演算を実施するマルチプレクサが含まれる。結果
の最上位ビットに接続されたマルチプレクサは、対応す
るサブワードの最上位ビットを加算することにより生成
された桁上げビットへと前記最上位ビットを接続する。
各結果の最下位ビットに接続されたマルチプレクサは、
平均結果の偏りを防ぐために奇数丸め(round odd)方式
を実施するよう修正可能なものである。

【００１４】

【実施例】本発明は、複数の部分ワード加算または平均
演算を並列に実行するように構成することのできる改良
された加算器である。図１を参照すると、本発明による
加算器10は、２つのＮビットオペランド12,14を受容す
る。第１オペランドの各ビットをＸ_i(i=0〜N-1)で示
し、第２オペランドの各ビットをＹ_iで示す。それらオ
ペランドは、通常はコンピュータのプロセッサ中の２つ
のレジスタに格納される。しかし、本発明は、コンピュ
ータ中に含まれない回路という形で実施することができ
る。加算器10は、従来の加算器として動作する場合に
は、ＸおよびＹの２の補数の和と１ビット桁上げ出力と
を有するＮビット出力ワード16を生成する。以下の説明
では、加算器10の出力16の各ビットをＺ_iで示すことと
する。加算結果は通常は、ＣＰＵのレジスタの１つに再
び格納される。

【００１５】以下の説明では、様々なワード中のビット
に最下位のものから最上位のものへと番号付けしてあ
る。即ち、Ｘ₀はオペランドＸの最下位ビットであり、
Ｘ_N-1はオペランドＸの最上位ビットである。ワードＹ,
Ｚについても同様の規則を用いることとする。

【００１６】本発明は、各オペランドを複数のサブワー
ドへと分割することを可能にする。説明を簡単にするた
め、まず、各オペランドを部分オペランドへと１回だけ
分割することに関して本発明を説明することとする。こ
の場合、オペランドＸの最初のｋビットＸ₀〜Ｘ_k-1は、
ワードＸの第１の部分オペランド18の各ビットであり、
残りのビットＸ_k〜Ｘ_N-1は、ワードＸの第２の部分オペ
ランド17の各ビットである。同様に、オペランドＹを部
分ワード19,20へと分割する。この態様では、ビットＺ₀
〜Ｚ_k-1は部分オペランド18,20の和のビットであり、ビ
ットＺ_k〜Ｚ_N-1は部分オペランド17,19の和のビットで
ある。以下の説明では、それら２つの結果を部分和また
はサブワード和と称することとする。以下で詳細に説明
するように、本発明は、２つの部分オペランドの各々の
平均値を計算するのに使用することも可能なものであ
る。平均値を計算する場合、ビットＺ₀〜Ｚ_k-1は部分オ
ペランド18,20の平均のビットであり、ビットＺ_k〜Ｚ
_N-1は部分オペランド17,19の平均のビットである。

【００１７】まず、桁上げ伝搬(carry propagate)アー
キテクチャとしても知られるリップル桁上げ(ripple ca
rry)アーキテクチャを利用した単一ビット加算段から構
成された加算器に関して本発明を説明することとする。
また、本発明による教示を他の加算器アーキテクチャに
利用する方法については後に詳述することとする。次に
図２を参照する。同図は、加算のみを実行する本発明に
よる加算器30の一部を示すブロック図である。即ち、加
算器30は平均計算を実行しない。加算器30は、１ビット
加算器段のアレイで構成されている。本発明は、加算器
が部分ワードについて並列加算を実行できるように段を
減結合させる(decouple)ことができる点で従来の加算器
とは異なるものである。各々の単一ビット加算器は、オ
ペランドＸからの１ビットおよびオペランドＹからの１
ビットの２ビットと、ｉ番目の段に関してＣ_iで示す加
算器の前段からの桁上げビットとを加算して、和ビット
および新しい桁上げビットを生成する。図２に示す２つ
の段は、部分オペランド18,20の最上位ビットと部分オ
ペランド17,19の最下位ビットとを加算するのに使用さ
れる単一ビット加算器である。例えば、単一ビット加算
器31は、ビットＣ_k-2,Ｘ_k-1,Ｙ_k-1を加算して和ビット
Ｓ_k-1および桁上げビットＣ_k-1を生成する。以下の説明
では、ビットＸ_p,Ｙ_pを加算して和ビットＳ_pを生成する
加算器の段を、加算器のｐ番目の段と称することにす
る。桁上げ伝搬を使用する従来の加算器では、各段から
の桁上げビットは、１ビット加算器のアレイにおいて各
段の桁上げビット入力をその前段の桁上げビット出力に
接続することにより、次の段へ伝搬される。

【００１８】本発明では、２つの部分オペランドを分離
する境界の直前の段からの桁上げビットがブロック化回
路33に接続されている。単一のワードとして扱われるレ
ジスタ12,14の内容全体について演算を行う従来の加算
器として加算器30を使用する場合には、ブロック化回路
33が、単一ビット加算器31の桁上げ出力を単一ビット加
算器32の桁上げ入力に接続する。加算器30を使用して各
レジスタ中のビットk-1とビットkとの間の部分ワード境
界で２つの加算を並列に実行する場合には、ブロック化
回路33は単に、単一ビット加算器31からの桁上げビット
が単一ビット加算器32の桁上げ入力に伝搬するのを防止
する。これは、１ビット信号Ｍ_kに応じて行われる。ビ
ットＭ_kを指定する方法について以下で詳述する。加算
器30の残りの段では、他の全ての単一ビット加算器の桁
上げ出力が従来の態様で接続される。このため、桁上げ
ビットは、特定の部分オペランドについて演算を行う加
算器30の各セクション内で従来の態様で伝搬する。各加
算器段からの和ビットは、対応する出力ポートのビット
に接続される。

【００１９】従来の加算器では、オペランドの最上位ビ
ットについて演算を行う単一ビット加算器からの桁上げ
ビットを使用してオーバーフローを検出する。この態様
を各部分オペランド毎に実施する場合には、各部分オペ
ランドの最上位ビットの加算による桁上げビットが適当
なオーバーフロー回路に接続される。本発明の一実施例
では、桁上げビットの論理和が求められ、その結果とし
て得られるビットを使用してオーバーフローが検出され
る。そのビットは、オーバーフロー時にトラップをトリ
ガするのに使用可能なものであり、また、そのビットと
単一ビットレジスタの内容との論理和を求めることもで
きる。後者の場合、プログラムは、レジスタの内容を検
査して、最後にレジスタが検査されてからの演算でオー
バーフローになったものがあるか否かを判定することが
できる。

【００２０】平均計算を実施しない場合には、本発明
は、２つの部分オペランド間の境界にまたがる可能性の
ある各々の段対の間にブロック化回路33等のブロック化
回路を単に設けることにより、従来の加算器から構成す
ることができる。Ｘ入力およびＹ入力を任意の数の任意
のサイズの部分オペランドへと分割する場合には、各々
の単一ビット加算器対の間にブロック化セクションを設
ける。このブロック化セクションは、各部分オペランド
の最上位ビットの位置を指定するビットＭ_kを有するマ
スクにより構成される。以下の説明では、このマスクを
境界マスクと称することにする。この境界マスクの各ビ
ットは、加算器中のレジスタに格納可能なものであり、
また、加算器が存在するプロセッサの命令デコード回路
により実行される命令から直接生成することも可能なも
のである。

【００２１】本発明の上記実施例は、オペランドの加算
を実行する。ブロック化回路33は、ブロック化回路のと
ころに境界を有する副加算器へと加算器が分割される加
算中に、桁上げビットを０と置換する。また、加算器が
同様に分割される２の補数の減算に加算器を使用する場
合には、桁上げビットを０ではなく１にしなければなら
ない。図２に示すブロック化回路33は、「０」または
「１」の値を有する入力Ｆを供給することにより加算お
よび減算を両方とも実施する。ブロック化回路33で境界
が活動状態である場合、Ｆの値は、次の段に与えられる
値となる。また境界が非活動状態である場合には、ブロ
ック化回路33は単に桁上げビットＣ_k-1を次段に送る。

【００２２】本発明の上述の実施例は平均計算を実行し
ないものである。これらの実施例は従来に勝る重要な利
点を提供するものであるが、本発明の好適実施例は、平
均を計算する機能を提供する追加的なハードウェアを提
供するものとなる。次いで、平均計算を実行するのに必
要となる追加的なハードウェアについて説明することと
する。２つのオペランドの平均は、２つのオペランドの
和を２で除算した値である。２で除算することは、２つ
のオペランドの和を右に１ビットだけシフトさせること
と等価である。その和の最下位ビットは失われる。平均
の最上位ビットは、部分オペランドの最上位ビットにつ
いて演算を行う単一ビット加算器の桁上げ出力となる。
例えば、部分オペランド18,20の平均は、Ｓ_iをＺ_i-1(ｉ
＝1,..,k-1)に経路指定し、Ｓ₀を廃棄し、Ｃ_k-1をＺ_k-1
に経路指定することによって計算することができる。

【００２３】入力の部分オペランドへの所与の分割に関
し、３種類の段がある。部分オペランドの最下位ビット
の加算を行う段は、平均計算を実行する際にその和ビッ
トを廃棄する。以下の説明では、この種の段を最下位ビ
ット段と称することにする。また、部分オペランドの最
上位ビットの加算を行う段は、その加算により生成され
た桁上げビットをその加算結果の最上位ビットへ経路指
定し、その和ビットをその加算結果の最上位ビットの次
のビットへ経路指定すると共に、桁上げ伝搬チェーンを
断たなければならない。以下の説明では、この種の段を
最上位ビット段と称することにする。また、最下位ビッ
トと最上位ビットとの間のビットの加算を行う段は、そ
の段が加算を実行する際に使用する位置の１つ右の位置
にその段の和ビットを経路指定しなければならない。即
ち、ｉ番目の段は、その和ビットをＺ_i-1に経路指定す
る。以下の説明では、この種の段を内側ビット段と称す
ることにする。

【００２４】部分オペランドの境界をワード中の任意の
点に位置させることができる実施例が可能ではあるが、
一般には、少数の位置にのみ境界を設ける方が有用とな
る。例えば、通常32ビットワードの加算を行うコンピュ
ータで加算器を使用する場合には、そのような４バイト
のワードを分割する境界が一層有用なものとなる。これ
は、そのようなシステムでは部分オペランドが通常は１
バイトまたは２バイトとなるからである。この場合、各
加算器段は、上述の３つの役割のうちの多くとも２つで
機能することができなければならない。段(N-1)は最上
位ビット段として働くだけでよい。同様に、段０は最下
位ビット段として働くだけでよい。その他の全ての段
は、加算器を全ワード加算に使用する場合には内側ビッ
ト段として機能することができなければならない。更
に、並列サブワード加算または平均の最上位ビット段ま
たは最下位ビット段になることができる段は、それらの
構成へと切り替えることができなければならない。

【００２５】各段の間には差が存在し、その差は、加算
器段がＸレジスタおよびＹレジスタのビットから和ビッ
トを如何に生成するかの詳細にではなく、各々の加算器
段により生成される和信号Ｓ_iが加算器の出力ビットＺ_i
に経路指定される態様にある。次に図３を参照する。同
図は、本発明による加算器100の一部を示すブロック図
である。加算器100は、加算セクション102が典型例であ
る複数の４ビット加算セクションから構成されている。
加算セクション102は、Ｘ,Ｙレジスタのビットq〜q+3に
ついて演算を行って和ビットＳ_q〜Ｓ_q+3を生成する。各
加算セクションは、Ｘレジスタから４ビット、Ｙレジス
タから４ビットを受容してそれらに対応する４つの和ビ
ットを生成する点で、４つの上述の単一ビット加算器と
機能的に等価なものである。更に、加算セクション102
は、桁上げビットＣ_q+3を生成し、桁上げビットＣ_q-1を
受容する。ブロック化回路110,112は、加算セクション1
02の両側に示されている。

【００２６】加算器100は、Ｎ個の和ビットＳ_i(i=0〜N-
1)を生成する。加算器100を単一オペランド加算器とし
て使用する場合には、i番目の和ビットＳ_iはその加算器
のｉ番目の出力ビットＺ_ｉに経路指定される。各出力ラ
インＺ_iはマルチプレクサに接続される。典型的なマル
チプレクサを図３に符号121,124で示す。マルチプレク
サは、平均信号Ａにより制御される。Ａが偽である場
合、Ｓ_iはＺ_iに接続される(i=0〜N-1)。またＡが真であ
る場合には、段の種類に関して上記説明の３つの可能性
が存在する。結果の内側のビットにのみなることができ
る出力ラインに接続されたマルチプレクサは、Ｓ_i+1を
Ｚ_iに接続する。マルチプレクサ122,123はそのようなマ
ルチプレクサの例である。

【００２７】第２の種類のマルチプレクサは、結果の内
側ビットまたは最上位ビットのいずれかになることので
きる出力ラインに接続されたものである。そのようなマ
ルチプレクサを符号121で示す。これらのマルチプレク
サを最上位ビットマルチプレクサと称することとする。
最上位ビットマルチプレクサは、３→１マルチプレクサ
であり、この３→１マルチプレクサは、Ａと、そのマル
チプレクサが結果の最上位ビットに接続されているか否
かを判定するマスクビットとに応じて動作する。Ａが偽
である場合、最上位ビットマルチプレクサはＺ_iをＳ_iに
接続する。また、Ａが真であり、マスクビットもまた真
である場合には、最上位ビットマルチプレクサはＺ_iを
Ｃ_iに接続する。ここで、Ｃ_iは、Ｓ_iを生成した段によ
り生成される桁上げビットである。また、Ａが真であ
り、マスクビットが偽である場合には、最上位ビットマ
ルチプレクサはＺiをＳ_i+1に接続する。Ｚ_N-1に接続さ
れたマルチプレクサは、２→１マルチプレクサで十分で
ある最上位ビットマルチプレクサである、ということに
留意されたい。これは、そのマルチプレクサが内側マル
チプレクサになり得ないからである。

【００２８】第３の種類のマルチプレクサは、結果の内
側ビットまたは最下位ビットのいずれかとなることので
きる出力ラインに接続されたものである。このようなマ
ルチプレクサを符号124で示す。これを最下位ビットマ
ルチプレクサと称することにする。平均演算の結果を切
り捨てることになる場合、即ち、結果の決定時にシフト
アウトされたビットを無視することになる場合には、最
下位ビットマルチプレクサは、内側ビットマルチプレク
サと同じである。

【００２９】切り捨ては、右にシフトすることにより整
数除算の結果を丸める方法として使用することができる
が、他の形の丸めでは防止可能な望ましくない問題を発
生させることがある。画像中の隣接画素の平均を求める
ことによりその画像のサイズを縮小する場合を考察す
る。即ち、４画素からなる各グループを１画素に置き換
え、その１画素が、置換される４画素の平均と等しい値
を有している、といった場合である。画像はＩ×Ｉ画素
アレイにより表される。画素の削減は、アレイ中の奇数
行および偶数行の平均を求めてＩ×Ｉ／２画素アレイを
生成することにより達成することができる。次いで、そ
の中間アレイの奇数列および偶数列の平均を求めて最終
的な(Ｉ／２)×(Ｉ／２)アレイを生成する。様々な平均
演算が常に切り捨てられる場合には、最終的な画像は元
の画像とは異なる統計的特性を有するものとなる。例え
ば、縮小された画像は、元のアレイよりも低い平均光強
度を有するものとなる。この種のアーチファクトを避け
ることが重要であることが多い。本発明は、この種の偏
った(biased)丸めを避けるための手段を提供する。

【００３０】本発明の好適実施例では、奇数丸め論理を
使用してこの偏りを防止している。奇数丸めシステムで
は、右シフトにより丸め誤差が発生した場合に、最も近
い奇数の整数に結果が丸められる。丸めを行う前の答え
が正確である場合には変更は加えられない。丸め誤差
は、結果から１がシフトオフされる場合に必ず発生す
る。これは、シフトされる前の最下位ビットが「１」で
ある場合に発生する。この場合、結果の最下位ビットは
「１」にセットされる。また、シフトアウトされるビッ
トが「０」である場合には、そのシフトを行った後でも
結果は正確であり、結果の最下位ビットは変更されな
い。本発明が奇数丸めを使用するのは、単一のＯＲゲー
ト131をマルチプレクサに追加することで奇数丸めシス
テムを実施できるからである。したがって、偏らない丸
めが使用される最下位ビットマルチプレクサでは、Ａが
真であり、当該マルチプレクサが結果の最下位ビットで
あることをマスクビットが示す場合に、前記マルチプレ
クサが、Ｚiに接続するための信号（Ｓ_i+1ＯＲＳ_i）
を選択する。また、Ａが偽である場合にはＳ_iがＺ_iに接
続される。また、Ａが真であり、出力ラインが結果の内
側ビットに接続されていることをマスクビットが示す場
合には、マルチプレクサはＺ_iをＳ_i+1に接続する。

【００３１】Ｓの値が一様に分散されている場合にはこ
の形態の丸めで得られる平均誤差が０であることを示す
ことができる。偶数丸め(round even)システムもまた丸
めの偏りを防止することが可能であるということに留意
されたい。偶数丸めシステムでは、丸め誤差が発生し、
丸めを行う前の結果が奇数である場合に、その結果が最
も近い偶数整数に丸められる。しかし、偶数丸め機構を
実施するのに必要とされるハードウェアの方がはるかに
複雑なものである。

【００３２】上述のマルチプレクサは、限られた数の考
え得る部分オペランド境界しか実施されないことを仮定
したものである。しかし、加算器が任意の境界を有する
場合には、０番目の段および(N-1)番目の段を除いた各
出力ラインに取り付けられたマルチプレクサは、３つの
考え得るマルチプレクサ機能のうちのいずれをも機能す
ることができなければならない。これら機能を提供する
マルチプレクサ構成200のブロック図を図４に示す。マ
ルチプレクサ構成200は、４→１マルチプレクサ201から
構成される。以下の説明では、マルチプレクサ200が出
力ラインＺqに接続されているものと仮定する。マルチ
プレクサ201は、平均信号およびマスクビットの状態に
応じてＳ_q+1、Ｓ_q、Ｃ_q、または（Ｓ_q+1ＯＲＳ_q）を
Ｚ_qに接続する。マルチプレクサ201は、最下位ビットマ
ルチプレクサまたは最上位ビットマルチプレクサとして
両方とも適切に機能しなければならないので、Ｍ_qおよ
びＭ_q+1の状態を共に判定することができなければなら
ない。

【００３３】本発明は、従来の加算器に比較してわずか
しか複雑でない加算器での並列加算または平均を提供す
ることに加え、計算の始めにデータがワードとしてパッ
クされる多種類の計算の全体的な計算効率も向上させる
ものである。ここで、32ビットワードサイズを有するコ
ンピュータ上で上述の画像サイズの縮小を行う際の問題
について考察する。各画素が１バイトの整数で表される
場合、記憶空間を節約するために画像データは通常はワ
ードとしてパックされる。したがって、画像中の各水平
ラインはＩ／４個の32ビットワードで表される。奇数ラ
インの画素をその奇数ラインに続く偶数ラインの画素に
加算するために、その奇数ラインの４画素を含む１ワー
ドをＸレジスタに入力し、そのワードに対応する偶数ラ
インからのワードをＹレジスタに入力することができ
る。次いで、結果的に得られる画像ラインのパックされ
た１ワードとしてＺレジスタの内容を直接メモリに格納
することができる。この演算は、個々のバイトをアンパ
ックして結果を再パックする必要なしに実行することが
できる。したがって、本発明は、単一の加算命令で４画
素を処理することを可能にし、従来の加算器で必要とさ
れるパック命令およびアンパック命令を不要とするもの
である。最後に、本発明は、２つの画素の平均を自動的
に生成し、これにより、各加算後の１回のシフト演算を
不要にする。

【００３４】更に、並列サブワード加算命令は、従来の
全ワード加算命令以下の複雑さを有するものである。従
来の全ワード加算では、オペランドを有する２つのレジ
スタ、および結果を保持するための第３のレジスタを、
プログラマが指定する。本発明も同様に、３つのレジス
タを指定するだけでよい。部分オペランドフィールドに
おいて考え得る加算器の構成が少数しかない場合には、
それら構成を加算命令に含めることができ、この場合に
は、対応するマスクビットを命令デコード回路が生成す
ることができる。したがって、加算器のセットアップを
行うための命令が別に必要となることはない。

【００３５】上記説明は、入力ワードおよび出力ワード
がプロセッサのレジスタ中に格納されていると仮定した
ものである。出力値および／または入力値が加算命令ま
たは平均命令で指定された場所に送られ、あるいはその
場所から受容される本発明の実施例は、当業者には明ら
かなものであろう。例えば、加算命令は、レジスタの最
下位ビットにそれぞれロードされる和を受容するための
複数のレジスタを指定することができる。同様に、レジ
スタ以外の場所、例えばメモリやその他の機能ユニット
に直接結果を送ることができる。更に、他の機能ユニッ
トまたはメモリから各オペランドを送り出すことが可能
であることも明らかであろう。

【００３６】上記実施例は、並列部分サブワード平均に
関して説明したものであるが、本発明を使用してワード
ＸおよびワードＹの内容全体に対して平均命令を実行す
ることも可能であることは当業者には明らかであろう。
そのような実施例は、１マシンサイクル中に２つの演
算、即ち加算と２による除算とを行うことができる、と
いう利益を提供するものである。

【００３７】本発明の上記実施例は、桁上げ伝搬型の加
算器に関して説明したものである。本発明の好適実施例
では、キャリールックアヘッドアーキテクチャが使用さ
れる。これは、遅延が一層少ないからである。キャリー
ルックアヘッド加算器では、桁上げ生成回路が、加算器
の各ビットに対応して伝搬信号および生成信号を１つず
つ生成する。これらの信号を上述の桁上げビットと類似
の態様で使用して、加算器を並列サブワード加算器に分
割することが可能となる。段ｋがサブワード結果の最上
位ビットについて演算を行うように加算器を分割する場
合を考察する。図２に示したブロック化回路33等のブロ
ック化回路を桁上げ生成論理回路中に挿入して、伝搬ビ
ットおよび生成ビットが実行中の演算の種類に応じて、
即ち加算または減算に応じて強制的に適当な値になるよ
うにすることができる。段ｋで、分割されていないワー
ドについて加算器を使用している場合には、そのブロッ
ク化回路は、その段ｋに対応する伝搬ビットおよび生成
ビットの値の修正を行うことはない。

【００３８】本発明の上記実施例は、本発明により実行
される様々な演算をトリガするための手段としての命令
に関して説明したものであるが、本発明の演算は、予め
格納されているコンピュータプログラムの命令により生
成されたのではない電気信号によってトリガ可能なもの
である、ということが当業者には明らかであろう。した
がって、特許請求の範囲で使用する「命令」という用語
は、他の形態の信号によりトリガされる演算もまた含む
ものである。更に、コンピュータの一部ではない回路で
本発明を使用することも可能であることが当業者には明
らかであろう。

【００３９】本発明の上記実施例は、符号なし整数の平
均を求めることに関して説明したものであるが、本発明
の教示は符号付き整数にも適用可能であることが当業者
には明らかであろう。この場合には、和の最上位ビット
から結果の最上位ビットへと桁上げ出力ビットを移動さ
せる代わりに、結果の最上位ビットが次のようにして求
められる。即ち、２つのオペランドが同じ符号のもので
ある場合には、上記と同様に結果の最上位ビットが桁上
げ出力ビットとなる。また、２つのオペランドが異なる
符号のものである場合には、結果の最上位ビットは、右
シフトを行う前の和の最上位ビットとなる。即ち、結果
の最上位ビットは、(Ｘ_pＡＮＤＹ_p)ＯＲ (Ｘ_pＯＲ
Ｙ_p) ＡＮＤバーＣ_p-1となる。キャリールックアヘッ
ド加算器の場合には、この式は、Ｇ_pＯＲＰ_pＡＮＤ
バーＣ_p-1となる。ここで、Ｇ_p,Ｐ_pは、最上位ビットに
関する生成ビットおよび伝搬ビットである。

【００４０】当業者であれば、上記説明および図面から
本発明の様々な修正例が明らかとなろう。したがって、
本発明は特許請求の範囲によってのみ制限されるもので
ある。

【００４１】以下においては、本発明の種々の構成要件
の組み合わせからなる例示的な実施態様を示す。

【００４２】１．ビットＸ_iを有するワードＸとビット
Ｙ_iを有するワードＹとの内容について演算を行ってビ
ットＺ_iを有する結果ワードを生成する装置であって、
ｉ＝0〜N-1であり、Ｚ₀が前記サブワードの内の１つの
最下位ビットであり、Ｚ_N-1が前記サブワードの内の１
つの最上位ビットである、前記装置において、この装置
が、前記ワードＸと前記ワードＹと前記結果ワードとを
複数のサブワードへと区画化する手段であって、前記ワ
ードＸの各サブワードに対応して前記ワードＹおよび前
記結果ワードのサブワードが１つずつ存在する、前記区
画化手段と、第１の命令に応じて前記Ｘの各サブワード
とそれに対応する前記Ｙの各サブワードとの和を生成す
る手段であって、その結果が、前記結果ワードの対応す
るサブワードを決定する、前記和生成手段とを備えてい
ることを特徴とする、前記装置。２．第２の命令に応じて前記ワードＸ中の各サブワード
とそれに対応する前記ワードＹ中のサブワードとの差を
生成する手段であって、その結果が、前記結果ワードの
対応するサブワードを決定する、前記手段を更に備えて
いる、前項１記載の装置。

【００４３】３．第３の命令に応じて前記ワードＸ中の
各サブワードとそれに対応する前記ワードＹ中のサブワ
ードとの和を２で除算した値を生成する手段であって、
その結果が、前記結果ワードの対応するサブワードを決
定する、前記手段を更に備えている、前項１記載の装
置。

【００４４】４．前記の２での除算の結果として丸め誤
差が生じた場合に、前記の各結果が１つ下の奇数整数に
丸められる、前項３記載の装置。

【００４５】５．第４の命令に応じて前記ワードＸ中の
各サブワードとそれに対応する前記ワードＹ中のサブワ
ードとの差を２で除算した値を生成する手段であって、
その結果が、前記結果ワードの対応するサブワードを決
定する、前記手段を更に備えている、前項２記載の装
置。

【００４６】６．前記装置が、前記ワードＸからの１つ
以上のビットと前記ワードＹから得た対応するビットと
について演算を行う演算手段と、前記ワードＸの各ビッ
トに対応して生成ビットおよび伝搬ビットを１つずつ生
成する手段とを備え、前記区画化手段が、前記生成ビッ
トおよび前記伝搬ビットを強制的に、前記ワードＸの前
記ビットがサブワードの最上位ビットである場合に実行
される演算により決定される値にする手段を備えてい
る、前項１記載の装置。

【００４７】７．前記装置が、直列に接続された複数の
加算段を備えており、その各加算段が、前記ワードＸか
らの１つ以上のビットとそれに対応する前記ワードＹか
ら得たビットとについて演算を行う手段と、前記加算段
からの桁上げビットを前記直列接続中の次の加算段へ伝
搬させる手段とを備えており、前記区画化手段が、前記
桁上げビットを強制的に、前記加算段が前記ワードＸ中
の異なるサブワードのビットについて演算を行う場合に
実行される演算により決定される値にする手段を備えて
いる、前項１記載の装置。

【００４８】８．前記加算段が、Ｘ_iについての演算か
ら導出されるＮ個の結果ビットＳi(i＝0〜N-1)を生成
し、前記装置が、前記結果ビットの内の１つを示す信号
を各々が生成するＮ個の多重化手段を更に備え、その多
重化手段は、前記の各結果ビットＺ_p(p＝0〜N-1)毎に１
つずつあり、Ｚ_pに対応する前記多重化手段が、前記第
１の命令に応じてＳ_pをＺ_pに接続する、前項７記載の装
置。

【００４９】９．Ｚ_pに対応する前記多重化手段が、Ｚ_p
が１つの前記サブワードの内側にある場合に前記第３の
命令に応じてＺ_pをＳ_p+1に接続し、Ｚ_pが前記結果サブ
ワードの内の１つの最上位ビットである場合にはＺ_pを
Ｃ_pに接続し、そのＣ_pは、Ｚ_pを含む結果サブワードに
対応する前記Ｘのサブワードの最上位ビットについて演
算を行う前記加算段により生成される前記桁上げビット
である、前項８記載の装置。

【００５０】１０．Ｚ_pに対応する前記多重化手段が、
Ｚ_pが前記結果サブワードの内の１つの最下位ビットで
ある場合にＺ_pを(Ｓ_p+1ＯＲＳ_p)へ接続する手段を更
に備えている、前項９記載の装置。

【００５１】１１．前記演算手段が、Ｘ_iについての演
算から導出されるＮ個の結果ビットＳ_i(i＝0〜N-1)を生
成し、前記装置が、前記結果ビットの内の１つを示す信
号を生成するＮ個の多重化手段を更に備えており、前記
多重化手段が前記の各結果ビットＺ_p(ｐ＝0〜N-1)毎に
１つずつあり、Ｚ_pに対応する前記多重化手段が前記第
１の命令に応じてＳ_pをＺ_pに接続する、前項６記載の装
置。

【００５２】１２．サブワードの最上位ビットとなるこ
とができる各ビットＸ_pに対応する桁上げビットＣ_pを生
成する手段を更に備え、Ｚ_pに対応する前記多重化手段
が、Ｚ_pが前記サブワードの内の１つの内側にある場合
に前記第３の命令に応じてＺ_pをＳ_p ₊₁に接続し、Ｚ_pが
前記結果サブワードの内の１つの最上位ビットである場
合にＺ_pをＣ_pに接続し、Ｃ_pが、Ｚ_pを含む結果サブワー
ドに対応するＸのサブワードの最上位ビットについて演
算を行う前記加算段により生成される桁上げビットであ
る、前項１１記載の装置。

【００５３】１３．Ｚ_pに対応する前記多重化手段が、
Ｚ_pが前記結果サブワードの内の１つの最下位ビットで
ある場合にＺ_pを(Ｓ_p+1ＯＲＳ_p)に接続する手段を更
に備えている、前項１２記載の装置。

【００５４】１４．ビットＸ_iを有するワードＸと、ビ
ットＹ_iを有するワードＹとの内容について演算を行っ
てビットＺ_iを有する結果ワードを生成する装置であっ
て、ｉ＝0〜N-1であり、Ｚ₀が最下位ビットであり、Ｚ
_N-1が最上位ビットである、前記装置において、平均命
令に応じて前記ワードＸおよび前記ワードＹの和を生成
する手段と、その和をシフトさせて前記ワードＺを生成
する手段とを備えることを特徴とする、前記装置。

【００５５】１５．前記シフトの結果として丸め誤差が
生じた場合に、前記ワードＺが１つ下の奇数整数へと丸
められる、前項１４記載の装置。

【００５６】１６．前記装置が、直列に接続された複数
の加算段を備えており、その各加算段が、前記ワードＸ
からの１つ以上のビットとそれに対応する前記ワードＹ
から得た対応するビットとについて演算を行う手段を備
えており、それら加算段がＮ個の結果ビットＳ_i(ｉ＝0
〜N-1)を生成し、Ｓ_iがＸ_iおよび桁上げ出力ビットＣ
_N-1についての演算から導出され、および、前記装置が
Ｎ個の多重化手段を更に備えており、その各多重化手段
が、前記結果ビットの内の１つを示す信号を生成し、前
記の各結果ビットＺ_p(ｐ＝0〜N-1)毎に１つずつ存在
し、そのＺ_pに対応する前記多重化手段が前記平均命令
に応じてＳ_pをＺ_pに接続する、前項１４記載の装置。

【００５７】１７．差命令に応じて前記ワードＸと前記
ワードＹとの差を２で除算した値を生成する手段を更に
備えており、その生成結果が前記結果ワードを決定す
る、前項１４記載の装置。

【００５８】１８．Ｚ_pに対応する前記多重化手段が、p
＝0〜N-2である場合に前記平均命令に応じてＺ_pをＳ_p+1
へ接続し、p＝N-1である場合にはＺ_pをＣ_N-1へ接続す
る、前項１６記載の装置。

【００５９】１９．Ｚ_pに対応する前記多重化手段が、p
＝0である場合にＺ_pを(Ｓ_p+1ＯＲＳ_p)へ接続する手段
を更に備えている、前項１８記載の装置。

【００６０】２０．サブワードの最上位ビットとなるこ
とができる各ビットＸ_pに対応する桁上げビットＣ_pを生
成する手段を更に備え、Ｚ_pに対応する前記多重化手段
が、Ｚ_pが前記サブワードの内の１つの内側にある場合
に前記第３の命令に応じてＺ_pをＳ_p ₊₁へ接続し、Ｚ_pが
前記結果サブワードの内の１つの最上位ビットである場
合にはＺ_pをＳ_pに接続する、前項１１記載の装置。

【００６１】

【発明の効果】本発明は上述のように構成したので、加
算器の幅よりも小さなワードを伴う多数の加算を行う際
に高効率で動作し、また単一のマシンサイクルで２つの
数の平均を生成することのできる加算器を提供すること
ができる。

【図面の簡単な説明】

【図１】本発明による加算器を示すブロック図である。

【図２】加算のみを実行する本発明による加算器の一部
を示すブロック図である。

【図３】本発明による加算器の一部を示すブロック図で
ある。

【図４】本発明の実施例を構築するのに利用可能なマル
チプレクサ構成を示すブロック図である。

【符号の説明】

10 加算器 12,14 Ｎビットオペランド 16 Ｎビット出力ワードＸ_i,Ｙ_i ビットＸ₀, Ｙ₀ 最下位ビットＸ_N-1,Ｙ_N-1 最上位ビット 17,18,19,20 部分オペランド

Claims

【特許請求の範囲】

【請求項１】ビットＸ_iを有するワードＸとビットＹ_iを
有するワードＹとの内容について演算を行ってビットＺ
_iを有する結果ワードを生成する装置であって、ｉ＝0〜
N-1であり、Ｚ₀が前記サブワードの内の１つの最下位ビ
ットであり、Ｚ_N-1が前記サブワードの内の１つの最上
位ビットである、前記装置において、この装置が、前記ワードＸと前記ワードＹと前記結果ワードとを複数
のサブワードへと区画化する手段であって、前記ワード
Ｘの各サブワードに対応して前記ワードＹおよび前記結
果ワードのサブワードが１つずつ存在する、前記区画化
手段と、第１の命令に応じて前記Ｘの各サブワードとそれに対応
する前記Ｙの各サブワードとの和を生成する手段であっ
て、その結果が、前記結果ワードの対応するサブワード
を決定する、前記和生成手段とを備えていることを特徴
とする、前記装置。