JP2002519957A

JP2002519957A - 符号関数を処理する方法および装置

Info

Publication number: JP2002519957A
Application number: JP2000557623A
Authority: JP
Inventors: モハメットサザード、シャリフ
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-06-26
Filing date: 1999-06-24
Publication date: 2002-07-02
Also published as: WO2000001159A1; US6292814B1; US6397237B1; US20020042801A1

Abstract

(57)【要約】符号（ｘ）関数を処理および使用する方法および装置を開示する。本発明によれば、符号（ｘ）関数は、例えば、本発明の簡単な回路を中央処理装置（CPU）に組み込むことによりハードウェアで処理される。符号（ｘ）関数を処理する既知のソフトウェアアプローチとは異なるハードウェアアプローチをすることにより、本発明は、SISDシステムおよびSIMDシステムの両方に良く適した効率的な符号（ｘ）関数の処理を行う。本発明に従って符号（ｘ）関数を処理するのに必要なハードウェアは、比較的簡単でかつ符号（ｘ）関数を単一のプロセッサクロックサイクルで決定することができる。これは、ソフトウェア実施形態では、符号（ｘ）関数を決定するのに、通常、複数のプロセッサクロックサイクルを必要とすることとは顕著な相違である。プロセッサ符号（ｘ）コマンドは、符号（ｘ）関数を遂行するハードウェアがプロセッサに組み込まれた実施形態にサポートされる。単一の符号（ｘ）回路をプロセッサに組み込むことにより、SISD符号（ｘ）関数をサポートできる。本発明に従って、プロセッサ内で基本符号（ｘ）ハードウェアを二重にすることにより、SIMD符号（ｘ）関数を処理できる。本発明の符号（ｘ）ハードウェアおよび新規な符号（ｘ）プロセッサコマンドは、符号（ｘ）関数が遭遇する種々のアプリケーションを容易化するのに使用できる。

Description

【発明の詳細な説明】

【０００１】（技術分野）本発明は、例えば単一命令複数データ（single instruction multiple data:
SIMD）システムに使用するのに適した符号関数（sign function）を処理および
使用する方法、ならびに装置に関する。

【０００２】（背景技術）符号（ｘ）関数：

【０００３】

【数１】は、多くの共通アプリケーションにおいて見られる。

【０００４】単一命令単一データ（single instruction single data: SISD）プロセッサの
使用を含むアプリケーションでは、符号（ｘ）関数は、個々のプロセッサ命令（
例えば等号（＝）試験の前に行われる不等号（＞）試験）として処理される一連
の論理試験として頻繁に実行される。一連のすべての試験の出力が真正ならば次
の試験を行う必要はない。なぜならば、SISD実施形態では、符号（ｘ）関数の出
力は、関数の処理に使用される論理試験（＞、＝、＜）のいずれか１つの真正結
果から生成できるからである。

【０００５】従って、共通SISDプロセッサを使用すれば、符号（ｘ）関数は、ソフトウェア
／ハードウェアサポート形論理試験の使用により比較的容易に処理できる。この
ため、数ある中で、アプリケーション設計者は、例えばビデオ処理演算を含むア
プリケーションを設計するときに、符号（ｘ）関数の使用を回避する必要性を殆
ど考えていない。

【０００６】 ISO/IEC 13818-2（１９９４年１１月９日）の論文「Generic Coding of Movin
g Picture and Associated Audio Information: Video」（以下、「MPEG」参考
文献と呼ぶ）に記載されている、一般にMPEG-2規格と呼ばれる動画の符号化につ
いての１つの規格はビデオデータを符号化するために、離散コサイン変換、デー
タ量子化およびモーション補償形予測の使用に依存するところが大きい。本件特
許出願では、MPEG-2準拠のデータストリームおよびMPEG-2準拠の逆量子化演算に
関する参考文献は、MPEG参考文献に記載されている条件に従って処理されるデー
タストリームおよび逆量子化演算を参考にしたものであると考えている。

【０００７】 MPEG参考文献には、MPEG-2規格に準拠するビデオビットストリームの復号化に
含まれる処理が詳細に説明されている。多くの処理は、ビデオビットストリーム
の復号化に含まれる。低コストビデオデコーダの開発にとって重要なことは、こ
れらの処理を効率的に実装する方法である。MPEG-2画像の復号化に含まれるこれ
らの処理の１つは逆量子化と呼ばれている。

【０００８】量子化は、デジタル符号語の有限集合からの要素が、サンプリングされた信号
のおおよその値を表すのに使用される構成の信号のデジタル処理、例えばビデオ
符号化に使用される処理である。入力サンプルの量子化処理により作られるデジ
タルコード語は、処理される信号の元の振幅の近似値を表す。

【０００９】逆量子化とは、量子化の逆の処理である。逆量子化処理は、その入力として、
符号語の有限集合からのデジタル符号語を取り入れ、サンプルの元の振幅の近似
値であるいわゆる再構成レベルを作る。

【００１０】 MPEG-2規格は、DCT係数の逆量子化方法を定義する。MPEG-2逆量子化処理を実
行しようとするときに遭遇する重要な問題は、逆量子化に必要な符号（ｘ）関数
の計算である。

【００１１】 MPEG-2規格によれば、１つの８×８ブロックの係数群の逆量子化は、下記式（
２）〜（６）により説明される。

【００１２】

【数２】ここで、

【００１３】

【数３】および

【００１４】

【数４】 QF[v][u]はデジタル符号語または量子化されたDCT係数の二次元配列、W[w][v][u
]は量子化器マトリックス（quantizer matrix）、および量子化器＿スケール（q
uantizer_scale）は１つ以上のマクロブロックに使用される共通スケーリングフ
ァクタである。パラメータｖ、ｕは各DCT係数を索引付けするのに使用され、パ
ラメータｗは符号化形式（INTRAまたはNON-INTRA）および色要素（輝度またはク
ロミナンス（chrominace））に依存するものである。この段階に続いて、結果は
、再構成値が許容範囲内にあることを確保するための飽和段階に至る。これは、
下記式（５）で示される。

【００１５】

【数５】逆量子化処理での最終段階は、下記のようなミスマッチ制御を行うことである。

【００１６】

【数６】式（２）〜（６）により説明される段階は、MPEG-2規格に完全に準拠する逆量
子化処理にとって必要である。図１に示す表Ｉには、処理すべき６４個の値を表
す６４個の係数のブロックに対し、１つの特に知られたMPEG-2逆量子化演算を行
うのに必要な離散演算（discrete operation）のおおよその回数が示されている
。表１では、２つの比較演算を用いて、処理された各係数について符号（ｘ）関
数を処理すると仮定していることに留意されたい。

【００１７】特に、式（６）で表されるミスマッチ制御演算は、MPEG-2逆量子化処理でのす
べての段階のうちで最も複雑であると思われるが、実際に必要とされるのは最小
の計算量、すなわち全体の約１０％である。符号（ｘ）関数はミスマッチ制御に
比べて非常に簡単にみえるが、符号（ｘ）関数の計算に要するコストは、必要な
全計算数の約２０％である。

【００１８】従って、逆量子化演算を処理するのに必要な計算数の減少を試みるとき、符号
（ｘ）関数は、遂行する必要のある計算数に関する改善の可能性がある領域を与
える。

【００１９】計算効率および処理能力を高めるため、単一命令、複数データ、（SIMD）プロ
セッサ設計、およびシステムがより一般的になっている。SIMDアーキテクチャは
、単一のｎビットワードを、個別に処理すべき別々のサブワード（たとえばｋ個
）からなるものとして扱うことにより、複数のデータ要素を同時に処理すること
を可能にする。良く設計されたSIMDアーキテクチャシステムは、より伝統的な単
一命令単一データ（Single-Instruction Single Data: SISD）アーキテクチャシ
ステムのかなりの性能的利益を得ることができる。SIMDアーキテクチャの一例と
して、マイクロプロセッサ領域に現に使用されているMMX技術がある。

【００２０】説明上の目的から、同時に４つのデータサンプルで演算するSIMDアーキテクチ
ャに基いたシステムが存在すると仮定する。このようなシステムでは、データサ
ンプルは、図２の模式図に示す配置で処理ユニットに提供されるべきである。こ
こで、ｎビットの長さをもつ１つのワードは、４つのサブワード（各サブワード
の長さはｎ／４ビットである）を含んでいる。従って、例えば１つのｎビットワ
ードがプロセッサに提供されたとしても、実際には、当該ワード内に埋め込まれ
た４ピースのデータが存在する。SIMD処理ユニットに提供されると、これらの各
１／４ワードが他から独立して扱われる。一つのワードに含まれるデータ要素の
独立処理は、SIMD処理の主要な特徴の１つである。

【００２１】 SIMD処理の一例として、２つの数集合{ａ、ｂ、ｃ、ｄ}と{ｅ、ｆ、ｇ、ｈ}と
を掛け合せて、積{ａ・ｅ}、{ｂ・ｆ}、{ｃ・ｇ}および{ｄ・ｈ}を得たい場合を
想定する。例示のSIMDアーキテクチャでは、図４に示したものと同じ２つのデー
タ要素をセットアップできる。これらのうちの１つは集合{ａ、ｂ、ｃ、ｄ}をを
含み、他は集合{ｅ、ｆ、ｇ、ｈ}を含んでいる。これらは、所望の乗算のための
SIMD処理ユニットに提供される。この処理ユニットは、計算中の独立量として入
力データワードの４つのクウォータを処理する。これによる重要な帰結は、いず
れかのクウォータの乗算がオーバーフローしても、このオーバーフローが隣接ク
ウォータに影響を与えないことである。４つの乗算が同時に行われ、これにより
、同じクロック速度で作動するSISD処理ユニットに比べて性能が飛躍的に高くな
る。この例から、SIMDアーキテクチャは、複数データピースの並列処理に極めて
有効であることが理解されよう。

【００２２】 SISDプロセッサ実施形態での一連のプロセッサ命令として符号（ｘ）関数を実
装することは、比較的直接的である。しかしながら、SIMDプロセッサ環境での符
号（ｘ）関数の実装は、比較的複雑になっている。

【００２３】 SIMDアーキテクチャでの符号（ｘ）関数の実装の複雑さは、ｎビットワードの
要素に適用されるSIMD（＜、＝または＞）の真の結果が、各ｎビットサブワード
についての異なる結果を招くという事実から生じる。従って、SIMDプロセッサで
符号（ｘ）関数を処理するときには、通常、少なくとも２つの論理試験（各試験
は１つのプロセッサクロックサイクルを必要とする）を行って、ｎビットワード
の各サブワードについて適当な値を決定しなければならない。かくして、ソフト
ウェアおよび慣用のプロセッサ論理演算を用いてSIMD環境において符号（ｘ）演
算を遂行するときには、通常、所望の符号（ｘ）関数出力を発生させるのに２つ
以上のプロセッサクロックサイクルを必要とする。

【００２４】ビデオ復号化、より詳しくはリアルタイムビデオ復号化の場合には、ビデオ信
号の復号化に要するクロックサイクル数を低下させ、これにより所与のプロセッ
サ速度での処理能力を増大させることが望まれている。従って、ビデオデコーダ
としての実施形態では、遂行すべき関数について、できる限り小さいクロックサ
イクル数を必要とする態様で、符号（ｘ）関数を実装することが望ましい。

【００２５】上記観点から、新規で改善された符号（ｘ）関数の実装方法が要望されている
ことが明らかになっている。いかなる新規な方法も、遂行すべきプロセッサ命令
の数に関して符号（ｘ）関数を効率的に遂行できることが望ましい。また、符号
（ｘ）関数は、比較的少数のプロセッサクロックサイクルを用いて遂行できるこ
とも望まれている。更に、符号（ｘ）関数を処理するいかなる新規な方法および
装置も、SIMDアーキテクチャ、特にSIMDプロセッサでの使用に首尾良く適合する
ことが望まれている。

【００２６】任意の新規な方法および装置の処理能力の長所が得られる新規なSIMDおよびSI
SDプロセッサ命令も望まれている。

【００２７】（発明の開示）本発明は、符号（ｘ）関数を実装し、かつ使用する方法および装置に関する。
本発明によれば、符号（ｘ）関数はハードウェアで処理される。

【００２８】本発明は、符号（ｘ）関数を処理するのに、既知のソフトウェアアプローチで
はなくハードウェアアプローチを採用することにより、SISDシステムおよびSIMD
システムの両方に首尾良く適合する効率的な符号（ｘ）関数の処理が行える。

【００２９】本発明に従って符号（ｘ）関数を処理するのに必要なハードウェアは、比較的
簡単でかつ符号（ｘ）関数を単一のプロセッサクロックサイクルで決定すること
ができる。これは、ソフトウェア実施形態での符号（ｘ）関数の決定には、通常
、複数のプロセッサクロックサイクルが必要とされることと比べて顕著な相違で
ある。

【００３０】プロセッサ符号（ｘ）コマンドは、符号（ｘ）関数を処理するハードウェアが
プロセッサに組み込まれている実施形態にサポートされる。単一の符号（ｘ）回
路をプロセッサに組み込むことにより、SISD符号（ｘ）関数をサポートできる。
本発明に従ってプロセッサ内の基本符号（ｘ）ハードウェアを２つにすることに
より、SIMD符号（ｘ）関数を処理できる。

【００３１】本発明の符号（ｘ）ハードウェア、新規な符号（ｘ）SISDおよびSIMDプロセッ
サ命令は、符号（ｘ）関数が遭遇する種々のアプリケーション（MPEG-2逆量子化
演算を含むビデオ復号化アプリケーションを含む）を容易にするのに使用できる
。

【００３２】（発明を実施するための最良の形態）以下、本発明の他の種々の特徴および実施形態を詳細に説明する。

【００３３】前述のように、本発明は、符号関数を実装および使用する方法および装置に関
する。本発明によれば、符号（ｘ）関数は、例えば、本発明の簡単な回路を中央
処理装置（CPU）に組み込むことにより、ハードウェアで実装される。本発明の
方法および装置は、SISDシステムおよびSIMDシステムのいずれにも、符号（ｘ）
関数を実装するのに良く適している。

【００３４】符号（ｘ）関数を効率的に実装できる本発明の方法および装置を以下に説明す
る。

【００３５】説明の目的上、本発明のSIMDシステムの基本的なデータワードはｎビットを有
すること、およびこれらのｎビットは、図４に示すように、ｋ個の独立サブワー
ド（各サブワードはｎ／ｋビットの長さを有する）に区分される。この場合、画
像の一部を表すｎ／ｋ個の量子化係数（quantized coefficients）の集合は、個
々の各係数がｋより小さいビットで容易に表わされると考えれば、単一ワードに
記憶できる。

【００３６】ビデオデコーダとしての実施形態の場合には、ｎ／ｋ個の量子化係数の各々の
符号（ｘ）関数は、効率的態様で同時に計算することが望まれる。これは、各係
数を単一ワード内に置き、次に本発明に従ってSIMD符号（ｘ）演算を遂行するこ
とにより行われる。

【００３７】本発明は、SIMDアーキテクチャではｎビットワードの各サブワードが独立的に
処理されるという事実に長所を有している。従って、ｎ／ｋ個の量子化係数の符
号（ｘ）関数を同時に計算する回路は、並列的に演算する１つの「原子的」回路
を多重にした例であると考えることができる。

【００３８】図５には、単一のｋビット入力値ｘについて符号（ｘ）関数を効率的に処理す
る本発明の符号（ｘ）回路５０が示されている。図示のように、符号（ｘ）回路
５０は、バス６０と、ｋ入力ORゲート６２とを有している。符号（ｘ）回路５０
の入力値および出力値の記憶に、それぞれ、第１および第２ｋビットレジスタ５
２、５４が使用される。出力が入力として同じレジスタに記憶される実施形態で
は、入力を上書きする出力に、単一のレジスタ５２を使用できる。

【００３９】図５の例示実施形態では、２の補数表示が使用される。従って、入力値ｘの最
上位ビット、すなわち入力レジスタの位置５３に記憶されたｋ−１ビットは、入
力値ｘが正であるか負であるかを表示する。ｋ−１ビットが０の値を有するとき
は、値ｘが正の値であることを示す。ｋ−１ビットが１の値を有するときは、値
ｘは負の値であることを示す。

【００４０】符号（ｘ）回路５０は、その出力としてｋビットの値ｙを発生し、この値ｙは
第２ｋビットレジスタ５４に記憶される。レジスタの位置５５に記憶されたｙの
最上位ビットは、値ｙが正であるか負であるかを表示する。これは、入力レジス
タの位置５３に記憶されたビットが、入力値ｘが正であるか負であるかを表示す
るのと同様である。

【００４１】符号（ｘ）関数は、ゼロの入力値ｘに応答してゼロの出力値を発生する。従っ
て、入力値ｘのすべてのビットがゼロであるときは、出力値ｙのすべてのビット
はゼロでなくてはならない。

【００４２】符号（ｘ）関数は、ゼロより大きい入力値に応答して、正の出力値ｙを発生す
る。従って、入力値ｘがゼロより大きい正の値であるときは、出力値ｙは正の値
にセットされなくてはならない。かくして、入力値ｘが、最上位ビットがゼロで
あり、残りのビットのうちの１つ以上のビットに１がセットされているときは、
値ｙの最上位ビットはゼロにセットされ、最下位ビット（例えば０ビット）は１
にセットされ、出力値ｙの他のすべてのビットはゼロにセットされるべきである
。

【００４３】符号（ｘ）関数は、ゼロより大きい入力値に応答して、負の出力値ｙを発生す
る。２の補数表示では、負の出力値は、すべてのビットが１にセットされている
２進数で表される。従って、入力値ｘが、レジスタの位置５３に記憶された最上
位ビットが１であり、残りのビットのうちの１つ以上のビットに１がセットされ
ている（０より小さい負の値を表示する）ときは、出力値ｙのすべてのビットは
１にセットすべきである。

【００４４】図５の実施形態では、符号（ｘ）回路５０は、単一の論理演算子すなわちORゲ
ート６２およびバス６０を実装するための要素を使用して実装される。ORゲート
６２は、その入力として、入力値ｘのｋビットの各々を受け、かつ、これから、
出力値ｙの０番目のビット（0 place bit）５６として使用される単一ビット値
Ｔを発生する。バス６０は、レジスタ位置５３（この位置には、最上位ビットす
なわち入力値ｘのｋ−１ビットが記憶されている）を、ORゲート６２の入力の１
つ、および出力値ｙの１番目からｋ−１番目のビットを記憶するのに使用される
レジスタ５４の第１位置５７から第ｋ−１位置に接続する。この態様で、出力値
ｙのビットｙ₁〜ｙ_k-1は、入力値ｘの符号ビットｘ_k-1の値Ｓで母集団化（popul
ated）される。

【００４５】図５の実施形態では、入力ワードｘ＝[ｘ_k-1、ｘ_k-2、…、ｘ₀]である。本発
明に従って符号（ｘ）の値を計算するため、２つの単一ビット量Ｓ、Ｔが、ｘか
ら並列ハードウェア演算を介して得られる。ビット値Ｓは符号ビットｘ_k-1に等
しくなるようにセットされ、ビット値Ｔは、ｘの全ｋビットの論理ORを遂行する
ことにより得られる。符号（ｘ）回路５０の演算および入力値ｘからのビット値
Ｓ、Ｔの生成は、下記式（７）で表される。

【００４６】

【数７】式（７）の和記号(summation symbol)は、入力値ｘの全ｋビットの論理ORを示
すのに使用されることに留意されたい。出力値ｙ＝符号（ｘ）は、下記式（８）
に従ってＳおよびＴを使用して、回路５０により形成される。

【００４７】

【数８】入力ｘがゼロに等しい場合、すなわち入力値ｘのすべてのビットがゼロである
場合について考える。このような場合には、式（７）からＴ＝０およびＳ＝０と
なり、従って式（８）から出力はｙ＝[０、０、０、０…０、０]となり、これは
ゼロの入力値ｘが与えられた符号（ｘ）関数の所望出力ｙであることは明らかで
ある。

【００４８】入力ｘがゼロより大きいときは、符号ビットはゼロとなり、従って式（７）か
らＳ＝０を得る。また、入力ビットｘ_k-2、…ｘ₀の少なくとも１つは１になる。
ここで、ｘ_i′のすべてがゼロという訳ではないので、すべての入力ビットｘ_k-1 、…ｘ₀のOR６２は、Ｔ＝１の結果をもたらす。これは、０より大きい入力を与
えたときの所望の出力値＋１である。

【００４９】最後に、入力ｘがゼロより小さい場合には、符号ビットｘ_k-1、従ってＳは１
となる。ビットｘ_k-1は、値Ｔを発生するOR演算に使用されるので、Ｔの値は１
となる。この場合、式（７）からＳ＝１およびＴ＝１が得られ、これは、出力ｙ
＝[１、１、１、１…１、１]（これは、使用される２の補数系では−１である）
を形成する。

【００５０】上記例は、符号（ｘ）回路５０が符号（ｘ）関数を適正に遂行することを示し
ている。

【００５１】図５の実施形態では、符号（ｘ）関数の計算を１回の演算として遂行できる。
かくして、計算は、通常２回の論理演算を必要とする既知のソフトウェア実施形
態より５０％速くなる。

【００５２】符号（ｘ）回路５０は、単一のｋビット入力値で所望の符号（ｘ）演算を遂行
する。上記のように、SIMD環境では、符号（ｘ）関数はｎ／ｋ個のｋビットサブ
ワード単位で並列的に遂行されるのが望ましい。このような並列処理を達成する
ため、図６に示す本発明の実施形態によれば、符号（ｘ）回路５０は、ｎ／ｋ個
重複する。

【００５３】図６の実施形態では、ｎビットワード６９の各ｋビットサブワード７０、７２
、７４は、符号（ｘ）回路５０の１つによって、図５に関して上述した態様で別
々に処理され、それぞれ対応する出力８０、８２、８４を発生する。かくして、
図６に示す回路６００は、すべてのｎ／ｋ入力サブワードで同時に符号（ｘ）関
数を遂行する。

【００５４】ｋ入力ORゲートはｎ／ｋ回複写しなければならないので、図６の実施形態では
図５の実施形態に比べてハードウェアが増大されているが、ｎ／ｋ・符号（ｘ）
演算を並列的に遂行できる点で優れている。かくして、SIMD符号（ｘ）演算は、
単一プロセッサクロックサイクルで遂行できる。図５に示す基本符号（ｘ）回路
５０および図６に示す拡大符号（ｘ）回路６００は、例えば極めて速い処理を行
う超大規模集積（VLSI）技術を用いて容易に構成できる。これらの符号（ｘ）回
路５０、６００は、符号（ｘ）関数を単一プロセッサクロックサイクルで遂行さ
せるプロセッサ命令をサポートするためのプログラム可能な汎用プロセッサのコ
ア内に組み込むことができる。

【００５５】図７は、本発明の一実施形態に従って実装されるSIMDプロセッサ７００を示す
。図示のように、プロセッサ７００は、インターフェース７０２と、キャッシュ
メモリ７０６と、命令レジスタ／デコーダ回路７０４と、レジスタ配列７０８と
、算術論理ユニット（ALU）７１０とを有し、これらはすべて、バス７０５を介
して一体に接続されている。プロセッサ７００は更にクロック（CLK）７１１を
有しており、該クロック７１１は、プロセッサ７００に含まれる種々の回路によ
り遂行される演算のタイミングを制御するのに使用される。I/Oインターフェー
ス７０２は、プロセッサ７００をコンピュータバス７０３に接続するのに使用さ
れる。I/Oインターフェース７０２は、プロセッサ７００に含まれる種々の回路
と、バス７０３を介してインターフェース７０２に接続される例えばメモリおよ
び周辺デバイス等の回路との間を電気的にインターフェースする。

【００５６】プロセッサの内部で、キャッシュメモリ７０６は、プロセッサ７００の他の構
成要素が必要とする命令およびデータを記憶するのに使用される。命令レジスタ
／デコーダは、実行されるべき命令を発生させるALU７１０に対して供給される
命令の受信および信号の発生に応答する。本発明の一実施形態によれば、ALU７
１０により処理される命令は、符号（ｘ）関数を含んでいる。図７に示すSIMDプ
ロセッサの実施形態では、ALU７１０は、単一プロセッサクロックサイクルでSIM
D符号（ｘ）演算を遂行できる符号（ｘ）回路６００を有している。レジスタ配
列７０８は、ALU７１０により処理されかつ符号（ｘ）演算を含むALU演算の結果
として発生されるデータを記憶する複数のレジスタを有している。レジスタ配列
７０８はALU７１０との間の矢印で示すように該ALU７１０に緊密に接続されてお
り、このため、ALU７１０はレジスタ配列７０８の内容に迅速かつ効率的にアク
セスできることに留意されたい。

【００５７】 SISDプロセッサの実施形態も実施される。この実施形態では、図５に示した形
式の符号（ｘ）回路５０が、図７の実施形態の符号（ｘ）回路６００に置換され
る。

【００５８】図７に示すプロセッサは、たとえば、ビデオデコーダ回路の一部、またはMPEG
-2ビデオ復号化演算を行うのに使用される汎用コンピュータでもよい。

【００５９】上記のような回路が組み込まれた符号（ｘ）関数回路およびプロセッサに加え
、本発明は、本発明の上記ハードウェアを使用できる新規なプロセッサ命令に関
するものである。

【００６０】本発明の命令として、SISDおよびSIMD命令、例えば、これらのアーギュメント
としてｎビット値を受ける符号（ｘ）命令がある。SISD命令の場合には、値は符
号（ｘ）関数を遂行すべきデータの単一単位を表す。SIMD実施形態の場合には、
データのｎビット単位は、符号（ｘ）演算を独立的に遂行すべきｎ／ｋサブワー
ドを表す。本発明の符号（ｘ）命令を受けることに応答して、該命令を受けるプ
ロセッサは、符号（ｘ）関数を処理するハードウェア回路を使用して、２プロセ
ッサクロックサイクルより小さい、例えば単一プロセッサクロックサイクル符号
（ｘ）関数に対応する出力を発生する。

【００６１】本発明の上記説明は、ORゲートを使用して関数を処理する符号（ｘ）回路に焦
点を合わせたものであるが、本発明は、単一プロセッサクロックサイクルで符号
（ｘ）関数を遂行するハードウェア回路を実施する種々の態様を考えていること
を理解すべきである。例えば、「ワイヤードOR」を用いることによりｋ入力ORゲ
ートの使用を回避できる。或いは、OR関数を遂行するのに、論理変換を適用し、
かつ逆入力NANDゲートを使用できる。図８は、ORゲート６２の代わりに、逆入力
をもつｋ入力NANDゲート８２を用いて実装される符号（ｘ）回路８０を示してい
る。また、例えばOR関数の論理を分割して、論理段階で符号（ｘ）関数を計算す
ることもできる。図9は、論理OR演算が、複数のOR回路段からなるｋ入力OR木（k
input OR tree）９０を用いて遂行される実施形態を示している。

【００６２】実装の如何にかかわらず、プログラム可能な汎用プロセッサに符号（ｘ）命令
をサポートする基礎としてハードウェア回路を使用することは、本発明の特徴を
維持するものである。

【図面の簡単な説明】

【図１】既知の技術を用いて６４個のDCT係数のブロックについての逆量子化演算を遂
行するのに要する演算数を示す表である。

【図２】 SIMDシステムに使用するワード内に４つのサブワードを記憶させる既知の配置
を示す図面である。

【図３】既知のSIMD乗算を示す図面である。

【図４】 SIMDシステムに使用するｎビットワード内にｋ個のサブワードを記憶させる配
置を示す図面である。

【図５】本発明の一実施形態による符号（ｘ）関数を処理する回路を示す図面である。

【図６】本発明によるSIMDシステムで符号（ｘ）関数を処理する装置を示す図面である
。

【図７】本発明の一実施形態に従って実施されるSIMDプロセッサを示す図面である。

【図８】符号（ｘ）関数を処理するための、本発明に従って実施される付加回路を示す
図面である。

【図９】符号（ｘ）関数を処理するための、本発明に従って実施される付加回路を示す
図面である。

───────────────────────────────────────────────────── 【要約の続き】アを二重にすることにより、SIMD符号（ｘ）関数を処理できる。本発明の符号（ｘ）ハードウェアおよび新規な符号（ｘ）プロセッサコマンドは、符号（ｘ）関数が遭遇する種々のアプリケーションを容易化するのに使用できる。

Claims

【特許請求の範囲】

【請求項１】２進入力値ｘに応答して２進出力値ｙを発生する段階を有し
、２進出力値ｙおよび２進入力値ｘの各々が符号ビットおよび少なくとも１つの
付加ビットを含み、２進出力値ｙは、入力値ｘが０より大きい値を有するときに
は＋１の値をとり、入力値ｘが０の値を有するときには０の値をとり、入力値ｘ
が０より小さい値を有するときには−１の値をとり、前記２進出力ｙを発生する
段階は、出力値ｙの符号ビットを、入力値ｘの符号ビットの値にセッティングする段階
と、出力値ｙの符号ビットのセッティングと並列に、入力値ｘの各ビットを用いて
論理OR演算を遂行することにより、出力値ｙの前記少なくとも１つの付加ビット
を発生させるハードウェア回路を使用する段階とを有することを特徴とする２進
データを処理する方法。
【請求項２】前記出力値ｙの前記少なくとも１つの付加ビットを発生させ
るのに使用されるハードウェアは、論理ORゲートであることを特徴とする請求項
１記載の方法。
【請求項３】前記出力値ｙの少なくとも１つの付加ビットを発生させるの
に使用されるハードウェアは、NANDゲートを有していることを特徴とする請求項
１記載の方法。
【請求項４】前記出力値ｙは、符号ビットと前記少なくとも１つの付加ビ
ットとの間に配置された複数のビットを有し、前記２進出力値ｙを発生させる段
階は、さらに、符号ビットと前記少なくとも１つの付加ビットとの間に配置された前記複数の
ビットを、入力値ｘの符号ビットの値にセッティングする段階を有することを特
徴とする請求項１記載の方法。
【請求項５】前記出力値ｙの符号ビットをセッティングし、かつ、前記符
号ビットと前記少なくとも１つの付加ビットとの間に配置された前記複数のビッ
トをセッティングする段階とを遂行するバスを用いる段階を更に有することを特
徴とする請求項４記載の方法。
【請求項６】前記２進入力値ｘはｚビットを有し、処理される２進ビット
はｎ／ｚ・ｘ値を含むｎビットワードを有し、ここでｎおよびｚは整数であり、
更に、処理される２進データに含まれるｎ／ｚ個の別個のｚビットの集合からｎ／ｚ
個の別個の出力値ｙを発生させるために、ｎ／ｚ回、並行して、２進入力値ｘに
応答して２進出力値ｙを発生させる段階を遂行する段階を更に有することを特徴
とする請求項１記載の方法。
【請求項７】前記２進入力値ｘはｚビットを有し、処理される２進ビット
はｎ／ｚ・ｘ値を含むｎビットワードを有し、ここでｎおよびｚは整数であり、
更に、処理される２進データに含まれるｎ／ｚ個の別個のｚビットの集合からｎ／ｚ
個の別個の出力値ｙを発生させるために、ｎ／ｚ回、並行して、２進入力値ｘに
応答して２進出力値ｙを発生させる段階を遂行する段階を更に有することを特徴
とする請求項４記載の方法。
【請求項８】単一命令複数データプロセッサに含まれる複数のハードウェ
ア回路を使用し、２進入力値ｘに応答して、処理される２進データに含まれるｎ
／ｚ個の別個のｚビットの集合からｎ／ｚ個の別個の出力値ｙを発生させるため
に、ｎ／ｚ回、並行して、２進入力値ｘに応答して２進出力値ｙを発生させる段
階を遂行する段階を更に有することを特徴とする請求項１記載の方法。
【請求項９】ゼロより大きい入力値ｘに応答して出力値ｙとして１を発生
させ、ゼロの入力値ｘに応答して出力値ｙとして０を発生させ、かつ１より小さ
い入力値ｘに応答して出力値ｙとして−１を発生させる第１回路を有し、ｘおよ
びｙの各々は、複数のビットによりなる２の補数の形態で表現され、値ｙはビッ
ト０〜ビットｋ−１からなり、ビットｋ−１は値ｙの符号を表示し、第１回路は
、 OR関数への入力として入力値ｘに含まれる各ビットを使用して論理OR関数を遂
行することにより値ｙのビット０を母集団化（populating）する手段と、入力値ｘに含まれる符号ビットの値を使用して、値ｙの残余のビットの各々の
ための手段とを有していることを特徴とする装置。
【請求項１０】前記装置は単一命令複数データプロセッサであり、入力ワ
ードを記憶するレジスタを更に有することを特徴とする請求項９記載の装置。
【請求項１１】ビットｘ_k-1〜ｘ₀を含むｋビットの第１集合ｘを処理して
、ビットｙ_j-1〜ｙ₀を含むｊビットの第１集合ｙを発生させる第１回路を有し、
ビットｘ_k-1の２進値は、ｋビットの第１集合ｘが正数または負数であるかを示
すのに使用され、ｊおよびｋは整数であり、ビットｙ_j-1の値としてビットｘ_k-1の値を設定する装置と、ビットｙ₀の値を発生させるために、ビットｘ_k-1〜ｘ₀の値を使用してOR関数
をするための論理回路と、を有する２進データを処理するデバイス。
【請求項１２】ｋビットの前記第１集合ｘを記憶する記憶デバイスと、ｊビットの前記第１集合ｙを記憶する記憶デバイスと、をさらに有し、ビットｙ_j-1の値をビットｘ_k-1の値にセッティングする前記装置は、ビットｘ _k-1 が記憶されている前記第１記憶デバイス内の記憶位置を、前記第２記憶デバ
イスの複数の記憶位置に接続するバスであり、前記複数の記憶位置のうちの１つ
はビットｙ_j-1が記憶される記憶位置を含んでいる請求項１１記載のデバイス。
【請求項１３】ビットの第１集合ｘと並列的に、ビットｘ_k-1〜ｘ₀を含む
ｋビットの第２集合ｘ２を処理して、ビットｙ_j-1〜ｙ₀を含むｊビットの第２集
合ｙ２を発生させる第２回路を有し、第２集合ｙ２のビットｘ_k-1の２進値は、
ｋビットの第２集合ｘ２が正数であるかまたは負数であるかを表示するのに使用
され、前記第２回路は、ビットｙ_j-1の値としてビットｘ_k-1の値を設定する装置と、ビットｙ₀の値を発生させるために、ビットｘ_k-1〜ｘ₀の値を使用してOR関数
をするための論理回路と、をさらに有する請求項１１記載のデバイス。
【請求項１４】第１集合ｘおよび第２集合ｘ２のビットを記憶する第１レ
ジスタと、ｙ２ビットの第１集合および第２集合ｙを記憶する第２レジスタと、をさらに
有し、第１および第２回路の各々においてビットｙ_j-1の値をビットｘ_k-1の値に設定
する装置が、バスである請求項１１記載のデバイス。
【請求項１５】プロセッサクロックと、入力値ｘに応答して、２より少ないプロセッサクロックサイクルで出力値ｙを
発生する手段とを有し、出力値ｙは、ゼロより大きい入力値ｘに応答して値＋１
をとり、ゼロの入力値ｘに応答して０の値をとり、１より小さい入力値ｘに応答
して−１の値をとるプロセッサ。
【請求項１６】並列で演算するように構成された、２より少ないプロセッ
サクロックサイクルでｙの出力値を発生する複数の前記手段を、さらに有する請
求項１記載のプロセッサ。
【請求項１７】前記プロセッサクロック、および、前記複数の発生手段の
各々が、単一の半導体デバイスに実装され、前記発生手段が、１つのプロセッサクロックサイクル内で出力を発生させる請
求項１６記載のプロセッサ。
【請求項１８】アーギュメントとして、複数の入力値ｘを含むワードを含
むプロセッサ命令に応答して発生する前記複数の手段の各々を利用する手段を、
さらに有する請求項１６記載のプロセッサ。
【請求項１９】復号化すべき画像データを記憶するデータ記憶デバイスを
さらに有する請求項１６記載のプロセッサ。
【請求項２０】プロセッサクロックに応答して演算するプロセッサを作動
させる方法であって、０より大きい入力値が与えられると＋１の出力を発生させ、０の入力値が与え
られると０の出力を発生させ、０より小さい入力が与えられると−１の出力を発
生させる命令を受ける段階と、入力値を受ける段階と、受けた命令および受けた入力値に応答して、プロセッサに含まれたハードウェ
ア回路を使用し、２より少ないプロセッサクロックサイクルで出力値を発生する
段階と、を有する方法。
【請求項２１】前記命令は単一命令複数データ命令であり、入力値は受け
たｎビットワードに含まれるｋ個のサブワードうちの１つであり、受けた命令および受けたｎビットワードに応答して、プロセッサに含まれる付
加ｋ−１ハードウェア回路を使用し、２より少ないプロセッサクロックサイクル
で付加ｋ−１出力値を発生する段階を、さらに有する請求項１記載の方法。
【請求項２２】復号化すべきビデオデータを、ｎビットワードを形成する
ように配置する段階を、さらに有する請求項２１記載の方法。
【請求項２３】前記命令およびｎビットワードを使用して、逆量子化演算
を遂行する段階を、さらに有する請求項２２記載の方法。
【請求項２４】前記ハードウェア回路および付加ｋ−１ハードウェア回路
を並列的に作動させ、ｎビットワードから、単一のプロセッサクロックサイクル
で前記出力値およびｋ−１付加出力値を発生させる段階を、さらに有する請求項
２１記載の方法。