JPH10187438A

JPH10187438A - 乗算器の入力に対する遷移を減少させる方法

Info

Publication number: JPH10187438A
Application number: JP9207765A
Authority: JP
Inventors: Koji Kojima; 浩嗣小島; Shuridofa Abadohani; シュリドフアアバドハニ
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-08-12
Filing date: 1997-08-01
Publication date: 1998-07-21
Also published as: US5880981A

Abstract

(57)【要約】【課題】乗算器の入力に対する遷移の数を減少させる
ことにより、電力消費を減少させるための改善された乗
算器回路と方法を提供する。【解決手段】重複する入力値を利用するために乗算の
シーケンスの順序を変更することによって、乗算器１５
に対する各入力は可能な限り長い間固定される。各乗算
の中間結果は別個のアキュムレータに格納されて最終結
果が得られる。乗算器１５とアキュムレータを含むデー
タレジスタファイル１２とを結合するデータバスにおけ
る遷移の数を減らすことによって電力消費はさらに低減
される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的には、デジ
タル信号処理プロセッサの乗算回路に関し、特に乗算器
のオペランド入力を制御することにより、プログラマブ
ルデジタル信号処理プロセッサの乗算回路の電力消費を
低減するのに有効な技術に関する。

【０００２】

【従来の技術】近年、あらゆる種類の移動可能なあるい
は携帯可能な電子装置に対する需要は驚くほど増大して
いる。マイクロエレクトロニクス回路の大きさや電池技
術における進歩によって、携帯電子機器は、腕時計や計
算器等の従来の低性能製品から、ノート型コンピュー
タ、携帯情報端末（personal digital assist ）、カム
コーダ（camcorder ）、移動電話等の高性能製品へと発
展してきている。高性能携帯装置は多機能であるため、
通常、計算速度が高速でありながら低消費電力であるこ
とが必要とされる。

【０００３】携帯装置における消費電力の低減は、電池
のサイズおよび重量を減少させる一方で動作時間を延長
させることを意味することになる。それに加えて、消費
電力の低減は集積回路の発熱の減少をも意味する。携帯
装置であっても携帯できない装置であっても、発熱が減
少すれば、より多くのトランジスタを単一チップ上にあ
るいはマルチチップモジュール上に集積することができ
る。これによって、より多くの機能をより小さなパッケ
ージで実現することができ、これは特に、音声／ビデオ
通信およびマルチメディアの分野で重要である。さら
に、回路の発熱が減少すれば、費用の少ないパッケージ
技術を信頼性の問題を招かずに用いることができる。勿
論、費用の低減を達成することは、携帯装置において考
慮すべき他の重要な問題の１つである。

【０００４】携帯装置のシステム設計者は、以前にも増
して、デジタル信号処理プロセッサ（ＤＳＰ、digital
signal processor）を採用するようになっているが、そ
れは、ＤＳＰが、多量の「現実世界の」数値データを迅
速に処理する能力を有しているからである。ＤＳＰが処
理する「現実世界の」信号は、音声信号、画像信号およ
びビデオ信号等であり、それらのアナログ信号を、デジ
タル領域で処理できるようにするために、離散的な時間
間隔にてデジタルな同等物に変換する処理を行う。その
結果、メモリに記憶された数値のアレイが得られ、それ
は高速で繰り返し処理することが可能である。

【０００５】ＤＳＰの消費電力を減少するために、多く
のシステム設計では、低電圧バージョンを提供したり、
パワーマネージメント構成（power management feature
s ）を追加してプロセッサの電力消費に対する制御をよ
り徹底したり、あるいは、それらの両方を行っている。
ＤＳＰの中には、次のようなパワーマネージメント構成
を用いるものがある。

【０００６】低電圧動作：幾つかのＤＳＰは3.３ボルト
で動作するように設計されている。ＤＳＰの中には、3.
０ボルトでも動作できるものもある。

【０００７】「スリープ」モードもしくは「アイドル」
モード：多くのＤＳＰは、プロセッサのあるセクション
に対してクロックをオフにする電源遮断モード（power-
downmode ）を備え、それによって消費電力を低減して
いる。

【０００８】プログラマブルクロックデバイダ：最近の
ＤＳＰの中には、プロセッサのクロック周波数がソフト
ウェアの制御によって可変なものがある。システム設計
者は、特定のタスクに必要な最小のクロック速度を用い
ることができる。

【０００９】周辺機器の制御：ＤＳＰの中には、使用さ
れていない周辺機器をプログラマがディスエーブルにす
ることができるものがある。

【００１０】もう一歩進んで、システム設計者は、電力
を節約するために、ＤＳＰ内のある機能を完了するため
に必要なプロセスステップの数を減らすように努めてき
た。多くの注意がＤＳＰの乗算機能に向けられてきた
が、それは、相対的に多量の電力が乗算器によって消費
されるからである。例えば、並列アレイ乗算器における
部分積和ステップ（partial product addition）の数を
減らすためにブースエンコーディング技術（Booth enco
ding techniques ）が広く用いられている。乗算器アレ
イにおけるスプリアス処理（spurious transaction）を
減らすために遅延回路とフリップフロップを付加するこ
とも行われている。

【００１１】

【発明が解決しようとする課題】しかしながら、上記の
方法は、乗算器の入力におけるスイッチング動作が所定
であると仮定し、この仮定に基づいて、内部的なスイッ
チング動作を最小にしようと努めている。従って、ここ
で求められることは、乗算器の入力に供されるオペラン
ドを制御することによって達成される電力の節約を利用
するＤＳＰ乗算器回路によって消費される電力を減少さ
せる方法である。

【００１２】従って、本発明の目的は、ＤＳＰの消費電
力を減少させるための乗算器回路および方法を提供する
ことである。

【００１３】本発明の他の目的は、ＤＳＰの信頼性を増
大させるために、また、集積回路パッケージの費用を低
減するために、ＤＳＰの熱放散を減少させるための乗算
器回路および方法を提供することである。

【００１４】本発明のさらに別の目的は、設計および使
用が簡単で、経済的に実行できる乗算器回路を用いるこ
とにより上記の目的を達成することである。

【００１５】本発明に関する前述の目的および利点は、
本発明によって達成できるものの例示であって、実現可
能な利点のすべてを尽くすことを意図したものでもなけ
れば、限定することを意図したものでもない。従って、
本発明は以下に実施形態として示されるが、また当業者
に明らかな任意の変形によって修正され得るものであ
る。本発明の上記ならびに他の目的および利点は以下の
説明において明らかにされるが、本発明を実施すること
により学ぶこともできるであろう。従って、本発明は、
ここに示され説明される新規な方法、配列、組み合わ
せ、および改善にある。

【００１６】

【課題を解決するための手段】本願において開示される
発明のうち、代表的なものの概要を簡単に説明すれば、
下記のとおりである。説明においてはある程度の単純化
や省略がなされることがあるが、それは本発明のある特
徴を目立たせ、紹介する意図でなされるものであり、発
明の範囲を限定することを意図したものではない。当業
者が本発明の概念を実施したり利用したりするのに十分
な、例示的で好適な実施形態の詳細な説明は後に示され
る。

【００１７】本発明を広い見地から言えば、オペランド
の別々の対に対する複数の乗算および累算演算を実行し
て別々の出力を得る際に、乗算器の入力への遷移（tran
sition）を減少させるための装置および方法が開示され
る。乗算器は、その乗算器の出力に結合された少なくと
も第１および第２のアキュムレータレジスタ（accumula
tor register）を有している。簡単に述べれば、本方法
は次のステップ、すなわち：（ａ）乗算対象となるオペランドの複数の対の順序を変
更して、連続するオペランドの対の間で少なくとも１つ
のオペランドが変化しないようにするステップ；（ｂ）複数の第１のオペランドの対を乗算器の入力にロ
ードするステップ；（ｃ）第１のオペランドの対を乗算して中間結果を第１
のアキュムレータレジスタに格納するステップ；（ｄ）複数の第２のオペランドの対から１つのオペラン
ドを乗算器の入力にロードするステップ。第２のオペラ
ンドの対には、前記第１のオペランドの対の少なくとも
１つのオペランドと同一な１つのオペランドがある。し
かしながら、ロードされるオペランドは、前記第１のオ
ペランドの対のオペランドのどちらにも等しくないオペ
ランドである；（ｅ）第２のオペランドの対を乗算して中間結果を第２
のアキュムレータレジスタに格納するステップ；そし
て、（ｆ）中間結果が第１および第２のアキュムレータレジ
スタに累算されて最後の出力を生成するまでステップ
（ｂ）からステップ（ｅ）を繰り返すステップとを含ん
でいる。

【００１８】

【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて詳細に説明する。

【００１９】本発明は、乗算器の入力に対する遷移（tr
ansitions ）の数を減少させることによって消費電力を
低減させるための改善された乗算器回路および方法を意
図したものである。乗算のシーケンスの順序を変更する
ことによって、同じオペランドを連続的に配置すること
により、乗算器に対する個々の入力が可能な限りの間固
定され、電力消費がかなり低減される。乗算器とデータ
レジスタファイルを連結するデータバス上の遷移の数を
減らすことにより電力消費はさらに低減される。

【００２０】図を参照すると、同じ参照番号は同じエレ
メントを示しており、図１では、本発明の好適な実施形
態が広い観点から示されている。デジタル信号処理プロ
セッサ（「ＤＳＰ」）（本発明に関係はしているがその
一部ではない）における乗算器回路の使用に言及するの
は例示の目的のためだけであることを理解されたい。Ｄ
ＳＰとその部品に対する言及は、乗算器の既知のタイプ
の応用に関連して本発明がどのように実行されるのかを
容易に理解できるためになされている。

【００２１】図１は電子装置に用いられるようなデジタ
ル信号プロセッサ（「ＤＳＰ」）１のコアの一般的な配
列を開示している。ＤＳＰ１はＤＳＰコア（ＡＳＩＣの
設計に組み込まれるように設計されている）に限定され
ず、本発明ではチップの実施形態も同じく容易に用いる
ことができることに注意されたい。さらに、本発明が意
図するＤＳＰ１の様々な部品は、カスタム化された集積
回路として直接の電気的な接続によって実現することも
できるし、本発明の教示から逸脱することなく、ここに
記載される機能を提供するために、当該産業において既
知のいずれの方法をも用いて、回路の結合とプログラミ
ングによって実現することもできる。当業者には理解で
きることであるが、ここに提供される本発明の開示か
ら、ＤＳＰ１の機能を実現するための様々な代替的な方
法が、商業的な半導体集積回路技術によって示唆される
であろうが、それらは本発明の範囲内に入るものであ
る。

【００２２】図１に示された配列は、好ましくは信号処
理のためのものであるが、以下に記載される機能は、様
々な構成や用途のマイクロプロセッサシステムに適用す
ることもできる。ＤＳＰ１は、乗算、加算、および累算
を繰り返し迅速に実行することにより、数値的に膨大な
データの大きなバッファを処理することができる任意の
プログラマブル装置であってもよい。好適な実施形態に
おいては、ＤＳＰ１は高速フーリエ変換、畳み込み、デ
ジタルフィルタ等のボリュームの大きなアプリケーショ
ンの実行に適している。

【００２３】本発明の１つの実施形態によれば、ＤＳＰ
１は、適切な部分に、データ実行ユニット２、アドレス
生成ユニット３、プログラム制御ユニット４を含んでい
る。ＤＳＰ１はまた、プログラムメモリ５を含んでいる
が、それは、読み出し専用メモリ（ＲＯＭ）、ランダム
アクセスメモリ（ＲＡＭ）、および好ましくは両者の組
み合わせから成るものとすることができる。好適な実施
形態では、プログラムメモリ５は、２４ビットのＤＳＰ
命令ワードを記憶するために、１Ｋ×２４ビットのＲＯ
Ｍである。ＤＳＰ１はまた、５１２×２４ビットのＲＡ
Ｍで構成されるデータメモリ６のアレイを含んでいる。
好適な実施形態では、データの記憶のために、２Ｋワー
ドのＲＡＭが設けられている。

【００２４】データ実行ユニット２、アドレス生成ユニ
ット３、プログラム制御ユニット４、プログラムメモリ
５、および、データメモリ６のアレイは、すべて複数の
アドレスおよびデータバスによって相互に接続されてお
り、それらのバスは、ＤＳＰ１内においてアドレス情報
とデータを伝送するために、適切なインタフェイスとＤ
ＳＰ１により制御されるスイッチングロジックを有して
いる。ＤＳＰ１は、データと命令に対して別個の内部バ
スを用いるハーバードアーキテクチャを組み込んでお
り、それらのバスは、ＤＳＰ１内においてデータオペラ
ンドを獲得し伝送するために、パラレルなアドレス／デ
ータバスの組み合わせＸ７およびＹ８を含んでいる。命
令コードを配置しフェッチするために、命令アドレス／
データバスＩ９も設けられている。

【００２５】好適な実施形態においては、アドレス／デ
ータバスＸ７は、所望のデータを配置するためにデータ
メモリ６のアレイに結び付けられたメモリアドレスデコ
ーダ（明瞭化のために図示されていない）にメモリアド
レス情報を伝達するための１８ビットのアドレスバス
と、データメモリ６との間でデータオペランドをやり取
りするための２４ビットのデータバスとの組み合わせで
ある。アドレス／データバスＹ８は、それがやはり１８
ビットのアドレスバスと２４ビットのデータバスとの組
み合わせであるという点で、アドレス／データバスＸ７
と同一である。重複的なバス構造であるため、ＤＳＰ１
は、命令コードがフェッチされると同時に、２つのデー
タオペランド（１つのデータと１つの係数であって、通
常メモリの異なるページに記憶されている）を１サイク
ル内で全てデータ実行ユニット２に送り込むことができ
る。以下に詳細に説明されるように、本発明において
は、１サイクルで１つのデータオペランドのみが獲得さ
れ、それがデータ実行ユニット２内における幾つもの乗
算演算において２回以上利用される。最後に、命令アド
レス／データバスＩ９は、やはり、１８ビットのアドレ
スバスと２４ビットのデータバスとの組み合わせであ
る。

【００２６】データ実行ユニット２は、さらに、演算論
理ユニット（ＡＬＵ、arithmetic logic unit ）１１、
シフタ（shifter ）１４、乗算器１５、および、データ
レジスタファイル１２のアレイを含んでいる。これらの
エレメントはすべて、データ実行ユニット２内におい
て、内部バス３０によって相互に接続されている。

【００２７】ＡＬＵ１１は５６ビットの汎用演算ユニッ
ト（general purpose arithmetic unit ）であり、５６
ビットのデータワード、あるいはデコードされた命令ワ
ードに対して演算し、５６ビットの結果を生成する。加
算および減算等の典型的な算術演算に加えて、ＡＬＵ１
１は、入力されるデータに対してＡＮＤ、ＯＲ、および
ＥＸＣＬＵＳＩＶＥ−ＯＲ等のブール演算、処理演算、
および論理演算を実行する。意思決定演算のために、Ａ
ＬＵ１１は、２つの数のうちどちらが大きいかあるいは
小さいか、数がゼロに等しいか、数が正か負か、比較す
る。

【００２８】ＡＬＵ１１は、一時的にデータを格納する
ためのデータレジスタファイル１２の幾つかのレジスタ
と結合して動作し、そのデータに対して論理的および数
学的演算が実行される。本発明の好適な実施形態におい
ては、データレジスタファイル１２は、すくなくとも２
つの、そして好ましくはそれより多くのアキュムレータ
レジスタと幾つかの汎用レジスタを含んでいる。データ
レジスタファイル１２は、少なくとも８つのレジスタ
（０−７）を含んでいる。ＡＬＵ１１の出力は、データ
レジスタファイル１２の少なくとも１つのアキュムレー
タレジスタに格納される。

【００２９】シフタ１４は、論理的および算術的シフト
演算を実行することができる５６ビットのバレルシフト
レジスタ（barrel shift register ）であり、左方向お
よび右方向の循環演算を含むものである。シフタ１４の
能力によって、ＤＳＰ１は、例えば、当産業において通
常行われているような、数値的スケーリング（numerica
l scaling ）、ビット抽出（bit extraction）、および
拡張演算（extended arithmetic ）等の機能を実行する
ことができる。

【００３０】アドレス生成ユニット３には、１８ビット
のアドレスレジスタ（複数個）１０と２つの加算器１３
がそこに含まれている。それらのアドレスレジスタ１０
は、データメモリ６のすべてのアドレスにアクセスする
ために、加算器１３を用いて動作する。アドレスレジス
タ１０は、ソースアドレスレジスタとデスティネーショ
ンアドレスレジスタ、ポインタレジスタ、および幾つか
の割り込みレジスタとを含む。それに加えて、アドレス
レジスタ１０は、メモリ境界を確立するためのレジスタ
およびアドレス分岐を扱うためのレジスタ、例えば、ベ
ースアドレスレジスタ、境界レジスタ、ジャンプアドレ
スレジスタ等を含むこともできる。

【００３１】乗算器１５（その詳細は図２に示されてい
る）は、１命令サイクルで２４×２４ビットの２の補数
の乗算を実行し、４８ビットの結果を得る。乗算器１５
は、動的／静的論理で構成された加算器のアレイ１６を
含んでいる。２４ビットの被乗数１７が、Ｘ７のアドレ
ス／データバスあるいはＹ８のアドレス／データバスの
データバスから、被乗数ドライバ１８によってアレイ１
６へと提供される。被乗数ドライバ１８は一時的に被乗
数１７を格納するレジスタとして作用する。乗算器１５
への他の入力は、通常、Ｘ７のアドレス／データバスあ
るいはＹ８のアドレス／データバスのデータバスから、
あるいはある場合には、命令ワード（例えば、即値乗算
命令（the multiply immediate instruction））から提
供されるが、それは２４ビットの乗数オペランド１９で
あって、１組のブースエンコーダ２０へと向けられる。
ブースエンコーダ２０は、次の５つの機能（：シフトあ
るいは非シフト、加算、減算、あるいはゼロ）のうち２
つを有する１組の出力を生成する。

【００３２】ブースエンコーダ２０は、乗算器１５が古
典的な乗算手順で行わなければならない部分積の数をお
よそ２分の１減少させるが、それは各回につき、乗数の
１ビットではなく２ビットを扱う（基数２）ことによ
る。ブースエンコーダ２０は、最初に、乗数オペランド
の２つの最下位ビットに被乗数１７を乗算し、部分積を
生成する。次に、乗数オペランド１９の次の２ビットに
被乗数１７が乗算され、他の部分積が生成される。同様
にして、乗数オペランド１９のすべてのビットが用いら
れるまで繰り返される。部分積は加算され、結果が得ら
れる。

【００３３】通常の乗算器回路の乗算動作と並列に、乗
数オペランド入力（Ａ入力と称することにする）と被乗
数入力（Ｂ入力と称することにする）に、次の乗算の前
にそれぞれ新しい値をロードすることができる。例え
ば、ＤＳＰのための従来からの有限インパルス応答フィ
ルタ（「ＦＩＲ」（finite impulse response filte
r））の動作は、１回に１つの出力が計算される必要が
ある。例えば、３タップＦＩＲフィルタによる出力
（Ｙ）の数学的な表現は次の通りである。

【００３４】

【数１】

【００３５】この式によって、次の計算順序が生成され
る。

【００３６】

【数２】

【００３７】ここで角括弧［］内の数は乗算器への入力
のシーケンスを示している。

【００３８】最初に、出力Ｙ（ｎ）が計算される。この
ステップは３回の乗算と２回の加算を必要としている。
Ｃ０Ｘ（ｎ）の乗算が最初に実行され、その結果がアキ
ュムレータに格納される。次いで、Ｃ１Ｘ（ｎ−１）の
乗算が実行され、結果は、既にアキュムレータに存在し
ている値に加算される。次いで、Ｃ２Ｘ（ｎ−２）の乗
算が実行され、その結果がアキュムレータに加算され
る。この時、アキュムレータは出力Ｙ（ｎ）を格納して
いる。この出力値はデータメモリ６に記憶することがで
き、あるいは通常なされるようにＤＳＰアプリケーショ
ンで用いることができる。Ｙ（ｎ）の計算の後に、Ｙ
（ｎ＋１）の計算がなされるが、後者は、同様に、類似
のシーケンスによる３回の乗算および累算を必要とす
る。

【００３９】この従来の計算順序をたどることにより理
解されるように、乗数オペランド（Ａ）および被乗数
（Ｂ）の乗算器回路への入力は、各出力Ｙの計算の際の
各々すべての乗算に対して変更されている。乗算器入力
における入力の各遷移は、回路が利用できるエネルギを
消費することによってなされている。図３ａおよび３ｂ
は、消費されるエネルギと、例えばＤＳＰ加算器および
データレジスタファイルの入力の遷移数のそれぞれとの
間に、ほぼ線形の関係があることを示している。入力の
遷移数が大きければ、それだけ消費されるエネルギの量
は大きくなる。

【００４０】図４には、消費電力と本発明の乗算器１５
の入力遷移との関係が示されている。一番上の囲まれた
データ点の領域は、通常の乗算器回路が動作している場
合のように、乗数（Ａ）および被乗数（Ｂ）入力が常に
変化している場合に、消費される電力を示す。図４には
また、本発明によって、乗算器の乗数（Ａ）入力が固定
している場合、あるいは被乗数（Ｂ）入力が固定してい
る場合のデータ点の囲まれた領域も示されている。図４
に示されたグラフ表示から理解できるように、入力遷移
を減らすことにより、直接、乗算器１５により消費され
る電力が減少される。

【００４１】本発明の１つの好適な実施形態は、乗算器
１５の入力におけるスイッチング動作を減少することに
より達成される電力の節約を利用するものである。本発
明の発明者らは、スイッチング動作が、乗算器１５の入
力に加えられる信号のシーケンスに依存していることを
理解した。従って、本発明は、乗算器１５の入力におい
て可能な限り長い間、同じ値を維持することによって消
費電力を低減するものである。これは、出力Ｙ（ｎ），
Ｙ（ｎ＋１）等の各々に対して中間結果を獲得するため
の部分計算の順序を変更し、最終出力結果が得られるま
で各乗算の部分積を別々のアキュムレータに格納するこ
とによって達成される。

【００４２】例えば、上述のＦＩＲ計算ステップを用い
れば、本発明の計算は、異なる出力を得るために実行さ
れる様々な乗算のシーケンスを変更することにより、連
続する出力Ｙ（ｎ），Ｙ（ｎ＋１）等を、入力スイッチ
ング動作を減少させるような交錯した（interlaced）配
列で計算するものである。好適な実施形態においては、
少なとも１つのオペランドが同一であるような乗算が連
続的に実施されるようにシーケンスが配列され、それに
よって入力における遷移が減少される。本発明によれ
ば、ＦＩＲフィルタ計算におけるステップのシーケンス
は次に示す通りである。

【００４３】

【数３】

【００４４】ここで角括弧［］内の数は乗算器への入力
のシーケンスを示している。

【００４５】このシーケンスは、入力を出来る限り一定
に保つために、本発明の乗算器１５は、初めにＣ０Ｘ
（ｎ＋１）の部分積を計算し、中間結果を第１のアキュ
ムレータに格納する。次いで、乗算器１５は部分積Ｃ０
Ｘ（ｎ）を計算するが、Ｃ０乗数入力は不変に維持さ
れ、結果は第２のアキュムレータに格納される。次い
で、部分積Ｃ１Ｘ（ｎ）が計算される。この動作は、乗
算器への１つの入力だけＣ０からＣ１に変化することを
含む。この結果は、Ｙ（ｎ＋１）の計算の一部であるた
め、第１のアキュムレータに加算される。次いで、乗算
器によって部分積Ｃ１Ｘ（ｎ−１）が得られ（Ｃ１が両
方の乗算で同じであるため、乗算器の入力は１つだけ変
化することに注目されたい）、結果は第２のアキュムレ
ータの値に加算される。このプロセスは出力Ｙのすべて
が計算されるまで繰り返される。

【００４６】有利な点として、本方法によれば、ステッ
プ１およびステップ２において、乗算器１５の入力にお
けるＣ０入力値は不変のままである。ステップ２および
ステップ３では、乗算器の１つの入力におけるＸ（ｎ）
の値が不変のままである。同様に、ステップ３およびス
テップ４においては、Ｃ１入力値が一定のままである。
各乗算について、２つの入力のうち１つが、その前の乗
算と同じである。理解できるように、この好適な方法を
用いることにより、計算順序全体を通して、入力遷移の
減少による電力節約という利益が継続的に得られてい
る。

【００４７】本発明の他の実施形態では、複数のアキュ
ムレータレジスタ（上に開示されたアキュムレータ２個
の実施形態より多い）がデータレジスタファイル１２に
おいて用いられる。各アキュムレータレジスタについ
て、１つの出力値（Ｙ）を計算することができ、ｎ個の
アキュムレータレジスタについては、ｎ×Ｙの出力が、
交錯した方法によって並行して計算できる。例えば、３
個のアキュムレータを有する実施形態では、出力値Ｙ
（ｎ），Ｙ（ｎ＋１），Ｙ（ｎ＋２）が、次の順序で一
緒に計算できる。

【００４８】

【数４】

【００４９】この方法によれば、乗算器１５に対する１
つの入力が３つの乗算（ステップ１−３）に対して一定
に維持され、その入力に対するスイッチング動作をかな
り減らすことができる。同様に、ステップ４−６におい
ては、Ｃ１入力は、３つの乗算に対して不変であり、ス
テップ６−９においては、Ｃ２入力が不変である。

【００５０】本発明の他の実施形態は、Ｘ（ｉ）入力を
できるだけ長い期間固定にし、Ｃ（ｉ）入力の方を変化
させるものである。この方法は次のステップ順序で実現
することができる。

【００５１】

【数５】

【００５２】消費電圧領域の低減をさらに大きなものと
するため、本発明の１つの実施形態では、乗数オペラン
ド（Ａ）を可能な限り多くの演算で一定に保ち、被乗数
オペランドの方を変化させるという、進歩的な方法を用
いるものである。これは、ブースエンコーダ２０への入
力が、消費電力低減のために、入力の遷移が最少量とな
ること（図４を参照）を意味する。

【００５３】本発明の幾つかの側面を略図を用いて説明
したが、本発明の方法論は、プロセスフローチャートを
用いることにより最も良く示すことができる。そこで、
本発明のデータ実行ユニット２の動作を容易に理解でき
るように、電力を節約するＦＩＲプログラムルーチンの
例が図５に示されている。この図を参照しながら、本発
明の上述の実施形態の原理を組み込んだプログラムを以
下詳細に説明する。

【００５４】このプロセス例では、データ実行ユニット
２は、上述のアキュムレータ２個の実施形態であり、Ｎ
個の入力サンプルからなるブロックに対してＫタップＦ
ＩＲフィルタの出力計算が実行される。パラメータ
「ｉ」はタップの数（Ｋ）に対応し、パラメータ「ｊ」
は入力（あるいは出力）サンプルの数（Ｎ）に対応し、
ａ０およびａ１は第１および第２のアキュムレータをそ
れぞれ示すものであり、ＡおよびＢは乗算器１５の２つ
の入力を示すものである。

【００５５】図５の一番上のステップ１において、ｊカ
ウンタがゼロにリセットされる。同様に、ステップ２
で、ｉカウンタおよび両方のアキュムレータ（ａ０，ａ
１）がゼロに設定される。ここで、オペランドの初期値
Ｘ（ｊ＋１）が、乗算器１５の１つの入力（Ａ）にロー
ドされる。ステップ３で、Ｃ（ｉ）のオペランド値が乗
算器１５の他の入力（Ｂ）にロードされる。乗算および
累算演算が実行されて、中間結果が第２のアキュムレー
タａ１にロードされる。次いで、ステップ４で、オペラ
ンド値Ｘ（ｊ−１）が乗算器１５の入力Ａにロードさ
れ、乗算器１５の入力Ｂにおけるオペランドは変化させ
ないで、別の乗算および累算演算が実行される。この場
合、中間結果は第１のアキュムレータａ０に格納され
る。

【００５６】第１の乗算が完了した後、ｉカウンタがイ
ンクリメントされ（ステップ５）、ステップ６において
Ｋと比較される。すべての中間結果が累算されて最終結
果が得られるまで、ステップ３およびステップ４の乗算
および累算がＫ回のループで繰り返される。それが終了
した時点で、乗算の出力として、アキュムレータａ０は
出力Ｙ（ｊ）を格納しており、アキュムレータａ１は出
力Ｙ（ｊ＋１）を格納している（ステップ７）。次い
で、２つの結果が各ループで累算されるため、ｊカウン
タが２だけインクリメントされ（ステップ８）、出力Ｙ
はステップ２−８により形成されるループを通して計算
され、それはＮ個の出力がすべて生成されるまで実行さ
れる（ステップ９および１０）。

【００５７】注目すべきこととして、本発明は同様の容
易さで、ＤＳＰ１がマトリックス−マトリックスの乗算
演算を実行する場合に消費される電力を減少するために
も用いることができる。Ｍ×Ｎアレイのマトリックス
（「Ａ」）とＮ×Ｐアレイのマトリックス（「Ｂ」）と
を乗算してＭ×Ｐアレイのマトリックス（「Ｃ」）を得
るために、従来のＤＳＰ１は、Ａ［Ｍ，Ｎ］にＢ［Ｎ，
Ｐ］を乗算し、各中間結果を１つのアキュムレータにロ
ードする。当然、乗算器に対する両方の入力は、各出力
（Ｙ）が得られるまでの各部分積の計算で変化し、（図
４の上方の（Ａ×Ｂ）の領域によって示されているよう
に）多くの電力が消費される結果になる。この場合、Ｄ
ＳＰ１は、例えば、次のＣに似たプログラムシーケンス
を実行する。

【００５８】

【数６】

【００５９】しかし、本発明においては、マトリックス
−マトリックス乗算においても電力節約が達成される。
というのは、多数の出力（Ｙ）に関する部分積が交錯し
た方法で計算され、データ実行ユニット２における複数
のアキュムレータレジスタに累算されるからである。２
つのアキュムレータレジスタｃおよびｄを用いることに
より、一度に少なくとも２つの出力、例えばＣ［ｉ，
ｊ］，Ｃ［ｉ，ｊ＋１］が得られる。そのような場合、
出力、例えばＣ［ｉ，ｊ］，Ｃ［ｉ，ｊ＋１］を得るこ
とは、次のように定義される。

【００６０】

【数７】

【００６１】この例の場合、本発明のデータ実行ユニッ
ト２は、Ｃに似たプログラムシーケンスで表現された次
の方法ステップを実行する。

【００６２】

【数８】

【００６３】上述の方法によって、交錯した累算が行毎
に実行される。すなわち、この方法によって、同じ行の
互いに隣接した２つの出力要素が計算される。本発明に
よって、交錯した累算を列毎に実行することもできる。
すなわち、その場合、同じ列において互いに隣接する２
つの出力要素Ｃ［ｉ，ｊ］およびＣ［ｉ＋１，ｊ］を交
錯した仕方で計算することができる。これは、出力マト
リックスの列の数「Ｐ」が２の倍数の場合に適用され
る。列の数「Ｐ」が２の倍数でない場合、本発明の方法
は、出力マトリックスの最初のＰ−１列を計算するのに
用いることができる。すなわち、要素Ｃ［ｉ，ｊ］を、
ｉ＝０からＭ−１まで、ｊ＝０からｊ＝Ｐ−２まで計算
する。最後の列の要素Ｃ［ｉ，Ｐ−１］（ｉ＝０からＭ
−１）は、従来のマトリックス乗算方法を用いて計算す
ることができる。あるいは、最後の列の要素は、列の方
向に関して交錯累算方法を用いて計算することができ
る。

【００６４】複数のアキュムレータレジスタを有する本
発明の一実施形態として、例えば３個のアキュムレータ
レジスタを有する場合、３個の出力値を並列に計算する
ことができる。例えば、行方向の累算方法では、出力Ｃ
［ｉ，ｊ］，Ｃ［ｉ，ｊ＋１］，Ｃ［ｉ，ｊ＋２］を交
錯した仕方で計算することができる。

【００６５】本発明のさらに別の実施形態では、前の入
力オペランドを遷移させないで保持するために、データ
レジスタファイル１２と乗算器１５への入力との間のデ
ータ実行ユニット２の内部バスを、プリチャージされた
状態ではなく、静的状態に維持する。図６ａ−ｂは、本
発明の内部バス３０がプリチャージ状態にある場合と、
内部バス３０が静的状態にある場合の、遷移動作におけ
る差異を示すものである。プリチャージされる状態では
（図６ａ）、バスは各サイクルの開始においてhigh状態
にチャージされ、バス上に伝送される値に依存して、条
件付きでディスチャージされる。図６ａに示されている
ように、これは高程度のスイッチング動作となり、従っ
て、大量の電力が消費される。逆に、静的状態では（図
６ｂ）、バスは、データオペランドのフローに依存し
て、必要とされる場合にだけhigh状態とlow 状態の間で
遷移される。乗算器１５の入力において遷移が低減され
ることにより、内部バス３０におけるスイッチング動作
が減少され、従って、データ実行ユニット２内の消費電
力も低減される。内部バスを静的に維持することによ
り、本発明は、動作の約５０％において、余分な遷移を
避けることができる。

【００６６】図７は、ＦＩＲ出力値を計算する従来の方
法を用いた場合と、内部バスが静的な状態のときに本発
明の順序変更された入力方法を用いた場合の、ＤＳＰ１
の消費電力をそれぞれ棒グラフで示したものである。同
様に、図７は、内部バス３０がプリチャージされるとき
にＦＩＲ出力値を計算する従来の方法を用いた場合と、
内部バス３０がプリチャージされるときに本発明の順序
変更された入力方法を用いる場合のＤＳＰ１の消費電力
をも示している。理解されるように、内部バス３０が静
的に保たれ、乗算器１５の入力が少なくとも２つの乗算
に対して一定に保たれる場合の、乗算器１５における電
力の節約は、従来の方法に対してほぼ４０％である。全
体としてＤＳＰ１の消費電力は、本発明において約１９
％減少される。

【００６７】以上、本発明者によってなされた発明を実
施形態に基づき具体的に説明したが、本発明は前記実施
形態に限定されるものではなく、その要旨を逸脱しない
範囲で種々変更可能であることはいうまでもない。

【００６８】前述の開示、説明、および図は、例示の目
的だけのために示されたものであり、いかなる仕方でも
本発明を限定するものではない。本発明は、特許請求の
範囲によってのみ定義されるものである。

【００６９】

【発明の効果】本願において開示される発明のうち、代
表的なものによって得られる効果を簡単に説明すれば、
以下のとおりである。

【００７０】（１）乗算のシーケンスの順序を変更して
乗算器に対する各入力を可能な限り長い間固定し、各乗
算の中間結果を別個のアキュムレータに格納して最終結
果を得るようにしたことにより、乗算器の入力に対する
遷移の数を減少させることができ、ＤＳＰの消費電力を
減少させることが可能となる。

【００７１】（２）ＤＳＰの消費電力が減少したことに
より、ＤＳＰの熱放散を減少させることが可能となり、
ＤＳＰの信頼性を増大させることができる。また、集積
回路パッケージの費用を低減することも可能となる。

【図面の簡単な説明】

【図１】デジタル信号処理プロセッサシステムの一般的
な配列のブロック図である。

【図２】本発明の一実施形態としての乗算器回路のブロ
ック図である。

【図３ａ】デジタル信号処理プロセッサの部品に関する
消費電力と入力遷移の関係を示すグラフである。

【図３ｂ】デジタル信号処理プロセッサの部品に関する
消費電力と入力遷移との関係を示すグラフである。

【図４】本発明の一実施形態としての乗算器の異なる入
力における消費電力と入力遷移との関係を示すグラフで
ある。

【図５】本発明の一実施形態の動作を示すフローチャー
トである。

【図６ａ】プリチャージされた状態について、遷移を示
す通信バスのタイミング図である。

【図６ｂ】静的状態について、遷移を示す通信バスのタ
イミング図である。

【図７】本発明の様々な実施形態による、デジタル信号
プロセッサにおける電力低減を示す棒グラフである。

【符号の説明】

１デジタル信号プロセッサ２データ実行ユニット３アドレス生成ユニット４プログラム制御ユニット５プログラムメモリ６データメモリ７アドレス／データバス８アドレス／データバス９命令アドレス／データバス１０アドレスレジスタ１１演算論理ユニット（ＡＬＵ）１２データレジスタファイル１３加算器１４シフタ１５乗算器１６アレイ１７被乗数１８被乗数ドライバ１９乗数オペランド２０ブースエンコーダ３０内部バス

Claims

【特許請求の範囲】

【請求項１】オペランドの別個の対に対して複数の乗
算および累算演算を実行して別個の出力を得る場合に乗
算器の入力に対する遷移を減少させる方法であって、前
記の乗算器が、該乗算器の出力に結合された少なくとも
第１および第２のアキュムレータレジスタを有し、前記
方法は次のステップ、すなわち：（ａ）オペランドの連続する対の間で少なくとも１つの
オペランドが不変に維持されるように、乗算すべきオペ
ランドの複数の対の順序を変更し；（ｂ）前記複数の第１のオペランドの対のうち１つを乗
算器の入力にロードし；（ｃ）前記第１のオペランドの対を乗算し、中間結果を
前記第１のアキュムレータレジスタに格納し；（ｄ）複数の第２のオペランドの対の１つの対から１つ
のオペランドを乗算器の入力にロードし、前記第２のオ
ペランドの対は、前記第１のオペランドの対の少なくと
も１つのオペランドに等しい１つのオペランドを有して
おり、ロードされたオペランドは前記第１のオペランド
の対のオペランドのどちらにも等しくないものであり；（ｅ）前記第２のオペランドの対を乗算し、中間結果を
前記第２のアキュムレータレジスタに格納し；（ｆ）最終出力を生成するのに十分な中間結果が前記第
１および第２のアキュムレータレジスタに累算されるま
で、ステップ（ｂ）からステップ（ｅ）を繰り返すこと
からなることを特徴とする乗算器の入力に対する遷移を
減少させる方法。
【請求項２】請求項１記載の乗算器の入力に対する遷
移を減少させる方法であって、前記乗算器は該乗算器の
１つの入力に結合されたブースエンコーダを含み、前記
方法は前記複数のオペランドの対の順序を変更してブー
スエンコーダに対する入力が可能な限り長い間一定に維
持されるようにするステップをさらに含むことを特徴と
する乗算器の入力に対する遷移を減少させる方法。
【請求項３】請求項１記載の乗算器の入力に対する遷
移を減少させる方法であって、前記乗算器は、複数の出
力計算に対応するために、交錯した（interlaced）仕方
での複数の入力による中間結果を格納するための３個以
上のアキュムレータレジスタを含むことを特徴とする乗
算器の入力に対する遷移を減少させる方法。
【請求項４】請求項１記載の乗算器の入力に対する遷
移を減少させる方法であって、前記乗算器はデータを伝
送する内部バスを含み、前記方法は、前記内部バスに沿
って伝送されるデータに必要な場合にのみ前記内部バス
が高チャージ状態から低チャージ状態へとスイッチする
ように前記内部バスを静的チャージ状態に維持するステ
ップをさらに含むことを特徴とする乗算器の入力に対す
る遷移を減少させる方法。
【請求項５】マトリックス−マトリックス乗算を実行
する際に、乗算器の入力に対する遷移を減少させる方法
であって、前記乗算器は該乗算器の出力に結合された少
なくとも第１および第２のアキュムレータレジスタを有
し、前記方法は次のステップ、すなわち：（ａ）オペランドの連続する対の間で少なくとも１つの
オペランドが不変に維持されるように、乗算すべきオペ
ランドの複数の対の順序を変更し；（ｂ）前記複数の第１のオペランドの対のうち１つを乗
算器の入力にロードし；（ｃ）前記第１のオペランドの対を乗算し、中間結果を
前記第１のアキュムレータレジスタに格納し；（ｄ）複数の第２のオペランドの対のうち１つを乗算器
の入力にロードし、前記第２のオペランドの対は、前記
第１のオペランドの対の少なくとも１つのオペランドに
等しい１つのオペランドを有しており；（ｅ）前記第２のオペランドの対を乗算し、中間結果を
前記第２のアキュムレータレジスタに格納し；（ｆ）最終出力が完全に計算されるように、中間結果が
前記第１および第２のアキュムレータレジスタに累算さ
れるまで、ステップ（ｂ）からステップ（ｅ）を繰り返
すことからなることを特徴とする乗算器の入力に対する
遷移を減少させる方法。
【請求項６】請求項５記載のマトリックス−マトリッ
クス乗算を実行する際に乗算器の入力に対する遷移を減
少させる方法であって、前記乗算器は、複数の出力計算
に対応するために、交錯した仕方での複数の入力による
中間結果を格納するために３個以上のアキュムレータレ
ジスタを含むことを特徴とする乗算器の入力に対する遷
移を減少させる方法。