JP2002229970A

JP2002229970A - Ｓｉｍｄ積和演算方法、積和演算回路、および、半導体集積回路装置

Info

Publication number: JP2002229970A
Application number: JP2001024153A
Authority: JP
Inventors: Masayuki Tsuji; 雅之辻
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2001-01-31
Filing date: 2001-01-31
Publication date: 2002-08-16
Anticipated expiration: 2021-01-31
Also published as: US20020138535A1; US7043519B2; EP1229438A2; JP3935678B2; DE60143469D1; EP1229438A3; EP1229438B1

Abstract

(57)【要約】【課題】ＳＩＭＤ演算を行う積和演算回路において
は、例えば、行列演算の引数をコピー或いはスワップさ
せる新たなパス(手順)が必要となって処理性能の低下を
来たしている。【解決手段】２ｎ並列（ここで、ｎは自然数）の積和
演算が同時に実行可能なＳＩＭＤ積和演算方法であっ
て、ＳＩＭＤ積和演算で各積和演算回路２３１，２３２
に割り当てるアキュムレータアドレスの並びを、２^m個
（ここで、ｍ＝０，…，ｌｏｇ₂ｎ）のアキュムレータ
２４１，２４２を一組とし、隣接する２ｐ−１番目と２
ｐ番目（ここで、ｐ＝１，…，ｎ）のアキュムレータの
組を当該アキュムレータの組の中におけるアキュムレー
タアドレスの順番は変えずに、該各アキュムレータの組
を入れ替えることでＳＩＭＤ積和演算を実行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、積和演算技術に関
し、特に、ＳＩＭＤ演算を行うための方法および回路、
並びに、ＳＩＭＤ積和演算回路を備えた半導体集積回路
装置に関する。近年、１つの命令で複数のデータを同時
に演算するＳＩＭＤ（Single Instruction Stream-Mult
iple Data Stream）演算が注目され、例えば、カラー・
レーザプリンタやナビゲーション・システムなどの高速
データ処理および画像処理を行う高機能・高性能のシス
テムを実現するには、ＳＩＭＤ演算機能を有する強力な
プロセッサが必要とされている。ここで、ＳＩＭＤは、
１つの命令で複数のデータを同時に演算する制御方式で
あり、また、ＳＩＭＤ行列演算は、（高速に）行列演算
が実行可能なＳＩＭＤ（積和）演算である。このような
ＳＩＭＤ行列演算を行う積和演算回路においては、例え
ば、行列演算の引数をコピー或いはスワップさせる新た
なパス(手順)が必要となって処理性能の低下を来たして
いる。そこで、回路に大幅な変更を加えることなく、高
速にＳＩＭＤ演算を行うことのできる積和演算回路の提
供が要望されている。

【０００２】

【従来の技術】従来、例えば、２行２列の行列演算は、
下記の式ｆ１のように表現され、それは後述するような
演算が行われるが、積と和の処理の順番により、形式１
と形式２の２つに分類することができる。

【０００３】

【数１】

【０００４】ここで、上記の行列演算を、同時に実行す
ることが可能な２つの積和演算器を用いて、２つの演算
を並列に行う１つのＳＩＭＤ命令で演算する場合を考え
る。一般的な、３オペランド形式の２並列ＳＩＭＤ積和
演算命令は、次のように定義される。ニーモニック（例）ｄｍａｃＲＳi,ＲＳj,ＡＣＣk 行われる演算：ＡＣＣk ＝ＲＳi ×ＲＳj ＋ＡＣＣk ＡＣＣk+1 ＝ＲＳi+1 ×ＲＳj+1 ＋ＡＣＣk+1 ここで、行列演算した結果である、式１の左辺（Ｘ，
Ｙ）を、２本のアキュムレータＡＣＣ0およびＡＣＣ1に
それぞれ格納するものとする。

【０００５】上記の形式１による演算の様子を、下記の
式ｆ２に示す。

【０００６】

【数２】

【０００７】まず、ステップ１ではｘを２つ用意し
（（ＲＳj,ＲＳj+1）＝（ｘ，ｘ））、行列の１列目の
係数（ａ0,ａ1）（＝（ＲＳｉ，ＲＳｉ＋１））とそれ
ぞれ乗算を行い、アキュムレータ（ａｃｃ0,ａｃｃ1）
（＝（ＡＣＣk,ＡＣＣk+1））に格納する。このとき、
アキュムレータａｃｃ0およびａｃｃ1が共にゼロなら
ば、乗算結果とアキュムレータの値を加算し、アキュム
レータに格納してもよい（積和演算）。

【０００８】次に、ステップ２ではｙを２つ用意し
（（ＲＳj,ＲＳj+1）＝（ｙ，ｙ））、行列の２列目の
係数（ｂ0，ｂ1）（＝（ＲＳi，ＲＳi+1））とそれぞれ
乗算を行い、アキュムレータ（ａｃｃ0,ａｃｃ1）（＝
（ＡＣＣk,ＡＣＣk+1））の値とそれぞれ加算して、ア
キュムレータ（ａｃｃ0,ａｃｃ1）にそれぞれ格納する
（積和演算）。

【０００９】次に、形式２による演算の様子を、下記の
式ｆ３に示す。

【００１０】

【数３】

【００１１】まず、ステップ１において、（ａ0,ｂ1）
と（ｘ，ｙ）の内積を計算して、アキュムレータ（ａｃ
ｃ0,ａｃｃ1）に格納する。このとき、ａｃｃ0,ａｃｃ1
が共にゼロならば、乗算結果とアキュムレータの値を加
算して、アキュムレータに格納してもよい（積和演
算）。次に、ステップ２において、（ｘ，ｙ）を（ｙ，
ｘ）と入れ替えて、（ｂ0,ａ1）と内積を計算し、アキ
ュムレータ（ａｃｃ0,ａｃｃ1）の値とそれぞれ加算し
て、アキュムレータ（ａｃｃ0,ａｃｃ1）にそれぞれ格
納する（積和演算）。

【００１２】

【発明が解決しようとする課題】ところで、従来技術に
おいて、上述した式ｆ１の行列演算を実行するために
は、引数（ｘ，ｙ）をコピー或いは並び替える必要があ
った。図１は一般的なＳＩＳＤ（Single Instruction S
tream-Single Data Stream）積和演算の手順の一例を示
す図であり、図２は２並列のＳＩＳＤ積和演算の手順の
一例を示す図であり、そして、図３は従来の積和演算に
おける課題を説明するための図である。なお、図２で
は、アキュムレータＡＣＣ0とＡＣＣ1との選択は、実行
する積和演算命令に予め定められている。

【００１３】積和演算は、図１に示すような手順で行わ
れが、前述した２行２列の行列演算は、図３に示される
ような手順で行われる。すなわち、図３（ａ）に示され
るように、形式１のステップ２では、引数ｙをコピーし
て２つの同じ引数（ｙ，ｙ）と係数（ｂ0，ｂ1）との乗
算を行い、また、図３（ｂ）に示されるように、形式２
のステップ２では、ステップ１の引数（ｘ，ｙ）を
（ｙ，ｘ）とスワップして係数（ｂ0，ａ1）との乗算を
行う。従って、図３（ａ）に示す形式１では、引数をコ
ピーする新たな手順（パス）が必要になり、また、図３
（ｂ）に示す形式２では、引数をスワップさせる新たな
パスが必要になり、これらの新たな手順が行列演算のオ
ーバーヘッドになる。

【００１４】オーバーヘッドをコピー或いはスワップさ
せる手順を設けて処理しようとすると、その手順を実現
するための何らかの命令を実行する時間（ステップ）が
必要になり、行列演算のレイテンシの増加を招いて積和
演算回路（半導体集積回路装置：プロセッサ）全体の処
理性能を低下させることになる。また、オーバーヘッド
の物理的な対処としては、図３（ａ）および図３（ｂ）
に示される新たなパス（新規パス）が必要になり、その
結果、データパスの論理段数や配線の増加といった物量
（ハード面）の増大を来たすことにもなる。さらに、新
規パスを選択するためのデコード手段（デコーダおよび
制御信号等）が必要になり、そして、命令実行開始時に
必要な制御信号を生成するための論理段数も増加して、
結果的に積和演算回路（半導体集積回路装置：プロセッ
サ）の最大動作周波数を低下させることにもなる。

【００１５】本発明の目的は、上述した従来の積和演算
技術に鑑み、最大動作周波数の低下、レイテンシの増加
および回路の大幅な変更を必要とせず、高速に行列演算
が実行可能なＳＩＭＤ演算を行うことのできる積和演算
回路の提供にある。

【００１６】

【課題を解決するための手段】本発明の第１の形態によ
れば、２ｎ並列（ここで、ｎは自然数）の積和演算が同
時に実行可能なＳＩＭＤ積和演算方法が提供される。Ｓ
ＩＭＤ積和演算で各積和演算回路に割り当てるアキュム
レータアドレスの並びは、２^m個（ここで、ｍ＝０，
…，ｌｏｇ₂ｎ）のアキュムレータを一組とし、隣接す
る２ｐ−１番目と２ｐ番目（ここで、ｐ＝１，…，ｎ）
のアキュムレータの組をそのアキュムレータの組の中に
おけるアキュムレータアドレスの順番は変えずに、各ア
キュムレータの組が入れ替えられ、ＳＩＭＤ積和演算が
実行される。

【００１７】本発明の第２の形態によれば、同時に動作
可能な２ｎ個（ここで、ｎは自然数）の積和演算ユニッ
トを有するＳＩＳＤ積和演算回路において、該積和演算
ユニットをＳＩＭＤ積和演算に流用するＳＩＭＤ積和演
算方法が提供される。各積和演算ユニットに割り当てら
れるアキュムレータアドレスの並びは、２^m個（ここ
で、ｍ＝０，…，ｌｏｇ₂ｎ）のアキュムレータを一組
とし、隣接する２ｐ−１番目と２ｐ番目（ここで、ｐ＝
１，…，ｎ）のアキュムレータの組をそのアキュムレー
タの組の中におけるアキュムレータアドレスの順番は変
えずに、各アキュムレータの組が入れ替えられ、ＳＩＭ
Ｄ積和演算が実行される。

【００１８】本発明の第３の形態によれば、同時に動作
可能な２ｎ個（ここで、ｎは自然数）の積和演算ユニッ
トを有し、各積和演算ユニットが乗算器、加算器および
アキュムレータを備える積和演算回路が提供される。各
積和演算ユニットに割り当てられるアキュムレータアド
レスの並びは、２^m個（ここで、ｍ＝０，…，ｌｏｇ
₂ｎ）のアキュムレータを一組とし、隣接する２ｐ−１
番目と２ｐ番目（ここで、ｐ＝１，…，ｎ）のアキュム
レータの組をそのアキュムレータの組の中におけるアキ
ュムレータアドレスの順番は変えずに、各アキュムレー
タの組が入れ替えられ、ＳＩＭＤ積和演算が実行され
る。

【００１９】図４は本発明および従来の行列演算処理を
比較して示すタイムチャートである。図４に示されるよ
うに、２行２列の行列演算を行う場合、コピー或いはス
ワップさせる手順を設けて対処すると、その手順を実現
するための何らかの命令を実行する時間が必要となっ
て、前述した形式１（従来の行列演算処理）では、１／
２がオーバーヘッドになり、また、前述した形式２で
は、１／３がオーバーヘッドになる。これに対して、本
発明では、そのようなオーバーヘッドは存在せず、行列
演算のレイテンシを増加させることなく、全体の処理性
能を維持することができる。

【００２０】まず、本発明において、一般的なＳＩＭＤ
演算とは使用するアキュムレータが逆になる次のような
ＳＩＭＤ命令を定義する。ニーモニック（例）ｄｍａｃｘＲＳi，ＲＳj，ＡＣＣ
k 行われる演算：ＡＣＣk+1 ＝ＲＳi ×ＲＳj ＋ＡＣＣk+1 ＡＣＣk ＝ＲＳi+1 ×ＲＳj+1 ＋ＡＣＣk となる。これにより、前述した形式２において必要であ
った（ｘ，ｙ）のスワップ操作が不要になる。

【００２１】具体的に、まず、ステップ１で（ａ0，ｂ
1）と（ｘ，ｙ）の内積を計算してアキュムレータ（ａ
ｃｃ0，ａｃｃ1）に格納する。ここで、ａｃｃ0，ａｃ
ｃ1が共にゼロならば、乗算結果とアキュムレータの値
とを加算して、アキュムレータに格納しても良い（積和
演算）。次に、ステップ２において、（ａ1，ｂ0）と
（ｘ，ｙ）の内積を計算し、アキュムレータ（ａｃｃ
1，ａｃｃ0）の値とそれぞれ加算して、アキュムレータ
（ａｃｃ1，ａｃｃ0）にそれぞれ格納する（積和演
算）。

【００２２】これにより、前述した形式２で必要であっ
た引数（ｘ，ｙ）をスワップさせるオーバーヘッドが無
くなって図３に示すような新規パスが不要になり、図４
に示されるように、オーバーヘッドを無くした行列演算
を実行することが可能になる。ここで、本発明のアキュ
ムレータをスワップさせるために生じる弊害は、以下に
示すように、軽微または無視できる程度のものであり、
実質的な問題はない。

【００２３】前述したように、並列に実行可能な２つの
積和演算回路（積和演算ユニット）は、図２のように構
成される。まず、アキュムレータアドレスをスワップさ
せるために必要な命令デコードについて述べる。積和演
算において、アキュムレータに格納された値が加算され
るのは、乗算の演算開始後であり、アキュムレータアド
レスをスワップさせるために必要な命令デコードには、
十分な時間が与えられるため、そのアキュムレータのス
ワップによる弊害は無視することができる。

【００２４】次に、データパスについて述べる。２つの
積和演算器から、どちらのアキュムレータにもアクセス
可能な場合、本発明を実行するに必要なデータパスは既
に備わっているため、アキュムレータアドレスを制御す
るだけで本発明を実行することができ、そのデータパス
による弊害も無視することができる程度のものである。

【００２５】すなわち、後述する図５および図６の比較
から明らかなように、第１の積和演算器（１３１；２３
１）からは両方のアキュムレータ（１４１，１４２；２
４１，２４２）にアクセス可能であり、且つ、第２の積
和演算器（１３２；２３２）からは第２のアキュムレー
タ（１４２；２４２）にアクセス可能（すなわち、第２
の積和演算器（１３２；２３２）はＳＩＭＤ命令専用の
積和演算器）である場合、本発明を適用することによ
り、第２の積和演算器（２３２）から第１のアキュムレ
ータ（２４１）へ接続されるパスを新設することにな
る。ただし、第２の積和演算器（２３２）の論理段数
は、第１の積和演算器（２３１）の論理段数と変わらな
いため、新規パスの新設による弊害は軽微である。

【００２６】なお、積和演算器とアキュムレータが１対
１の場合には、一方の積和演算器から他方のアキュムレ
ータへのパスを新設する必要が生じるため、セレクタ１
段の論理段数の増加を招くことになる。しかしなら、こ
の場合にも、セレクタ制御信号の生成には時間的余裕が
あるため、適用し得るデータパス回路（高速なデータパ
ス回路）は容易に構成することが可能であり、その弊害
は軽微であるといえる。

【００２７】以上の説明は、２並列のＳＩＭＤ命令につ
いて述べたが、これらは、２ｎ並列のＳＩＭＤ命令に拡
張することが可能である。２ｎ行の行列において、２^m
個（ｍ＝０，…，ｌｏｇ₂ｎ）のＡＣＣ（アキュムレー
タ）を一組と考え、隣接する２ｐ−１番目と２ｐ番目
（ｐ＝１，…，ｎ）のＡＣＣの組を、その組の中におけ
るＡＣＣの順番は変えずに、全て入れ替えさせる操作
（スワップさせる操作）をｆｍ＿１（）と定義し、ス
ワップさせない操作をｆｍ＿０（）と定義する。

【００２８】従って、２並列では、ｄｍａｃ＝ｆ０＿０（ｄｍａｃ），ｄｍａｃｘ＝ｆ０＿
１（ｄｍａｃ）となる。また、並列度２ｎのＳＩＭＤ命令は、一般的
に、次のように表される。ニーモニック（例）ｎｍａｃＲＳi，ＲＳj，ＡＣＣk 行われる演算：ＡＣＣk ＝ＲＳi ×ＲＳj ＋ＡＣＣk ＡＣＣk+1 ＝ＲＳi+1 ×ＲＳj+1 ＋ＡＣＣk+1 ：ＡＣＣk+n-1＝ＲＳi+n-1×ＲＳj+n-1＋ＡＣＣk+n-1 従って、本発明で対象とするＳＩＭＤ命令は、次のよう
な、［Ａ］ｎを、操作Ａをｎ回再帰的に繰り返すと定義
すると、［ｆｍ＿１（ｎｍａｃ）］ｐ（ｍ＝ｌｏｇ₂ｎ−ｐ；ｐ
＝１，…，ｌｏｇ₂ｎ）のように表される。

【００２９】これらを用いることで、ハード構成の観点
からも、また、実行性能の観点からも、オーバーヘッド
無しに行列演算を行うことが可能になる。本発明は、Ａ
ＣＣをスワップさせるものであって、その対象となるＳ
ＩＭＤ積和演算を選ばない。例えば、次に示すような、
ＳＩＭＤ積和演算命令に対しても適用し得る。すなわ
ち、形式２の積和演算器構成を２つ備えた４並列ＳＩＭ
Ｄ積和演算命令（ｎｍａｃｘ）を考えると、ニーモニック（例）ｎｍａｃｘＲＳi，ＲＳj，ＡＣＣ
k 行われる演算：ＡＣＣk ＝ＲＳi ×ＲＳj+1 ＋ＡＣＣk ＡＣＣk+1 ＝ＲＳi+1 ×ＲＳj ＋ＡＣＣk+1 ＡＣＣk+2 ＝ＲＳi+2 ×ＲＳj+3 ＋ＡＣＣk+n-1 ＡＣＣk+3 ＝ＲＳi+3 ×ＲＳj+2 ＋ＡＣＣk+n-1 この場合、次のような、ｆ１＿１（ｎｍａｃｘ）構成の
命令を定義することができる。

【００３０】行われる演算：ＡＣＣk+1 ＝ＲＳi ×ＲＳj+1 ＋ＡＣＣk+1 ＡＣＣk ＝ＲＳi+1 ×ＲＳj ＋ＡＣＣk ＡＣＣk+3 ＝ＲＳi+2 ×ＲＳj+3 ＋ＡＣＣk+3 ＡＣＣk+2 ＝ＲＳi+3 ×ＲＳj+2 ＋ＡＣＣk+2 従って、ｎｍａｃ，ｎｍａｃｘ，ｆ１＿１（ｎｍａ
ｃ），ｆ１＿１（ｎｍａｃｘ）を実行することで、オー
バーヘッド無しに、４行４列の行列演算ができることに
なる。

【００３１】以上は、３オペランド形式を例として述べ
たが、本発明は、複数のアキュムレータを持つハード構
成であれば、どのようなオペランド方式であって適用す
ることが可能である。

【００３２】

【発明の実施の形態】以下、本発明に係るＳＩＭＤ演算
を行う積和演算回路およびこれを備えた半導体集積回路
装置の実施例を、従来技術および関連技術と比較しつ
つ、添付図面を参照して詳述する。図５は従来技術に係
るＳＩＭＤ積和演算回路の一例を示すブロック図であ
る。図５において、参照符号１１０はメモリ、１２０は
アドレスデコーダ（ＳＩＭＤ対応アドレスデコーダ）、
１３１および１３２は積和演算回路（積和演算ユニッ
ト）、１４１および１４２はアキュムレータ、そして、
１５０および１６０はセレクタを示している。

【００３３】第１の積和演算回路（第１の積和演算ユニ
ット）１３１は、ＳＩＳＤ積和演算とＳＩＭＤ積和演算
の両方を行うことができ、また、第２の積和演算回路
（第２の積和演算ユニット）１３２は、ＳＩＭＤ積和演
算専用のものである。まず、ＳＩＭＤ積和演算が実行さ
れる場合、第１の積和演算回路１３１に供給されるソー
スデータをメモリ１１０から読み出すと共に、そのソー
スデータアドレスに『１』インクリメントしたアドレス
から第２の積和演算回路１３２に供給されるソースデー
タをメモリ１１０から読み出す。この『１』インクリメ
ントの処理は、第１の積和演算回路１３１に供給される
ソースデータのアドレスを偶数に制限することで、実際
に行う代わりにアドレスの最下位ビットを『１』に差し
換え、これにより高速な読み出しを実現することができ
る。

【００３４】メモリ１１０から読み出されたソースデー
タは、それぞれ積和演算回路１３１および１３２に供給
される。ここで、積和演算回路（１３１，１３２）のソ
ースデータ３（ソース３）は、アキュムレータ（１４
１，１４２）から読み出される。すなわち、第１の積和
演算器回路１３１には、ＳＩＭＤ対応アドレスデコーダ
１２０からのアドレス制御信号Ｓ１1により制御される
セレクタ１６０を介して第１のアキュムレータ１４１
（ＡＣＣ１）および第２のアキュムレータ１４２（ＡＣ
Ｃ２）からのいずれのソースデータ３も読み出し可能と
され、また、第２の積和演算器回路１３２には、第２の
アキュムレータ１４２からのソースデータ３が読み出さ
れる。

【００３５】第１の積和演算回路１３１の演算結果は、
第１のアキュムレータ１４１に格納されると共に、ＳＩ
ＭＤ対応アドレスデコーダ１２０から出力されるアドレ
ス制御信号Ｓ１２により制御されるセレクタ１５０を介
して第２の積和演算回路１３２の演算結果と選択的に第
２のアキュムレータ１４２に格納される。以上のような
動作により、ＳＩＭＤ積和演算が実行される。

【００３６】図６は本発明に係るＳＩＭＤ積和演算回路
の一実施例を示すブロック図である。本実施例のＳＩＭ
Ｄ積和演算回路は、上述した従来のＳＩＭＤ積和演算回
路に対してわずかな変更を加えるだけで構成される。す
なわち、図５および図６の比較から明らかなように、本
実施例のＳＩＭＤ積和演算回路は、図５に示す従来のＳ
ＩＭＤ積和演算回路に対して第２の積和演算回路２３２
（１３２）から第１のアキュムレータ２４１（１４１）
に演算結果を書き込むデータパスＤＰ２１およびセレク
タ２５１を設けると共に、第１のアキュムレータ２４１
から第２の積和演算回路２３２にソースデータ３を供給
するデータパスＤＰ２２およびセレクタ２６２を設ける
ようになっている。ここで、セレクタ２５１はＳＩＭＤ
対応アドレスデコーダ２２０からのアドレス制御信号Ｓ
２３により制御され、また、セレクタ２６２はＳＩＭＤ
対応アドレスデコーダ１２０からのアドレス制御信号Ｓ
２４により制御されるようになっている。なお、図５に
おけるメモリ１１０，第１の積和演算回路１３１，第２
のアキュムレータ１４２，ＳＩＭＤ対応アドレスデコー
ダ１２０，セレクタ１５０および１６０は、それぞれ図
６におけるメモリ２１０，第１の積和演算回路２３１，
第２のアキュムレータ２４２，ＳＩＭＤ対応アドレスデ
コーダ２２０，セレクタ２５２および２６１に対応す
る。

【００３７】そして、本実施例では、積和演算を行う際
に、ＳＩＭＤ対応アドレスデコーダ２２０に対して、通
常のＳＩＭＤ積和演算時に生成されるアドレスとはスワ
ップした関係にあるアドレスを生成させるためのスワッ
プ指示信号を供給するようになっている。なお、スワッ
プ指示信号は、例えば、命令をデコードするデコーダに
より生成される。

【００３８】このように、図６に示す本実施例の積和演
算回路は、図５に示す従来のＳＩＭＤ積和演算回路に対
して上述したような変更を加えることで、以下のような
演算を実行する。まず、メモリ２１０からのソースデー
タ（ソース１，２）を読み出し、第１および第２の積和
演算回路２３１，２３２に供給するまでは、図５に示す
従来のＳＩＭＤ積和演算と同じである。

【００３９】第１の積和演算器回路２３１には、ＳＩＭ
Ｄ対応アドレスデコーダ２２０からのアドレス制御信号
Ｓ２１で制御されるセレクタ２６１により、第２のアキ
ュムレータ２４２からデータが読み出され、また、第２
の積和演算回路２３２には、ＳＩＭＤ対応アドレスデコ
ーダ２２０からのアドレス制御信号Ｓ２４で制御される
セレクタ２６２により、第１のアキュムレータ２４１か
らデータが読み出される。

【００４０】第１の積和演算回路２３１の演算結果は、
ＳＩＭＤ対応アドレスデコーダ２２０からのアドレス制
御信号Ｓ２２で制御されるセレクタ２５２により、第２
のアキュムレータ２４２に格納され、また、第２の積和
演算回路２３２の演算結果は、ＳＩＭＤ対応アドレスデ
コーダ２２０からのアドレス制御信号Ｓ２３で制御され
るセレクタ２５１により、第１のアキュムレータ２４１
に格納される。

【００４１】以上のように、本第１実施例は、わずかな
回路の変更だけで、オーバーヘッド無しに高速に積和演
算をすることができるＳＩＭＤ積和演算回路を実現する
ことができる。図７は関連技術に係る２並列のＳＩＳＤ
積和演算回路の一例を示すブロック図であり、２つのＳ
ＩＳＤ積和演算が並列に実行可能な積和演算回路を有す
るデータ処理装置を示している。

【００４２】各アキュムレータ３４１，３４２は、第１
の積和演算回路３３１および第２の積和演算回路３３２
のいずれからもソースデータを読み出し、また、その各
演算結果をいずれの積和演算回路３３１，３３２にも書
き込むことができるようになっている。従って、図７に
示す積和演算回路は、前述した図６の第１実施例におけ
るデータパス構造を既に持っていることになる。ただ
し、この図７に示す関連技術の積和演算回路は、２並列
のＳＩＳＤ積和演算を行うためだけのものであり、ＳＩ
ＭＤ積和演算を実行することは考慮されていない。

【００４３】すなわち、図７に示す積和演算回路によ
り、次のような２並列のＳＩＳＤ積和演算が実行され
る。まず、第１の積和演算回路３３１に供給されるソー
スデータをメモリ３１０から読み出すと共に、第２の積
和演算回路３３２に供給されるソースデータをメモリ３
１０から読み出す。メモリ３１０から読み出されたソー
スデータは、それぞれ積和演算回路３３１，３３２に供
給される。

【００４４】各積和演算回路のソースデータ３（ソース
３）は、アキュムレータ３４１，３４２から読み出され
る。ここで、第１の積和演算器回路３３１には、アキュ
ムレータ３４１と３４２のいずれからも読み出し可能な
らば、アドレスデコーダ３２０からは、アドレス制御信
号Ｓ３１により第１のアキュムレータ３４１からデータ
が読み出され、また、第２の積和演算回路３３２には、
第２のアキュムレータ３４２からデータが読み出され
る。

【００４５】第１の積和演算器回路３３１には、アドレ
スデコーダ３２０から出力されるアドレス制御信号Ｓ３
１によりアキュムレータ３４１または３４２からデータ
が読み出され、第２の積和演算回路３３２には、アドレ
スデコーダ３２０から出力されるアドレス制御信号Ｓ３
４によりアキュムレータ３４１または３４２からデータ
が読み出される。

【００４６】第１の積和演算回路３３１の演算結果は、
アドレスデコーダ３２０から出力されるアドレス制御信
号Ｓ３２によりアキュムレータ３４１または３４２に格
納され、また、第２の積和演算回路３３２の演算結果
は、アドレスデコーダ３２０から出力されるアドレス制
御信号Ｓ３３によりアキュムレータ３４１または３４２
に格納される。このとき、同じアキュムレータに同時に
書き込まれることはない。

【００４７】以上のようにして、２並列のＳＩＳＤ積和
演算が実行されるが、この２並列積和演算回路を本発明
のＳＩＭＤ積和演算が実行できるようにしたものが図８
である。すなわち、図８は本発明に係るＳＩＭＤ積和演
算回路の他の実施例を示すブロック図である。まず、Ｓ
ＩＳＤ積和演算実行時においては、第２の積和演算回路
４３２に供給されるソースデータ（ソース１，２）のア
ドレスを、ＳＩＭＤ積和演算実行時に第２の積和演算回
路４３２に供給されるソースデータのアドレス（すなわ
ち、第１の積和演算回路４３１に供給されるソースデー
タのアドレスに１インクリメントしたもの）にセレクタ
４７１および４７２を用いて差し替える。このセレクタ
４７１，４７２を制御するための信号の生成は、次のよ
うにすることで、特別なデコードを必要とすることなく
高速にセレクタを制御することが可能になる。

【００４８】ＳＩＭＤ積和演算を実行する際には、第２
の積和演算回路４３２を使用したＳＩＳＤ積和演算を実
行不可にする。これにより、ＳＩＳＤ積和演算を実行し
ないときには、ＳＩＭＤ積和演算実行時に第２の積和演
算回路４３２に供給されるソースデータのアドレスを選
択するようにセレクタ３７１，４７２を構成するだけで
良いことになる。これは、アドレスだけでなく、第２の
積和演算回路４３２を動作させるための制御信号を生成
する命令デコーダに供給されるあらゆる資源に対して、
応用可能である。すなわち、ＳＩＳＤ積和演算を行うか
どうかのバリッドだけで、ＳＩＳＤ積和演算回路の全て
を、ＳＩＳＤ積和演算回路への弊害を最小限にして、且
つ、高速にＳＩＭＤ積和演算実行時に流用することが可
能になる。

【００４９】以上のようにして、積和演算回路にソース
データ（ソース１，２）を供給した後、ＳＩＭＤ対応ア
ドレスデコーダ４２０により、アキュムレータ４４１，
４４２に格納されたソースデータ（ソース３）を各積和
演算回路４３１，４３２に供給し、その各積和演算結果
を、アキュムレータ４４１，４４２にそれぞれ格納す
る。

【００５０】図９は図８に示すＳＩＭＤ積和演算回路の
動作を説明するための図である。なお、次の表１は、ア
キュムレータのアドレス（ＡＣＣアドレス）入れ替え真
理値表（２×２）を示している。

【００５１】

【表１】

【００５２】まず、通常のＳＩＭＤ積和演算（ノーマ
ル）では、制御信号Ｓ４１〜Ｓ４４により、セレクタ４
５１および４６２はパス『１』を選択し且つセレクタ４
５２および４６１はパス『０』を選択し、第１の積和演
算回路４３１は第１のアキュムレータ４４１（ＡＣＣ
１）に接続され且つ第２の積和演算回路４３２は第２の
アキュムレータ４４２（ＡＣＣ２）に接続されるように
制御される。

【００５３】一方、入れ替え時のＳＩＭＤ積和演算（ス
ワップ）では、制御信号Ｓ４１〜Ｓ４４により、セレク
タ４５１および４６２はパス『０』を選択し且つセレク
タ４５２および４６１はパス『１』を選択し、第１の積
和演算回路４３１は第２のアキュムレータ４４２（ＡＣ
Ｃ２）に接続され且つ第２の積和演算回路４３２は第１
のアキュムレータ４４１（ＡＣＣ１）に接続されるよう
に制御される。

【００５４】このように、図８および図９に示す本実施
例によれば、既存の回路（図７に示すような関連技術の
積和演算回路）に対して大きな変更を加えることなく、
オーバーヘッド無しに行列演算が実行可能なＳＩＭＤ積
和演算回路を実現することができる。図１０は本発明に
係るＳＩＭＤ積和演算回路が適用されるプロセッサの全
体構成を示すブロック図であり、例えば、ＶＬＩＷ（Ve
ry Long Instruction Word：長命令語／並列実行型）ア
ーキテクチャを採用した組み込み用アプリケーション特
化型のプロセッサであり、上述した本発明に係るＳＩＭ
Ｄ積和演算回路が半導体チップに形成された半導体集積
回路装置の一例を示すものである。

【００５５】図１０において、参照符号６０１はＩＣＥ
（in-circuit emulator）装置、６０２はシンクロナス
ＤＲＡＭ（ＳＤＲＡＭ）、６０３はバスブリッジ、６０
４はローカルバス、そして、５００はプロセッサ（半導
体集積回路装置）を示している。プロセッサ５００は、
デバッグサポートユニット５０１、バスユニット５０
２、クロックジェネレータ５０３、ストレージユニット
５０４、整数演算ユニット５０５、および、浮動小数点
／メディア処理演算ユニット５０６を備えている。バス
ユニット５０２は、ＳＤＲＡＭ６０２とのインターフェ
ースを取るＳＤＲＡＭ・Ｉ／Ｆ部５２１、バスブリッジ
６０３を介してローカルバス６０４とのインターフェー
スを取るローカルバスＩ／Ｆ部５２２、並びに、ストレ
ージユニット５０４とデバッグサポートユニット５０
１，ＳＤＲＡＭ・Ｉ／Ｆ部５２１およびローカルバスＩ
／Ｆ部５２２との間に設けられたバスインターフェース
部５２３を備えている。ここで、デバッグサポートユニ
ット５０１は、ＩＣＥ装置６０１とＩＣＥ接続され、デ
バッグをサポートするものである。

【００５６】ストレージユニット５０４は、命令キャッ
シュ５４１およびデータキャッシュ５４２を備えてい
る。整数演算ユニット５０５は、命令キャッシュ５４１
からの命令を一時的に保持する命令フェッチ部５５１、
命令フェッチ部５５１からの命令（例えば、ＶＬＩＷ命
令）を整数演算（Ｉ）および浮動小数点／メディア処理
演算（Ｆ／Ｍ）に分けて制御するパイプライン制御部５
５２、整数演算用パイプライン５５３、および、ジェネ
ラル・レジスタファイル部（ＲＡＭ）５５４を備えてい
る。

【００５７】浮動小数点／メディア処理演算ユニット５
０６は、フローティング・レジスタファイル部（ＲＡ
Ｍ）５６１、浮動小数点演算用パイプライン５６２、お
よび、メディア処理用パイプライン５６３を備えてい
る。ここで、浮動小数点演算用パイプライン５６２は、
例えば、２つのＳＩＭＤ積和演算回路を備え、また、メ
ディア処理用パイプライン５６３は、例えば、４つのＳ
ＩＭＤ積和演算回路を備えて構成されている。上述した
本発明に係るＳＩＭＤ積和演算回路は、例えば、このよ
うな浮動小数点演算用パイプライン５６２およびメディ
ア処理用パイプライン５６３に適用される。

【００５８】なお、本発明に係るＳＩＭＤ積和演算回路
が適用されるプロセッサ（半導体集積回路装置）５００
は、例えば、複数の３２ビット整数演算ユニット（５０
５：例えば、２個）、浮動小数点／メディア処理演算ユ
ニット（５０６：例えば、それぞれ２個）を備え（計６
個の演算ユニット）、整数演算ユニット５０５により高
性能な信号処理を行い、また、メディア処理演算ユニッ
ト（浮動小数点／メディア処理演算ユニット５０６）に
より画像などの大容量連続データ（メディアデータ）の
処理を行うことができる。

【００５９】

【発明の効果】以上、詳述したように、本発明によれ
ば、回路に大幅な変更を加えることなく、高速にＳＩＭ
Ｄ行列演算を行うことのできる積和演算回路および半導
体集積回路装置を提供することができる。

【図面の簡単な説明】

【図１】一般的なＳＩＳＤ積和演算の手順の一例を示す
図である。

【図２】２並列のＳＩＳＤ積和演算の手順の一例を示す
図である。

【図３】従来の積和演算における課題を説明するための
図である。

【図４】本発明および従来の行列演算処理を比較して示
すタイムチャートである。

【図５】従来技術に係るＳＩＭＤ積和演算回路の一例を
示すブロック図である。

【図６】本発明に係るＳＩＭＤ積和演算回路の一実施例
を示すブロック図である。

【図７】関連技術に係る２並列のＳＩＳＤ積和演算回路
の一例を示すブロック図である。

【図８】本発明に係るＳＩＭＤ積和演算回路の他の実施
例を示すブロック図である。

【図９】図８に示すＳＩＭＤ積和演算回路の動作を説明
するための図である。

【図１０】本発明に係るＳＩＭＤ積和演算回路が適用さ
れるプロセッサの全体構成を示すブロック図である。

【符号の説明】

１１０，２１０，３１０，４１０…メモリ１２０，２２０，４２０…ＳＩＭＤ対応アドレスデコー
ダ３２０…アドレスデコーダ１３１，２３１，３３１，４３１…第１の積和演算回路
（第１の積和演算ユニット）１３２，２３２，３３２，４３２…第２の積和演算回路
（第２の積和演算ユニット）１４１，２４１，３４１，４４１…第１のアキュムレー
タ（ＡＣＣ１）１４２，２４２，３４２，４４２…第２のアキュムレー
タ（ＡＣＣ２）１５０；２５１，２５２；３５１，３５２；４５１，４
５２；１６０；２６１，２６２；３６１，３６２；４６
１，４６２…セレクタ５００…プロセッサ（半導体集積回路装置）５０１…デバッグサポートユニット５０２…バスユニット５０３…クロックジェネレータ５０４…ストレージユニット５０５…整数演算ユニット５０６…浮動小数点／メディア処理演算ユニット６０１…ＩＣＥ装置６０２…シンクロナスＤＲＡＭ（ＳＤＲＡＭ）６０３…バスブリッジ６０４…ローカルバス

Claims

【特許請求の範囲】

【請求項１】２ｎ並列（ここで、ｎは自然数）の積和
演算が同時に実行可能なＳＩＭＤ積和演算方法であっ
て、ＳＩＭＤ積和演算で各積和演算回路に割り当てるアキュ
ムレータアドレスの並びを、２^m個（ここで、ｍ＝０，
…，ｌｏｇ₂ｎ）のアキュムレータを一組とし、隣接す
る２ｐ−１番目と２ｐ番目（ここで、ｐ＝１，…，ｎ）
のアキュムレータの組を当該アキュムレータの組の中に
おけるアキュムレータアドレスの順番は変えずに、該各
アキュムレータの組を入れ替えることでＳＩＭＤ積和演
算を実行するようにしたことを特徴とするＳＩＭＤ積和
演算方法。
【請求項２】同時に動作可能な２ｎ個（ここで、ｎは
自然数）の積和演算ユニットを有するＳＩＳＤ積和演算
回路において、前記積和演算ユニットをＳＩＭＤ積和演算に流用し、該
各積和演算ユニットに割り当てられるアキュムレータア
ドレスの並びを、２^m個（ここで、ｍ＝０，…，ｌｏｇ₂
ｎ）のアキュムレータを一組とし、隣接する２ｐ−１番
目と２ｐ番目（ここで、ｐ＝１，…，ｎ）のアキュムレ
ータの組を当該アキュムレータの組の中におけるアキュ
ムレータアドレスの順番は変えずに、該各アキュムレー
タの組を入れ替えることで積和演算を実行するようにし
たことを特徴とするＳＩＭＤ積和演算方法。
【請求項３】請求項１または２に記載のＳＩＭＤ積和
演算方法において、ＳＩＭＤ積和演算を実行するために
アキュムレータアドレスを入れ替えることを特徴とする
ＳＩＭＤ積和演算方法。
【請求項４】同時に動作可能な２ｎ個（ここで、ｎは
自然数）の積和演算ユニットを有し、該各積和演算ユニ
ットは乗算器、加算器およびアキュムレータを備える積
和演算回路であって、前記各積和演算ユニットに割り当てられるアキュムレー
タアドレスの並びを、２^m個（ここで、ｍ＝０，…，ｌ
ｏｇ₂ｎ）のアキュムレータを一組とし、隣接する２ｐ
−１番目と２ｐ番目（ここで、ｐ＝１，…，ｎ）のアキ
ュムレータの組を当該アキュムレータの組の中における
アキュムレータアドレスの順番は変えずに、該各アキュ
ムレータの組を入れ替えることで積和演算を実行するよ
うにしたことを特徴とするＳＩＭＤ積和演算回路。
【請求項５】請求項４に記載のＳＩＭＤ積和演算回路
において、さらに、前記各積和演算ユニットに対して設
けられ前記各アキュムレータのデータを切り替えて供給
するセレクタと、該各アキュムレータに対して設けられ
該各積和演算ユニットの演算結果を切り替えて格納する
セレクタとを備え、該各セレクタを制御して該各積和演
算ユニットに所定のＳＩＭＤ積和演算を実行させるよう
にしたことを特徴とするＳＩＭＤ積和演算回路。
【請求項６】請求項５に記載のＳＩＭＤ積和演算回路
において、前記各セレクタは、スワップ指示信号が供給
されたアドレスデコーダからの制御信号により切り替え
制御されることを特徴とするＳＩＭＤ積和演算回路。
【請求項７】請求項４に記載のＳＩＭＤ積和演算回路
において、さらに、前記２ｎ個の積和演算ユニットにソ
ースデータを供給するメモリに対して、ＳＩＳＤ積和演
算用とＳＩＭＤ積和演算用のソースデータアドレスを切
り替えて入力するセレクタを備えることを特徴とするＳ
ＩＭＤ積和演算回路。
【請求項８】請求項７に記載のＳＩＭＤ積和演算回路
において、前記各セレクタは、前記積和演算ユニットの
いずれかに対するバリッド信号により切り替え制御され
ることを特徴とするＳＩＭＤ積和演算回路。
【請求項９】請求項４に記載のＳＩＭＤ積和演算回路
において、さらに、前記２ｎ個の積和演算ユニットを制
御するために必要な制御信号を生成する命令デコーダに
供給される資源を、ＳＩＳＤ積和演算用とＳＩＭＤ演算
用とに切り替えて使用するセレクタを備えることを特徴
とするＳＩＭＤ積和演算回路。
【請求項１０】請求項４〜９のいずれか１項に記載の
ＳＩＭＤ積和演算回路が、半導体チップに形成されてい
ることを特徴とする半導体集積回路装置。