JP2000322235A

JP2000322235A - 情報処理装置

Info

Publication number: JP2000322235A
Application number: JP11127340A
Authority: JP
Inventors: Yukihiko Mogi; 幸彦茂木; Kazuhiko Nishibori; 一彦西堀
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-05-07
Filing date: 1999-05-07
Publication date: 2000-11-24
Also published as: US6687724B1

Abstract

(57)【要約】【課題】サブワード単位で行った演算処理結果をサブ
ワード単位で出力し、実行サイクルを削減する。【解決手段】例えばパーソナルコンピュータのプロセ
ッサとして用いられる情報処理装置１は、ＳＩＭＤ型の
内積演算処理を行う内積演算ユニット３を有する。この
内積演算ユニット３による演算結果は、ワード形式でＰ
レジスタ１５に格納される。シフト飽和ユニット１６
は、ワード形式で格納された演算結果をＰレジスタ１５
から読み出し、任意のビット数シフト演算をした後任意
のビット数で飽和処理をして、その結果をサーブワード
としてＹレジスタ１７に格納する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、汎用プロセッサ、
組み込み用ＣＰＵ（Central Processing Unit）、メデ
ィアプロセッサ、ＤＳＰ（Digital Signal Processor）
等のデータ処理に用いる情報処理装置に関するものであ
る。

【０００２】

【従来の技術】デジタル信号を処理するＣＰＵやＤＳＰ
等のプロセッサでは、マルチメディアの普及に伴いデジ
タルフィルタの演算を行うことが多くなってきている。
デジタルフィルタの演算は、つまりは内積演算であるこ
とから、以下の演算式を用いて行われる。

【０００３】

【数１】

【０００４】この内積演算を効率よく行うため、ＣＰＵ
やＤＳＰ等のプロセッサでは、最近では積和演算ユニッ
トが内蔵されている。積和演算ユニットが内蔵されたＣ
ＰＵの構成を図３４に示す。

【０００５】図３４に示すＣＰＵ１００は、複数のデー
タを格納するレジスタファイル１０１と、データの積和
演算処理を行う積和演算ユニット（ＭＡＣ：Multiple a
nd Accumulate）１０２と、データの左右シフトを処理
を行うシフトユニット（ＳＨＩＦＴ）１０３と、データ
の算術演算や論理演算を行う算術論理演算ユニット（Ａ
ＬＵ：Arithmetic Logical Unit）１０４とを有してい
る。このようなＣＰＵ１００により、内積演算処理を行
う場合には、レジスタファイル１０１に格納されたデー
タをＭＡＣ１０２が積和演算を行い、この演算結果を再
度レジスタファイル１０１に格納する。そして、レジス
タファイル１０１に格納されたデータに対して、ＭＡＣ
１０２が繰り返し積和演算を行って、内積演算結果を得
る。

【０００６】また、ワークステーションやパーソナルコ
ンピュータ等に用いられるプロセッサでは、最近、画像
処理や音声処理を高速に行うため、サブワード単位でＳ
ＩＭＤ（Single Instruction Multiple data stream）
型の処理が行われている。このＳＩＭＤ型の処理は、レ
ジスタファイルに格納されている３２ビットや６４ビッ
ト等のワード長のデータを、所定のビット数の複数のデ
ータに分割して演算処理を行う。このワード長のデータ
を分割した各データのことを、サブワードと呼ぶ。

【０００７】デジタルフィルタ演算すなわち内積演算
は、サブワード形式のデータとＳＩＭＤ型の処理を行う
内積演算ユニットとを組み合わせることで、さらに高速
化を図ることができる。特に、デジタルフィルタ演算
は、画像処理や音声処理に対して用いられ、一連のデー
タに対して、連続して適用されることが多い。そのた
め、ＳＩＭＤ型の処理によりデジタルフィルタ演算を行
う場合には、演算対象となるソースデータとそのソース
データに乗算する係数データとが、それぞれサブワード
形式で、内積演算ユニットの入力レジスタに格納され
る。

【０００８】一般的なＳＩＭＤ型の内積演算処理を、図
３５を用いて説明する。内積演算ユニットの入力レジス
タには、例えば、６４ビットのソースデータと６４ビッ
トの係数データとが、１６ビットのサブワード単位で入
力される。第１の入力レジスタ１１１には、下位ビット
から、Ｘ₀、Ｘ₁、Ｘ₂、Ｘ₃の４つのサブワード（各１６
ビット）が格納される。また、第２の入力レジスタ１１
２には、下位ビットから、Ｃ₀、Ｃ₁、Ｃ₂、Ｃ₃の４つの
サブワード形式の係数データ（各１６ビット）が格納さ
れる。内積演算ユニットは、この１６ビットのサブワー
ド形式のソースデータと、それに対応する４つの１６ビ
ットのサブワード形式の係数データとに対し、積和演算
命令（pmaddwd）に応じて積和演算処理を行い、その結
果を第１の中間レジスタ１１３に格納する。第１の中間
レジスタ１１３の上位３２ビットのサブワードには積和
演算処理結果として“Ｘ₂×Ｃ₂＋Ｘ₃×Ｃ₃”が格納さ
れ、第１の中間レジスタ１１３の下位３２ビットのサブ
ワードには積和演算処理結果として“Ｘ₀×Ｃ₀＋Ｘ₁×
Ｃ₁”が格納される。次に、内積演算ユニットは、デー
タ転送命令（movq）に応じて、第１の中間レジスタ１１
３の内容を、第２の中間レジスタ１１４にコピーする。
次に、内積演算ユニットは、シフト命令（psrlq）に応
じて、第１の中間レジスタ１１３のデータを、１サブワ
ード分すなわち３２ビット分、右に論理シフトする（つ
まり、上位から下位へデータをシフトする。以下右シフ
トともいう。）。そして、内積演算ユニットは、加算命
令（paddd）に応じて、第１の中間レジスタ１１３及び
第２の中間レジスタ１１４の上位３２ビット同士と下位
３２ビット同士をそれぞれ加算し、出力レジスタ１１５
の上位及び下位３２ビットに演算結果をそれぞれ格納す
る。

【０００９】このような演算処理の結果、出力レジスタ
１１５の下位３２ビットには、ＳＩＭＤ型の処理による
内積演算結果である“Ｘ₀×Ｃ₀＋Ｘ₁×Ｃ₁＋Ｘ₂×Ｃ₂＋
Ｘ₃×Ｃ₃”が格納される。なお、出力レジスタの上位３
２ビットに格納されるデータは、内積演算処理とは関係
の無いデータである。

【００１０】また、ワークステーションやパーソナルコ
ンピュータ等に用いられるプロセッサでは、一連の画像
や音声等のソースデータに対して、デジタルフィルタ演
算を連続して行う場合が多い。この場合、連続するデジ
タルフィルタ演算に対応するために、係数データを予め
１サブワードずつシフトさせて格納した複数の係数デー
タ用の入力レジスタと、１つのソースデータ用の入力レ
ジスタとを用意し、ビット位置がシフトした係数データ
を内積演算命令が起きる毎に各係数用レジスタから読み
出して、ビット位置が固定されたソースデータに対して
ビット値がずらされた係数データを乗算して、デジタル
フィルタ処理の高速化を実現したりしている。また、係
数データ用の入力レジスタと、２ワード分のデータが格
納できシフトレジスタ構造を有するソースデータ用の入
力レジスタとを用意し、内積演算命令が起きる毎に１サ
ブワード分シフトさせたソースデータを読み出して、ビ
ット位置が固定された係数データに対してビット位置が
ずらされたソースデータを乗算して、デジタルフィルタ
処理の高速化を実現したりしている。

【００１１】以上内積演算処理について説明したが、加
算、減算等の一般のＡＬＵにより行う算術論理演算につ
いても、ＳＩＭＤ型の演算処理を行うことができる。

【００１２】

【発明が解決しようとする課題】ところで、以上のよう
に演算処理をした場合、以下のような問題がある。

【００１３】例えば、一連の演算処理を行った場合、そ
れぞれの出力結果が複数の中間レジスタ及び出力レジス
タに格納されるので、多くのレジスタが必要となってし
まう。

【００１４】また、ＳＩＭＤ型の処理により演算を高速
に行っても、その結果がワード形式で出力され、入力レ
ジスタに格納したサブワード形式で出力されない。その
ため、連続してこのＳＩＭＤ型の演算処理を行う場合、
その出力データに対してシフト処理やパッキング処理を
行ってワード形式のソースデータをサブワード形式のデ
ータに作り直さなければならなく、サイクル数が増加し
てしまう。さらに、そのプログラムコード数も増加し、
プログラムメモリのメモリサイズが大きくなってしま
う。

【００１５】本発明は、このような実情を鑑みてなされ
たものであり、演算処理結果を任意のデータ長のサブワ
ードで出力し、実行サイクルを削減することができる情
報処理装置を提供することを目的とする。

【００１６】

【課題を解決するための手段】本発明にかかる情報処理
装置は、演算結果をワード長で出力する演算回路と、上
記演算回路の演算結果を格納する中間レジスタと、上記
中間レジスタに格納されたデータを任意のビット数のシ
フト演算をするシフト演算回路と、上記シフト演算回路
によりシフト演算されたデータを任意のビット長に飽和
させる飽和回路と、上記飽和回路が飽和させたデータを
サブワードとして格納し、サブワードとして格納するデ
ータの入力に応じて、格納しているデータをサブワード
単位で上位ビットから下位ビットへ順次シフトしていく
出力レジスタとを備えることを特徴とする。

【００１７】この情報処理装置では、ワード長で出力さ
れた演算結果をシフト演算した後飽和処理して、この飽
和処理した結果をサブワードとして出力レジスタに格納
する。すなわち、演算回路により演算された結果を、一
旦レジスタファイル等の外部バッファに書き込まずに、
続けてシフト演算及び飽和処理をする。

【００１８】本発明にかかる情報処理装置は、ソースデ
ータをサブワード単位で分割して格納する入力レジスタ
と、係数データをサブワード単位で分割して格納する係
数レジスタと、上記入力レジスタに格納されたソースデ
ータと上記係数レジスタに格納された係数データに対し
て、サブワード単位でＳＩＭＤ（Single InstructionMu
ltiple data stream）型の内積演算処理をし、演算結果
をワード長で出力する内積演算ユニットと、上記内積演
算ユニットの演算結果を格納する中間レジスタと、上記
中間レジスタに格納されたデータを任意のビット数のシ
フト演算をするシフト演算回路と、上記シフト演算回路
によりシフト演算されたデータを任意のビット長に飽和
させる飽和回路と、上記飽和回路が飽和させたデータを
サブワードとして格納し、サブワードとして格納するデ
ータの入力に応じて、格納しているデータをサブワード
単位で上位ビットから下位ビットへ順次シフトしていく
出力レジスタとを備えることを特徴とする。

【００１９】この情報処理装置では、ワード長で出力さ
れた内積演算結果をシフト演算した後飽和処理して、こ
の飽和処理した結果をサブワードとして出力レジスタに
格納する。すなわち、内積演算ユニットにより演算され
た結果を、一旦レジスタファイル等の外部バッファに書
き込まずに、続けてシフト演算及び飽和処理をする。

【００２０】

【発明の実施の形態】以下、本発明の実施の形態の情報
処理装置について、図面を参照しながら説明する。

【００２１】本発明の実施の形態の情報処理装置は、例
えば、ワークステーションやパーソナルコンピュータ等
にプロセッサとして用いられる。

【００２２】図１に示す情報処理装置１は、複数のデー
タをワード長（例えば６４ビット）で格納するレジスタ
ファイル２と、データの内積演算処理を行う内積演算ユ
ニット（ＩＮＰＲＯＤ）３と、データの算術論理演算を
行う算術論理演算ユニット（ＡＬＵ：Arithmetic Logic
al Unit）４と、レジスタファイル２に格納されたデー
タを各レジスタに転送する第１のデータ転送バス５と、
各レジスタに格納されたデータをレジスタファイル２に
転送する第２のデータ転送バス６と、各ユニットに与え
る命令を格納している命令メモリ（ＩＭＥＭ）７と、こ
の命令メモリ７内に格納された命令に基づき制御信号を
生成し各ユニットを制御する制御回路８とを有してい
る。

【００２３】また、情報処理装置１は、内積演算ユニッ
ト３の入力レジスタとして、サブワード形式で分割した
ワード長の係数データを格納可能な係数レジスタ（Ｃレ
ジスタ）１１と、サブワード形式で分割したワード長の
ソースデータを格納可能な上位入力レジスタ（ＸＨレジ
スタ）１２と、サブワード形式で分割したワード長のソ
ースデータを格納可能な下位入力レジスタ（ＸＬレジス
タ）１３とを有している。

【００２４】また、情報処理装置１は、内積演算ユニッ
ト３の演算結果と出力されるデータ及びレジスタファイ
ル２から第１のデータ転送バス５を介して転送されたデ
ータと切り換えるマルチプレクサ１４と、このマルチプ
レクサ１４により切り換えられたデータをワード長で格
納する中間レジスタ（Ｐレジスタ）１５とを有してい
る。

【００２５】また、情報処理装置１は、Ｐレジスタ１５
に格納されたワード長のデータに対してシフト演算及び
飽和演算をしてサブワード単位のデータに変換するシフ
ト飽和ユニット（ＳＨＩＦＴ・ＣＬＩＰ）１６と、シフ
ト飽和ユニット１６により演算されたデータを格納する
出力レジスタ（Ｙレジスタ）１７とを有している。

【００２６】また、情報処理装置１は、ＡＬＵ４の入力
レジスタとして、サブワード形式で分割したワード長の
ソースデータを格納可能な第１の入力レジスタ（Ｓ０レ
ジスタ）１８と、サブワード形式で分割したワード長の
ソースデータを格納可能な第２の入力レジスタ（Ｓ１レ
ジスタ）１９とを有し、ＡＬＵ４の出力レジスタとし
て、出力レジスタ（Ｄレジスタ）２０を有している。

【００２７】レジスタファイル２は、外部メモリから転
送されたデータや、この情報処理装置１により処理を行
ったデータ等を、ワード長（例えば６４ビット）で格納
する。このレジスタファイル２は、Ｒ０からＲｎのアド
レスを有し、このアドレスに対応した複数のデータを格
納している。レジスタファイル２は、バッファ書き込み
ステージで、Ｐレジスタ１５、Ｙレジスタ１７、Ｄレジ
スタ２０に格納されたデータが、第２のデータ転送バス
６を介して書き込まれる。また、レジスタファイル２
は、レジスタフェッチステージで、格納したデータが読
み出される。レジスタファイル２から読み出されたデー
タは、第１のデータ転送バス５を介して、Ｃレジスタ１
１、ＸＨレジスタ１２、ＸＬレジスタ１３、Ｓ０レジス
タ１８、Ｓ１レジスタ１９に格納される。

【００２８】内積演算ユニット３は、実行ステージで、
Ｃレジスタ１１に格納された係数データと、ＸＬレジス
タ１３に格納されたソースデータとの内積演算処理を行
う。この内積演算ユニット３は、処理命令に応じて、Ｓ
ＩＭＤ型の内積演算処理及び通常のワード長単位の内積
演算処理を行う。

【００２９】ＡＬＵ４は、実行ステージで、その命令に
応じて、Ｓ０レジスタ１８及びＳ１レジスタ１９に格納
されたソースデータに対して、加算、減算等の各種算術
論理演算を行う。ＡＬＵ４は、命令に応じて、ＳＩＭＤ
型の演算処理及び通常のワード長単位の演算処理を行
う。

【００３０】ワード長のＣレジスタ１１には、サブワー
ド単位で分割された係数データが格納される。例えば、
６４ビットのワード長のＣレジスタ１１には、図２に示
すように、、下位から、８ビット単位（バイト単位）の
サブワードＣ０、Ｃ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５、Ｃ
６、Ｃ７として分割されて格納される。このＣレジスタ
１１に格納された係数データは、内積演算ユニット３に
より読み出され、ＸＬレジスタ１３に格納されたソース
データと内積演算処理がされる。

【００３１】ワード長のＸＨレジスタ１２及びＸＬレジ
スタ１３には、サブワード単位で分割されたソースデー
タが格納される。例えば、６４ビットのワード長のＸＨ
レジスタ１２には、図３（Ａ）に示すように、下位か
ら、８ビット単位（バイト単位）のサブワードＸＨ０、
ＸＨ１、ＸＨ２、ＸＨ３、ＸＨ４、ＸＨ５、ＸＨ６、Ｘ
Ｈ７として分割されたソースデータが格納される。ま
た、６４ビットのワード長のＸＬレジスタ１３には、図
３（Ａ）に示すように、下位から、８ビット単位（バイ
ト単位）のサブワードＸＬ０、ＸＨ１、ＸＬ２、ＸＬ
３、ＸＬ４、ＸＬ５、ＸＬ６、ＸＬ７として分割された
ソースデータが格納される。

【００３２】また、このＸＨレジスタ１２及びＸＬレジ
スタ１３は、サブワード単位でのシフトレジスタ構造を
有しており、内積演算ユニット３のＳＩＭＤ型の１つの
内積演算毎に、格納しているソースデータを右シフト
（上位から下位へシフト）する。また、このＸＨレジス
タ１２及びＸＬレジスタ１３は、ＸＨレジスタ１２の最
下位ビットとＸＬレジスタ１３の最上位ビットとが接続
されており、ソースデータをサブワード単位で右シフト
した場合、ＸＨレジスタ１２の最下位位置のソースデー
タが、ＸＬレジスタ１３の最上位位置に格納される。具
体的には、図３（Ａ）の状態から１サブワード分上位か
ら下位へシフトさせると、図３（Ｂ）に示すように、Ｘ
Ｈレジスタ１２の最上位位置には０が格納され、ＸＬレ
ジスタ１３の最上位位置には、ＸＨレジスタ１２の最下
位位置に格納されていたサブワードＸＨ０が格納され
る。また、図３（Ｂ）の状態からさらに１サブワード分
上位から下位へシフトさせると、図３（Ｃ）に示すよう
に、ＸＨレジスタ１２の最上位位置には０が格納され、
ＸＬレジスタ１３の最上位位置には、ＸＨレジスタ１２
の最下位位置に格納されていたサブワードＸＨ１が格納
される。

【００３３】このようなＸＨレジスタ１２及びＸＬレジ
スタ１３に格納されたソースデータは、ＳＩＭＤ型の内
積演算処理がされる場合にはサブワード単位で読み出さ
れる。具体的に、係数レジスタ１１、ＸＨレジスタ１
２、ＸＬレジスタ１３、及び、内積演算ユニット３の関
係は、図４に示すようになる。ここで、この図４には、
ワード長のデータが転送される経路を太線で示し、サブ
ワード長のデータが転送される経路を細線で示してい
る。なお、一回だけのＳＩＭＤ型の内積演算処理がされ
る場合には下位に位置するＸＬレジスタ１３からのみサ
ブワード単位で読み出される。

【００３４】このようなＸＨレジスタ１２及びＸＬレジ
スタ１３並びにＣレジスタ１１を入力レジスタとして設
けた内積演算ユニット３は、サブワードのバイト数に応
じて、所定のタップ数のデジタルフィルタ演算を実現で
きる。例えば、係数データとソースデータのサブワード
のサイズがともに１バイトのときは８タップのフィルタ
演算をすることができ、係数データ又はソースデータの
どちらかのサブワードのサイズが２バイトのときは４タ
ップのフィルタ演算をすることができ、係数データ又は
ソースデータのどちらかのサブワードのサイズが４バイ
トのときは２タップのフィルタ演算をすることができ
る。また、これ以上のタップ数のフィルタ演算を行いた
い場合には、Ｃレジスタ１１とＸＨレジスタ１２及びＸ
Ｌレジスタ１３をそれぞれもう６４ビットずつ増やすこ
とにより、１バイトのときには１６タップのフィルタ演
算をすることができ、２バイトのときには８タップのフ
ィルタ演算をすることができ、４バイトのときには４タ
ップのフィルタ演算をすることができ、８バイトのとき
には２タップのフィルタ演算をすることができる。

【００３５】Ｐレジスタ１５には、内積演算ユニット３
の演算結果のデータ或いはシフト演算の為にレジスタフ
ァイル２から転送されたデータが、マルチプレクサ１４
を介して転送される。Ｐレジスタ１５は、このデータを
ワード単位で格納する。Ｐレジスタ１５に格納されたデ
ータは、直接レジスタファイル２に転送されるか、或い
は、シフト飽和ユニット１６により読み出される。

【００３６】シフト飽和ユニット１６は、Ｐレジスタ１
５に格納されているワード長のデータを読み出して、こ
の読み出したデータに対して任意のビット数のシフト演
算処理を行い、その後、任意のビット数のビット長のデ
ータに飽和処理を行う。

【００３７】Ｙレジスタ１７は、シフト飽和ユニット１
６の出力を格納するワード長のレジスタであり、シフト
レジスト構造を有している。具体的に、このＹレジスタ
１７は、図５に示すような、サブワード長のデータを格
納するサブレジスタＹ７〜Ｙ０が直列に接続された構成
となる。なお、この図５には、ワード長でデータが転送
される経路を太線で示し、サブワード長でデータが転送
される経路を細線で示している。

【００３８】上記シフト飽和ユニット１６及びＹレジス
タ１７の処理ついて図６〜図８を用いてさらに詳細に説
明する。

【００３９】まず、Ｐレジスタ１５にあるワード長のデ
ータが格納されているとする。例えば、Ｐレジスタ１５
には、図４（Ａ）に示すように、下位から８ビット毎に
Ｐ０、Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６、Ｐ７と続
く６４ビットのワード長のデータが格納されているとす
る。このＰレジスタ１５に格納されているデータは、サ
ブワードに分割されていない（なお、図６〜図８には、
便宜上８ビット毎のデータ単位に区切った形でＰレジス
タ１５のデータ内容を示している。）。続いて、シフト
飽和ユニット１６は、このＰレジスタ１５に格納されて
いるワード長のデータを読み出し、所定のビット数のシ
フト演算を行う。例えば、シフト飽和ユニット１６は、
図６（Ｂ）に示すように、０ビット分右シフト演算を行
う。０ビット分の右シフト演算（すなわち、全くシフト
をさせない演算）を行うと、下位から８ビット毎にＰ
０、Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６、Ｐ７と続く
６４ビットのデータとなる。続いて、シフト飽和ユニッ
ト１６は、右シフト演算をした後のデータに対して、所
定ビット数で飽和処理を行う。例えば、シフト飽和ユニ
ット１６は、図６（Ｃ）に示すように、８ビット長で飽
和処理を行う。この飽和処理を行うと、そのビット数よ
り上位のデータが飽和され、８ビットのデータであるＰ
０のみとなる。続いて、シフト飽和ユニット１６は、こ
の飽和処理をした任意のビット長のデータを、Ｙレジス
タ１７に格納する。例えば、シフト飽和ユニット１６
は、８ビット長のＰ０のデータを、Ｙレジスタ１７に格
納する。Ｙレジスタ１７は、シフトレジスト構造を有し
ているため、転送されたデータを最上位ビットから順に
格納し、すでに格納しているデータを下位ビットへシフ
トしていく。例えば、Ｙレジスタ１７には、図６（Ｄ）
に示すように、８ビットのＰ０のデータが最上位位置に
格納される。

【００４０】また、このＹレジスタ１７の最上位位置に
８ビットのＰ０のデータが格納されている状態から処理
を続行すると以下のようになる。

【００４１】例えば、Ｐレジスタ１５には、前述と同
様、図７（Ａ）に示すように、下位から８ビット毎にＰ
０、Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６、Ｐ７と続く
６４ビットのワード長のデータが格納されている。続い
て、例えば、シフト飽和ユニット１６は、図７（Ｂ）に
示すように、８ビット分右シフト演算を行う。８ビット
分の右シフト演算を行うと、下位から８ビット毎にＰ
１、Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６、Ｐ７、※と続く６
４ビットのデータとなる。なお、この※は、Ｐ７の符号
（正のときは“０ｘ００”、負のときは“０ｘＦＦ”）
を示すものである。続いて、例えば、シフト飽和ユニッ
ト１６は、図７（Ｃ）に示すように、８ビット長で飽和
処理を行う。この飽和処理を行うと、８ビットのデータ
であるＰ１のみとなる。続いて、シフト飽和ユニット１
６は、８ビット長のＰ１のデータを、Ｙレジスタ１７に
格納する。Ｙレジスタ１７には、例えば、図７（Ｄ）に
示すように、８ビットのＰ１のデータが最上位位置に格
納され、すでに格納している８ビットのＰ０が８ビット
分右シフトする。

【００４２】また、このＹレジスタ１７の最上位に８ビ
ットのＰ１のデータが格納され、その下位に８ビットの
Ｐ０が格納されている状態から処理を続行すると以下の
ようになる。

【００４３】例えば、Ｐレジスタ１５には、前述と同
様、図８（Ａ）に示すように、下位から８ビット毎にＰ
０、Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５、Ｐ６、Ｐ７と続く
６４ビットのワード長のデータが格納されている。続い
て、例えば、シフト飽和ユニット１６は、図８（Ｂ）に
示すように、５６ビット分右シフト演算を行う。５６ビ
ット分の右シフト演算を行うと、下位から８ビット毎に
Ｐ７、※、※、※、※、※、※、※と続く６４ビットの
データとなる（※は、Ｐ７の符号。）。続いて、例え
ば、シフト飽和ユニット１６は、図８（Ｃ）に示すよう
に、８ビット長で飽和処理を行う。この飽和処理を行う
と、８ビットのデータであるＰ７のみとなる。続いて、
シフト飽和ユニット１６は、８ビット長のＰ７のデータ
を、Ｙレジスタ１７に格納する。Ｙレジスタ１７には、
例えば、図８（Ｄ）に示すように、８ビットのＰ７のデ
ータがＹレジスタ１７の最上位位置に格納され、すでに
格納している８ビットのＰ１及びＰ０が、それぞれ８ビ
ット分右シフトする。

【００４４】シフト飽和ユニット１６は、以上のような
処理を行い、ワード長で出力されたデータを、シフト演
算及び飽和処理をして、サブワード長でＹレジスタ１７
に格納することができる。例えば、８ビット単位で、シ
フト演算及び飽和演算を繰り返すことにより、複数の８
ビットのサブワードを生成することができる。なお、シ
フト演算によるシフト量及び飽和演算のビット長は、制
御回路８によりコントロールされ、これらシフト量及び
ビット長を制御することにより、分割するサブワード単
位を８ビットに限らず任意のビット数とすることができ
る。

【００４５】また、シフト飽和ユニット１６によるこの
ワード長のデータをサブワードを分割する処理は、内積
演算ユニット３の出力データに対して行うのみでなく、
レジスタファイル２からＰレジスタ１５へのデータパス
が存在することから、レジスタファイル２のデータに対
して行うこともできる。また、もちろん、ＡＬＵ４やそ
の他図示しないＭＡＣ等の演算処理回路からＰレジスタ
１５へのデータパスを設けることで、それらの出力に対
してもワード長のデータをサブワードを分割する処理を
行うことができる。

【００４６】つぎに、以上のような構成の情報処理装置
１に用いられる実行命令の一例と、その実行命令にとも
なう各構成要素の動作について説明する。

【００４７】情報処理装置１は、例えば、図９に示すよ
うに、命令フェッチ（ＩＦ）、レジスタフェッチ（Ｒ
Ｆ）、第１の実行ステージ（ＥＸＡ）、第２の実行ステ
ージ（ＥＸＢ）、バッファ書き込み（ＷＢ）の５段パイ
プラインで動作するための制御回路８を有しており、こ
の制御回路８は命令メモリ７に格納されている命令に基
づき制御信号を、各回路に対して出力する。

【００４８】具体的な命令として、例えば、以下のよう
な５つの命令セットが用いられる。

【００４９】・Ｃレジスタ１１に係数データをロードす
るのみの命令（ＳＥＴ．Ｃ）・Ｃレジスタ１１に係数データをロードするとともに、
Ｙレジスタ１７をゼロに初期化する命令（ＳＥＴ．Ｃ
Ｒ）・内積演算とシフト操作を行う命令（ＩＮＰＲＯＤ）・ソースデータをＸＨレジスタ１２及びＸＬレジスタ１
３にロードし、内積演算を行う命令（ＩＮＰＲＯＤ．
Ｌ）・ＸＨレジスタ１２及びＸＬレジスタ１３を１サブワー
ド分右シフトし、内積演算を行う命令（ＩＮＰＲＯＤ．
Ｓ）ＳＥＴ．Ｃは、図１０に示すような処理を行う命令であ
る。すなわち、ＳＥＴ．Ｃでは、命令をフェッチすると
ともにデコードする（ＩＦ）。続いて、係数データをレ
ジスタファイル２からＣレジスタ１１にロードする（Ｒ
Ｆ）。なお、ＳＥＴ．Ｃでは、ＥＸＡ、ＥＸＢ、ＷＢの
処理を行わない（ＮＯＰ）。このＳＥＴ．Ｃは、例え
ば、画像の端点部分の処理を行うときに用いられ、出力
レジスタであるＹレジスタ１７を初期化せずに係数デー
タのみを入れ替えて処理を行う命令である。

【００５０】ＳＥＴ．ＣＲは、図１１に示すような処理
を行う命令である。すなわち、ＳＥＴ．ＣＲでは、命令
をフェッチするとともにデコードする（ＩＦ）。続い
て、係数データをレジスタファイル２からＣレジスタ１
１にロードする（ＩＦ）。続いて、Ｙレジスタ１７に０
を格納して初期化する（ＥＸＡ）。なお、このＳＥＴ．
ＣＲでは、ＥＸＢ、ＷＢの処理を行わない（ＮＯＰ）。
このＳＥＴ．ＣＲは、画像や音声の内積演算を行う場合
における初期命令である。

【００５１】ＩＮＰＲＯＤは、図１２に示すような処理
を行う命令である。すなわち、ＩＮＰＲＯＤでは、命令
をフェッチするとともにデコードする（ＩＦ）。続い
て、ソースデータをレジスタファイル２からＸＬレジス
タ１３にロードする（ＲＦ）。続いて、内積演算ユニッ
ト３が、ＸＬレジスタ１３に格納されたソースデータと
Ｃレジスタ１１に格納された係数データとの内積演算を
サブワード単位で行い、すなわち、ＳＩＭＤ型の内積演
算を行い、その内積演算の結果をワード長でＰレジスタ
１５に格納する（ＥＸＡ）。続いて、シフト飽和ユニッ
ト１６が、Ｐレジスタ１５に格納されたワード長の内積
演算結果のデータを、制御回路からの制御命令に応じた
ビット数だけシフトする演算をし、この演算結果に対し
て制御回路からの制御命令に応じたビット数で飽和演算
を行い、さらに結果をワード長のままＹレジスタ１７に
書き込む（ＥＸＢ）。続いて、Ｙレジスタ１７に格納さ
れたデータを、レジスタファイル２に書き込む（Ｗ
Ｂ）。このＩＮＰＲＯＤは、内積演算を行った結果をワ
ード長のまま、Ｙレジスタ１７に書き込む処理を行う命
令である。

【００５２】ＩＮＰＲＯＤ．Ｌは、図１３に示すような
処理を行う命令である。すなわち、ＩＮＰＲＯＤ．Ｌで
は、命令をフェッチするとともにデコードする（Ｉ
Ｆ）。続いて、２つのソースデータをレジスタファイル
２からＸＨレジスタ１２及びＸＬレジスタ１３にそれぞ
れロードする（ＲＦ）。続いて、内積演算ユニット３
が、ＸＬレジスタ１３に格納されたソースデータとＣレ
ジスタ１１に格納された係数データとの内積演算をサブ
ワード単位で行い、すなわち、ＳＩＭＤ型の内積演算を
行い、その内積演算の結果をワード長でＰレジスタ１５
に格納する（ＥＸＡ）。続いて、シフト飽和ユニット１
６が、Ｐレジスタ１５に格納されたワード長の内積演算
結果のデータを、制御回路からの制御命令に応じたビッ
ト数だけシフトする演算をし、この演算結果に対して制
御回路からの制御命令に応じたビット数で飽和演算を行
い、さらにその結果をサブワード形式でＹレジスタ１７
の最上位位置に書き込む。そして、このとき、Ｙレジス
タ１７は、既に格納されているデータをサブワード単位
で右シフトする（ＥＸＢ）。続いて、Ｙレジスタ１７に
格納されたデータを、レジスタファイル２に書き込む
（ＷＢ）。このＩＮＰＲＯＤ．Ｌは、ソースデータをロ
ードするとともに内積演算を行った結果をサブワード単
位でＹレジスタ１７に書き込む処理を行う命令である。

【００５３】ＩＮＰＲＯＤ．Ｓは、図１４に示すような
処理を行う命令である。すなわち、ＩＮＰＲＯＤ．Ｓで
は、命令をフェッチするとともにデコードする（Ｉ
Ｆ）。続いて、ＸＨレジスタ１２及びＸＬレジスタ１３
に格納されている２つのソースデータをサブワード単位
で右シフトする。このとき、ＸＨレジスタ１２の最上位
には０が格納され、ＸＬレジスタ１３の最上位位置には
ＸＨレジスタ１２の最下位位置のサブワードがシフトさ
れる（ＲＦ）。続いて、内積演算ユニット３が、ＸＬレ
ジスタ１３に格納されたソースデータとＣレジスタ１１
に格納された係数データとの内積演算をサブワード単位
で行い、すなわち、ＳＩＭＤ型の内積演算を行い、その
内積演算の結果をワード長でＰレジスタ１５に格納する
（ＥＸＡ）。続いて、シフト飽和ユニット１６が、Ｐレ
ジスタ１５に格納されたワード長の内積演算結果のデー
タを、制御回路からの制御命令に応じたビット数だけシ
フトする演算をし、その演算結果に対して制御回路から
の制御命令に応じたビット数で飽和演算を行い、さらに
その結果をサブワード形式でＹレジスタ１７の最上位位
置に書き込む。そして、このとき、Ｙレジスタ１７は、
既に格納されているデータをサブワード単位で右シフト
する。（ＥＸＢ）。続いて、Ｙレジスタ１７に格納され
たデータを、レジスタファイル２に書き込む（ＷＢ）。
このＩＮＰＲＯＤ．Ｓは、ソースデータをシフトさせる
とともに内積演算を行った結果をサブワード単位でＹレ
ジスタ１７に書き込む処理を行う命令であり、ＸＨレジ
スタ１２及びＸＬレジスタ１３にソースデータをロード
した以後に、このロードしたソースデータを用いて繰り
返し内積演算を行う場合に用いる命令である。

【００５４】なお、以上の命令において、Ｐレジスタ１
５に格納されたデータをシフトするデータサイズや、飽
和処理を行うデータサイズ、すなわち、サブワードとし
てＹレジスタ１７に書き込むデータサイズは、各入力レ
ジスタに格納されたソースデータのサブワードのサイズ
に関係なく、制御回路によって任意に設定することがで
きる。

【００５５】例えば、Ｃレジスタ１１、ＸＨレジスタ１
２及びＸＬレジスタ１３に、８ビットのサブワード形式
で、係数データ及びソースデータが格納され、内積演算
結果が６４ビットのワード形式でＰレジスタ１５に格納
されるとする。

【００５６】このとき、８ビットのデータ単位をサブワ
ード形式で出力するには、Ｐレジスタ１５に格納されて
いるデータをシフト演算した後飽和処理を行って、下位
８ビットのデータを取り出す。そして、Ｙレジスタ１７
に格納されたデータを８ビット分右シフトして、飽和処
理をして得られた８ビットのデータを最上位位置にサブ
ワードとして格納する。

【００５７】また、このとき、１６ビットのデータ単位
をサブワード形式で出力するには、Ｐレジスタ１５に格
納されているデータをシフト演算した後飽和処理を行っ
て、下位１６ビットのデータを取り出す。そして、Ｙレ
ジスタ１７に格納されたデータを１６ビット分右シフト
して、飽和処理をして得られた１６ビットのデータを最
上位位置にサブワードとして格納する。

【００５８】また、このとき、３２ビットのデータ単位
をサブワード形式で出力するには、Ｐレジスタ１５に格
納されているデータをシフト演算した後飽和処理を行っ
て、下位３２ビットのデータを取り出す。そして、Ｙレ
ジスタ１７に格納されたデータを３２ビット分右シフト
して、飽和処理をして得られた３２ビットのデータを最
上位位置にサブワードとして格納する。

【００５９】つぎに、以上の各命令を用いて８回の内積
演算を繰り返す処理を行う情報処理装置１のシーケンス
例について説明する。

【００６０】図１５に、この８回の内積演算を行う場合
におけるプログラムシーケンス及び各サイクルにおける
実行内容を示す。また、図１６〜図２４に、１サブワー
ドのデータサイズが８ビットであるとした場合の各命令
セット実行時におけるＸＨレジスタ１２、ＸＬレジスタ
１３及びＹレジスタ１７のデータの格納状態を示す。

【００６１】まず、１サイクル目からＳＥＴ．Ｃが実行
される。このＳＥＴ．Ｃにより、Ｃレジスタ１１に係数
データが格納される。このとき、ＸＨレジスタ１２及び
ＸＬレジスタ１３には、図１６に示すように、前の処理
で用いたデータ或いは０が格納されているものとする。
また、Ｙレジスタ１７には、全て０が格納されているも
のとする。この１サイクル目から実行されたＳＥＴ．Ｃ
は、５サイクル目で処理が終了する。

【００６２】続いて、２サイクル目からＩＮＰＲＯＤ．
Ｌが実行される。このＩＮＰＲＯＤ．Ｌにより、ＸＨレ
ジスタ１２及びＸＬレジスタ１３にソースデータが格納
され、ＸＬレジスタ１３に格納されているソースデータ
に基づく内積演算結果がＹレジスタ１７に格納される。
このときのＸＨレジスタ１２及びＸＬレジスタ１３に
は、図１７に示すように、ＸＬレジスタ１３の最下位か
らＸＨレジスタ１２の最上位の方向へ、８ビット単位の
データであるＸ０〜Ｘ１５が格納される。また、Ｙレジ
スタ１７には、ＸＬレジスタ１３に格納されたＸ０〜Ｘ
７を用いて内積演算した結果であるＹｂが最上位に格納
され、すでに格納されているデータは８ビット右にシフ
トされる。この２サイクル目から実行されたＩＮＰＲＯ
Ｄ．Ｌは、６サイクル目で処理が終了する。

【００６３】続いて、３サイクル目からＩＮＰＲＯＤ．
Ｓが実行される。このＩＮＰＲＯＤ．Ｓにより、ＸＨレ
ジスタ１２及びＸＬレジスタ１３に格納されたソースデ
ータが１サブワード分右シフトされ、ＸＬレジスタ１３
に格納されているソースデータに基づく内積演算結果が
Ｙレジスタ１７に格納される。このときのＸＨレジスタ
１２及びＸＬレジスタ１３には、図１８に示すように、
ＸＬレジスタ１３の最下位からＸＨレジスタ１２の最上
位の方向へ、８ビット単位のデータであるＸ１〜Ｘ１５
が格納され、ＸＨレジスタ１２の最上位から８ビットに
０が格納される。また、Ｙレジスタ１７には、ＸＬレジ
スタ１３に格納されたＸ１〜Ｘ８を用いて内積演算した
結果であるＹｃが最上位に格納され、すでに格納されて
いるデータは８ビット右にシフトされる。この３サイク
ル目から実行されたＩＮＰＲＯＤ．Ｓは、７サイクル目
で処理が終了する。

【００６４】続いて、４サイクル目からＩＮＰＲＯＤ．
Ｓが実行される。このときのＸＨレジスタ１２及びＸＬ
レジスタ１３には、図１９に示すように、ＸＬレジスタ
１３の最下位からＸＨレジスタ１２の最上位の方向へ、
８ビット単位のデータであるＸ２〜Ｘ１５が格納され、
ＸＨレジスタ１２の最上位から１６ビットに０が格納さ
れる。また、Ｙレジスタ１７には、ＸＬレジスタ１３に
格納されたＸ２〜Ｘ９を用いて内積演算した結果である
Ｙｄが最上位に格納され、すでに格納されているデータ
は８ビット右にシフトされる。この４サイクル目から実
行されたＩＮＰＲＯＤ．Ｓは、８サイクル目で処理が終
了する。

【００６５】続いて、５サイクル目からＩＮＰＲＯＤ．
Ｓが実行される。このときのＸＨレジスタ１２及びＸＬ
レジスタ１３には、図２０に示すように、ＸＬレジスタ
１３の最下位からＸＨレジスタ１２の最上位の方向へ、
８ビット単位のデータであるＸ３〜Ｘ１５が格納され、
ＸＨレジスタ１２の最上位から２４ビットに０が格納さ
れる。また、Ｙレジスタ１７には、ＸＬレジスタ１３に
格納されたＸ３〜Ｘ１０を用いて内積演算した結果であ
るＹｅが最上位に格納され、すでに格納されているデー
タは８ビット右にシフトされる。この５サイクル目から
実行されたＩＮＰＲＯＤ．Ｓは、９サイクル目で処理が
終了する。

【００６６】続いて、６サイクル目からＩＮＰＲＯＤ．
Ｓが実行される。このときのＸＨレジスタ１２及びＸＬ
レジスタ１３には、図２１に示すように、ＸＬレジスタ
１３の最下位からＸＨレジスタ１２の最上位の方向へ、
８ビット単位のデータであるＸ４〜Ｘ１５が格納され、
ＸＨレジスタ１２の最上位位置から３２ビットに０が格
納される。また、Ｙレジスタ１７には、ＸＬレジスタ１
３に格納されたＸ４〜Ｘ１１を用いて内積演算した結果
であるＹｆが最上位に格納され、すでに格納されている
データは８ビット右にシフトされる。この６サイクル目
から実行されたＩＮＰＲＯＤ．Ｓは、１０サイクル目で
処理が終了する。

【００６７】続いて、７サイクル目からＩＮＰＲＯＤ．
Ｓが実行される。このときのＸＨレジスタ１２及びＸＬ
レジスタ１３には、図２２に示すように、ＸＬレジスタ
１３の最下位からＸＨレジスタ１２の最上位の方向へ、
８ビット単位のデータであるＸ５〜Ｘ１５が格納され、
ＸＨレジスタ１２の最上位位置から４０ビットに０が格
納される。また、Ｙレジスタ１７には、ＸＬレジスタ１
３に格納されたＸ５〜Ｘ１２を用いて内積演算した結果
であるＹｇが最上位に格納され、すでに格納されている
データは８ビット右にシフトされる。この７サイクル目
から実行されたＩＮＰＲＯＤ．Ｓは、１１サイクル目で
処理が終了する。

【００６８】続いて、８サイクル目からＩＮＰＲＯＤ．
Ｓが実行される。このときのＸＨレジスタ１２及びＸＬ
レジスタ１３には、図２３に示すように、ＸＬレジスタ
１３の最下位からＸＨレジスタ１２の最上位の方向へ、
８ビット単位のデータであるＸ６〜Ｘ１５が格納され、
ＸＨレジスタ１２の最上位位置から４８ビットに０が格
納される。また、Ｙレジスタ１７には、ＸＬレジスタ１
３に格納されたＸ６〜Ｘ１３を用いて内積演算した結果
であるＹｈが最上位に格納され、すでに格納されている
データは８ビット右にシフトされる。この８サイクル目
から実行されたＩＮＰＲＯＤ．Ｓは、１２サイクル目で
処理が終了する。

【００６９】続いて、９サイクル目からＩＮＰＲＯＤ．
Ｓが実行される。このときのＸＨレジスタ１２及びＸＬ
レジスタ１３には、図２４に示すように、ＸＬレジスタ
１３の最下位からＸＨレジスタ１２の最上位の方向へ、
８ビット単位のデータであるＸ７〜Ｘ１５が格納され、
ＸＨレジスタ１２の最上位から５６ビットに０が格納さ
れる。また、Ｙレジスタ１７には、ＸＬレジスタ１３に
格納されたＸ７〜Ｘ１４を用いて内積演算した結果であ
るＹｉが最上位に格納され、すでに格納されているデー
タは８ビット右にシフトされる。この９サイクル目から
実行されたＩＮＰＲＯＤ．Ｓは、１３サイクル目で処理
が終了する。

【００７０】以上のように、各命令を用いて処理を行う
ことによって、８回の内積演算を繰り返すことができ
る。これら各命令を用いることにより、この情報処理装
置１では、８回の内積演算処理を理想的には１３サイク
ルで行うことができる。

【００７１】なお、ここで示したシーケンス例は、Ｉ
Ｆ、ＲＦ、ＥＸＡ、ＥＸＢ、ＷＢの各ステージの処理処
理が全て１サイクルで終了することを前提に示してい
る。しかしながら、ＥＸＡの処理は、他のステージの処
理処理よりも重いため、１サイクルで処理が終了しない
場合がある。この場合、このＥＸＡの処理にＬサイクル
かかるとすると、ここで示したシーケンスでは、１１サ
イクル目に処理がされるＥＸＡの処理時間分だけ増加
し、トータルサイクル数が１２＋Ｌとなる。

【００７２】以上のように本発明の実施の形態の情報処
理装置１では、内積演算ユニット３からワード長で出力
された内積演算結果を、シフト飽和ユニット１６により
シフト演算した後飽和処理して、この飽和処理した結果
をサブワードとしてＹレジスタ１７に格納する。このこ
とにより、この情報処理装置１では、内積演算処理の後
に直接レジスタファイル２にサブワード形式のデータを
格納することができる。そのため、この情報処理装置１
では、レジスタファイル２に格納した後に再度サブワー
ド形式に変換する処理を行わなくて良く、レジスタファ
イル２を節約することができ、また、実行サイクルを削
減することができる。

【００７３】つぎに、上記本発明の実施の形態の情報処
理装置１の変形例について説明する。なお、各変形例を
説明するにあたり、上記情報処理装置１と同一の構成要
素については同一の符号を付け、その詳細な説明は省略
する。

【００７４】まず、第１の変形例の情報処理装置３０
は、図２５に示すように、上述した情報処理装置１のシ
フト飽和ユニット１６とＹレジスタ１７との間に、マル
チプレクサ３１が設けられた構成となっている。このマ
ルチプレクサ３１は、シフト飽和ユニット１６から出力
されたサブワード単位のデータを、Ｙレジスタ１７の任
意の位置に格納する。例えば、このマルチプレクサ３１
は、この図２５に示すように、サブワード長のデータを
分配する８個のサブマルチプレクサから構成される。各
サブマルチプレクサには、シフト飽和ユニット１６によ
り処理がされたサブワード長のデータと、Ｙレジスタ１
７のサブレジスタ（Ｙ０〜Ｙ７）から転送されたサブワ
ード長のデータとが入力され、これらのデータを対応す
るＹレジスタ１７のサブレジスタに格納する。なお、Ｙ
レジスタの各サブレジスタ（Ｙ０〜Ｙ７）からデータパ
スは、全てのサブマルチプレクサと接続されている（図
２５中には、便宜的に１本のデータパスしか記載してい
ない。）。このため、Ｙレジスタ１７に一旦格納された
サブワード長のデータを、このＹレジスタ１７の任意の
位置に書き戻すことができる。このことにより、情報処
理装置３０では、情報処理装置１と同様の処理を行うこ
とができることに加え、内積演算ユニット３による演算
の順序によらず、Ｙレジスタ１７の任意の位置にサブワ
ードのデータを格納でき、演算結果を容易に並べ替えで
きる。

【００７５】続いて、第２の変形例の情報処理装置３５
は、図２６に示すように、上述した情報処理装置１のＹ
レジスタ１７からＳ０レジスタ１８及びＳ１レジスタ１
９へのデータ転送パス４１が設けられた構成となってい
る。この情報処理装置３５では、このデータ転送パス３
６が設けられることにより、Ｙレジスタ１７からＳ０レ
ジスタ１８又はＳ１レジスタ１９へデータの転送を、レ
ジスタファイル２を介さずに行うことができる。そのた
め、情報処理装置３５では、Ｙレジスタ１７に格納され
たサブワード形式又はワード形式の演算結果を、連続し
てＡＬＵで演算することが可能となり、情報処理装置１
と同様の処理を行うことができることに加え、実行サイ
クルを減らすことができる。

【００７６】続いて、第３の変形例の情報処理装置４０
は、図２７に示すように、上述した情報処理装置１のマ
ルチプレクサ１４に代えて、内積演算ユニット３からの
出力データ、第１のデータ転送バス５を介して転送され
るデータ、又は、ＡＬＵ４からの出力データを切り換え
るマルチプレクサ４１が設けられ、Ｄレジスタ２０が設
けられていない構成となっている。この情報処理装置４
０では、ＡＬＵ４の演算結果をＰレジスタ１５に格納す
ることにより、上述した内積演算ユニット３の演算結果
をサブワード形式のデータにする処理を、ＡＬＵ４の演
算結果に対しても適用することができる。そのため、こ
の情報処理装置４０では、内積演算の演算結果のみでは
なく、ワード形式で出力されるあらゆる演算結果を直接
サブワード形式に変換してレジスタファイル２に格納す
ることができる。

【００７７】続いて、第４の変形例の情報処理装置４５
は、図２８に示すように、上述した情報処理装置１のマ
ルチプレクサ１４に代えて、内積演算ユニット３からの
出力データ、第１のデータ転送バス５を介して転送され
るデータ、又は、ＡＬＵ４からの出力データを切り換え
るマルチプレクサ４１が設けられるとともに、シフト飽
和ユニット１６とＹレジスタ１７との間に、マルチプレ
クサ３１が設けられた構成となっている。すなわち、第
３の変形例の情報処理装置４０に、第１の変形例の情報
処理装置３０のマルチプレクサ３１が設けられた構成と
なっている。そのため、この情報処理装置４５では、内
積演算の演算結果のみではなく、ワード形式で出力され
るあらゆる演算結果を直接サブワード形式に変換してレ
ジスタファイル２に格納することができとともに、Ｙレ
ジスタ１７の任意の位置にサブワードのデータを格納で
き、演算結果を容易に並べ替えできる。

【００７８】続いて、第５の変形例の情報処理装置５０
は、図２９に示すように、上述した情報処理装置１のマ
ルチプレクサ１４に代えて、内積演算ユニット３からの
出力データ、第１のデータ転送バス５を介して転送され
るデータ、又は、ＡＬＵ４からの出力データを切り換え
るマルチプレクサ４１が設けられるとともに、Ｙレジス
タ１７からＳ０レジスタ１８及びＳ１レジスタ１９への
データ転送パス３６が設けられた構成となっている。す
なわち、第３の変形例の情報処理装置４０に、第２の変
形例の情報処理装置３５のデータ転送パス３６が設けら
れた構成となっている。そのため、この情報処理装置４
５では、内積演算の演算結果のみではなく、ワード形式
で出力されるあらゆる演算結果を直接サブワード形式に
変換してレジスタファイル２に格納することができとと
もに、Ｙレジスタ１７に格納されたサブワード形式又は
ワード形式の演算結果を、連続してＡＬＵで演算するこ
とが可能となり実行サイクルを減らすことができる。

【００７９】続いて、第６の変形例の情報処理装置５５
は、図３０に示すように、上述した情報処理装置１のＰ
レジスタ１５に代えて、マルチプレクサ１４から入力さ
れたワード長のデータを分割して、サブワード長のデー
タとして格納する中間レジスタ５６が設けられた構成と
なっている。この中間レジスタ５６は、格納したサブワ
ード長のデータを、このサブワード単位でシフトレジス
トするシフトレジスト構造を有している。例えば、この
中間レジスタ５６は、図３０に示すように、マルチプレ
クサ１４から入力された６４ビットのワード長のデータ
が、８ビットのサブワード長のデータに分割されて、サ
ブレジスタＰ０〜Ｐ７に入力される。

【００８０】また、サブワードとしてデータを整列する
場合には、この中間レジスタ５６に、マルチプレクサ１
４の出力を１サブワード分だけ最上位のサブレジスタＰ
７に入力する。次に、この中間レジスタ５６のデータを
１サブワード分右シフトしてマルチプレクサ１４の出力
を１サブワード分Ｐ７に入力する。これを繰り返すこと
により、データを整列させることができ、上述したＹレ
ジスタ１７から出力されるデータと同様のデータをこの
中間レジスタ５６から出力することができる。

【００８１】このことにより、この情報処理装置５５で
は、この中間レジスタ５６のデータをバス６を介してレ
ジスタファイル２に転送することにより、内積演算処理
の後に直接レジスタファイル２にサブワード形式のデー
タを格納することができる。そのため、この情報処理装
置５５では、レジスタファイル２に格納した後に再度サ
ブワード形式に変換する処理を行わなくて良く、レジス
タファイル２を節約することができ、また、実行サイク
ルを削減することができる。続いて、第７の変形例の情
報処理装置６０は、図３１に示すように、第６の変形例
の情報処理装置５５の中間レジスタ５６からＳ０レジス
タ１８及びＳ１レジスタ１９へのデータ転送パス６１が
設けられた構成となっている。この情報処理装置６０で
は、このデータ転送パス６１が設けられることにより、
中間レジスタ５６からＳ０レジスタ１８又はＳ１レジス
タ１９へデータの転送を、レジスタファイル２を介さず
に行うことができる。そのため、情報処理装置６０で
は、中間レジスタ５６に格納されたサブワード形式又は
ワード形式の演算結果を、連続してＡＬＵで演算するこ
とが可能となり、情報処理装置５５と同様の処理を行う
ことができることに加え、実行サイクルを減らすことが
できる。

【００８２】続いて、第８の変形例の情報処理装置６５
は、図３２に示すように、第６の変形例の情報処理装置
５５のマルチプレクサ１４に代えて、内積演算ユニット
３からの出力データ、第１のデータ転送バス５を介して
転送されるデータ、又は、ＡＬＵ４からの出力データを
切り換えるマルチプレクサ４１が設けられ、Ｄレジスタ
２０が設けられていない構成となっている。この情報処
理装置６５では、ＡＬＵ４の演算結果を中間レジスタ５
６に格納することにより、上述した内積演算ユニット３
の演算結果をサブワード形式のデータにする処理を、Ａ
ＬＵ４の演算結果に対しても適用することができる。そ
のため、この情報処理装置６５では、内積演算の演算結
果のみではなく、ワード形式で出力されるあらゆる演算
結果を直接サブワード形式に変換してレジスタファイル
２に格納することができる。

【００８３】続いて、第９の変形例の情報処理装置７０
は、図３３に示すように、第６の変形例の情報処理装置
５５のマルチプレクサ１４に代えて、内積演算ユニット
３からの出力データ、第１のデータ転送バス５を介して
転送されるデータ、又は、ＡＬＵ４からの出力データを
切り換えるマルチプレクサ４１が設けられるとともに、
中間レジスタ６５からＳ０レジスタ１８及びＳ１レジス
タ１９へのデータ転送パス６１が設けられた構成となっ
ている。すなわち、第８の変形例の情報処理装置６５
に、第７の変形例の情報処理装置６０のデータ転送パス
６１が設けられた構成となっている。そのため、この情
報処理装置７０では、内積演算の演算結果のみではな
く、ワード形式で出力されるあらゆる演算結果を直接サ
ブワード形式に変換してレジスタファイル２に格納する
ことができとともに、中間レジスタ５６に格納されたサ
ブワード形式又はワード形式の演算結果を、連続してＡ
ＬＵで演算することが可能となり実行サイクルを減らす
ことができる。

【００８４】

【発明の効果】本発明に係る情報処理装置では、ワード
長で出力された演算結果又は内積演算結果をシフト演算
した後飽和処理して、この飽和処理した結果をサブワー
ドとして出力レジスタに格納する。このことにより、こ
の情報処理装置では、演算処理の後に直接レジスタファ
イルにサブワード形式のデータを格納することができ
る。そのため、この情報処理装置では、レジスタファイ
ルに格納した後に再度サブワード形式に変換する処理を
行わなくて良く、レジスタファイルを節約することがで
き、また、実行サイクルを削減することができる。

【図面の簡単な説明】

【図１】本発明の実施の形態の情報処理装置のブロック
図である。

【図２】上記情報処理装置の係数レジスタの構成を説明
する図である。

【図３】上記情報処理装置の上位入力レジスタ及び下位
入力レジスタの構成及びシフトレジスト構造を説明する
図である。

【図４】上記情報処理装置の上位入力レジスタ、下位入
力レジスタ、係数レジスタ及び内積演算処理ユニットの
構成を説明する図である。

【図５】上記情報処理装置の出力レジスタの構成を説明
する図である。

【図６】上記情報処理装置のシフト飽和ユニットの処理
内容を説明する図である。

【図７】上記図６の状態から処理を進めた場合の上記シ
フト飽和ユニットの処理内容を説明する図である。

【図８】上記図７の状態から処理を進めた場合の上記シ
フト飽和ユニットの処理内容を説明する図である。

【図９】上記情報処理装置に適用されるパイプライン処
理を説明する図である。

【図１０】上記情報処理装置に適用される１つの命令
（ＳＥＴ．Ｃ）の処理内容を説明する図である。

【図１１】上記情報処理装置に適用される１つの命令
（ＳＥＴ．ＣＲ）の処理内容を説明する図である。

【図１２】上記情報処理装置に適用される１つの命令
（ＩＮＰＲＯＤ）の処理内容を説明する図である。

【図１３】上記情報処理装置に適用される１つの命令
（ＩＮＰＲＯＤ．Ｌ）の処理内容を説明する図である。

【図１４】上記情報処理装置に適用される１つの命令
（ＩＮＰＲＯＤ．Ｓ）の処理内容を説明する図である。

【図１５】上記情報処理装置において、８回の内積演算
を行う場合におけるプログラムシーケンスを示す図であ
る。

【図１６】上記図１５のプログラムシーケンスにおける
１サイクル目から実行される命令に基づく処理によっ
て、上記情報処理装置の上位及び下位入力レジスタ並び
に出力レジスタに格納されるデータを説明する図であ
る。

【図１７】上記図１５のプログラムシーケンスにおける
２サイクル目から実行される命令に基づく処理によっ
て、上記情報処理装置の上位及び下位入力レジスタ並び
に出力レジスタに格納されるデータを説明する図であ
る。

【図１８】上記図１５のプログラムシーケンスにおける
３サイクル目から実行される命令に基づく処理によっ
て、上記情報処理装置の上位及び下位入力レジスタ並び
に出力レジスタに格納されるデータを説明する図であ
る。

【図１９】上記図１５のプログラムシーケンスにおける
４サイクル目から実行される命令に基づく処理によっ
て、上記情報処理装置の上位及び下位入力レジスタ並び
に出力レジスタに格納されるデータを説明する図であ
る。

【図２０】上記図１５のプログラムシーケンスにおける
５サイクル目から実行される命令に基づく処理によっ
て、上記情報処理装置の上位及び下位入力レジスタ並び
に出力レジスタに格納されるデータを説明する図であ
る。

【図２１】上記図１５のプログラムシーケンスにおける
６サイクル目から実行される命令に基づく処理によっ
て、上記情報処理装置の上位及び下位入力レジスタ並び
に出力レジスタに格納されるデータを説明する図であ
る。

【図２２】上記図１５のプログラムシーケンスにおける
７サイクル目から実行される命令に基づく処理によっ
て、上記情報処理装置の上位及び下位入力レジスタ並び
に出力レジスタに格納されるデータを説明する図であ
る。

【図２３】上記図１５のプログラムシーケンスにおける
８サイクル目から実行される命令に基づく処理によっ
て、上記情報処理装置の上位及び下位入力レジスタ並び
に出力レジスタに格納されるデータを説明する図であ
る。

【図２４】上記図１５のプログラムシーケンスにおける
９サイクル目から実行される命令に基づく処理によっ
て、上記情報処理装置の上位及び下位入力レジスタ並び
に出力レジスタに格納されるデータを説明する図であ
る。

【図２５】本発明の実施の形態の情報処理装置の第１の
変形例を示すブロック図である。

【図２６】本発明の実施の形態の情報処理装置の第２の
変形例を示すブロック図である。

【図２７】本発明の実施の形態の情報処理装置の第３の
変形例を示すブロック図である。

【図２８】本発明の実施の形態の情報処理装置の第４の
変形例を示すブロック図である。

【図２９】本発明の実施の形態の情報処理装置の第５の
変形例を示すブロック図である。

【図３０】本発明の実施の形態の情報処理装置の第６の
変形例を示すブロック図である。

【図３１】本発明の実施の形態の情報処理装置の第７の
変形例を示すブロック図である。

【図３２】本発明の実施の形態の情報処理装置の第８の
変形例を示すブロック図である。

【図３３】本発明の実施の形態の情報処理装置の第９の
変形例を示すブロック図である。

【図３４】従来のＣＰＵのブロック図である。

【図３５】ＳＩＭＤ型の内積演算処理内容を説明する図
である。

【符号の説明】

１，３０，３５，４０，４５，５０，５５，６０，６
５，７０情報処理装置、２レジスタファイル、３
内積演算ユニット、４算術論理演算ユニット（ＡＬ
Ｕ）、７命令メモリ、８制御回路、１１係数レジ
スタ（Ｃレジスタ）、１２上位入力レジスタ（ＸＨレ
ジスタ）、１３下位入力レジスタ（ＸＬレジスタ）、
１５，５６中間レジスタ（Ｐレジスタ）、１６シフ
ト飽和ユニット、１７出力レジスタ（Ｙレジスタ）、
１８第１の入力レジスタ、１９第２の入力レジス
タ、３１，４１マルチプレクサ、３６，６１データ
転送パス

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B022 AA02 BA02 CA01 CA03 DA01 FA01 FA03 5B033 AA03 AA06 AA13 BD03 DD06 5B056 AA06 BB28 BB71 FF02 FF03 FF07 FF08 FF10 FF16 HH03 HH05

Claims

【特許請求の範囲】

【請求項１】演算結果をワード長で出力する演算回路
と、上記演算回路の演算結果を格納する中間レジスタと、上記中間レジスタに格納されたデータを任意のビット数
のシフト演算をするシフト演算回路と、上記シフト演算回路によりシフト演算されたデータを任
意のビット長に飽和させる飽和回路と、上記飽和回路が飽和させたデータをサブワードとして格
納し、サブワードとして格納するデータの入力に応じ
て、格納しているデータをサブワード単位で上位ビット
から下位ビットへ順次シフトしていく出力レジスタとを
備えることを特徴とする情報処理装置。
【請求項２】上記飽和回路が飽和させた演算結果を、
サブワード単位で上記出力レジスタの任意の位置に格納
するマルチプレクサを備え、上記出力レジスタは、上記飽和回路が飽和させた演算結
果をサブワードとして格納することを特徴とする請求項
１記載の情報処理装置。
【請求項３】上記演算回路は、内積演算ユニットと算
術論理演算ユニットとを有することを特徴とする請求項
１記載の情報処理装置。
【請求項４】ソースデータをサブワード単位で分割し
て格納する入力レジスタと、係数データをサブワード単位で分割して格納する係数レ
ジスタとを有し、上記内積演算ユニットは、上記入力レジスタに格納され
たソースデータと上記係数レジスタに格納された係数デ
ータに対して、サブワード単位でＳＩＭＤ（Single Ins
truction Multiple data stream）型の内積演算をする
ことを特徴とする請求項３記載の情報処理装置。
【請求項５】上記飽和回路が飽和させた演算結果を、
サブワード単位で上記出力レジスタの任意の位置に格納
するマルチプレクサを備え、上記出力レジスタは、上記飽和回路が飽和させた演算結
果をサブワードとして格納することを特徴とする請求項
３記載の情報処理装置。
【請求項６】上記出力レジスタから上記算術論理演算
ユニットの入力レジスタへのデータ転送パスを有するこ
とを特徴とする請求項３記載の情報処理装置。
【請求項７】ソースデータをサブワード単位で分割し
て格納する入力レジスタと、係数データをサブワード単位で分割して格納する係数レ
ジスタと、上記入力レジスタに格納されたソースデータと上記係数
レジスタに格納された係数データに対して、サブワード
単位でＳＩＭＤ（Single Instruction Multiple data s
tream）型の内積演算処理をし、演算結果をワード長で
出力する内積演算ユニットと、上記内積演算ユニットの演算結果を格納する中間レジス
タと、上記中間レジスタに格納されたデータを任意のビット数
のシフト演算をするシフト演算回路と、上記シフト演算回路によりシフト演算されたデータを任
意のビット長に飽和させる飽和回路と、上記飽和回路が飽和させたデータをサブワードとして格
納し、サブワードとして格納するデータの入力に応じ
て、格納しているデータをサブワード単位で上位ビット
から下位ビットへ順次シフトしていく出力レジスタとを
備えることを特徴とする情報処理装置。
【請求項８】上記飽和回路が飽和させた演算結果をサ
ブワードとして、上記出力レジスタの任意の位置に格納
するマルチプレクサを備え、上記出力レジスタは、上記飽和回路が飽和させた演算結
果をサブワードとして格納することを特徴とする請求項
７記載の情報処理装置。
【請求項９】算術論理演算ユニットを有することを特
徴とする請求項７記載の情報処理装置。
【請求項１０】上記出力レジスタから上記算術論理演
算ユニットの入力レジスタへのデータ転送パスを有する
ことを特徴とする請求項９記載の情報処理装置。
【請求項１１】命令フェッチ、上記入力レジスタ又は
上記係数レジスタへのデータの格納、第１の実行ステー
ジ、第２の実行ステージ、並びに、上記出力レジスタか
ら外部バッファへの書き込みを、パイプラインで行う制
御回路を有することを特徴とする請求項７記載の情報処
理装置。
【請求項１２】制御回路は、命令をフェッチし、上記係数レジスタに係数データをロードすることを特徴
とする請求項１１記載の情報処理装置。
【請求項１３】制御回路は、命令をフェッチし、上記係数レジスタに係数データをロードし、第１の実行ステージにより出力レジスタに格納するデー
タを０とすることを特徴とする請求項１１記載の情報処
理装置。
【請求項１４】制御回路は、命令をフェッチし、上記入力レジスタにソースデータをロードし、第１の実行ステージで上記内積演算ユニットが上記入力
レジスタに格納されたソースデータと上記係数レジスタ
に格納された係数データとをサブワード単位で内積演算
するとともに、演算結果を上記中間レジスタに格納し、第２の実行ステージで上記中間レジスタに格納されたデ
ータをワード長のまま上記出力レジスタに格納し、上記出力レジスタに格納されたデータを外部バッファに
書き込むことを特徴とする請求項１１記載の情報処理装
置。
【請求項１５】制御回路は、命令をフェッチし、上記入力レジスタにソースデータをロードし、第１の実行命令により上記内積演算ユニットが上記入力
レジスタに格納されたソースデータと上記係数レジスタ
に格納された係数データとをサブワード単位で内積演算
するとともに、演算結果を上記中間レジスタに格納し、第２の実行ステージで上記中間レジスタに格納された演
算結果を上記シフト演算回路が任意のビット数シフトさ
せる演算をするとともに上記飽和回路が上記シフト演算
回路がシフトした演算結果を上記任意のビット長で飽和
させ、上記中間レジスタのデータをサブワード単位で上
記出力レジスタに格納し、上記出力レジスタに格納されたデータを外部バッファに
書き込むことを特徴とする請求項１１記載の情報処理装
置。
【請求項１６】制御回路は、命令をフェッチし、上記入力レジスタに格納されているソースデータを１サ
ブワード分シフトし、第１の実行ステージで上記内積演算ユニットが上記入力
レジスタに格納されたソースデータと上記係数レジスタ
に格納された係数データとをサブワード単位で内積演算
するとともに、演算結果を上記中間レジスタに格納し、第２の実行ステージで、上記出力レジスタが格納してい
るデータをサブワード単位でシフトしながら、同時に上
記中間レジスタに格納された演算結果を上記シフト演算
回路が任意のビット数シフトさせる演算をするとともに
上記飽和回路が上記シフト演算回路がシフトした演算結
果を上記任意のビット長で飽和させ、上記中間レジスタ
のデータをサブワード単位で上記出力レジスタに格納
し、上記出力レジスタに格納されたデータを外部バッファに
書き込むことを特徴とする請求項１１記載の情報処理装
置。