JP2000040143A

JP2000040143A - 演算回路内蔵半導体記憶装置

Info

Publication number: JP2000040143A
Application number: JP10207601A
Authority: JP
Inventors: Mikio Hondo; 幹雄本藤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1998-07-23
Filing date: 1998-07-23
Publication date: 2000-02-08

Abstract

(57)【要約】【課題】画素データに丸め演算誤差が累積されるのを
防止する。【解決手段】所定の演算処理を行なうブレンド回路
（１０２）からの画素データを転送するフィードバック
バイパス経路を設け、画素データを格納するバッファメ
モリ（１００）からの画素データとこのフィードバック
バイパス経路の画素データの一方を選択してブレンド回
路（１０２）において演算処理を行なう。バッファメモ
リ（１００）には丸め回路（１０４）の出力画素データ
が格納されるが、フィードバックバイパス経路を転送さ
れる画素データの演算処理時においては、丸め演算誤差
が累積されるのを防止することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、演算回路を内蔵
する半導体記憶装置に関し、特に、画像データを処理す
るための演算回路を内蔵する半導体記憶装置に関する。
より特定的には、画像データの混色演算のためのブレン
ド演算を行なうための演算回路を内蔵する半導体記憶装
置に関する。

【０００２】

【従来の技術】画像データの処理の高速化のために、画
像データ処理用の演算回路と画素データを格納する半導
体メモリとが一体的に集積化された装置が開発されてい
る。この半導体メモリをバッファメモリとして利用し、
演算回路の処理に必要なデータを格納する。バッファメ
モリは、主記憶またはフレームバッファメモリとの間で
画素データを転送する。演算回路とバッファメモリとの
間で画素データの転送を行なうことにより、高速のバッ
ファメモリを利用して、パイプライン的に演算処理を行
なうことができ、高速の画像データ処理が実現される。

【０００３】画像データ処理には、種々の処理内容が存
在する。これらの画像データの演算処理として、テキス
チャデータの合成、複数のテキスチャデータから１つの
テキスチャデータの生成などがある。このような演算処
理においては、「ブレンド演算」と称される演算が実行
される。このブレンド演算は、実質的に、混色演算であ
り、合成すべき画素データの色を混合する。

【０００４】図２７は、αブレンディング処理の一例を
示す図である。図２７において、ソースイメージＰＡと
デスティネーションイメージＰＢがブレンダＢＬにより
合成され、合成テキスチャイメージＰＣが生成される。
イメージＰＡおよびＰＢに対しては、各画素単位でブレ
ンダＢＬにおいてブレンド処理が行なわれる。ソースイ
メージＰＡおよびデスティネーションイメージＰＢの重
なる部分においては、通常、「ブレンダ関数」と呼ばれ
る関数を用いた処理が行なわれる。この場合、ソースイ
メージＰＡの画素とデスティネーションイメージＰＢの
画素の色の混合の割合を、α：（１−α）に設定する。
これにより、合成テキスチャイメージＰＣにおいて斜線
で示す重なり部分においては、イメージＰＡおよびＰＢ
が半透明状態で互いに重なり合うことができる。この透
明度は、係数αで決定することができ、通常αが０から
１の間の値をとる。このような画像データ処理において
は、ブレンド処理などにかかわらず、他の拡大／縮小な
どの処理も同様にブレンダＢＬにおいて行なわれる。拡
大／縮小を行なう場合、複数画素の色を混合して、補間
／間引きなどにより新たな画素をブレンダＢＬにおいて
生成する。

【０００５】図２８は、従来のブレンダの構成を概略的
に示す図である。図２８において、ブレンダＢＬは、画
素データを格納するバッファメモリ（ＳＲＡＭ）１００
と、与えられた画素データに対し予め定められたブレン
ド演算を行なうブレンド回路１０２を含む。バッファメ
モリ１００は、演算すべき画素データおよび演算後の画
素データを格納し、図示しないフレームメモリ（ＤＲＡ
Ｍ）との間で画素データの授受を行なう。ブレンド回路
１０２は、その演算処理内容は、与えられた演算命令に
より設定される。

【０００６】ブレンダＢＬは、さらに、ブレンド回路１
０２からの処理結果データに丸め処理を行なう丸め回路
１０４と、丸め回路１０４の出力データを格納するレジ
スタ１０６と、バッファメモリ１００から読出された画
素データを格納するレジスタ１０８と、レジスタ１０６
から転送されたデータを格納するレジスタ１１０と、レ
ジスタ１０６、１０８および１１０の格納データのいず
れかを選択するセレクタ１１２と、セレクタ１１２の出
力画素データを格納しかつ該格納画素データをブレンド
回路１０２へ与えるレジスタ１１４を含む。レジスタ１
０６、１０８、１１０および１１４は、ブレンダＢＬに
おける画素データ処理をパイプライン的に実行するため
に設けられ、図示しないクロック信号に同期して、与え
られた画素データの取込および出力を行なう。

【０００７】ブレンド回路１０２は、レジスタ１１４か
らの画素データおよび外部から与えられる画素データＰ
Ａｉを受け、ブレンド演算処理を行なう。この外部から
画素データＰＡｉが与えられる場合は、図２７に示すα
ブレンディング処理が行なわれ、バッファメモリ１００
に含まれる画素データをデスティネーションイメージと
し、外部から与えられる画素データＰＡｉを、ソースイ
メージ画素データとして処理が実行される。このブレン
ダＢＬにおいて、単に拡大／縮小演算または新たなテキ
スチャデータの生成を行なう場合には、ブレンド回路１
０２は、単にレジスタ１１４から与えられた画素データ
に対して所定の処理を実行する。次にこの図２８に示す
ブレンダの動作について簡単に説明する。

【０００８】αブレンディング処理時、バッファメモリ
１００には、デスティネーションイメージ画素データが
予め格納される。このバッファメモリ１００に格納され
た画素データに基づいて、ソースイメージ画素データＰ
Ａｉの混合が行なわれる。バッファメモリ１００から順
次、図示しないアドレス信号に従って画素データＰＢｉ
が読出され、レジスタ１０８へ与えられる。レジスタ１
０８は、クロック信号に同期してこの画素データＰＢｉ
の取込および出力を行ないセレクタ１１２へ、この格納
した画素データＰＢｉを与える。セレクタ１１２は、図
示しないアドレス信号により生成されるセレクト信号に
従ってレジスタ１０８からの画素データを選択してレジ
スタ１１４へ与える。レジスタ１１４は、この与えられ
た画素データを図示しないクロック信号に同期して取込
み、ブレンド回路１０２へ与える。

【０００９】ブレンド回路１０２は、外部からクロック
信号に同期して与えられる画素データＰＡｉおよびレジ
スタ１１４から与えられる画素データを取込み、所定の
ブレンド演算を行ない、処理結果を丸め回路１０４へ与
える。ブレンド回路１０２においては、たとえば、α・
ＰＡｉ＋（１−α）ＰＢｉの演算処理が実行される。係
数αは、１以下の係数であり、その演算処理結果のビッ
ト数（１４ビット）は、与えられた画素データＰＡｉお
よびＰＢｉのビット数（１０ビット）よりも大きくな
る。

【００１０】丸め回路１０４は、このブレンド回路１０
２からの画素データのたとえば下位４ビットを参照して
所定の丸め演算処理を施し、１０ビットの画素データを
生成してレジスタ１０６へ与える。レジスタ１０６の出
力画素データは、バッファメモリ１００の、元の記憶位
置に格納され、かつバッファメモリ１００への書込動作
と並行して、レジスタ１１０およびセレクタ１１２へ与
えられる。これらの一連の処理が、クロック信号に同期
してパイプライン的に実行される。セレクタ１１２は、
図示しない制御回路の制御の下に、レジスタ１０６、１
０８および１１０の出力画素データのいずれかを選択す
る。このレジスタ１０６からレジスタ１１０およびセレ
クタ１１２へのフィードバックバイパス経路を設けるこ
とにより、バッファメモリ１００に格納された画素デー
タを先読みすることができ、高速処理を行なうことがで
きる。また、元の記憶位置に格納されるのは表示画面上
の位置と画素データの記憶位置が対応しているためであ
る。

【００１１】バッファメモリ１００に格納される画素デ
ータは、たとえば１０ビット幅であり、また外部から与
えられる画素データＰＡｉも１０ビット幅である。ブレ
ンド回路１０２の出力データは、１４ビット幅であり、
丸め回路１０４が、このバッファメモリ１００へ格納す
る画素データのビット幅に合わせて、ブレンド回路１０
２からの１４ビットのデータを、丸め演算により１０ビ
ットのデータに圧縮して出力する。丸め回路１０４が行
なう演算は、切上げ、切下げ、四捨五入、およびディザ
（しきい値）処理のいずれであってもよい。

【００１２】

【発明が解決しようとする課題】バッファメモリ１００
に格納される画素データのビット数が１０ビットとさ
れ、ブレンド回路１０２の演算結果を示す出力データの
ビット幅はたとえば１４ビットとされているのは、フレ
ームメモリの格納画素データのビット数にバッファメモ
リ１００の画素データのビット数を一致させ、またブレ
ンド回路１０２における演算精度を高くするためであ
る。通常、αブレンディング処理においては、ブレンド
処理すべき画素データは、以下のようなオペランドによ
り指定される。

【００１３】［ソース♯ａ：α；１−α：デスティネー
ション♯ｂ］ソース♯ａは、ソースイメージ画素データ
のアドレスを示し、デスティネーション♯ｂは、デステ
ィネーションイメージ画素データのアドレスすなわち、
バッファメモリ１００のアドレスを示す。αおよび（１
−α）が、ソースイメージ画素データＰＡｉおよびデス
ティネーションイメージ画素データＰＢｉの混合の割合
を示す。したがって、ブレンド回路からは、α・ＰＡｉ
＋（１−α）ＰＢｉの画素データが生成され、バッファ
メモリ１００におけるアドレス♯ｂに、この演算結果デ
ータが格納される。デスティネーションイメージを、ソ
ースイメージで修飾し、その修飾されたイメージが、新
たに必要であり、元のデスティネーションイメージは必
要ではない。元のデスティネーションイメージ画素デー
タの記憶位置に、新たに生成された修飾イメージ画素デ
ータを格納することにより、バッファメモリ１００を効
率的に利用する。

【００１４】このバッファメモリ１００に格納された画
素データに対し、繰返しαブレンディング処理が施され
る場合がある。これは、たとえば、多面体の２次元表示
における各面の重ね合わせ処理などにおいて生じる。こ
の場合、バッファメモリ１００に格納されたイメージ画
素データをデスティネーションイメージとして、外部か
ら新たなソースイメージ画素データが与えられて、αブ
レンディング処理が繰返し実行される。丸め回路１０４
における丸め演算処理により、画素データにおいては、
誤差が生じる。したがって、図２９に示すように、αブ
レンディング処理ごとに丸め回路１０４における丸め処
理が実行されるため、各画素データにおいて、誤差が累
積され、正確なαブレンディング処理を施すことができ
なくなるという問題が生じる。この場合、αブレンディ
ング処理により、所望の半透明な物体を描画することが
できなくなるという問題が生じる。

【００１５】このような問題は、αブレンディング処理
に限定されず、他の混合処理においても生じる。たとえ
ば、バッファメモリ１００に格納されたイメージ全体の
色調または色の変更を行なう場合、同様の問題が生じ
る。特に、この色変更処理において、減色モードで処理
を行なった場合、上述の係数αの値が小さくなるため、
バッファメモリ１００に格納される画素データの占める
割合が大きくなり、その誤差の影響が大きくなる。

【００１６】また、拡大／縮小処理などにおいては、隣
接する複数画素を用いて新たな画素データを生成するこ
とが行なわれる。この場合、ブレンド回路において、色
の平均化処理が行なわれる。この平均化された色を有す
る新たな画素データが、バッファメモリ１００に格納さ
れる。このような拡大／縮小処理を繰返し実行する場合
においても、丸め回路１０４における丸め演算誤差が各
画素において累積されることになり、正確な拡大／縮小
イメージを得ることができなくなる。

【００１７】それゆえ、この発明の目的は、正確に画像
処理を行なうことのできる演算回路内蔵半導体記憶装置
を提供することである。

【００１８】この発明の他の目的は、丸め誤差の影響が
低減された演算回路内蔵半導体記憶装置を提供すること
である。

【００１９】

【課題を解決するための手段】請求項１に係る演算回路
内蔵半導体記憶装置は、与えられた画素データに所定の
演算処理を施すための演算回路と、画素データを格納す
る第１のメモリと、演算回路の出力データを転送するフ
ィードバックバイパス手段と、第１のメモリからの画素
データとフィードバックバイパス手段からの画素データ
の一方を選択して演算回路へ与える選択手段とを備え
る。

【００２０】請求項２に係る演算回路内蔵半導体記憶装
置は、フィードバックバイパス手段が、演算回路の出力
データを順次転送する互いに縦列接続される複数のレジ
スタを備える。これら複数のレジスタの記憶する画素デ
ータが選択手段へ並列に与えられる。

【００２１】請求項３に係る演算回路内蔵半導体記憶装
置は、演算回路の出力データに丸め演算処理を施して出
力する丸め回路をさらに備える。フィードバックバイパ
ス手段が、演算回路の出力データと丸め回路の出力デー
タの一方を選択する第２の選択手段を含む。

【００２２】請求項４に係る演算回路内蔵半導体記憶装
置は、フィードバックバイパス手段がバイパスする転送
データを第１のメモリへ書込む手段をさらに備える。

【００２３】請求項５に係る演算回路内蔵半導体記憶装
置は、請求項４の装置が第１のメモリへ画素データを伝
達する第２のメモリと、第１のメモリから第２のメモリ
へ画素データを書込む経路に設けられ、第１のメモリか
ら読出された画素データに丸め処理を施して第２のメモ
リへ転送する丸め回路をさらに備える。この第２のメモ
リは、丸め回路の出力データを格納する。

【００２４】請求項６に係る演算回路内蔵半導体記憶装
置は、請求項５の装置において、第１のメモリと第２の
メモリとは、複数の画素データを並列に転送し、丸め回
路は、これら複数の画素データそれぞれに対して設けら
れる。

【００２５】請求項７に係る演算回路内蔵半導体記憶装
置は、請求項５または６の装置において、画素データが
複数ビットを含み、丸め回路は、これら複数ビットの所
定数のビットの増分を行なうためのインクリメント回路
を含み、演算回路は、画素データの複数ビットのうちの
残りのビットの丸め処理を行ない、該演算処理結果をイ
ンクリメント回路へ転送する回路を含む。

【００２６】請求項８に係る演算回路内蔵半導体記憶装
置は、請求項３の装置において、画素データのビット数
が、丸め回路の出力データのビット数に等しくされる。

【００２７】請求項９に係る演算回路内蔵半導体記憶装
置は、請求項３の装置において、第２の選択手段が、第
１のメモリから第２のメモリへの画素データの転送前の
演算サイクルにおいて丸め回路の出力データを選択し、
第１メモリは、転送前の演算サイクルにおいて第２の選
択手段の選択した画素データを格納する。

【００２８】請求項１０に係る演算回路内蔵半導体記憶
装置は、請求項１または２の装置において、演算回路の
出力データに丸め処理を施して第１のメモリへ転送する
丸め回路をさらに備える。第１メモリは、この丸め回路
から転送された画素データをフィードバックバイパス手
段の転送と並行して格納する。

【００２９】請求項１１に係る演算回路内蔵半導体記憶
装置は、請求項５の装置において、第１のメモリの入出
力する画素データのビット数が演算回路の入力する画素
データのビット数に等しく、また第２のメモリの入出力
する画素データのビット数が、丸め回路の出力する画素
データのビット数に等しくされる。

【００３０】請求項１２に係る演算回路内蔵半導体記憶
装置は、請求項３の装置が、さらに、第１のメモリと画
素データの授受を行なう第２のメモリをさらに含む。第
１のメモリの画素データのビット数は、演算回路の入力
する画素データのビット数に等しく、第２のメモリの画
素データのビット数は、丸め回路の出力データのビット
数に等しくされる。

【００３１】フィードバックバイパス経路において、丸
め処理前の演算回路の出力する画素データを転送するこ
とにより、このフィードバックバイパス経路の画素デー
タが用いられる場合において、丸め誤差が累積されるの
が防止される。

【００３２】また、演算処理期間中は、バッファメモリ
である第１のメモリに対し、丸め処理前の演算回路の出
力データを格納することにより、丸め誤差が累積される
のが防止される。

【００３３】また、第１のメモリから第２のメモリへの
画素データ転送時において転送データに丸め処理を施す
ことにより、第１のメモリには丸め処理前の演算回路か
らの画素データが格納されるため、丸め誤差の累積が防
止される。

【００３４】

【発明の実施の形態】［実施の形態１］図１は、この発
明に従う演算回路内蔵半導体記憶装置が用いられる画像
処理システムの構成を概略的に示す図である。図１にお
いて、この画像処理システムは、バッファメモリ１００
およびブレンド回路１０２を含む演算回路内蔵半導体記
憶装置１と、画像処理内容を指令するプロセッサ２と、
画像データを格納する主記憶３と、プロセッサ２からの
命令に従って、主記憶３と演算回路内蔵半導体記憶装置
１との間の画素データの転送および演算回路内蔵半導体
記憶装置１とフレームバッファ５との間の画像データの
転送、および演算回路内蔵半導体記憶装置１における演
算処理の実行を制御するメモリコントローラ４を含む。
ここで、「画像データ」は、複数の画素データを含む。

【００３５】主記憶３には、テキスチャデータが格納さ
れ、フレームバッファ５には、この主記憶３のうちの必
要な部分のテキスチャデータが格納される。演算回路内
蔵半導体記憶装置１においては、このフレームバッファ
５に格納されたテキスチャデータのうち、実際に演算処
理を行なうテキスチャデータがバッファメモリセル１０
０に格納される。通常、画像データ処理は、たとえば６
４画素・６４画素のような、所定のサイズを有する領域
単位で処理が実行される。バッファメモリ１００には、
この処理単位となる画素データが格納される。演算処理
内容に応じて、単に、フレームバッファ５における所定
のサイズ（キャッシュサイズ）の画素データがバッファ
メモリ１００に格納され、バッファメモリ１００をキャ
ッシュメモリとして用いて、メモリコントローラ４の制
御の下に画像処理が行なわれてもよい。したがって、バ
ッファメモリ１００においては、行なわれる画像処理の
内容に応じて、適当なサイズの１以上の画像データが格
納される。

【００３６】演算回路内蔵半導体記憶装置１において
は、図示しない丸め回路の誤差が累積されないように、
内部の画素データの転送経路が本発明に従って設定され
る。

【００３７】図２は、図１に示す画像処理システムの動
作を概略的に示すタイミングチャート図である。

【００３８】図２において、主記憶３から、メモリコン
トローラ４の制御の下に、フレームバッファ５に、必要
なフレーム画像データが転送されて格納される。１つの
演算が行なわれるとき、まず、フレームバッファ（Ｆ）
５から、演算回路内蔵半導体記憶装置１に含まれるバッ
ファメモリ（Ｂ）１００に対し所定のサイズまたは必要
な演算処理対象のテキスチャデータが転送されてバッフ
ァメモリ１００に格納される。バッファメモリ１００
に、必要な画像データが格納されると、メモリコントロ
ーラ４の制御の下に、ブレンド回路１０２に対し、画素
データが順次転送されて、必要な演算処理が行なわれ
る。このブレンド回路１０２において行なわれる演算処
理内容は、αブレンディング処理、拡大／縮小処理およ
び色の平均化処理（ブレンディング処理）など、いずれ
の画像データ処理であってもよい。

【００３９】このブレンド回路１０２において、演算処
理はパイプライン態様で実行され、所定のクロックサイ
クル数（パイプラインステージのサイクル期間を決定す
るクロック信号のサイクル数）が経過すると、ブレンド
回路１０２から、演算処理された画素データが順次出力
され、バッファメモリ１００へ書込まれる。このバッフ
ァメモリ１００への画素データの書込時においては、後
にその詳細は説明するが、できるだけ、丸め回路の影響
が生じないように書込が行なわれる。

【００４０】次いで、演算処理が完了すると、バッファ
メモリ１００から、フレームバッファ５への画素データ
の転送が実行される。これらの一連の処理により、必要
とされる演算処理が完了し、１演算単位が完了する。こ
れらの一連の処理は、パイプライン的に各演算処理に応
じて順次実行される。バッファメモリ１００からフレー
ムバッファ５への画素データの転送時、同時に、またフ
レームバッファ５からバッファメモリ１００への次の画
像データの転送が並行して行なわれ、バッファメモリへ
の書込完了後、このバッファメモリ１００には、新たな
画像データが格納される。これにより、高速で、画像処
理を実行することができる。

【００４１】図３は、図１に示す演算回路内蔵半導体記
憶装置１の第１の構成を概略的に示す図である。図３に
おいては、ブレンド回路１０２の出力部のフィードバッ
クバイパス経路１０において、ブレンド回路１０２の出
力画素データを格納するレジスタ１２と、レジスタ１２
の出力画素データを格納するレジスタ１４とが設けられ
る。レジスタ１２および１４の出力画素データはセレク
タ１８へ与えられる。セレクタ１８へは、また、バッフ
ァメモリ１００からの画素データを転送するレジスタ１
６の出力画素データが与えられる。レジスタ１２および
１４は、ｍビットの幅を有し、ブレンド回路１０２から
は、１４ビットの出力画素データが丸め回路１０４へ与
えられる。このブレンド回路１０２から丸め回路１０４
へ与えられる画素データのビット幅は、丸め回路１０４
が、４ビットの画素データを参照して丸め演算処理を行
なうため、１４ビットに設定される。レジスタ１２およ
び１４のビット幅は、１４ビットであってもよく（ｍ＝
１４）、また１４ビットよりも大きい値であってもよ
い。

【００４２】丸め回路１０４からは１０ビットの画素デ
ータが出力されてレジスタ１０６に格納される。このレ
ジスタ１０６の格納画素データＰＹは、バッファメモリ
（ＳＲＡＭ）１００に格納される。バッファメモリ１０
０の格納する画素データは、１０ビット幅である。した
がって、レジスタ１０６は１０ビット幅を有し、一方、
レジスタ１６は、バッファメモリ１００からの１０ビッ
トの画素データＰＸを受けてｍビットの画素データに拡
張してセレクタ１８へ与える。セレクタ１８の選択した
画素データは、ｍビット幅を有するレジスタ２０を介し
てブレンド回路１０２へ与えられる。したがって、ブレ
ンド回路１０２においては、従来と異なり、ｍビット幅
の画素データに対する演算処理が実行される。ここで、
以下の説明においては、ブレンド回路１０２が行なう演
算処理は、ブレンド処理（色の混合処理）のみならず、
クリッピング、シェーディング（塗り潰し処理）、アン
チエーリアシング処理などの処理が行なわれてもよいた
め、以下においては、一般的な「演算」処理という用語
を用いる。

【００４３】ブレンド回路１０２は、また端子２２を介
して、αブレンディング処理などにおいて外部から与え
られる画素データＰＡｉを受ける。ブレンド回路１０２
が、このレジスタ２０からの画素データおよび端子２２
からの画素データ両者を用いるか、または単にレジスタ
２０からの画素データのみを用いて演算処理を行なうか
は、図１に示すメモリコントローラ４の制御の下に決定
される。次に、この図３に示す演算回路内蔵半導体記憶
装置の動作を、図４のタイミングチャート図を参照して
説明する。

【００４４】バッファメモリ（ＳＲＡＭ）１００から
は、必要な画素データＰ０、Ｐ１、Ｐ２、…が、図示し
ないアドレス情報に従って各クロックサイクルごとに順
次読出される。このバッファメモリ１００からの画素デ
ータＰＸ（Ｐ０、…）は、レジスタ１６により取込まれ
た後、セレクタ１８へ与えられる。セレクタ１８は、こ
のレジスタ１６からの画素データを選択してレジスタ２
０へ与える。レジスタ２０は、このセレクタ１８からの
画素データをクロック信号に同期してブレンド回路１０
２へ与える。

【００４５】ブレンド回路１０２は、図１に示すメモリ
コントローラ４の制御の下に、設定された演算処理を実
行する。αブレンディング処理であれば、端子２２から
与えられた画素データＰＡｉが、またブレンド回路１０
２へ与えられてαブレンディング処理が実行される。こ
のブレンド回路１０２は、パイプライン態様で演算処理
を実行し、所定のパイプライン遅延経過後、最初の処理
結果データＢ０を出力する。このブレンド回路１０２か
らの処理結果データＢ０は、レジスタ１２へ与えられ、
また丸め回路１０４へも与えられる。丸め回路１０４
は、このブレンド回路１０２から与えられた１４ビット
の画素データのうち下位４ビットを参照して丸め演算処
理を行ない、１０ビットの画素データＲ０を出力する。

【００４６】図４においては、この丸め回路１０４にお
いては、丸め演算処理に１クロックサイクル必要とされ
る場合の動作が一例として示される。この丸め回路１０
４における丸め演算処理と並行して、レジスタ１２が、
その取込んだデータをフィードバックバイパス経路１０
を介してセレクタ１８およびレジスタ１４へ与える。
今、レジスタ１２、１４、１６、２０および１０６は、
すべて１クロックサイクルの遅延を有すると仮定する。
この場合、レジスタ１２からは、丸め回路１０４からの
出力画素データＲ０と同じクロックサイクルで、最初の
ブレンド演算結果の画素データＢ０が出力される。

【００４７】ブレンド回路１０２から演算結果の画素デ
ータＢ１、Ｂ２、Ｂ３、…が順次各クロックサイクルご
とに出力され、また丸め回路１０４からは、１クロック
サイクル遅れて、丸められた画素データＲ１、Ｒ２、Ｒ
３、…が順次出力される。レジスタ１２は、この丸め回
路１０４の出力画素データと同じ画素に対するブレンド
演算結果データＢ１、Ｂ２、Ｂ３、…を順次出力する。
レジスタ１４は、レジスタ１２から与えられた画素デー
タを１クロックサイクル遅延して出力する。したがっ
て、このレジスタ１２からの出力画素データが１クロッ
クサイクル遅れてレジスタ１４から順次出力される。ま
た、レジスタ１０６も、１クロックサイクルの遅延を有
しているため、レジスタ１４の出力画素データと同じ画
素（同じアドレス）の画素データＲ０、Ｒ１、…が順次
出力される。このレジスタ１０６の出力する画素データ
Ｒ０、Ｒ１、Ｒ２、…は、バッファメモリ１００の元の
アドレス、すなわち画素データＰ０、Ｐ１、Ｐ２、…が
格納されていたアドレスに順次格納される。

【００４８】ある処理において、フィードバックバイパ
ス経路１０におけるデータの処理が行なわれる場合を考
える。たとえば、画素データＲ０に再び演算処理を行な
われる場合を考える。このレジスタ１０６から画素デー
タＲ０が出力されたサイクルにおいて、この画素データ
Ｒ０が再び使用される場合、レジスタ１４からは、この
画素データＲ０に対応する画素データＢ０が出力されて
いる。したがって、このレジスタ１４の出力する画素デ
ータＢ０をセレクタ１８で選択することにより、バッフ
ァメモリ１００に書込んで次いで同じアドレスから読出
す場合に比べて１クロックサイクル処理を早くすること
ができ、パイプラインに空きを生じさせることなく、高
速で演算処理を実行することができる。

【００４９】このような、演算処理後の画素データを再
び演算処理する例として、たとえば、αブレンディング
処理においては、３枚以上のテキスチャデータを重ね合
わせる場合、その３枚目のテキスチャデータの領域が極
めて少ない場合、元のデスティネーションイメージの一
部の領域が、新たな３枚目のソースイメージの画素デー
タで修飾される。この場合、外部から、３枚目のソース
イメージ画素データを与え、またフィードバックバイパ
ス経路を介して転送される画素データを用いて、再びブ
レンディング処理を実行し、その処理結果をバッファメ
モリ１００に書込む。このような処理において、フィー
ドバックバイパス経路１０において、画素データを予め
転送しておくことにより、バッファメモリ１００へのア
クセスが不要となり、高速で画像処理を行なうことがで
きる。

【００５０】レジスタ１４またはレジスタ１２の出力す
る画素データＢ０、Ｂ１、Ｂ２、…は、ブレンド回路１
０２の出力画素データであり、丸め回路１０４を通過し
てはいない。したがって、これらの画素データＢ０、Ｂ
１、Ｂ２、…には、丸め誤差は累積していない。したが
って、これらの画素データＢ０、Ｂ１、Ｂ２、…を繰返
し使用しても、丸め誤差が累積されることはない。各画
素に対し演算が終了すると、丸め回路１０４により、レ
ジスタ１２または１４からの画素データの演算処理結果
に対し丸め処理が施され、レジスタ１０６を介してバッ
ファメモリ１００の元の位置に格納される。したがっ
て、そのフィードバックバイパス経路１０を介して転送
される画素データを用いて演算処理を行なう場合、この
フィードバックバイパス経路１０を介して転送される画
素データには、丸め誤差が累積されず、正確な画像処理
を実現することができる。

【００５１】図５は、図３に示すレジスタ１６の構成の
一例を概略的に示す図である。図５において、レジスタ
１６は、バッファメモリ１００から与えられる１０ビッ
トの画素データＰＸを格納するレジスタ回路と、値
“０”が格納される（ｍ−１０）ビットのレジスタ回路
を含む。レジスタ１６からのｍビットの画素データが、
セレクタ１８へ与えられる。バッファメモリ１００から
読出された１０ビットの画素データＰＸの下位ビット
（ｍ−１０ビット）に“０”を付加することにより、容
易に、１０ビットの画素データをｍビットの画素データ
に拡張することができる。

【００５２】図６は、この演算回路内蔵半導体記憶装置
に含まれる制御部の構成を概略的に示す図である。図６
において、制御部３０は、図１に示すメモリコントロー
ラから与えられるオペレーションコマンドφＯＰに従っ
て各種制御信号を生成する制御回路３０ａと、制御回路
３０ａからのリードアドレスを格納するリードアドレス
レジスタ３０ｂと、リードアドレスレジスタ３０ｂに格
納されたリードアドレスを所定時間遅延する可変遅延回
路３０ｃと、可変遅延回路３０ｃの出力するアドレスを
受けて格納するアドレスレジスタ３０ｄと、アドレスレ
ジスタ３０ｄの格納するアドレスを格納するアドレスレ
ジスタ３０ｅと、リードアドレスレジスタ３０ｂからの
リードアドレスとアドレスレジスタ３０ｄに格納された
アドレスとを比較する比較器３０ｆと、リードアドレス
レジスタ３０ｂからのリードアドレスとアドレスレジス
タ３０ｅからのアドレスとを比較する比較器３０ｇとを
含む。

【００５３】制御回路３０ａならびにアドレスレジスタ
３０ｄおよび３０ｅは、クロック信号ＣＬＫに同期して
動作する。可変遅延回路３０ｃは、制御回路３０ａによ
り、その遅延時間（遅延クロックサイクル）が設定さ
れ、ブレンド回路１０２およびレジスタ２０および１２
における遅延クロックサイクル数と等しいクロックサイ
クル数、リードアドレスレジスタ３０ｂに格納されたア
ドレス信号を遅延する。アドレスレジスタ３０ｄは、図
３に示すレジスタ１２に対応して設けられ、アドレスレ
ジスタ３０ｅは、図３に示すレジスタ１４に対応して設
けられる。リードアドレスレジスタ３０ｂからのアドレ
ス信号は、バッファメモリ１００へ、データ読出を行な
う画素データ位置を示すリードアドレスとして与えられ
る。アドレスレジスタ３０ｅの格納するアドレスは、ま
たバッファメモリへ、レジスタ１０６からの画素データ
ＰＹを格納するアドレスを示すライトアドレスとしてバ
ッファメモリ１００へ与えられる。

【００５４】比較器３０ｆは、リードアドレスレジスタ
３０ｂからのリードアドレスとアドレスレジスタ３０ｄ
に格納されたアドレスとが一致する場合、選択信号Ｓｅ
ｌ１を選択状態へ駆動し、比較器３０ｇは、リードアド
レスレジスタ３０ｂからのリードアドレスとアドレスレ
ジスタ３０ｅに格納されたアドレスとが一致する場合
に、選択信号Ｓｅｌ２を活性状態へ駆動する。これらの
選択信号Ｓｅｌ１およびＳｅｌ２に従ってセレクタ１８
が選択動作を実行する。比較器３０ｆからの選択信号Ｓ
ｅｌ１が活性状態のときには、レジスタ１２の出力する
画素データが、アクセス要求された画素データであるこ
とを示しており、セレクタ１８はレジスタ１２からの画
素データを選択してレジスタ２０へ与える。比較器３０
ｇからの選択信号Ｓｅｌ２が活性状態へ駆動されるとき
には、レジスタ１４に格納された画素データが演算処理
されるべき画素データであり、セレクタ１８は、レジス
タ１４からの画素データを選択する。図３に示すレジス
タ１６が１クロックサイクルの遅延を与える場合、この
リードアドレスレジスタ３０ｂの入力アドレスが、バッ
ファメモリ１００へ与えられてもよい。適当に可変遅延
回路３０ｃの遅延クロックサイクル数を調整することに
より、タイミング調整をすることができる。

【００５５】以上のように、この発明の実施の形態１に
従えば、ブレンド回路出力を、転送するフィードバック
バイパス経路を設け、このフィードバックバイパス経路
においては丸め演算処理を行なわない画素データを転送
するように構成しているため、フィードバックバイパス
経路の画素データが用いられる場合には、このフィード
バックバイパス経路への画素データに対する丸め誤差が
累積されるのを防止することができ、正確な画像処理を
実現することができる。

【００５６】［実施の形態２］図７は、この発明の実施
の形態２に従う演算回路内蔵半導体記憶装置の全体の構
成を概略的に示す図である。図７に示す演算回路内蔵半
導体記憶装置においては、フィードバックバイパス経路
１０において、互いに縦列接続される複数のレジスタ１
４ａ〜１４ｎが設けられる。これらのレジスタ１４ａ〜
１４ｎへは、レジスタ１２からの画素データが転送され
る。各レジスタの入力（出力）画素データが、並列にセ
レクタ３８へ与えられる。セレクタ３８は、バッファメ
モリ１００から読出された画素データを格納するレジス
タ１６と縦列接続されるレジスタ１４ａ〜１４ｎの格納
する画素データおよびレジスタ１２の転送画素データの
いずれかを選択してレジスタ２０へ与える。この図７に
示す構成においては、複数の縦列接続されるレジスタ１
４ａ〜１４ｎが設けられる点を除いて、図３に示す実施
の形態１の構成と同じであり、対応する部分には同一参
照番号を付し、その詳細説明は省略する。

【００５７】この図７に示す構成においては、レジスタ
１２およびレジスタ１４ａ〜１４ｎに演算後の画素デー
タが格納される。フィードバックバイパス経路１０にお
いては、ブレンド回路１０２からのｍビットの画素デー
タが転送される。したがって、これらのレジスタ１４ａ
〜１４ｎおよび１２に画素データを格納することによ
り、丸め演算処理されていない画素データを使用する頻
度が増加し、より丸め誤差が低減された画像処理を行な
うことができる。すなわち、このレジスタ１４ａ〜１４
ｎをバッファメモリ１００に対する擬似的なキャッシュ
として利用することにより、丸め誤差のない画素データ
を用いて演算処理を行なうことが可能となる。

【００５８】なお、このセレクタ３８に対する選択制御
信号を発生するための構成としては、図６に示す制御部
３０の構成と同様の構成を利用することができる。図６
に示すアドレスレジスタ３０ｄおよび３０ｅを、図７に
示すレジスタ１２および１４ａ〜１４ｎそれぞれに対応
するように、アドレス比較のためのアドレスレジスタが
拡張されればよい。

【００５９】以上のように、この発明の実施の形態２に
従えば、フィードバックバイパス経路において、複数の
縦列接続されるレジスタを設けてフィードバックバイパ
ス経路を転送される画素データを格納しているため、丸
め演算されていない画素データを使用する頻度を高くす
ることができ、応じて丸め誤差の少ない画素データを用
いた演算処理を実現することができ、正確な画像処理を
行なうことができる。なお、レジスタ１４ａ〜１４ｎ
は、それぞれ１クロックサイクル期間与えられた画素デ
ータを遅延して出力する。

【００６０】［実施の形態３］図８は、この発明の実施
の形態３に従う演算回路内蔵半導体記憶装置の要部の構
成を概略的に示す図である。図８において、この演算回
路内蔵半導体記憶装置は、バッファメモリ１００と画素
データの転送を行なうフレームバッファ４０と、丸め回
路１０４の出力画素データとブレンド回路１０２の出力
画素データの一方を選択するセレクタ４２と、セレクタ
４２の出力画素データを格納するレジスタ４３とを含
む。フレームバッファ４０は、ダイナミック・ランダム
・アクセス・メモリ（ＤＲＡＭ）で形成され、ＤＲＡＭ
リードバス４１ｒを介して読出データをバッファメモリ
１００へ与え、ＤＲＡＭライトバス４１ｗを介してバッ
ファメモリ１００からの画素データを格納する。バッフ
ァメモリ１００とフレームバッファ４０とは、複数画素
単位（図においては４画素単位）でこれらのバス４１ｒ
および４１ｗを介して画素データの転送を行なう。

【００６１】バッファメモリ１００は、レジスタ４３か
らのｍビットの画素データＰＹを受けて格納し、またｍ
ビットの画素データＰＸを生成してレジスタ４６を介し
てセレクタ１８へ与える。レジスタ４３に格納された画
素データはｍビットに拡張されて、セレクタ１８および
レジスタ１４へ与えられる。セレクタ４２は、このバッ
ファメモリ１００に格納される画素データの演算処理期
間中、ブレンド回路１０２からの画素データを選択し、
最終の演算サイクル、すなわちバッファメモリ１００に
おける画素データそれぞれに対する最後の演算（処理サ
イクル）に入ると、丸め回路１０４の出力画素データを
選択する。したがって、このセレクタ４２により、フィ
ードバックバイパス経路が選択的に形成される。

【００６２】バッファメモリ１００においては、フィー
ドバックバイパス経路４５における画素データの転送と
並行して、レジスタ４３からの画素データＰＹが元の画
素データ位置に格納される。このバッファメモリ１００
の画素データＰ（ＰＹ，ＰＸ）は、ｍビット幅であり、
丸め演算処理は行なわれていない。したがって、演算処
理中において、バッファメモリ１００に格納された画素
データに対し繰返し演算処理が実行されても、丸め誤差
の累積は防止される。

【００６３】この演算処理において、バッファメモリ１
００に格納された画素データに対し、それぞれ最後の演
算処理が実行されると、セレクタ４２が丸め回路１０４
からの画素データを選択して、レジスタ４３を介してバ
ッファメモリ１００へ与える。したがって、最終の演算
処理を受けた画素データのみが、丸め回路１０４におけ
る丸め誤差を有している。

【００６４】これらのバッファメモリ１００に格納され
た画素データは、最終の演算処理および丸め処理を受け
ると、次いでバッファメモリ１００から、フレームバッ
ファ４０への画素データの転送が行なわれる。このバッ
ファメモリ１００からフレームバッファ４０への画素デ
ータの転送時、バッファメモリ１００には、丸め処理さ
れた画素データが格納されている。したがって、このフ
レームバッファ４０の画素データは、１０ビット幅であ
り、バッファメモリ１００からは、１０ビットの丸めら
れた画素データがフレームバッファ４０へ転送される。
バッファメモリ１００からフレームバッファ４０への画
素データの転送時、複数の画素（図においては４画素）
のデータが並列に転送される。これにより、高速の画素
データ転送を実現する。ＤＲＡＭライトデータバス４１
ｗおよびＤＲＡＭリードデータバス４１ｒは、したがっ
て、たとえば４０ビット幅をそれぞれ有するが、バッフ
ァメモリ１００およびフレームバッファ４０は、同じ半
導体チップ上に集積化されており、これらのバスは、単
にチップ上の内部配線で実現されるため、容易にバス幅
は拡張することができる（外部ピン端子の制限を受ける
ことがないため）。

【００６５】図９は、この発明の実施の形態３における
演算回路内蔵半導体記憶装置の動作の一例を示す図であ
る。図９において、バッファメモリ１００から、画素デ
ータＰ０、…、Ｐｎが順次読出され、レジスタ４６、セ
レクタ１８およびレジスタ２０を介してブレンド回路１
０２へ与えられる。ブレンド回路１０２は、この与えら
れた画素データに対し所定の演算処理を行なって、画素
データＢ０、…、Ｂｎを各クロックサイクルごとに出力
する。ブレンド回路からの画素データは、セレクタ４２
により選択されてレジスタ４３を介してバッファメモリ
１００およびフィードバックバイパス経路４５を転送さ
れる。バッファメモリ１００は、このレジスタ４３にお
ける１クロックサイクルの遅延をもって、セレクタ４２
からの画素データＢ０、…、Ｂｎを、それぞれ画素デー
タＰ０、…、Ｐｎが格納された元の画素位置へそれぞれ
格納する。

【００６６】バッファメモリ１００への画素データの格
納と並行して、またバッファメモリ１００から次の演算
処理のための画素データが順次読出される。このとき、
バッファメモリ１００からは、ブレンド回路１０２によ
り演算処理された画素データＢ０、…、Ｂｎが順次読出
される。ブレンド回路１０２が、これらの画素データＢ
０、…、Ｂｎに対し再び所定の演算処理を行なって、新
たな画素データＢＢ０、…、ＢＢｎを生成する。演算処
理は、このときまだ、最後の演算処理ではないため、セ
レクタ４２はブレンド回路１０２の出力を選択してレジ
スタ４３を介してバッファメモリ１００へ与える。した
がって、バッファメモリ１００においては、再び、新た
な画素データＢＢ０、…、ＢＢｎが元の画素データ位置
に格納される。

【００６７】次いで、演算処理において最後の演算が行
なわれる場合、バッファメモリ１００から、画素データ
ＢＢ０、…、ＢＢｎが順次読出されて、ブレンド回路１
０２へ与えられて演算処理が実行される。最後の演算処
理の場合、セレクタ４２は、この丸め回路１０４の出力
する画素データを選択する。したがって、セレクタ４２
からは、丸め回路１０４からの丸め画素データＲ０、
…、Ｒｎが順次出力される。これらの画素データＲ０、
…、Ｒｎは、レジスタ４３を介してバッファメモリ１０
０の元の画素データ位置へ格納される。

【００６８】したがって、この図９に示すように、演算
処理が複数回（３回）行なわれる場合において、最後の
演算処理においてのみ、画素データに対する丸め処理が
行なわれており、各画素データに対し複数回演算処理が
実行されても、丸め誤差の累積は防止される。

【００６９】バッファメモリ１００への画素データＲ
０、…、Ｒｎの格納と並行して、所定数の画素データが
バッファメモリ１００に格納されると、バッファメモリ
１００からフレームバッファ４０への画素データの転送
が行なわれる。

【００７０】なお、図９においては、バッファメモリ１
００に画素データＲ０、…、Ｒｎのうちの一部分が格納
された時点でフレームバッファ４０への画素データの転
送が開始されている。しかしながら、このバッファメモ
リ１００からフレームバッファ４０への画素データの転
送は、バッファメモリ１００にすべての画素データが格
納された後に実行されてもよい。このサイクルにおい
て、バッファメモリ１００からフレームバッファ４０へ
のＤＲＡＭライトデータバス４１ｗを介しての画素デー
タの転送と、フレームバッファ４０からバッファメモリ
１００へのＤＲＡＭリードデータバス４１ｒを介しての
画素データの転送が並行して行なわれてもよい。

【００７１】図１０は、この発明の実施の形態３に従う
演算回路内蔵半導体記憶装置の制御部の構成を概略的に
示す図である。図１０において、制御部５０は、メモリ
コントローラからの制御コマンドφＯＰを受けて必要な
制御を行なう制御回路５０ａと、制御回路５０ａの制御
の下に、アドレス信号ならびにセレクタ１８へ与えられ
る選択信号Ｓｅｌ１およびＳｅｌ２を生成するアドレス
制御部５０ｃと、制御回路５０ａの出力信号に従って、
セレクタ４２へ与えられる選択制御信号φｓｅｌを生成
するセレクタ制御回路５０ｂを含む。アドレス制御部５
０ｃは、図６に示す構成に加えて、バッファメモリとフ
レームバッファとの間でのデータ転送時に必要とされる
アドレスを生成する。

【００７２】セレクタ制御回路５０ｂは、制御回路５０
ａからの、最終演算指示に応答して、セレクタ選択制御
信号φｓｅｌを活性化して、セレクタ４２に、丸め回路
の出力画素データを選択させる。

【００７３】図１１（Ａ）は、この制御回路５０ａへ与
えられるコマンドの形態の一例を示す図である。図１１
（Ａ）においては、制御コマンドは、演算内容を指定す
るＯＰコードを格納する命令フィールドＦ１と、画素デ
ータのアドレスを示すアドレスを格納するアドレスフィ
ールドＦ２と、このＯＰコードに指定する演算処理が、
バッファメモリに格納された画素データに対する最後の
演算処理内容であるか否かを示すフラグを格納するフラ
グフィールドＦ３を含む。制御回路５０ａは、このフラ
グフィールドＦ３のフラグの値に従ってセレクタ制御回
路５０ｂの動作を制御する。

【００７４】この図１１（Ａ）に示す構成を用いること
により、この演算処理内容に応じて、効率的に、セレク
タの接続経路を設定することができる。

【００７５】図１１（Ｂ）は、制御コマンドの他の構成
を示す図である。図１１（Ｂ）においては、制御コマン
ドとしては、セレクタ４２の選択経路を設定するための
専用のセレクタ制御コマンドが与えられる。制御回路５
０ａは、このセレクタ制御コマンドが与えられると、セ
レクタ制御回路５０ｂに制御信号を与えて、セレクタ４
２の接続経路を決定する。

【００７６】図１２は、この制御部の他の構成を示す図
である。図１２において、制御部５０は、制御回路５０
ａの出力信号を格納して、セレクタ４２へ与えられる選
択制御信号φｓｅｌを生成するレジスタ５０ｄと、制御
回路５０ａの制御の下に、アドレス信号、およびセレク
タ１８へ与えられる選択制御信号Ｓｅｌ１とＳｅｌ２を
生成するアドレス制御部５０ｃを含む。

【００７７】この図１２に示す制御部５０の構成におい
ては、制御回路５０ａが、制御コマンドに従って、フラ
グを生成し、レジスタ５０ｄの格納内容を設定する。こ
のレジスタ５０ｄは、内部動作状態を設定するコントロ
ールレジスタであり、セレクタ４２に対し専用にレジス
タ５０ｄを設けることにより、制御が容易となる。この
図１２に示す構成においては、制御回路５０ａへ与えら
れる制御コマンドとしては、図１１（Ａ）および（Ｂ）
に示すコマンドのいずれの形が与えられてもよい。制御
回路５０ａがフラグを生成し、そのフラグに従ってレジ
スタ５０ｄの格納データが決定される。

【００７８】図１３は、図１０または図１２に示す制御
回路５０ａおよびアドレス制御部５０ｃの構成をより詳
細に示す図である。図１３において、制御回路５０ａ
は、メモリコントローラからのオペレーションコマンド
φＯＰを受けて、バッファメモリ１００およびフレーム
バッファ４０に対するアクセスを制御するアクセス制御
回路５０ａａと、アクセス制御回路５０ａａの制御の下
に、バッファメモリ１００に対する画素データのアクセ
ス（データの書込／読出）を制御するＳＲＡＭコントロ
ーラ５０ａｂと、アクセス制御回路５０ａａの制御の下
に、フレームバッファ４０に対する画素データのアクセ
スを制御するＤＲＡＭコントローラ５０ａｃを含む。Ｓ
ＲＡＭコントローラ５０ａｂおよびＤＲＡＭコントロー
ラ５０ａｃは、バッファメモリ１００とフレームバッフ
ァ４０の間での画素データの転送時、ともに制御動作を
並行して行ない、またバッファメモリ１００の画素デー
タの演算処理においては、ＳＲＡＭコントローラ５０ａ
ｂがバッファメモリ１００に対するアクセスを制御す
る。

【００７９】アドレス制御部５０ｃは、アクセス制御回
路５０ａａの制御の下に、バッファメモリ１００に対す
るアドレスを生成するＳＲＡＭアドレス発生回路５０ｃ
ａと、アクセス制御回路５０ａａの制御の下に、フレー
ムバッファ４０に対するアドレスを生成するＤＲＡＭア
ドレス発生回路５０ｃｂを含む。ＳＲＡＭアドレス発生
回路５０ｃａは、図６に示すアドレス発生部（アドレス
レジスタ）を備え、バッファメモリ１００に対する書込
および読出アドレスを生成する。ＤＲＡＭアドレス発生
回路５０ｃｂは、フレームバッファ４０に含まれる画像
データＩＧを単位として、バッファメモリ１００と画素
データの転送を行なう。画像データＩＧの領域は、たと
えばタグアドレスにより識別される。ＤＲＡＭアドレス
発生回路５０ｃｂは、このタグアドレスを先頭アドレス
として、行および列アドレスをたとえばカウンタ回路に
より順次生成して、この画像データＩＧをバッファメモ
リ１００との間で転送する。

【００８０】ＤＲＡＭアドレス発生回路５０ｃｂは、こ
の画像データＩＧをバッファメモリ１００へ転送した
後、アクセス制御回路５０ａａからの制御に従って演算
処理完了（最後の演算が行なわれる）指示が与えられる
と、この読出アドレスを書込アドレスとしてフレームバ
ッファ４０へ与え、バッファメモリ１００からの演算処
理後の画像データを元の画像データＩＧが格納された位
置に格納する。したがって、このＤＲＡＭアドレス発生
回路５０ｃｂが、単にタグアドレスを各画像データ領域
それぞれに対応して生成し、書込／読出アドレスを内部
でカウンタなどにより生成することにより、容易に、こ
のフレームバッファ４０から分割領域（画像データＩＧ
の領域）単位で、バッファメモリ１００と画像データの
転送を行なうことができる。

【００８１】図１３においては、フレームバッファ４０
に含まれる画像データＩＧが、バッファメモリ１００の
記憶領域全体にわたって格納されるように示される。す
なわち、画像データＩＧがキャッシュサイズとして示さ
れている。しかしながら、このバッファメモリ１００の
サイズは、複数の画像データを格納するサイズに設定さ
れてもよい。キャッシュされた画像データそれぞれにタ
グアドレスをＤＲＡＭアドレス発生回路５０ｃｂにおい
て記憶しておき、アクセス制御回路５０ａａの制御の下
に、演算処理が終了したタグアドレスが指定するキャッ
シュサイズの画像データを、そのタグアドレスを基にバ
ッファメモリ１００からフレームバッファ４０へ返送す
ることにより、画像データの転送が実現される。

【００８２】図１４は、この発明の実施の形態３に従う
演算回路内蔵半導体記憶装置におけるバッファメモリ１
００の構成を示す図である。図１４において、バッファ
メモリ１００は、複数の行列状に配列されるＳＲＡＭセ
ルを有するメモリアレイ１００ａと、メモリアレイ１０
０ａとデータバス５５の間に設けられ、画素データの入
出力を行なうためのＡポート１００ｂと、メモリアレイ
１００ａとＤＲＡＭバス４１（リードバス４１ｒおよび
ライトバス４１ｗを含む）との間で画素データの転送を
行なうためのＢポート１００ｃと、ＳＲＡＭコントロー
ラ５０ａｂの制御の下に、Ａポート１００ｂを介しての
画素データの入出力を制御するＡポート制御回路１００
ｄと、同様、ＳＲＡＭコントローラ５０ａｂの制御の下
に動作し、Ｂポート１００ｃを介しての画素データの入
出力を制御するためのＢポート制御回路１００ｅを含
む。画素データバス５５は、ｍビット幅を有し、図８に
示す画素データＰＸおよびＰＹの転送を行なう。一方、
ＤＲＡＭバス４１は、１０ビット（具体的には１０ビッ
ト・４ビット）の画素データを転送する。

【００８３】図１４に示すように、バッファメモリ１０
０を、２ポート構成とすることにより、ビット幅の異な
る画素データの入出力を行なうことができ、またパイプ
ライン演算処理時において、フレームバッファ４０とバ
ッファメモリ１００との間の画素データの転送と並行し
て、このバッファメモリ１００の画素データの演算処理
を実行することができる。

【００８４】Ｂポート１００ｃを介してたとえば４つの
画素データを同時に入出力し、単に、Ａポートを介して
１つの画素データが入出力される場合、この画素データ
特定用のアドレス信号の下位２ビットを無視することに
より、容易に４画素のデータをＢポートを介して入出力
することができる。これは、Ｂポート制御回路１００ｅ
において、アドレス信号の下位２ビットを無視するよう
に構成されればよい。

【００８５】また、Ａポート１００ｂを介しては、ｍビ
ット幅の画素データの入出力が行なわれ、一方、Ｂポー
ト１００ｃを介しては、１０ビット幅の画素データの入
出力が行なわれる構成は、以下のようにして実現され
る。

【００８６】図１５は、図１４に示すメモリアレイ１０
０ａ内における内部データバスの構成を概略的に示す図
である。図１５において、メモリアレイ１００ａにおい
ては、それぞれがｍビットのバス幅を有する内部データ
バス６２ａ、６２ｂ、６２ｃおよび６２ｄが設けられ
る。これら内部データバス６２ａ〜６２ｄそれぞれに対
し、Ａポートに対するデータの書込／読出を行なうため
の読出／書込回路６０ａ〜６０ｄが設けられ、またＢポ
ートを介しての画素データの入出力のための読出／書込
回路６４ａ〜６４ｄがそれぞれ設けられる。読出／書込
回路（Ｒ／Ｗ）６０ａ〜６０ｄの各々は、ｍビットの画
素データの読出／書込を行なう。これらの読出／書込回
路６０ａ〜６０ｄに対し、ＩＯデコーダ６９が設けら
れ、このＩＯデコーダ６９は、読出／書込回路６０ａ〜
６０ｄのうちの１つを選択してＡポート１００ｂに接続
する。

【００８７】一方、ＤＲＡＭ用読出／書込回路（Ｒ／
Ｗ）６４ａ〜６４ｄは、ｍビットの内部データバス６２
ａ〜６２ｄと、１０ビットの内部読出／書込データバス
６６ａ〜６６ｄの間で画素データの転送を行なう。内部
読出／書込データバス６６ａ〜６６ｄは、並列にＢポー
ト１００ｃに接続される。読出／書込回路６４ａ〜６４
ｄは、Ｂポート１００ｃから与えられる１０ビットの画
素データをｍビットに拡張して対応の内部データバス６
２ａ〜６２ｄに伝達し、一方、読出モード時において
は、ｍビットの画素データを１０ビットの画素データに
圧縮して出力する。

【００８８】図１６は、図１５に示すＢポート１００ｃ
に対する読出／書込回路の構成を概略的に示す図であ
る。図１６においては、これらの読出／書込回路６４ａ
〜６４ｄのうちの１つの読出／書込回路６４の構成を代
表的に示す。読出／書込回路６４は、ｍビットの内部デ
ータバス６２のうち１０ビットのバス線に対して設けら
れるライトドライバ／リードアンプ（Ｗ／Ａ）と、残り
の（ｍ−１０）ビットのバス線に対して設けられ、画素
データ書込時に活性化されて、ビット“０”を書込む零
ライトドライバ（ＺＷ）を含む。

【００８９】丸め回路において丸め処理が行なわれるデ
ータは、内部データバス６２の（ｍ−１０）ビットのバ
スに伝達される。したがって、これらのデータバス線に
対し読出アンプは設けず、書込回路のみを設けることに
より、ｍビットの画素データから１０ビットの読出デー
タを生成することができる。一方、１０ビットの書込デ
ータが生成されたとき、零ライトドライバＺＷを活性化
して、“０”を書込むことにより、１０ビットの画素デ
ータをｍビットの画素データに拡張することができる。

【００９０】この図１５および図１６に示す構成を利用
することにより、演算処理用のｍビットの画素データの
入出力、およびバッファメモリとフレームバッファとの
間での１０ビットの画素データの転送を容易に実現する
ことができる。

【００９１】［変更例］図１７は、この発明の実施の形
態３に従う演算回路内蔵半導体記憶装置の変更例を示す
図である。図１７に示す構成においては、バッファメモ
リ１００は、１０ビットの画素データＰＸおよびＰＹを
入出力する。ブレンド回路１０２は、ブレンド演算など
を行なう演算回路１０２ａと、丸め対象となる画素デー
タビットを格納するＳＲＡＭバッファ１０２ｂを含む。
すなわち、フレームバッファ４０に対して格納される画
素データ部分は、バッファメモリ１００に格納し、丸め
対象となる画素データビットはブレンド回路１０２内に
設けられたＳＲＡＭバッファ１０２ｂにおいて格納す
る。したがって、バッファメモリ１００は、１０ビット
の画素データを演算処理時に入出力し、かつ１０ビット
の画素データを、フレームバッファ４０との間で転送す
る。したがって、バッファメモリ１００の構成が簡略化
される。

【００９２】他の構成は、図８に示す構成と同じであ
り、対応する部分には同一参照番号を付す。

【００９３】ただし、レジスタ４６は、バッファメモリ
１００からの１０ビットの画素データＰＸを受けて、ｍ
ビットの画素データを出力するビット幅拡張機能を備え
る。このレジスタ４６の構成は、先の図５に示す構成と
同様の構成により実現される。

【００９４】図１８は、図１７に示すブレンド回路１０
２の構成をより具体的に示す図である。図１８におい
て、演算回路１０２ａへは、上位１０ビットの画素デー
タを転送するデータバス７１ａと下位（ｍ−１０）ビッ
トを転送するデータバス７１ｂにより、ｍビットの画素
データが与えられる。ＳＲＡＭバッファ１０２ｂから読
出された画素データは、レジスタ１０２ｃを介して、下
位のデータバス７１ｂに伝達される。また、演算回路１
０２ａからの出力画素データは、レジスタ１０２ｄを介
してＳＲＡＭバッファ１０２ｂへ与えられる。

【００９５】レジスタ１０２ｃおよび１０２ｄは、図１
７に示すバッファメモリ１００における画素データの読
出および書込タイミングとＳＲＡＭバッファ１０２ｂの
同一画素データの読出／書込タイミングを同じとするた
めに設けられる。したがって、レジスタ１０２ｃは、図
１７に示すレジスタ４６および２０における画素データ
伝搬遅延タイミングを補償するために設けられ、またレ
ジスタ１０２ｄは、図１７に示すレジスタ４３からの画
素データＰＹのバッファメモリ１００への書込時の遅延
を補償するために設けられる。レジスタ１０２ｃおよび
１０２ｄを設けることにより、ＳＲＡＭバッファ１０２
ｂおよびバッファメモリ１００に対し、共通のアドレス
を与えて画素データの読出および書込を行なうことがで
きる。ただし、レジスタ１０２ｃは、セレクタ１８が、
フィードバックバイパス経路を介して転送される画素デ
ータを選択した場合には、その格納データは無効とさ
れ、レジスタ１０２ｃの出力はハイインピーダンス状態
に設定される。

【００９６】画素データバス７１ａおよび７１ｂには、
レジスタ２０（図１７参照）からのｍビットの画素デー
タが伝達される。バッファメモリ１００から読出された
画素データが伝達される場合、有意の画素データは、画
素データバス７１ａ上に伝達され、下位の画素データバ
ス７１ｂには、“０”のビットが転送される。したがっ
て、このデータバス７１ｂに、レジスタ１０２ｃの出力
データを転送することにより、演算回路１０２ａにより
演算処理されたｍビットの画素データが再び演算回路１
０２ａに伝達される。

【００９７】セレクタ１８が、フィードバックバイパス
経路を介して転送される画素データを選択した場合、レ
ジスタ２０からは、ｍビットの有意の画素データが転送
され、データバス７１ａおよび７１ｂに、有意の画素デ
ータビットが転送される。この状態においてはレジスタ
１０２ｃは、出力ハイインピーダンス状態に設定され、
データバス７１ｂ上の画素データへは、悪影響は及ばさ
ない。

【００９８】丸め演算対象となる画素データビットをブ
レンド回路１０２内においてのみ転送し、バッファメモ
リ１００へは、フレームバッファの画素データと同じビ
ット幅の画素データのみを格納することにより、バッフ
ァメモリ１００の構成が簡略化される。また、レジスタ
１０２ｃおよび１０２ｄを設けることにより、同じアド
レス発生回路を用いてバッファメモリ１００およびＳＲ
ＡＭバッファ１０２ｂに対する画素データの書込／読出
を行なうことができる。このアドレス発生回路の構成と
しては、先の図１０または図１２に示す構成を利用する
ことができる。

【００９９】以上のように、この発明の実施の形態３に
従えば、フィードバックバイパス経路にセレクタを設
け、バッファメモリ１００に格納された画素データへの
演算処理実行中は、演算結果データを転送し、最後の演
算処理（１つの演算単位における最終処理）においての
み丸め回路の出力画素データを有効としているため、丸
め演算誤差が画素データに累積されるのを防止すること
ができ、正確な画像処理を実現することができる。

【０１００】また、フレームバッファ４０を同一チップ
上に集積化して、バッファメモリ１００とフレームバッ
ファ４０との間で画素データを転送する構成とすること
により、フレームバッファとバッファメモリとの間のバ
ス幅をピン端子の数の影響を受けることなく十分に広く
することができ、高速の画素データ転送を実現すること
ができる。

【０１０１】［実施の形態４］図１９は、この発明の実
施の形態４に従う演算回路内蔵半導体記憶装置の全体の
構成を概略的に示す図である。図１９に示す構成におい
ては、ブレンド回路１０２からのｍビットの演算処理後
の画素データが、レジスタ４３を介してフィードバック
バイパス経路４５およびバッファメモリ１００へ与えら
れる。バッファメモリ１００は、ｍビットの画素データ
を格納する。

【０１０２】バッファメモリ１００は、バス７５ｒを介
してフレームバッファ４０からの画素データを受け、ま
たバス７６ｓｒを介して丸め回路８０へ画素データを転
送する。丸め回路８０からの丸め演算処理後の１０ビッ
トの画素データが、バス７６ｄｗを介してフレームバッ
ファ４０へ転送されて格納される。バッファメモリ１０
０からの読出画素データを転送するＳＲＡＭリードデー
タバス７６ｓｒが、４・ｍビットの幅を有し、４つの画
素データを並列に転送する。丸め回路８０は、これらの
４つの画素データそれぞれに対し並列に丸め演算処理を
施して、その結果画素データを、ＤＲＡＭライトデータ
バス７６ｄｗ上に伝達する。ＤＲＡＭライトデータバス
７６ｄｗは、４・１０ビットの幅を有し、４つの１０ビ
ット幅の画素データを並列に転送する。

【０１０３】丸め回路８０が、バッファメモリ１００と
フレームバッファ４０の間のバスに設けられる点を除い
て、他の構成は、図１７に示す構成と同じであり、対応
する部分には同一参照番号を付し、その詳細説明は省略
する。

【０１０４】この図１９に示す構成においては、演算処
理時においては、バッファメモリ１００、セレクタ１
８、およびブレンド回路１０２で構成されるループによ
り演算処理が実行される。最後の演算処理（１つの演算
単位における）実行時においても、バッファメモリ１０
０へは、ブレンド回路１０２からの画素データが格納さ
れる。バッファメモリ１００からフレームバッファ４０
への画素データの転送時に、丸め回路８０が活性化さ
れ、丸め演算処理を、バッファメモリ１００からの画素
データに対して実行する。したがって、この図１９に示
す構成においては、バッファメモリ１００からフレーム
バッファ４０への画素データの転送時に丸め回路を活性
化して演算処理を行なうだけでよく、丸め演算処理の活
性タイミングを、バッファメモリ１００からフレームバ
ッファ４０への画素データ転送サイクルに設定すること
ができ、制御が容易となる。また、バッファメモリ１０
０へは、丸め演算前の画素データが格納されるため、丸
め演算誤差が、このバッファメモリ１００に格納される
画素データにおいて累積されるのは防止され、正確な画
素データ処理が実現される。

【０１０５】バッファメモリ１００の構成は、図１４お
よび図１５に示す構成と実質的に同じである。単に、図
１５に示すフレームバッファと画素データの授受を行な
う読出／書込回路の構成が異なる。

【０１０６】図２０は、この発明の実施の形態４におけ
るバッファメモリに含まれる読出／書込回路の構成を概
略的に示す図である。図２０において、読出／書込回路
６４は、ｍビットのバス線のうち１０ビットのバス線に
対してそれぞれ設けられるライトドライバ／読出アンプ
Ｗ／Ａと、残りの（ｍ−１０）ビットのバス線に対して
設けられる零ライトドライバ／読出アンプＺＷ／Ａを含
む。これらのライトドライバ／読出アンプＷ／Ａおよび
ＺＷ／Ａは、ＳＲＡＭリードバス７６ｓｒへ、Ｂポート
を介して結合される。零ライトドライバ／読出アンプＺ
Ｗ／Ａは、データ書込時においては、対応のバス線に
“０”を書込み、データ読出時には、対応のバス線上に
読出されたデータを増幅して読出ビットを生成する。

【０１０７】なお、この図２０に示す読出／書込回路６
４の構成において、外部のリードデータバス７６ｓｒお
よびライトデータバス７５ｒそれぞれに対応して、読出
データバスおよび書込データバスが別々に設けられても
よい。この場合、ライトドライバと読出アンプが各対応
のバスに対応して別々に設けられる。メモリアレイ内に
おいては、書込データおよび読出データを共通に伝達す
る内部共通データバス線の構成が用いられてもよく、ま
た読出データと書込データをそれぞれ伝達する内部読出
データバス線および内部書込データバス線が別々に設け
られる構成が用いられてもよい。

【０１０８】図２１は、図１９に示す丸め回路８０の構
成を概略的に示す図である。図２１において、丸め回路
８０は、ＳＲＡＭリードデータバス７６ｓｒのｍビット
のバス７６ｓｒ０、７６ｓｒ１、７６ｓｒ２、および７
６ｓｒ３それぞれに対応して設けられる丸め回路８０
ａ、８０ｂ、８０ｃおよび８０ｄを含む。これらの丸め
回路８０ａ〜８０ｄの各々は、ｍビットの画素データ
に、丸め演算処理を施して１０ビットの画素データに圧
縮する。この丸め演算時においては、丸め回路８０ａ〜
８０ｄの各々は、ｍビットの画素データのうち、下位ビ
ットを参照して、四捨五入、切上げ／切下げまたはしき
い値処理などの丸め演算処理を実行して、１０ビットの
画素データを生成する。これらの丸め回路８０ａ〜８０
ｄからの１０ビットの画素データは、それぞれＤＲＡＭ
データバス７６ｄｗに含まれるバス７６ｄｗ０、７６ｄ
ｗ１、７６ｄｗ２、および７６ｄｗ３を介して並列にフ
レームバッファ４０へ転送される。

【０１０９】［変更例］図２２は、この発明の実施の形
態４に従う演算回路内蔵半導体記憶装置の変更例の構成
を概略的に示す図である。図２２に示す構成において
は、ブレンド回路１０２において、演算回路１０２ａ
と、この演算回路１０２ａの出力画素データのうち、丸
め演算対象となる下位のたとえば４ビットの画素データ
を格納するＳＲＡＭバッファ１０２ｂと、フレームバッ
ファへの画素データ転送時、ＳＲＡＭバッファ１０２ｂ
から読出された画素データに対し丸め演算処理を行な
い、該丸め結果を示すデータＣＲを出力する丸め回路１
０２ｆとが設けられる。

【０１１０】バッファメモリ１００は、演算処理時にお
いて１０ビットの画素データの入出力を行ない、またフ
レームバッファ４０は、複数画素単位でデータの転送を
行なう。このバッファメモリ１００からフレームバッフ
ァ４０へのデータ転送経路（バス７６ｓｒおよび７６ｄ
ｗ）において、丸め回路１０２ｆからの丸め結果データ
ＣＲに従って増分動作を行なう増分回路８５が設けられ
る。

【０１１１】この増分回路８５は、バッファメモリ１０
０からＳＲＡＭリードデータバス７６ｓｒに読出される
４つの画素データ（１０ビット幅の画素データ）それぞ
れに対し、丸め回路１０２ｆからの丸め結果データＣＲ
に従って増分動作を行なう。通常は、この丸め演算は、
小数点以下のビットについて行なわれ、その丸め結果に
従って、１０ビット画素データに対する増分の有無が決
定される。増分回路８５の構成については後に説明する
が、リップルキャリ型の加算回路で構成され、その占有
面積は小さくすることができ、バッファメモリ１００と
フレームバッファ４０との間のデータ転送経路の占有面
積を低減することができ、エリアペナルティを軽減する
ことができる。また、丸め回路１０２ｆを、ブレンド回
路１０２内に含めておくことにより、必要最小限のデー
タビットのみを受けて丸め回路１０２ｆが丸め演算処理
を行なうため、ｍビットの画素データを丸め回路に入力
する必要がなく、丸め回路の占有面積を低減することが
できる。

【０１１２】残りの構成は、図１９に示す構成と同じで
あり、対応する部分には同一参照番号を付し、その詳細
説明は省略する。

【０１１３】ＳＲＡＭバッファ１０２ｂと演算回路１０
２ａとの間のデータビットの転送の制御は、図１８に示
す構成と同様の構成により実現される。ＳＲＡＭバッフ
ァ１０２ｂから丸め回路１０２ｆへの画素データの転送
は、転送サイクル開始時において、バッファメモリ１０
０に対して与えられる読出アドレスと同じアドレスをＳ
ＲＡＭバッファ１０２ｂに与えることにより実行され
る。

【０１１４】図２３は、図２２に示す丸め回路１０２ｆ
の構成を概略的に示す図である。図２３においては、Ｓ
ＲＡＭバッファ１０２ｂから並列に読出される４つの画
素データの下位４ビットＳ０［３：０］、Ｓ１［３：
０］、Ｓ２［３：０］、およびＳ３［３：０］それぞれ
に対し丸め演算処理を行なう丸め回路９０ａ、９０ｂ、
９０ｃおよび９０ｄが設けられる。丸め回路９０ａ〜９
０ｄの各々は、与えられた４ビットの画素データに対
し、所定の丸め演算処理を実行して、その丸め処理結果
を示す１ビットデータＣＲ０、ＣＲ１、ＣＲ２およびＣ
Ｒ３をそれぞれ出力する。これらの丸め回路９０ａ〜９
０ｄが実行する丸め処理としては、四捨五入処理、切上
げ／切下げ処理、およびしきい値処理（ディザ処理：Di
ther）のいずれの処理が行なわれてもよい。これらの丸
め回路９０ａ〜９０ｄからの丸め演算結果データＣＲ０
〜ＣＲ３は、並列に、図２２に示す増分回路８５へ与え
られる。増分回路は、バッファメモリ１００から並列に
読出される４画素データ（１０ビット幅の画素データ）
それぞれに対して設けられる増分回路を含んでおり、こ
の丸め回路９０ａ〜９０ｄからの丸め演算結果データを
最下位ビットのキャリ入力として、加算演算を行なっ
て、１０ビットの画素データを生成してバス７６ｄｗを
介してフレームバッファ４０へ与える。

【０１１５】図２４は、図２２に示す増分回路８５の構
成を概略的に示す図である。図２４においては、ｍビッ
トの画素データが、１４ビットの画素データの場合の構
成が示される。したがって、バッファメモリ１００に
は、１４ビットの画素データのうち、上位の１０ビット
の画素データＳ［１３：４］が格納される。

【０１１６】図２４において、増分回路８５は、１０ビ
ット画素データＳ０［１３：４］に、丸め演算結果デー
タＣＲ０に従って増分処理を行なって画素データＤ０
［９：０］を生成する増分器９５ａと、画素データＳ１
［１３：４］を、丸め演算結果データＣＲ１に従って増
分して１０ビット画素データＤ１［９：０］を生成する
増分器９５ｂと、画素データＳ２［１３：４］を、丸め
演算結果データＣＲ２に従って増分して１０ビット画素
データＤ２［９：０］を生成する増分器９５ｃと、１０
ビット画素データＳ２［１３：４］を、丸め演算結果デ
ータＣＲ３に従って増分して画素データＤ３［９：０］
を生成する増分器９５ｄを含む。

【０１１７】これらの増分器９５ａ〜９５ｄからの１０
ビット画素データＤ０［９：０］〜Ｄ３［９：０］が並
列に、フレームバッファ４０（図２２参照）へ与えられ
る。バッファメモリ１００からは、画素データＳ０［１
３：４］〜Ｓ３［１３：４］が並列に読出されて増分器
９５ａ〜９５ｄへ与えられる。増分器９５ａは、リップ
ルキャリ型加算器で構成され、丸め演算結果データＣＲ
０〜ＣＲ３をそれぞれ、最下位ビット位置に受けて加算
動作を実行する。これにより、バッファメモリからフレ
ームバッファ４０への画像データ転送時において、ブレ
ンド回路１０２において、ＳＲＡＭバッファ１０２ｂか
らの画素データを１クロックサイクル前に読出し、丸め
回路１０２ｆにより丸め演算処理を行なうことにより、
バッファメモリ１００から読出された画素データＳ０
［［１３：４］〜Ｓ３［１３：４］の確定時、既に、こ
れらの丸め演算結果データＣＲ０〜ＣＲ３の値が確定し
ているため、高速で、画素データＤ０［９：０］〜Ｄ３
［９：０］を生成することができる。すなわち丸め演算
処理を、１クロックサイクル先に実行することにより、
画素データがバッファメモリから読出されたときに、そ
の読出画素データに対して丸め演算処理を行なう必要が
なく、その丸め演算処理に要する時間処理を高速化する
ことができる。

【０１１８】図２５は、図２４に示す増分器９５ａ〜９
５ｄの構成を概略的に示す図である。図２４において
は、これらの増分器９５ａ〜９５ｄの各々が同一構成を
有するため、１つの増分器９５を代表的に示す。

【０１１９】図２５において、増分器９５は、画素デー
タビットＳｉ［４］〜Ｓｉ［１３］（ｉ＝０−３）それ
ぞれに対応して設けられる半加算器ＨＡ０〜ＨＡ９を含
む。これらの半加算器ＨＡ０〜ＨＡ９は、キャリ入力Ｃ
Ｉとキャリ出力ＣＯが順次接続されて、リップルキャリ
型加算回路を構成する。これらの半加算器ＨＡ０〜ＨＡ
９から、丸め演算処理後の画素データビットＤｉ［０］
〜Ｄｉ［９］が出力される。単に、丸め演算結果データ
ＣＲｉに従って、画素データＳｉ［４］〜Ｓｉ［１３］
＝Ｓｉ［１３：４］の増分を行なうだけであり、この回
路においては、リップルキャリの伝搬遅延で決定される
時間内で増分処理を行なうことができる。半加算器は簡
易な回路構成であり、その占有面積は十分小さくするこ
とができる。

【０１２０】図２６は、図２５に示す半加算器ＨＡ０〜
ＨＡ９の具体的構成を示す図である。図２６において、
半加算器ＨＡは、キャリ入力ＣＩからのビットと入力Ａ
からの画素データビットとを受けるＥＸＯＲ回路９９ａ
と、キャリ入力ＣＩからのビットと入力Ａからの画素デ
ータビットとを受けるＡＮＤ回路９９ｂを含む。ＥＸＯ
Ｒ回路９９ａからサム出力Ｓを介して丸め処理後の画素
データビットが出力され、ＡＮＤ回路９９ｂから、キャ
リ出力ＣＯを介して次段の半加算器のキャリ入力にキャ
リ信号が与えられる。

【０１２１】この図２６に示す半加算器ＨＡにおいて、
キャリ入力ＣＩに与えられるビットと入力Ａに与えられ
る画素データビットがともに“１”のときには、ＡＮＤ
回路９９ｂからのキャリ出力ＣＯに与えられるビットが
“１”となり、それ以外、このキャリ出力ＣＯからのビ
ットは、“０”となる。一方、ＥＸＯＲ回路９９ａは、
キャリ入力ＣＩからのビットと入力Ａからの画素データ
ビットの値が等しい場合には、サム出力Ｓからのビット
を“０”とし、キャリ入力ＣＩからのビットと入力Ａか
らの画素データビットの値が異なるときには、サム出力
Ｓからの画素データビットを“１”に設定する。サム出
力Ｓからのビットのみを用い、キャリ出力を、順次次段
の半加算器へ伝達することにより、容易に、丸め演算処
理結果データＣＲｉに従って増分処理を行なうことがで
きる。

【０１２２】以上のように、この発明の実施の形態４に
従えば、バッファメモリとフレームバッファとの間で丸
め演算処理を行なうように構成しているため、回路構成
が簡略化され、また演算処理時の画素データ転送経路の
選択制御を行なう必要がなく、制御が容易となる。ま
た、丸め演算を行なう回路をブレンド回路内に含め、こ
の丸め演算結果に従って増分処理を行なう回路をバッフ
ァメモリとフレームバッファとの間に設けていることに
より、増分回路に対するキャリ入力を、１クロックサイ
クル前に決定することができ、高速で増分動作、すなわ
ち丸め演算動作を行なうことができる。また、フレーム
バッファとバッファメモリとの間の回路の占有面積を低
減することができる。

【０１２３】［他の適用例］上述の説明においては、フ
レームバッファとバッファメモリとの間で、４個の画素
データを並列に転送しているとして説明している。これ
は、キャッシュのブロックサイズに相当するが、キャッ
シュブロックサイズは、４画素ではなく、他の画素数で
あってもよく、データバスのチップ上の占有面積に応じ
て適当な値に設定されればよい。

【０１２４】また、上述の説明においては、ブレンド回
路により演算処理された結果データがバッファメモリの
元の画素データ位置に格納され、複数回演算処理が行な
われる画素における丸め演算誤差の累積が低減される。
この場合、単にバッファメモリ内において、同じ画素デ
ータの元の位置に演算結果データが格納されている。こ
の行なわれる演算処理としては、色の混合演算処理と同
様の演算処理であればよく、たとえば拡大／縮小演算時
において、補間画素の輝度を求めるなどの演算処理であ
ってもよい。また、画素データは、１０ビット幅でな
く、他の画素データのビット幅が用いられてもよく、ブ
レンド回路において演算処理される画素データのビット
数ｍは、任意である。

【０１２５】また、ブレンド回路の内部の具体的構成
は、単に、混色演算処理をパイプライン的に行なう回路
構成であればよく、画像データ処理時において通常用い
られるＺ値を格納するＺバッファなどを含む構成が利用
されてもよい。

【０１２６】

【発明の効果】以上のように、この発明に従えば、繰返
し演算処理が行なわれる画素データに対し、丸め演算誤
差ができるだけ累積されないように構成しているため、
正確な画像データ処理を実現することができる。

【０１２７】すなわち、請求項１に係る発明に従えば、
フィードバックバイパス経路において、演算回路の出力
画素データを転送するように構成しているため、フィー
ドバックバイパス経路の画素データに対する演算処理時
において、この画素データにおける丸め演算誤差の累積
が防止される。

【０１２８】請求項２に係る発明に従えば、フィードバ
ックバイパス経路において複数のレジスタを縦列接続し
ているため、フィードバックバイパス経路における画素
データが用いられる確率を高くすることができ、応じて
丸め演算誤差が累積される画素データ数を低減すること
ができる。

【０１２９】請求項３に係る発明に従えば、フィードバ
ックバイパス経路において演算回路の出力データと丸め
回路の出力データの一方を選択するように構成している
ため、演算処理時、演算回路の出力データを選択して、
演算処理を繰返し実行することができ、丸め演算誤差の
累積が防止される。

【０１３０】請求項４に係る発明に従えば、このフィー
ドバックバイパス経路の転送画素データを、第１のメモ
リへ格納するように構成しているため、第１のメモリに
格納される画素データは、演算回路の出力画素データと
なり、丸め演算された画素データは格納されないため、
丸め演算誤差が画素データに対して累積されるのを防止
することができる。

【０１３１】請求項５に係る発明に従えば、第１のメモ
リと第２のメモリの間の画素データの転送経路におい
て、第２のメモリに対する画素データ転送経路において
丸め処理を施す手段を設けているため、第１のメモリ
に、演算処理時、常時演算処理結果の画素データが格納
されるため、丸め演算誤差が累積されるのを防止するこ
とができる。

【０１３２】請求項６に係る発明に従えば、第１のメモ
リと第２のメモリが複数の画素データを並列に転送し、
丸め回路を、これら複数の画素データそれぞれに対して
設けているため、効率的な画素データの転送および丸め
演算処理を行なうことができる。

【０１３３】請求項７に係る発明に従えば、丸め処理を
行なう回路を演算回路内に設け、この丸め回路の出力ビ
ットに従って第１のメモリから読出された画素データの
増分処理を行なうように構成しているため、第１のメモ
リと第２のメモリとの間のデータ転送経路の回路の占有
面積を低減することができる。また、演算回路内におい
て速いサイクルで丸め演算処理を行なうことにより、丸
め演算結果データが確定した次のサイクルにおいて第１
のメモリからの画素データの増分処理を行なうことがで
き、高速の丸め演算処理を行なうことができる。

【０１３４】請求項８に係る発明に従えば、第１のメモ
リの格納する画素データのビット数が丸め回路の出力デ
ータのビット数に等しくされており、丸め演算処理時お
よび、データ転送時いずれにおいても、第１のメモリの
格納画素データ数が変化せず、第１のメモリに対する画
素データの書込／読出の経路を簡略化することができ
る。

【０１３５】請求項９に係る発明に従えば、フィードバ
ックバイパス経路において演算回路と丸め回路の出力を
選択する第２の選択手段が、最後の演算単位実行時、す
なわち第２のメモリへの転送サイクル前において丸め回
路の出力データを選択して第１のメモリへ転送してそこ
に書込むように構成しているため、簡易な回路構成で、
丸め演算誤差が累積されるのを防止することができる。
また、第１のメモリは、常時、第２の選択手段からの画
素データを格納するだけでよく、制御が容易となる。

【０１３６】請求項１０に係る発明に従えば、丸め演算
結果データを、第１のメモリに格納するように構成して
いるため、フィードバックバイパス経路の構成が簡略化
され、また第１のメモリの書込／読出のための構成が簡
略化される。

【０１３７】請求項１１に係る発明に従えば、第１のメ
モリの入出力する画素データのビット数が演算回路の入
力する画素データのビット数に等しく、また第２のメモ
リの入出力する画素データのビット数が丸め回路の出力
する画素データビット数に等しくされており、第１のメ
モリには、演算回路の画素データを書込むことができ、
この第１メモリに格納される画素データに丸め演算結果
データが格納されるのを容易に防止することができ、丸
め演算の結果生じる誤差が累積されるのを防止すること
ができる。

【０１３８】請求項１２に係る発明に従えば、第１のメ
モリの画素データのビット数を演算回路の入力画素デー
タのビット数に等しく、第２のメモリの画素データのビ
ット数を丸め回路の出力データのビット数に等しくして
いるため、第２のメモリの格納画素データのビット数に
応じて丸め処理を行なうとともに、演算回路の演算処理
に応じて第１のメモリに画素データを格納することがで
き、第１のメモリに、演算結果データを丸め処理を施す
ことなく格納することができ、画素データに丸め演算誤
差が累積されるのを防止することができる。

【図面の簡単な説明】

【図１】この発明に従う演算回路内蔵半導体記憶装置
を含む処理システムの構成を概略的に示す図である。

【図２】図１に示す演算回路内蔵半導体記憶装置の演
算処理動作を示す図である。

【図３】この発明の実施の形態１に従う演算回路内蔵
半導体記憶装置の構成を概略的に示す図である。

【図４】図３に示す演算回路内蔵半導体記憶装置の処
理動作を示す図である。

【図５】図３に示すビット幅拡張レジスタの構成を概
略的に示す図である。

【図６】図３に示す演算回路内蔵半導体記憶装置の制
御部の構成を概略的に示す図である。

【図７】この発明の実施の形態２に従う演算回路内蔵
半導体記憶装置の構成を概略的に示す図である。

【図８】この発明の実施の形態３に従う演算回路内蔵
半導体記憶装置の構成を概略的に示す図である。

【図９】図８に示す演算回路内蔵半導体記憶装置の動
作を示す図である。

【図１０】図８に示す演算回路内蔵半導体記憶装置の
制御部の構成を概略的に示す図である。

【図１１】（Ａ）および（Ｂ）は、図１０に示す制御
回路へ与えられるオペレーションコマンドの構成を示す
図である。

【図１２】制御部の変更例を示す図である。

【図１３】図１０または図１２に示す制御回路の構成
を概略的に示す図である。

【図１４】図８に示すバッファメモリの構成を概略的
に示す図である。

【図１５】図１４に示すメモリアレイ部の構成をより
具体的に示す図である。

【図１６】図１５に示す読出／書込回路部の構成を概
略的に示す図である。

【図１７】この発明の実施の形態３の変更例の構成を
概略的に示す図である。

【図１８】図１７に示すブレンド回路の構成をより具
体的に示す図である。

【図１９】この発明の実施の形態４に従う演算回路内
蔵半導体記憶装置の全体の構成を概略的に示す図であ
る。

【図２０】図１９に示すバッファメモリのデータ読出
／書込部の構成を概略的に示す図である。

【図２１】図１９に示す丸め回路の構成を概略的に示
す図である。

【図２２】この発明の実施の形態４の変更例の構成を
概略的に示す図である。

【図２３】図２２に示す丸め回路の構成を概略的に示
す図である。

【図２４】図２２に示す増分回路の構成を概略的に示
す図である。

【図２５】図２４に示す増分器の構成を概略的に示す
図である。

【図２６】図２５に示す半加算器の構成の一例を示す
図である。

【図２７】画像データ処理の一例を示す図である。

【図２８】従来の演算回路内蔵半導体記憶装置の構成
を概略的に示す図である。

【図２９】図２８に示す演算回路内蔵半導体記憶装置
の問題点を説明するための図である。

【符号の説明】

１演算回路内蔵半導体記憶装置、５フレームバッフ
ァ、１００バッファメモリ、１０２ブレンド回路、
１０４丸め回路、１０フィードバックバイパス経
路、１４ａ〜１４ｎレジスタ、４０フレームバッフ
ァ、４２セレクタ、４５フィードバックバイパス経
路、４１ｒＤＲＡＭリードデータバス、４１ｗＤＲ
ＡＭライトデータバス、１０２ａ演算回路、１０２ｂ
ＳＲＡＭバッファ、８０丸め回路、１０２ｆ丸め
回路、８５増分回路、９０ａ〜９０ｄ丸め回路、９
５ａ〜９５ｄ増分器、ＨＡ０〜ＨＡ９，ＨＡ半加算
器。

Claims

【特許請求の範囲】

【請求項１】与えられた画素データに所定の演算処理
を施すための演算回路、画素データを格納する第１のメモリ、前記演算回路の出力データを転送するフィードバックバ
イパス手段、および前記第１のメモリから読出された画
素データと前記フィードバックバイパス手段からの画素
データの一方を選択して前記演算回路へ与える選択手段
とを備える、演算回路内蔵半導体記憶装置。
【請求項２】前記フィードバックバイパス手段は、前記演算回路の出力データを順次転送する複数の縦続接
続されるレジスタを備え、前記複数のレジスタの記憶す
る画素データが前記選択手段へ並列に与えられる、請求
項１記載の演算回路内蔵半導体記憶装置。
【請求項３】前記演算回路の出力データに丸め演算処
理を施してデータビット数を低減して出力する丸め回路
をさらに備え、前記フィードバックバイパス手段は、前記演算回路の出力データと前記丸め回路の出力データ
の一方を選択する第２の選択手段を含む、請求項１記載
の演算回路内蔵半導体記憶装置。
【請求項４】前記第１のメモリへ、前記フィードバッ
クバイパス手段が転送する画素データを書込む手段をさ
らに備える、請求項１から３のいずれかに記載の演算回
路内蔵半導体記憶装置。
【請求項５】前記第１のメモリへ画素データを伝達す
るための第２のメモリ、および前記第１のメモリから前
記第２のメモリへ画素データを書込む経路に設けられ、
前記第１のメモリから読出された画素データに丸め処理
を施して前記第２のメモリへ転送する丸め回路をさらに
備え、前記第２のメモリは、前記丸め回路の出力データ
を格納する、請求項４記載の演算回路内蔵半導体記憶装
置。
【請求項６】前記第１のメモリと前記第２のメモリと
は、複数の画素データを並列に転送し、前記丸め回路は、前記複数の画素データそれぞれに対し
て設けられる、請求項５記載の演算回路内蔵半導体記憶
装置。
【請求項７】前記画素データは複数ビットを含み、前記丸め回路は、前記複数ビットの所定数のビットに対
する増分演算を行なうインクリメント回路を含み、前記演算回路は、前記画素データの前記複数ビットの残
りのビットの丸め処理を行ない、該演算処理結果を前記
インクリメント回路へ転送する回路を含む、請求項５ま
たは６記載の演算回路内蔵半導体記憶装置。
【請求項８】前記第１メモリの書込／読出を行なう画
素データのビット数は、前記丸め回路の出力データのビ
ット数に等しい、請求項３記載の演算回路内蔵半導体記
憶装置。
【請求項９】前記第２の選択手段は、前記第１のメモ
リから前記第２のメモリへの画素データの転送前の演算
サイクルにおいて前記丸め回路の出力データを選択し、前記第１メモリは、前記転送前の演算サイクルにおいて
前記第２選択手段が選択した画素データを格納する、請
求項３記載の演算回路内蔵半導体記憶装置。
【請求項１０】前記演算回路の出力データに丸め処理
を施して前記第１のメモリへ転送する丸め回路をさらに
備え、前記第１メモリは、前記丸め回路から転送された画素デ
ータを前記フィードバックバイパス手段の転送と並列し
て格納する、請求項１または２記載の演算回路内蔵半導
体記憶装置。
【請求項１１】前記第１のメモリの入出力する画素デ
ータのビット数は、前記演算回路の入出力する画素デー
タのビット数に等しく、前記第２のメモリの入出力する画素データのビット数
は、前記丸め回路の出力する画素データのビット数に等
しい、請求項５記載の演算回路内蔵半導体記憶装置。
【請求項１２】前記第１のメモリと画素データの授受
を行なう第２のメモリをさらに含み、前記第１のメモリの画素データのビット数は、前記演算
回路の入出力する画素データのビット数に等しく、前記
第２のメモリの画素データのビット数は、前記丸め回路
の出力データのビット数に等しい、請求項３記載の演算
回路内蔵半導体記憶装置。