JP2001357025A

JP2001357025A - データ駆動型処理装置およびデータ駆動型処理装置におけるデータ処理方法

Info

Publication number: JP2001357025A
Application number: JP2000178733A
Authority: JP
Inventors: Shingo Kamiya; 晋吾紙谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2000-06-14
Filing date: 2000-06-14
Publication date: 2001-12-26
Anticipated expiration: 2020-06-14
Also published as: JP3912958B2; US6941448B2; US20010056529A1

Abstract

(57)【要約】【課題】データ駆動型処理において多倍精度データを
効率よく処理する。【解決手段】データ駆動型処理装置において、１０２
４ｂｉｔの多倍精度データについて所定演算処理が行な
われる際には、多倍精度データは累算メモリ１５１のメ
モリワード長に準じて３２ビット長単位に分割された複
数の単精度データＸとして、そしてメモリ１５１の３２
ビット長の３２個のメモリワードの集合は該多倍精度デ
ータとして扱われる。それゆえに、データ駆動型処理装
置において多倍精度データ専用の累算器を特別に用意し
なくても通常のメモリの領域で多倍精度データの累算器
の役割を果たすことができる。また、多倍精度データは
３２ビット長の単精度データＸ単位の互いに独立な演算
要素に分割することによってデータについての演算をす
べて同時並列に実行できるから、データ駆動型処理装置
の並列処理能力を最大限に発揮できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明はデータ駆動型処理
装置およびデータ駆動型処理装置におけるデータ処理方
法に関し、特に、多倍精度形式のデータ（以下、多倍精
度データという）についてデータ駆動型の演算を行なう
データ駆動型処理装置およびデータ駆動型処理装置にお
けるデータ処理方法に関する。

【０００２】

【従来の技術および発明が解決しようとする課題】大量
データの高速処理が望まれる場合には、並列処理が有効
である。並列処理向きアーキテクチャのうちでも、デー
タ駆動型と呼ばれるものが特に注目される。

【０００３】データ駆動型情報処理システムでは、「あ
る処理に必要な入力データがすべて揃い、かつその処理
に必要な演算装置などの資源が割当てられたときに処理
が行なわれる」という規則に従って処理が並列に進行す
る。

【０００４】図１３は、従来およびこの発明の実施の形
態に適用されるデータ駆動型情報処理システムのブロッ
ク構成図である。図１４は、従来のデータ駆動型処理装
置の構成図である。図１５（Ａ）と（Ｂ）は従来および
この発明の実施の形態に適用されるデータパケットのフ
ィールド構成図である。図１５（Ａ）では、データ駆動
型処理装置の入出力データパケットＰＡの基本構成が示
される。図１５（Ｂ）では、データ駆動型処理装置内部
を流れるデータパケットＰＡ１の基本構成が示される。

【０００５】図１５（Ａ）のデータパケットＰＡはプロ
セッサ番号ＰＥ（Processing Element）を格納するフィ
ールド１８、ノード番号Ｎを格納するフィールド１９、
世代番号Ｇを格納するフィールド２０およびデータＤを
格納するフィールド２１を含む。図１５（Ｂ）のデータ
パケットＰＡ１は、図１５（Ａ）と同様のフィールド１
９〜２１と、命令コードＣを格納するフィールド２２と
を含む。

【０００６】図１３においてデータ駆動型情報処理シス
テムは従来のデータ駆動型処理装置１（本実施の形態に
適用されるデータ駆動型処理装置１０）、複数のデータ
が予め格納されるデータメモリ３およびメモリインター
フェース２を含む。データ駆動型処理装置１（１０）は
データ伝送路４、５および９のそれぞれが接続される入
力ポートＩＡ、ＩＢおよびＩＶ、ならびにデータ伝送路
６、７および８のそれぞれが接続される出力ポートＯ
Ａ、ＯＢおよびＯＶを含む。

【０００７】データ駆動型処理装置１（１０）はデータ
伝送路４または５から入力ポートＩＡまたはＩＢを介し
て、データパケットＰＡが、時系列的に入力される。デ
ータ駆動型処理装置１（１０）には所定の処理内容がプ
ログラムとして予め記憶されており、そのプログラム内
容に基づく処理が実行される。

【０００８】メモリインターフェース２はデータ駆動型
処理装置１（１０）の出力ポートＯＶから出力されてデ
ータメモリ３に対するアクセス（データメモリ３の内容
の参照／更新など）要求を、データ伝送路８を介して受
理する。メモリインターフェース２は受理したアクセス
要求に従ってメモリアクセス制御線ＳＳＬを介してデー
タメモリ３に対してアクセスを行なった後、その結果
を、データ伝送路９および入力ポートＩＶを介してデー
タ駆動型処理装置１（１０）に与える。

【０００９】データ駆動型処理装置１（１０）は、入力
したデータパケットＰＡに対する処理をして、処理が終
了した後、出力ポートＯＡおよびデータ伝送路６または
出力ポートＯＢおよびデータ伝送路７を介してデータパ
ケットＰＡを出力する。

【００１０】図１４には、従来のデータ駆動型処理装置
１の構成が示される。図において、データ駆動型処理装
置１は入出力制御部１１、合流部１２、データ駆動型の
処理を行なうために発火制御部１３、内蔵メモリ１５が
接続される演算部１４およびプログラム記憶部１６なら
びに分岐部１７を含む。

【００１１】ここで図１５（Ａ）と（Ｂ）を参照する
と、プロセッサ番号ＰＥは、複数のデータ駆動型処理装
置１が接続されたシステムにおいて対応するデータパケ
ットＰＡが処理されるべきデータ駆動型処理装置１を特
定するための情報である。ノード番号Ｎは、プログラム
記憶部１６の内容をアクセスするためのアドレスとして
用いられる。世代番号Ｇは、データ駆動型処理装置１に
時系列に入力されるデータパケットを一意に識別するた
めの識別子として用いられる。また世代番号Ｇはデータ
メモリ３が画像データメモリであった場合には、データ
メモリ３をアクセスするためのアドレスとしても用いら
れる。その際には、世代番号Ｇは上位ビットから順にフ
ィールド番号Ｆ♯、ライン番号Ｌ♯およびピクセル番号
Ｐ♯を示す。

【００１２】動作において、図１５（Ａ）のデータパケ
ットＰＡはデータ伝送路４、５を介してプロセッサ番号
ＰＥで指定されたデータ駆動型処理装置１に与えられる
と入出力制御部１１において図１５（Ｂ）のデータパケ
ットＰＡ１となる。つまり入出力制御部１１は、入力し
たデータパケットＰＡのプロセッサ番号ＰＥのフィール
ド１８を破棄して、該入力データパケットＰＡのノード
番号Ｎに基づいて、命令コードＣと新たなノード番号Ｎ
とを得て、該入力データパケットＰＡのフィールド１８
と１９にそれぞれ格納して、データパケットＰＡ１を合
流部１２に出力する。したがって、入出力制御部１１か
ら合流部１２に与えられたデータパケットＰＡ１は図１
５（Ｂ）の構成を有する。なお、入出力制御部１１では
世代番号ＧとデータＤは変化しない。

【００１３】合流部１２は、入出力制御部１１から与え
られるデータパケットＰＡ１、ならびに分岐部１７から
出力されるデータパケットＰＡ１を順次入力して、発火
制御部１３に出力する。

【００１４】発火制御部１３には、対となるデータパケ
ットＰＡ１を検出する（これを発火という）ための待合
せメモリ７３１と定数データが１つ以上格納される定数
データメモリ７３２が含まれる。発火制御部１３は、待
合せメモリ７３１を利用して合流部１２から与えられる
データパケットＰＡ１について必要に応じて待合せを行
なう。この結果、ノード番号Ｎおよび世代番号Ｇが一致
する２つのデータパケットＰＡ１、すなわち対となる異
なる２つのデータパケットＰＡ１のうち一方のデータパ
ケットＰＡ１のフィールド２１のデータＤを、他方のデ
ータパケットＰＡ１のフィールド２１に追加して格納し
て、この他方のデータパケットＰＡ１を演算部１４に出
力する。このとき一方のデータパケットＰＡ１は消去さ
れる。ここでは、演算されるべき相手がデータパケット
ＰＡ１ではなく定数データである場合には、発火制御部
１３での待合せは行なわれず、定数データが定数データ
メモリ７３２から読出されてデータパケットＰＡ１のフ
ィールド２１に追加して格納されて、該データパケット
ＰＡ１は演算部１４に出力される。

【００１５】演算部１４は発火制御部１３から与えられ
たデータパケットＰＡ１を入力して、データパケットＰ
Ａ１の命令コードＣを解読して、解読結果に基づいて、
所定の処理を行なう。命令コードＣがデータＤを含むデ
ータパケットＰＡ１の内容に対する演算命令を示す場合
には該命令コードＣに従いデータパケットＰＡ１の内容
について所定の演算処理が施されて、その結果は該デー
タパケットＰＡ１に格納されて、該データパケットＰＡ
１はプログラム記憶部１６に出力される。また、このと
き、データパケットＰＡ１の命令コードＣがメモリアク
セス命令を指示している場合には内蔵メモリ１５へのア
クセス処理が行なわれて、アクセス結果を格納したデー
タパケットＰＡ１はプログラム記憶部１６に出力され
る。なお、演算部１４に接続されるメモリはデータ駆動
型処理装置１に内蔵されるメモリ１５に限定されず該装
置に外付けされるメモリであってもよい。

【００１６】また演算部１４は、命令コードＣがデータ
メモリ３に対するアクセス命令を示す場合にはアクセス
要求として該データパケットＰＡ１を、データ伝送路８
を介してメモリインターフェース２に与える。

【００１７】メモリインターフェース２は、データ伝送
路８を介して与えられたデータパケットＰＡ１を入力し
て、該入力データパケットＰＡ１の内容に従って、メモ
リアクセス制御線ＳＳＬを介してデータメモリ３をアク
セスする。そのアクセスの結果は該入力データパケット
ＰＡ１のフィールド２１にデータＤとして格納されて、
該データパケットＰＡ１はデータ伝送路９を介して演算
部１４に与えられる。

【００１８】プログラム記憶部１６は、複数の次位の命
令コードＣおよびノード番号Ｎからなるデータフロープ
ログラムが格納されたプログラムメモリ１６１を有す
る。プログラム記憶部１６は、演算部１４から与えられ
たデータパケットＰＡ１を入力し、該入力データパケッ
トＰＡ１のノード番号Ｎに基づくアドレス指定によっ
て、次位のノード番号Ｎおよび次位の命令コードＣをプ
ログラムメモリ１６１から読出し、読出したノード番号
Ｎおよび命令コードＣを、該入力データパケットＰＡ１
のフィールド１９および２２のそれぞれに格納して、該
入力データパケットＰＡ１を分岐部１７に出力する。

【００１９】分岐部１７は、与えられたデータパケット
ＰＡ１の命令コードＣが該データ駆動型処理装置１内の
演算部１４で実行されるべきものか、外部のデータ駆動
型処理装置１の演算部１４で実行されるべきものかを判
別する。外部のデータ駆動型処理装置１の演算部１４で
実行されるべきと判別された場合にはデータパケットＰ
Ａ１が入出力制御部１１に出力されて、入出力制御部１
１はデータパケットＰＡ１を適切な出力ポートから該装
置の外部に出力する。一方、該データ駆動型処理装置１
内の演算部１４で実行すべきと判別された場合は、デー
タパケットＰＡ１は合流部１２に与えられる。

【００２０】このようにして、データパケットＰＡ１が
データ駆動型処理装置１内を周回することにより、プロ
グラムメモリ１６１に予め記憶されたデータフロープロ
グラムに従う処理が進行する。

【００２１】データパケットはデータ駆動型処理装置１
内においてはハンドシェイクによって非同期に転送され
る。プログラムメモリ１６１に格納されたデータフロー
プログラムに従う処理は、データパケットがデータ駆動
型処理装置１内を周回することによるパイプライン処理
に従い並列に実行される。よって、データ駆動型処理方
法によれば、データパケット単位での処理の並列性が高
く装置内を周回するデータパケットのフローレートが処
理性能の１つの尺度となる。

【００２２】近年はこのようなデータ駆動型処理方法の
特徴が、大量の演算を高速で行なうことが必要とされる
画像処理あるいは映像信号処理へと応用される。画像や
映像信号の性質上、これらに対応のデータのビット長は
短い。したがって、画像処理あるいは映像信号処理にお
いても短いビット長のデータが処理対象とされる。現
在、図１５（Ａ）と（Ｂ）のデータＤのフィールド２１
は１２ｂｉｔ長を有する。同様に、データメモリ３や内
蔵メモリ１５における１ワードも、１２ｂｉｔ長を有す
る。

【００２３】上述したような画像処理あるいは映像信号
処理とは異なり処理対象とされるデータのビット長が非
常に長い処理もある。このような処理としては、たとえ
ば公開された鍵を用いた暗号化処理である公開鍵暗号化
処理やそのための復号化処理がある。

【００２４】ここで、上述の公開鍵暗号化処理について
説明する。周囲には秘密にして、特定の相手にだけある
文（データ）を伝えたいとき、その伝えたい文（デー
タ）を平文と呼び、平文を相手に伝達するために暗号化
処理を施したものを暗号文と呼ぶ。平文をある法則によ
って暗号文へ変換する（暗号化する）あるいは暗号文を
平文へ変換する（復号化する）ためのパラメータを鍵と
呼ぶ。公開鍵暗号化方式では、数学的な性質が利用され
ることにより暗号文や公開鍵が第三者にわかっても送受
信者が互いに独自に持っている秘密の鍵が知られなけれ
ば暗号文を解読できない、または容易には解読できない
仕組みとなっている。公開鍵暗号化方式の代表的なもの
としてはＲＳＡ（Rivest ，Shamir, Adlemanの略）やＤ
Ｈ（DiffieHellmanの略）がある。以下、一例としてＤ
Ｈの鍵交換について説明する。

【００２５】鍵交換を行なう２人をＡとＢとする。Ａと
Ｂは、自分の秘密鍵Ｓ（Ａ）およびＳ（Ｂ）のそれぞれ
を生成し、これを使って自分の公開鍵Ｐ（Ａ）およびＰ
（Ｂ）のそれぞれを、次の方法で作成する。なお、秘密
鍵Ｓ（Ａ）およびＳ（Ｂ）のそれぞれは１０２４ｂｉｔ
長のデータである。公開鍵暗号化処理では秘密鍵は一般
的に１０２４ｂｉｔ長を有する。

【００２６】公開鍵Ｐ（Ａ）＝Ｇ＾Ｓ（Ａ）ｍｏｄＰお
よび公開鍵Ｐ（Ｂ）＝Ｇ＾Ｓ（Ｂ）ｍｏｄＰで求められ
る。ここで“＾”は冪乗算を示し“ｍｏｄ”は剰余算を
示す。また、変数ＧおよびＰの値は定数として予め定め
られている。ＡとＢは、お互いに生成した公開鍵を相手
に送信し、各人が相手の公開鍵を受理すると、次のよう
に共通鍵Ｃが作成される。つまり、Ａは、Ｃ＝Ｐ（Ｂ）
＾Ｓ（Ａ）ｍｏｄＰにより共通鍵Ｃを作成し、ＢはＣ＝
Ｐ（Ｂ）＾Ｓ（Ａ）ｍｏｄＰに従い共通鍵Ｃを作成す
る。

【００２７】２人が求めた共通鍵Ｃは全く同じ値とな
り、こうして秘密鍵を第三者に知られることなく送受信
者で鍵の共有を図ることができる。なおＳ（Ａ）、Ｓ
（Ｂ）およびＰは１０２４ｂｉｔ長のデータであり、Ｐ
（Ａ）、Ｐ（Ｂ）およびＣもまた１０２４ｂｉｔ長のデ
ータである。

【００２８】上述した公開鍵の作成で使用される“Ｘ＾
ＹｍｏｄＺ”という式に従う演算結果を求める際には、
Ｘを定数とする乗算または２乗演算と、Ｚを除数とする
除算とが交互に繰返し行なわれる。またこの繰返し計算
の中間結果を格納するために作業領域Ｕ（２０４８ｂｉ
ｔ）およびＶ（２０４８ｂｉｔ）が準備される。“Ｘ＾
ＹｍｏｄＺ”の演算のための処理フローが図１６に示さ
れる。

【００２９】図１６はノイマン型計算機においてＸ＾Ｙ
ｍｏｄＺの演算を実行するための処理フローチャートで
ある。図１６の処理フローを説明する。変数Ｘ，Ｙおよ
びＺは、それぞれ１０２ｂｉｔ長で構成されている。こ
れら変数の値は、計算機内の内部メモリに格納されてお
り処理開始時に内部メモリから読出される。その後、交
互に中間演算とその結果格納が行なわれながら演算が進
行する。なお、処理フローにおいて変数Ｙ［ｋ］は変数
Ｙのｋビット目の値を示す。

【００３０】まず、ステップＳ１において初期設定がな
される。つまり作業領域Ｕの内容はリセットされて作業
領域Ｖの内容には１が設定される。そして制御変数ｋに
１０２３がセットされる。つまり、制御変数ｋが１０２
３から０まで１ずつデクリメントされながら、以下の演
算が繰返される。

【００３１】ステップＳ２では、変数Ｙ［ｋ］が１であ
るか０であるかで処理は分岐する。もし、変数Ｙ［ｋ］
が１であれば、ステップＳ３の処理に移行するが、０で
あれば後述のステップＳ６に移行する。

【００３２】ステップＳ３では、Ｖ×Ｘの演算が行なわ
れ、その結果が作業領域Ｕに格納される。次のステップ
Ｓ４ではＵ％Ｚに従う演算がなされて、つまり（作業領
域Ｕに格納された値÷Ｚ）の剰余が求められて、その剰
余値が作業領域Ｖに格納される。次のステップＳ５で
は、制御変数ｋが０であるか否かが判定される。０でな
ければステップＳ６において、作業領域Ｖの値が２乗さ
れて、その結果が作業領域Ｕに格納される。そして、次
のステップＳ７ではＵ％Ｚに従う演算がなされて、すな
わち（作業領域Ｕに格納された値÷Ｚ）の剰余が求めら
れて、その剰余値が作業領域Ｖに格納される。次のステ
ップＳ８においては、制御変数ｋの値が１デクリメント
される。以降Ｓ２〜Ｓ８の処理が、ステップＳ５におい
てｋ＝０と判定されるまで繰返される。その結果、作業
領域Ｖに格納されている値が、“Ｘ＾ＹｍｏｄＺ”の演
算結果値となる。

【００３３】このように公開鍵暗号化処理および復号化
処理に代表されるように多倍精度データを処理する要求
が生じているが、従来のデータ駆動型処理装置１によっ
て多倍精度データを処理する方式はまだ確立されていな
い。詳述すると、公開鍵暗号化処理で必要とされる演算
のビット長は１０２４ｂｉｔ程度であり、データ駆動型
処理装置１によって、そのようなビット長を有した演算
器、データパケットおよびメモリの１ワードを構成する
ことは、データ駆動型処理装置１をＬＳＩ（集積回路の
略）を用いて実現する場合の回路実装面積およびバス幅
などの物理的な制約上非常に困難である。

【００３４】それゆえにこの発明の目的は、多倍精度デ
ータを効率よく処理することのできるデータ駆動型処理
装置およびデータ駆動型処理装置におけるデータ処理方
法を提供することである。

【００３５】

【課題を解決するための手段】この発明のある局面に係
るデータ駆動型処理装置は、ｋビット長（ｋは任意の正
の整数）のｎ個（ｎは２以上の任意の整数）の領域を含
むメモリを備えたデータ駆動型処理装置であって、さら
に、ｎ個領域に格納されたメモリデータのそれぞれを演
算処理する演算処理部を備える。

【００３６】演算処理部は、所定演算手段と、データ累
積加算手段と、あふれデータ累積加算手段とを有する。

【００３７】所定演算手段は、メモリデータと、与えら
れるデータパケットのデータフィールドに格納されたｋ
ビット長のデータとを所定演算命令に従い所定演算処理
して、所定演算処理の結果を、複数のｋビット長のデー
タを分割して、分割により得られた複数のｋビット長の
データのそれぞれをデータフィールドに格納した複数の
データパケットを出力する。

【００３８】所定演算手段から出力された複数のデータ
パケットを入力して、入力した複数データパケットのそ
れぞれについて、データ累積加算手段と、あふれデータ
累積加算手段とが適用される。

【００３９】データ累積加算手段は該データパケットの
データフィールドのｋビット長のデータを、メモリの所
定アドレスに対応の領域のメモリデータに累積加算し
て、桁あふれしたデータを除く累積加算結果を該領域に
格納して、桁あふれしたデータをデータフィールドに格
納したデータパケットを出力する。

【００４０】あふれデータ累積加算手段は、桁あふれし
たデータをデータフィールドに格納したデータパケット
を入力して、該データパケットのデータフィールドの桁
あふれしたデータを、メモリにおける所定アドレスとは
異なる上位の所定アドレスに対応の領域のメモリデータ
に累積加算して、桁あふれしたデータを除く累積加算結
果を該領域に格納して、桁あふれしたデータをデータフ
ィールドに格納したデータパケットを出力する。累積加
算により所定アドレスの領域において桁あふれしたデー
タが生じる間は、あふれデータ累積加算手段による桁あ
ふれしたデータについての累積加算は繰返される。

【００４１】上述のデータ駆動型処理装置によれば、多
倍精度データについて所定演算処理が行なわれる際に
は、多倍精度データはｋビット長単位に分割された複数
の単精度データとして、そしてメモリのｋビット長のｎ
個の領域の集合は該多倍精度データとして扱われる。そ
れゆえに、データ駆動型処理装置において多倍精度デー
タ専用の累算器を特別に用意しなくても通常のメモリの
領域で多倍精度データの累算器の役割を果たすことがで
きるから、多倍精度データについて所定演算処理が行な
われる際でも、データ駆動型処理装置の小型化は阻害さ
れない。

【００４２】また多倍精度データの所定演算では、多倍
精度データはｋビット長の単精度データ単位の互いに独
立な演算要素に分割することによってデータについての
演算をすべて同時並列に実行できるから、データ駆動型
処理装置の並列処理能力を最大限に発揮することができ
る。

【００４３】また、データ駆動型処理装置では、複数の
演算の同時並列処理能力に加えてパイプライン並列処理
という特徴を有しているから、多倍精度データの所定演
算処理において、メモリを用いたデータの累算時に桁あ
ふれが連続的に発生しても連続発生する桁あふれによる
処理の遅延量は他の単精度データの処理によって抑制さ
れる。つまりオーバーフローの発生度合いは多倍精度デ
ータ演算処理全体にかかる所要時間（レスポンス）にほ
とんど影響しない。

【００４４】さらに多倍精度データのデータ長に関して
論理的な制約がない。データ駆動型処理装置の通常のメ
モリの領域やデータパケットが利用されるから、物理的
に資源の許す限りどんなに長いビット長の多倍精度デー
タであっても所定演算処理できる。しかも、ビット長が
異なる多種類の多倍精度データを同時に扱うこともでき
る。

【００４５】上述の所定演算処理は、加算、減算、除算
および乗算のいずれであってもよい。

【００４６】上述のデータ駆動型処理装置において、演
算処理部は、累積加算により所定アドレスの領域におい
て桁あふれしたデータが生じているか否か判定する桁あ
ふれ判定手段をさらに有して、桁あふれ判定手段により
桁あふれしたデータが生じていると判定されたことに応
じて、あふれデータ累積加算手段により桁あふれしたデ
ータについての累積加算が行なわれる。

【００４７】上述のデータ駆動型処理装置によれば、桁
あふれ判定手段を設けることにより、桁あふれしたデー
タが生じている間は、あふれデータ累積加算手段により
桁あふれしたデータについての累積加算が行なわれる。
それゆえに、桁あふれしたデータを確実に繰上げながら
所定演算を実行することができる。

【００４８】上述のデータ駆動型処理装置において、２
個のｍ（ｍはｎ＊ｋ≧ｍを満たす任意の整数）ビット長
の多倍精度データ同士を所定演算処理する場合には、以
下の特徴を有する。つまり、一方の多倍精度データをｋ
ビット長ごとに分割して得られたそれぞれのデータは、
メモリのｎ個の領域のそれぞれにメモリデータとして格
納されて、他方の多倍精度データがｋビット長ごとに分
割して得られたそれぞれのデータは、ｎ個のデータパケ
ットのそれぞれのデータフィールドに格納されて、ｎ個
のデータパケットは所定演算手段に順次与えられる。

【００４９】上述のデータ駆動型処理装置によれば、２
個のｍ（ｍはｎ＊ｋ≧ｍを満たす任意の整数）ビット長
の多倍精度データ同士を所定演算処理することができ
る。

【００５０】上述のデータ駆動型処理装置では、データ
パケットは、該データパケットを一意に識別するための
世代番号が格納される世代フィールドをさらに有して、
所定アドレスは、データパケットの世代フィールドの内
容に基づいて指定される。

【００５１】上述のデータ駆動型処理装置によれば、累
算器として機能するメモリの領域の所定アドレスは、デ
ータパケットを一意に識別するための世代番号が格納さ
れる世代フィールドの内容に基づいて指定される。した
がって、多倍精度データを分割して得られた複数のｋビ
ット長の単精度データのそれぞれについて対応する所定
アドレスが一意に指定されることになって、メモリにお
ける累算を確実に行うことができる。

【００５２】上述のデータ駆動型処理装置において、デ
ータ累積加算手段およびあふれデータ累積加算手段のそ
れぞれは、以下の特徴を有する。つまり、与えられるデ
ータパケットを入力して、該入力データパケット中のデ
ータフィールドの内容を、メモリの所定アドレスに対応
の領域のメモリデータに累積加算して、桁あふれしたデ
ータを除く累積加算結果を該領域に格納して、桁あふれ
したデータを入力データパケットのデータフィールドに
格納して、該入力データパケットを出力することを指示
する演算命令に従い動作する。

【００５３】上述のデータ駆動型処理装置によれば、デ
ータ累積加算手段およびあふれデータ累積加算手段のそ
れぞれにおいては、同一種類の演算命令が実行される。
したがって、多倍精度データを所定演算する場合であっ
ても、実行に必要とされる演算命令の種類数を少なくで
きて、プログラムのメンテナンスおよびデバッグは容易
である。

【００５４】この発明の他の局面に係るデータ駆動型処
理装置におけるデータ処理方法は、ｋビット長（ｋは任
意の正の整数）のｎ個（ｎは２以上の任意の整数）の領
域を含んで、ｎ個の領域のそれぞれにメモリデータが格
納されるメモリを備えたデータ駆動型処理装置における
データ処理方法であって、所定演算ステップと、データ
累積加算ステップと、あふれデータ累積加算ステップと
を有する。

【００５５】所定演算ステップでは、メモリデータと、
与えられるデータパケットのデータフィールドに格納さ
れたｋビット長のデータとが所定演算命令に従い所定演
算処理されて、所定演算処理の結果は、複数のｋビット
長のデータに分割されて、分割により得られた複数のｋ
ビット長のデータのそれぞれがデータフィールドに格納
された複数のデータパケットが出力される。

【００５６】データ累積加算ステップとあふれデータ累
積加算ステップとは、所定演算ステップにより出力され
た複数のデータパケットを入力して、入力した複数デー
タパケットのそれぞれについて適用される。

【００５７】データ累積加算ステップでは、該データパ
ケットのデータフィールドのｋビット長のデータは、メ
モリの所定アドレスに対応の領域のメモリデータに累積
加算されて、桁あふれしたデータを除く累積加算結果は
該領域に格納されて、桁あふれしたデータがデータフィ
ールドに格納されたデータパケットが出力される。

【００５８】あふれデータ累積加算ステップでは、桁あ
ふれしたデータをデータフィールドに格納したデータパ
ケットが入力されると、該データパケットのデータフィ
ールドの桁あふれしたデータは、メモリにおける所定ア
ドレスとは異なる上位の所定アドレスに対応の領域のメ
モリデータに累積加算されて、桁あふれしたデータを除
く累積加算結果は該領域に格納されて、桁あふれしたデ
ータがデータフィールドに格納されたデータパケットが
出力される。上述の累積加算により所定アドレスの領域
において桁あふれしたデータが生じる間は、あふれデー
タ累積加算ステップによる桁あふれしたデータについて
の累積加算は繰返される。

【００５９】上述のデータ駆動型処理装置におけるデー
タ処理方法によれば、多倍精度データについて所定演算
処理が行なわれる際には、多倍精度データはｋビット長
単位に分割された複数の単精度データとして、そしてメ
モリのｋビット長のｎ個の領域の集合は該多倍精度デー
タとして扱われる。それゆえに、データ駆動型処理装置
において多倍精度データ専用の累算器を特別に用意しな
くても通常のメモリの領域で多倍精度データの累算器の
役割を果たすことができるから、多倍精度データについ
て所定演算処理が行なわれる際でも、データ駆動型処理
装置の小型化は阻害されない。

【００６０】また多倍精度データの所定演算では、多倍
精度データはｋビット長の単精度データ単位の互いに独
立な演算要素に分割することによってデータについての
演算をすべて同時並列に実行できるから、データ駆動型
処理装置のデータ処理における並列処理能力を最大限に
発揮することができる。

【００６１】また、データ駆動型処理装置のデータ処理
方法は、複数の演算の同時並列処理能力に加えてパイプ
ライン並列処理という特徴を有しているから、多倍精度
データの所定演算処理において、メモリを用いたデータ
の累算時に桁あふれが連続的に発生しても連続発生する
桁あふれによる処理の遅延量は他の単精度データの処理
によって抑制される。つまりオーバーフローの発生度合
いは多倍精度データ演算処理全体にかかる所要時間（レ
スポンス）にほとんど影響しない。

【００６２】さらに多倍精度データのデータ長に関して
論理的な制約がない。データ駆動型処理装置の通常のメ
モリの領域やデータパケットが利用されるから、物理的
に資源の許す限りどんなに長いビット長の多倍精度デー
タであっても所定演算処理できる。しかも、ビット長が
異なる多種類の多倍精度データを同時に扱うこともでき
る。

【００６３】上述の所定演算処理は、加算、減算、除算
および乗算のいずれであってもよい。

【００６４】上述のデータ処理方法において、演算処理
ステップは、累積加算により所定アドレスの領域におい
て桁あふれしたデータが生じているか否か判定する桁あ
ふれ判定ステップをさらに有して、桁あふれ判定ステッ
プにより桁あふれしたデータが生じていると判定された
ことに応じて、あふれデータ累積加算ステップにより桁
あふれしたデータについての累積加算が行なわれる。

【００６５】上述のデータ処理方法によれば、桁あふれ
判定ステップを設けることにより、桁あふれしたデータ
が生じている間は、あふれデータ累積加算ステップによ
り桁あふれしたデータについての累積加算が行なわれ
る。それゆえに、桁あふれしたデータを確実に繰上げな
がら所定演算を実行することができる。

【００６６】上述のデータ駆動型処理方法において、２
個のｍ（ｍはｎ＊ｋ≧ｍを満たす任意の整数）ビット長
の多倍精度データ同士を所定演算処理する場合には、以
下の特徴を有する。つまり、一方の多倍精度データをｋ
ビット長ごとに分割して得られたそれぞれのデータは、
メモリのｎ個の領域のそれぞれにメモリデータとして格
納されて、他方の多倍精度データがｋビット長ごとに分
割して得られたそれぞれのデータは、ｎ個のデータパケ
ットのそれぞれのデータフィールドに格納されて、ｎ個
のデータパケットは所定演算ステップに順次与えられ
る。

【００６７】上述のデータ駆動型処理方法によれば、２
個のｍ（ｍはｎ＊ｋ≧ｍを満たす任意の整数）ビット長
の多倍精度データ同士を所定演算処理することができ
る。

【００６８】上述のデータ駆動型処理方法では、データ
パケットは、該データパケットを一意に識別するための
世代番号が格納される世代フィールドをさらに有して、
所定アドレスは、データパケットの世代フィールドの内
容に基づいて指定される。

【００６９】上述のデータ駆動型処理方法によれば、累
算器として機能するメモリの領域の所定アドレスは、デ
ータパケットを一意に識別するための世代番号が格納さ
れる世代フィールドの内容に基づいて指定される。した
がって、多倍精度データを分割して得られた複数のｋビ
ット長の単精度データのそれぞれについて対応する所定
アドレスが一意に指定されることになって、メモリにお
ける累算を確実に行うことができる。

【００７０】上述のデータ駆動型処理方法において、デ
ータ累積加算ステップおよびあふれデータ累積加算ステ
ップのそれぞれは、以下の特徴を有する。つまり、与え
られるデータパケットを入力して、該入力データパケッ
ト中のデータフィールドの内容を、メモリの所定アドレ
スに対応の領域のメモリデータに累積加算して、桁あふ
れしたデータを除く累積加算結果を該領域に格納して、
桁あふれしたデータを入力データパケットのデータフィ
ールドに格納して、該入力データパケットを出力するこ
とを指示する演算命令に従い動作する。

【００７１】上述のデータ駆動型処理方法によれば、デ
ータ累積加算ステップおよびあふれデータ累積加算ステ
ップのそれぞれにおいては、同一種類の演算命令が実行
される。したがって、多倍精度データを所定演算する場
合であっても、実行に必要とされる演算命令の種類数を
少なくできて、プログラムのメンテナンスおよびデバッ
グは容易である。

【００７２】

【発明の実施の形態】以下、この発明の実施の形態につ
いて説明する。

【００７３】まず、本実施の形態の特徴について説明す
る。本実施の形態では、データ駆動型処理装置において
多倍精度データの演算を実現するために、ＬＳＩとして
実現できる現実的な範囲での短いビット長を有したデー
タやメモリワードを使用して多倍精度データの演算処理
を実現する。なお、ここでメモリワードとは、データ駆
動型処理装置における１回のメモリアクセス命令の実行
によりアクセスできるメモリのデータ量を示す。

【００７４】図１は、この発明の実施の形態に係る演算
部１４１の構成を、入出力されるデータパケットととも
に示す図である。図２は、図１のｓｗｉｔｃｈ回路６５
の構成を入出力されるデータとともに示す図である。図
３はこの発明の実施の形態に係るデータ駆動型処理装置
１０のブロック図である。図４（Ａ）と（Ｂ）は、本実
施の形態による多倍精度データの分割を説明する図であ
る。

【００７５】図３のデータ駆動型処理装置１０は、図１
３のシステムにおいて従来のデータ駆動型処理装置１に
代替して設けられる。図３のデータ駆動型処理装置１０
と図１４の従来のデータ駆動型処理装置１と比較し異な
る点は、データ駆動型処理装置１０がデータ駆動型処理
装置１の演算部１４および内蔵メモリ１５に代替して演
算部１４１および累算メモリ１５１を有した内蔵メモリ
１５０を備える点にある。データ駆動型処理装置１０の
他の部分はデータ駆動型処理装置１と同様であり説明を
省略する。

【００７６】図１を参照して、演算部１４１は従来の演
算部１４の構成に加えてメモリ累算命令ＡＣＣＭＣを実
行するＡＣＣＭＣ回路６８を追加実装している。演算部
１４１はＤＥＭＵＸ回路６４、分岐命令ｓｗｉｔｃｈを
実行するｓｗｉｔｃｈ回路６５、命令ｉｎｃ＿ｇｅｎを
実行するｉｎｃ＿ｇｅｎ回路６６、乗算命令ＭＵＬ３２
を実行するＭＵＬ３２回路６７、ＡＣＣＭＣ回路６８、
他の種類の演算を行なう演算回路６９〜７１、およびＭ
ＵＸ（マルチプレクサの略）回路７２を含む。

【００７７】ｓｗｉｔｃｈ回路６５、ｉｎｃ＿ｇｅｎ回
路６６およびＭＵＬ３２回路６７は従来から提供される
回路である。命令ｓｗｉｔｃｈと命令ｉｎｃ＿ｇｅｎに
ついては、後述する。

【００７８】演算部１４１にはデータパケットＰＡ１
（ＩＮ）が入力される。データパケットＰＡ１（ＩＮ）
は命令コードＣ、ノード番号Ｎ、世代番号Ｇ、およびフ
ィールド２１のデータＤとして左データＬＤおよび右デ
ータＲＤが格納されている。左データＬＤおよび右デー
タＲＤは、命令コードＣが２項演算命令などであった場
合に、発火制御部１３における待合せによって得られた
２つのオペランドデータである。ただし、命令コードＣ
が２項演算命令であっても、演算対象となる２つのオペ
ランドデータの一方が定数である場合には発火制御部１
３において定数データメモリ７３２から読出された定数
データが格納される。

【００７９】データパケットＰＡ１（ＩＮ）が演算部１
４１に入力されると、入力データパケットＰＡ１の命令
コードＣは、ＤＥＭＵＸ回路６４とＭＵＸ回路７２に与
えられる。ＤＥＭＵＸ回路６４は、与えられる命令コー
ドＣに基づいて演算回路６５〜７１のうちのいずれか１
つを選択して、選択した回路に該入力データパケットＰ
Ａ１（ＩＮ）を与える。演算回路７１およびＡＣＣＭＣ
回路６８は必要に応じて内蔵メモリ１５０をアクセスす
る。各演算回路は、与えられるデータパケットＰＡ１
（ＩＮ）の内容を、対応の命令コードＣに基づいて演算
し、その演算結果をフィールド２１に格納したデータパ
ケットＰＡ１（ＩＮ）をＭＵＸ回路７２に与える。

【００８０】ＭＵＸ回路７２は与えられる命令コードＣ
に基づいて、演算回路６５〜７１のいずれか１つの出力
を選択して入力する。そして、入力したデータパケット
はＰＡ１（ＯＵＴ）として出力されて、プログラム記憶
部１６に与えられる。

【００８１】データパケットＰＡ１（ＯＵＴ）は命令コ
ードＣ、ノード番号Ｎ、世代番号Ｇおよびフィールド２
１においてデータＤおよび真偽フラグＦＬを格納する。

【００８２】真偽フラグＦＬは、命令ｓｗｉｃｈを含む
分岐命令の実行結果によって出力される１ビットのフラ
グデータである。命令ｓｗｉｔｃｈによる判定結果が
「真」のときは真偽フラグＦＬに１が設定され、「偽」
のときには０が設定される。分岐命令以外の命令では、
真偽フラグＦＬには「真」を表わす１が常に出力され
る。この真偽フラグＦＬによって次位の命令コードＣと
ノード番号Ｎとがプログラム記憶部１６のプログラムメ
モリ１６１から読出される。つまり、命令ｓｗｉｔｃｈ
の次に実行される命令として真偽フラグＦＬの値によっ
て、たとえば、命令ｅｎｄ＿ｊｕｄｇｅおよび命令ｉｎ
ｃ＿ｇｅｎのいずれか一方がプログラムメモリ１６１か
ら選択的に読出される。

【００８３】図２には図１のｓｗｉｔｃｈ回路６５の構
成例が示される。ｓｗｉｔｃｈ回路６５はロジック回路
ＬＵを含む。ｓｗｉｔｃｈ回路６５はデータパケットＰ
Ａ１（ＩＮ）のフィールド２１のビットデータを参照し
た分岐機能とメモリ累算命令ＡＣＣＭＣの出力値は０で
あるかどうかの判定機能を有する。ｓｗｉｔｃｈ回路６
５では、データパケットＰＡ１（ＩＮ）のフィールド２
１のデータＤの下位１ビットの値（１または０）がロジ
ック回路ＬＵに与えられる。ロジック回路ＬＵは、与え
られる下位１ビットのデータが０のときには真偽フラグ
ＦＬとして１を出力し、１のときは真偽フラグＦＬとし
て０を出力する。したがって、真偽フラグＦＬが１のと
きは、メモリ累算命令ＡＣＣＭＣの実行結果として出力
値０が得られたことが判定される。また入力データパケ
ットＰＡ１（ＩＮ）のフィールド２１のデータは出力デ
ータパケットＰＡ１（ＯＵＴ）のフィールド２１のデー
タＤとして格納される。

【００８４】本実施の形態では演算対象となる多倍精度
データを、データ駆動型処理装置１０をフローするデー
タパケットのフィールド２１に格納可能なビット長を有
した複数のデータに分割する。仮に、１０２４ｂｉｔの
多倍精度データは３２ｂｉｔの３２個のデータに分割さ
れると想定する。この分割の様子が図４（Ａ）と（Ｂ）
に示される。図４（Ａ）の１０２４ｂｉｔの多倍精度デ
ータＡは、図４（Ｂ）の３２ｂｉｔのデータＡ［０］〜
Ａ［３１］に分割される。データＡ［０］〜Ａ［３１］
のそれぞれは、対応するそれぞれのデータパケットＰＡ
１のフィールド２１に格納されるとともに、データＡ
［ｊ］（ただしｊ＝０、１、２、…、３１）が多倍精度
データＡにおけるいずれの桁（ビット）の位置に対応す
るかを示すｊの値に相当する情報がフィールド２０の一
部として格納される。ただし、フィールド２０への正確
な格納方法は実際の演算の形態に依存する。

【００８５】このようにして１０２４ｂｉｔの多倍精度
データＡは、３２個のデータパケットＰＡ１の集合とし
て表現される。図４（Ｂ）の３２個のデータパケットＰ
Ａ１それぞれについては、フィールド２１に格納される
データＡ［０］〜Ａ［３１］のそれぞれのみが示され
て、他のフィールドのデータは省略されている。

【００８６】図５（Ａ）と（Ｂ）は、累算メモリ１５１
の領域における多倍精度データの格納例を説明する図で
ある。内蔵メモリ１５０の累算メモリ１５１の領域は、
多倍精度データの演算の中間結果や最終結果を格納する
ためのメモリとしてアクセスされる。累算メモリ１５１
の領域は、多倍精度データを演算することが可能なビッ
ト長を有したメモリワード単位に分割される。仮に、２
０４８ｂｉｔの多倍精度データの演算を想定すると、こ
の多倍精度データは、３２ｂｉｔ長の６４個のデータに
分割されて累算メモリ１５１の領域に格納される。この
様子が図５（Ａ）と（Ｂ）に示される。

【００８７】図５（Ａ）の２０４８ｂｉｔの多倍精度デ
ータＣは、図５（Ｂ）のような３２ｂｉｔのデータＣ
［０］〜Ｃ［６３］へと分割された後に、これらデータ
は累算メモリ１５１のアドレス０〜６３のメモリワード
のそれぞれに格納される。データＣ［ｈ］（ｈ＝０、
１、２、…、６３）が多倍精度データＣのうちのいずれ
の桁（ビット）に相当するかを示すｈの値に相当する情
報は、アドレス０〜６３に相当する。ここでいうアドレ
スは、あるオフセットを基準（アドレス０）として相対
値として与えられる。このようにして２０４８ｂｉｔの
多倍精度データＣは累算メモリ１５１では６４個のメモ
リワードの列として表現される。

【００８８】また、６４個のメモリワードの列は２０４
８ｂｉｔの記憶領域を有する累算器として機能させるこ
とが所望されるが、これらのメモリワード列は、６４個
の全く独立した３２ｂｉｔ長のメモリワードの集合にす
ぎない。しかしながら、メモリを用いた累算は、データ
パケットＰＡ１のフィールド２１の３２ｂｉｔ長のデー
タＤとメモリの３２ｂｉｔ長の１メモリワードとを対象
にして行なわれるので、前述した６４個のメモリワード
を多倍精度データの累算器として機能させるには、３２
ｂｉｔ単位の累算時に生じる桁あふれ、すなわちオーバ
ーフローまたはアンダーフローを、次位のアドレスのメ
モリワードに反映させなければならない。

【００８９】言換えると、「データＤ（３２ｂｉｔ）＋
所定メモリワードに格納されたデータ（３２ｂｉｔ）」
の結果値が３２ｂｉｔで表現できる値を超えてオーバー
フローした場合、所定メモリワードには結果値の下位３
２ｂｉｔだけが格納されて、所定メモリワードの次位の
アドレスのメモリワードの内容にオーバーフローした１
が加算されなければならない。逆に「データＤ（３２ｂ
ｉｔ）−所定メモリワードに格納されたデータ（３２ｂ
ｉｔ）」の結果値が負の値になってアンダーフローした
場合、所定メモリワードには結果値の下位３２ｂｉｔだ
けが格納され、所定メモリワードの次位のアドレスのメ
モリワードの内容からアンダーフローした１を引かなけ
ればならない。そのために、データ駆動型処理装置１０
の演算部１４１は、図１に示されるようにオーバーフロ
ーおよびアンダーフローを処理するためのメモリアクセ
スに関する命令を実行するための機能を、従来の機能に
追加して備えている。

【００９０】図６は、メモリワードでオーバフローが生
じた例を説明する図である。図６ではデータパケットＰ
Ａ１については、フィールド２１の内容のみが示され
て、他のフィールドの図示は省略されている。仮に、デ
ータパケットＰＡ１のデータＤを、ある指定アドレスの
メモリワードの内容に累算し、その結果オーバーフロー
が生じた場合の例が図６に示される。

【００９１】図６において、メモリ累算命令ＡＣＣＭＣ
を用いずに、「データパケットＰＡ１のフィールド２１
のデータＡ［ｘ］はメモリワードＣ［ｘ］へ累算して、
その累算結果をメモリワードＣ［６３］〜Ｃ［０］へと
反映させる」という命令セットを用いて処理することを
想定すると処理の流れは次のようになる。

【００９２】（Ａ１）のデータパケットＰＡ１の世代番
号Ｇから累算メモリ１５１のアドレスを算出する。たと
えば、アドレスｘが算出されたとする。

【００９３】（Ａ２）メモリワードＣ［ｘ］の値を累
算メモリ１５１から読出す。（Ａ３）上述の（Ａ２）の結果とデータＡ［ｘ］を加
算し加算結果Ｄとする（Ｄ→Ｃ［ｘ］、Ａ［ｘ］）。

【００９４】（Ａ４）上述の（Ａ３）の加算結果の下
位３２ｂｉｔのデータを累算メモリ１５１のアドレスｘ
へ書込む。

【００９５】（Ａ５）上述の（Ａ３）の加算結果が３
２ｂｉｔで表現できる値を超えていないか（オーバーフ
ローしていないか）を判定し、オーバーフローしていな
ければ終了し、オーバーフローしていれば次の処理に移
行する。

【００９６】（Ｂ１）次のメモリアドレスｘ＋１を算
出する。（Ｂ２）メモリワードＣ［ｘ＋１］を累算メモリ１５
１から読出す。

【００９７】（Ｂ３）上述の（Ｂ２）の読出値に１を
加算して、加算結果をＤとする（Ｄ→Ｃ［ｘ＋１］＋
１）。

【００９８】（Ｂ４）上述の（Ｂ３）の加算結果の下
位３２ｂｉｔのデータを累算メモリ１５１のアドレスｘ
＋１へ書込む。

【００９９】（Ｂ５）上述の（Ｂ３）の加算結果が３
２ｂｉｔで表現できる値を超えていないか（オーバーフ
ローしていないか）判定し、オーバーフローしていなけ
れば処理を終了し、オーバーフローしていればｘ＋１に
１を加えてｘ＋２として、上述の（Ｂ１）〜（Ｂ５）の
処理を繰返す。このオーバーフローは、Ｃ［ｘ＋１］＝
０ｘｆｆｆｆである限り発生する。

【０１００】このような不定回数のオーバーフローが連
続して発生する可能性を考慮すると、１回の実行で不定
回数のメモリアクセスを指示するような命令を処理する
ためのハードウェアを従来の演算部１４に実装すること
は、困難であった。なぜならば、上述の処理は加算結果
がオーバーフローしなくなるまで繰返されて、繰返しの
回数は、連続するオーバーフローの回数に依存している
ため、この命令実行に要する時間は毎回異なるから、命
令実行に要する時間が固定でない。また、データ駆動型
処理装置は周回パイプライン構造になっており、データ
パケットＰＡ１がこのパイプライン内をフローする場合
には、全体においてデータパケットＰＡ１の処理が滞り
なく進行して、前段のパイプラインが空き状態にならな
いとデータパケットＰＡ１は前段へは進めない。したが
って、この命令で長い実行時間がかかると、該命令の実
行はパイプラインの輻輳を引き起こすかもしれない。こ
の輻輳を回避するのにはパイプラインの経路の分岐や緩
衝バッファを追加するなどの特別な工夫が必要となる。

【０１０１】また演算部のパイプラインにおいて、上述
のような累算命令と他の命令とに基づいて、データパケ
ットＰＡ１の経路を分岐させたとしても、パイプライン
の経路を、すなわち内蔵メモリ１５の一部を累算器とし
て用いることを想定しているから、上述のように内蔵メ
モリ１５に関する不定回数のメモリアクセス実行中は他
の命令によるメモリアクセスが妨げられるから、全体と
しての処理速度は低下する。

【０１０２】そこで、本実施の形態では、上述したパイ
プラインにおける輻輳および処理速度低下というデメリ
ットを回避するために、次のようになされる。つまり、
オーバフローが生じた場合には、累算メモリ１５１内の
上位のメモリワードにオーバフローした値（１）を累算
するのではなくて、データパケットＰＡ１のフィールド
２１にデータＤとして格納して該データパケットＰＡ１
を出力するというメモリ累算命令ＡＣＣＭＣが提案され
る。

【０１０３】図７は、本実施の形態に係るメモリ累算命
令ＡＣＣＭＣを説明する図である。図７では、データパ
ケットＰＡ１は、フィールド２１に格納されたデータＤ
の値のみが示されて、他のフィールドの内容の図示は省
略されている。図７においては処理ＯＰ１とＯＰ２が実
行されている。まず、処理ＯＰ１においては、演算部１
４１に命令コードＣとして“ＡＣＣＭＣ”を、データＤ
としてＡ[ｘ]を、世代番号Ｇとしてｘを格納したデータ
パケットＰＡ１が与えられると、メモリ累算命令ＡＣＣ
ＭＣに基づいて、累算メモリ１５１のアドレスｘのメモ
リワードＣ[ｘ]の内容が読み出されて、その値にデータ
パケットＰＡ１のデータＡ[ｘ]が累算されて、オーバフ
ローを含まない結果はメモリワードＣ[ｘ]に書き込まれ
る。この累算で生じたオーバフローの値（＋１）を用い
て、データパケットＰＡ１のフィールド２１の内容はＡ
[ｘ＋１]に書き換えられて、該データパケットは演算部
１４１から出力される。

【０１０４】該データパケットＰＡ１は該装置のパイプ
ラインを１回以上周回した後に、演算部１４１に与えら
れると、処理ＯＰ２において、同様にして該データパケ
ット中のメモリ累算命令ＡＣＣＭＣに従い累算メモリ１
５１の次のアドレスｘ＋１のメモリワードＣ[ｘ＋１]の
内容が読み出されて、読み出された内容と該データパケ
ットのデータＡ[ｘ＋１]（Ａ[ｘ＋１]＝１）とが累算さ
れて、累算結果は、累算メモリ１５１のアドレスｘ＋１
のメモリワードＣ[ｘ＋１]に書き込まれる。これによ
り、累算と、累算により生じたオーバフロー処理とを実
行することができる。

【０１０５】上述したように、連続してオーバーフロー
が発生しても、１つの累算命令実行当り、累算メモリ１
５１に関して読出と書込をそれぞれ１回行なうだけでよ
い。また、上述したように連続的にオーバーフローが発
生して複数回の累算命令が連続的に実行されることにな
ったとしても、データ駆動型処理装置におけるパイプラ
イン処理による処理の並列性の特徴により、演算に関す
る遅延時間を抑制することができる。

【０１０６】次に、上述した本実施の形態の特徴に基づ
いた具体的な動作を以下に説明する。

【０１０７】ここで１０２４ｂｉｔの多倍精度データＡ
と１０２４ｂｉｔの多倍精度データＢとを乗算して２０
４８ｂｉｔの多倍精度データＣを得る演算処理を例示し
て説明する。

【０１０８】図３のデータ駆動型処理装置１０のパイプ
ラインを周回する図１５（Ｂ）のデータパケットＰＡ１
は３２ｂｉｔのフィールド２１を有し、累算メモリ１５
１では１メモリワード当り３２ｂｉｔで構成されるもの
とする。

【０１０９】初期状態として多倍精度データＡとＢは累
算メモリ１５１に格納される。累算メモリ１５１では、
多倍精度データＡはメモリワードＡ［０］〜Ａ［３１］
の３２ワードに格納され、多倍精度データＢはメモリワ
ードＢ［０］〜Ｂ［３１］の３２ワードに格納される。
乗算が実行されるときには、メモリワードＡ［ｉ］とメ
モリワードＢ［ｊ］（ｉ、ｊ＝０，１，２，３…，３
１）が累算メモリ１５１から必要に応じて読出されて演
算に使用される。そして、乗算結果である２０４８ｂｉ
ｔの多倍精度データＣは、累算メモリ１５１のメモリワ
ードＣ［０］〜Ｃ［６３］の６４ワードで構成される。
演算においては中間結果がメモリワードＣ［０］〜Ｃ
［６３］の６４ワードにその都度累算される。したがっ
て、累算処理終了時点でのメモリワードＣ［０］〜Ｃ
［６３］の６４ワードにより最終の乗算結果が示され
る。

【０１１０】上述したＡ＊Ｂの乗算処理を説明する。ま
ず、乗算命令ＭＵＬ３２が定義される。乗算命令ＭＵＬ
３２はＡ＊Ｂについての各部分積データ（６４ｂｉｔ）
を求め、該部分積データを上位３２ｂｉｔのデータと下
位３２ｂｉｔのデータに分けて、分けられたそれぞれの
データを各データパケットのフィールド２１に格納して
出力することを指示する。

【０１１１】また、ここでは上述したメモリ累算命令Ａ
ＣＣＭＣが定義される。演算部１４１では乗算命令ＭＵ
Ｌ３２の実行後、メモリ累算命令ＡＣＣＭＣが実行され
る。メモリ累算命令ＡＣＣＭＣが実行されることによ
り、データパケットＰＡ１の世代番号Ｇに基づいて累算
メモリ１５１の所定アドレスが算出されて、該所定アド
レスによりアドレス指定される累算メモリ１５１のメモ
リワードから読出された値に、該データパケットＰＡ１
のフィールド２１のデータＤを累算する。そしてこの累
算によりオーバーフローおよびアンダーフローした値を
除く累算結果を該所定アドレスに対応する累算メモリ１
５１のメモリワードに書込むとともに、オーバーフロー
およびアンダーフローのいずれかが発生すればその値
（＋１または−１）を該データパケットＰＡ１のフィー
ルド２１のデータＤに代替して格納して、該データパケ
ットＰＡ１を出力する。

【０１１２】次に上述したＡ＊Ｂの乗算処理を、上述し
た乗算命令ＭＵＬ３２およびメモリ累算命令ＡＣＣＭＣ
を用いて説明する。図８には本実施の形態によるＡ＊Ｂ
の乗算式が示されている。図示されるように多倍精度デ
ータＡ（１０２４ｂｉｔ）、多倍精度データＢ（１０２
４ｂｉｔ）の乗算は、３２ｂｉｔ同士の乗算結果（以
下、部分積という）の総和であって図８の式（１）のよ
うに示される。図８の式（１）において、＜＜（３２＊
１）は左へ３２ビットシフトとすることを示す。また＜
＜（３２＊３）は左へ３２×３ビットシフトすることを
示す。

【０１１３】図８の式（１）の各部分積Ａ［ｉ］＊Ｂ
［ｊ］は６４ｂｉｔ長を有する。これを、３２ｂｉｔ長
のフィールド２１を有するデータパケットＰＡ１２つで
表現する。この部分積は、演算部１４１のＭＵＬ３２回
路６７において乗算命令ＭＵＬ３２が実行されることに
より求められる。乗算命令ＭＵＬ３２が実行されると、
部分積Ａ［ｉ］＊Ｂ［ｊ］が求められて、該部分積は上
位３２ｂｉｔのデータと下位３２ｂｉｔのデータに分け
られて、各データをデータＤとしてフィールド２１に格
納したデータパケットがそれぞれ出力される。

【０１１４】図９は、本実施の形態に係る乗算命令ＭＵ
Ｌ３２を用いた処理フローチャートである。図９では、
３２ビットのデータＸ（Ａ［ｉ］）をデータＤとして格
納したデータパケットＰＡ１と３２ビットのデータＹ
（Ｂ［ｊ］）をデータＤとして格納したデータパケット
ＰＡ１とが発火制御部１３にて発火して、命令コードＣ
として“ＭＵＬ３２”を、データＤとしてデータＸ（Ａ
［ｉ］）とＹ（Ｂ［ｊ］）とが格納されたデータパケッ
トＰＡ（ＩＮ）が演算部１４１に与えられる。ただし、
データパケットＰＡ（ＩＮ）ではフィールド２１および
２２の内容のみが示されて、他のフィールドの図示は省
略される。

【０１１５】そして、演算部１４１のＭＵＬ３２回路６
７において、与えられたデータパケットＰＡ（ＩＮ）が
入力されて、入力データパケットＰＡ（ＩＮ）のフィー
ルド２２に格納されていた乗算命令ＭＵＬ３２が実行さ
れる（ステップＳ１）。実行により得られた乗算結果の
値Ｚ（Ａ［ｉ］＊Ｂ［ｊ］）は上位の３２ｂｉｔのデー
タＺｕ（Ａ［ｉ］＊Ｂ［ｊ］＿upper）と下位の３２ｂ
ｉｔのデータＺｌ（Ａ［ｉ］＊Ｂ［ｊ］#lower）に分割
されて、分割により得られた２つのデータは２つのデー
タパケットＰＡ（ＯＵＴ）のフィールド２１にデータＤ
としてそれぞれ格納されて、２つのデータパケットＰＡ
（ＯＵＴ）は演算部１４１から出力される（ステップＳ
２）。ただし、データパケットＰＡ（ＯＵＴ）ではフィ
ールド２１の内容のみが示されて、他のフィールドの図
示は省略される。

【０１１６】データパケットＰＡ１が部分積Ａ［ｉ］＊
Ｂ［ｊ］に関するデータパケットの場合には、世代番号
Ｇのフィールド２０には、前述したように、添字ｉとｊ
が格納される。具体的には、世代番号Ｇのフィールド２
０には２つの領域が含まれて、一方の領域には“ｉ”
が、もう一方の領域には“ｊ”が格納されることによっ
て部分積Ａ［ｉ］＊Ｂ［ｊ］の識別が行なわれる。そし
て、世代番号Ｇのフィールド２０の２つの領域から部分
積Ａ［ｉ］＊Ｂ［ｊ］を累算するためのメモリワードの
アドレスを求めることができる。つまり、データＡ
［ｉ］＊Ｂ［ｊ］＿lowerについては、これら２つの領
域の値を加えるだけで、累算に用いられるメモリワード
のアドレス（ｉ＋ｊ）が得られ、データＡ［ｉ］＊Ｂ
［ｊ］＿upperについては、これら２つの領域の値の加
算値にさらに１を加えることにより累算に用いられるメ
モリワードのアドレス（ｉ＋ｊ＋１）が得られる。

【０１１７】図１０は、本実施の形態に係る部分積毎の
処理内容（乗算と累算）を示す処理フローチャートであ
る。なお、図１０では、累算により、桁あふれは生じて
いないと想定している。図９の乗算命令ＭＵＬ３２が実
行された後、図９のデータパケットＰＡ（ＯＵＴ）は、
パイプラインを周回することにより、プログラム記憶部
１６において対応の命令コードＣが累算命令ＡＣＣＭＣ
に更新されて、再度、演算部１４１に与えられる。

【０１１８】演算部１４１のＡＣＣＭＣ回路６８に、与
えられる２つのデータパケットＰＡ（ＩＮ）は、データ
ＤとしてデータＡ［ｉ］＊Ｂ［ｊ］＿upperとデータＡ
［ｉ］＊Ｂ［ｊ］#lowerとをそれぞれ格納しており、命
令コードＣとして“ＡＣＣＭＣ”を格納しており、世代
番号Ｇとしてｉとｊが格納されている。演算部１４１の
ＡＣＣＭＣ回路６８は、２つのデータパケットＰＡ（Ｉ
Ｎ）を入力して、データＡ［ｉ］＊Ｂ［ｊ］＿upperを
格納したデータパケットＰＡ（ＩＮ）の世代番号Ｇに基
づいて、累算メモリ１５１のアドレス（ｉ＋ｊ＋１）の
メモリワードＣ［ｉ＋ｊ＋１］の内容を読出して（ステ
ップＳ１ａ）、読出された値に該データパケットＰＡ
（ＩＮ）に格納されているデータＡ［ｉ］＊Ｂ［ｊ］＿
upperを累算して、その結果値を累算メモリ１５１のア
ドレス（ｉ＋ｊ＋１）のメモリワードＣ［ｉ＋ｊ＋１］
に書き込む（ステップＳ２ａ）。

【０１１９】また、データＡ［ｉ］＊Ｂ［ｊ］#lowerを
格納したデータパケットＰＡ（ＩＮ）の世代番号Ｇに基
づいて、累算メモリ１５１のアドレス（ｉ＋ｊ）のメモ
リワードＣ［ｉ＋ｊ］の内容を読出して（ステップＳ１
ｂ）、読出された値に該データパケットＰＡ（ＩＮ）に
格納されているデータＡ［ｉ］＊Ｂ［ｊ］＿lowerを累
算されて、その結果値を累算メモリ１５１のアドレス
（ｉ＋ｊ）のメモリワードＣ［ｉ＋ｊ］に書込む（Ｓ２
ｂ）。

【０１２０】図１０で示されるように、部分積を求める
対象となっているデータＡ［ｊ］、データＢ［ｊ］の添
字ｉとｊを変化させていくことで、累算メモリ１５１で
指定されるメモリワードのアドレスも同様に変更され
て、３２ビット単位でシフト演算が行なわれていること
になる。このことは図８の式（１）の部分積の和を表わ
す中で、３２ｂｉｔずつシフトすることに相当する。

【０１２１】このように、累算メモリ１５１を用いて、
求めた各部分積が累算されることで最終的に乗算結果Ｃ
（２０４８ｂｉｔ）が求められることになる。

【０１２２】図１１は、本実施の形態に係るメモリ累算
命令ＡＣＣＭＣを説明するためのフローチャートであ
る。なお、図においては、データパケットＰＡ（ＩＮ）
およびＰＡ（ＯＵＴ）については、フィールド２１と２
０のみが示されて他のフィールドの図示は省略されてい
る。メモリ累算命令ＡＣＣＭＣが実行される際に、まず
フィールド２１に３２ｂｉｔのデータＸ（部分積Ａ
［ｉ］＊Ｂ［ｊ］＿lowerまたは部分積Ａ［ｉ］＊Ｂ
［ｊ］＿upper）とフィールド２０の世代番号Ｇを格納
したデータパケットＰＡ（ＩＮ）が演算部１４１に与え
られる。データパケットＰＡ（ＩＮ）の世代番号Ｇのフ
ィールド２０は、前述したように部分積Ａ［ｉ］＊Ｂ
［ｊ］を特定するためのｉを格納する領域３６とｊを格
納する領域３７とを含む。演算部１４１のＡＣＣＭＣ回
路６８は与えられるデータパケットＰＡ（ＩＮ）を入力
して、該入力データパケットＰＡ（ＩＮ）のフィールド
２２のメモリ累算命令ＡＣＣＭＣに従って、フィールド
２０の内容を用いてｉ＋ｊ＋ｋが算出される（ステップ
Ｓ１）。なお、ｋは累算メモリ１５１の領域中のメモリ
ワードＣ［０］を決めるための３２ｂｉｔの値（オフセ
ット値）であって、定数である。

【０１２３】そして、累算メモリ１５１のアドレスｉ＋
ｊ＋ｋのメモリワードＣ［ｉ＋ｊ］に格納されているデ
ータＭが読出されて（ステップＳ２）、読み出されたデ
ータＭ（３２ｂｉｔ）を左入力データとし、データパケ
ットＰＡ（ＩＮ）のフィールド２１のデータＸを右入力
データとして加算が行なわれて、３３ｂｉｔの加算結果
Ｚが得られると（ステップＳ３）、加算結果Ｚは下位３
２ｂｉｔのデータと上位１ビットのデータとに分割され
て（ステップＳ４）、下位３２ｂｉｔのデータは累算メ
モリ１５１のアドレスｉ＋ｊ＋ｋのメモリワードＣ［ｉ
＋ｊ］に書込まれて（ステップＳ５）、上位１ｂｉｔの
データはデータパケットＰＡ（ＩＮ）のフィールド２１
にデータＸに代替して格納されて該データパケットＰＡ
（ＩＮ）はデータパケットＰＡ（ＯＵＴ）として演算部
１４１から出力される。

【０１２４】データパケットＰＡ（ＯＵＴ）にデータＤ
として格納された加算結果の上位１ｂｉｔのデータは加
算結果によるオーバーフローの有無を表わし、この値が
“１”であればオーバーフローが発生したことを、
“０”であればオーバーフローが発生していないことを
示す。そして、このデータパケットＰＡ（ＯＵＴ）のフ
ィールド２０には、データパケットＰＡ（ＩＮ）のフィ
ールド２０の値ｉおよびｊのいずれかが１つ増加され
て、ｉ＋ｊ＋ｋ＋１が格納される。これは、アンダーフ
ローが生じた場合でも同様にして行なうことができる。

【０１２５】ここで、仮にオーバーフローのデータパケ
ットＰＡ１が出力された場合、これを累算メモリ１５１
へ反映させるためにオーバーフローした値をデータＤと
して格納したデータパケットを、パイプラインを周回さ
せて、再度、演算部１４１のＡＣＣＭＣ回路６８に与え
て、該データパケットの内容についてメモリ累算命令Ａ
ＣＣＭＣを、同様にして実行する。この実行により、さ
らにオーバーフローが発生すれば累算メモリ１５１のさ
らに１つ上のアドレスに対してメモリ累算命令ＡＣＣＭ
Ｃが実行される。このような処理がオーバーフローが生
じなくなるまで継続される。

【０１２６】上述した乗算命令ＭＵＬ３２に従う乗算と
メモリ累算命令ＡＣＣＭＣに従う累算処理を図８の式
（１）のすべての部分積について実行すると、多倍精度
データＡとＢの乗算終了は、すべての部分積に対するメ
モリ累算命令ＡＣＣＭＣの出力として“０”が得られた
か、つまりオーバーフローが生じなくなったかどうかで
判定できる。これは、図８の式（１）の部分積の総数
（１０２４個）に対応してメモリ累算命令ＡＣＣＭＣの
出力値“０”をデータＤとして格納したデータパケット
ＰＡ１が２０４８個（＝１０２４×２）だけカウントさ
れたことにより判定される。

【０１２７】図１２は、本実施の形態による多倍精度デ
ータ同士の乗算に関する全体の処理を示すフローチャー
トである。図の処理フローは、ｉｎｉｔ＿ｌｏａｄモジ
ュール４２、ｉｎｉｔ＿ｓｔｒｅａｍモジュール４３、
モジュール４４、ｎｅｘｔ＿ｓｔｒｅａｍモジュール４
５、ｉｎｃ＿ｇｅｎモジュール４６と４９、ＡＣＣＭＣ
モジュール４７、ｓｗｉｔｃｈモジュール４８およびｅ
ｎｄ＿ｊｕｄｇｅモジュール５０を含む。

【０１２８】ｉｎｉｔ＿ｌｏａｄモジュール４２では、
入力データＡ［０］〜Ａ［３１］と入力データＢ［０］
〜Ｂ［３１］を累算メモリ１５１に格納する。次のｉｎ
ｉｔ＿ｓｔｒｅａｍモジュール４３では、世代番号の領
域３７の値（ｊ）を０として、累算メモリ１５１のメモ
リワードＡ［０］〜Ａ［３１］およびＢ［ｊ］の計３３
個が累算メモリ１５１から読出される。次のモジュール
４４はＭＵＬ３２回路６７に相当して、乗算命令ＭＵＬ
３２を前述のように実行する。ＭＵＬ３２命令は図９に
示された命令である。

【０１２９】次のｎｅｘｔ＿ｓｔｒｅａｍモジュール４
５では、入力データパケットＰＡ１のフィールド２１の
領域３７の値（ｊ）に１を加えて、累算メモリ１５１の
メモリワードＡ［０］〜Ａ［３１］とＢ［ｊ］の計３３
個を累算メモリ１５１から読出す。上述したモジュール
４４と４５の処理を、ｊ＝０〜３１まで順に繰返すこと
で、すべての部分積が求められる。これらの部分積の値
の上位３２ｂｉｔのデータと下位３２ｂｉｔのデータと
は、２つのデータパケットＰＡ１のそれぞれのフィール
ド２１に格納されて、これら２つのデータパケットＰＡ
１はｉｎｃ＿ｇｅｎモジュール４６に出力される。

【０１３０】次にｉｎｃ＿ｇｅｎモジュール４６はｉｎ
ｃ＿ｇｅｎ回路６６に相当して、上位３２ｂｉｔのデー
タを格納しているデータパケットＰＡ１の領域３７の値
（ｊ）に１を加える。一方下位３２ｂｉｔのデータを格
納しているデータパケットＰＡ１の領域３７の値はその
ままである。これは、前述したように累算メモリ１５１
のメモリワードのアドレスに対応させるためになされ
る。

【０１３１】次にメモリ累算命令ＡＣＣＭＣのモジュー
ル４７は、ＡＣＣＭＣ回路６８に相当して、図１１に示
される処理を実行する。なお、図１１の定数ｋにはメモ
リワードＣ［０］のアドレスが格納される。

【０１３２】次のｓｗｉｔｃｈモジュール４８は、ｓｗ
ｉｔｃｈ回路６５に相当して、モジュール４７から出力
されたデータパケットＰＡ１を順次入力して、オーバー
フローの値を格納したデータパケットＰＡ１とそうでな
いパケットＰＡ１とを識別して、オーバーフローの値を
格納したデータパケットＰＡ１はｉｎｃ＿ｇｅｎモジュ
ール４９に出力して、そうでないデータパケットＰＡ１
はｅｎｄ＿ｊｕｄｇｅモジュール５０に出力する。この
出力の分岐は次のようになされる。つまり、図２のロジ
ック回路ＬＵが、与えられる下位１ビットのデータが０
のときには真偽フラグＦＬとして１を出力し、１のとき
は真偽フラグＦＬとして０を出力するので、真偽フラグ
ＦＬが１のときは、メモリ累算命令ＡＣＣＭＣの実行結
果として出力値０が得られたことがわかる。そして、ｓ
ｗｉｔｃｈモジュール４８から出力された真偽フラグＦ
Ｌの値に基づくプログラムメモリ１６１からの次位の命
令コードＣの読み出しは、命令ｉｎｃ＿ｇｅｎおよび命
令ｅｎｄ＿ｊｕｄｇｅのいずれか一方の選択的な読出し
となるから、上述した出力の分岐が実現される。

【０１３３】ｉｎｃ＿ｇｅｎモジュール４９は、ｉｎｃ
＿ｇｅｎ回路６６に相当してモジュール４６と同等の機
能が行なわれる。ｅｎｄ＿ｊｕｄｇｅモジュール５０で
はオーバーフローを示さない値０を持つデータパケット
ＰＡ１の入力がカウントされて、カウント結果が２０４
８になったとき、演算処理の終了信号ＥＮＤが出力され
る。このときの累算メモリ１５１内のメモリワードＣ
［０］〜Ｃ［６３］で示される多倍精度データＣの値
が、多倍精度データＡ＊Ｂの最終の乗算結果を示す。

【０１３４】ここで、上述した実施の形態から得られる
効果について説明する。まず多倍精度データＡおよびＢ
を複数の単精度データＡ〔ｉ〕およびＢ〔ｊ〕に分割
し、累算メモリ１５１の固定長のメモリワードの集合を
多倍精度データとして扱うことによって、データ駆動型
処理装置１０において多倍精度データ専用の累算器を特
別に容易しなくても通常のメモリワードで多倍精度デー
タの累算器の役割を果たすことができる。

【０１３５】また多倍精度データの演算を単精度データ
単位の互いに独立な演算要素に分割することによってデ
ータについての演算をすべて同時並列に実行できるか
ら、データ駆動型処理装置１０の並列処理能力を最大限
に発揮することができる。データ駆動型処理方式は、複
数の演算の同時並列処理能力に加えてパイプライン並列
処理という特徴を有しているから、多倍精度データの乗
算処理において、累算メモリ１５１を用いたデータの累
算時にオーバーフローが連続的に発生しても連続発生す
るオーバーフローによる処理の遅延量は他の単精度デー
タの処理によって抑制される。つまりオーバーフローの
発生度合いは多倍精度データ演算処理全体にかかる所要
時間（レスポンス）にほとんど影響しない。

【０１３６】さらに多倍精度データのデータ長に関して
論理的な制約がない。データ駆動型処理装置１０の通常
のメモリワードやデータパケットＰＡ（ＰＡ１）が利用
されるから物理的に資源の許す限りどんなに長いビット
長のデータであっても演算処理できる。しかも、ビット
長が異なる多種類の多倍精度データを同時に扱うことも
できる。

【０１３７】上述の実施の形態では多倍精度データの乗
算の例を示したが加算／減算／除算のいずれについても
同様の処理方式を採用することができる。減算と除算の
場合は図１１の累算メモリ１５１の内容への累算とオー
バーフロー出力命令の代わりに、累算メモリ１５１の内
容からの減算とアンダーフロー出力命令を導入すればよ
い。

【０１３８】また、図１２のデータフローグラフよりメ
モリ累算命令ＡＣＣＭＣを用いた多倍精度データの演算
処理では累算メモリ１５１の３２ｂｉｔのデータを１回
加算する際には、メモリ累算命令ＡＣＣＭＣ、分岐命令
ｓｗｉｔｃｈおよび命令ｉｎｃ＿ｇｅｎの３命令が実行
される。したがって、この加算実行時に、ｎ回のオーバ
ーフローが発生すると、３＊ｎ＋１命令分の実行時間が
かかる。

【０１３９】そこで、メモリ累算命令ＡＣＣＭＣを用い
ずに前述したステップ（Ａ１）〜（Ｂ５）を実現する命
令セットを実装する方が、累算メモリ１５１を用いた１
回の加算処理を１命令時間で実行できてよいようにも見
える。ところが図８の式（１）のような演算を実行する
場合には、パイプライン型並列処理能力を十分に利用し
て、式（１）の複数の部分積が同時並列に計算される。
この場合には、図３の周回パイプラインにおいて同時に
多くのデータパケットＰＡ１がフローする。したがって
前述したようなパイプラインの輻輳および処理速度低下
というデメリットが生じて、データ駆動型処理装置にお
けるパイプライン型並列処理能力を十分に発揮できなく
なる。

【０１４０】一方、メモリ累算命令ＡＣＣＭＣを用いて
同様な処理を行う場合には、たとえ累算メモリ１５１へ
の加算１回について３＊ｎ＋命令分の実行時間がかかっ
たとしても、多倍精度データの演算処理全体はパイプラ
イン型並列処理によって実効的な処理性能は飛躍的に向
上する。

【０１４１】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。

【０１４２】

【発明の効果】この発明に係るデータ駆動型処理装置お
よびデータ処理方法によれば、多倍精度データについて
所定演算処理が行なわれる際には、多倍精度データはｋ
ビット長単位に分割された複数の単精度データとして、
そしてメモリのｋビット長のｎ個の領域の集合は該多倍
精度データとして扱われる。それゆえに、データ駆動型
処理装置において多倍精度データ専用の累算器を特別に
用意しなくても通常のメモリの領域で多倍精度データの
累算器の役割を果たすことができるから、多倍精度デー
タについて所定演算処理が行なわれる際でも、データ駆
動方処理装置の小型化は阻害されない。

【０１４３】また多倍精度データの所定演算では、多倍
精度データはｋビット長の単精度データ単位の互いに独
立な演算要素に分割することによってデータについての
演算をすべて同時並列に実行できるから、データ駆動型
処理装置の並列処理能力を最大限に発揮することができ
る。

【０１４４】また、データ駆動型処理装置では、複数の
演算の同時並列処理能力に加えてパイプライン並列処理
という特徴を有しているから、多倍精度データの所定演
算処理において、メモリを用いたデータの累算時に桁あ
ふれが連続的に発生しても連続発生する桁あふれによる
処理の遅延量は他の単精度データの処理によって抑制さ
れる。つまりオーバーフローの発生度合いは多倍精度デ
ータ演算処理全体にかかる所要時間（レスポンス）にほ
とんど影響しない。

【０１４５】さらに多倍精度データのデータ長に関して
論理的な制約がない。データ駆動型処理装置の通常のメ
モリの領域やデータパケットが利用されるから、物理的
に資源の許す限りどんなに長いビット長の多倍精度デー
タであっても所定演算処理できる。しかも、ビット長が
異なる多種類の多倍精度データを同時に扱うこともでき
る。

【図面の簡単な説明】

【図１】この発明の実施の形態に係る演算部１４１の
構成を、入出力されるデータパケットとともに示す図で
ある。

【図２】図１のｓｗｉｔｃｈ回路６５の構成を入出力
されるデータとともに示す図である。

【図３】この発明の実施の形態に係るデータ駆動型処
理装置１０のブロック図である。

【図４】（Ａ）と（Ｂ）は、本実施の形態による多倍
精度データの分割を説明する図である。

【図５】（Ａ）と（Ｂ）は、累算メモリ１５１の領域
における多倍精度データの格納例を説明する図である。

【図６】メモリワードでオーバフローが生じた例を説
明する図である。

【図７】本実施の形態に係るメモリ累算命令ＡＣＣＭ
Ｃを説明する図である。

【図８】本実施の形態によるＡ＊Ｂの乗算式を示す図
である。

【図９】本実施の形態に係る乗算命令ＭＵＬ３２を用
いた処理フローチャートである。

【図１０】本実施の形態に係る部分積毎の処理内容
（乗算と累算）を示す処理フローチャートである。

【図１１】本実施の形態に係るメモリ累算命令ＡＣＣ
ＭＣを説明するためのフローチャートである。

【図１２】本実施の形態による多倍精度データ同士の
乗算に関する全体の処理を示すフローチャートである。

【図１３】従来およびこの発明の実施の形態に適用さ
れるデータ駆動型情報処理システムのブロック構成図で
ある。

【図１４】従来のデータ駆動型処理装置の構成図であ
る。

【図１５】（Ａ）と（Ｂ）は従来およびこの発明の実
施の形態に適用されるデータパケットのフィールド構成
図である。

【図１６】ノイマン型計算機においてＸ＾ＹｍｏｄＺ
の演算を実行するための処理フローチャートである。

【符号の説明】

１、１０データ駆動型処理装置、１１入出力制御
部、１２合流部、１３発火制御部、１４、１４１演
算部、１５、１５０内蔵メモリ、１５１累算メモ
リ、１６プログラム記憶部、１７分岐部、ＰＡ、Ｐ
Ａ１、ＰＡ１（ＩＮ）、ＰＡ１（ＯＵＴ）データパケ
ット。

Claims

【特許請求の範囲】

【請求項１】ｋビット長（ｋは任意の正の整数）のｎ
個（ｎは２以上の任意の整数）の領域を含むメモリを備
えたデータ駆動型処理装置であって、前記ｎ個領域に格納されたメモリデータのそれぞれを演
算処理する演算処理部をさらに備えて、前記演算処理部は、前記メモリデータと、与えられるデータパケットのデー
タフィールドに格納された前記ｋビット長のデータとを
所定演算命令に従い所定演算処理して、前記所定演算処
理の結果を、複数の前記ｋビット長のデータを分割し
て、前記分割により得られた前記複数のｋビット長のデ
ータのそれぞれを前記データフィールドに格納した複数
の前記データパケットを出力する所定演算手段と、前記所定演算手段から出力された前記複数のデータパケ
ットを入力して、入力した複数データパケットのそれぞ
れについて、該データパケットの前記データフィールドの前記ｋビッ
ト長のデータを、前記メモリの所定アドレスに対応の前
記領域のメモリデータに累積加算して、桁あふれしたデ
ータを除く累積加算結果を該領域に格納して、前記桁あ
ふれしたデータを前記データフィールドに格納した前記
データパケットを出力するデータ累積加算手段と、前記桁あふれしたデータを前記データフィールドに格納
した前記データパケットを入力して、該データパケット
の前記データフィールドの前記桁あふれしたデータを、
前記メモリにおける前記所定アドレスとは異なる上位の
所定アドレスに対応の前記領域のメモリデータに累積加
算して、桁あふれしたデータを除く累積加算結果を該領
域に格納して、前記桁あふれしたデータを前記データフ
ィールドに格納した前記データパケットを出力するあふ
れデータ累積加算手段とを有して、前記累積加算により前記所定アドレスの領域において桁
あふれしたデータが生じる間は、前記あふれデータ累積
加算手段による前記桁あふれしたデータについての前記
累積加算が繰返されることを特徴とする、データ駆動型
処理装置。
【請求項２】前記演算処理部は、前記累積加算により
前記所定アドレスの領域において桁あふれしたデータが
生じているか否か判定する桁あふれ判定手段をさらに有
して、前記桁あふれ判定手段により桁あふれしたデータが生じ
ていると判定されたことに応じて、前記あふれデータ累
積加算手段により前記桁あふれしたデータについての前
記累積加算が行なわれることを特徴とする、請求項１に
記載のデータ駆動型処理装置。
【請求項３】２個のｍ（ｍはｎ＊ｋ≧ｍを満たす任意
の整数）ビット長の多倍精度データ同士を前記所定演算
処理する場合に、一方の前記多倍精度データを前記ｋビット長ごとに分割
して得られたそれぞれのデータは、前記メモリのｎ個の
領域のそれぞれに前記メモリデータとして格納されて、他方の前記多倍精度データが前記ｋビット長ごとに分割
して得られたそれぞれのデータは、ｎ個の前記データパ
ケットのそれぞれの前記データフィールドに格納され
て、ｎ個の前記データパケットは前記所定演算手段に順
次与えられることを特徴とする、請求項１または２に記
載のデータ駆動型処理装置。
【請求項４】前記データパケットは、該データパケッ
トを一意に識別するための世代番号が格納される世代フ
ィールドをさらに有して、所定アドレスは、前記データパケットの前記世代フィー
ルドの内容に基づいて指定されることを特徴とする、請
求項１ないし３のいずれかに記載のデータ駆動型処理装
置。
【請求項５】前記データ累積加算手段および前記あふ
れデータ累積加算手段のそれぞれは、与えられるデータパケットを入力して、該入力データパ
ケット中の前記データフィールドの内容を、前記メモリ
の前記所定アドレスに対応の前記領域のメモリデータに
累積加算して、桁あふれしたデータを除く累積加算結果
を該領域に格納して、前記桁あふれしたデータを前記入
力データパケットの前記データフィールドに格納して、
該入力データパケットを出力することを指示する演算命
令に従い動作することを特徴とする、請求項１ないし４
のいずれかに記載のデータ駆動型処理装置。
【請求項６】ｋビット長（ｋは任意の正の整数）のｎ
個（ｎは２以上の任意の整数）の領域を含んで、前記ｎ
個の領域のそれぞれにメモリデータが格納されるメモリ
を備えたデータ駆動型処理装置におけるデータ処理方法
であって、前記メモリデータと、与えられるデータパケットのデー
タフィールドに格納された前記ｋビット長のデータとを
所定演算命令に従い所定演算処理して、前記所定演算処
理の結果を、複数の前記ｋビット長のデータを分割し
て、前記分割により得られた前記複数のｋビット長のデ
ータのそれぞれを前記データフィールドに格納した複数
の前記データパケットを出力する所定演算ステップと、前記所定演算ステップから出力された前記複数のデータ
パケットを入力して、入力した複数データパケットのそ
れぞれについて、該データパケットの前記データフィールドの前記ｋビッ
ト長のデータを、前記メモリの所定アドレスに対応の前
記領域のメモリデータに累積加算して、桁あふれしたデ
ータを除く累積加算結果を該領域に格納して、前記桁あ
ふれしたデータを前記データフィールドに格納した前記
データパケットを出力するデータ累積加算ステップと、前記桁あふれしたデータを前記データフィールドに格納
した前記データパケットを入力して、該データパケット
の前記データフィールドの前記桁あふれしたデータを、
前記メモリにおける前記所定アドレスとは異なる上位の
所定アドレスに対応の前記領域のメモリデータに累積加
算して、桁あふれしたデータを除く累積加算結果を該領
域に格納して、前記桁あふれしたデータを前記データフ
ィールドに格納した前記データパケットを出力するあふ
れデータ累積加算ステップとを有して、前記累積加算により前記所定アドレスの領域において桁
あふれしたデータが生じる間は、前記あふれデータ累積
加算ステップによる前記桁あふれしたデータについての
前記累積加算が繰返されることを特徴とする、データ駆
動型処理装置におけるデータ処理方法。