JP2023161967A

JP2023161967A - 演算装置、演算方法及びプログラム

Info

Publication number: JP2023161967A
Application number: JP2022072639A
Authority: JP
Inventors: 栄太小林; Eita Kobayashi
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2023-11-08

Abstract

【課題】回路構成の簡易化と演算精度の向上を両立できる演算装置等を提供する。【解決手段】演算装置は、入力部と、第１演算部と、第２演算部と、切替部とを備える。入力部は、仮数部がＫビット（Ｋは自然数）のブロック浮動小数点で表現されたＮ個（Ｎは自然数）の入力データを受け付ける。第１演算部は、ビット位置毎に、第１のデータに応じた第１係数をルックアップテーブルから読み出し、読み出したＫ個の第１係数に基づいて加算演算を行う。第１のデータは、Ｎ個の入力データに含まれる仮数部の同じビット位置の値を並べた、Ｎ個の値からなるデータである。第２演算部は、Ｎ個の入力データ間の指数部の差分を算出し、ビット位置毎に差分に基づいて第２係数を生成し、生成した第２係数に基づいて加算演算を行う。切替部は、ブロックの切替に応じて、Ｎ個の入力データを第１演算部及び第２演算部のうちのいずれかに供給する。【選択図】図１

Description

本開示は、演算装置、演算方法及びプログラムに関する。

デジタルフィルタ回路において回路構成を簡易化することが求められている。例えば有限インパルス応答（ＦＩＲ=Finite Impulse Response）フィルタでは、通常積和演算を繰り返すが、乗算器を用いずにメモリを参照することにより積和演算を行う分散算術（ＤＡ=Distributed Arithmetic）法が開発されている。例えば特許文献１では、Ｍ個の値のパターンに対応して積の和のパターンを用意しておき、Ｍ個の第１のデータから作成されたＭ個の値のパターンと同じパターンに対応する積の和を出力する演算装置が開示されている。

特開平１０－０４０２３４号公報

ここで小数点を扱う場合には回路規模の増大又は演算精度の低下が懸念されている。本開示の目的は、上述した課題に鑑み、回路構成の簡易化と演算精度の向上を両立できる演算装置、演算方法及びプログラムを提供することにある。

本開示の一態様にかかる演算装置は、入力部と、第１演算部と、第２演算部と、切替部とを備える。入力部は、仮数部がＫビット（Ｋは自然数）のブロック浮動小数点で表現されたＮ個（Ｎは自然数）の入力データを受け付ける。第１演算部は、ビット位置毎に、第１のデータに応じた第１係数をルックアップテーブルから読み出し、読み出したＫ個の前記第１係数に基づいて加算演算を行う。前記第１のデータは、前記Ｎ個の入力データに含まれる仮数部の同じビット位置の値を並べた、Ｎ個の値からなるデータである。第２演算部は、前記Ｎ個の入力データ間の指数部の差分を算出し、ビット位置毎に前記差分に基づいて第２係数を生成し、生成した前記第２係数に基づいて加算演算を行う。切替部は、ブロックの切替に応じて、前記Ｎ個の入力データを前記第１演算部及び前記第２演算部のうちのいずれかに供給する。

本開示の一態様にかかる演算方法は、入力段階と、第１演算段階と、第２演算段階とを備える。入力段階は、仮数部がＫビット（Ｋは自然数）のブロック浮動小数点で表現されたＮ個（Ｎは自然数）の入力データを受け付ける。第１演算段階は、ビット位置毎に、第１のデータに応じた第１係数をルックアップテーブルから読み出し、読み出したＫ個の前記第１係数に基づいて加算演算を行う。前記第１のデータは、前記Ｎ個の入力データに含まれる仮数部の同じビット位置の値を並べた、Ｎ個の値からなるデータである。第２演算段階は、ブロックの切替に応じて、前記Ｎ個の入力データ間の指数部の差分を算出し、ビット位置毎に前記差分に基づいて第２係数を生成し、生成した前記第２係数に基づいて加算演算を行う。

本開示の一態様にかかるプログラムは、入力機能と、第１演算機能と、第２演算機能と、切替機能とをコンピュータに実現させる。入力機能は、仮数部がＫビット（Ｋは自然数）のブロック浮動小数点で表現されたＮ個（Ｎは自然数）の入力データを受け付ける機能である。第１演算機能は、ビット位置毎に、第１のデータに応じた第１係数をルックアップテーブルから読み出し、読み出したＫ個の前記第１係数に基づいて加算演算を行う機能である。前記第１のデータは、前記Ｎ個の入力データに含まれる仮数部の同じビット位置の値を並べた、Ｎ個の値からなるデータである。第２演算機能は、前記Ｎ個の入力データ間の指数部の差分を算出し、ビット位置毎に前記差分に基づいて第２係数を生成し、生成した前記第２係数に基づいて加算演算を行う機能である。切替機能は、ブロックの切替に応じて、前記第１演算機能及び前記第２演算機能のうちのいずれかを動作させる機能である。

本開示により、回路構成の簡易化と演算精度の向上を両立できる演算装置、演算方法及びプログラムを提供できる。

実施形態１にかかる演算装置の構成を示すブロック図である。実施形態２にかかる演算装置の構成を示すブロック図である。実施形態２にかかるＬＵＴのデータ構造の一例を示す図である。実施形態２にかかる第１演算処理を説明するための図である。実施形態２にかかる第２演算処理を説明するための図である。実施形態２にかかる演算処理の流れの一例を示すフローチャートである。実施形態２にかかる第１演算処理の流れの一例を示すフローチャートである。実施形態２にかかる第２演算処理の流れの一例を示すフローチャートである。コンピュータシステムのハードウェア構成例を示す図である。積和演算を説明するための図である。ブロック浮動小数点方式を説明するための図である。ブロック浮動小数点を説明するための図である。

以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。

＜発明者による事前検討＞
デジタルフィルタ回路の一例であるＦＩＲフィルタでは、係数と変数との積の和を演算する積和演算を繰り返す処理が含まれる。

例えば上記処理として以下に示されるＺを演算する。

Ｎは入力データ数であり積和の項数である。Ｎは２以上の自然数である。またｎはＮ未満の自然数である。またＸ_ｎはｎ個目の入力データであり、d_ｎはｎ個目の入力データに対応する係数である。

ここでコンピュータは情報を２進数で取り扱う。以下では説明のため、Ｘ_ｎをＫビット（一例としてＫ＝３）の整数型の２進数として扱う。例えばｎ個目の入力データＸ_ｎは、次のように表される。

ｂ_ｋ，ｎは、ｎ個目の入力データのｋビット目の値であり、０又は１である。

式（１）に式（２）を代入すると以下の式が得られる。

ここで

とすると、コンピュータは、ビット位置毎にＹ（ｎ）を求め、ビット位置毎のＹ（ｎ）を、桁を考慮して塁加算することで積和計算を実現できる。

上記積和計算を回路で表現した図が図１０である。図１０は、積和演算を説明するための図である。図１０には、以下の４つの３ビットの入力データが示されている。つまり本図ではＮ＝４である。
Ｘ_０＝１０１
Ｘ_１＝１００
Ｘ_２＝０１１
Ｘ_３＝０１０

４つの入力データが入力された場合、回路は、ビット位置毎に入力データＸ_０、Ｘ_１、Ｘ_２、Ｘ_３におけるそのビット位置の値をそれぞれｂ_０、ｂ_１、ｂ_２、ｂ_３として入力を受け付ける。そして回路は、ｂ_０、ｂ_１、ｂ_２、ｂ_３をそれぞれ係数ｄ_０、ｄ_１、ｄ_２、ｄ_３で乗算し、各乗算結果を加算する。Ｙ（ｎ）は、加算された結果を示している。

例えば１ビット目、２ビット目、及び３ビット目のＹ（ｎ）は、以下のように表される。
Ｙ（１）＝ｄ_０×１＋ｄ_１×０＋ｄ_２×１＋ｄ_３×０＝ｄ_０＋ｄ_２
Ｙ（２）＝ｄ_０×０＋ｄ_１×０＋ｄ_２×１＋ｄ_３×１＝ｄ_２＋ｄ_３
Ｙ（３）＝ｄ_０×１＋ｄ_１×１＋ｄ_２×０＋ｄ_３×０＝ｄ_０＋ｄ_１
となる。

そして回路は、各ビット位置について得られたＹ（ｎ）を用いて、以下のように加算演算を行うことで、Ｚを求める。
Ｚ＝Ｙ（１）＋Ｙ（２）×２＋Ｙ（３）×２^２

ここで回路規模削減のために、乗算器を用いずにメモリを参照することにより積和演算を行う分散算術法が開発されている。上述の例でｂ_ｎは０又は１であるため、ｂ_０、ｂ_１、ｂ_２、ｂ_３のパターンは限定的である。そこで分散算術法では、ｂ_０、ｂ_１、ｂ_２、ｂ_３のパターン毎に、予め演算したＹ（ｎ）を記憶するルックアップテーブル（ＬＵＴ）を保持し、入力データに応じてＬＵＴを参照する。これにより図１０に示す加算器及び乗算器を省略できるため、回路構成が簡易となる。また電力を削減できる。

以上、Ｘ_ｎは、整数型の２進数である場合について説明したが、小数点を含む場合は桁合わせが必要となる。

ここでＸ_ｎが小数点を含む場合、浮動小数点方式又は固定小数点方式で表現されることができる。

浮動小数点方式では、個々のデータ（Ｘ_ｎ）に対して指数部を解析して小数点のビット位置を確定させている。したがって浮動小数点方式では演算コストが高く、また回路規模が大きくなるという問題がある。

固定小数点方式では、Ｋビットのデータのうち小数点が置かれる位置を固定する方式である。しかし固定小数点方式では、浮動小数点数に比べて表現できる値の範囲が狭いため、演算精度が低下するという問題がある。

このような課題を解決するために、ブロック浮動小数点方式が開発されている。図１１～図１２は、ブロック浮動小数点方式を説明するための図である。ブロック浮動小数点方式は、処理するデータをブロックに分けて、ブロック毎に小数点の位置を異ならせる方式である。

ブロック浮動小数点で表現されるデータは、小数点の位置を示す指数部と、実数を示す仮数部とを少なくとも含む。同じブロックでは、指数部が共通化される。仮数部は一例として８ビットである。

図１１に示すように、各ブロックＢＬにはｍ個（ｍは自然数）のデータが含まれる。ｍは例えば１００である。ブロックＢＬ_０に含まれるデータＸ_０～データＸ_ｍ－１の指数部は全て、左から３ビット目に小数点があることを示している。ブロックＢＬ_０に対応する図１２（ａ）の例は、２進数で０１１．０１１００、つまり１０進数では３．３７５を示している。

一方、ブロックＢＬ_１に含まれるデータＸ_ｍ～データＸ_２ｍ－１の指数部は全て、左から－１ビット目に小数点があることを示している。ブロックＢＬ_１に対応する図１２（ｂ）の例は、２進数で０．０１１０１１００、つまり１０進数では０．４２１８７５を示している。

このようにブロック小数点で表現することで、固定小数点方式と同様の回路規模で、ダイナミックレンジが確保できる。

ところで積和演算で用いる入力データは、ブロック内の配列順にＮ個選択され、入力される。積和演算で用いる入力データが全て同ブロックに属していれば指数部が同じであるため、１つのルックアップテーブルを用いて上述した分散算術法を適用することが可能となる。しかしブロックを跨いだ入力データを積和演算に用いる場合、例えばＸ_ｍ－１，Ｘ_ｍ，Ｘ_ｍ＋１，Ｘ_ｍ＋２を入力データとする場合、異なるブロックに属する入力データが存在するため、属するブロックによって小数点の位置が変わる。したがってこのような場合、分散算術法における単純なテーブル参照では対応できなくなる。

ブロック間のビット位置を補正するためにブロック浮動小数点を全て固定小数点に変換することが考えられるが、これではブロック浮動小数点方式の演算精度の確保という利点を活かすことができない。

以下の実施形態は、上記課題の少なくとも１つを解決するためになされたものである。

＜実施形態１＞
まず本開示の実施形態１について説明する。図１は、実施形態１にかかる演算装置１０の構成を示すブロック図である。演算装置１０は、係数と入力データとの積の和をとる、つまり積和演算を実行する装置である。入力データは、ブロック浮動小数点で表現された仮数部がＫビット（Ｋは自然数）のデータである。入力データは、Ｌ個（Ｌは自然数）用意されており、１つのブロックにはｍ個（ｍはＬ未満の自然数）の入力データが含まれる。演算装置１０は、ブロックの配列順で、かつブロック内の入力データの配列順に、Ｎ個ずつ入力データを入力して積和演算を実行することを繰り返す。

演算装置１０は、入力部１１と、切替部１３と、第１演算部１５と、第２演算部１７とを備える。

入力部１１は、Ｎ個の入力データを受け付ける。具体的には、入力部１１は、同じブロックに残っている未処理の入力データがＮ個以上である場合、未処理の入力データのうち、ブロック内の配列順にＮ個の入力データを選択し、当該Ｎ個の入力データを受け付ける。また入力部１１は、同じブロックに残っている未処理の入力データがＮ個未満である場合、当該残っている入力データと、次のブロックの未処理の入力データとを合わせた計Ｎ個の入力データとし、当該Ｎ個の入力データを受け付ける。尚、このように１回のイテレーションで入力されたＮ個の入力データ内に異なるブロックに属する入力データが含まれることを、ブロックの切替の発生と称する。

切替部１３は、ブロックの切替に応じて、Ｎ個の入力データを第１演算部１５及び第２演算部１７のうちいずれかに供給する。具体的には、Ｎ個の入力データ内でブロックの切替が生じていない場合には第１演算部１５に供給し、Ｎ個の入力データ内でブロックの切替が生じた場合には第２演算部１７に供給する。

第１演算部１５は、ブロックの切替が生じていない場合に通常の分散算術法を用いた加算演算を行う。具体的には、まず第１演算部１５は、ビット位置毎に、Ｎ個の入力データに含まれる仮数部の、そのビット位置の値を並べ、第１のデータを生成する。つまり第１のデータは、Ｎ個の入力データの同じビット位置のデータを並べた、Ｎ個の値からなるデータである。次に第１演算部１５は、ビット位置毎に、第１のデータに応じた第１係数をルックアップテーブル（ＬＵＴ）から読み出す。これにより各々が各ビット位置に対応するＫ個の第１係数が読み出される。そして第１演算部１５は、Ｋ個の第１係数に基づいて加算演算を行う。

第２演算部１７は、ブロックの切替が生じた場合に、分散算術法と異なる方法で加算演算を行う。具体的には、第２演算部１７は、Ｎ個の入力データ間の指数部の差分を算出し、ビット位置毎に差分に基づいて第２係数を生成する。このとき第２演算部１７は、ＬＵＴを用いて第２係数を生成する。当該ＬＵＴは、第１演算部１５で用いたＬＵＴと同じテーブルであってもよいし、同じ内容の異なるテーブルであってもよい。例えばまず第２演算部１７は、ブロックの切替前の入力データの指数部と、ブロックの切替後の入力データの指数部との差分を算出する。そして第２演算部１７は、ビット位置毎に、前述の第１のデータから、ブロックの切替後に対応する第３のデータと、ブロック切替前に対応する第４のデータとを生成する。そして第２演算部１７は、第３のデータと、第４のデータと、算出した差分と、ＬＵＴとに基づいて、第２係数を生成する。そして第２演算部１７は、ビット位置毎に生成した第２係数に基づいて加算演算を行う。

このように実施形態１によれば、演算装置１０は、積和演算のために分散算術法及びブロック浮動小数点を両立して利用する。具体的には、演算装置１０は、ブロック浮動小数点を用いながらも、ブロックの切替発生時には桁合わせのために乗算器の増設を避けてＬＵＴを参照することで積和演算をする。これにより回路構成の簡易化と演算精度の向上を両立できる。また回路規模を削減することで電力も削減できる。

＜実施形態２＞
次に、本開示の実施形態２について説明する。図２は、実施形態２にかかる演算装置１０ａの構成を示すブロック図である。演算装置１０ａは、実施形態１の演算装置１０の一例であり、積和演算を実行する装置である。演算装置１０ａは、ブロックの配列順で、かつブロック内の入力データの配列順に、Ｎ個ずつ入力データを入力部１１０に入力して積和演算を実行することを繰り返す。そして演算装置１０ａは、都度演算結果を出力する。

演算装置１０ａは、入力部１１０、ブロックカウンタ部１２０、切替部１３０、記憶部１４０、第１演算部１５０、第１出力部１６０、第２演算部１７０及び第２出力部１８０を備える。

入力部１１０及びブロックカウンタ部１２０は、実施形態１の入力部１１の一例である。入力部１１０は、用意されたＬ個のデータから未処理のＮ個の入力データを配列順に受け付ける。したがって同じブロックに残っている未処理の入力データがＮ個以上である場合、未処理の入力データのうち、ブロック内の配列順にＮ個の入力データが選択され、入力部１１０に入力される。また同じブロックに残っている未処理の入力データがＮ個未満である場合、当該残っている入力データと、次のブロックの未処理の入力データとを合わせた計Ｎ個の入力データが入力される。

ブロックカウンタ部１２０は、入力部１１０が受け付けた各入力データが何番目のブロックに属するか、つまりブロック数をカウントする。そしてブロックカウンタ部１２０は、ブロックの切替を検出する。ブロックカウンタ部１２０は、ブロックの切替を検出したことに応じて、切替信号を切替部１３０に供給する。

切替部１３０は、実施形態１の切替部１３の一例である。切替部１３０は、ブロックカウンタ部１２０から切替信号を受信していない場合、Ｎ個の入力データを第１演算部１５０に供給し、第１演算部１５０を機能させる。一方、ブロックカウンタ部１２０から切替信号を受信したことに応じて、つまりブロックの切替を検出したことに応じて、ブロックの切替前後の入力データを含むＮ個の入力データを、第２演算部１７０に供給し、第２演算部１７０を機能させる。

記憶部１４０は、演算装置１０ａの処理に必要な情報を記憶する記憶装置である。特に記憶部１４０は、ＬＵＴを記憶する。ＬＵＴは、後述する第１演算部１５０による第１演算処理と、第２演算部１７０による第２演算処理に共通して用いられる。

図３は、実施形態２にかかるＬＵＴのデータ構造の一例を示す図である。ＬＵＴは、Ｎ個の値の組み合わせパターンに応じた第１係数を記憶する。本図に示すように各値はｂ_ｎで表され、０又は１である。Ｎ＝４の場合、（ｂ_３，ｂ_２，ｂ_１，ｂ_０）の組み合わせパターンは１６パターンである。したがってＬＵＴは１６パターンの第１係数を記憶する。

第１係数は、ｂ_３，ｂ_２，ｂ_１，ｂ_０の各々に対して、ｂ_３，ｂ_２，ｂ_１，ｂ_０の各々に対応する係数ｄ_３，ｄ_２，ｄ_１，ｄ_０を乗算した値の和であり、予め算出されている。

図２に戻り説明を続ける。第１演算部１５０は、実施形態１の第１演算部１５の一例である。第１演算部１５０は、切替部１３０から入力データが供給されたことに応じて、通常の分散算術法を用いた第１演算処理を実行する。第１演算部１５０は、係数参照部１５１と、塁加算処理部１５２とを有する。

図４は、実施形態２にかかる第１演算処理を説明するための図である。図４に示すように、入力データはＸ_０，Ｘ_１，Ｘ_２，Ｘ_３である。上述の通り、第１演算部１５０に入力データが入力される場合とは、ブロックの切替が生じていない場合である。したがってこれらの入力データは全て同じブロックに属しており、指数部が共通である。例えば入力データＸ_０，Ｘ_１，Ｘ_２，Ｘ_３の指数部は全て、左から２ビット目のビット位置に小数点があること（指数部：２ビット）を示している。

まず第１演算部１５０係数参照部１５１は、各入力データＸ_０，Ｘ_１，Ｘ_２，Ｘ_３の１ビット目のビット位置の値を取り出し、それぞれｂ_０，ｂ_１，ｂ_２，ｂ_３を予め定められた順番で並べた第１のデータを生成する。図４では、１ビット目の第１のデータは、（ｂ_３，ｂ_２，ｂ_１，ｂ_０）＝（０，１，０，１）である。

したがって係数参照部１５１は、記憶部１４０に格納されるＬＵＴを参照し、第１のデータ（ｂ_３，ｂ_２，ｂ_１，ｂ_０）＝（０，１，０，１）に対応する第１係数として、ｄ_０＋ｄ_２を読み出す。

次に係数参照部１５１は、各入力データＸ_０，Ｘ_１，Ｘ_２，Ｘ_３の２ビット目のビット位置の値を取り出し、それぞれｂ_０，ｂ_１，ｂ_２，ｂ_３を予め定められた順番で並べた第１のデータを生成する。そして係数参照部１５１は、ＬＵＴを参照し、第１のデータ対応する第１係数を読み出す。係数参照部１５１は、同様の処理をＫビット目まで繰り返すことで、Ｋ個の第１係数を生成する。

塁加算処理部１５２は、各々が各ビット位置に対応するＫ個の第１係数に基づいて加算演算を行う。具体的には塁加算処理部１５２は、桁を考慮して、（１ビット目の第１係数）×２^－１＋（２ビット目の第１係数）＋（３ビット目の第１係数）×２を演算する。

尚、塁加算処理部１５２は、Ｋ個の第１係数が生成するまで加算を待ってもよいが、第１係数を生成したことに応じて順次塁加算することが好ましい。後者のほうが、演算時間を短縮できる。

図２に戻り説明を続ける。第１出力部１６０は、第１演算部１５０の第１演算処理の結果を出力する。

第２演算部１７０は、実施形態１の第２演算部１７の一例である。第２演算部１７０は、切替部１３０から入力データが供給されたことに応じて、分散算術法を拡張した第２演算処理を実行する。第２演算部１７０は、ビット解析部１７１と、係数算出部１７２と、塁加算処理部１７３とを有する。

図５は、実施形態２にかかる第２演算処理を説明するための図である。図５に示すように、入力データはＸ_０，Ｘ_１，Ｘ_２，Ｘ_３である。上述の通り、第２演算部１７０に入力データが入力される場合とは、ブロックの切替が生じている場合である。したがってこれらの入力データは２つのブロックのいずれかに属しており、同じブロックに属するデータ同士では指数部が共通であるが、異なるブロックに属するデータ同士では指数部が異なる。例えば入力データＸ_０，Ｘ_１の指数部は、左から１ビット目のビット位置に小数点があること（指数部：１ビット）を示しているが、入力データＸ_２，Ｘ_３の指数部は、左から２ビット目のビット位置に小数点があること（指数部：２ビット）を示している。

図５の例のように入力データ間の桁数が異なる場合、桁合わせをする必要がある。例えば、入力データＸ_０，Ｘ_１の指数部（１ビット）を基準とすると、入力データＸ_２，Ｘ_３の指数部は基準より１ビット大きい。したがって入力データＸ_２，Ｘ_３の各ビット位置のｂ_２，ｂ_３に対応する係数ｄ_２，ｄ_３に２をかけて係数を調整すれば、入力データＸ_０，Ｘ_１の同じビット位置のｂ_０，ｂ_１に対応する係数ｄ_０，ｄ_１と同等に扱うことができる。

そこでまず第２演算部１７０のビット解析部１７１は、ブロックの切替前の入力データの指数部と、ブロックの切替後の入力データの指数部との差分を算出する。そして第２演算部１７０の係数算出部１７２は、第１演算部１５０と同様にビット位置毎に第１のデータを生成し、第１のデータからブロック切替前後に応じた第３のデータ及び第４のデータを生成する。具体的には係数算出部１７２は、ビット位置毎に、第１のデータに含まれる、ブロック切替後の入力データに対応する値をマスクした第３のデータを生成する。また係数算出部１７２は、ビット位置毎に、第１のデータに含まれる、ブロック切替前の入力データに対応する値をマスクした第４のデータを生成する。マスクするとは、値を０にすることであってよい。係数算出部１７２は、記憶部１４０に格納されるＬＵＴから、第３のデータに対応する係数を第３係数として読み出し、第４のデータに対応する係数を第４係数として読み出す。そして係数算出部１７２は、第３係数及び第４係数と、差分とに基づいて第２係数を生成する。

例えば図５では、入力データＸ_３，Ｘ_２，Ｘ_１，Ｘ_０の１ビット目の各値が（０，１，０，１）である。したがって係数算出部１７２は、第３のデータとして（ｂ_３，ｂ_２，ｂ_１，ｂ_０）＝（０，０，０，１）を生成し、ＬＵＴから第３のデータに対応する第３の係数としてｄ_０を読み出す。また係数算出部１７２は、第４のデータとして（ｂ_３，ｂ_２，ｂ_１，ｂ_０）＝（０，１，０，０）を生成し、ＬＵＴから第４のデータに対応する第４係数としてｄ_２を読み出す。そして係数算出部１７２は、第４係数に、指数部の差分に対応する値を乗算した値と、第３係数とを加算することで、第２係数を算出する。尚、第４係数に乗算する値は、指数が指数部の差分である、２のべき乗で表される。本例では第４係数に乗算する値は、差分１ビットに対応し、具体的には２である。したがって第２係数は、ｄ_０＋２・ｄ_２となる。

そして第２演算部１７０の塁加算処理部１７３は、各々が各ビット位置に対応するＫ個の第２係数に基づいて加算演算を行う。具体的には塁加算処理部１７３は、基準となる桁を考慮して、（１ビット目の第１係数）×２^－２＋（２ビット目の第１係数）×２^－１＋（３ビット目の第１係数）を演算する。尚、塁加算処理部１７３は、Ｋ個の第２係数が生成するまで加算を待ってもよいが、第２係数を生成したことに応じて順次塁加算することが好ましい。後者のほうが、演算時間を短縮できる。

図２に戻り説明を続ける。第２出力部１８０は、第２演算部１７０の第２演算処理の結果を出力する。

図６は、実施形態２にかかる演算処理の流れの一例を示すフローチャートである。まず入力部１１０は、用意された入力データのうちＮ個の入力データの入力を受け付ける（Ｓ１０）。次にブロックカウンタ部１２０は、各入力データのブロック数をカウントし、ブロックの切替を検出したか否かを判定する（Ｓ１１）。具体的にはブロックカウンタ部１２０は、これまで入力部１１０に入力された入力データ数や直近の切替タイミングの後に入力された入力データ数と、１ブロックに含まれるデータ数とに基づいて、ブロックの切替を検出してよい。１ブロックに含まれるデータ数は、一定であってもよいし、可変であってもよい。可変である場合は、ブロックカウンタ部１２０は、ブロック毎に含まれるデータ数を示す信号を他の要素から受信することで、ブロック毎にそのブロックに含まれるデータ数を把握してよい。

ブロックカウンタ部１２０がブロックの切替を検出しなかった場合（Ｓ１１でＮｏ）、切替部１３０はＮ個の入力データを第１演算部１５０に供給する（Ｓ１２）。Ｎ個の入力データの供給を受けた第１演算部１５０は、第１演算処理を実行する（Ｓ１３）。そして第１出力部１６０は、演算結果を出力する（Ｓ１４）。次に演算装置１０ａは、処理をＳ１８に進める。

一方、ブロックカウンタ部１２０がブロックの切替を検出した場合（Ｓ１１でＹｅｓ）、切替部１３０はＮ個の入力データを第２演算部１７０に供給する（Ｓ１５）。Ｎ個の入力データの供給を受けた第２演算部１７０は、第２演算処理を実行する（Ｓ１６）。そして第２出力部１８０は、演算結果を出力する（Ｓ１７）。次に演算装置１０ａは、処理をＳ１８に進める。

Ｓ１８において、演算装置１０ａは未処理の入力データがあるかを判定する。未処理の入力データがある場合は（Ｓ１８でＹｅｓ）、処理をＳ１０に戻し、未処理の入力データが残っていない場合は（Ｓ１８でＮｏ）、処理を終了する。

図７は、実施形態２にかかる第１演算処理（つまり図６のＳ１３に示す処理）の流れの一例を示すフローチャートである。まず第１演算部１５０の係数参照部１５１は、Ｎ個の入力データの仮数部のｋビット目のビット位置の値を並べた第１のデータを生成する（Ｓ１３０）。次に係数参照部１５１は、第１のデータに対応する第１係数をＬＵＴから読み出す（Ｓ１３１）。次に係数参照部１５１はｋをインクリメントし（Ｓ１３２）、ｋがＫより大きくなるまで（Ｓ１３３でＮｏ）、Ｓ１３０～Ｓ１３２を繰り返す。これにより係数参照部１５１はＫ個の第１係数を生成する。ｋがＫより大きくなった場合（Ｓ１３３でＹｅｓ）、塁加算処理部１５２は各ビット位置の第１係数に基づいて加算演算を行う（Ｓ１３４）。

図８は、実施形態２にかかる第２演算処理（つまり図６のＳ１６に示す処理）の流れの一例を示すフローチャートである。まず第２演算部１７０のビット解析部１７１は、Ｎ個の入力データの指数部に基づいて、基準となる小数点位置を示す基準指数を設定する（Ｓ１６０）。例えばビット解析部１７１は、Ｎ個の入力データの指数部のうち、最も小さい値を示す指数部の値を基準指数としてよい。あるいはビット解析部１７１は、Ｎ個の入力データの指数部のうち、最も大きい値を示す指数部の値を基準指数としてもよい。ビット解析部１７１は、各入力データについて指数部の値と、基準指数との差分を算出する（Ｓ１６１）。

係数算出部１７２は、Ｎ個の入力データの仮数部のｋビット目の値を並べた第１のデータを生成する（Ｓ１６２）。次に係数算出部１７２は、第１のデータからブロック切替前後に応じた第３のデータ及び第４のデータを生成する（Ｓ１６３）。次に係数算出部１７２は、第３のデータに対応する第３係数と、第４のデータに対応する第４係数とを、記憶部１４０のＬＵＴから読み出す（Ｓ１６４）。そして係数算出部１７２は、第３係数、第４係数、及びＳ１６１で算出した差分に基づいて第２係数を生成する（Ｓ１６５）。

係数算出部１７２はｋをインクリメントし（Ｓ１６６）、ｋがＫより大きくなるまで（Ｓ１６７でＮｏ）、Ｓ１６０～Ｓ１６６を繰り返す。これにより係数算出部１７２はＫ個の第２係数を生成する。ｋがＫより大きくなった場合（Ｓ１６７でＹｅｓ）、塁加算処理部１７３は、基準指数に基づく桁を考慮して、各ビット位置の第２係数に基づいて加算演算を行う（Ｓ１６８）。

このように実施形態２によれば、演算装置１０ａは、積和演算のために分散算術法及びブロック浮動小数点を両立して利用する。具体的には、演算装置１０は、ブロック浮動小数点を用いながらも、ブロックの切替発生時には桁合わせのために乗算器の増設を避けてテーブルを参照することで積和演算をする。これにより回路構成の簡易化と演算精度の向上を両立できる。また回路規模を削減することで電力も削減できる。

また演算装置１０ａは、ブロックの切替発生時にも、ブロックの切替発生前に用いたルックアップテーブルを共通して用いる。したがって演算装置１０ａは、１のテーブルを記憶すればよいため、回路構成がより簡易になる。

尚、上述したように、上記の演算装置の各処理部（ブロックカウンタ部１２０、切替部１３０、第１演算部１５０、及び第２演算部１７０等）は、ＣＰＵで動作させるプログラムとして実現することも可能である。上記プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

当該プログラムを動作させるコンピュータシステムのハードウェア構成の一例を、図９を参照して説明する。図９は、コンピュータシステムのハードウェア構成例を示す図である。

図９に示すコンピュータ１０００は、プロセッサ１０１０、記憶部１０２０、ＲＯＭ１０３０、ＲＡＭ１０４０、通信インタフェース（ＩＦ）１０５０、及びユーザＩＦ１０６０を備えている。プロセッサ１０１０とＲＡＭ１０４０とは、バスを介して他の要素に接続される。記憶部１０２０は、各種のデータを保持できる補助記憶装置である。通信ＩＦ１０５０は、有線通信手段又は無線通信手段などを介して、コンピュータ１０００と通信ネットワークとを接続するためのインタフェースである。ユーザＩＦ１０６０は、例えば、入力をするためのポインティング・デバイス（マウス、ジョイスティック等）やキーボード等の入力装置である。またコンピュータ１０００は、視覚データをユーザに提示するための液晶ディスプレイ等の表示装置を備えてもよい。

プロセッサ１０１０が実行するプログラムは、記憶部１０２０又はＲＯＭ１０３０に格納され得る。プログラムがＲＡＭ１０４０上に展開され、プロセッサ１０１０がプログラムに従って処理を行い、他のハードウェア構成と協働することによって、本実施形態の各処理部が構成されている。尚、コンピュータ１０００は、単一のコンピュータでなくとも、複数のコンピュータによって構成することも可能である。

尚、本開示は上記実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、実施形態２において記憶部１４０は、１のＬＵＴを記憶していたが、同じ内容の複数のＬＵＴを記憶していてもよい。したがって実施形態２において第１演算部１５０は、ビット位置毎に順次ＬＵＴから第１係数を読み出していたが、ビット位置毎に第１係数をＬＵＴから読み出す処理を、複数のビット位置について並列で実行してもよい。また実施形態２において第２演算部１７０は、ビット位置毎に順次ＬＵＴから第３係数及び第４係数を読み出していたが、ビット位置毎に第３係数及び第４係数をＬＵＴから読み出す処理を、複数のビット位置について並列で実行してもよい。これにより演算時間を短縮できる。

１０，１０ａ演算装置
１１入力部
１３切替部
１５第１演算部
１７第２演算部
１１０入力部
１２０ブロックカウンタ部
１３０切替部
１４０記憶部
１５０第１演算部
１５１係数参照部
１５２塁加算処理部
１６０第１出力部
１７０第２演算部
１７１ビット解析部
１７２係数算出部
１７３塁加算処理部
１８０第２出力部
１０００コンピュータ
１０１０プロセッサ
１０２０記憶部
１０３０ＲＯＭ
１０４０ＲＡＭ
１０５０通信インタフェース（ＩＦ）
１０６０ユーザインタフェース（ＩＦ）
ＢＬブロック

Claims

仮数部がＫビット（Ｋは自然数）のブロック浮動小数点で表現されたＮ個（Ｎは自然数）の入力データを受け付ける入力部と、
ビット位置毎に、第１のデータに応じた第１係数をルックアップテーブルから読み出し、読み出したＫ個の前記第１係数に基づいて加算演算を行う第１演算部であって、前記第１のデータは、前記Ｎ個の入力データに含まれる仮数部の同じビット位置の値を並べた、Ｎ個の値からなるデータである、第１演算部と、
前記Ｎ個の入力データ間の指数部の差分を算出し、ビット位置毎に前記差分に基づいて第２係数を生成し、生成した前記第２係数に基づいて加算演算を行う第２演算部と、
ブロックの切替に応じて、前記Ｎ個の入力データを前記第１演算部及び前記第２演算部のうちのいずれかに供給する切替部と
を備える演算装置。
前記第２演算部は、前記ルックアップテーブルを用いて前記第２係数を生成する
請求項１に記載の演算装置。
前記第２演算部は、
ブロックの切替前の入力データの指数部と、ブロックの切替後の入力データの指数部との差分を算出し、
ビット位置毎に、
前記第１のデータに含まれる、ブロック切替後の入力データに対応する値をマスクした第３のデータを生成し、
前記第１のデータに含まれる、ブロック切替前の入力データに対応する値をマスクした第４のデータを生成し、
第３のデータに応じた第３係数と、第４のデータに応じた第４係数とを前記ルックアップテーブルから読み出し、前記第３係数及び前記第４係数と、前記差分とに基づいて前記第２係数を生成し、
生成した前記Ｋ個の第２係数に基づいて加算演算を行う
請求項２に記載の演算装置。
前記第１演算部は、ビット位置毎に前記第１係数を読み出す処理を、複数のビット位置について並列で実行し、
前記第２演算部は、ビット位置毎に前記第３係数及び前記第４係数を読み出す処理を、複数のビット位置について並列で実行する
請求項３に記載の演算装置。
各入力データのブロック数をカウントし、ブロックの切替を検出するブロックカウンタ部をさらに備え、
前記切替部は、前記ブロックカウンタ部がブロックの切替を検出したことに応じて、ブロックの切替前後の入力データを含む前記Ｎ個の入力データを、前記第２演算部に供給する
請求項１から４のいずれか一項に記載の演算装置。
仮数部がＫビット（Ｋは自然数）のブロック浮動小数点で表現されたＮ個（Ｎは自然数）の入力データを受け付ける入力段階と、
ビット位置毎に、第１のデータに応じた第１係数をルックアップテーブルから読み出し、読み出したＫ個の前記第１係数に基づいて加算演算を行う第１演算段階であって、前記第１のデータは、前記Ｎ個の入力データに含まれる仮数部の同じビット位置の値を並べた、Ｎ個の値からなるデータである、第１演算段階と、
ブロックの切替に応じて、前記Ｎ個の入力データ間の指数部の差分を算出し、ビット位置毎に前記差分に基づいて第２係数を生成し、生成した前記第２係数に基づいて加算演算を行う第２演算段階と
を備える演算方法。
仮数部がＫビット（Ｋは自然数）のブロック浮動小数点で表現されたＮ個（Ｎは自然数）の入力データを受け付ける入力機能と、
ビット位置毎に、第１のデータに応じた第１係数をルックアップテーブルから読み出し、読み出したＫ個の前記第１係数に基づいて加算演算を行う第１演算機能であって、前記第１のデータは、前記Ｎ個の入力データに含まれる仮数部の同じビット位置の値を並べた、Ｎ個の値からなるデータである、第１演算機能と、
前記Ｎ個の入力データ間の指数部の差分を算出し、ビット位置毎に前記差分に基づいて第２係数を生成し、前記第２係数に基づいて加算演算を行う第２演算機能と、
ブロックの切替に応じて、前記第１演算機能及び前記第２演算機能のうちのいずれかを動作させる切替機能と
をコンピュータに実現させるためのプログラム。