JP2011242995A - 半導体装置 - Google Patents
半導体装置 Download PDFInfo
- Publication number
- JP2011242995A JP2011242995A JP2010114441A JP2010114441A JP2011242995A JP 2011242995 A JP2011242995 A JP 2011242995A JP 2010114441 A JP2010114441 A JP 2010114441A JP 2010114441 A JP2010114441 A JP 2010114441A JP 2011242995 A JP2011242995 A JP 2011242995A
- Authority
- JP
- Japan
- Prior art keywords
- arithmetic
- unit
- calculation
- data
- control information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000004065 semiconductor Substances 0.000 title claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 136
- 238000004364 calculation method Methods 0.000 claims description 261
- 238000000034 method Methods 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 41
- 238000010586 diagram Methods 0.000 description 22
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/04—Generating or distributing clock signals or signals derived directly therefrom
- G06F1/12—Synchronisation of different clock signals provided by a plurality of clock generators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
- G06F9/3887—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
- G06F9/3893—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Logic Circuits (AREA)
- Advance Control (AREA)
- Design And Manufacture Of Integrated Circuits (AREA)
- Memory System (AREA)
Abstract
【課題】プログラム可能な半導体装置において、クロック周波数を保証しつつ、複数の演算命令の組み合わせで形成される演算処理を効率的に実行できる。
【解決手段】本開示の一実施形態は、一定のクロック信号に同期して演算を行う半導体装置であって、演算制御情報を出力する制御部13と、データを記憶する記憶部11と、第1のデータに対して第1の演算制御情報に従い演算を行う演算ユニット100と、第2のデータに対して第2の演算制御情報に従い演算を行う演算ユニット101とを備える。演算ユニット100は、演算回路を複数個備える。演算ユニット101は、論理ゲート段数n(n>m)の演算回路を少なくとも1個備える。
【選択図】図1
【解決手段】本開示の一実施形態は、一定のクロック信号に同期して演算を行う半導体装置であって、演算制御情報を出力する制御部13と、データを記憶する記憶部11と、第1のデータに対して第1の演算制御情報に従い演算を行う演算ユニット100と、第2のデータに対して第2の演算制御情報に従い演算を行う演算ユニット101とを備える。演算ユニット100は、演算回路を複数個備える。演算ユニット101は、論理ゲート段数n(n>m)の演算回路を少なくとも1個備える。
【選択図】図1
Description
本開示は、プログラム可能な半導体装置に関する。
ソフトウェアによるプログラムが可能な半導体装置のうち、FPGA(Field Programmable Gate Array)などのリコンフィギャラブル回路を用いた計算システムは、リコンフィギャラブル回路の回路情報をあらかじめメモリなどの記憶装置に保持し、システム初期化時に必要な情報を読み出して実行回路を構成することができる装置である。また、動的リコンフィギャラブル回路技術を用いた計算システムは、このような回路情報を複数保持し、プログラムにより規定された規則に従って、動作時に必要な回路情報を読み出して実行回路を構成することができる装置である。
一般的に、FPGAは処理データの細かい(ビット数の少ない)LUT(Look−Up Table)を基本演算素子とし、これらの基本演算素子をプログラム可能な配線とスイッチ素子で相互接続することができる。相互接続された多数の基本演算素子を組み合わせることで、複雑な演算処理を実行することが可能である(非特許文献1)。一方、動的リコンフィギャラブル回路は処理データの粗い(ビット数の多い)演算器を基本演算素子とする装置である。これらのリコンフィギャラブル回路を用いることで、単一の半導体装置上で多様な演算処理を実現することが可能となり、専用ハードウェアの開発コストの削減が期待される。
また、ソフトウェアによるハードウェア構成の変更が可能な計算システムとして、特許文献1記載のアレイ型プロセッサがあげられる。このアレイ型プロセッサでは、小規模の多数のプロセッサエレメントがマトリクス状に配列された構成をもち、プログラムを変更することでハードウェアの構成を変化させることができる。プログラムにより規定された順序に従い、プロセッサエレメントごとに1つの命令コードが選択され、この命令コードに従って演算器の演算処理とプロセッサエレメントの接続関係が制御され、複雑な演算処理を多数の演算器により並列に実行することができる。
Paul Chow, Soon Ong Seo, Jonathan Rose, Kevin Chung, Gerard Paez-Monzon, and Immanuel Rahardja, "The Design of an SRAM-Based Field-Programmable Gate Array -- Part I: Architecture"IEEE Transaction on Very Large Scale Integration (VLSI) Systems, Vol.7, No.2, June 1999
一般的に、クロックに同期したプロセッサユニットを用いて複雑な演算処理を実現する場合、単純な演算命令を実行する演算器を複数クロックサイクルにわたって実行させ、単純な演算を組み合わせることで実現する。CPUなどのプロセッサユニットの演算器が単一クロックサイクルで実行できる演算命令は通常一つであることから、処理する演算処理の複雑度に応じて複数のクロックサイクルを消費することになる。このため、CPUなどのプロセッサユニットで複雑な演算処理を高速に実行する場合には、高いクロック周波数で動作させなければならず、消費電力が大きくなってしまう問題がある。
また、プロセッサユニットのサポートする演算を実行する演算器のレイテンシ(回路上の遅延時間)は演算命令の種類によって異なるため、最も複雑な(レイテンシの大きい)演算回路に合わせたクロック周波数を用いて回路を動作することとなる。このような場合、単純な演算命令を実行する際には本来実行可能な演算回数よりも少ない演算処理しか行うことができず、本来の性能を発揮することができない。このため、CPUなどの高いクロック周波数で動作させるプロセッサユニットでは、複雑な演算命令は複数クロックサイクルに分割して実行するような工夫がなされている。しかしながら、この手法では性能の向上は達成できるもののクロック周波数の向上により消費電力が増大してしまう点が問題となる。
一方、FPGAなどのリコンフィギャラブル回路では、プログラマブルな配線とスイッチ素子により複数の演算素子を多段で接続することで、複雑な演算処理を単一クロックサイクルで実現可能である。同様に特許文献1記載のアレイ型プロセッサでも、マトリクス状に配列された複数のプロセッサエレメントを多段で接続して複雑な演算処理をプログラムすることが可能である。このように、単一クロックサイクル中に複数の演算処理を複数の演算素子を用いて実行可能であることから、低いクロック周波数であっても高速に演算処理を行うことができる。
しかしながら、このようなソフトウェアにより演算素子間の接続関係もプログラムして複雑な演算処理を実現する半導体装置の場合、クロック周波数はプログラムされた最も実行時間の長い演算処理に依存することになる。
また、同一のソフトウェアであっても、演算命令の演算器へのマッピングや演算素子間の実際の配線結果によって実行時間が異なることとなり、プログラムごとのクロック周波数の制御が複雑になるという課題があった。
さらに、多数の演算素子を並列に動作させることが可能である一方で、複数クロックにわたって同一の演算素子を活用することが困難となり、回路の利用効率が低下するという課題がある。
本発明の一観点は、ソフトウェアによりハードウェア構成を変更可能な半導体装置において、半導体装置の動作するクロック周波数を保証しつつ、複数の演算命令の組み合わせで形成される演算処理を効率的に実行することが可能な半導体装置を提供することを目的とする。
本発明の一観点による半導体装置は、クロック信号に同期して演算処理を実行する半導体装置であって、各演算回路が実行する演算を制御するための第1の演算制御情報と第2の演算制御情報とを出力する制御部と、第1のデータと第2のデータとを記憶する記憶部と、前記クロック信号に同期して動作し、前記第1の演算制御情報に従って、前記第1のデータに対して演算処理を行い、第3のデータを出力する第1の演算ユニットと、前記クロック信号に同期して動作し、前記第2の演算制御情報に従って、前記第2のデータに対して演算処理を行い、第4のデータを出力する第2の演算ユニットとを備え、前記第1の演算ユニットは、直列に接続された第1乃至第M(Mは、2以上の整数)の演算回路を備え、前記第m+1(mは、1以上M−1以下の整数)段の演算回路は、前記第m段の演算回路の演算結果に対して、演算処理を行うものであって、前記第1乃至第Mの演算回路の遅延量を示す遅延指標は、それぞれ、m1、・・・、mM(m1、・・・、mMは、自然数)であって、前記第2の演算ユニットは、遅延量を示す遅延指標がn(nは1以上の整数)の演算回路を少なくとも備え、前記第1の演算ユニットが備える演算回路の遅延指標の和(m1+・・・+mM)によって定められる遅延時間と、前記第2の演算ユニットが備える演算回路の遅延指標nによって定められる遅延時間とは、それぞれ、前記クロック信号の周期以下であることを特徴とする。
本発明の一観点によれば、ソフトウェアによりハードウェア構成を変更可能な半導体装置において、半導体装置の動作するクロック周波数を保障しつつ、複数の演算命令の組み合わせで形成される演算処理を効率的に実行可能とすることができる。
以下に、本発明の実施の形態について、図面に基づいて詳細に説明する。尚、各図において同一箇所については同一の符号を付すとともに、重複した説明は省略する。
図1は、本発明の第1の実施例の半導体装置の構成を示した図である。半導体装置1は、処理部10と、記憶部11とを備え、外部装置50と接続されている。処理部10は、演算部12と、制御部13とを備える。半導体装置1は、一定のクロック周波数のクロック信号に同期して演算処理を行うものとする。
制御部13は、外部装置50と接続され、外部装置50より入力される半導体装置1の動作を制御するための制御情報を解釈し、演算部12の動作を制御する演算制御情報と、記憶部11の動作を制御するリード・ライト制御情報とを出力する。
制御情報とは、半導体装置1の動作を制御する情報であり、演算部12と記憶部13の動作内容や動作順序を特定する情報であれば良い。制御情報とは、例えば、演算部12の演算処理内容や処理順序を特定する演算制御情報や、記憶部13のアドレス情報やリードまたはライトを示すアクセス情報を含むリード・ライト制御情報である。また、制御情報は、後述する開始制御信号を含んでいても良い。
制御部13は、制御情報に含まれる演算制御情報の識別子と、リード・ライト制御情報の識別子とに従い、演算制御情報の識別子が示す演算制御情報と、リード・ライト制御情報の識別子が示すリード・ライト制御情報とを読出し、演算制御情報を演算部12へ、リード・ライト制御情報を記憶部11へ出力する。制御部13は、演算制御情報とリード・ライト制御情報との出力が完了すると、次の制御情報に対して、同様の処理を継続する。制御部13は、処理完了の情報を含む制御情報を記憶装置から読み出すまで上記処理を繰り返す。演算制御情報の識別子と、リード・ライト制御情報の識別子は、それぞれ、演算制御情報、リード・ライト制御情報を特定できれば特に形態は問わない。例えば、識別子は、演算制御情報、リード・ライト制御情報を保持する記憶装置のアドレス情報であっても良い。「次」の演算制御情報、リード・ライト制御情報とは、特定の順序の情報を意図した通りに選択できれば特に形態は問わない。例えば、識別子がアドレス情報の場合は次のアドレスに保持されている情報を用いても良いし、読み出した演算制御情報、リード・ライト制御情報に、次の制御情報の識別子を埋め込むことで指定しても良い。
また、別の例では制御情報は制御部13が出力する演算制御情報や、リード・ライト制御情報の識別子を含む情報でも構わないし、演算制御情報、リード・ライト制御情報の内容そのもので構成してもよい。
演算制御情報とは、演算部12の動作を特定するための情報であれば良い。演算制御情報とは、例えば、演算部12で処理される演算処理内容や、演算処理に用いるデータ選択情報である。制御部13から演算部12に演算制御情報が入力されると、演算部12はデータ選択情報に従って、演算処理に必要となるデータを選択し、演算処理内容で特定される演算処理を実行する。ここで言うデータとは、演算処理で利用できるデータであればよく、実現の形態は特に問わない。例えば、記憶部11から読み出したデータであってもよいし、演算部12の以前の演算処理結果を内部のレジスタに保持しておき、これを利用してもよい。
リード・ライト制御情報とは、記憶部11の動作を特定するための情報であれば良い。リード・ライト制御情報とは、例えば、記憶部11にアクセスする際に使用されるアドレス情報や、記憶部11に対するリードまたはライトを示すアクセス情報である。制御部13から記憶部11にリード・ライト制御情報が入力されると、記憶部11はアドレス情報によって特定される記憶部の領域に対して、アクセス情報によって特定される動作を行う。ここでいう動作とは、アドレス情報によって特定される記憶部の領域に対するリード(読み出し)かライト(書き込み)のいずれか一方、もしくはその両方を意味する。ここで、記憶部11が一度に可能なアクセスの数は特定しない。例えば、記憶部11は、一度に2回のリードが可能であってもよいし、1回のリードと1回のライトが同時に可能なようにしてもよい。
演算部12は、制御部13と、記憶部11とに接続される。演算部12は、制御部13からの開始制御信号を受け取ると、記憶部11から読み出したデータに対して、演算制御情報に従った演算処理を実行し、出力データ(演算結果)を記憶部11へと出力する。演算部12は、演算制御情報の示す演算処理を、1クロックサイクルで実行する。
演算部12は、クロック信号に同期して演算処理を行う演算ユニット100と、クロック信号に同期して演算処理を行う演算ユニット101とを有する。なお、演算部12にクロック信号が直接入力されなくても良い。例えば、記憶部11にクロック信号が直接入力され、記憶部11の動作に準じて、演算部12が演算処理を行っても良い。演算ユニット100は、遅延指標が閾値k(kは1以上の整数)未満の演算回路を複数個備える。演算ユニット100が実行する演算処理の複雑度は小さい。演算ユニット101は、遅延指標が閾値kよりも大きい演算回路を少なくとも1個備える。演算ユニット102が実行する演算処理の複雑度は大きい。この閾値kは、半導体装置の設計方針などに従って決定される。演算ユニット100が備える演算回路の数は、演算ユニット101が備える演算回路の数よりも大きい。
遅延指標とは、それぞれの演算回路の遅延時間を示す指標であればよく、ここでは実際に使用する指標は特定しない。例えば、演算回路の遅延指標とは、演算回路の論理ゲート段数や、演算回路のレイテンシ(遅延時間)、あるいは、演算処理を実行する演算回路の回路面積で示しても良い。演算処理のレイテンシや演算回路の回路面積は、ある特定の半導体製造技術に基いて、演算回路(演算処理)ごとに計測する。一方で、演算回路の論理ゲート段数は、各演算処理に対応する論理回路のゲート段数の最大値を指標とすることで、特定の半導体製造技術に依存しない。実際に利用する半導体製造技術が予め特定されている場合には、演算回路のレイテンシや演算回路の回路面積の方が精度の高い指標である。一方、実際に利用する半導体製造技術が予め特定されていない場合には、演算処理のレイテンシや演算回路の回路面積に比べて精度は劣るが、演算処理の論理ゲート段数の方が汎用性の高い指標である。
以下では、遅延指標が演算回路の論理ゲート段数であり、演算ユニット100が論理ゲート段数m(mは1以上k未満の自然数)の演算回路を2つ有し、演算ユニット101が論理ゲート段数n(nはk以上の自然数であり、n>m)の演算回路を1つ有する例で説明する。
2つの演算ユニット100、101は、独立に動作可能である。2つの演算ユニット100、101は、一方のみが動作しても良く、双方が動作しても良い。演算ユニット100、101には、記憶部11に記憶された異なる2つのデータがそれぞれ入力されても良く、同一のデータがそれぞれ入力されても良い。演算ユニット100、101は、制御部13からの演算制御情報と、記憶部11から読み出すデータとを入力とし、演算制御情報に従って演算処理を実行し、その演算結果(出力データ)を記憶部11へ書き込む。
図2は、演算部12の詳細な構成例を示す図である。演算ユニット100、101は、演算制御情報に従って演算処理を実際に実行する演算回路を有する。演算ユニット100は、論理ゲート段数m(mは1以上k未満の自然数)の演算回路1000A、1000Bを2つ有する。演算ユニット101は、論理ゲート段数n(nはk以上の自然数であり、n>m)の演算回路1001を1つ有する。
演算回路1000A、1000Bで実行可能な演算命令の例は、データに対する論理和や論理積、加減算などの基本的な算術論理演算などである。演算回路1001で実行可能な演算命令の例は、データに対する乗除算や剰余算、データの中の0の数を数え上げる演算など、演算回路1000A、1000Bで実行可能な演算命令と比較して複雑な演算である。
図3は、演算回路1000A、1000Bの詳細な構成例を示す図である。演算回路1000A、1000Bは、論理演算を行う論理演算器2000A、2000Bと、シフトや加減算を行う算術演算回路2001A、2001Bとを有する。演算回路1000A、1000Bは、直列に接続される。論理演算器2000Aと算術演算器2001A、ならびに、論理演算器2000Bと算術演算器2001B、は直列に接続される。
演算回路1000Aは、記憶部11から読み出したデータに対して、制御部13からの演算制御情報に従って演算処理を実行し、出力データ(演算結果)を演算回路1000Bへ出力する。演算回路1000Bは、演算回路1000Aの出力データに対して、制御部13からの演算制御情報に従って演算命令を実行し、出力データ(演算結果)を記憶部11へ書き込む。
記憶部11から読み出されるデータは、演算回路1000Aに入力されても良く、演算回路1000Bに入力されても良い。演算回路1000Aに入力されるデータは、論理演算器2000Aに入力されても良く、算術演算器2001Aに入力されても良い。演算回路1000Bに入力されるデータは、論理演算器2000Bに入力されても良く、算術演算器2001Bに入力されても良い。
演算回路1001は、記憶部11から読み出したデータに対して、制御部13からの演算制御情報に従って演算命令を実行し、出力データ(演算結果)を記憶部11へ書き込む。
演算ユニット100の2つの演算回路1000A、1000Bは、いずれの演算回路も論理ゲート段数がmであると説明したが、異なる論理ゲート段数m1、m2(ただし、m1、m2は1以上の自然数であり、かつm1、m2<n)であってもよい。
本実施形態の半導体装置1では、クロック信号の周期から定められる基準値Zが予め定められる。演算ユニット100、101は、直接に接続される演算回路の遅延指標の和が基準値Zを越えない範囲で、演算回路を複数個直列に配列することができる。
例えば、演算ユニット100が遅延指標k未満の演算回路をX個(1以上の自然数)備えていて、かつ演算ユニット101が遅延指標k以上の演算回路をY個(1以上の自然数)備えても良い(ただし、X≧Y)。ただし、演算ユニット100のX個の演算回路の遅延指標の和及び演算ユニット101の遅延指標の和は、基準値Z以下である必要がある。
図4は、演算部12の詳細な構成の1例を示す図である。図4に示すように、例えば、演算ユニット100が、遅延指標m1、・・・、mM(m1、・・・、mMは、1以上k未満の自然数)の第1乃至第M(Mは、2以上の整数)の演算回路1000M1〜MMを備えていて、かつ演算ユニット101が、遅延指標n1、・・・、nN(n1、・・・、nNは、k以上の自然数)の第1乃至第N(Nは、1以上の整数であって、N<M)の演算回路1001N1〜NNを備えていても良い。ただし、演算ユニット100が備える演算回路の遅延指標の和(m1+・・・+mM)と、演算ユニット101が備える演算回路の遅延指標の和(n1+・・・+nN)とは、基準値Z以下である。例えば、演算ユニット100が備える演算回路の遅延指標の和(m1+・・・+mM)から定められる遅延時間と、演算ユニット101が備える演算回路の遅延指標の和(n1+・・・+nN)から定められる遅延時間とは、クロック信号の周期(基準値Z)以下であればよい。
以下では、遅延指標が演算回路の論理ゲート段数である場合に、基準値Zが最大論理ゲート段数Zである例で説明する。演算部12を実現するための演算回路の論理ゲート段数の最大値Z(以下、最大論理ゲート段数Zと称する。)を予め定め、演算ユニット100、101は、このZを越えない範囲で、ぞれぞれの演算回路を複数個直列に配列することができる。最大論理ゲート段数Zは、半導体装置1のクロック周波数に応じて定められる値であって、クロック信号の周期内で処理可能な論理ゲート段数である。
記憶部11は、演算部12が演算処理に用いるデータや、演算部12の演算処理の中間結果および演算処理の最終結果を保持する。演算部12の演算処理に用いるデータは、外部装置50から転送され書き込まれてもよい。演算部12は、記憶部11に保持された演算処理の中間結果を、再度入力として用い、複数クロックサイクルに渡って演算処理を継続してもよい。記憶部11に保持された演算部12の演算処理の最終結果は、外部装置50により読み出されてもよい。
図5は、記憶部11の詳細な内部構成を示す。記憶部11は、記憶ユニット110、111を備える。リード・ライト制御情報は、記憶ユニット110、111に対するリードまたはライトを示すアクセス情報と、アドレス情報とを有する。記憶ユニット110、111において、リードを示すアクセス情報が入力されると、アドレス情報で指定される領域に保持されたデータが、読み出される。ライトを示すアクセス情報が入力されると、アドレス情報で指定される領域に、演算ユニット100、101の演算結果が書き込まれる。
記憶部11は、外部装置50からの読み出し要求を受けると、クロック信号に同期して、指示されたアドレスからデータを読み出し、外部装置50に出力する。記憶部11は、外部装置50からの書き込み要求を受けると、外部装置50から送られたデータを、クロック信号に同期して、指示されたアドレスに書き込む。
記憶部11は、クロック信号と、制御部13からのリード・ライト制御情報と、演算部12からの演算結果とを入力とし、リード・ライト制御情報がリードを示すアクセス情報を含む場合、クロック信号に同期してデータを読み出し、演算部12に転送する。また、リード・ライト制御情報が、ライトを示すアクセス情報を含む場合、演算部12から転送された演算結果がクロック信号に同期して書き込まれる。
なお、外部装置50と、制御部13および演算部12とが同時に記憶部11へアクセスした場合、記憶部11への複数のアクセスを調停するためのハードウェアを用意し、動的に競合するアクセスを回避してもよい。また、このような機構は設けず、ソフトウェアによりアクセスの競合が起こらないように静的に制御してもよい。
ここで、図1に示す実施例1の半導体装置1の動作フローを、図面を用いて説明する。図6は、半導体装置1において、ある演算処理を実行する際のシーケンス図である。まず、制御部13には、外部装置50から演算処理を制御するための制御情報が入力され(S1)、制御情報の解釈などの制御処理を行う(S2)。そして、制御部13は、制御処理の結果、第1の演算制御情報と第2の演算制御情報とリード・ライト制御情報とを出力する。そして、制御部13は、第1の演算制御情報を演算ユニット100に出力し、第2の演算制御情報を演算ユニット101に出力し、リード・ライト制御情報を記憶部11に出力する(S3)。記憶部11は、リード・ライト制御情報に従って、演算ユニット100の演算処理に必要となる第1のデータと演算ユニット101の演算処理に必要となる第2のデータの読み出しを行い、第1のデータを演算ユニット100の演算回路1000Aに出力し、第2のデータを演算回路1001に出力する(S4)。演算回路1000Aは、第1のデータを入力として受け取り、第1の演算制御情報によって規定される演算処理を実行し(S5)、演算結果を演算回路1000Bに出力する(S6)。演算回路1000Bは、演算回路1000Aの出力を入力として受け取り、第1の演算制御情報によって規定される演算処理を実行する(S7)。同様に、演算回路1001は、第2のデータを入力として受け取り、第2の演算制御情報により規定される演算処理を実行する(S8)。ここで、S5とS7で行うそれぞれの処理は、S8で行う処理と比べて簡易であり、S5とS7で行なう処理の処理時間の合計は、S8で行う処理の合計と比べて短い。このため、演算ユニット101でS8が行われている間に、演算ユニット100ではS5とS7を行うことができる。演算回路1000Bは、演算結果(第1の演算結果と称する。)を記憶部11に対して出力し、演算回路1001は、演算結果(第2の演算結果と称する。)を記憶部11に対して出力し(S9)、リード・ライト制御情報に従って、第1の演算結果と、第2の演算結果それぞれが記憶部11に書き込まれる。また、次に実行すべき処理が存在する場合は制御部13は、外部装置50より次に実行する演算処理に対する制御情報を入力として受け取り(S10)、制御情報の解釈などの制御処理を行う(S11)ことで処理時間を短縮することができる。なお、本実施例では、S3〜S11は、単一のクロックサイクルの間に実行される(単一のクロックサイクルの間に実行できる処理を、図6に点線で示した。)。
このような構造をとることで、2つの単純な演算処理を組み合わせて実現するような演算処理を、複数のクロックサイクルに分けることなく、1クロックサイクルで実行することが可能となるため、低い消費電力で効率良く演算処理を実行することができる。また、複雑度の低い演算を処理する演算ユニットと、複雑度の高い演算を処理する演算ユニットとを設け、複雑度の低い演算を処理する演算ユニットでは、予め定める最大論理ゲート段数Zの範囲で、論理ゲート段数の低い演算回路を多段で接続する構成をとることにより、各種の演算処理の実行時間のバランスをとり、演算器の利用効率を向上することができる。また、予め定める最大論理ゲート段数Zの範囲で演算ユニットを構成することから、半導体装置1の動作するクロック周波数を一定値に保証することが可能となる。
なお、前述した半導体装置1の動作フローにおいて、S3で、制御部13は、演算制御情報として第1の演算制御情報と第2の演算制御情報とを出力すると説明した。しかしながら、制御部13は、第1の演算制御情報、第2の演算制御情報のいずれか一方のみを出力することとしても良い。この場合、演算ユニット100、演算ユニット101のいずれか一方のみが動作することとしても良い。
次に、記憶部11の内部構成のより詳細な構成の例を説明する。
図5に示すように、記憶部11は、演算ユニット100が参照するデータ(第1のデータ)を保持する記憶ユニット110と演算ユニット101が参照するデータ(第2のデータ)を保持する記憶ユニット111を備える。
記憶ユニット110の出力は、演算ユニット100の入力に接続され、記憶ユニット111の出力は、演算ユニット101の入力に接続されている。
演算ユニット100は、制御部13から記憶ユニット110に入力されるリード・ライト制御情報に従って、記憶ユニット110の第1のデータを参照することができる。一方、演算ユニット101は、制御部13から記憶ユニット111に入力されるリード・ライト制御情報に従って、記憶ユニット111の第2のデータを参照することができる。このように、演算ユニット毎に対応する記憶ユニットを設けることにより、各演算ユニットは、独立して同時にデータを参照することができ、各演算ユニットが、並列に処理を行うことができる。
また、演算ユニット100及び101それぞれの出力は、記憶ユニット110及び111の両方の入力に接続されている。
このような構成であるため、演算ユニット100は、制御部13から記憶部11に入力されるリード・ライト制御情報に従って、演算ユニット100の演算処理の結果である第1の演算結果を、記憶ユニット110、111のいずれか一方、もしくはその両方に書き込むことができる。また、演算ユニット101は、制御部13から記憶部11に入力されるリード・ライト制御情報に従って、演算ユニット101の演算処理の結果である第2の演算結果を、記憶ユニット110、111のいずれか一方、もしくはその両方に書き込むことができる。
このように、演算ユニット100及び演算ユニット101の演算結果を、記憶ユニット110及び記憶ユニット111両方に書き込むことができるため、演算ユニット100は、演算ユニット101の演算結果を用いた演算処理を行うことができ、演算ユニット101は、演算ユニット100の演算結果を用いた演算処理を行うことができる。演算ユニット100、101の間でデータの受け渡しが可能となり、より柔軟な演算処理の実現が可能となる。
なお、記憶ユニット100、101では、同時に書き込むことのできる情報の数は限定しない。よって、入力された演算ユニット100、101の演算結果の両方を、同時に書き込んでもよいし、セレクタを設けてどちらか一方を選択して書き込むようにしても構わない。
図7は、記憶部11の内部構成の変形例を示す図である。図7の記憶部11は、1つの記憶ユニット120を備える構成である。
記憶ユニット120は、演算ユニット100が参照するデータ(第1のデータ)と演算ユニット101が参照するデータ(第2のデータ)を保持する。
また、演算ユニット100及び101それぞれの入力及び出力は、記憶ユニット120に接続されている。
演算ユニット100は、制御部13から記憶ユニット120に入力されるリード・ライト制御情報に従って、記憶ユニット110の第1のデータを参照することができる。一方、演算ユニット101は、制御部13から記憶ユニット120に入力されるリード・ライト制御情報に従って、記憶ユニット120の第2のデータを参照することができる。
また、演算ユニット100は、制御部13から記憶ユニット120に入力されるリード・ライト制御情報に従って、演算ユニット100の演算処理の結果である第1の演算結果を、記憶ユニット120に書き込むことができる。また、演算ユニット101は、制御部13から記憶ユニット120に入力されるリード・ライト制御情報に従って、演算ユニット101の演算処理の結果である第2の演算結果を、記憶ユニット120に書き込むことができる。
このように、記憶ユニット120を、演算ユニット100、101で共有するため、記憶部の面積と消費電力を削減することができる。
また、演算ユニット100及び演算ユニット101の演算結果を、1つの共有する記憶ユニット120に書き込むことができるため、演算ユニット100は、演算ユニット101の演算結果を用いた演算処理を行うことができ、演算ユニット101は、演算ユニット100の演算結果を用いた演算処理を行うことができる。演算ユニット100、101の間でデータの受け渡しが可能となり、より柔軟な演算処理の実現が可能となる。
図8は、演算部12の内部構成の変形例を示す図である。図8の演算部12は、更に、演算ユニット100、101の演算結果のいずれかを選択するセレクタ102を更に有している。
演算ユニット100、101の出力は、セレクタ102と接続されている。セレクタ102の出力は、記憶ユニット110及び記憶ユニット111に接続されている。
演算ユニット100は、制御部13から記憶ユニット110に入力されるリード・ライト制御情報に従って、記憶ユニット110の第1のデータを参照することができる。一方、演算ユニット101は、制御部13から記憶ユニット111に入力されるリード・ライト制御情報に従って、記憶ユニット111の第2のデータを参照することができる。このように、演算ユニット毎に対応する記憶ユニットを設けることにより、各演算ユニットは、独立して同時にデータを参照することができ、各演算ユニットが、並列に処理を行うことができる。
一方、演算ユニット100及び101それぞれの出力は、セレクタ102に出力される。
セレクタ102は、制御部13からの演算制御情報に含まれる演算結果選択信号と、演算ユニット100、101の演算結果とを入力とし、演算結果選択信号によって指定される演算結果のいずれか一方を選択して、記憶ユニット110及び記憶ユニット111のいずれか一方、又は両方に出力する。
記憶ユニット110、111はそれぞれ制御部13からのリード・ライト制御情報と、セレクタ102の出力とを入力とし、リード・ライト制御情報に従い、セレクタ102の出力を書き込む。
演算部12の内部構成をこのような構成とすることで、演算部12の演算ユニット100、101のいずれか一方の演算処理のみが有効となり、有効とならない演算ユニットの信号遷移を停止させることで電力消費を低減することができる。
図9は、図7の記憶部11の内部構成と図8の演算部12の構成を組み合わせた場合の例を示す図である。
即ち、記憶部11は、1つの記憶ユニット120を備える構成であり、演算部12は、セレクタ102を備える構成である。
記憶ユニット120は、演算ユニット100、101それぞれの入力に接続されている。演算ユニット100、101の出力は、セレクタ102と接続されている。セレクタ102の出力は、記憶ユニット120に接続されている。
以下では、記憶部11を図7のような内部構成とした場合の動作を説明する。
記憶ユニット120は、制御部13からのリード・ライト制御情報に従って、データを読み出し、演算ユニット100、演算ユニット101に出力する。データは、演算ユニット100、演算ユニット101それぞれ毎に異なるデータを出力しても良いし、同一のデータを出力しても良い。
演算部12は、演算ユニット100、101の演算結果をセレクタ102に出力する。セレクタ102は、制御部13からの制御情報に含まれる演算結果選択信号と、演算ユニット100、101の演算結果とを入力とし、演算結果選択信号によって指定される演算結果のいずれか一方を選択して出力する。記憶ユニット120は、制御部13からのリード・ライト制御情報と、セレクタ102の出力とを入力とし、リード・ライト制御情報に従い、セレクタ102の出力を書き込む。
記憶部11及び演算部12の内部構成をこのような構成とすることで、演算部12の演算ユニット100、101のいずれか一方の演算処理のみが有効となり、有効とならない演算ユニットの信号遷移を停止させることで電力消費を低減することができる。また、記憶ユニット120を、演算ユニット100、101で共有するため、記憶部の面積と消費電力を削減することができる。
尚、実施例1で示す演算部12ではデータや、演算の途中結果、最終結果などを、一時的に記憶するレジスタをもたない構成をとるが、クリティカルパス削減のため、前サイクルに出力した結果を保持するプリフェッチ用のレジスタを備える構成もとって良い。
本発明の第2の実施例に係る半導体装置2は、図1の半導体装置1と同様に、処理部10と記憶部11とを備え、外部装置50と接続されている。処理部10は、演算部12と、制御部13とを備える。半導体装置2は、一定のクロック周波数のクロック信号と同期して演算処理を行うものとする。
図10は、本発明の第2の実施例に係る半導体装置2の演算部12と記憶部11の詳細な構成を示す図である。
図10に示すように、演算部12は、実施例1の半導体装置1と異なり、出力生成ユニット20を更に備える構成である。その他の構成は、実施例1の半導体装置1の構成と同様な構成である。記憶部11は、図7及び図9の構成と同様に、記憶ユニット120を1つ備える構成である。
演算部12は、記憶部11からデータを受け取り、制御部13から演算制御情報を受け取ると、演算制御情報が有効である場合に、演算制御情報に従って、データに対して演算処理を行い、演算結果(出力データ)を記憶部11へと出力する。
演算部12は演算ユニット100と、演算ユニット101とを備える。演算ユニット100は演算回路1000Aと、演算回路1000Bとを備える。
演算ユニット100と、演算ユニット101とはそれぞれ記憶部11から第1のデータ、第2のデータを受け取ると、演算処理を実行し、第1の演算結果と、第2の演算結果とを出力生成ユニット20へと出力する。
出力生成ユニット20は、演算ユニット100から入力される第1の演算結果と、演算ユニット101から入力される第2の演算結果とを入力とし、演算制御情報に従い、記憶部11へ出力する演算結果(出力データ)を生成する。
出力生成ユニット20は、演算ユニット100から入力される第1の演算結果と、演算ユニット101から入力される第2の演算結果と、の一方のみを演算結果(出力データ)として出力しても良いし、その両方を出力しても良い。
出力生成ユニット20は、例えば、一方の演算結果(例えば、第1の演算結果)が真の場合、もう一方の演算結果(例えば、第2の演算結果)を出力し、一方の演算結果(例えば、第1の演算結果)が偽の場合は、第1の演算結果と第2の演算結果の何も出力しないというように、一方の演算結果を条件として出力内容を変更しても良い。このように、一方の演算結果を条件として、出力内容を変更する処理として、条件分岐処理がある。
条件分岐処理として、例えば、If文(If〜then〜Else〜IfEnd)を行う処理がある。If文は、分岐条件が「真」のときは「Then」以降の処理を行い、「偽」のときは、「Else」以降の処理を行う命令である。その書式は「If条件 Then 真の時の処理 IfEnd」である。このIf文の終了コマンドは「IfEND」である。
本実施例の半導体装置2が、条件分岐処理を行う場合、例えば、第1の演算結果を分岐条件が「真」であるか「偽」であるかを判定するために用いて、第2の演算結果を、分岐条件が「真」のときの処理である「Then」以降の処理結果として用いるものとする。そして、「偽」のときの処理である「Else」以降の処理を「何も行わない」ものとする。この場合、出力生成ユニット20は、第1の演算結果から分岐条件が「真」か「偽」かを判定し、分岐条件が「真」であると判定した場合は、第2の演算結果を出力し、分岐条件が「偽」であると判定した場合は、第1の演算結果と第2の演算結果いずれも出力しない。
このように、本実施例の半導体装置2によれば、分岐条件が「真」であるか「偽」であるかを判定するための処理と、分岐条件が「真」である場合に実行する処理とを同時に処理することにより、条件分岐処理のスピード向上を達成することができる。
また、以上の例では、第1の演算結果が「真」の場合、第2の演算結果を出力すると説明したが、第1の演算結果、第2の演算結果両方を出力することとしても良い。また、第2の演算結果を分岐条件の判定のために用いて、第2の演算結果から「真」と判定できた場合、第1の演算結果を出力することとしてもよい。
また、第1の演算結果が「偽」であると判定した場合、第1の演算結果と第2の演算結果いずれも出力しないとしたが、第1の演算結果を出力してもよい。
また、第1の演算結果が「偽」であると判定した場合、第2の演算結果を出力し、第1の演算結果が[真]であると判定した場合、第1の演算結果と第2の演算結果いずれも出力しないとしてもよい。
また、第1の演算結果が「真」である場合、第1の演算結果を出力し、第1の演算結果が「偽」である場合、第2の演算結果を出力することとしても良い。
尚、以上の例では、一方の演算結果を条件として、出力内容を変更する処理として、条件分岐処理を例として説明したが、条件分岐処理に限られない。例えば、複数の演算部を備える構成において、それぞれの演算部で別の条件の際の処理を実行し、条件結果に応じて一つの結果のみを記憶部へと書き戻すといった方法がある。このように、条件判定処理を複数の演算部で実行することで、条件判定に要するサイクルを削減することができる。
尚、演算ユニット100と演算ユニット101は、出力生成ユニット20が出力する内容に従い、いずれか一方のみが動作しても良いし、二つのユニットが同時に動作しても良い。例えば、出力生成ユニット20が演算ユニット100、演算ユニット101のどちらか一方の演算結果のみを出力する場合は、演算結果を出力しない演算ユニットに対して演算制御情報を送らず、動作を停止させてもよい。このようにすることで構成情報や、消費電力を削減することができる。
また、実施例2の半導体装置によれば、実施例1の半導体装置と同様な効果を達成することができる。
図11は、本発明の第3の実施例に係る半導体装置の構成を示す図である。
図11に示すように、実施例3の半導体装置3は、実施例1の半導体装置と比べて、制御部13の構成をより具体的に示した構成である
制御部13は、演算制御情報記憶部14Aとリード・ライト制御情報記憶部14Bとポインタ通知部14Cとを備える構成である。
制御部13は、演算制御情報記憶部14Aとリード・ライト制御情報記憶部14Bとポインタ通知部14Cとを備える構成である。
ポインタ通知部14Cは、演算制御情報記憶部14Aに対して第1参照ポインタを通知し、リード・ライト制御情報記憶部14Bに対して第2参照ポインタを通知する。また、ポインタ通知部14Cは、開始制御信号を演算部12に通知する。演算部12は、開始制御信号を受け取ると、演算処理の実行を開始する。
リード・ライト制御情報記憶部14Aは、予め外部装置50から演算制御情報を受け取り記憶しておくことができる。そして、ポインタ通知部14Cが出力する第1参照ポインタを受けると、第1参照ポインタにしたがって、演算制御情報を演算部12に通知する。
リード・ライト制御情報記憶部14Bは、予め外部装置50からリード・ライト制御情報を受け取り記憶しておく。そして、ポインタ通知部14Cが出力する第2参照ポインタを受け取ると、第2参照ポインタにしたがって、リード・ライト制御情報を記憶部11に通知する。
実施例3の半導体装置によれば、外部装置50からの演算制御情報、リード・ライト制御情報を、それぞれ演算制御情報記憶部14A、リード・ライト制御情報記憶部14Bに予めまとまった量の制御情報を転送しておくことができ、適当なタイミングで演算制御情報とリード・ライト制御情報を演算部12及び記憶部11に通知できる。
また、実施例3の半導体装置によれば、実施例1の半導体装置と同様な効果を達成することができる。
図12に、本発明の第4の実施例に係る半導体装置の構成を示す。実施例4の半導体装置4は、実施例1の半導体装置1と異なり、処理部10が2つの演算部12Aと12Bを備える。
演算部12Aと演算部12Bは、実施例1で説明した演算部12の図4の構成と同様の構成である。演算部12Aと演算部12Bの内部構成の図示は省略し、図4の各構成要素の符号を置き換えて説明する。
演算部12Aは、2つの演算ユニット100A及び101Aを備えている。
演算ユニット100A、101Aは、直接に接続される演算回路の遅延指標の和が基準値Zを越えない範囲で、演算回路を複数個直列に配列することができる。
演算ユニット100Aは、遅延指標m1、・・・、mM(m1、・・・、mMは、自然数であり、かつ1以上k未満の値。)の第1乃至第M(Mは、2以上の整数)の演算回路を備えていて、かつ演算ユニット101Aは、遅延指標n1、・・・、nN(n1、・・・、nNは、自然数であり、かつk以上の値。)の第1乃至第N(Nは、1以上の整数であって、N<M)の演算回路を備える構成である。
ただし、演算ユニット100Aが備える演算回路の遅延指標の和(m1+・・・+mM)と、演算ユニット101Aが備える演算回路の遅延指標の和(n1+・・・+nN)とは、基準値Z以下である。例えば、演算ユニット100Aが備える演算回路の遅延指標の和(m1+・・・+mM)から定められる遅延時間と、演算ユニット101Aが備える演算回路の遅延指標の和(n1+・・・+nN)から定められる遅延時間とは、クロック信号の周期(基準値Z)以下であればよい。
また、演算部12Bは、2つの演算ユニット100B及び101Bを備えている。
演算ユニット100B、101Bは、直接に接続される演算回路の遅延指標の和が基準値Zを越えない範囲で、演算回路を複数個直列に配列することができる。
また、演算ユニット100Bは、遅延指標r1、・・・、rR(r1、・・・、rRは、自然数であり、かつ1以上j(jは1以上の整数。)未満の値。)の第1乃至第R(Rは、2以上の整数)の演算回路を備えていて、かつ演算ユニット101Bは、遅延指標s1、・・・、sS(s1、・・・、sSは、自然数であり、かつj以上の値。)の第1乃至第S(Sは、1以上の整数であって、S<R)の演算回路を備える構成である。
ただし、演算ユニット100Bが備える演算回路の遅延指標の和(r1+・・・+rR)と、演算ユニット101Bが備える演算回路の遅延指標の和(s1+・・・+sS)とは、基準値Z以下である。例えば、演算ユニット100が備える演算回路の遅延指標の和(r1+・・・+rR)から定められる遅延時間と、演算ユニット101が備える演算回路の遅延指標の和(s1+・・・+sS)から定められる遅延時間とは、クロック信号の周期(基準値Z)以下であればよい。
本実例の半導体装置4において、制御部13は、外部装置50から制御情報を受け取ると、開始制御信号とともに、演算部12Aに対して、第1の演算制御情報と第2の演算制御情報を通知し、演算部12Bに対して、第3の演算制御情報と第4の演算制御情報を通知する。演算部12Aは、開始制御信号を受け取ると、演算ユニット100Aが、記憶部11から読み出したデータに対して、第1の演算制御情報に規定される演算処理を行い、演算ユニット101Aが、記憶部11から読み出したデータに対して、第2の演算制御情報に規定された演算処理を行う。また、演算部12Bも、開始制御信号を受け取ると、演算ユニット100Bが、記憶部11から読み出したデータに対して、第3の演算制御情報に規定される演算処理を行い、演算ユニット101Bが、記憶部11から読み出したデータに対して、第4の演算制御情報に規定された演算処理を行う。また、演算ユニット100A、演算ユニット101A、演算ユニット100B及び演算ユニット101Bは、それぞれ演算処理を実行した出力である演算結果を記憶部11へと出力する。
尚、半導体装置4は、処理部10が3つ以上の演算部を備える構成としてもよい。この場合でも、各演算部が備える演算ユニットの演算回路の遅延指標の和が基準値Zを越えない範囲である構成とする。
本実施例の半導体装置4によれば、各々の演算部が、複雑度の低い演算を処理する演算ユニットと、複雑度の高い演算を処理する演算ユニットとを備え、複雑度の高い演算を処理する演算ユニットと複雑度の高い演算を処理する演算ユニットとが、それぞれ異なる数の演算回路を備える構成とすることにより、各種の演算命令の実行時間のバランスをとり、演算器の利用効率を向上することができる。また、各演算部は、予め定める遅延指標Zの範囲で演算ユニットを構成することから、半導体装置の動作するクロック周波数を保証することが可能となる。
図13に、本発明の第5の実施例に係る半導体装置の構成を示す。実施例5の半導体装置5は、実施例1の半導体装置1と異なり、2つの処理部(処理部10Cと10D)を備える。
処理部10Cと処理部10Dは、図1で示した処理部10と同様の構成である。処理部10Cと処理部10Dの内部構成の図示は省略し、図1の各構成要素の符号を置き換えて説明する。
処理部10Cは、制御部13Cと演算部12Cを備える構成である。
演算部12Cは、2つの演算ユニット100C及び101Cを備えている。演算部12Cは、図4で示した演算部12と同様の構成である。演算部12Cの図示は省略し、図4の各構成要素の符号を置き換えて説明する。
演算ユニット100C、101Cは、直接に接続される演算回路の遅延指標の和が基準値Zを越えない範囲で、演算回路を複数個直列に配列することができる。
演算ユニット100Cは、遅延指標m1、・・・、mM(m1、・・・、mMは、自然数であり、かつ1以上k未満の値。)の第1乃至第M(Mは、2以上の整数)の演算回路を備えていて、かつ演算ユニット101Dは、遅延指標n1、・・・、nN(n1、・・・、nNは、自然数であり、かつk以上の値。)の第1乃至第N(Nは、1以上の整数であって、N<M)の演算回路を備える構成である。
ただし、演算ユニット100Cが備える演算回路の遅延指標の和(m1+・・・+mM)と、演算ユニット101Cが備える演算回路の遅延指標の和(n1+・・・+nN)とは、基準値Z以下である。例えば、演算ユニット100Cが備える演算回路の遅延指標の和(m1+・・・+mM)から定められる遅延時間と、演算ユニット101Cが備える演算回路の遅延指標の和(n1+・・・+nN)から定められる遅延時間とは、クロック信号の周期(基準値Z)以下であればよい。
また、演算部12Dは、2つの演算ユニット100D及び101Dを備えている。
演算ユニット100D、101Dは、直接に接続される演算回路の遅延指標の和が基準値Zを越えない範囲で、演算回路を複数個直列に配列することができる。
処理部10Dは、制御部13Dと演算部12Dを備える構成である。演算部12Dは、図4で示した演算部12と同様の構成である。演算部12Dの図示は省略し、図4の各構成要素の符号を置き換えて説明する。
演算部12Dは、2つの演算ユニット100D及び101Dを備えている。
また、演算ユニット100Dは、遅延指標t1、・・・、tT(t1、・・・、tTは、自然数であり、かつ1以上h(hは1以上の整数。)未満の値。)の第1乃至第T(Tは、2以上の整数)の演算回路を備えていて、かつ演算ユニット101Dは、遅延指標u1、・・・、uU(u1、・・・、uUは、自然数であり、かつh以上の値。)の第1乃至第U(Uは、1以上の整数であって、U<T)の演算回路を備える構成である。
ただし、演算ユニット100Dが備える演算回路の遅延指標の和(t1+・・・+tT)と、演算ユニット101Dが備える演算回路の遅延指標の和(u1+・・・+uU)とは、基準値Z以下である。例えば、演算ユニット100が備える演算回路の遅延指標の和(t1+・・・+tT)から定められる遅延時間と、演算ユニット101が備える演算回路の遅延指標の和(u1+・・・+uU)から定められる遅延時間とは、クロック信号の周期(基準値Z)以下であればよい。
本実施例の半導体装置5において、制御部13Cは、外部装置50から第1の制御情報を受け取ると、開始制御信号とともに、演算部12Cに対して、第1の演算制御情報と第2の演算制御情報を通知する。制御部13Dは、外部装置50から第2の制御情報を受け取ると、開始制御信号とともに、演算部12Dに対して、第5の演算制御情報と第6の演算制御情報を通知する。演算部12Cは、開始制御信号を受け取ると、演算ユニット100Cが、記憶部11から読み出したデータに対して、第1の演算制御情報に規定される演算処理を行い、演算ユニット101Cが、記憶部11から読み出したデータに対して、第2の演算制御情報に規定された演算処理を行う。また、演算部12Dも、開始制御信号を受け取ると、演算ユニット100Dが、記憶部11から読み出したデータに対して、第5の演算制御情報に規定される演算処理を行い、演算ユニット101Dが、記憶部11から読み出したデータに対して、第6の演算制御情報に規定された演算処理を行う。また、処理部10C及び処理部10Dは、演算処理を実行した出力である演算結果を記憶部11へと出力する。
尚、処理部10C、10Dはそれぞれ演算部を複数備える構成としてもよい。
また、半導体装置5は、処理部を3つ以上備える構成としてもよい。この場合でも、各処理部が備える演算部の演算ユニットの演算回路の遅延指標の和が基準値Zを越えない範囲である構成とする。
本実施例の半導体装置5によれば、各々の処理部の各演算部が、複雑度の低い演算を処理する演算ユニットと、複雑度の高い処理をする演算ユニットとを備え、複雑度の高い処理をする演算ユニットと複雑度の低い処理をする演算ユニットとが、異なる数の演算回路を備える構成とすることにより、各種の演算命令の実行時間のバランスをとり、演算器の利用効率を向上することができる。また、各処理部の各演算部は、予め定める遅延指標Zの範囲で演算ユニットを構成することから、半導体装置4の動作するクロック周波数を保証することが可能となる。
なお、本発明は上記実施例そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施例に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。
1、2、3、4、5・・・半導体装置、50・・・外部装置、13・・・制御部、12、12A、12B・・・演算部、11・・・記憶部、10、10C、10D・・・処理部、100・・・演算ユニット、101・・・演算ユニット、102・・・セレクタ、14A・・・演算制御情報記憶部、14B・・・リード・ライト制御情報記憶部、14C・・・ポインタ通知部、1000A、1000B、1001、1000M1〜1000MM、1000N1〜1000NN・・・演算回路、2000A、2000B・・・論理演算器、2001A、2001B・・・算術演算器、110、111、120・・・記憶ユニット、20・・・出力生成ユニット。
Claims (5)
- クロック信号に同期して演算処理を実行する半導体装置であって、
各演算回路が実行する演算を制御するための第1の演算制御情報と第2の演算制御情報とを出力する制御部と、
第1のデータと第2のデータとを記憶する記憶部と、
前記クロック信号に同期して動作し、前記第1の演算制御情報に従って、前記第1のデータに対して演算処理を行い、第3のデータを出力する第1の演算ユニットと、
前記クロック信号に同期して動作し、前記第2の演算制御情報に従って、前記第2のデータに対して演算処理を行い、第4のデータを出力する第2の演算ユニットとを備え、
前記第1の演算ユニットは、直列に接続された第1乃至第M(Mは、2以上の整数)の演算回路を備え、
前記第m+1(mは、1以上M−1以下の整数)段の演算回路は、前記第m段の演算回路の演算結果に対して、演算処理を行うものであって、
前記第1乃至第Mの演算回路の遅延量を示す遅延指標は、それぞれ、m1、・・・、mM(m1、・・・、mMは、自然数)であって、
前記第2の演算ユニットは、遅延量を示す遅延指標がn(nは1以上の整数)の演算回路を少なくとも備え、
前記第1の演算ユニットが備える演算回路の遅延指標の和(m1+・・・+mM)によって定められる遅延時間と、前記第2の演算ユニットが備える演算回路の遅延指標nによって定められる遅延時間とは、それぞれ、前記クロック信号の周期以下であることを特徴とする半導体装置。 - 前記記憶部は、前記第1の演算ユニットが演算処理を行うデータを記憶する第1の記憶ユニットと、前記第2の演算ユニットが演算処理を行うデータを記憶する第2の記憶ユニットとを備え、
前記第1の演算ユニットは、前記第1の記憶ユニットに記憶されるデータを読み出し、前記第3のデータを前記第1の記憶ユニットと前記第2の記憶ユニットのどちらか一方、もしくは両方に書き込み、
前記第2の演算ユニットは、前記第2の記憶ユニットに記憶されるデータを読み出し、前記第4のデータを前記第1の記憶ユニットと前記第2の記憶ユニットのどちらか一方、もしくは両方に書き込むことを特徴とする
請求項1記載の半導体装置。 - 前記記憶部は、前記第1の演算ユニット及び前記第2の演算ユニットが演算処理を行うデータを記憶する記憶ユニットを備えるものであり、
前記第1の演算ユニットの演算結果と前記第2の演算ユニットの演算結果との双方が入力可能であって、前記第3のデータと前記第4のデータのいずれか一方を選択するセレクタをさらに備え、
前記セレクタによって選択された一方が前記記憶部に書き込まれることを特徴とする
請求項1記載の半導体装置。 - 前記制御部は、第3の演算制御情報と第4の演算制御情報とを出力し、
前記記憶部は、第5のデータと第6のデータとを記憶し、
前記クロック信号に同期して動作し、前記第3の演算制御情報に従い、前記第5のデータに対して演算処理を行い、第7のデータを出力する第3の演算ユニットと、
前記クロック信号に同期して動作し、前記第4の演算制御情報に従い、前記第6のデータに対して演算処理を行い、第8のデータを出力する第4の演算ユニットとをさらに備え、
前記第3の演算ユニットは、直列に接続された第1乃至第R(Rは、2以上の整数)の演算回路を備え、
前記第r+1(rは、1以上R−1以下の整数)段の演算回路は、前記第r段の演算回路の演算結果に対して、演算処理を行うものであって、
前記第1乃至第Rの演算回路の遅延量を示す遅延指標は、それぞれ、r1、・・・、rR(r1、・・・、rRは、自然数)であって、
前記第4の演算ユニットは、遅延量を示す遅延指標がs(sは1以上の整数)の演算回路を少なくとも備え、
前記第3の演算ユニットが備える演算回路の遅延指標の和(r1+・・・+rR)によって定められる遅延時間と、前記第4の演算ユニットが備える演算回路の遅延指標sとによって定められる遅延時間は、それぞれ、前記クロック信号の周期以下である
ことを特徴とする請求項1記載の半導体装置。 - 前記記憶部は、第9のデータと第10のデータとを記憶し、
各演算回路が実行する演算を制御するための第5の演算制御情報と第6の演算制御情報とを出力する第2の制御部と、
前記クロック信号に同期して動作し、前記第5の演算制御情報に従って、前記第9のデータに対して演算処理を行い、第11のデータを出力する第5の演算ユニットと、
前記クロック信号に同期して動作し、前記第6の演算制御情報に従って、前記第10のデータに対して演算処理を行い、第12のデータを出力する第6の演算ユニットとをさらに備え、
前記第5の演算ユニットは、直列に接続された第1乃至第T(Tは、2以上の整数)の演算回路を備え、
前記第t+1(tは、1以上T−1以下の整数)段の演算回路は、前記第t段の演算回路の演算結果に対して、演算処理を行うものであって、
前記第1乃至第Tの演算回路の遅延量を示す遅延指標は、それぞれ、t1、・・・、tT(t1、・・・、tTは、自然数)であって、
前記第6の演算ユニットは、遅延量を示す遅延指標がu(uは1以上の整数)の演算回路を少なくとも備え、
前記第5の演算ユニットが備える演算回路の遅延指標の和(t1+・・・+tT)によって定められる遅延時間と、前記第6の演算ユニットが備える演算回路の遅延指標uによって定められる遅延時間とは、それぞれ、前記クロック信号の周期以下である
ことを特徴とする請求項1記載の半導体装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010114441A JP2011242995A (ja) | 2010-05-18 | 2010-05-18 | 半導体装置 |
US13/064,316 US8719615B2 (en) | 2010-05-18 | 2011-03-17 | Semiconductor device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010114441A JP2011242995A (ja) | 2010-05-18 | 2010-05-18 | 半導体装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013089224A Division JP5701930B2 (ja) | 2013-04-22 | 2013-04-22 | 半導体装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011242995A true JP2011242995A (ja) | 2011-12-01 |
Family
ID=44973464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010114441A Pending JP2011242995A (ja) | 2010-05-18 | 2010-05-18 | 半導体装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8719615B2 (ja) |
JP (1) | JP2011242995A (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1102165A1 (en) * | 1999-11-15 | 2001-05-23 | Texas Instruments Incorporated | Microprocessor with execution packet spanning two or more fetch packets |
WO2007133893A1 (en) * | 2006-05-10 | 2007-11-22 | Qualcomm Incorporated | Encoding hardware end loop information onto an instruction |
JP2008090744A (ja) * | 2006-10-04 | 2008-04-17 | Matsushita Electric Ind Co Ltd | プロセッサおよびオブジェクトコード生成装置 |
JP2009536774A (ja) * | 2006-05-10 | 2009-10-15 | クゥアルコム・インコーポレイテッド | マイクロプロセッサ内において複数のレジスタユニットからの対応する半語ユニットを結合するための方法及びシステム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3528922B2 (ja) | 2001-08-31 | 2004-05-24 | 日本電気株式会社 | アレイ型プロセッサ、データ処理システム |
US7571303B2 (en) * | 2002-10-16 | 2009-08-04 | Akya (Holdings) Limited | Reconfigurable integrated circuit |
US7804504B1 (en) * | 2004-12-13 | 2010-09-28 | Massachusetts Institute Of Technology | Managing yield for a parallel processing integrated circuit |
WO2011121709A1 (ja) | 2010-03-29 | 2011-10-06 | 株式会社東芝 | 半導体装置 |
-
2010
- 2010-05-18 JP JP2010114441A patent/JP2011242995A/ja active Pending
-
2011
- 2011-03-17 US US13/064,316 patent/US8719615B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1102165A1 (en) * | 1999-11-15 | 2001-05-23 | Texas Instruments Incorporated | Microprocessor with execution packet spanning two or more fetch packets |
JP2001202241A (ja) * | 1999-11-15 | 2001-07-27 | Texas Instr Inc <Ti> | 実行パケットが2以上の取出しパケットをスパンするマイクロプロセッサを備えるディジタル処理システム及び同システムの操作方法 |
WO2007133893A1 (en) * | 2006-05-10 | 2007-11-22 | Qualcomm Incorporated | Encoding hardware end loop information onto an instruction |
JP2009536769A (ja) * | 2006-05-10 | 2009-10-15 | クゥアルコム・インコーポレイテッド | ハードウェアエンドループ情報の命令へのコード化 |
JP2009536774A (ja) * | 2006-05-10 | 2009-10-15 | クゥアルコム・インコーポレイテッド | マイクロプロセッサ内において複数のレジスタユニットからの対応する半語ユニットを結合するための方法及びシステム |
JP2008090744A (ja) * | 2006-10-04 | 2008-04-17 | Matsushita Electric Ind Co Ltd | プロセッサおよびオブジェクトコード生成装置 |
Non-Patent Citations (4)
Title |
---|
CSNH199900202001; 西尾 誠一 他: '「高性能LSI設計用CADシステム」' 東芝レビュー 第48巻 第7号, 19930701, 515頁〜518頁, 株式会社東芝 * |
CSNH200500206002; 金澤 裕治 他: '「システムLSI設計のためのタイミング設計CADツール」' FUJITSU VOL.55 NO.6 第55巻 第6号, 20041110, 603頁〜607頁, 富士通株式会社 * |
JPN6013001633; 西尾 誠一 他: '「高性能LSI設計用CADシステム」' 東芝レビュー 第48巻 第7号, 19930701, 515頁〜518頁, 株式会社東芝 * |
JPN6013001634; 金澤 裕治 他: '「システムLSI設計のためのタイミング設計CADツール」' FUJITSU VOL.55 NO.6 第55巻 第6号, 20041110, 603頁〜607頁, 富士通株式会社 * |
Also Published As
Publication number | Publication date |
---|---|
US8719615B2 (en) | 2014-05-06 |
US20110289339A1 (en) | 2011-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8612726B2 (en) | Multi-cycle programmable processor with FSM implemented controller selectively altering functional units datapaths based on instruction type | |
JP4527571B2 (ja) | 再構成可能演算処理装置 | |
CN104272248B (zh) | 处理器指令集中的谓词计算方法和装置 | |
EP2579164B1 (en) | Multiprocessor system, execution control method, execution control program | |
JP2016526220A (ja) | プログラム可能な最適化を有するメモリネットワークプロセッサ | |
JP2008530642A (ja) | 低レイテンシーの大量並列データ処理装置 | |
US8281113B2 (en) | Processor having ALU with dynamically transparent pipeline stages | |
US8977835B2 (en) | Reversing processing order in half-pumped SIMD execution units to achieve K cycle issue-to-issue latency | |
US8402251B2 (en) | Selecting configuration memory address for execution circuit conditionally based on input address or computation result of preceding execution circuit as address | |
US20240004663A1 (en) | Processing device with vector transformation execution | |
US7509479B2 (en) | Reconfigurable global cellular automaton with RAM blocks coupled to input and output feedback crossbar switches receiving clock counter value from sequence control unit | |
US20090319762A1 (en) | Dynamic reconfigurable circuit and data transmission control method | |
JP5701930B2 (ja) | 半導体装置 | |
JP2011242995A (ja) | 半導体装置 | |
JP2006018411A (ja) | プロセッサ | |
JP6432348B2 (ja) | 演算装置及び演算方法 | |
JP2008198003A (ja) | アレイ型プロセッサ | |
CN113407239B (zh) | 一种基于异步单轨的流水线处理器 | |
KR101484600B1 (ko) | 카운터 기반 멀티 사이클 프로세서 제어 장치 | |
CN117009287A (zh) | 一种于弹性队列存储的动态可重构处理器 | |
JP4851964B2 (ja) | デュアルポートメモリを用いた同期化回路 | |
JP2008283396A (ja) | メモリ、シフトレジスタ、集積回路及び処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120622 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130122 |