JP5115922B2 - Communication device for data-driven processing device having tree-type shunt and confluence channel and packet transfer method for data-driven processing device - Google Patents

Communication device for data-driven processing device having tree-type shunt and confluence channel and packet transfer method for data-driven processing device Download PDF

Info

Publication number
JP5115922B2
JP5115922B2 JP2007083590A JP2007083590A JP5115922B2 JP 5115922 B2 JP5115922 B2 JP 5115922B2 JP 2007083590 A JP2007083590 A JP 2007083590A JP 2007083590 A JP2007083590 A JP 2007083590A JP 5115922 B2 JP5115922 B2 JP 5115922B2
Authority
JP
Japan
Prior art keywords
packet
node
flow path
tree
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007083590A
Other languages
Japanese (ja)
Other versions
JP2008242895A (en
Inventor
哲朗 佐藤
文法 河口
友洋 米田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NODC INCORPORATED
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
NODC INCORPORATED
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NODC INCORPORATED, Inter University Research Institute Corp Research Organization of Information and Systems filed Critical NODC INCORPORATED
Priority to JP2007083590A priority Critical patent/JP5115922B2/en
Publication of JP2008242895A publication Critical patent/JP2008242895A/en
Application granted granted Critical
Publication of JP5115922B2 publication Critical patent/JP5115922B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、データ駆動型半導体装置に用いられ、ツリー型分流路及び合流路を備えたデータ駆動型処理装置用通信路装置及びデータ駆動型処理装置用パケット転送方式に係り、特に、該配列された複数の機能エレメントがメモリ行アレイ、レジスタアレイ、処理要素アレイ又はキューアレイであるツリー型分流路及び合流路を備えたデータ駆動型処理装置用通信路装置及びデータ駆動型処理装置用パケット転送方式に関する。   The present invention relates to a data-driven processing device communication channel device and a data-driven processing device packet transfer system that are used in a data-driven semiconductor device and have a tree-type branching channel and a combined channel. Communication device for data-driven processing device and packet transfer method for data-driven processing device having a tree-type shunt path and a combined flow path in which a plurality of functional elements are a memory row array, a register array, a processing element array or a queue array About.

データ駆動型半導体装置では、ローカルな同期制御が複数の要素のそれぞれで自立分散的に行われるので、システムクロックに同期して各要素を集中制御する同期型半導体装置よりも、処理の並列度を容易に高くすることができるとともに、消費電力を低減できる。   In a data driven semiconductor device, local synchronization control is performed in a self-supporting and distributed manner by each of a plurality of elements. Therefore, the parallelism of processing is higher than that of a synchronous semiconductor device that centrally controls each element in synchronization with a system clock. It can be easily increased and power consumption can be reduced.

しかしながら、従来のデータ駆動型半導体装置では、アドレス入力がパイプライン処理されない通常のメモリやキャッシュメモリを用いていたので、並列度の高いデータ駆動型処理装置でランダムアクセスすると、アクセス毎の遅延が累積されてスループット(単位時間当たりに処理可能なデータ数)を充分に向上させることができない。   However, the conventional data driven semiconductor device uses a normal memory or cache memory in which address input is not pipelined. Therefore, if random access is performed by a data driven processing device having a high degree of parallelism, the delay for each access is accumulated. Thus, the throughput (the number of data that can be processed per unit time) cannot be sufficiently improved.

この問題を解決するため、下記特許文献1では、通常の、共用メモリと第1〜4メモリと複数のキャッシュメモリとを用いて、システムのスループットを向上させている。   In order to solve this problem, in Patent Document 1 below, the system throughput is improved by using a common shared memory, first to fourth memories, and a plurality of cache memories.

また、下記特許文献2では、通常のメモリ毎に通常のキャッシュメモリを備え、キャッシュメモリがページの最終ワードを読出したときに、所定ページ先のデータを先読みすることにより、システムのスループットを向上させている。
特開平5−108852 特開2003−114827
In Patent Document 2 below, a normal cache memory is provided for each normal memory, and when the last word of a page is read by the cache memory, data of a predetermined page ahead is prefetched to improve the system throughput. ing.
JP 5-108852 JP2003-114825A

しかし、上記いずれの特許文献に開示された方法を用いても、通常のメモリを複数用い、かつ、通常のキャッシュメモリを用いているので、消費電力が大きい。特に、処理の並列度が高くなると、この問題が顕著になり、長電池寿命が要求されるモバイル機器には適しない。   However, even if any of the methods disclosed in any of the above patent documents is used, power consumption is large because a plurality of normal memories are used and a normal cache memory is used. In particular, when the degree of parallelism of processing increases, this problem becomes remarkable, and it is not suitable for mobile devices that require a long battery life.

また、通常のキャッシュメモリは並列処理ができず、かつ、オートマトンの場合のように不連続なデータを取り扱う場合にはミスヒットが多くなって待ち時間が長くなるので、複数の要素のそれぞれが自立分散処理を行う多並列データ駆動型処理装置とは相性が悪く、スループットを充分に向上させることができない。   In addition, normal cache memory cannot perform parallel processing, and when discontinuous data is handled as in the case of automata, the number of misses increases and the waiting time increases, so each of the multiple elements is independent. It is incompatible with a multi-parallel data driven processing device that performs distributed processing, and the throughput cannot be sufficiently improved.

このような問題は、データ駆動型処理装置で同期型プロセッサを使用する場合にも生ずる。この問題は、メモリ等を、分散処理を低消費電力で実行できるデータ駆動型の構成にすることにより解決できる。   Such a problem also occurs when a synchronous processor is used in a data driven processing apparatus. This problem can be solved by making the memory or the like a data driven type configuration capable of executing distributed processing with low power consumption.

本発明の目的は、このような問題点に鑑み、記憶素子アレイや処理要素アレイなどの機能エレメントアレイを備え分散的にパイプライン処理を行うデータ駆動型半導体装置を容易に構成することを可能にするツリー型分流路及び合流路を備えたデータ駆動型処理装置用通信路装置及びデータ駆動型処理装置用パケット転送方式を提供することにある。   In view of such problems, the object of the present invention is to make it possible to easily configure a data driven semiconductor device that includes a functional element array such as a memory element array or a processing element array and that performs distributed pipeline processing. Another object of the present invention is to provide a data-driven processing device communication path device and a data-driven processing device packet transfer system having a tree-type branching channel and a combined channel.

本発明の第1態様では、入口ノードに供給されるパケットを、該パケットの行先アドレスに応じて、配列された複数の機能エレメントの1つへ選択的に転送させる上り流路と、選択された機能エレメントで生成されたパケットを出口ノードへ転送する下り流路とを有するデータ駆動型処理装置用通信路装置において、
該上り流路は、該入口ノードに供給される第1パケットを、パケット内の行先アドレスに応じ下流側のノードへ順次選択的に分流させて、該複数の機能エレメントの1つへ選択的に転送させるツリー形分流路であり、
該下り流路は、該複数の機能エレメントのうち選択されたものから、該第1パケットに対応した第2パケットを下流側へ順次選択的に合流させて該出口ノードに到達させるツリー形合流路であり、
該ツリー形分流路及び該ツリー形合流路の各ノードがパイプラインステージを構成し、該ツリー形分流路及び該ツリー形合流路のパイプライン段数がそれぞれ3以上である。
In the first aspect of the present invention, the upstream channel that selectively transfers the packet supplied to the ingress node to one of a plurality of functional elements arranged according to the destination address of the packet is selected. In a data-driven processing device communication path device having a downstream path for transferring a packet generated by a functional element to an egress node,
The upstream flow path selectively diverts the first packet supplied to the ingress node sequentially to a downstream node according to a destination address in the packet, and selectively selects one of the plurality of functional elements. It is a tree-shaped branch channel to be transferred,
The downstream flow path is a tree-shaped combined flow path that selectively combines the second packet corresponding to the first packet downstream from the selected one of the plurality of functional elements to reach the egress node. And
Each node of the tree-shaped branch flow path and the tree-shaped combined flow path constitutes a pipeline stage, and the number of pipeline stages of the tree-shaped branched flow path and the tree-shaped combined flow path is 3 or more, respectively.

本発明の第2態様では、第1態様において、該ツリー形分流路内において、互いに相補的な行先アドレスを有するパケットの経路が、流路方向の軸に関し互いに、論理的に対称になるように、該ツリー形分流路が形成されている。   In a second aspect of the present invention, in the first aspect, in the tree-shaped branch flow path, the paths of packets having destination addresses complementary to each other are logically symmetric with respect to an axis in the flow path direction. The tree-shaped branch channel is formed.

本発明の第3態様では、第2態様において、任意の行先アドレスについて、該ツリー形分流路内でのパケットの経路と該ツリー形合流路内でのパケットの経路とが、流路と直角な方向の軸に関し互いに、論理的に対称になるように、該ツリー形分流路及び該ツリー形合流路が形成されている。   According to a third aspect of the present invention, in the second aspect, for any destination address, the packet path in the tree-shaped branch path and the packet path in the tree-shaped combined path are perpendicular to the flow path. The tree-shaped branch channel and the tree-shaped combined channel are formed so as to be logically symmetric with respect to the direction axis.

本発明によるデータ駆動型処理装置用通信路装置の第4態様では、第1態様において、該パケットは系統値を有し、
該ツリー形分流路は、系統毎に異なる該入口ノードを有し、中間ノードで複数の系統からのパケットを選択的に合流させ、出力段の各ノードが各系統で共通であり、
該ツリー形合流路は、入力段の各ノードが各系統で共通であり、中間ノードで複数の系統からのパケットを該系統値に基づき選択的に分岐させ、系統毎に異なる該出口ノードを有する。
In a fourth aspect of the data-driven processing device communication path device according to the present invention, in the first aspect, the packet has a system value,
The tree-shaped branch channel has the different entry nodes for each system, selectively joins packets from a plurality of systems at intermediate nodes, and each node of the output stage is common to each system,
In the tree-shaped joint channel, each node of the input stage is common to each system, and packets from a plurality of systems are selectively branched based on the system value at an intermediate node, and have different exit nodes for each system. .

本発明の第5態様では、第4態様において、該ツリー形分流路内において、互いに相補的な行先アドレスを有するパケットの経路が、流路方向の軸に関し互いに、論理的に対称になるように、該ツリー形分流路が形成されている。   According to a fifth aspect of the present invention, in the fourth aspect, in the tree-shaped branch flow path, paths of packets having destination addresses complementary to each other are logically symmetric with respect to an axis in the flow path direction. The tree-shaped branch channel is formed.

本発明の第6態様では、第4又は5態様において、任意の行先アドレスについて、該ツリー形分流路内でのパケットの経路と該ツリー形合流路内でのパケットの経路とが、流路と直角な方向の軸に関し互いに、論理的に対称になるように、該ツリー形分流路及び該ツリー形合流路が形成されている。   According to a sixth aspect of the present invention, in the fourth or fifth aspect, for any destination address, the path of the packet in the tree-shaped branch path and the path of the packet in the tree-shaped combined path are: The tree-shaped branch channel and the tree-shaped channel are formed so as to be logically symmetric with respect to an axis in a perpendicular direction.

本発明によるデータ駆動型処理装置用通信路装置の第7態様では、第6態様において、該ツリー形分流路上のパケットはパケット側分岐段識別子を含み、該ツリー形分流路の各ノードは、固定のノード側分岐段識別子を有し、該パケット側分岐段識別子が該ノード側分岐段識別子に対応しているか否かを判定する。   According to a seventh aspect of the communication path device for a data driven processor according to the present invention, in the sixth aspect, the packet on the tree-shaped branch channel includes a packet side branch stage identifier, and each node of the tree-shaped branch channel is fixed. It is determined whether or not the packet side branch stage identifier corresponds to the node side branch stage identifier.

本発明によるデータ駆動型処理装置用通信路装置の第8態様では、第7態様において、該ツリー形分流路の各入口ノードの上流側に分岐段識別子生成ノードをさらに備え、該分岐段識別子生成ノードは、互いに関連する複数のパケット内のそれぞれの行先アドレスの値に基づき、該パケット側分岐段識別子の値を生成する。   According to an eighth aspect of the data-driven processing device communication path device of the present invention, in the seventh aspect, a branch stage identifier generation node is further provided upstream of each inlet node of the tree-shaped branch channel, and the branch stage identifier generation is performed. The node generates the value of the packet side branch stage identifier based on the value of each destination address in the plurality of packets associated with each other.

本発明によるデータ駆動型処理装置用通信路装置の第9態様では、第6態様において、該ツリー形合流路上のパケットはパケット側合流段識別子を含み、該ツリー形合流路の各ノードは、固定のノード側合流段識別子を有し、該パケット側合流段識別子が該ノード側合流段識別子に対応しているか否かを判定する。   According to a ninth aspect of the communication path device for a data driven processor according to the present invention, in the sixth aspect, the packet on the tree-shaped merge channel includes a packet side merge stage identifier, and each node of the tree-shaped merge channel is fixed. It is determined whether or not the packet side merge stage identifier corresponds to the node side merge stage identifier.

本発明によるデータ駆動型処理装置用通信路装置の第10態様では、第9態様において、該ツリー形分流路の各入口ノードの上流側に合流段識別子生成ノードをさらに備え、該合流段識別子生成ノードは、互いに関連する複数のパケット内のそれぞれの行先アドレスの値に基づき、該パケット側合流段識別子の値を生成する。   According to a tenth aspect of the data-driven processing device communication path device of the present invention, in the ninth aspect, a merging stage identifier generation node is further provided upstream of each inlet node of the tree-shaped branching channel, and the merging stage identifier generation is performed. The node generates the value of the packet side merge stage identifier based on the value of each destination address in the plurality of packets associated with each other.

本発明によるデータ駆動型処理装置用通信路装置の第11態様では、第6乃至10態様のいずれか1つにおいて、該ツリー形合流路の複数の出口ノードをそれぞれ、対応する該合流段識別子生成ノードに結合させる通信路をさらに有する。   In an eleventh aspect of the data-driven processing device communication path device according to the present invention, in any one of the sixth to tenth aspects, each of the plurality of outlet nodes of the tree-shaped joining flow path is generated corresponding to the joining stage identifier. A communication path coupled to the node is further included.

本発明によるデータ駆動型処理装置用通信路装置の第12態様では、第6乃至11態様のいずれか1つにおいて、該ツリー形分流路は、該複数の入口ノードのそれぞれから、系統間で合流せずに分流した位置に、次段のノードを有する。   In a twelfth aspect of the data-driven processing device communication path device according to the present invention, in any one of the sixth to eleventh aspects, the tree-shaped branch flow path joins between the systems from each of the plurality of inlet nodes. A node in the next stage is provided at a position where the current is not divided.

上記第1態様の構成によれば、複数の機能エレメントを介してツリー形分流路及びツリー形合流路を配設(必ずしも対向位置に配設する必要はなく、機能エレメントアレイによっては、例えば流路方向のなす角度を90°にしてもよい。)するという簡単な構成で、集積配置された複数の機能エレメントの任意の1つに対し、行き先アドレスを含むパケットを転送し、これに対応したパケットをツリー形合流路の出口ノードから取り出すことができるという効果を奏する。   According to the configuration of the first aspect, the tree-shaped branch flow path and the tree-shaped combined flow path are disposed via the plurality of functional elements (there is not necessarily disposed at the opposing position. For example, depending on the functional element array, the flow path The angle formed by the direction may be 90 °.) With a simple configuration, a packet including a destination address is transferred to any one of a plurality of functional elements arranged in an integrated manner, and a packet corresponding thereto Can be taken out from the exit node of the tree-shaped joint flow path.

また、流路幅が比較的広い分流路出口側及び合流路入口側でパケットの混雑が避けられるので、機能エレメントでの処理の遅延が複数の機能エレメントでの分散並列処理により吸収され、ランダムアクセス又は処理のスループットが比較的高いという効果を奏する。   In addition, packet congestion can be avoided on the channel outlet side and merge channel inlet side because of the relatively wide channel width, so processing delays in functional elements are absorbed by distributed parallel processing in multiple functional elements, and random access Alternatively, the processing throughput is relatively high.

例えば、本発明のデータ駆動型処理装置用通信路装置を用いてメモリを構成し、これをマルチCPUの共有メモリとして使用すれば、待ち行列ができても分散パイプライン処理による多並列処理が行われてスループットが比較的高くなるので、特にこのような用途に本発明は有効である。   For example, if a memory is configured using the communication path device for a data driven processing device of the present invention and this is used as a shared memory of a multi CPU, even if a queue is formed, a multi-parallel processing by distributed pipeline processing is performed. Since the throughput is relatively high, the present invention is particularly effective for such applications.

また、データ駆動型回路でプロセッサを構成した場合、通常のメモリを多数用いて並列度を上げるよりも1つのデータ駆動型メモリを用いた方が消費電力を大幅に低減できるので、特に長電池寿命が要求されるモバイル機器に用いて好適である。   In addition, when a processor is configured with a data driven circuit, the power consumption can be greatly reduced by using one data driven memory rather than using a large number of ordinary memories to increase the degree of parallelism. It is suitable for use in mobile devices that require

分流路は、デコーダとして機能するとともに、キューとしても機能する。合流路は、パケットを集配する機能を有するとともに、キューとしても機能する。したがって、分流路の入口ノードにパケットが不定期に供給され、且つ、その平均時間が、例えば合流路の出口ノードに備えられた処理要素の処理時間にほぼ等しい場合には、外部にキューを設けることなく、効率よく処理を行うことができる。この平均時間は、入口ノードにパケットを供給する回路又は装置の並列度を調整することにより、適正な値に変更可能である。   The shunt channel functions not only as a decoder but also as a queue. The combined flow path has a function of collecting and delivering packets and also functions as a queue. Therefore, when a packet is irregularly supplied to the inlet node of the diversion channel and the average time is approximately equal to the processing time of the processing element provided in the outlet node of the combined flow channel, for example, a queue is provided outside. Without any problem. This average time can be changed to an appropriate value by adjusting the parallelism of the circuit or device that supplies the packet to the ingress node.

また、入口ノードへの1パケットに対し出口ノードから複数パケットが取り出される場合にも、出口ノードの後段側がキューとして機能し、キューを新たに設けることなく、効率よく処理を行うことができる。   Even when a plurality of packets are extracted from the egress node for one packet to the ingress node, the downstream side of the egress node functions as a queue, and processing can be performed efficiently without providing a new queue.

したがって、分流路及び合流路の段数が比較的多くても、逆に利点となる場合がある。   Therefore, even if the number of stages of the branch flow path and the combined flow path is relatively large, there may be an advantage in reverse.

上記第2態様の構成によれば、対称性に基づいて論理をノードに付加することが可能となるので、ハードウェア設計が容易になるという効果を奏する。   According to the configuration of the second aspect, it is possible to add logic to the node based on symmetry, so that the hardware design becomes easy.

上記第3態様の構成によれば、さらなる対称性により、前記効果が高められる。   According to the structure of the said 3rd aspect, the said effect is heightened by the further symmetry.

上記第4態様の構成によれば、並列度をさらに高めることができ、また、複数の系統で、流路幅が比較的広い分流路の後段及び合流路の前段を共用するので、パフォーマンス低下を抑制しつつ通信路の規模に対する並列度を高くすることができるという効果を奏する。   According to the configuration of the fourth aspect, it is possible to further increase the degree of parallelism, and in a plurality of systems, the downstream of the flow path and the previous stage of the combined flow path are shared by a relatively wide flow path width, so that the performance is reduced. There is an effect that the degree of parallelism with respect to the size of the communication path can be increased while being suppressed.

上記第5態様の構成によれば、複数系統を有する場合にも上記第2態様の効果を奏する。   According to the configuration of the fifth aspect, the effect of the second aspect is achieved even when a plurality of systems are provided.

上記第6態様の構成によれば、さらなる対称性により、前記効果が高められる。   According to the structure of the said 6th aspect, the said effect is heightened by the further symmetry.

上記第7態様の構成によれば、パケット側分岐段識別子とノード側分岐段識別子との関係に基づいて処理を行う機能をノードに付加することができるという効果を奏する。   According to the structure of the said 7th aspect, there exists an effect that the function which performs a process based on the relationship between a packet side branch stage identifier and a node side branch stage identifier can be added to a node.

上記第8態様の構成によれば、ツリー形分流路の各入口ノードの上流側に分岐段識別子生成ノードを備えているので、ツリー形分流路の各ノードに分岐段識別子生成機能を付加する必要が無く、構成が簡単になるという効果を奏する。   According to the configuration of the eighth aspect, since the branch stage identifier generation node is provided upstream of each inlet node of the tree-type branch path, it is necessary to add a branch stage identifier generation function to each node of the tree-type branch path. There is no effect, and the configuration is simplified.

上記第9態様の構成によれば、パケット側合流段識別子とノード側合流段識別子との関係に基づいて処理を行う機能をノードに付加することができるという効果を奏する。   According to the structure of the said 9th aspect, there exists an effect that the function which performs a process based on the relationship between a packet side joining stage identifier and a node side joining stage identifier can be added to a node.

上記第10態様の構成によれば、ツリー形分流路の各入口ノードの上流側に合流段識別子生成ノードを備えているので、ツリー形分流路の各ノードに合流段識別子生成機能を付加する必要が無く、構成が簡単になるという効果を奏する。   According to the configuration of the tenth aspect, since the merge stage identifier generation node is provided upstream of each inlet node of the tree-shaped branch path, it is necessary to add a merge stage identifier generation function to each node of the tree-shaped branch path. There is no effect, and the configuration is simplified.

上記第11態様の構成によれば、ツリー形合流路の複数の出口ノードをそれぞれ、対応する合流段識別子生成ノードに結合させる通信路をさらに有するので、繰り返し処理が可能になるという効果を奏する。   According to the configuration of the eleventh aspect, since the plurality of exit nodes of the tree-shaped joining channel are further connected to the corresponding joining stage identifier generating nodes, there is an effect that repeated processing is possible.

上記第12態様の構成によれば、ツリー形分流路での入口ノード側の比較的狭い流路幅が拡大するので、パケット混雑度を効果的に低減してスループットを向上させることができるという効果を奏する。   According to the configuration of the twelfth aspect, since the relatively narrow channel width on the inlet node side in the tree-shaped branch channel is enlarged, the effect that the packet congestion degree can be effectively reduced and the throughput can be improved. Play.

本発明の他の目的、構成及び効果は以下の説明から明らかになる。   Other objects, configurations and effects of the present invention will become apparent from the following description.

図1は、非同期(自己タイミング)式のデータ駆動型メモリ10を示す概略ブロック図である。   FIG. 1 is a schematic block diagram showing an asynchronous (self-timing) type data driven memory 10.

メモリ10では、分流路20の下流側に、機能エレメントアレイとしてのメモリ行アレイ30を介して合流路40が接続されている。   In the memory 10, a joint channel 40 is connected to the downstream side of the branch channel 20 via a memory row array 30 as a functional element array.

図2(A)は、メモリ行アレイ30の配列の具体例を示す。   FIG. 2A shows a specific example of the arrangement of the memory row array 30.

メモリ行アレイ30の行及び列をそれぞれセット番号及びページ番号で識別する。説明の簡単化のため、メモリ行アレイ30が64行、1ページが8ワード、1ワードが32ビットであるとする。以下では、メモリ行アレイ30に対するリード及びライトがそれぞれ、ページ単位及びワード単位で行われる場合を説明する。   The rows and columns of the memory row array 30 are identified by a set number and a page number, respectively. For simplicity of explanation, it is assumed that the memory row array 30 has 64 rows, 1 page has 8 words, and 1 word has 32 bits. Hereinafter, a case where reading and writing with respect to the memory row array 30 are performed in units of pages and words will be described.

図1に戻って、分流路20は、入口ノード211に供給されるパケットを、その行先アドレスに応じて順次選択的に分岐させるものであり、アドレスデコーダとして機能する。   Returning to FIG. 1, the diversion channel 20 divides packets supplied to the ingress node 211 sequentially and selectively according to the destination address, and functions as an address decoder.

図2(B)は、分流路20でのパケットのフォーマットを示す。   FIG. 2B shows a packet format in the branch path 20.

パケット50は、1ビットのコマンドフィールドと、11ビットのアドレスフィールドと、32ビットのデータフィールドとからなる。コマンドCMDは、'0'のときリード、'1'のときライトを示す。アドレスADRは、上位6ビットの行先アドレスDAと、中位2ビットのページアドレスPAと、下位3ビットのワードアドレスWAとに分けられる。   The packet 50 includes a 1-bit command field, an 11-bit address field, and a 32-bit data field. The command CMD indicates read when “0” and write when “1”. The address ADR is divided into an upper 6-bit destination address DA, a middle 2-bit page address PA, and a lower 3-bit word address WA.

行先アドレスDAは、分流路20の行先、すなわちメモリ行アレイ30の行(セット番号)を示す。ページアドレスPAは、パケット50が行先アドレスへ到達した後に、そのメモリ行におけるリード対象の識別に用いられる。ページアドレスPAとページ内ワードアドレスWAとの組は、パケット50が行先アドレスへ到達した後に、メモリ行におけるライト対象の識別に用いられる。データDATAは、ライトのデータであり、リードの場合にはダミーである。   The destination address DA indicates the destination of the branch channel 20, that is, the row (set number) of the memory row array 30. The page address PA is used for identifying the read target in the memory row after the packet 50 reaches the destination address. The set of the page address PA and the in-page word address WA is used for identifying the write target in the memory row after the packet 50 reaches the destination address. Data DATA is write data, and is dummy in the case of reading.

以下では、コマンドCMDがリードの場合の分流路20及び合流路40でのパケットをそれぞれリードパケット及びリードデータパケット、ライトの場合の分流路20でのパケットをライトデータパケットと称す。   Hereinafter, packets in the branch channel 20 and the combined channel 40 when the command CMD is read are referred to as a read packet and a read data packet, respectively, and packets in the branch channel 20 in the case of write are referred to as a write data packet.

合流路40でのリードデータパケットは、パケット50からコマンドCMDの1ビットを除いた43ビットであり、アドレスADRは、合流路40の出口ノードに到達したパケット内のデータの識別に用いられる。   The read data packet in the combined channel 40 is 43 bits obtained by removing one bit of the command CMD from the packet 50, and the address ADR is used for identifying data in the packet that has reached the exit node of the combined channel 40.

図1に戻って、分流路20及び合流路40はいずれも6段パイプラインであり、各パイプラインステージにおけるノードは、ラッチと、転送制御回路とを備えている。   Returning to FIG. 1, each of the branch flow path 20 and the combined flow path 40 is a six-stage pipeline, and a node in each pipeline stage includes a latch and a transfer control circuit.

図3は、束データ方式で分流路20を構成した場合の第1段と第2段とのノードで構成される分流回路を示す概略ブロック図である。   FIG. 3 is a schematic block diagram showing a shunt circuit composed of nodes of the first stage and the second stage when the shunt flow path 20 is configured by the bundle data method.

第1段の入口ノード211は、ラッチ211Lと転送制御回路211Cとを備え、第2段のノード221は、ラッチ221Lと転送制御回路221Cとを備え、第2段のノード222は、ラッチ222Lと転送制御回路222Cとインバータ222Gとを備えている。転送制御回路211C、221C及び222Cはそれぞれ、ラッチ211L、221L及び222L内の入力段ゲート開閉をハンドシェイクプロトコルで行うものであり、段間が縦続接続されている。   The first-stage entry node 211 includes a latch 211L and a transfer control circuit 211C, the second-stage node 221 includes a latch 221L and a transfer control circuit 221C, and the second-stage node 222 includes a latch 222L. A transfer control circuit 222C and an inverter 222G are provided. The transfer control circuits 211C, 221C, and 222C perform input stage gate opening / closing in the latches 211L, 221L, and 222L by a handshake protocol, and the stages are cascaded.

転送制御回路はいずれも、後段からのSEND−IN(転送要求入力)信号がアクティブ、すなわち後段からのデータが確定していて、前段からのACK−IN(転送許可入力)信号がアクティブ、すなわち前段がエンプティである場合に、ラッチのクロック入力端CKにパルスを供給して後段からのデータをラッチに取り込み保持し、特別な制限がなければ後段へのACK−OUT信号をアクティブにし、前段へデータが到達したと考えられる所定時間経過後に前段へのSEND−OUT信号をアクティブにする。   In any of the transfer control circuits, the SEND-IN (transfer request input) signal from the subsequent stage is active, that is, the data from the subsequent stage is determined, and the ACK-IN (transfer permission input) signal from the previous stage is active, that is, the previous stage. Is empty, a pulse is supplied to the clock input terminal CK of the latch to capture and hold data from the subsequent stage, and if there is no special restriction, the ACK-OUT signal to the subsequent stage is activated and the data to the previous stage is activated. The SEND-OUT signal to the previous stage is made active after a lapse of a predetermined time considered to have arrived.

各転送制御回路は、出力を有効/無効にするための制御入力端を備えており、転送制御回路221C及び222Cの該制御入力端にはそれぞれ、ラッチ211Lに保持されたパケットの行先アドレス(DA5〜DA0)DAの最上位ビットDA5及びこれをインバータ222Gで反転させたものが供給される。したがって、ビットDA5が'1'の場合、ラッチ221L及び222Lがそれぞれ有効及び無効になって、ラッチ211Lの内容がラッチ221Lに保持され、ビットDA5が'0'の場合、ラッチ221L及び222Lがそれぞれ無効及び有効になって、ラッチ211Lの内容がラッチ222Lに保持される。   Each transfer control circuit has a control input terminal for enabling / disabling the output, and the destination address (DA5) of the packet held in the latch 211L is provided at each control input terminal of the transfer control circuits 221C and 222C. ... DA0) The most significant bit DA5 of DA and its inverted version by the inverter 222G are supplied. Therefore, when the bit DA5 is “1”, the latches 221L and 222L are enabled and disabled, respectively, and the contents of the latch 211L are held in the latch 221L. When the bit DA5 is “0”, the latches 221L and 222L are respectively It becomes invalid and valid, and the contents of the latch 211L are held in the latch 222L.

各転送制御回路はさらに、不図示のリセット入力端を有し、システムリセット時にこれにリセットパルスが供給されて、ACK−IN及びACK−OUTがアクティブ、SEND−IN及びSEND−OUTがインアクティブになる。   Each transfer control circuit further has a reset input terminal (not shown), which is supplied with a reset pulse at the time of system reset so that ACK-IN and ACK-OUT are active, and SEND-IN and SEND-OUT are inactive. Become.

転送制御回路は各種のものが公知であるので、その構成の説明を省略する。   Since various types of transfer control circuits are known, description of the configuration is omitted.

図1に戻って、例えばノード221に保持されたパケットは、行先アドレスDAの第2ビットに応じてノード231又はノード232に保持され、例えばノード232に保持されたパケットは、行先アドレスDAの第3ビットに応じてノード243又はノード244に保持される。以下同様にして、分流路20の行先アドレスDAの内容に応じ、第6段に配置された32個の出口ノードの1つにパケットが到達する。各出力ノードは2つの分岐出力を有する。   Returning to FIG. 1, for example, the packet held in the node 221 is held in the node 231 or the node 232 according to the second bit of the destination address DA, and the packet held in the node 232 is, for example, the first address of the destination address DA. It is held in the node 243 or the node 244 according to 3 bits. Similarly, the packet arrives at one of the 32 exit nodes arranged in the sixth stage according to the contents of the destination address DA of the diversion channel 20. Each output node has two branch outputs.

各ノードにおいて、行先アドレスDAの対応するビットが'1'/'0'のとき図1においてそれぞれ上側/下側へデータが分岐するように定められているとする。例えば行先アドレスDAが'111111'の場合、このパケットは出力ノード261に到達する。ノード261において、行先アドレスDAの最下位ビットDA0が'1'であるとき、メモリ行アレイ30のメモリ行31が有効にされ、ビットDA0が'0'であるとき、メモリ行32が有効にされる。   In each node, it is assumed that when the corresponding bit of the destination address DA is “1” / “0”, it is determined that data is branched upward / downward in FIG. For example, when the destination address DA is “111111”, this packet reaches the output node 261. At the node 261, when the least significant bit DA0 of the destination address DA is “1”, the memory row 31 of the memory row array 30 is enabled, and when the bit DA0 is “0”, the memory row 32 is enabled. The

メモリ行アレイ30を構成する64個のメモリ行は、互いに同一構成である。各メモリ行は、その入力端及び出力端がそれぞれ分流路20及び合流路40の対応する出力端及入力端に結合されている。分流路20の出力端及び合流路40の入力端のそれぞれにラッチを接続することもできるが、段数を少なくしてターンアランドタイムを短縮するために、図1ではこれらのラッチが省略された構成となっている。   The 64 memory rows constituting the memory row array 30 have the same configuration. Each memory row has its input end and output end coupled to the corresponding output end and input end of the shunt channel 20 and the combined channel 40, respectively. A latch can be connected to each of the output end of the branch flow path 20 and the input end of the combined flow path 40, but in order to reduce the number of stages and shorten the turnaround time, these latches are omitted in FIG. It has become.

図5は、図1の分流路20の出力ノード261と合流路40の入口ノード411との間に接続されたメモリ行31及び32を示す概略ブロック図である。   FIG. 5 is a schematic block diagram showing the memory rows 31 and 32 connected between the output node 261 of the branch channel 20 and the inlet node 411 of the combined channel 40 in FIG.

メモリ行31及び32は、ノード261と入口ノード411との間に接続されている。ノード261は、ラッチ261Lと、この入力ゲートを開閉する転送制御回路261Cとからなり、入口ノード411は、ラッチ411Lと、この入力ゲートを開閉する転送制御回路411Cとからなる。   Memory rows 31 and 32 are connected between node 261 and entry node 411. The node 261 includes a latch 261L and a transfer control circuit 261C that opens and closes the input gate. The entry node 411 includes a latch 411L and a transfer control circuit 411C that opens and closes the input gate.

メモリ行31及び32には、ループ状の32ビットのデータバスとアドレスADRの上位8ビットのアドレスバスからなるループ配線310が配設され、これがラッチ261Lのデータ出力端及びラッチ411Lのデータ入力端に接続されている。ループ配線310のデータバスには、メモリ行31の構成要素である32個のワードメモリ310W〜3131Wのそれぞれのデータ入力端及びデータ出力端が接続され、同様にメモリ行32の構成要素である32個のワードメモリ320W〜3231Wのそれぞれのデータ入力端及びデータ出力端が接続されている。   The memory rows 31 and 32 are provided with a loop wiring 310 comprising a looped 32-bit data bus and an upper 8-bit address bus of the address ADR, which are arranged as a data output terminal of the latch 261L and a data input terminal of the latch 411L. It is connected to the. The data input terminal and the data output terminal of each of the 32 word memories 310W to 3131W that are constituent elements of the memory row 31 are connected to the data bus of the loop wiring 310. Similarly, the data bus 32 is a constituent element of the memory row 32. Data input terminals and data output terminals of the word memories 320W to 3231W are connected.

これらワードメモリ310W〜3131W及び320W〜3231Wのそれぞれのクロック入力端CK及び出力イネーブル制御入力端OEを制御するために、転送制御回路261Cと転送制御回路411Cとの間に制御回路311が接続されている。   A control circuit 311 is connected between the transfer control circuit 261C and the transfer control circuit 411C in order to control the clock input terminal CK and the output enable control input terminal OE of each of the word memories 310W to 3131W and 320W to 3231W. Yes.

制御回路311には、ラッチ261Lに保持されたコマンドCMD、ページアドレスPA、ワードアドレスWA及びにラッチ411Lのクロック入力端CKに供給されるクロックパルスCK1が供給される。制御回路311は、このクロックパルスCK1をカウントするカウンタ311aを備え、リードの場合、そのカウントをワードアドレスWXとして、ラッチ411Lのデータ入力端のワードアドレスWA部に供給する。   The control circuit 311 is supplied with the command CMD, page address PA, word address WA, and clock pulse CK1 supplied to the clock input terminal CK of the latch 411L held in the latch 261L. The control circuit 311 includes a counter 311a that counts the clock pulse CK1. In the case of reading, the control circuit 311 supplies the count as the word address WX to the word address WA section at the data input end of the latch 411L.

制御回路311は、転送制御回路261CからのSEND1及び転送制御回路411CからのACK2のいずれか一方又は両方がインアクティブの場合には、各ワードメモリのクロック入力端CK及び出力イネーブル制御入力端OEをインアクティブに維持してその入力ゲート及び出力ゲートを閉じる(ワードメモリのアクセスを無効にする)。   When one or both of SEND1 from the transfer control circuit 261C and ACK2 from the transfer control circuit 411C are inactive, the control circuit 311 sets the clock input terminal CK and the output enable control input terminal OE of each word memory. Keep it inactive and close its input and output gates (disable word memory access).

制御回路311は、転送制御回路261CからのSEND1及び441CからのACK2が共にアクティブになると、カウンタ311aをゼロクリアし、アドレスADRのうち、ビットDA0が'1'であればワードメモリ320W〜3231Wのアクセスを無効にし、以下のような制御を行う。   When both SEND1 from the transfer control circuit 261C and ACK2 from the 441C become active, the control circuit 311 clears the counter 311a to zero, and if the bit DA0 of the address ADR is “1”, the word circuits 320W to 3231W are accessed. Is disabled and the following control is performed.

制御回路311は、コマンドCMDがリードを示していれば、転送制御回路261Cに対するACK1をインアクティブに維持した状態で、次のような制御を行う。   If the command CMD indicates a read, the control circuit 311 performs the following control while keeping ACK1 for the transfer control circuit 261C inactive.

(1)ワードメモリ3131W〜310Wのうち、ページアドレスPAとワードアドレスWXとで指定されるワードメモリの出力イネーブル制御入力端OEをアクティブにさせて、このワードメモリの内容をループ配線310上に読み出させ、このデータがラッチ411Lのデータ入力端で確定したと考えられる所定時間経過後に、SEND2をアクティブにさせる。転送制御回路411Cはこれに応答して、次段からのACKがアクティブであれば、クロックパルスCK1をラッチ411Lのクロック入力端CKに供給してループ配線310上のデータ(DATA、DA及びPA)及び制御回路311からのワードアドレスWXをラッチ411Lに取り込ませ保持させ、次いでACK2をアクティブにさせる。制御回路311は、クロックパルスCK1をカウンタ311aでカウントしてワードアドレスWXをインクリメントし、ACK2のアクティブに応答してSEND2をインアクティブにさせる。   (1) Among the word memories 3131W to 310W, the output enable control input terminal OE of the word memory designated by the page address PA and the word address WX is activated, and the contents of the word memory are read onto the loop wiring 310. SEND2 is activated after a lapse of a predetermined time which is considered to be determined at the data input terminal of the latch 411L. In response to this, if the ACK from the next stage is active, the transfer control circuit 411C supplies the clock pulse CK1 to the clock input terminal CK of the latch 411L and the data (DATA, DA, and PA) on the loop wiring 310. The word address WX from the control circuit 311 is fetched and held in the latch 411L, and then ACK2 is activated. The control circuit 311 counts the clock pulse CK1 with the counter 311a, increments the word address WX, and makes SEND2 inactive in response to the activation of ACK2.

(2)入口ノード411から次段へのデータ転送が完了すると、ACK2がアクティブになり、制御回路311はこれに応答して、カウンタ311aの値が8未満であれば(1)へ戻る。   (2) When the data transfer from the ingress node 411 to the next stage is completed, ACK2 becomes active. In response to this, the control circuit 311 returns to (1) if the value of the counter 311a is less than 8.

カウンタ311aの値が8になれば、転送制御回路261Cに対するACK1をアクティブにして、ラッチ261Lがその後段からのデータを取り込めるようにさせる。   When the value of the counter 311a becomes 8, ACK1 for the transfer control circuit 261C is made active so that the latch 261L can take in data from the subsequent stage.

このような処理により、ノード261に保持されたアドレスADRのページアドレスPAで示される8ワードの記憶内容が順次メモリ行31からラッチ411Lへ転送される。   By such processing, the stored contents of 8 words indicated by the page address PA of the address ADR held in the node 261 are sequentially transferred from the memory row 31 to the latch 411L.

制御回路311は、コマンドCMDがライトを示していれば、SEND2をインアクティブに維持した状態で、アドレスADRのページアドレスPAとワードアドレスWAとで指定されるワードメモリのクロック入力端CKにパルスを供給して、ループ配線310上のデータをこのワードメモリに取り込ませ保持させ、次いでACK1をアクティブにする。   If the command CMD indicates write, the control circuit 311 pulses the clock input terminal CK of the word memory specified by the page address PA and the word address WA of the address ADR while maintaining SEND2 inactive. Then, the data on the loop wiring 310 is taken in and held in the word memory, and then ACK1 is activated.

このようなメモリアクセスを、メモリ行アレイ30のうち最大32個のメモリ行に対し同時に行うことが可能である。   Such memory access can be performed simultaneously on up to 32 memory rows in the memory row array 30.

リードパケットの場合、図1に戻って、合流路40のどの入口ノードからでも、出口ノード461に到達する。すなわち、合流路40では、経路選択に行先アドレスを用いる必要がない。合流路40の各ノードでは、2入力のうち先に到達したデータを選択的に保持する。   In the case of a read packet, returning to FIG. 1, it reaches the exit node 461 from any entrance node of the combined flow path 40. That is, in the joint channel 40, it is not necessary to use the destination address for route selection. In each node of the combined flow path 40, the data that has reached first among the two inputs is selectively held.

図4は、束データ方式で合流路40を構成した場合の第2段と第3段の一部である合流回路を示す概略ブロック図である。   FIG. 4 is a schematic block diagram showing a joining circuit that is a part of the second stage and the third stage when the joining channel 40 is configured by the bundle data method.

第2段のノード421は、ラッチ421Lと転送制御回路421Cとを備え、第2段のノード422は、ラッチ422Lと転送制御回路422Cとインバータ422Gとを備え、第3段のノード431は、ラッチ431Lと転送制御回路431Cとを備えている。転送制御回路421C、422C及び431Cはそれぞれ、ラッチ421L、422L及び431L内の入力段ゲート開閉をハンドシェイクプロトコルで行うものであり、段間が縦続接続されている。   The second stage node 421 includes a latch 421L and a transfer control circuit 421C, the second stage node 422 includes a latch 422L, a transfer control circuit 422C, and an inverter 422G, and the third stage node 431 includes a latch. 431L and a transfer control circuit 431C. The transfer control circuits 421C, 422C, and 431C perform input stage gate opening and closing in the latches 421L, 422L, and 431L, respectively, by a handshake protocol, and the stages are cascaded.

図4の回路は、図3の回路において信号の方向を逆にしたものになっている。但し、行き先アドレスのビットによる制御は行われていない。また、ラッチ421Lの出力とラッチ422Lの出力との衝突を避けるため、各ラッチは出力イネーブル制御入力端OEを備え、転送制御回路431Cからラッチ421Lの出力イネーブル制御入力端OEへ直接、ラッチ422Lにはインバータ422Gを介して出力イネーブル制御入力端OEへ、制御信号が供給される。転送制御回路431Cは、転送制御回路421CからのSEND−INと転送制御回路422CからのSEND−INのうち先にアクティブになった方に対応するラッチの出力イネーブル制御入力端OEを'1'にし、他方を'0'にする。   The circuit of FIG. 4 is obtained by reversing the signal direction in the circuit of FIG. However, control by the bit of the destination address is not performed. Further, in order to avoid a collision between the output of the latch 421L and the output of the latch 422L, each latch has an output enable control input terminal OE, and the transfer control circuit 431C directly enters the latch 422L to the output enable control input terminal OE. The control signal is supplied to the output enable control input terminal OE via the inverter 422G. The transfer control circuit 431C sets the output enable control input terminal OE of the latch corresponding to the one that becomes active first among SEND-IN from the transfer control circuit 421C and SEND-IN from the transfer control circuit 422C to “1”. , Set the other to '0'.

このような制御により、選択的(排他的)合流が行われる。   By such control, selective (exclusive) merging is performed.

上記の如く構成されたメモリ10において、入口ノード211にライトデータパケットを供給するとともに、入口ノード211へのSEND−IN信号をアクティブにさせると、その行先アドレスに応じ分流路20内のパイプラインステージを順次流れてメモリ行アレイ30に到達し、ライトデータパケット内のアドレスADRで指定されたワードに、ライトデータパケット内のデータDATAが書き込まれる。   In the memory 10 configured as described above, when a write data packet is supplied to the ingress node 211 and the SEND-IN signal to the ingress node 211 is activated, the pipeline stage in the branch channel 20 according to the destination address. The data DATA in the write data packet is written in the word designated by the address ADR in the write data packet.

同様に、入口ノード211にリードパケットを供給するとともに、入口ノード211へのSEND−IN信号をアクティブにさせると、その行先アドレスDAに応じ分流路20内のパイプラインステージを順次流れてメモリ行アレイ30に到達し、リードパケット内のページアドレスPAで指定されたページのデータがワード単位で順次読み出され、行先アドレスDAの値とは無関係に、合流路40内のパイプラインステージを順次通って出口ノード461に8ワード分のデータが到達する。   Similarly, when a read packet is supplied to the ingress node 211 and the SEND-IN signal to the ingress node 211 is activated, the memory row array sequentially flows through the pipeline stage in the diversion channel 20 according to the destination address DA. 30, the data of the page specified by the page address PA in the read packet is sequentially read out in units of words, and sequentially passes through the pipeline stage in the junction 40 regardless of the value of the destination address DA. Eight words of data reach the egress node 461.

入口ノード211内のパケットがノード221又はノード222に転送されてACK−OUT信号がアクティブになると、次のパケットを入口ノード211に保持させることができる。また、次に供給するパケットの種類は、先に供給したパケットがリードパケットであるかライトデータパケットであるかによらず、任意である。   When the packet in the ingress node 211 is transferred to the node 221 or the node 222 and the ACK-OUT signal becomes active, the next packet can be held in the ingress node 211. The type of packet to be supplied next is arbitrary regardless of whether the previously supplied packet is a read packet or a write data packet.

本実施例1のメモリ10によれば、メモリ行アレイ30を介してツリー形分流路20及びツリー形合流路40を配設するという簡単な構成で、集積配置されたメモリ行アレイ30の任意の1行に対し、行き先アドレスを含むパケットを転送し、これに対応したパケットをツリー形合流路40の出口ノード461から取り出すことができるという効果を奏する。   According to the memory 10 of the first embodiment, an arbitrary configuration of the memory row array 30 arranged in an integrated manner can be obtained with a simple configuration in which the tree-shaped branch channel 20 and the tree-shaped merge channel 40 are disposed via the memory row array 30. There is an effect that a packet including a destination address is transferred to one row, and a packet corresponding to the destination address can be taken out from the exit node 461 of the tree-shaped merge channel 40.

また、流路幅が比較的広い分流路20の出口側及び合流路40の入口側でパケットの混雑が避けられるので、メモリ行での処理の遅延が複数のメモリ行での分散並列処理により吸収され、ランダムアクセスのスループットが比較的高いという効果を奏する。   In addition, since congestion of packets is avoided on the outlet side of the branch channel 20 and the inlet side of the combined channel 40 having a relatively wide channel width, processing delays in the memory rows are absorbed by distributed parallel processing in a plurality of memory rows. As a result, the random access throughput is relatively high.

さらに、データ駆動型回路でプロセッサを構成した場合、非データ駆動型メモリを多数用いて並列度を上げるよりも1つのデータ駆動型メモリを用いた方が消費電力を大幅に低減できるので、特に長電池寿命が要求されるモバイル機器に用いて好適であるという効果を奏する。   Furthermore, when a processor is configured with data-driven circuits, the power consumption can be greatly reduced by using one data-driven memory rather than using many non-data-driven memories to increase parallelism. There is an effect that it is suitable for use in mobile devices that require battery life.

なお、本実施例1ではページ単位でのリードについて説明したが、行単位、ワード単位又はバイト単位等でのアクセスであってもよいことは勿論である。この点は、以下の実施例においても同様である。   In the first embodiment, reading in units of pages has been described, but it is needless to say that access may be performed in units of rows, words, or bytes. This also applies to the following embodiments.

図1のメモリ10では、並列度が高いにもかかわらず入口ノード及び出口ノードがそれぞれ1つである点がボトルネックとなっている。図6は、この点を改良した本発明の実施例2のメモリ10Aを示す。   In the memory 10 of FIG. 1, the bottleneck is that there is one entrance node and one exit node each in spite of a high degree of parallelism. FIG. 6 shows a memory 10A according to the second embodiment of the present invention in which this point is improved.

このメモリ10Aでは、分流路20Aに入口ノード212が追加され、入口ノード212の出力がノード221及び222Aに供給されて、第2段のノード221A及び222Aが2合流・2分岐回路となっている。この合流は上述の選択型であり、例えばノード221Aは、入口ノード211と212からのSEND−INのうち先にアクティブになったものに対応するデータを取り込んで保持する。この分流路20Aにおいても、図1の分流路20と同様に、行先アドレスDAのみで定まる出口ノードへ到達する。したがって、ライトデータパケットについては新たな規則を設ける必要がない。   In this memory 10A, an inlet node 212 is added to the branch channel 20A, the output of the inlet node 212 is supplied to the nodes 221 and 222A, and the second-stage nodes 221A and 222A form a two-merging / two-branch circuit. . This merging is the above-described selection type. For example, the node 221A captures and holds data corresponding to the previously activated SEND-IN from the ingress nodes 211 and 212. Also in the diversion channel 20A, similarly to the diversion channel 20 of FIG. 1, the diversion channel 20A reaches the exit node determined only by the destination address DA. Therefore, it is not necessary to provide a new rule for the write data packet.

合流路40Aでは、出力段に出口ノード462を追加し、ノード451A又はノード462Aから出口ノード462へ転送可能にしている。ノード451A及び462Aはいずれも、2合流・2分岐回路である。   In the combined flow path 40A, an exit node 462 is added to the output stage so that the node 451A or the node 462A can transfer to the exit node 462. Each of the nodes 451A and 462A is a two-merging / two-branch circuit.

ここで、ノード451Aから出口ノード461又は出口ノード462のいずれにデータを転送させるかの規則が必要になる。例えば、出口ノード461と462に優先順位を付け、両方がエンプティ(ACK−INがアクティブ)である場合にはノード451Aから優先順位の高いものの方へ転送させ、一方のみ空いている場合にはそちらへ転送させるように構成することもできる。   Here, a rule is required as to whether the data is transferred from the node 451A to the egress node 461 or the egress node 462. For example, when priority is given to the egress nodes 461 and 462 and both are empty (ACK-IN is active), the node 451A transfers the node to the higher priority node, and when only one is available, It can also be configured to be transferred to.

本実施例では、データ流を整然とさせるため、図7(A)に示すように、パケット50Aに1ビットの系統CHを追加し、この値が'0'のときはノード451A又はノード452Aから出口ノード462へ転送させ、'1'のときには、ノード451A又はノード452Aから出口ノード461へ転送させる。系統CHの値は、リードパケットを入口ノード211と212とのいずれに供給するかにより定める。例えば、入口ノード212にパケットを供給するとき、系統CHに'1'をセットし、入口ノード211に供給するとき、系統CHに'0'をセットする。   In this embodiment, in order to make the data flow orderly, as shown in FIG. 7A, a 1-bit channel CH is added to the packet 50A, and when this value is “0”, the node 451A or the node 452A exits. Transfer to the node 462, and when “1”, transfer from the node 451A or the node 452A to the egress node 461. The value of the system CH is determined by which of the entry nodes 211 and 212 supplies the read packet. For example, when a packet is supplied to the ingress node 212, “1” is set to the system CH, and when supplied to the ingress node 211, “0” is set to the system CH.

このようにしてリードパケットを入口ノード211へ供給すると、メモリ行アレイ30から読み出されるデータは必ず出口ノード461に到達し、リードパケットを入口ノード212へ供給すると、メモリ行アレイ30から読み出されるデータは必ず出口ノード462に到達する。パケット経路は論理的対称性を有する。すなわち、メモリ行アレイ30の列に関し分流路20Aと合流路40Aとでパケット経路が論理的に対称(第1の対称性)になる。また、互いに相補的な行先アドレス、例えば行先アドレス011011を有するパケットの経路と行先アドレス100100を有するパケットの経路とが、流路方向の軸に関し互いに、論理的に対称(第2の対称性)になる。本発明では、少なくとも第2の対称性を備えておればよい。   When the read packet is supplied to the ingress node 211 in this way, the data read from the memory row array 30 always reaches the egress node 461. When the read packet is supplied to the ingress node 212, the data read from the memory row array 30 is The egress node 462 is always reached. The packet path has logical symmetry. That is, the packet path is logically symmetric (first symmetry) between the branch flow path 20A and the combined flow path 40A with respect to the columns of the memory row array 30. Further, the path of a packet having a destination address complementary to each other, for example, the path of a packet having a destination address 0101111 and the path of a packet having a destination address 100100 are logically symmetrical (second symmetry) with respect to the axis in the flow path direction. Become. In the present invention, at least the second symmetry may be provided.

図7(B)は、系統CHが'0'である場合に分流路20Aの第1及び第2段を通り得るリードパケットの経路と、読み出されたリードデータパケットが通り得る、合流路40Aの第5段及び第6段の経路とを示している。点線は系統CHが'0'である場合を示し、実線は系統CHが'1'である場合を示す。   FIG. 7B shows the path of the read packet that can pass through the first and second stages of the branch channel 20A and the combined flow path 40A through which the read data packet that has been read can pass when the system CH is “0”. The 5th and 6th stage routes are shown. A dotted line indicates a case where the system CH is “0”, and a solid line indicates a case where the system CH is “1”.

リードパケットの行先は、系統CHの値によらず、行先アドレスDAの値のみで定まる。例えば、系統CHが'1'で行先アドレスDAの最上位ビットが'1'の場合、上述のように'1'で図7(B)の上側へ分岐し'0'で下側へ分岐すると定めると、入口ノード211に供給されたパケットはノード221Aへ進む。   The destination of the read packet is determined only by the value of the destination address DA regardless of the value of the system CH. For example, when the system CH is “1” and the most significant bit of the destination address DA is “1”, as described above, when “1” branches to the upper side of FIG. 7B and “0” branches to the lower side. If determined, the packet supplied to the ingress node 211 proceeds to the node 221A.

合流路40Aでは、第5段まで合流はあっても分岐がないので、系統CHや行先アドレスDAの値と無関係に経路が一意的に定まり、前記の場合、リードデータパケットはノード451Aに到達する。   In the merge channel 40A, even if there is a merge up to the fifth stage, there is no branch, so the path is uniquely determined regardless of the values of the system CH and the destination address DA. In this case, the read data packet reaches the node 451A. .

系統CHが'1'であるので、ノード451Aから461Aへ進む。行先アドレスDAの最上位ビットが'0'の場合についても同様にして、リードデータパケットは出口ノード461に到達する。すなわち、合流路40Aの第5〜6段での経路を系統CHの値で定めると、メモリ行アレイ30に関し分流路20Aと合流路40Aとで経路が対称になり、系統CHが'1'の場合には必ず、分流路20Aの入口ノード211に対応した合流路40Aのノード461Aに到達する。   Since the system CH is “1”, the process proceeds from the node 451A to 461A. Similarly, when the most significant bit of the destination address DA is “0”, the read data packet reaches the egress node 461. That is, when the path in the fifth to sixth stages of the combined flow path 40A is determined by the value of the system CH, the path is symmetrical between the branch path 20A and the combined flow path 40A with respect to the memory row array 30, and the system CH is '1'. In some cases, it always reaches the node 461A of the combined channel 40A corresponding to the inlet node 211 of the branch channel 20A.

他の点は上記第1実施例と同一である。   The other points are the same as in the first embodiment.

本実施例2によれば、上記のようなノードの追加及び変更により、メモリ10Aの入力ポート及び出力ポートの数が2倍になるので、スループットを大きく向上させることができるという効果を奏する。   According to the second embodiment, by adding and changing the nodes as described above, the number of input ports and output ports of the memory 10A is doubled, so that the throughput can be greatly improved.

また、2系統で、流路幅が比較的広い分流路20Aの後段及び合流路40Aの前段を共用するので、パフォーマンス低下を抑制しつつ通信路の規模に対する並列度を高くすることができるという効果を奏する。   Further, since the two systems share the latter stage of the branch channel 20A and the former stage of the combined channel 40A with a relatively wide channel width, the parallelism with respect to the scale of the communication path can be increased while suppressing the performance degradation. Play.

さらに、パケット50Aに系統CHを追加し、合流路40Aの出口側の合流・分岐回路で系統CHの値に従って分岐させることにより、分流路20Aのどの入口ノードにリードパケットを供給すれば合流路40Aのどの出口ノードからリードデータパケットが得られるかが定まるので、合流路40Aから取り出されたデータの処理が容易になるという効果を奏する。   Further, by adding the system CH to the packet 50A and branching it according to the value of the system CH in the junction / branch circuit on the outlet side of the combined channel 40A, if the lead packet is supplied to which inlet node of the branch channel 20A, the combined channel 40A Since it is determined from which exit node the read data packet can be obtained, there is an effect that the processing of the data taken out from the combined channel 40A becomes easy.

図8は、入力ポート及び出力ポートの数を実施例2の場合の2倍にした、本発明の実施例3のメモリ10Bを示す。   FIG. 8 shows the memory 10B according to the third embodiment of the present invention in which the number of input ports and output ports is doubled as compared with the second embodiment.

このメモリ10Bでは、パケットの流れの方向の軸に関し構成が対称になるように、図6の構成にノードが追加されている。   In this memory 10B, nodes are added to the configuration of FIG. 6 so that the configuration is symmetric with respect to the axis of the packet flow direction.

すなわち、分流路20Bの入力段に入口ノード213及び214が追加され、第2段にノード223A及び224Aが追加され、これらの間の接続が、ノード211及び212とノード221A及び222Aとの間の接続と同じになっている。また、分流路20Bの第3段の各ノードも第2段と同様に2合流・2分岐回路にし、上記対称になるように第2段と第3段との間が接続されている。   That is, inlet nodes 213 and 214 are added to the input stage of the diversion channel 20B, nodes 223A and 224A are added to the second stage, and the connection between them is between the nodes 211 and 212 and the nodes 221A and 222A. It is the same as the connection. Similarly to the second stage, each node of the third stage of the branch channel 20B is also a two-merging / two-branch circuit, and the second stage and the third stage are connected so as to be symmetrical.

分流路20Bを流れるパケットの経路は、実施例2の場合と同様に、行先アドレスDAのみにより定まる。したがって、ライトデータパケットについては新たな規則を設ける必要がない。   The path of the packet flowing through the branch path 20B is determined only by the destination address DA as in the second embodiment. Therefore, it is not necessary to provide a new rule for the write data packet.

合流路40Bについても分流路20Bと同様に、出力段にノード463A及び464Aが追加され、この後段にノード453A及び454Aが追加され、これらの間の接続が、ノード461A及び462Aとノード451A及び452Aとの間の接続と同じになっている。また、合流路40Bのさらに後段(第4段)の各ノードも第5段と同様に2合流・2分岐回路にし、上記対称になるように第4段と第5段との間が接続されている。   Similarly to the branch flow path 20B, the combined flow path 40B also includes nodes 463A and 464A added to the output stage, and nodes 453A and 454A added to the subsequent stage. The connection is the same. In addition, each node in the subsequent stage (fourth stage) of the combined flow path 40B is also a two-merging / two-branch circuit like the fifth stage, and the fourth stage and the fifth stage are connected so as to be symmetrical. ing.

図9(A)は、パケット50Bのフォーマットを示す。このパケット50Bは、系統CHが2ビットであり、他の点は図7(A)と同一である。リードパケットの場合、パケットが入口ノード214〜211に供給されるとき、それぞれ系統CHの値を0〜3とする。これにより、メモリ行アレイ30から読み出されたリードデータパケットは、メモリ行アレイ30に関し分流路20Bでの経路と対称な経路を通ることになる。   FIG. 9A shows the format of the packet 50B. In this packet 50B, the system CH has 2 bits, and the other points are the same as those in FIG. In the case of a read packet, when the packet is supplied to the ingress nodes 214 to 211, the value of the system CH is set to 0 to 3, respectively. As a result, the read data packet read from the memory row array 30 passes through a path that is symmetric with respect to the path in the diversion channel 20B with respect to the memory row array 30.

図9(B)は、系統CHが'01'である場合に分流路20Bの第1〜3段を通り得るリードパケットの経路と、読み出されたリードデータパケットが通り得る経路とを点線で示している。   In FIG. 9B, when the system CH is “01”, the path of the read packet that can pass through the first to third stages of the branch channel 20B and the path that the read data packet that has been read can pass are indicated by dotted lines. Show.

リードパケットの行先は、上述のように、系統CHの値によらず行先アドレスDAの値のみで定まる。例えば、行先アドレスDAの上位2ビットが'11'の場合、上述のように'1'で図11(B)の上側へ分岐し'0'で下側へ分岐すると定めると、最上位ビットが'1'であるので入口ノード213からノード223Aへ進み、次のビットが'1'であるのでノード223Aから231Aへ進む。   As described above, the destination of the read packet is determined only by the value of the destination address DA regardless of the value of the system CH. For example, when the upper 2 bits of the destination address DA are “11”, if it is determined that “1” branches to the upper side of FIG. 11B and “0” branches to the lower side as described above, the most significant bit is Since it is “1”, the process proceeds from the ingress node 213 to the node 223A, and since the next bit is “1”, the process proceeds from the node 223A to 231A.

合流路40Bでは、第4段まで合流はあっても分岐がないので、系統CHや行先アドレスDAの値と無関係に経路が一意的に定まり、前記の場合、リードデータパケットはノード441Aに到達する。   In the merge channel 40B, there is no branch even if it merges up to the fourth stage. Therefore, the path is uniquely determined regardless of the values of the system CH and the destination address DA. In this case, the read data packet reaches the node 441A. .

系統CHが'01'であり、この第2ビットが'0'であるので、ノード441Aから453Aへ進む。次に、第1ビットが'1'であるのでノード453Aから463Aへ進む。行先アドレスDAの上位2ビットが他の場合についても同様にして、リードデータパケットはノード463Aに到達する。すなわち、合流路40Bの第4〜6段での経路を系統CHの値で定めると、メモリ行アレイ30に関し分流路20Bと合流路40Bとで経路が対称になり、系統CHが'01'の場合には必ず、分流路20Bの入口ノード213に対応した合流路40Bのノード463Aに到達する。   Since the system CH is “01” and the second bit is “0”, the process proceeds from the node 441A to 453A. Next, since the first bit is “1”, the process proceeds from the node 453A to the node 463A. The read data packet arrives at the node 463A in the same manner when the upper 2 bits of the destination address DA are in other cases. That is, when the route in the fourth to sixth stages of the combined channel 40B is determined by the value of the system CH, the path is symmetrical between the branch channel 20B and the combined channel 40B with respect to the memory row array 30, and the system CH is “01”. In some cases, it always reaches the node 463A of the combined channel 40B corresponding to the inlet node 213 of the branch channel 20B.

図9(C)は、系統CHが'11'である場合に分流路20Bの第1〜3段を通り得るリードパケットの経路と、読み出されたリードデータパケットが通り得る経路とを点線で示している。   In FIG. 9C, the path of the read packet that can pass through the first to third stages of the branch channel 20B when the system CH is “11” and the path that the read data packet that has been read can be shown by dotted lines. Show.

本実施例3によれば、上記実施例2の構成を少し変えただけで上記実施例2で述べた効果がさらに高められる。   According to the third embodiment, the effect described in the second embodiment can be further enhanced by slightly changing the configuration of the second embodiment.

また、4系統で分流路20Bの流路幅が比較的広い第4〜6段及び合流路40Bの流路幅が比較的広い第1〜4段のノードを共用するので、パフォーマンス低下を抑制しつつ通信路の規模に対する並列度を高くすることができるという効果を奏する。   In addition, since the 4th to 6th stage nodes having a relatively wide channel width of the branch channel 20B and the 1st to 4th stage nodes having a relatively wide channel width of the combined channel 40B are shared in four systems, the performance degradation is suppressed. However, the parallelism with respect to the size of the communication path can be increased.

図10は、パイプライン段数を低減した、本発明の実施例4のメモリ10Cを示す。   FIG. 10 shows a memory 10C according to the fourth embodiment of the present invention in which the number of pipeline stages is reduced.

分流路20Cでは、第3段の入力まで、図8の分流路20Bのそれと同一である。分流路20Bとの相違点は、第3段の各ノード及び第4段の各ノードの出力が4分岐となっている点である。これにより、分流路20Bが6段パイプラインであるのに対し分流路20Cは4段パイプラインとなる。合流路40Cは、メモリ行アレイ30に関し分流路20Cと対称にし且つデータ流の方向を逆にした構成であり、4段パイプラインである。   In the diversion channel 20C, the input up to the third stage is the same as that of the diversion channel 20B in FIG. The difference from the branch flow path 20B is that the output of each node in the third stage and each node in the fourth stage has four branches. As a result, the branch channel 20B is a six-stage pipeline, whereas the branch channel 20C is a four-stage pipeline. The combined flow path 40C is configured to be symmetric with respect to the branch flow path 20C with respect to the memory row array 30 and the direction of the data flow is reversed, and is a four-stage pipeline.

実施例3の場合と同様に、分流路20Cでのパケットの経路は、入口ノードが決まると、パケットの経路は行先アドレスのみで定まり、合流路40Dについては、選択的分岐出力を持つノードからのパケット経路は、系統により定まる。   As in the case of the third embodiment, when the entry node is determined for the packet path in the branch channel 20C, the packet path is determined only by the destination address, and the combined channel 40D is sent from the node having the selective branch output. The packet path is determined by the system.

ノード入力端での合流の数が増えると、先着優先の選択的合流であるので、同一の合流ノードに転送されるパケット数が多くなると、転送待ちが生ずる。しかしながら、パケットが混雑していない時には、パイプライン段数が少ないので、レイテンシを短縮することができる。   If the number of merging at the node input end increases, it is a selective merging with the first priority, so if the number of packets transferred to the same merging node increases, transfer waiting occurs. However, when the packet is not congested, the number of pipeline stages is small, so that the latency can be shortened.

ライトパケットのようにメモリ行アレイ30への書き込みが1ワードで完了する場合には分流路20Cの出口ノードでの待ち時間が比較的短いので効果的である。これに対し、リードデータパケットは、メモリ行31から8ワードのデータが順次読み出されるので、合流路40Cの入力ノードにおいて、他のメモリ行31から同一入口ノードへの待ち時間が比較的長くなる。これを避けるためには、合流路40Cの代わりに合流路40Bを用いればよい。すなわち、分流路20Cと合流路40Cとを組み合わせればよい。   When writing to the memory row array 30 is completed in one word like a write packet, it is effective because the waiting time at the exit node of the branch channel 20C is relatively short. On the other hand, in the read data packet, since 8 words of data are sequentially read from the memory row 31, the waiting time from the other memory row 31 to the same entrance node becomes relatively long at the input node of the joint channel 40C. In order to avoid this, the combined flow path 40B may be used instead of the combined flow path 40C. That is, the diversion channel 20C and the combined flow channel 40C may be combined.

図11は、選択的合流ノードへの転送待ちを短縮した、本発明の実施例5の2ポート入力・2ポート出力型のメモリ10Dを示す。   FIG. 11 shows a two-port input / two-port output type memory 10D according to the fifth embodiment of the present invention in which the waiting time for transfer to the selective merging node is shortened.

図6の分流路20Aにおいて、選択的合流は第2段のノード221A及び222Aであり、第1段で待ちが生ずる。   In the diversion channel 20A of FIG. 6, the selective merge is the second stage nodes 221A and 222A, and a wait occurs in the first stage.

そこで、分流路20Dでは、第2段において選択的合流が生じないように、第2段にノード223及び224を追加している。ノード223からノード231A又は233Aへ分岐して合流し、ノード224からノード235A又は237Aへ分岐して合流する。   Therefore, in the shunt channel 20D, nodes 223 and 224 are added to the second stage so that selective merging does not occur in the second stage. The node 223 branches to the node 231A or 233A and merges, and the node 224 branches to the node 235A or 237A to merge.

これにより、第3段の各ノードが選択的合流になるが、ノード数が4であるので、図6の分流路20Aの第1段でのパケット転送平均待ち時間よりも、分流路20Dの第2段でのそれのほうが約半分になり、パケットの停滞を低減してスループットを向上させることができる。   As a result, each node in the third stage selectively joins, but since the number of nodes is 4, the number of nodes in the shunt 20D is larger than the packet transfer average waiting time in the first stage of the shunt 20A in FIG. It is about half that of the two stages, so that packet stagnation can be reduced and throughput can be improved.

他の点は、実施例2と同一である。   The other points are the same as those in the second embodiment.

図12は、入力ポート及び出力ポートの数を実施例5の場合の2倍にした、本発明の実施例6のメモリ10Eを示す。   FIG. 12 shows a memory 10E according to the sixth embodiment of the present invention in which the number of input ports and output ports is doubled as compared with the fifth embodiment.

このメモリ10Eでは、パケットの流れの方向の軸に関し構成が対称になるように、図11の構成にノードが追加されている。   In the memory 10E, nodes are added to the configuration of FIG. 11 so that the configuration is symmetric with respect to the axis of the packet flow direction.

すなわち、分流路20Eの入力段に入口ノード213及び214が追加され、第2段にノード225〜228が追加され、第3段に1つおきにノード232A、234A、236A及び238Aが追加され、これらとノード225〜228との間の接続が、図11の分流路20Dの第2段と第3段との間の接続と同じ形になっている。また、分流路20Eの第4段の各ノードも第3段と同様に2合流・2分岐回路にし、上記対称になるように第3段と第4段との間が接続されている。   That is, inlet nodes 213 and 214 are added to the input stage of the diversion channel 20E, nodes 225 to 228 are added to the second stage, and nodes 232A, 234A, 236A, and 238A are added to the third stage, and The connection between these and the nodes 225 to 228 has the same shape as the connection between the second stage and the third stage of the diversion channel 20D of FIG. Further, each node of the fourth stage of the diversion channel 20E is also a two-merging / two-branch circuit like the third stage, and the third stage and the fourth stage are connected so as to be symmetrical.

合流路40Eは、メモリ行アレイ30に関し分流路20Eと対称にし且つデータ流の方向を逆にした構成である。   The combined flow path 40E is configured to be symmetric with respect to the branch flow path 20E with respect to the memory row array 30 and to reverse the direction of data flow.

実施例5の場合と同様に、分流路20Eでのパケットの経路は、入口ノードが決まると、パケットの経路は行先アドレスのみで定まり、合流路40Eについては、選択的分岐出力を持つノードからのパケット経路は、系統により定まる。   As in the case of the fifth embodiment, the packet path in the branch path 20E is determined only by the destination address when the entry node is determined, and the combined path 40E is sent from the node having the selective branch output. The packet path is determined by the system.

本実施例6によれば、上記実施例5の構成を少し変えただけで上記実施例5で述べた効果がさらに高められる。   According to the sixth embodiment, the effect described in the fifth embodiment can be further enhanced by slightly changing the configuration of the fifth embodiment.

マルチCPUにおいて、それぞれのCPUが共有メモリに対するデータキャッシュメモリを持つと、コヒーレンシ(データの整合性)が保てなくなる。1つのデータキャッシュメモリに対し複数のCPUが参照できる共有キャッシュによれば、コヒーレンシを保つことが可能となる。   In a multi-CPU, if each CPU has a data cache memory for a shared memory, coherency (data consistency) cannot be maintained. According to a shared cache that can be referred to by a plurality of CPUs for one data cache memory, coherency can be maintained.

しかし、同期型の場合、複数のCPUからのランダムな要求に対してもグローバルな同期をとる必要があるため、スループットが不充分となる。   However, in the case of the synchronous type, it is necessary to synchronize globally even with respect to random requests from a plurality of CPUs, resulting in insufficient throughput.

一方、非同期型パイプライン方式はスループットが高いが、パイプライン段数が増えるとレイテンシが増加してアクセスタイムが長くなるので、パイプライン方式は、通常のキャッシュメモリには向かない。   On the other hand, although the asynchronous pipeline method has high throughput, the latency increases and the access time becomes longer as the number of pipeline stages increases, so the pipeline method is not suitable for a normal cache memory.

しかし、マルチCPUの場合、非同期型パイプライン方式を用いても、レイテンシ増加の欠点が相対的に隠蔽され、逆に多並列処理の利点が生きてくる。マルチコアCPUについても同様である。   However, in the case of a multi-CPU, even if an asynchronous pipeline method is used, the disadvantage of increased latency is relatively hidden, and the advantage of multi-parallel processing comes to life. The same applies to the multi-core CPU.

図13は、本発明が適用されたキャッシュメモリ60の概略ブロック図である。このキャッシュメモリ60は、プロセッサの内部に埋め込まれ又はプロセッサの外部に配置される。マルチCPUでキャッシュメモリ60を用いる場合には、パケットにCPU識別子を含ませる必要があるが、説明の簡単化のため、以下ではCPU識別子が無い場合を説明する。   FIG. 13 is a schematic block diagram of a cache memory 60 to which the present invention is applied. The cache memory 60 is embedded inside the processor or arranged outside the processor. When the cache memory 60 is used in a multi-CPU, it is necessary to include a CPU identifier in the packet, but for the sake of simplicity of explanation, a case where there is no CPU identifier will be described below.

キャッシュメモリ60には、実施例1のメモリ10が配設され、このメモリ10に対応してタグテーブル70が配設されている。タグテーブル70では、分流路71の下流側にタグアレイ72を介して合流路73が接続されている。分流路71及び合流路73はそれぞれ、メモリ10の分流路20及び合流路40と同一構成にすることができる。   The cache memory 60 is provided with the memory 10 of the first embodiment, and a tag table 70 is provided corresponding to the memory 10. In the tag table 70, a combined flow path 73 is connected to the downstream side of the branch flow path 71 via a tag array 72. The branch flow path 71 and the combined flow path 73 can have the same configuration as the branch flow path 20 and the combined flow path 40 of the memory 10, respectively.

タグアレイ72を構成するタグ行721の行数は、メモリ行アレイ30のそれと同一である。リードパケット又はライトパケットは、キャッシュメモリ60の外部から入出力部80のインターフェイス81を介して分流路71に供給される。   The number of tag rows 721 constituting the tag array 72 is the same as that of the memory row array 30. The read packet or the write packet is supplied from the outside of the cache memory 60 to the branch path 71 via the interface 81 of the input / output unit 80.

パケットのフォーマットが図2(B)のそれと異なる点は、アドレスADRにおいて上位側にタグアドレスTAが付加されている点と、ヒットビットHMが付加されている点である。メモリ10の分流路20に供給されるパケットのフォーマットは、分流路71に供給されるパケットのそれと同一である。   The packet format is different from that of FIG. 2B in that a tag address TA is added to the upper side in the address ADR and a hit bit HM is added. The format of the packet supplied to the diversion channel 20 of the memory 10 is the same as that of the packet supplied to the diversion channel 71.

タグテーブル70は、供給されるパケットに基づいて、外部メモリ上のタグアドレスTA、行先アドレスDA及びページアドレスPAで識別されるページのデータが、メモリ行アレイ30内の行先アドレスDAで識別される行及びこの行内のページアドレスPAで識別されるページに格納されているかどうかを判定し、その結果に応じた処理を行うものである。   In the tag table 70, based on the supplied packet, the page data identified by the tag address TA, the destination address DA, and the page address PA on the external memory is identified by the destination address DA in the memory row array 30. It is determined whether or not the data is stored in the row and the page identified by the page address PA in this row, and processing corresponding to the result is performed.

タグテーブル70は、供給されるパケットに含まれるタグアドレスTAの値が、行先アドレスDAで識別されるタグアレイ72内の行及びこの行内のページアドレスPAで識別される列のTAGに格納されているタグアドレスの値と一致するか否かでこの判定を行う。一致する場合にはヒットビットHMを'1'にセットし、そうでなければこれを'0'にセットして後述の追い出し/ライトバック/更新処理を行う。   In the tag table 70, the value of the tag address TA included in the supplied packet is stored in the TAG of the column identified by the row in the tag array 72 identified by the destination address DA and the page address PA in this row. This determination is made based on whether the value matches the tag address value. If they match, the hit bit HM is set to '1'. Otherwise, it is set to '0' and eviction / writeback / update processing described later is performed.

図14は、タグアレイ72内の隣り合うタグ行721と722との構成を示す概略ブロック図である。   FIG. 14 is a schematic block diagram showing the configuration of adjacent tag rows 721 and 722 in the tag array 72.

タグ行721及び722は、ノード711とノード731との間に接続されている。ノード711は、タグ行721及び722に対応する分流路71の出口ノードであり、ノード731は、タグ行721及び722に対応する合流路73の入口ノードである。   The tag rows 721 and 722 are connected between the node 711 and the node 731. The node 711 is an outlet node of the branch path 71 corresponding to the tag rows 721 and 722, and the node 731 is an inlet node of the combined channel 73 corresponding to the tag rows 721 and 722.

タグ行721及び722は、ループ配線740を備え、これがラッチ711Lのデータ出力端及びラッチ731Lのデータ入力端に接続されている。ループ配線740は、コマンドCMD、ヒットビットHM及びページアドレスPA以外の信号線である。すなわち、コマンドCMD、ヒットビットHM及びページアドレスPA以外は、ラッチ711Lからラッチ731Lへ直接伝達される。ループ配線740に含まれるタグアドレス(TA)信号線は、タグ行721の構成要素であるコンパレータ760〜763の一方の入力端に接続され、タグ行722についても同様である。   The tag rows 721 and 722 include a loop wiring 740, which is connected to the data output terminal of the latch 711L and the data input terminal of the latch 731L. The loop wiring 740 is a signal line other than the command CMD, the hit bit HM, and the page address PA. That is, the command CMD, the hit bit HM, and the page address PA are directly transmitted from the latch 711L to the latch 731L. The tag address (TA) signal line included in the loop wiring 740 is connected to one input terminal of the comparators 760 to 763 that are components of the tag row 721, and the same applies to the tag row 722.

転送制御回路711Cと転送制御回路731Cとの間には、制御回路741が接続されている。タグ行721は、第0〜3ページに対応したページ情報記憶部750〜753を備え、これらはいずれも、タグTAG、バリッドビットV、ダーティビットD、ロックビットL及びカウンタCNTを備えている。   A control circuit 741 is connected between the transfer control circuit 711C and the transfer control circuit 731C. The tag row 721 includes page information storage units 750 to 753 corresponding to the 0th to 3rd pages, all of which include a tag TAG, a valid bit V, a dirty bit D, a lock bit L, and a counter CNT.

ページ情報記憶部750〜753のタグTAGの内容はそれぞれ、コンパレータ760〜763の他方の入力端に供給される。コンパレータ760〜763は、いずれも2入力が互いに一致するときのみ'1'を出力する。コンパレータ760〜763の出力は、一方ではオアゲート764に供給されてヒットビットHMが生成され、他方ではエンコーダ765に供給されてページアドレスPA1が生成される。   The contents of the tags TAG in the page information storage units 750 to 753 are supplied to the other input terminals of the comparators 760 to 763, respectively. Each of the comparators 760 to 763 outputs “1” only when the two inputs coincide with each other. The outputs of the comparators 760 to 763 are supplied to the OR gate 764 on the one hand to generate the hit bit HM, and on the other hand to the encoder 765 to generate the page address PA1.

マルチプレクサ766には、タグ行721のページアドレスPA1及びヒットビットHM1、これらに対応するタグ行722のページアドレスPA2及びヒットビットHM2、並びに制御回路741からのページアドレスPA及びヒットビットHMが供給され、制御回路741からの選択制御信号によりこれらのうちの1組が選択されて、ラッチ731Lの対応するデータ入力端に供給される。ヒットビットHM1及びHM2は、制御回路741にも供給される。制御回路741にはさらに、ラッチ711Lから行先アドレスDAのビットDA0、ページアドレスPA、タグアドレスTA及びコマンドCMDが供給される。   The multiplexer 766 is supplied with the page address PA1 and the hit bit HM1 of the tag row 721, the page address PA2 and the hit bit HM2 of the tag row 722 corresponding thereto, and the page address PA and the hit bit HM from the control circuit 741. One of these is selected by the selection control signal from the control circuit 741 and supplied to the corresponding data input terminal of the latch 731L. The hit bits HM1 and HM2 are also supplied to the control circuit 741. The control circuit 741 is further supplied with a bit DA0 of the destination address DA, a page address PA, a tag address TA, and a command CMD from the latch 711L.

制御回路741は、ビットDA0が'1'のときタグ行721側を有効にしてタグ行722側を無効にし、'0'のときこの逆にする。以下においてはビットDA0が'1'である場合を説明する。   The control circuit 741 enables the tag row 721 side and disables the tag row 722 side when the bit DA0 is “1”, and vice versa when the bit DA0 is “0”. Hereinafter, a case where the bit DA0 is “1” will be described.

ここで、図13のノード77は、次のような規則で、合流路73からのパケットを分岐転送させる。   Here, the node 77 in FIG. 13 branches and transfers the packet from the combined channel 73 according to the following rule.

(R)コマンドCMDがリードコマンド又はライトコマンドでヒットビットHMが'1'、又は追い出しコマンドの場合、合流路73からのパケットをメモリ10の分流路20側へ転送させ、その他の場合、すなわち更新コマンド又は外部メモリへの書込コマンドの場合には、このパケットを入出力部80のノード82側へ転送させる。   (R) If the command CMD is a read command or a write command and the hit bit HM is '1' or a eviction command, the packet from the combined channel 73 is transferred to the branch channel 20 side of the memory 10, and in other cases, that is, update In the case of a command or a write command to an external memory, this packet is transferred to the node 82 side of the input / output unit 80.

制御回路741は、転送制御回路711CからのSEND3がアクティブであり且つ転送制御回路731CからのACK4がアクティブであると、ビットDA0が'1'であればタグ行721側の回路の出力を有効にしタグ行722側の回路の出力を無効にして、後述の制御を行った後、次のような後処理を行う。   If SEND3 from the transfer control circuit 711C is active and ACK4 from the transfer control circuit 731C is active, the control circuit 741 enables the output of the circuit on the tag row 721 side if the bit DA0 is “1”. After invalidating the output of the circuit on the tag row 722 side and performing the control described later, the following post-processing is performed.

(A)制御回路741は、ラッチ731Lの入力データが確定したと考えられる時間経過後に、転送制御回路731CへのSEND4をアクティブにする。転送制御回路731Cはこれに応答して、転送制御回路731Cの前段からのACKがアクティブであれば、ラッチ731Lのクロック入力端CKにパルスを供給して入力データをラッチ731Lに取り込ませ保持させ、ACK4をインアクティブにする。制御回路741はこれに応答してSEND4をインアクティブにする。制御回路741は次いで、ACK3をアクティブにして、ラッチ711Lがその後段からのデータを取り込めるようにさせる。   (A) The control circuit 741 activates SEND4 to the transfer control circuit 731C after the elapse of time when it is considered that the input data of the latch 731L has been confirmed. In response to this, if the ACK from the previous stage of the transfer control circuit 731C is active, the transfer control circuit 731C supplies a pulse to the clock input terminal CK of the latch 731L to capture and hold the input data in the latch 731L. Make ACK4 inactive. In response to this, the control circuit 741 makes SEND4 inactive. Control circuit 741 then activates ACK3 to allow latch 711L to capture data from the subsequent stage.

制御回路741は、コマンドCMDがリードを示していれば、転送制御回路711Cに対するACK3をインアクティブに維持した状態で、次のような制御を行う。   If the command CMD indicates a read, the control circuit 741 performs the following control while maintaining ACK3 for the transfer control circuit 711C inactive.

(a)リードでキャッシュヒット
制御回路741は、オアゲート764の出力が確定していると考えられる所定時間経過後にヒットビットHM1が'1'であれば、一方ではマルチプレクサ766に対し、ページアドレスPA1とヒットビットHM1との組を選択させ、ラッチ711LからのコマンドCMDをそのままノード731へ供給し、他方ではページアドレスPA1=iに対応したページ情報記憶部75iのカウンタCNTをインクリメントする。但し、カウンタCNTは、その値が最大値になるとインクリメントされない。
(A) Cache hit by read If the hit bit HM1 is '1' after a lapse of a predetermined time when the output of the OR gate 764 is considered to be fixed, the control circuit 741 sends the page address PA1 to the multiplexer 766. A pair with the hit bit HM1 is selected and the command CMD from the latch 711L is supplied to the node 731 as it is, and on the other hand, the counter CNT of the page information storage unit 75i corresponding to the page address PA1 = i is incremented. However, the counter CNT is not incremented when the value reaches the maximum value.

制御回路741は、次いで上記後処理(A)を行う。パケットは、合流路73を通って図13のノード77へ転送される。ノード77では、上記規則(R)によりメモリ10側へ転送され、対応する1ページ分のデータが合流路40から読み出されて、これが入出力部80のノード82を介しインターフェイス81に供給され、インターフェイス81からCPU側へ出力される。   Next, the control circuit 741 performs the post-processing (A). The packet is transferred to the node 77 in FIG. In the node 77, the data is transferred to the memory 10 side according to the rule (R), the corresponding one page of data is read from the combined channel 40, and this is supplied to the interface 81 via the node 82 of the input / output unit 80. The data is output from the interface 81 to the CPU side.

(b)リードでキャッシュミスヒット且つページ内でV='0'有り
制御回路741は、ヒットビットHM1が'0'、且つ、ページ情報記憶部750〜753のいずれかのバリッドビットVが'0'(未使用)であれば、このバリッドビットVが属するタグTAGをこのパケットのタグアドレスTAで書き換え、コマンドCMDを更新コマンドにし、このバリッドビットVが属するページ情報75i(iは0〜3のいずれか)のiをページアドレスPAとし、これとHM='0'をマルチプレクサ766に供給するとともに、マルチプレクサ766に対しこれらPAとHMとの組を選択させ、次いで上記(A)の後処理を行う。
(B) Cache miss hit by read and V = '0' in page The control circuit 741 has a hit bit HM1 of '0' and any valid bit V of the page information storage units 750 to 753 is '0'. If '(not used), the tag TAG to which this valid bit V belongs is rewritten with the tag address TA of this packet, the command CMD is used as an update command, and the page information 75i to which this valid bit V belongs (i is 0 to 3). (I) is set as the page address PA, and this and HM = '0' are supplied to the multiplexer 766, and the multiplexer 766 selects the pair of PA and HM. Do.

上記規則(R)により、更新コマンドのパケットはノード77、82及びインターフェイス81を介し外部メモリコントローラ側へ供給され、外部メモリから、このパケットのタグアドレスTA及びページアドレスPAで指定される1ページ分のデータがバーストモードで読み出される。   According to the rule (R), the update command packet is supplied to the external memory controller side via the nodes 77 and 82 and the interface 81, and is sent from the external memory for one page specified by the tag address TA and page address PA of this packet. Are read in burst mode.

このデータは、一方ではリード要求を行ったCPUへ供給され、他方ではワード単位でインターフェイス81へ供給される。インターフェイス81では、前記更新パケットがこのデータの到着を待機しており、図15に示すように、この更新パケットのデータフィールドに1ワードのデータが書き込まれ、そのコピーが分流路71へ供給される。2回目以降は、更新パケット内のワードアドレスWAが1だけインクリメントされて同様の処理が、WA='11'になるまで繰り返される。   This data is supplied on the one hand to the CPU that made the read request and on the other hand to the interface 81 in word units. At the interface 81, the update packet waits for the arrival of this data, and as shown in FIG. 15, one word of data is written in the data field of this update packet, and a copy thereof is supplied to the branch channel 71. . From the second time onward, the word address WA in the update packet is incremented by 1, and the same processing is repeated until WA = '11 '.

タグアレイ72では、図14において、次のような処理が行われる。制御回路741は、コマンドCMDが更新コマンドである場合、ライトを示すコマンドCMDをラッチ731Lに供給するとともに、バリッドビットVが'0'であればこれを'1'にし、ロックビットLを'1'にし、次いで上記(A)の後処理を行う。   In the tag array 72, the following processing is performed in FIG. When the command CMD is an update command, the control circuit 741 supplies a command CMD indicating a write to the latch 731L, and sets the lock bit L to “1” if the valid bit V is “0”. Then, the post-processing of (A) is performed.

上記規則(R)により、ライトコマンドのパケットはノード77からメモリ10へ分岐し、アドレスに応じた場所に1ワードのデータが順次書き込まれる。   According to the rule (R), the write command packet branches from the node 77 to the memory 10, and one word of data is sequentially written at a location corresponding to the address.

(c)リードでキャッシュミスヒット且つページ内で全てV='1'
制御回路741は、ヒットビットHM1が'0'、且つ、ページ情報記憶部750〜753のいずれのバリッドビットVも'1'であれば、次のようにして追い出しページを決定する。
(C) Cache miss hit in read and all V = '1' in page
If the hit bit HM1 is “0” and any valid bit V in the page information storage units 750 to 753 is “1”, the control circuit 741 determines the eviction page as follows.

すなわち、ページ情報記憶部750〜753のカウンタCNTのうち、ロックビットLが'0'であるカウンタCNTの最小値がどれであるかを決定し、このカウンタCNTが属するページ情報75i(iは0〜3のいずれか)のiを追い出し/更新ページiと決定する。ロックビットLが'0'であることを追い出し/更新ページ決定対象の条件とすることにより、L='1'且つV='1'であればタグTAGの書き換えが禁止される。   That is, of the counters CNT in the page information storage units 750 to 753, the minimum value of the counter CNT whose lock bit L is “0” is determined, and the page information 75i (i is 0) to which the counter CNT belongs. I in any of (3) to (3) is determined to be the eviction / update page i. By setting the lock bit L to “0” as a condition for determining the eviction / update page, rewriting of the tag TAG is prohibited if L = “1” and V = “1”.

制御回路741は次いで、ダーティビットDが'1'であれば、追い出しを示すコマンドCMDをラッチ731Lに供給し、PA=i及びHM='1'をマルチプレクサ766に供給し、マルチプレクサ766にこの組を選択させる。次いで上記(A)の後処理を行う。   Next, if the dirty bit D is “1”, the control circuit 741 supplies a command CMD indicating eviction to the latch 731L, supplies PA = i and HM = “1” to the multiplexer 766, and supplies this command to the multiplexer 766. To select. Next, the post-processing (A) is performed.

上記規則(R)により、パケットはノード77を介しメモリ10側へ転送され、リードコマンドの場合と同じ処理が行われて、対応する1ページ分のデータがワード単位で合流路40から読み出され、ノード77、入出力部80のノード82及びインターフェイス81を介し外部メモリコントローラ側へ供給される。これにより、外部メモリ内の、パケットのタグアドレスTA及びページアドレスPAで指定されるページに、データがライトバックされる。   According to the rule (R), the packet is transferred to the memory 10 side via the node 77, and the same processing as in the case of the read command is performed, and the corresponding data for one page is read from the merge channel 40 in units of words. , The node 77, the node 82 of the input / output unit 80, and the interface 81 to the external memory controller side. As a result, data is written back to the page specified by the tag address TA and page address PA of the packet in the external memory.

制御回路741は、ダーティビットDが'0'である場合、又は、ダーティビットDが'1'で上記追い出しコマンドのパケットをラッチ731Lへ転送する直前又は直後に、ラッチ711LからのタグアドレスTAをページ情報75iのタグTAGに書き込み、ロックビットLを'1'にし、該転送の直後に、更新を示すコマンドCMDをラッチ731Lに供給し、上記(2R)で述べた更新コマンドのパケット生成処理を行う。   The control circuit 741 sets the tag address TA from the latch 711L when the dirty bit D is “0”, or immediately before or after transferring the packet of the eviction command to the latch 731L when the dirty bit D is “1”. Write to the tag TAG of the page information 75i, set the lock bit L to “1”, immediately after the transfer, supply the command CMD indicating the update to the latch 731L, and perform the packet generation processing of the update command described in (2R) above. Do.

したがって、ダーティビットDが'1'の場合、タグ行721から追い出しコマンドのパケットが出力された後直ぐに、更新コマンドのパケットが出力され、その後、追い出し処理と更新処理とが並列して行われる。   Therefore, when the dirty bit D is “1”, the update command packet is output immediately after the eviction command packet is output from the tag row 721, and then the eviction process and the update process are performed in parallel.

制御回路741は、コマンドCMDがライトを示していれば、転送制御回路711Cに対するACK3をインアクティブに維持した状態で、次のような制御を行う。   If the command CMD indicates write, the control circuit 741 performs the following control while maintaining ACK3 for the transfer control circuit 711C inactive.

(d)ライトでキャッシュヒット
制御回路741は、オアゲート764の出力が確定していると考えられる所定時間経過後にヒットビットHM1が'1'であれば、一方ではマルチプレクサ766に対し、ページアドレスPA1とヒットビットHM1との組を選択させ、ラッチ711LからのコマンドCMDをそのままノード731へ供給し、他方ではカウンタCNTをインクリメントし、ダーティビットDに'1'をセットする。次いで上記(A)の後処理を行う。上記規則(R)により、パケットはノード77を介しメモリ10側へ転送され、パケット内の行先アドレスDA、ページアドレスPA及びワードアドレスWAで指定されるワードメモリにパケット内のデータDATAが書き込まれる。
(D) Cache hit by write If the hit bit HM1 is '1' after a lapse of a predetermined time when the output of the OR gate 764 is considered to be fixed, the page address PA1 is sent to the multiplexer 766. A pair with the hit bit HM1 is selected, and the command CMD from the latch 711L is supplied to the node 731 as it is. On the other hand, the counter CNT is incremented, and the dirty bit D is set to “1”. Next, the post-processing (A) is performed. According to the rule (R), the packet is transferred to the memory 10 side via the node 77, and the data DATA in the packet is written in the word memory specified by the destination address DA, page address PA, and word address WA in the packet.

(b)ライトでキャッシュミスヒット
制御回路741は、ヒットビットHM1が'0'であれば、メモリへの書き込みを示すコマンドCMDをラッチ731Lに供給し、ヒットビットHM='0'及びラッチ711LからのページアドレスPAをマルチプレクサ766に供給し、マルチプレクサ766にこの組を選択させる。次いで上記(A)の後処理を行う。上記規則(R)により、パケットはノード77、入出力部80のノード82及びインターフェイス81を介し外部メモリコントローラ側へ供給され、外部メモリ内の、パケットのタグアドレスTA及びページアドレスPAで指定されるページに、パケット内のデータDATAが書き込まれる。
(B) Cache miss hit by write If the hit bit HM1 is “0”, the control circuit 741 supplies a command CMD indicating writing to the memory to the latch 731L, and the hit bit HM = “0” and the latch 711L The page address PA is supplied to the multiplexer 766, and the multiplexer 766 selects this set. Next, the post-processing (A) is performed. According to the rule (R), the packet is supplied to the external memory controller via the node 77, the node 82 of the input / output unit 80, and the interface 81, and is specified by the tag address TA and the page address PA of the packet in the external memory. Data DATA in the packet is written to the page.

本実施例7のキャッシュメモリ60によれば、メモリ10及びタグテーブル70内の各パイプライン段及びノード77、インターフェイス81及びノード82にパケットが分散しそれぞれのノードでローカルな同期をとってパイプライン処理を行うことができるので、複数のヒットと複数のミスヒットとに対する処理を同時に並列に行うことができ、スループットが高く、しかも構成が比較的簡単であるので、特に、同期型マルチCPUやデータ駆動型処理装置に用いて好適である。   According to the cache memory 60 of the seventh embodiment, packets are distributed to each pipeline stage in the memory 10 and the tag table 70, the node 77, the interface 81, and the node 82, and the pipeline is synchronized locally with each node. Since processing can be performed, processing for a plurality of hits and a plurality of miss hits can be performed in parallel at the same time, the throughput is high, and the configuration is relatively simple. It is suitable for use in a drive type processing apparatus.

図16は、本発明の実施例8のキャッシュメモリ60Aを示す概略ブロック図である。   FIG. 16 is a schematic block diagram showing the cache memory 60A according to the eighth embodiment of the present invention.

このキャッシュメモリ60Aでは、図13のメモリ10及びタグテーブル70の代わりに、4系統のメモリ10A及びタグテーブル70Aが配設されている。これに対応して、図13のノード77の代わりに、ノード771〜774が配設され、図13の入出力部80の代わりに、入出力部80と同一構成の入出力部801〜804が配設されている。   In this cache memory 60A, four systems of memory 10A and tag table 70A are provided instead of the memory 10 and tag table 70 of FIG. Correspondingly, nodes 771 to 774 are arranged instead of the node 77 of FIG. 13, and input / output units 801 to 804 having the same configuration as the input / output unit 80 are provided instead of the input / output unit 80 of FIG. It is arranged.

キャッシュメモリ60Aの動作は、以上の説明から容易に理解できるので、これを省略する。   Since the operation of the cache memory 60A can be easily understood from the above description, it will be omitted.

本実施例8のキャッシュメモリ60Aによれば、系統が実施例7の場合の4倍になるので、スループットが高く、上記実施例で述べた効果が高くなる。しかも、各系統について、メモリ10A内及びタグテーブル70A内において第1〜4系統で共用されるノードが多く且つメモリ行アレイ30及びタグアレイ72が各系統で共用されるので、資源を有効利用できるとともに、構成の複雑化が避けられ、しかも、流路幅の比較的広い部分で共用されるので、パケットの混雑によるスループット低下が抑制されるという効果を奏する。   According to the cache memory 60A of the eighth embodiment, the system is four times that of the seventh embodiment, so that the throughput is high and the effects described in the above embodiments are high. Moreover, for each system, there are many nodes shared by the first to fourth systems in the memory 10A and the tag table 70A, and the memory row array 30 and the tag array 72 are shared by each system, so that resources can be used effectively. Further, since the configuration is prevented from being complicated, and it is shared by a relatively wide portion of the flow path width, an effect of suppressing a decrease in throughput due to packet congestion is obtained.

CPUでは一般に、2つのオペランドに対して処理を行う命令が多数有る。パイプライン段数が多いとレイテンシが長くなるが、1つのCPUコアで時分割n並列処理を行う場合、同期型では、切替時間がゼロであると仮定しても各処理の速度が1/nとなるので、例えばサーバーコンピュータのように並列度が高い場合には、非同期型の方が有利となる。   In general, a CPU has a large number of instructions for processing two operands. When the number of pipeline stages is large, the latency becomes long. However, when time-shared n parallel processing is performed by one CPU core, the speed of each processing is 1 / n even if the switching time is assumed to be zero in the synchronous type. Therefore, for example, when the degree of parallelism is high as in a server computer, the asynchronous type is more advantageous.

図17は、本発明が適用された実施例9の、このような用途に用いて好適なプロセッサの一部であるデータ処理部10APを示す概略ブロック図である。   FIG. 17 is a schematic block diagram showing a data processing unit 10AP which is a part of a processor suitable for such a use of the ninth embodiment to which the present invention is applied.

この図に太線で示すように、合流路40APのどの出口ノードにパケットが到達するかは系統値のみにより定まるので、同一系統に複数のパケットを連続して分流路20Aの入口ノードに供給することにより、これに対応したデータパケットを複数、合流路40APの同一出口ノードに集めることができる。すなわち、系統値を同一にすることにより、出口ノードで複数のパケットの待ち合わせを自動的に行うことができる。   As indicated by the bold line in this figure, the exit node of the combined flow path 40AP is determined only by the system value, so that a plurality of packets are continuously supplied to the entrance node of the branch path 20A in the same system. Thus, a plurality of data packets corresponding to this can be collected at the same exit node of the combined channel 40AP. In other words, by making the system values the same, a plurality of packets can be automatically queued at the egress node.

そこで、合流路40APでは、出口ノード461AP〜464APのそれぞれに、処理要素を備えている。各処理要素での処理内容は、同一であっても、系統値により定まるものであってもよい。処理要素は、高機能であっても低機能であってもよい。30Rは、レジスタファイルとして用いられる。レジスタファイル30Rを、これら処理要素で共有する領域と個々に専用する領域とに、自由に分割することができる。   Therefore, in the joint channel 40AP, each of the exit nodes 461AP to 464AP includes a processing element. The processing content in each processing element may be the same or may be determined by the system value. The processing element may have a high function or a low function. 30R is used as a register file. The register file 30R can be freely divided into an area shared by these processing elements and an area dedicated to each.

図18(A)は、コマンドCMDを含む第1オペランドパケットP1と、第2オペランドパケットP2とを順次入口ノード211に投入したときに、これらに対応したパケットP1A及びP2Aがノード461Pに到達し、その処理要素により結果パケットP3が得られる場合を示している。第1オペランドパケットP1又は/及び第2オペランドパケットP2は、順次供給される複数のパケットであってもよい。   18A shows that when the first operand packet P1 including the command CMD and the second operand packet P2 are sequentially input to the ingress node 211, the corresponding packets P1A and P2A arrive at the node 461P. The case where the result packet P3 is obtained by the processing element is shown. The first operand packet P1 and / or the second operand packet P2 may be a plurality of packets that are sequentially supplied.

このパケットP3が、図18(B)に示すパケットP1N及びP2Nのように、次のステップのパケットP1とP2とに対応したものである場合、これらを、ノード47を介し入口ノード211にフィードバックさせることにより、処理を連続的に高速に行うことができる。ノード47は、ノード461Pが出力したパケットP1Nに基づいて、処理が完了したか否かを判定し、肯定判定した場合には結果を出力し、パケットに含まれる処理モード(又はCMD)に基づいて、処理を打ち切り又は継続する。   When this packet P3 corresponds to the packets P1 and P2 in the next step as in the packets P1N and P2N shown in FIG. 18B, these are fed back to the ingress node 211 via the node 47. Thus, the processing can be continuously performed at high speed. The node 47 determines whether or not the processing is completed based on the packet P1N output from the node 461P. If the determination is affirmative, the node 47 outputs the result, and based on the processing mode (or CMD) included in the packet. , Abort or continue processing.

分流路20Aは、デコーダとして機能するとともに、キューとしても機能する。また、合流路40APの出口ノード以外のノードは、同一系統の処理要素へパケットを集配するとともに、キューとしても機能する。したがって、入口ノード211〜214にパケットが不定期に供給され、且つ、その平均時間が出口ノード461AP〜464APに備えられた処理要素の処理時間にほぼ等しい場合には、データ処理部10APの外部にキューを設けることなく、効率よく処理を行うことができる。この平均時間は、入口ノード211〜214にパケットを供給する回路又は装置の並列度を調整することにより、適正な値に変更可能である。   The branch channel 20A functions as a decoder and also as a queue. Further, nodes other than the exit node of the combined channel 40AP collect and deliver packets to the processing elements of the same system, and also function as queues. Therefore, when packets are irregularly supplied to the ingress nodes 211 to 214 and the average time is approximately equal to the processing time of the processing elements provided in the egress nodes 461AP to 464AP, the data processing unit 10AP is externally connected. Processing can be performed efficiently without providing a queue. This average time can be changed to an appropriate value by adjusting the degree of parallelism of the circuits or devices that supply packets to the ingress nodes 211 to 214.

また、1つのリードパケットに対しレジスタファイル30Rから複数パケットが読み出される場合にも、合流路40APの出口ノード以外のノードはこれらに対するキューとして機能し、キューを新たに設けることなく、効率よく処理を行うことができる。   In addition, even when a plurality of packets are read from the register file 30R for one read packet, the nodes other than the exit node of the merge channel 40AP function as a queue for these, and efficiently process without providing a new queue. It can be carried out.

したがって、データ処理部10AP内の段数が比較的多くても、逆に利点となる場合がある。   Therefore, even if the number of stages in the data processing unit 10AP is relatively large, it may be advantageous.

並列度が高いと多数のデータを同時に使用するが、本実施例9のデータ処理部10APによれば、比較的多数のレジスタを複数の処理要素において選択的に利用でき、かつ、実施例1で述べたように高スループットでランダムアクセスができるので、効率よく処理を行うことができるという効果を奏する。   When the degree of parallelism is high, a large number of data is used simultaneously. However, according to the data processing unit 10AP of the ninth embodiment, a relatively large number of registers can be selectively used in a plurality of processing elements. As described above, since random access can be performed with high throughput, there is an effect that processing can be performed efficiently.

また、従来ではFIFOメモリ、ハッシュメモリ、連想メモリ、演算部及び制御部等を備えたマッチングメモリで同一カラーのパケットを待ち合わせて処理要素で処理を行っていたので、構成が複雑であるとともに、処理が遅延してスループットが低下する原因となっていたが、本実施例9では、パケットペアが連続して合流するのでマッチングメモリを用いる必要が無く、構成が簡単になるとともにスループットが高くなるという効果を奏する。   Conventionally, a matching memory equipped with a FIFO memory, a hash memory, an associative memory, a calculation unit, a control unit, and the like waits for packets of the same color and processes them with processing elements. However, in the ninth embodiment, since packet pairs are continuously joined, there is no need to use a matching memory, and the configuration is simplified and the throughput is increased. Play.

図18(A)において、パケットP1に対しレジスタファイル30Rから読み出されるデータが例えば上述のリードパケットのように8ワードである場合、通信路でデータが混雑する。この場合、演算結果のパケット数が少なければその下流側のデータ混雑度を低減することができる。   In FIG. 18A, when the data read from the register file 30R for the packet P1 is, for example, 8 words as in the above-described read packet, the data is congested on the communication path. In this case, if the number of operation result packets is small, the data congestion degree on the downstream side can be reduced.

そこで、本発明のプロセッサのデータ処理部10BPでは、図19において、合流路40BPの各ノードに処理要素を備え、パケットP1とP2(図18)とが合流路40BP上で合流したノードにおいて演算を行い、その結果を下流側に転送させる。   Therefore, in the data processing unit 10BP of the processor of the present invention, in FIG. 19, each node of the combined channel 40BP is provided with a processing element, and the calculation is performed at the node where the packets P1 and P2 (FIG. 18) merge on the combined channel 40BP. And transfer the result downstream.

図19に示す太線は、第1系統と第4系統でのパケットペアの経路を示す。これら経路は、行先アドレスDAと系統CHとで定まる。レジスタファイル30Rに関し分流路20A上の経路と合流路40BP上の経路とが論理的に対称になるように系統CHを定めれば、行先アドレスDAのみで合流路40AP上の合流点が定まる。この合流点に対応する分流路20A上の分岐点は、パケットペアの行先アドレスDAの最上位ビットからの一致ビット数により定まる。   The thick line shown in FIG. 19 indicates the route of the packet pair in the first system and the fourth system. These routes are determined by the destination address DA and the system CH. If the system CH is determined so that the path on the branch channel 20A and the path on the merge channel 40BP are logically symmetric with respect to the register file 30R, the merge point on the merge channel 40AP is determined only by the destination address DA. The branch point on the branch path 20A corresponding to this junction is determined by the number of coincidence bits from the most significant bit of the destination address DA of the packet pair.

例えば図19の上側のパケットペア経路T1及びT2の行先アドレスビットDA1及びDA2の一致部は、図20(A)に示すように上位2ビットの'10'である。一致ビット数をiで表すと、分流路20A上の第(i+1)段でパケットペアが分岐し、合流路40AP上の第(6−i)段でパケットペアが合流する。   For example, the coincidence portion of the destination address bits DA1 and DA2 of the upper packet pair paths T1 and T2 in FIG. 19 is “10” of the upper 2 bits as shown in FIG. When the number of coincidence bits is represented by i, the packet pair branches at the (i + 1) -th stage on the branch channel 20A, and the packet pair joins at the (6-i) -th stage on the junction path 40AP.

パケット合流段識別子を、図19中に示すように上記iの値で表し、合流路40AP上の各ノードに、固定した合流段識別子の値を持たせ、これがパケットペアの合流段識別子MAと一致する場合、そのノードの処理要素でパケットペアに対する処理を行う。図20(B)は、合流段識別子MAを含むパケットのフォーマットを示す。図19中に示すように、後の実施例で用いる分流路20A上での分岐段IDも、上記iの値で表す。   The packet merge stage identifier is represented by the value i as shown in FIG. 19, and each node on the merge channel 40AP has a fixed merge stage identifier value, which matches the merge stage identifier MA of the packet pair. If so, the packet pair is processed by the processing element of the node. FIG. 20 (B) shows a format of a packet including the merge stage identifier MA. As shown in FIG. 19, the branch stage ID on the branch channel 20 </ b> A used in a later embodiment is also represented by the value i.

合流段識別子MAの決定は、分流路20Aの後段側のノード201〜204において行う。図18(B)に示すようにループを構成する場合には、ノード201〜204の配設位置は、合流路40APの下流側であってもよい。   The determination of the merge stage identifier MA is performed in the nodes 201 to 204 on the rear stage side of the branch channel 20A. When a loop is configured as shown in FIG. 18B, the arrangement positions of the nodes 201 to 204 may be downstream of the combined flow path 40AP.

図21は、ノード201の構成を示す概略ブロック図である。   FIG. 21 is a schematic block diagram showing the configuration of the node 201.

このノード201は、ラッチ201Lと転送制御回路201Cとの基本構成のほかに、パケットペア判定部201Pと合流段ID決定部201Fとを備えている。   In addition to the basic configuration of the latch 201L and the transfer control circuit 201C, the node 201 includes a packet pair determination unit 201P and a merging stage ID determination unit 201F.

パケットペア判定部201Pは、ラッチ201Lの出力及びその後段のデータ出力が確定している場合、すなわちノード201から出力されるSEND2及び転送制御回路201Cに供給されるSEND1が同時にアクティブである場合、ラッチ201Lの下流側及び上流側のパケットに含まれるパケットタイプPT(図20(B))がそれぞれ第1オペランドパケット及び第2オペランドパケットであることを示していれば、パケットペアであると判定する。   The packet pair determination unit 201P latches when the output of the latch 201L and the subsequent data output are fixed, that is, when SEND2 output from the node 201 and SEND1 supplied to the transfer control circuit 201C are simultaneously active. If the packet type PT (FIG. 20B) included in the downstream packet and the upstream packet of 201L indicates the first operand packet and the second operand packet, respectively, it is determined that the packet is a packet pair.

合流段ID決定部201Fは、この判定に応答して、両パケットの行先アドレスDAに基づき、上述のようにして合流段識別子MAを決定し、これを下流側ラッチに供給することにより、合流段識別子MAを図19のノード211のラッチに取り込ませ保持させる。   In response to this determination, the merging stage ID determination unit 201F determines the merging stage identifier MA as described above based on the destination addresses DA of both packets, and supplies the merging stage identifier MA to the downstream latch. The identifier MA is fetched and held in the latch of the node 211 in FIG.

リードパケットのペア(第1オペランドパケット及び第2オペランドパケット)に対し、第1パケットに含まれるコマンドに応じた処理を行う場合、それぞれのリードパケットは、図19の分流路20Aにおいて、図20(B)に示すデータフィールドデータDATAが空きになっている。一方、分流路20Bでは入口ノード側の流路幅が比較的狭いので、パケット数が多いと混雑し易い。また、パケットペアを順次分流路20Bに供給しても、合流ノードでは先着優先であるので、パケットペア間に他のパケットが割り込むことが考えられる。   When processing according to the command included in the first packet is performed on the read packet pair (first operand packet and second operand packet), each read packet is shown in FIG. The data field data DATA shown in B) is empty. On the other hand, since the flow path width on the entrance node side is relatively narrow in the branch path 20B, it is likely to be crowded if the number of packets is large. Further, even if packet pairs are sequentially supplied to the branch path 20B, the first node is given priority at the joining node, so it is conceivable that another packet may interrupt between the packet pairs.

そこで、リードパケットのペアを、図22(A)に示すように1パケットに圧縮する。図中、アドレスADR1及びADR2は、それぞれ第1オペランドアドレス及び第2オペランドアドレスである。これらの上位側ビットは、行先アドレスDA1及びDA2を除き、圧縮前の第1及び第2オペランドパケットに共通のフィールドであり、これにより圧縮率が高くなる。   Therefore, the read packet pair is compressed into one packet as shown in FIG. In the figure, addresses ADR1 and ADR2 are a first operand address and a second operand address, respectively. These high-order bits are fields common to the first and second operand packets before compression, except for the destination addresses DA1 and DA2, thereby increasing the compression rate.

図22(A)において、アドレスADR1及びADR2の上位ビットである行先アドレスDA1及びDA2がそれぞれページアドレスPA1及びPA2から離れた位置にあるのは、パケットをその先頭側の通信路層制御データとそれ以外の機能モジュール層データとに分けた為である。通信路層制御データは通信路のみで用いられ、機能モジュール層データは、機能モジュールとしてのレジスタファイル30R、及び合流路40BP上の各ノードに含まれる処理要素で用いられる。圧縮パケットの行先アドレスはDA1とDA2の上位側一致ビットであるので、これらの一方のみでよいが、上述のノード201〜204で用いられるので、両方とも通信路層制御データとしている。   In FIG. 22A, destination addresses DA1 and DA2, which are the upper bits of addresses ADR1 and ADR2, are located at positions away from page addresses PA1 and PA2, respectively. This is because it is divided into functional module layer data other than. The communication path layer control data is used only in the communication path, and the functional module layer data is used in a register file 30R as a functional module and a processing element included in each node on the combined path 40BP. Since the destination address of the compressed packet is the higher-order coincidence bit of DA1 and DA2, only one of them is sufficient, but since it is used in the nodes 201 to 204 described above, both are used as communication path layer control data.

ここで、アドレスADR1とADR2とは、行先アドレスDAが一般に異なるので、図19において、分流路20A上のパケット経路T1及びT2の分岐点で、圧縮パケットをパケットペアに伸張する必要がある。どの段で分岐するかは、上述のようにノード201〜204で決定される合流段識別子MA(=分岐段識別子)の値により定まる。   Here, since the destination addresses DA are generally different between the addresses ADR1 and ADR2, in FIG. 19, it is necessary to expand the compressed packet into a packet pair at the branch point of the packet paths T1 and T2 on the branch channel 20A. Which stage branches is determined by the value of the joining stage identifier MA (= branch stage identifier) determined by the nodes 201 to 204 as described above.

そこで、分流路20Aの各ノードに、圧縮パケットをパケットペアに伸張する機能を備え、そのノードに、固定の分岐段識別子を割り当てておき、パケット内の合流段識別子MA(=分岐段識別子)の値が該ノードの分岐段識別子に一致したときに、圧縮パケットをパケットペアに伸張する。   Therefore, each node of the branch channel 20A has a function of expanding the compressed packet into a packet pair, and a fixed branch stage identifier is assigned to the node, and the merge stage identifier MA (= branch stage identifier) in the packet is assigned. When the value matches the branch stage identifier of the node, the compressed packet is expanded into a packet pair.

図22(A)の圧縮パケット50Dをパケットペアに伸張したパケット50E及び50Fをそれぞれ図22(B)及び(C)に示す。パケット50Eは、パケット50Dをそのまま用いることができる。したがって、最初はパケット50Dをコピーしたものをパケット50Eとして次段へ転送させる。次いで、パケット50D内の行先アドレスビットDA1、ページアドレスPA1及びワードアドレスWA1をそれぞれ行先アドレスビットDA2、ページアドレスPA2及びワードアドレスWA2に書き換えてこれをパケット50Fとし、次段へ転送させる。   Packets 50E and 50F obtained by expanding the compressed packet 50D of FIG. 22A into packet pairs are shown in FIGS. 22B and 22C, respectively. The packet 50E can use the packet 50D as it is. Accordingly, a copy of the packet 50D is first transferred to the next stage as a packet 50E. Next, the destination address bit DA1, the page address PA1, and the word address WA1 in the packet 50D are rewritten to the destination address bit DA2, the page address PA2, and the word address WA2, respectively, so that the packet 50F is transferred to the next stage.

次に、レジスタファイル30Rから1ページ分読み出したリードデータパケット及びレジスタファイル30Rへの1ページ分のライトパケットについては、いずれも先頭パケットのフォーマットをパケット50Eと同一にし、これに、図22(D)に示すフォーマットのパケット50Gを8個連接させる。そして、パケット50Eの軌跡に沿ってパケット50Gを転送させ、その各ノードで行き先方向を切り替えないことにより、転送中に他のパケットに割り込まれないようにして、これら9パケットを連続させる。   Next, for the read data packet read for one page from the register file 30R and the write packet for one page to the register file 30R, the format of the top packet is the same as that of the packet 50E, and FIG. The eight packets 50G having the format shown in FIG. Then, the packet 50G is transferred along the trajectory of the packet 50E, and the destination direction is not switched at each node, so that these nine packets are made continuous without being interrupted by other packets during the transfer.

このような転送を可能にするために、一方では、各パケットに1ビットの連接ビットCNを備える。連接ビットCNが'1'のとき、これに後続するパケットが有ることを示し、'0'のとき、無いことを示す。図23(A)及び(B)はそれぞれ、パケットタイプPTが'0'の先頭パケットである第1オペランドパケット(レジスタファイル30R内でコピーされた第1オペランドパケット)及びこれに続く、読み出された8ワードのリードデータパケットを示す。図23(C)及び(D)はそれぞれ、パケットタイプPTが'1'の先頭パケットである第2オペランドパケット(レジスタファイル30R内でコピーされた第2オペランドパケット)及びこれに続く、読み出された8ワードのリードデータパケットを示す。   In order to allow such a transfer, on the one hand, each packet is provided with one concatenated bit CN. When the concatenated bit CN is “1”, it indicates that there is a subsequent packet, and when it is “0”, it indicates that there is no packet. FIGS. 23A and 23B respectively read the first operand packet (the first operand packet copied in the register file 30R) which is the first packet having the packet type PT of “0” and the subsequent packets. And an 8-word read data packet. FIGS. 23C and 23D respectively read the second operand packet (the second operand packet copied in the register file 30R) which is the first packet having the packet type PT of “1” and the subsequent packets. And an 8-word read data packet.

なお、順序ビットODの値は、分流路40BPを出た後に順序維持を必要とするか否かにより、機能エレメントアレイ30Rにおいて決定される。   The value of the order bit OD is determined in the functional element array 30R depending on whether or not the order needs to be maintained after leaving the branch flow path 40BP.

他方では、合流路40BP上の各ノードに、連接ビットCNに対応したフリップフロップ(ノード側連接ビット)を備えておき、このフリップフロップの状態を次のように制御する。   On the other hand, each node on the joint channel 40BP is provided with a flip-flop (node-side connection bit) corresponding to the connection bit CN, and the state of this flip-flop is controlled as follows.

図25は、合流路40BP上の入口ノード及び出口ノード以外の任意の合流ノードN1のノード側連接ビットF1に対する状態制御回路47とこれに関連する要素を示すブロック図である。合流ノードN1の後段のノードN01及びN02並びに前段のノードN2のフリップフロップをそれぞれF01、F02及びF03と表記する。   FIG. 25 is a block diagram showing the state control circuit 47 for the node-side connection bit F1 of any merging node N1 other than the inlet node and the outlet node on the merging channel 40BP and elements related thereto. The flip-flops of the nodes N01 and N02 at the subsequent stage of the merging node N1 and the node N2 at the preceding stage are denoted as F01, F02, and F03, respectively.

合流ノードN1は、フリップフロップF01が'1'であれば先着優先の例外として、ノードN01からのパケットを優先的に選択してラッチし、フリップフロップF02が'1'であれば先着優先の例外として、ノードN02からのパケットを優先的に選択してラッチする。   The joining node N1 preferentially selects and latches a packet from the node N01 as a first-priority exception if the flip-flop F01 is “1”, and a first-priority exception if the flip-flop F02 is “1”. Then, the packet from the node N02 is preferentially selected and latched.

状態制御回路47は以下のようにノード側連接ビットF1の状態を制御し、これにより、フリップフロップF01及びF02のうち一方が先に'1'になっているときに他方が後から'1'にならないようにする。   The state control circuit 47 controls the state of the node-side connection bit F1 as follows, so that when one of the flip-flops F01 and F02 is first “1”, the other is later “1”. Do not become.

(1)状態制御回路47は、フリップフロップF2が'0'であり、ノードN1がラッチしたパケットの連接ビットCNが'1'である場合、フリップフロップF1を'1'にする。   (1) The state control circuit 47 sets the flip-flop F1 to “1” when the flip-flop F2 is “0” and the concatenated bit CN of the packet latched by the node N1 is “1”.

(2)状態制御回路47は、ノードN1がラッチしたパケットの連接ビットCNが'0'であれば、フリップフロップF01及びF02を'0'にする。   (2) If the concatenated bit CN of the packet latched by the node N1 is “0”, the state control circuit 47 sets the flip-flops F01 and F02 to “0”.

(3)状態制御回路47は、ノードN1がラッチしたパケットの連接ビットCNが'0'であり、ノードN1の合流段識別子がノードN1に保持されているパケットの合流段識別子MAに一致していれば、フリップフロップF1を'0'にする。   (3) In the state control circuit 47, the concatenated bit CN of the packet latched by the node N1 is “0”, and the joining stage identifier of the node N1 matches the joining stage identifier MA of the packet held in the node N1. Then, the flip-flop F1 is set to “0”.

合流路40BP上の入口ノードのフリップフロップF1に対する状態制御回路47は、上記(1)及び(3)のみの処理を行う。合流路40BP上の出口ノードのフリップフロップF1に対する状態制御回路47は、上記(2)及び(3)の処理を行い、上記(1)について、フリップフロップF2が'0'であるとみなした処理を行う。   The state control circuit 47 for the flip-flop F1 at the inlet node on the combined flow path 40BP performs only the processes (1) and (3). The state control circuit 47 for the flip-flop F1 at the exit node on the combined flow path 40BP performs the above processes (2) and (3), and regarding the above (1), the flip-flop F2 is considered to be '0'. I do.

図24は、このようにしてセットされたフリップフロップをノード上の'1'で示す。   FIG. 24 shows the flip-flop set in this way by “1” on the node.

各処理要素は処理対象である9ワード×2のパケットを保持するキューを備えており、上述の制御により、2組の連接パケットの合流ノードでは、先着優先によりフリップフロップが先に'1'になった方のノードからの9パケットを連続して取り込み保持し、次いで他方のノードのフリップフロップが'1'になって、このノードからの9パケットを連続して取り込み保持することができ、2組の連接パケットの一方が他方に混入したり他のパケットが連接パケットに混入したりするのを防止することができる。   Each processing element has a queue for holding a packet of 9 words × 2 to be processed. At the joining node of two sets of concatenated packets, the flip-flop is set to “1” first on a first-come-first-served basis. Nine packets from the new node can be captured and held continuously, and then the flip-flop of the other node becomes '1', so that 9 packets from this node can be captured and held continuously. It is possible to prevent one of a set of concatenated packets from being mixed into the other or another packet from being mixed into a concatenated packet.

すなわち、第1オペランドの9パケットと第2オペランドの9パケットとがそれぞれ連接したものとなり、かつ、両者間が連接したものとなり、これらが処理要素に保持されて処理される。この処理要素で、処理結果が第1オペランドパケットと第2オペランドパケットとの2個になるとすると、処理結果を上述のように圧縮して1パケット化することにより、後流側でのパケットの混雑を避けるとともに、パケットに割り込みが生じないようにすることができる。   That is, 9 packets of the first operand and 9 packets of the second operand are connected to each other, and are connected to each other, and these are held in the processing element and processed. In this processing element, if there are two processing results, ie, the first operand packet and the second operand packet, the processing result is compressed as described above into one packet, thereby congesting packets on the downstream side. Can be avoided, and the packet can be prevented from being interrupted.

分流路20A上の9連接ライトパケットに関しても、リードデータパケットの場合と同様にして、フリップフロップが'1'のノードを通ってデータパケットを転送させる。この場合、分流ノードでは連接パケットへの割り込みが生じないので、その状態制御回路は上記合流ノードのそれよりも簡単になる。なお、ライトパケットに関しては、パケット間の演算を行わないので、連接ビットを用いずに、図22(B)の下位11ビットを32ビットに変更し、パケット単位でライト処理を行うようにしてもよい。   Similarly to the case of the read data packet, the flip-flop causes the data packet to be transferred through the node “1” with respect to the 9-connected write packet on the branch channel 20A. In this case, since the interrupt to the concatenated packet does not occur in the shunt node, the state control circuit becomes simpler than that of the junction node. As for write packets, since computation between packets is not performed, the lower 11 bits in FIG. 22B are changed to 32 bits without using concatenated bits, and write processing may be performed in units of packets. Good.

連接パケットに関しては、上記構成により連接パケット内でその順序が保たれる。   With respect to the concatenated packet, the order is maintained in the concatenated packet by the above configuration.

しかしながら、シングルパケット同士、連接パケット同士及びシングルパケットと連接パケットとの間では、先着優先であるので、同一系統であっても場所によるパケットの混み具合により、合流路の出力ノードでのパケット順序が分流路の入力ノードでのパケット順序と同一になるとは限らない。異なる系統間では、分流路の入り口ノード及び合流路の出口ノードでパケットの系統値がノード位置で定まるので、パケット順序は問題とならない。   However, first packet first packets, connected packets, and single packets and connected packets have first-come-first-served priority. The packet order at the input node of the shunt channel is not always the same. Between different systems, the packet system value is determined by the node position at the entrance node of the diversion channel and the exit node of the merge channel, so that the packet order does not matter.

次に、同一系統内でパケット順序が保たれている場合を、本発明の実施例12として説明する。   Next, a case where the packet order is maintained in the same system will be described as a twelfth embodiment of the present invention.

図26(A)〜(C)及び図27(A)、(B)において、○印はパケットを示し、○印内の符号はパケットIDを示し、矢印はパケットの進む方向を示している。同じ符号のパケットは、同一パケットではなく、互いに対応していることを示している。パケットIDは、例えば処理対象のストリームIDである。簡単化のため、これらの図では1系統のみを示している。   In FIGS. 26A to 26C and FIGS. 27A and 27B, a circle indicates a packet, a symbol in the circle indicates a packet ID, and an arrow indicates a direction in which the packet proceeds. Packets with the same code are not the same packet, but correspond to each other. The packet ID is, for example, a stream ID to be processed. For simplicity, only one system is shown in these figures.

データ駆動型処理回路では、一般に上述のように、互いに異なる処理対象のパケットを同一ループ内の各パイプラインステージで分散並列処理することができる。   In the data driven type processing circuit, as described above, different packets to be processed can be distributed and processed in parallel in each pipeline stage in the same loop.

図26(A)に示すように、ループ100上の部分101で処理PR1を行い、次いでループ100上の部分102で処理PR2を行う場合を考える。ループ101は、例えば図28に示すような構成の1系統分を含んでいてもよい。   As shown in FIG. 26A, consider a case where the process PR1 is performed in the portion 101 on the loop 100, and then the process PR2 is performed in the portion 102 on the loop 100. The loop 101 may include one system having a configuration as shown in FIG.

処理PR1の結果を処理PR2で用い又は処理PR2の結果を処理PR1で用いる場合に、図26(B)に示すように、ループ100を処理PR1のループ101Aと処理PR2のループ102Bとに分割し、これらを結合ノード103で結合し、結合ノード103で、対応するパケット同士を待ち合わせて少なくとも一方から他方へ情報を伝達することにより、処理PR1とPR2とで、少なくとも一方の処理結果を他方で利用する。   When the result of the process PR1 is used in the process PR2 or the result of the process PR2 is used in the process PR1, as shown in FIG. 26B, the loop 100 is divided into a loop 101A of the process PR1 and a loop 102B of the process PR2. By combining these at the combination node 103, the combination node 103 waits for the corresponding packets and transmits information from at least one to the other, so that at least one of the processing results is used by the processing PR1 and PR2. To do.

これにより、図26(A)の1直列処理が2並列処理となり、ループのパイプライン段数が低減するので、結合ノード103での待ち合わせ時間が短ければ、スループットが向上する。   Accordingly, one serial processing in FIG. 26A becomes two parallel processing, and the number of pipeline stages in the loop is reduced. Therefore, if the waiting time at the coupling node 103 is short, the throughput is improved.

例えばループ101A上のパケット6が結合ノード103にラッチされたとき、これに対応したループ102A上のパケット6が直ぐに結合ノード103に到達すれば、その結果を受け取って次のノードへ直ぐに移動できる。   For example, when the packet 6 on the loop 101A is latched by the joining node 103, if the corresponding packet 6 on the loop 102A arrives at the joining node 103 immediately, the result can be received and moved to the next node immediately.

しかし、例えばループ101A上のパケット5がパケット6を追い越し、これが、対応するループ102A上のパケット5と待ち合わせてその結果を取得し、結合ノード103から離れた後に、ループ101A上のパケット6が結合ノード103でラッチされると、ループ102A上のパケット6は結合ノード103を通過した後なので、その結果を用いることができなくなる。   However, for example, the packet 5 on the loop 101A overtakes the packet 6 and waits for the packet 5 on the corresponding loop 102A to obtain the result. After leaving the joining node 103, the packet 6 on the loop 101A joins. When latched by the node 103, the packet 6 on the loop 102A is after passing through the joining node 103, so that the result cannot be used.

これを避けるためにパケットを一時記憶させてそこからパケットの内容を取得するようにすると、処理が遅延するとともに、順次比較によりIDが一致するパケットを検索しなければならないので、構成が複雑になるとともに処理時間が長くなり、2並列化の意味がなくなる。   In order to avoid this, if the packet is temporarily stored and the content of the packet is acquired from the packet, the processing is delayed and the packet having the matching ID must be searched by sequential comparison, which makes the configuration complicated. At the same time, the processing time becomes longer, and the meaning of parallelization is lost.

もし、パケットの順番が保たれれば、結合ノード103で相手パケットのIDを確認することなく、それぞれが対応するパケットの処理結果を用いることができ、スループットが向上するとともに、パケットのデータ幅を短縮して回路規模を縮小することができ、さらに、コンポーネント化が可能となるので、システムの構築が容易となる。   If the order of the packets is maintained, the processing result of each corresponding packet can be used without confirming the ID of the partner packet at the joining node 103, the throughput is improved, and the data width of the packet is increased. The circuit scale can be reduced by shortening, and further componentization is possible, so that the system can be easily constructed.

ループ102A上のパケットは、加工されない定数であってもよい。すなわち、ループ102Aはリングキュー(循環キュー)であってもよい。   The packet on the loop 102A may be a constant that is not processed. That is, the loop 102A may be a ring queue (circulation queue).

例えば、ループ101A上に第1パケットを投入し、ループ102A上に該第1パケットと関係した第2パケットを投入し、結合ノード103は、ループ101Aでのパケットに含まれるコマンド又は特定ビットが結合ノード103からの出力(分岐方向が出力側)を示している場合、これに対応してループ102Aからパケットを取り出すことにより、ループ101Aでの第1パケットに対応した処理結果のパケットとともに第2パケットを取り出す。これにより、ループ101A上で常に第2パケットを同伴させる必要が無く、構成が簡単になる。   For example, the first packet is input on the loop 101A, the second packet related to the first packet is input on the loop 102A, and the combining node 103 combines the command or specific bit included in the packet in the loop 101A. When the output from the node 103 indicates that the branch direction is the output side, the packet is taken out from the loop 102A corresponding to this, and the second packet together with the packet of the processing result corresponding to the first packet in the loop 101A Take out. Thereby, it is not necessary to always accompany the second packet on the loop 101A, and the configuration is simplified.

また、ループ102Aがリングキューである場合、ループ101Aはループ102Aをスタックとして用いることができる。ループ101Aと対応するループ102A上のパケットが複数あっても、その個数nをループ101A上のパケットに含ませておき、結合ノード103において、ループ102A側のSEND−INがアクティブになったときにループ102A側のACK−OUTをアクティブにし、ループ101A側のACK−OUTをインアクティブに維持した状態でこれをn回繰り返すことにより、対応関係を保つことができる。   When the loop 102A is a ring queue, the loop 101A can use the loop 102A as a stack. Even if there are a plurality of packets on the loop 102A corresponding to the loop 101A, the number n is included in the packet on the loop 101A, and when the SEND-IN on the loop 102A side becomes active in the joining node 103 The correspondence can be maintained by repeating this n times with the ACK-OUT on the loop 102A side active and the ACK-OUT on the loop 101A side maintained inactive.

すなわち、ループ101Aのパケットが個数nの情報を含み、このパケットを1個転送させるとともにループ102Aのパケットをn個転送させることにより、ループ101Aの1パケットをループ102Aのnパケットと対応させる。結合ノード103は、ループ101Aのパケットのコマンド又は特定ビットが、このパケットの全部又は一部(処理結果)をコピーしてループ102Aへ投入することを示している場合、これを実行してループ101Aの該パケットに含まれる個数nをインクリメント(これは他のノードで行ってもよい)する。   That is, the packet of the loop 101A includes the information of the number n, and one packet of the loop 101A is made to correspond to the n packet of the loop 102A by transferring one packet and transferring n packets of the loop 102A. If the command or specific bit of the packet in the loop 101A indicates that all or part of the packet (processing result) is copied and input to the loop 102A, the joining node 103 executes this and executes the loop 101A. The number n included in the packet is incremented (this may be performed by another node).

前記の場合において、もし順序同期をとることができなければ、ループ102Aを設けることができず、ループ101A上のパケットは、対応するパケットをループ101A上で連接させて引き連れていかなければならず、スループットが低下するとともに、ループ101Aの構成及び処理が複雑になる。   In the above case, if the order synchronization cannot be achieved, the loop 102A cannot be provided, and the packet on the loop 101A must be connected by connecting the corresponding packets on the loop 101A. As the throughput decreases, the configuration and processing of the loop 101A become complicated.

順序同期は、条件によっては全てのパケットについてとる必要はない。このような場合、図22に示すように、順序制御用の順序ビットODをパケットに備え、これが'1'のとき順序制御有り、'0'のとき無しと定める。そして、結合ノード103においてループ102A上の対応するパケットを待つ際に、順序ビットODが'0'であればループ102A側のSEND−INがアクティブのときにループ102A側のACK−OUTをアクティブにしてこれを通過させることにより、ループ102A上に順序制御不要なパケットを混在させることができる。ループ101A上についても同様である。   The order synchronization need not be performed for all packets depending on conditions. In such a case, as shown in FIG. 22, an order bit OD for order control is provided in the packet, and when this is “1”, it is determined that there is order control, and when it is “0”, there is no order control. When the joining node 103 waits for a corresponding packet on the loop 102A, if the order bit OD is “0”, the ACK-OUT on the loop 102A side is activated when the SEND-IN on the loop 102A side is active. By passing this, packets that do not require sequence control can be mixed on the loop 102A. The same applies to the loop 101A.

図26及び26中のパケットA〜Dは、順序ビットODが'0'のものであり、その他のパケット1〜6は順序ビットODが'1'のものを示している。   The packets A to D in FIGS. 26 and 26 indicate that the order bit OD is “0”, and the other packets 1 to 6 indicate that the order bit OD is “1”.

なお、ループ間でパケットの対応がとれればよいので、ループ101Aへの初期パケットの投入とループ101Bへの初期パケットの投入は、異なるノードで行ってもよい。   Note that it is only necessary to be able to handle the packets between the loops, so that the initial packet input to the loop 101A and the initial packet input to the loop 101B may be performed by different nodes.

また、ループ101A及び102Aは、条件分岐ノードを備え、パケットが含むコマンド又は特定ビットの値に応じてこのパケットの情報がループから外部へ取り出される。   The loops 101A and 102A include conditional branch nodes, and information on the packet is extracted from the loop to the outside according to the command included in the packet or the value of the specific bit.

図26(C)は、より複雑な関係のループを示す。   FIG. 26C shows a more complicated relationship loop.

この例では、ループ101Aと101Bとが結合ノード103Aで結合され、条件に応じて、ループ101A上のパケットがループ101B上へ移動したり、その逆が行われたりするとする。同様に、ループ102Aと102Bとが結合ノード103Aで結合され、条件に応じて、ループ102A上のパケットがループ102B上へ移動したり、その逆が行われたりするとする。また、同じ符号のパケットは同時に存在し得ず、ある時点ではどちらか一方のループに存在するとする。さらに、パケット1〜3はそれぞれパケット4〜6に対応しているとする。   In this example, it is assumed that the loops 101A and 101B are joined by the joining node 103A, and the packet on the loop 101A moves to the loop 101B or vice versa depending on the conditions. Similarly, it is assumed that the loops 102A and 102B are coupled by the coupling node 103A, and a packet on the loop 102A moves to the loop 102B or vice versa depending on the condition. In addition, it is assumed that packets with the same code cannot exist at the same time and exist in one of the loops at a certain time. Further, it is assumed that the packets 1 to 3 correspond to the packets 4 to 6, respectively.

このような複雑な場合でも、例えばループ101A上のパケット3が結合ノード103Aを通ってループ101B上へ移動する際に、結合ノード103Aにおいてこれに対応するパケット6をループ102A上から102B上へ上記同様の制御により移動させてパケット順序の同期を取ることにより、上述の利点を得ることができる。   Even in such a complicated case, for example, when the packet 3 on the loop 101A moves to the loop 101B through the coupling node 103A, the packet 6 corresponding to the packet 3 moves from the loop 102A to 102B on the coupling node 103A. The above-described advantages can be obtained by moving the packets in the same manner and synchronizing the packet order.

待ち合わせ時間を短縮して順序同期の処理速度を速めるには、図27(A)に示すように、ループ102Aと102Bとの間を、キュー104及び105を介して結合させ、処理結果のパケットを順次キューに格納し相手方が直ぐにこれから取り出せるようにすればよい。順序同期は、順序が予測できるので、予め処理結果をキューに入れておくことにより、処理結果を直ちに使用することが可能となる。   In order to shorten the waiting time and increase the processing speed of the order synchronization, as shown in FIG. 27A, the loops 102A and 102B are coupled via the queues 104 and 105, and the packet of the processing result is sent. It is only necessary to store them sequentially in the queue so that the other party can immediately take them out. In order synchronization, since the order can be predicted, the processing results can be used immediately by putting the processing results in a queue in advance.

上述のようにループを分割することは、ハードウェアのコンポーネント化のみならず、階層構造化をも可能にする。すなわち、図27(B)に示すように、上述のキュー104及び105を上階層のループ106で処理すれば、階層構造となる。この例では、上階層のループ106での処理結果がキュー107及び108を介してそれぞれ下階層のループ101A及び102Aにフィードバックされている。   Dividing the loop as described above enables not only hardware componentization but also hierarchical structure. That is, as shown in FIG. 27B, if the above-described queues 104 and 105 are processed by the loop 106 of the upper hierarchy, a hierarchical structure is obtained. In this example, the processing result in the upper layer loop 106 is fed back to the lower layer loops 101A and 102A via the queues 107 and 108, respectively.

以上のことは、各系統について成立するので、複数系統のそれぞれについて適用することができる。   Since the above is true for each system, it can be applied to each of a plurality of systems.

なお、ループ処理は効率がよいが、ループを1回通る場合でも順序同期を適用できるので、処理はループでなくてもよい。   Although the loop process is efficient, the process may not be a loop because order synchronization can be applied even when passing through the loop once.

従来のデータ駆動型処理装置では、ローカルに同期を取って自律分散処理を行うことができるが、同期回路のシステムクロックに対応するものが存在しなかったので、自律分散処理に優れていても協調性が欠け、マイナーな存在であった。非同期回路において、パケットの順序を維持してループ間で順序同期をとることは、同期回路においてシステムクロックで同期をとることに対応している。   Conventional data-driven processing devices can perform autonomous distributed processing with local synchronization, but there is no one corresponding to the system clock of the synchronous circuit, so even if it is superior to autonomous distributed processing, it cooperates He lacked sex and was a minor being. In the asynchronous circuit, maintaining the packet order and synchronizing the order between the loops corresponds to synchronizing the system clock in the synchronous circuit.

マクロのネットワークでの非同期通信では、通信路でのパケット順序を維持できなくても同期型のCPU及び記憶装置と、ソフトウェアとの組み合わせによる高級機能により、TCP層で順序を復元でき、パケット順序とは直接関係なく高級機能で自律分散協調制御を行うことが出来る。これに対し、内部でミクロのネットワークが構成されるデータ駆動型処理装置では、パケットの順序維持が協調制御の基本となる。   In asynchronous communication in a macro network, even if the packet order in the communication path cannot be maintained, the order can be restored in the TCP layer by a high-level function in combination with a synchronous CPU and storage device and software. Can perform autonomous distributed cooperative control with high-level functions regardless of direct relationship. On the other hand, in a data driven processing apparatus in which a micro network is internally configured, maintaining the order of packets is the basis of cooperative control.

本発明の順序同期は、自律分散による並列処理を維持しつつ簡単な構成で協調制御を可能にしデータ駆動型処理装置を高機能化するのに寄与するところが大きい。   The order synchronization of the present invention greatly contributes to the enhancement of the functionality of a data driven processor by enabling cooperative control with a simple configuration while maintaining parallel processing by autonomous distribution.

順序同期を実現するには、ループ状通信路でパケットの順序を同一系統内で維持する必要がある。パケットの順序を維持させるために順序合流を行わせる構成例を、本発明の実施例13として説明する。   In order to realize the order synchronization, it is necessary to maintain the order of the packets in the same system on the loop communication path. A configuration example in which order merging is performed in order to maintain the packet order will be described as a thirteenth embodiment of the present invention.

分岐ノードでパケットが混雑していない方向へ分岐して先回りしても、同一系統ではその後、合流する。同一系統内でのパケットの順序の乱れは、選択的に合流するノードでのパケット追い越し、すなわち分岐ノードでのパケット順序が、これに対応した合流ノードでのパケット順序と相違することにより生ずる。   Even if the branching node branches in a direction where the packet is not congested and goes ahead, the same system then joins. The disorder of the packet order in the same system is caused by the packet overtaking at the node that selectively joins, that is, the packet order at the branch node is different from the packet order at the corresponding joining node.

この相違が何に対応するかを調べるため、分岐ノードとこれに対応する合流ノードでのパケット進行方向に着目する。例えば図28の合流路40BP上のノード433Pを通過するパケットは、その前に、これに対応する分流路20A上のノード243を通過している。パケットがノード243から次の段のどちらへ進むかで、パケットがノード433Pの後段のどちらからノード433Pに進むかが定まるという規則性がある。図28ではこの関係がレジスタファイル30Rに関し対称になるが、必ずしもこれに限定されず、論理的な対応関係があればよい。   In order to examine what this difference corresponds to, attention is paid to the packet traveling direction at the branch node and the corresponding junction node. For example, a packet passing through the node 433P on the combined flow path 40BP in FIG. 28 passes through the node 243 on the corresponding branch path 20A before that. There is a regularity in which the packet proceeds from the node 243 to the next stage, and from which of the subsequent stage of the node 433P the packet proceeds to the node 433P. In FIG. 28, this relationship is symmetric with respect to the register file 30R. However, the relationship is not necessarily limited to this, and any logical correspondence may be used.

簡単化のため、リードデータパケットが1ワードの場合のリードパケットとこれに対応するリードデータパケットを考える。パケットの順序が保たれていれば、ノード243を順次通過するパケットのノード243での分岐方向の順序と、ノード433Pを順次通過するパケットのノード433Pでの分岐方向の順序とが対応する。   For the sake of simplicity, consider a read packet and a corresponding read data packet when the read data packet is one word. If the order of the packets is maintained, the order of the branching direction at the node 243 of the packet that sequentially passes through the node 243 corresponds to the order of the branching direction at the node 433P of the packet that sequentially passes through the node 433P.

もし、全ての系統について、パケット順序が維持されていれば、合流路40BP上の任意の合流ノードとこれに対応する分流路20A上の分岐ノード(ノードペア)とについて、この対応関係が成立する。もし、2つのパケット間の順序に乱れがあれば、いずれかのノードペアで該対応関係が不成立となる。   If the packet order is maintained for all the systems, this correspondence relationship is established between an arbitrary joining node on the joint channel 40BP and a branch node (node pair) on the branch channel 20A corresponding thereto. If there is a disorder in the order between two packets, the corresponding relationship is not established in any node pair.

そこで、全てのノードペアについて、この対応関係を維持するように、合流路40BP上のノードの切換を、これに対応する分流路20A上のノードの切換情報(N段前の時点での切換情報)に基づいて制御することにより、パケット順序を維持する。但し、分流路20Aの出口ノードと合流路40BPの入口ノードについては、N=0であって、対応関係が既に維持されている。図28の場合、Nは2、4、6、8及び10である。   Therefore, the node switching on the combined flow path 40BP is switched to the node switching information on the branch flow path 20A corresponding to this so as to maintain this correspondence relationship for all the node pairs (switching information at the time point before N stages). The packet order is maintained by controlling based on. However, regarding the outlet node of the branch channel 20A and the inlet node of the combined channel 40BP, N = 0, and the correspondence is already maintained. In the case of FIG. 28, N is 2, 4, 6, 8, and 10.

図28において、例えば、ノード243を上側及び下側へ進むパケットの軌跡をそれぞれT1及びT2とする。軌跡T1のパケットが先にノード243に保持され、次に軌跡T2のパケットがノード243に保持されるとする。軌跡T1上でパケットが混雑し、軌跡T2上でパケットがすいていて、ノード433Pの後段には軌跡T2のパケットの方が先に到達したとする。この場合、ノード243で上側に切り替えたという情報がノード433Pへ伝達され、ノード433Pで上側からのパケットを待ち、これがノード433Pに保持された後に、ノード243で下側に切り替えたという情報がノード433へ伝達され、次にノード433Pで下側からのパケットを待つようにすれば、パケットの順序が維持される。全てのノードペアについて、このような制御を行えば、少なくとも同一系統内でパケットの順序が維持される。   In FIG. 28, for example, the trajectories of packets going up and down the node 243 are T1 and T2, respectively. Assume that the packet of the trajectory T1 is first held in the node 243, and then the packet of the trajectory T2 is held in the node 243. Assume that the packet is congested on the trajectory T1, the packet is covered on the trajectory T2, and the packet of the trajectory T2 arrives at the subsequent stage of the node 433P. In this case, information that the node 243 is switched to the upper side is transmitted to the node 433P, the node 433P waits for a packet from the upper side, and after this is held in the node 433P, the information that the node 243 is switched to the lower side is If the packet is transmitted to 433 and then the node 433P waits for a packet from the lower side, the packet order is maintained. If such control is performed for all node pairs, the order of packets is maintained at least within the same system.

図29(A)は、この順序を維持させるための合流路40BPの入口ノードを除く任意のノード110と、これに対応する分流路20A上のノード111との間に備えられた構成を示す。図30は図29(A)の詳細ブロック図である。   FIG. 29A shows a configuration provided between an arbitrary node 110 excluding the entrance node of the combined flow path 40BP for maintaining this order and the node 111 on the branch flow path 20A corresponding thereto. FIG. 30 is a detailed block diagram of FIG.

図29(A)ではノード110とノード111との間でパケットが流れ得る流路を分岐合流ノード112と表す。   In FIG. 29A, a flow path through which a packet can flow between the node 110 and the node 111 is represented as a branch / merging node 112.

この構成では、ノード110と111との間にキュー113が備えられ、OD='1'であれば、ノード111からの分岐先方向を示す、行先アドレスDAの対応するビットDAi(図において上側分岐のとき'1'、下側分岐のとき'0')が、キュー113の入力段113aの1ビットラッチのデータ入力端に供給される。データ駆動型のキュー113は、転送制御回路で用いられるハンドシェイクプロトコルにより、途中にエンプティが存在すると自動的に詰められるという緩衝作用があるので、その段数は、ノード111とノード110との間のパイプライン段数N以上であればよい。キュー113の出力段から順次データを取り出せばよく、取り出す際に段数Nを考慮する必要はない。   In this configuration, a queue 113 is provided between the nodes 110 and 111. If OD = '1', the corresponding bit DAi of the destination address DA indicating the branch destination direction from the node 111 (upper branch in the figure). "1" at the time of "1" and "0" at the time of the lower branch) are supplied to the data input terminal of the 1-bit latch of the input stage 113a of the queue 113. The data driven queue 113 has a buffering action that automatically fills if there is an empty in the middle by the handshake protocol used in the transfer control circuit, so the number of stages is between the nodes 111 and 110. The number of pipeline stages may be N or more. Data may be extracted sequentially from the output stage of the queue 113, and there is no need to consider the number of stages N when extracting.

ノード110とその後段115及び116との構成は、図4の対応する構成と実質的に同一である。すなわち、ノード110はラッチ110Lの入力側にマルチプレクサ110Mが接続されているが、これは図4のラッチ421L及び422L内の出力側のゲートと出力イネーブル制御入力端OEとの構成に対応している。図4との相違点は、図30ではマルチプレクサ110Mの選択制御をキュー113の出力段113bのラッチ出力SELで行っている点である。   The configuration of the node 110 and the subsequent stages 115 and 116 is substantially the same as the corresponding configuration in FIG. That is, the multiplexer 110M is connected to the input side of the latch 110L in the node 110, which corresponds to the configuration of the output side gate and the output enable control input terminal OE in the latches 421L and 422L in FIG. . The difference from FIG. 4 is that the selection control of the multiplexer 110M is performed by the latch output SEL of the output stage 113b of the queue 113 in FIG.

ノード111とその次段117及び118との構成は、図3の対応する構成と、ノード111の転送制御回路111Cを除き同一である。ノード111の転送制御回路111Cはキュー113の入力段113aの転送制御回路との間についても信号授受を行っている点で、転送制御回路211Cと異なる。   The configuration of the node 111 and the subsequent stages 117 and 118 is the same as the corresponding configuration of FIG. 3 except for the transfer control circuit 111C of the node 111. The transfer control circuit 111C of the node 111 is different from the transfer control circuit 211C in that signals are also exchanged with the transfer control circuit of the input stage 113a of the queue 113.

なお、図30の分岐合流回路112Aは、図29(A)の分岐合流回路112からノード115〜118を除いた部分である。   30 is a part obtained by removing the nodes 115 to 118 from the branch / merging circuit 112 in FIG. 29 (A).

ノード111から次段ノード117又は118へのSENDをアクティブにするときに、同時にキュー113の入力段113aへのSENDをアクティブにする。すなわち、ノード111の転送制御回路111Cは、次段117又は118及び入力段113aからのACKが共にアクティブであり且つ後段からのSENDがアクティブであるときに次段117又は118及び入力段113aへのSENDをアクティブにする。   When the SEND from the node 111 to the next stage node 117 or 118 is activated, the SEND to the input stage 113a of the queue 113 is simultaneously activated. In other words, the transfer control circuit 111C of the node 111 is connected to the next stage 117 or 118 and the input stage 113a when the ACK from the next stage 117 or 118 and the input stage 113a is both active and the SEND from the subsequent stage is active. Activate SEND.

ノード110は、2入力のうち、キュー113の出力段113bの出力に基づいて、ノード110の後段115及び116のラッチ出力の一方を選択する。すなわち、キュー113の出力段113bの出力SELが'1'であれば、ノード110の後段上側のノード115からのデータを選択し、'0'であれば、ノード110の後段下側のノード116からのデータを選択する。この選択は、キュー110の出力段113bのラッチ出力SELによりノード110のマルチプレクサ110Mを選択制御することにより行われる。   The node 110 selects one of the latch outputs of the subsequent stages 115 and 116 of the node 110 based on the output of the output stage 113b of the queue 113 out of the two inputs. That is, if the output SEL of the output stage 113b of the queue 113 is “1”, the data from the node 115 on the upper stage of the node 110 is selected, and if it is “0”, the node 116 on the lower stage of the rear stage of the node 110 is selected. Select data from. This selection is performed by selectively controlling the multiplexer 110M of the node 110 by the latch output SEL of the output stage 113b of the queue 110.

ノード110は、その後段115又は116へのACKをアクティブにするときに、キュー113の出力段113bに対するACKをアクティブにする。すなわち、ノード110は、ノード110の後段115又は116及びキュー113の出力段113bからのSENDが共にアクティブになり且つノード110の次段からのACKがアクティブになったときに、ノード110のラッチ110Lにデータを取り込ませて保持させ、キュー113の出力段113b及びノード110の後段115又は116へのACKを共にアクティブにする。   When node 110 subsequently activates an ACK to stage 115 or 116, it activates an ACK for output stage 113b of queue 113. That is, the node 110 receives the latch 110L of the node 110 when both SEND from the subsequent stage 115 or 116 of the node 110 and SEND from the output stage 113b of the queue 113 become active and ACK from the next stage of the node 110 becomes active. The data is fetched and held in ACK, and both the ACK to the output stage 113b of the queue 113 and the subsequent stage 115 or 116 of the node 110 are made active.

図29(B)及び図30において、DAi='1'のとき、ノード111は、ノード117へパケットを分岐転送させる(この分岐が第1段)とともにキュー113の入力段113aにDAi='1'を転送させる。N段経過後に、一方ではこれに対応するパケットがノード115に保持され、他方ではマルチプレクサ110Mの選択制御入力端に、前記DAi='1'に対応したSEL='1'が供給されて、ノード110はノード115側を選択する。図29(C)においても同様である。   In FIG. 29B and FIG. 30, when DAi = “1”, the node 111 branches and transfers the packet to the node 117 (this branch is the first stage) and DAi = “1” to the input stage 113a of the queue 113. Let 's forward. After N stages, a packet corresponding to this is held on the node 115 on the one hand, and on the other hand, SEL = '1' corresponding to DAi = '1' is supplied to the selection control input terminal of the multiplexer 110M, and the node 110 selects the node 115 side. The same applies to FIG. 29C.

ここで、ライトパケットについては、レジスタファイル30Rへの書き込みが終了し、合流路40A側へ対応するパケットが転送されないので、このパケットの順序ビットODを'0'にしておく。転送制御回路111Cは、ノード111のラッチ111Lに保持した順序ビットODが'0'であるとき、キューの入力段113へのSENDをインアクティブに維持する。これによりキュー113の入力段113aのラッチにはビットDAiが転送されないので、順序維持の切り替えとは無関係になる。   Here, with respect to the write packet, the writing to the register file 30R is completed, and the corresponding packet is not transferred to the merge channel 40A side, so the order bit OD of this packet is set to “0”. When the order bit OD held in the latch 111L of the node 111 is “0”, the transfer control circuit 111C maintains SEND in the queue input stage 113 inactive. As a result, since the bit DAi is not transferred to the latch of the input stage 113a of the queue 113, the order maintenance is not changed.

一方、リードパケットのように分流路20A側の1パケットが合流路40BP側の複数パケットに対応する場合、キュー113においてもこの対応関係を維持する必要がある。この対応関係を維持するために、ノード110の転送制御回路110Cは、連接ビットCNが'1'のときは例外として、キュー113の出力段113bへのACKをインアクティブに維持する。これにより、連接パケットについてもノード110とノード111とで切り替えの対応関係を保つことができる。連接パケットの末尾パケットは連接ビットCNが'0'であるが、その1つ前のパケットの連接ビットCNが'1'であるので、図31(J)に示すように、末尾パケットに対してもノード110の選択方向は変わらない。   On the other hand, when one packet on the branch channel 20A side corresponds to a plurality of packets on the combined channel 40BP side like a read packet, it is necessary to maintain this correspondence also in the queue 113. In order to maintain this correspondence, the transfer control circuit 110C of the node 110 maintains the ACK to the output stage 113b of the queue 113 inactive, except when the concatenated bit CN is “1”. Thereby, it is possible to maintain the switching correspondence between the node 110 and the node 111 for the connection packet. Although the concatenated bit CN of the end packet of the concatenated packet is “0”, the concatenated bit CN of the previous packet is “1”, so as shown in FIG. However, the selection direction of the node 110 does not change.

図31(A)〜(J)は、分流路20A側の1つのリードパケットの流れと、これに対応した合流路40BP側の複数のリードデータパケット(連接パケット)の流れとを、時間を追って示す。図中の'1'は、上述のノード側フリップフロップの値を示す。図31(A)は4段分のデータ転送を纏めて示している。   FIGS. 31A to 31J show the flow of one read packet on the branch flow path 20A side and the flow of a plurality of read data packets (concatenated packets) on the side of the combined flow path 40BP corresponding to this. Show. “1” in the figure indicates the value of the above-described node-side flip-flop. FIG. 31A collectively shows data transfer for four stages.

(1)図31(A)で、DAi='1'であればノード111から次段上側('1'側)117へデータが転送されると共に、OD='1'であれば行先アドレスDAiの値がキュー113の入力段113aに転送される。   (1) In FIG. 31A, if DAi = '1', data is transferred from the node 111 to the next upper stage ('1' side) 117, and if OD = '1', the destination address DAi Is transferred to the input stage 113 a of the queue 113.

(2)図31(E)で、連接先頭パケットがノード110の後段上側115に取り込まれて保持されるとともに、(1)で保持したDAi='1'がキュー113の出力段113bに取り込まれて保持され、ノード110のマルチプレクサ110Mはその選択制御入力端への'1'に応答して、ノード110の後段上側115のノードからのデータを選択する。   (2) In FIG. 31E, the concatenated leading packet is captured and held in the upper stage 115 following the node 110, and DAi = '1' held in (1) is captured in the output stage 113b of the queue 113. The multiplexer 110M of the node 110 selects data from the node on the upper stage 115 after the node 110 in response to “1” to the selection control input terminal.

(3)これにより、図31(F)で、ノード110はこのデータを取り込み保持する。   (3) Thereby, the node 110 captures and holds this data in FIG.

(4)その後、ノード110が保持しているパケットの連接ビットCNの値が'1'の間、ノード110の転送制御回路110Cからキュー113へのACKがインアクティブに維持されて、キュー113の出力段113bの出力SEL='1'が維持され、ノード115(図29)から連接パケットが順次ノード110へ到達する。   (4) Thereafter, while the value of the concatenated bit CN of the packet held by the node 110 is “1”, the ACK from the transfer control circuit 110C of the node 110 to the queue 113 is maintained inactive, and the queue 113 The output SEL = “1” of the output stage 113b is maintained, and the concatenated packets sequentially reach the node 110 from the node 115 (FIG. 29).

このようにして、分流路20Aの任意のノードから、合流路40BPの対応するノードへ、順序制御情報DAi→SELが伝達され、これに応じ合流ノードでの選択制御が行われ、これにより全ての系統についてパケットの順序が維持される。   In this way, the order control information DAi → SEL is transmitted from an arbitrary node of the branch flow path 20A to the corresponding node of the combined flow path 40BP, and selection control is performed at the merge node accordingly, thereby The order of the packets is maintained for the system.

したがって、この構成によれば、図26及び図27で述べた構成を実現して、その効果を達成することができる。   Therefore, according to this configuration, the configuration described in FIGS. 26 and 27 can be realized to achieve the effect.

なお、順序ビットODは、図26及び図27について説明した順序ビットODとしても使用できる。   The order bit OD can also be used as the order bit OD described with reference to FIGS.

また、本発明の順序合流制御が行われるノード110とノード111との対は、ツリー形分流路とツリー形合流路の対応するノード対に限定されず、第1パケットが分岐ノードを通れば、該第1パケットに対応した第2パケットが合流ノードを通り、且つ、該分岐ノードでの該第1パケットの分岐方向と該合流ノードでの該第2パケットの合流方向とが対応しており、該分岐ノードと該合流ノードとの間のパイプライン段数がN(N≧1)であるという条件を満たす分岐ノードと合流ノードの対であればよい。   In addition, the pair of the node 110 and the node 111 on which the order merge control of the present invention is performed is not limited to the corresponding node pair of the tree-shaped branch channel and the tree-shaped merge channel, and if the first packet passes through the branch node, The second packet corresponding to the first packet passes through the junction node, and the branch direction of the first packet at the branch node corresponds to the junction direction of the second packet at the junction node; A pair of a branch node and a merge node that satisfy the condition that the number of pipeline stages between the branch node and the merge node is N (N ≧ 1) may be used.

さらに、ノード110を通るパケットはノード111を通るパケットと対応しているが、この対応関係は、両者が同一パケットであってもよい。   Further, although the packet passing through the node 110 corresponds to the packet passing through the node 111, both of these correspondences may be the same packet.

次に、本発明のデータ駆動型処理装置の適用例として、有限オートマトン動作を行うCPUアクセラレータについて説明する。   Next, a CPU accelerator that performs a finite automaton operation will be described as an application example of the data driven processing apparatus of the present invention.

有限オートマトンは、言語学、情報工学、生物学、数学、論理学など様々な領域で利用されている。有限オートマトンでは、現在状態と入力とにより、次状態が定まり、この状態遷移が繰り返し行われてパターン一致有無が判定される。   Finite automata are used in various fields such as linguistics, information engineering, biology, mathematics, and logic. In the finite automaton, the next state is determined based on the current state and the input, and this state transition is repeatedly performed to determine whether or not the pattern matches.

図37は、簡単な有限オートマトンの例を示す状態遷移図である。   FIG. 37 is a state transition diagram showing an example of a simple finite automaton.

この例では、データストリームDS="CAABABABCCCCBBABACC"の中に、検索データ集合RDのパターン"ABA"又は"ABC"が含まれているか否かを決定する。現在の状態にデータストリームDS中のエレメント"A"、"B"又は"C"が入力されると、次の状態が定まり、これに次のエレメントが入力されるという処理が繰り返し行われ、出力時の状態が検出パターンに対応している。エレメントは文字コードに限定されず、所定のデータ幅のデータであればよい。   In this example, it is determined whether or not the pattern “ABA” or “ABC” of the search data set RD is included in the data stream DS = “CAABABABCCCCBBABACC”. When the element “A”, “B” or “C” in the data stream DS is input to the current state, the next state is determined, and the process of inputting the next element to this is repeatedly performed and output. The time state corresponds to the detection pattern. The element is not limited to a character code, and may be data having a predetermined data width.

ウイルス検出の例で言うと、検索データ集合RDに含まれるパターンのそれぞれがウイルスに対応している。入力データストリームDSが多数のウイルスのどれに感染しているかのパターンマッチング処理を、1つの状態遷移図で表すことができる(パターンマルチング)。   In the virus detection example, each of the patterns included in the search data set RD corresponds to a virus. The pattern matching process of which of the many viruses the input data stream DS is infected with can be represented by one state transition diagram (pattern mulching).

以下では、有限オートマトンをウイルス検出に適用した場合について説明するが、本発明のCPUアクセラレータはこれに限定されるものではなく、全ての有限オートマトンに適用可能である。   Hereinafter, a case where the finite automaton is applied to virus detection will be described. However, the CPU accelerator of the present invention is not limited to this, and can be applied to all finite automata.

本発明の装置では、並列度が高いので、同時に多数の入力データストリームDSを取り扱うことができる。   In the apparatus of the present invention, since the degree of parallelism is high, a large number of input data streams DS can be handled simultaneously.

図32は、行を状態S、入力である列を、データストリームを構成する1バイトのストリームエレメントSEとした状態遷移テーブルを示す。但し、この状態遷移テーブルには、1ビットの結果ビットRが含まれている。   FIG. 32 shows a state transition table in which a row is a state S and an input column is a 1-byte stream element SE constituting a data stream. However, this state transition table includes a 1-bit result bit R.

状態Sを上位ビット、ストリームエレメントSEを下位ビットとするアドレスに、次の状態が格納されたメモリを用いる。16進数表記で、例えば状態Sの初期値を"0000"とし、ストリームエレメントSEが"01"であった場合、次の状態Sは"0002"となる。これと次のストリームエレメントSEとで、次の状態Sが定まる。   A memory in which the next state is stored at an address having the state S as the upper bit and the stream element SE as the lower bit is used. In hexadecimal notation, for example, when the initial value of the state S is “0000” and the stream element SE is “01”, the next state S is “0002”. The next state S is determined by this and the next stream element SE.

結果ビットRは1ビットであり、ウイルスパターンが検出されたとき、R='1'となる。このときの状態Sで指定されるアドレスには、次の状態はなく、ウイルスコードVCが格納されている。ウイルスコードVCに対応したウイルス名は、CPUに管理させる。結果ビットRは、パケット内のコマンドの役割を果たす。   The result bit R is 1 bit, and R = '1' when a virus pattern is detected. The address specified in the state S at this time does not have the next state, and stores the virus code VC. The CPU manages the virus name corresponding to the virus code VC. The result bit R serves as a command in the packet.

図33は、本発明が適用された、実施例14のデータ駆動型CPUアクセラレータ60Qを示す概略ブロック図である。   FIG. 33 is a schematic block diagram showing a data driven CPU accelerator 60Q according to the fourteenth embodiment to which the present invention is applied.

状態テーブルメモリ120は、例えば図8のメモリ10Bの記憶容量を大きくしたものであり、その分流路121、メモリ行アレイ122及び合流路123はそれぞれ、図8の分流路20B、メモリ行アレイ30及び合流路40Bに対応している。リードパケットに対するリードデータパケットは後述のように1ワードであり、これらのフォーマットは上述のものと異なる。メモリ行アレイ122には、図32のテーブルが格納されている。   The state table memory 120 has, for example, a larger storage capacity of the memory 10B in FIG. 8, and the branching channel 121, the memory row array 122, and the combined channel 123 are respectively connected to the branching channel 20B, the memory row array 30, and the like in FIG. This corresponds to the combined flow path 40B. The read data packet corresponding to the read packet is one word as will be described later, and these formats are different from those described above. The memory row array 122 stores the table of FIG.

図35は、図33の装置における1系統に関するデータフローをデータフォーマットとともに示す図である。   FIG. 35 is a diagram showing a data flow regarding one system in the apparatus of FIG. 33 together with a data format.

系統CHは、上述のように合流路123で用いられる定数である。結果ビットR及び状態Sは、状態テーブルメモリ120から読み出されたデータであり、これと、下位ビットとしてのストリームエレメントSEとで、状態テーブルメモリ120のアドレスが指定される。各系統で複数のデータストリームを処理することができ、そのストリーム識別子SIDをこの例では3ビットとしている。ストリーム識別子SID及び系統CHは、状態テーブルメモリ120を含むループで、同一ストリームに対し不変である。   The system CH is a constant used in the combined channel 123 as described above. The result bit R and the state S are data read from the state table memory 120, and the address of the state table memory 120 is designated by this and the stream element SE as a lower bit. A plurality of data streams can be processed in each system, and the stream identifier SID is 3 bits in this example. The stream identifier SID and the system CH are a loop including the state table memory 120, and are unchanged for the same stream.

図33に戻って、複数のデータストリームは、DMACにより、インターフェイス124及びメモリコントローラ125を介し、バッファとしてのRAM126に一時格納された後、CPU127によりインターフェイス124及びメモリコントローラ125を介してRAM126の内容が読み出され、メモリコントローラ125、インターフェイス124及び128並びにストリームバッファ130の分流路131を介しキューアレイ132に供給され保持される。CPU127、RAM126、メモリコントローラ125及びインターフェイス128は同期型であり、インターフェイス128は、同期型と非同期型との相互変換部を備えている。   Returning to FIG. 33, the plurality of data streams are temporarily stored in the RAM 126 as a buffer by the DMAC via the interface 124 and the memory controller 125, and then the contents of the RAM 126 are changed by the CPU 127 via the interface 124 and the memory controller 125. The data is read and supplied to the queue array 132 via the memory controller 125, the interfaces 124 and 128, and the diversion channel 131 of the stream buffer 130, and is held. The CPU 127, the RAM 126, the memory controller 125, and the interface 128 are synchronous, and the interface 128 includes a mutual conversion unit between a synchronous type and an asynchronous type.

図34は、図33中のストリームバッファ130の概略ブロック図である。   FIG. 34 is a schematic block diagram of the stream buffer 130 in FIG.

このストリームバッファ130の分流路131及び合流路(マルチプレクサ)1330〜1333はそれぞれ、図1の分流路20の第3〜5段を抽出したもの及び合流路40の第2〜4段を抽出したものと同一である。分流路131は、インターフェイス124の端子数を少なくするためのものであり、この例では4組としているが、1組以上であればよい。   The branch flow path 131 and the combined flow paths (multiplexers) 1330 to 1333 of the stream buffer 130 are extracted from the third to fifth stages of the divided flow path 20 of FIG. 1 and extracted from the second to fourth stages of the combined flow path 40, respectively. Is the same. The shunt flow path 131 is for reducing the number of terminals of the interface 124. In this example, four sets are provided, but one or more sets may be used.

分流路131に供給されるパケットのフォーマットは、図35に示す如く、3ビットのストリーム識別子SIDのフィールドと、8ビットのストリームエレメントSEのフィールドとからなる。   As shown in FIG. 35, the format of the packet supplied to the diversion channel 131 includes a 3-bit stream identifier SID field and an 8-bit stream element SE field.

ストリーム識別子SIDは、4系統×8本のキューアレイ132の8本のキューIDと対応づけられている。このようなキューIDをストリーム識別子SIDと対応させることにより、分流路131で行先アドレス5ビットの下位3ビットとして用いられたストリーム識別子SIDは、分流路131を出ると不要となり、キューアレイ132では8ビットのストリームエレメントSEのみ保持される。マルチプレクサ1330〜1333はそれぞれ系統0〜3の8本のキューの1つを選択して、それぞれノード140〜143に供給する。この選択は、分流路121へ転送しようとするパケットに含まれるストリーム識別子SIDであるSID0〜SID3をそれぞれデコーダ145〜148でデコードした制御信号により行われる。   The stream identifier SID is associated with 8 queue IDs of 4 queues × 8 queue arrays 132. By associating such a queue ID with the stream identifier SID, the stream identifier SID used as the lower 3 bits of the destination address 5 bits in the branch channel 131 becomes unnecessary after exiting the branch channel 131. Only the bit stream element SE is retained. The multiplexers 1330 to 1333 select one of the eight queues of the systems 0 to 3 and supply them to the nodes 140 to 143, respectively. This selection is performed by a control signal obtained by decoding SID0 to SID3, which are stream identifiers SID included in a packet to be transferred to the diversion channel 121, by decoders 145 to 148, respectively.

マルチプレクサ1330〜1333は、通常の構成を用いることができるが、図34に示すように8入力1出力の合流路を用いてもよい。この場合、ストリーム識別子SIDをデコードして、8本のキューのうちの対応する1つのキューの出力段に対してのみACKをアクティブにすればよい。この場合のデコーダは、1入力8出力の分流路を用いることができる。   The multiplexers 1330 to 1333 can use a normal configuration, but may use a combined flow path of 8 inputs and 1 output as shown in FIG. In this case, it is only necessary to decode the stream identifier SID and activate ACK only for the output stage of one corresponding queue among the eight queues. The decoder in this case can use a diversion channel with 1 input and 8 outputs.

キューアレイ132を構成する各キューについて、半空になったときには、これを半空検出回路134で検出し、そのキューの系統CHとストリーム識別子SIDとを伴って、インターフェイス128及び124を介したCPU127への割込要求IRQ2をアクティブにする。これによりCPU127は、RAM126からデータを読み出して、対応する系統CH及びストリーム識別子SIDのキューにこれを補給する。RAM126からインターフェイス124にはDMA転送することができる。   When each queue constituting the queue array 132 becomes half-empty, this is detected by the half-empty detection circuit 134 and the queue CH and the stream identifier SID are sent to the CPU 127 via the interfaces 128 and 124. The interrupt request IRQ2 is activated. As a result, the CPU 127 reads data from the RAM 126 and replenishes it to the queue of the corresponding system CH and stream identifier SID. DMA transfer from the RAM 126 to the interface 124 is possible.

半空検出は例えば、設定時間内におけるキューアレイ132の先頭でのSEND−OUTパルス数と中間部でのそれとの差が所定値以上となったことにより検出することができる。またキューアレイ132のそれぞれのキューについて、出力されるパケット数(ラッチパルス数)と供給されるパケット数(ラッチパルス数)とをカウントし、その差が設定値以上になったとき、同様に割込要求IRQ2をアクティブにする構成であってもよい。半空でなく、キューの所定割合が空になったことを検出してもよいことは勿論である。   The half sky detection can be detected, for example, when the difference between the number of SEND-OUT pulses at the head of the queue array 132 within the set time and that at the intermediate portion is a predetermined value or more. In addition, for each queue of the queue array 132, the number of output packets (the number of latch pulses) and the number of supplied packets (the number of latch pulses) are counted. The configuration may be such that the load request IRQ2 is activated. Of course, it may be detected that a predetermined percentage of the queue is not half empty.

ノード150〜153のパケットは、結果ビットRを含む必要がない。合成ノード140〜143にはそれぞれ、一方ではノード150〜153からパケットが供給され、これらのストリーム識別子SIDがそれぞれSID0〜SID3としてマルチプレクサ1330〜1333に対する選択制御信号として供給され、他方ではマルチプレクサ1330〜1333からのストリームエレメントSEが合成ノード140〜143に付加されて合成され、合成ノード140〜143に取り込まれ保持される。   The packets of the nodes 150 to 153 need not include the result bit R. Each of the synthesis nodes 140 to 143 is supplied with packets from the nodes 150 to 153 on the one hand, and these stream identifiers SID are supplied as selection control signals for the multiplexers 1330 to 1333 as SID0 to SID3, respectively, and on the other hand, the multiplexers 1330 to 1333. Are added to the synthesis nodes 140 to 143 and synthesized, and are taken in and held by the synthesis nodes 140 to 143.

合成ノード140〜143の出力が分流路121に転送される。合成ノード140〜143を省略し、これらの替わりに分流路121の入口ノードを用いてもよい。   The outputs of the synthesis nodes 140 to 143 are transferred to the branch channel 121. The synthesis nodes 140 to 143 may be omitted, and the inlet node of the branch path 121 may be used instead.

ノード150〜153には、CPU127からインターフェイス124及び128を介した初期パケットと、合流路123からのパケットとが選択的に合流する。この初期パケットは、CPUアクセラレータ60Qを起動させるためのものであり、図35において、例えばS=0、R=0とし、系統CH及びストリーム識別子SIDをそれぞれの系統ごとに与えたものである。   An initial packet from the CPU 127 via the interfaces 124 and 128 and a packet from the merge channel 123 are selectively joined to the nodes 150 to 153. This initial packet is for activating the CPU accelerator 60Q. In FIG. 35, for example, S = 0 and R = 0, and a system CH and a stream identifier SID are given for each system.

ストリーム識別子SIDの値は、CPU127がインターフェイス124、128及び分流路131を介しキューアレイ132にデータストリームを供給したものであればよく、CPU127が定めることができる。   The value of the stream identifier SID may be any value as long as the CPU 127 supplies the data stream to the queue array 132 via the interfaces 124 and 128 and the diversion channel 131, and can be determined by the CPU 127.

CPU127は、ノード150〜153のそれぞれに1つ又は複数の初期パケットを順次供給する。CPU127はこの際、合流路123の対応する出口ノードに対するACKをインアクティブにして、出口ノードからのパケットの流れを停止させておく。次いでこの停止を解除すると、状態テーブルメモリ120を含むループ内でパケットがパイプライン処理される。各系統の初期パケットは、本実施例では最大8個である。実際には、ループ内にパケットを分散させることができるので、その最大値は状態テーブルメモリ120の全段数に2を加えたものとすることができる。   The CPU 127 sequentially supplies one or a plurality of initial packets to each of the nodes 150 to 153. At this time, the CPU 127 inactivates the ACK for the corresponding exit node of the combined path 123 and stops the flow of packets from the exit node. Then, when this stop is released, the packet is pipelined in a loop including the state table memory 120. In this embodiment, the maximum number of initial packets for each system is eight. Actually, since packets can be distributed in a loop, the maximum value can be obtained by adding 2 to the total number of stages in the state table memory 120.

状態テーブルメモリ120の合流路123の各系統の出口ノードの出力は、出力回路160に供給される。   The output of the exit node of each system in the combined flow path 123 of the state table memory 120 is supplied to the output circuit 160.

出力回路160は、4系統の結果ビットRのいずれかが'1'となると、その系統CH、ストリーム識別子SID及びウイルスコードVCを取り込んで保持し、CPU127に対し、これらを供給するとともに割込要求IRQ1をアクティブにする。各データストリームについて、1つのウイルスを検出すればそのストリームに対する処理を打ち切ることができる。この場合、ストリームバッファ130内の、ウイルスが検出されたストリームをフラッシュし又は/及びこのストリームの追加を停止し、未処理ストリームがあればストリームバッファ130へ他のストリームを供給し、これに対応して初期パケットを、上述のように供給し、該他のストリームに対する処理を開始する。   When any of the four system result bits R becomes “1”, the output circuit 160 captures and holds the system CH, the stream identifier SID, and the virus code VC, supplies them to the CPU 127, and requests an interrupt. Activate IRQ1. For each data stream, if one virus is detected, processing for that stream can be aborted. In this case, the stream in which the virus is detected in the stream buffer 130 is flushed and / or the addition of this stream is stopped, and if there is an unprocessed stream, another stream is supplied to the stream buffer 130 and correspondingly. The initial packet is supplied as described above, and processing for the other stream is started.

本実施例14によれば、CPUアクセラレータ60Qがデータ駆動型で構成されており、さらに状態テーブルメモリ120とストリームバッファ130とが並列動作するので、処理の並列度が高くてスループットが高いとともに、低消費電力であり、各種モバイル機器に好適である。   According to the fourteenth embodiment, since the CPU accelerator 60Q is configured as a data driven type, and the state table memory 120 and the stream buffer 130 operate in parallel, the parallelism of processing is high, the throughput is high, and the low Power consumption is suitable for various mobile devices.

図36は、本発明が適用された、実施例15の順序同期・データ駆動型CPUアクセラレータ60QAを示す概略ブロック図である。   FIG. 36 is a schematic block diagram showing a sequence synchronization / data driven type CPU accelerator 60QA according to the fifteenth embodiment to which the present invention is applied.

このCPUアクセラレータ60QAではまず、ストリームバッファ130Aの分流路131Aを、図1の6段分流路20を5段にしたもので構成するとともに、インターフェイス128Aから、一方では分岐ノード163を介して分流路131Aへデータストリームを転送させ、他方では分岐ノード161及びデマルチプレクサ(分流路)162を介して初期パケットをノード150〜153へ供給することにより、インターフェイス128Aの出力端子数を低減している。   In this CPU accelerator 60QA, first, the branch flow path 131A of the stream buffer 130A is constituted by five stages of the six-stage flow path 20 of FIG. 1, and the branch flow path 131A from the interface 128A, on the one hand, via the branch node 163 On the other hand, the initial packet is supplied to the nodes 150 to 153 via the branching node 161 and the demultiplexer (branch channel) 162, thereby reducing the number of output terminals of the interface 128A.

ノード161でのパケットは、初期パケットであるか否かを示すビット及び系統CHを有し、前者でノード161でのパケット分岐先が定まる。デマルチプレクサ162では、系統CHが行先アドレスとして用いられ、これはその出力ノードで不要となる。   The packet at the node 161 has a bit indicating whether or not it is an initial packet and a system CH, and the packet branch destination at the node 161 is determined by the former. In the demultiplexer 162, the system CH is used as the destination address, which is unnecessary at the output node.

次に、ストリームバッファ130Aのそれぞれのキューが順序を維持しているので、このCPUアクセラレータ60QAでは、上述の順序合流制御が行われる分流路121A及び合流路123Aを備えた状態テーブルメモリ120Aを用いて、状態テーブルメモリ120Aでのパケット順序を維持させることにより、状態テーブルメモリ120Aとストリームバッファ130Aとの間で順序同期をとっている。   Next, since the respective queues of the stream buffer 130A maintain the order, the CPU accelerator 60QA uses the state table memory 120A including the branch flow path 121A and the combined flow path 123A in which the above-described sequential merge control is performed. By maintaining the packet order in the state table memory 120A, the state table memory 120A and the stream buffer 130A are synchronized in order.

状態テーブルメモリ120Aから出力されるパケットの順序が維持されるので、マルチプレクサ1330〜1333に対する選択制御を確実に予測することができる。この順序は、CPU127がインターフェイス124、128、ノード161及びデマルチプレクサ162を介しノード150〜153へ供給する初期パケットの順序により定まる。すなわち、順序はCPU127が決定することになる。   Since the order of the packets output from the state table memory 120A is maintained, selection control for the multiplexers 1330 to 1333 can be reliably predicted. This order is determined by the order of initial packets that the CPU 127 supplies to the nodes 150 to 153 via the interfaces 124 and 128, the node 161, and the demultiplexer 162. That is, the order is determined by the CPU 127.

ストリームID予測回路163は、系統CH毎に不図示のリングキューを備えており、系統CH毎に、ノード161からのパケット内のストリーム識別子SIDを順次このリングキューに保持し、その出力に基づき、マルチプレクサ1330〜1333へそれぞれストリーム識別子SID0〜SID3を供給するとともに該リングキュー内のパケットを1段進ませ、キュー170〜173の先頭からのACKがアクティブになる毎にこれを繰り返すことにより、予めキュー170〜173へストリームエレメントSEを複数取り込ませ保持させる。   The stream ID prediction circuit 163 includes a ring queue (not shown) for each system CH, and sequentially stores the stream identifier SID in the packet from the node 161 in this ring queue for each system CH. Based on the output, The stream identifiers SID0 to SID3 are supplied to the multiplexers 1330 to 1333, the packets in the ring queue are advanced by one stage, and this is repeated each time an ACK from the head of the queues 170 to 173 becomes active, so that A plurality of stream elements SE are fetched and held in 170 to 173.

合成ノード140〜143は、ノード150〜153へのACKをアクティブにするとき、同時に、対応するキュー170〜173の出力段へのACKをアクティブにする。   When combining nodes 140-143 activate ACKs to nodes 150-153, they simultaneously activate ACKs to the output stages of the corresponding queues 170-173.

このようにして、パケットが状態テーブルメモリ120Aからノード150〜153を介しそれぞれ合成ノード140〜143へ到達したときに、キュー170〜173からのパケットをこれと同時に合成ノード140〜143へ到達させることが可能となり、合成ノード140〜143での待ち合わせのタイムラグがなくなるので、上記実施例14よりも高速処理を行うことができる。   In this way, when a packet arrives at the synthesis nodes 140 to 143 from the state table memory 120A via the nodes 150 to 153, respectively, the packets from the queues 170 to 173 reach the synthesis nodes 140 to 143 at the same time. And the waiting time lag at the synthesis nodes 140 to 143 is eliminated, so that higher-speed processing can be performed than in the 14th embodiment.

なお、順序同期により合成ノード140〜143では、合成されるそれぞれのパケットのストリームIDが一致するので、状態テーブルメモリ120を含むループ内では、ストリームIDをパケットに含ませなくてもよい。   Note that in the synthesis nodes 140 to 143 due to the order synchronization, the stream IDs of the respective packets to be synthesized coincide with each other. Therefore, in the loop including the state table memory 120, it is not necessary to include the stream ID in the packet.

この場合、出力回路160でウイルスを検出した際にストリーム識別子SIDを出力する必要があるので、SID予測回路163と同様に系統CH毎にリングキューを出力回路160に備えてこれにストリームIDを保持させ、合流路123Aの出口ノードからのSENDパルスで、対応するリングキュー内の所定段に対するACKをアクティブにして該所定段でパケットを1個進ませ、合流路123Aの出口ノードから出力されているパケットのストリームIDを識別する。   In this case, since it is necessary to output the stream identifier SID when a virus is detected by the output circuit 160, a ring queue is provided in the output circuit 160 for each system CH as in the SID prediction circuit 163, and the stream ID is held in this. In response to the SEND pulse from the exit node of the combined path 123A, the ACK for the predetermined stage in the corresponding ring queue is activated to advance one packet at the predetermined stage, and is output from the exit node of the combined path 123A. Identify the stream ID of the packet.

また、SID予測回路163でのリングキューと、マルチプレクサ1330から合流路123Aの出口ノードまでのパイプライン段数と、出口ノードからのSENDパルスの数とから、該出口ノードから出力されているパケットのストリームIDを識別することもできる。   Further, the stream of packets output from the exit node based on the ring queue in the SID prediction circuit 163, the number of pipeline stages from the multiplexer 1330 to the exit node of the combined flow path 123A, and the number of SEND pulses from the exit node. An ID can also be identified.

さらに、CPUアクセラレータ以外の有限オートマトン装置として用いてもよい。   Furthermore, it may be used as a finite automaton device other than the CPU accelerator.

また、本発明の特徴の1つが予測回路を用いている点であることに着目すれば、本発明は、状態テーブルメモリ120Aを含むループを、他の機能のループに置換した構成であってもよい。   If attention is paid to the fact that one of the features of the present invention is using a prediction circuit, the present invention can be applied even if the loop including the state table memory 120A is replaced with a loop of another function. Good.

なお、本発明には外にも種々の変形例が含まれる。   Note that the present invention includes various other modifications.

例えば、上記各実施例又はその変形例の構成要素の組み合わせを変えた構成も、その機能を達成できるものは本発明に含まれる。   For example, the present invention includes a configuration that can achieve the function of a configuration in which the combination of the components in each of the above-described embodiments or modifications thereof is changed.

また、分流路の行先アドレスをプロセッサの命令コードとし、分流路の出力側でこの命令コードに応じた処理手段を配置した構成であってもよい。この場合、レジスタファイル30Rの各行をその命令コードに応じたレジスタ群として用いるこのができる。   Further, a configuration may be adopted in which the destination address of the diversion channel is used as an instruction code of the processor, and processing means corresponding to the instruction code is arranged on the output side of the diversion channel. In this case, each line of the register file 30R can be used as a register group corresponding to the instruction code.

さらに、ストリームバッファ130又は130Aは、その中でのデータ流を逆流させて、他のループコンポーネントでの処理結果を分類してCPU等へ出力するのに用いることができる。   Furthermore, the stream buffer 130 or 130A can be used to reverse the data flow in the stream buffer, classify the processing results in other loop components, and output them to the CPU or the like.

本発明の実施例1の非同期(自己タイミング)データ駆動型メモリを示す概略ブロック図である。1 is a schematic block diagram illustrating an asynchronous (self-timed) data driven memory according to a first embodiment of the present invention. メモリ行アレイの配列の具体例を示す図である。It is a figure which shows the specific example of the arrangement | sequence of a memory row array. 束データ方式で分流路を構成した場合の第1段と第2段とで構成される分流回路を示す概略ブロック図である。It is a schematic block diagram which shows the shunt circuit comprised by the 1st stage and 2nd stage at the time of comprising a shunt flow path by a bundle data system. 束データ方式で合流路を構成した場合の第2段と第3段の一部である合流回路を示す概略ブロック図である。It is a schematic block diagram which shows the confluence | merging circuit which is a part of 2nd stage and 3rd stage at the time of comprising a confluence | merging path by a bundle data system. 図1の分流路20の出力ノード261と合流路40の入口ノード411との間に接続されたメモリ行31及び32を示す概略ブロック図である。FIG. 3 is a schematic block diagram showing memory rows 31 and 32 connected between an output node 261 of the diversion channel 20 of FIG. 1 and an inlet node 411 of the merge channel 40. 本発明の実施例2のデータ駆動型メモリを示す概略ブロック図である。It is a schematic block diagram which shows the data drive type memory of Example 2 of this invention. (A)はパケットのフォーマットを示し、(B)は系統とパケットフローの関係を示す説明図である。(A) shows the format of a packet, (B) is explanatory drawing which shows the relationship between a system | strain and a packet flow. 入力ポート及び出力ポートの数を実施例2の場合の2倍にした、本発明の実施例3のメモリを示す概略ブロック図である。It is a schematic block diagram which shows the memory of Example 3 of this invention which doubled the number of input ports and output ports in the case of Example 2. FIG. パケットのフォーマットを示す図である。It is a figure which shows the format of a packet. パイプライン段数を低減した、本発明の実施例4のメモリを示す概略ブロック図である。It is a schematic block diagram which shows the memory of Example 4 of this invention which reduced the number of pipeline stages. 選択的合流ノードへの転送待ちを短縮した、本発明の実施例5の2ポート入力・2ポート出力型のメモリを示す概略ブロック図である。FIG. 10 is a schematic block diagram illustrating a 2-port input / 2-port output type memory according to a fifth embodiment of the present invention in which waiting for transfer to a selective junction node is shortened. 入力ポート及び出力ポートの数を実施例5の場合の2倍にした、本発明の実施例6のメモリを示す概略ブロック図である。It is a schematic block diagram which shows the memory of Example 6 of this invention which doubled the number of input ports and output ports in the case of Example 5. FIG. 本発明の実施例7のキャッシュメモリを示す概略ブロック図である。It is a schematic block diagram which shows the cache memory of Example 7 of this invention. タグアレイ内の隣り合うタグ行の構成を示す概略ブロック図である。It is a schematic block diagram which shows the structure of the adjacent tag row in a tag array. インターフェイスで待機中の更新パケットが、ワードデータを受け取ってそのデータフィールドに書き込みパッケット化する動作の説明図である。It is explanatory drawing of the operation | movement which the update packet waiting in an interface receives word data, writes it in the data field, and makes it a packet. 本発明の実施例8のキャッシュメモリを示す概略ブロック図である。It is a schematic block diagram which shows the cache memory of Example 8 of this invention. 本発明の実施例9の、プロセッサの一部であるデータ処理部を示す概略ブロック図である。It is a schematic block diagram which shows the data processing part which is a part of processor of Example 9 of this invention. (A)及び(B)は、パケットペアを分流路入口ノードに投入した後の処理の流れを示す概略説明図である。(A) And (B) is a schematic explanatory drawing which shows the flow of a process after throwing a packet pair into a branching channel inlet node. 本発明の実施例10の、プロセッサの一部であるデータ処理部を示す概略ブロック図である。It is a schematic block diagram which shows the data processor which is a part of processor of Example 10 of this invention. (A)はパケットペア行先アドレスに基づいて合流段IDを決定する方法の説明図、(B)はパケットフォーマットを示す説明図である。(A) is explanatory drawing of the method of determining confluence | merging stage ID based on a packet pair destination address, (B) is explanatory drawing which shows a packet format. 合流段識別ノードの概略構成を示すブロック図である。It is a block diagram which shows schematic structure of a confluence | merging stage identification node. (A)〜(D)は本発明の実施例11に係るパケットフォーマット説明図であり、(A)はパケットペアを1パケットに圧縮したもののフォーマット、(B)及び(C)はこのパケットを2パケットに伸張させたもののフォーマット、(C)は連接パケットでの先頭に続くデータパケットを示す図である。(A)-(D) are packet format explanatory views according to Embodiment 11 of the present invention, (A) is a format of a packet pair compressed into one packet, (B) and (C) are 2 The format of the packet expanded, (C) is a diagram showing the data packet following the head of the concatenated packet. (A)及び(B)はそれぞれ第1オペランドの連接パケットの先頭パケット及びこれに続くデータパケットを示す説明図、(B)及び(C)はそれぞれ第2オペランドの連接パケットの先頭パケット及びこれに続くデータパケットを示す説明図である。(A) and (B) are explanatory diagrams showing the first packet of the concatenated packet of the first operand and the following data packet, respectively. (B) and (C) are the first packet of the concatenated packet of the second operand and It is explanatory drawing which shows the following data packet. 合流路のノードに備えられた連接ビットがパケットペアの連接ビットによりセットされている状態を示す説明図である。It is explanatory drawing which shows the state by which the connection bit with which the node of the joint flow path was set with the connection bit of a packet pair. ノードN1のノード側連接ビットF1に対する状態制御回路とこれに関連する要素を示すブロック図である。It is a block diagram which shows the state control circuit with respect to the node side connection bit F1 of the node N1, and the element relevant to this. (A)〜(C)は本発明の実施例12に係り、(A)はデータ駆動型処理ループを示し、(B)は(A)を2分割して並列結合した回路を示し、(C)は複雑な処理ループを並列結合した回路を示す概略図である。(A) to (C) relate to the twelfth embodiment of the present invention, (A) shows a data driven type processing loop, (B) shows a circuit obtained by dividing (A) into two parts and connected in parallel, (C ) Is a schematic diagram showing a circuit in which complex processing loops are coupled in parallel. (A)及び(B)はそれぞれ同層及び異層間において、順序同期が成立している並列処理ループ間でのキューを介した処理結果の伝達を示す図である。(A) and (B) are diagrams showing transmission of processing results via queues between parallel processing loops in which order synchronization is established in the same layer and different layers, respectively. 本発明の実施例13に係る、合流路のノードとこれに対応する分流路のノードとの間で生ずる切替順序の乱れの説明図である。It is explanatory drawing of disorder of the switching order which arises between the node of a combined flow path, and the node of a shunt path corresponding to this according to Example 13 of this invention. (A)は合流路の任意のノードについて、これに対応する分流路のノードとの間で切替同期を行う構成を示し、(B)及び(C)はこの構成の動作を示す図である。(A) shows a configuration in which switching synchronization is performed with respect to an arbitrary node of a combined flow path with a node of a branch flow path corresponding to the node, and (B) and (C) are diagrams illustrating operations of this configuration. 図29の(A)の詳細ブロック図である。FIG. 30 is a detailed block diagram of FIG. (A)〜(J)は、分流路側の1つのリードパケットの流れと、これに対応した合流路側の複数のリードデータパケット(連接パケット)との流れとを、時間を追って示す説明図である。(A)-(J) is explanatory drawing which shows the flow of one read packet by the side of a shunt flow path, and the flow of several read data packets (connection packet) by the side of the joint flow path corresponding to this in time. . 行を状態Sとし、入力である列を、データストリームを構成する1バイトのストリームエレメントSEとした出力コマンド付状態遷移テーブルを示す図である。FIG. 10 is a diagram showing a state transition table with an output command in which a row is a state S and an input column is a 1-byte stream element SE constituting a data stream. 本発明の実施例14のCPUアクセラレータを示す概略ブロック図である。It is a schematic block diagram which shows the CPU accelerator of Example 14 of this invention. 図33中のストリームバッファの概略ブロック図である。It is a schematic block diagram of the stream buffer in FIG. 図33の装置における1系統に関するデータフローをデータフォーマットとともに示す図である。It is a figure which shows the data flow regarding 1 system | strain in the apparatus of FIG. 33 with a data format. 本発明の実施例15の順序同期型CPUアクセラレータを示す概略ブロック図である。It is a schematic block diagram which shows the order synchronization type | mold CPU accelerator of Example 15 of this invention. 簡単な有限オートマトンの例を示す状態遷移図である。It is a state transition diagram showing an example of a simple finite automaton.

符号の説明Explanation of symbols

10、10A〜10E、120、120A メモリ
10AP、10BP データ処理部
20、20A〜20E、71、121、131、131A 分流路
201C、211C、221C、222C、261C、411C、311C、312C、3131C、411C、421C、422C、431C、711C、731C 転送制御回路
201L、211L、221L、222L、261L、311L、312L、3131L、411L、421L、422L、431L、711L、731L ラッチ
110、111、115〜118、201〜204、221〜228、221A、222A、223A、224A、231〜234、231A、232A、241、248、251、261、411、411A、411B、421、431、441〜444、441A、451〜454、441A、442A、443A、444A、451A、452A、453A、454A、461A、461AP、462A、463A、464A、47、711、731、77、771〜774、82、N01、N02、N1、N2 ノード
201F 合流段ID決定部
201P パケットペア判定部
211〜214、411 入口ノード
222G、261G1、411G、422G インバータ
251、461〜464 出口ノード
261G2、3131G オアゲート
30、122 メモリ行アレイ
30R レジスタファイル
310、740 ループ配線
31、32 メモリ行
311、741 制御回路
311a、310C カウンタ
310W、311W、312W、313W、320W ワードメモリ
40、40A〜40E、40AP、40BP、73、123、123A 合流路
47 状態制御回路
50、50A〜50G、P1〜P3、P1A、P2A、P1N、P2N パケット
60、60A キャッシュメモリ
60Q、60QA CPUアクセラレータ
70、70A タグテーブル
72 タグアレイ
721、722 タグ行
750〜753、75i ページ情報
760〜763 コンパレータ
764 オアゲート
765 エンコーダ
766 マルチプレクサ
80、801〜804 入出力部
81、124、128、128A インターフェイス
100、101、101A、101B、102、102A、102B ループ
103、103A 結合ノード
104、105、113、170〜173 キュー
125 メモリコントローラ
126 RAM
127 CPU
130、130A ストリームバッファ
132 キューアレイ
1330〜1333 マルチプレクサ
134 半空検出回路
140〜143、150〜153 ノード
160 出力回路
163 ストリームID予測回路
162 デマルチプレクサ
CK クロック入力端
CK1、CK2 クロックパルス
OE 出力イネーブル制御入力端
CMD コマンド
ADR、ADR1、ADR2 アドレス
DA、DA1、DA2、DAi 行先アドレス
DA0〜DA5、CH0、CH1 ビット
PA、PA1、PA2 ページアドレス
WA、WX、WA1、WA2 ワードアドレス
DATA データ
CN 連接ビット
OD 順序ビット
HM、HM1、HM2 ヒットビット
CH 系統
PT パケットタイプ
TA、TAG タグアドレス
CNT カウンタ
MA 合流段識別子
PR1、PR2 処理
V バリッドビット
D ダーティビット
L ロックビット
R 結果ビット
VC ウイルスコード
S 状態
SE ストリームエレメント
SID、SID0〜SID3 ストリーム識別子
IRQ1、IRQ2 割込要求
DS 入力データストリーム
RD 検索データ集合
F01、F02、F1、F2 フリップフロップ
10, 10A to 10E, 120, 120A Memory 10AP, 10BP Data processing unit 20, 20A to 20E, 71, 121, 131, 131A Split channel 201C, 211C, 221C, 222C, 261C, 411C, 311C, 312C, 3131C, 411C , 421C, 422C, 431C, 711C, 731C Transfer control circuit 201L, 211L, 221L, 222L, 261L, 311L, 311L, 3131L, 411L, 421L, 422L, 431L, 711L, 731L Latch 110, 111, 115-118, 201 ~ 204, 221 to 228, 221A, 222A, 223A, 224A, 231A to 234, 231A, 232A, 241, 248, 251, 261, 411, 411A, 411B, 421, 431, 44 1-444, 441A, 451-454, 441A, 442A, 443A, 444A, 451A, 452A, 453A, 454A, 461A, 461AP, 462A, 463A, 464A, 47, 711, 731, 77, 771-774, 82, N01, N02, N1, N2 Node 201F Merged stage ID determination unit 201P Packet pair determination unit 211-214, 411 Ingress node 222G, 261G1, 411G, 422G Inverter 251, 461-464 Egress node 261G2, 3131G OR gate 30, 122 Memory row Array 30R Register file 310, 740 Loop wiring 31, 32 Memory row 311, 741 Control circuit 311a, 310C Counter 310W, 311W, 312W, 313W, 320W Word memory 4 0, 40A-40E, 40AP, 40BP, 73, 123, 123A Combined flow path 47 State control circuit 50, 50A-50G, P1-P3, P1A, P2A, P1N, P2N Packet 60, 60A Cache memory 60Q, 60QA CPU accelerator 70 , 70A Tag table 72 Tag array 721, 722 Tag row 750-753, 75i Page information 760-763 Comparator 764 OR gate 765 Encoder 766 Multiplexer 80, 801-804 Input / output unit 81, 124, 128, 128A interface 100, 101, 101A, 101B, 102, 102A, 102B Loop 103, 103A Join node 104, 105, 113, 170-173 Queue 125 Memory controller 126 RAM
127 CPU
130, 130A Stream buffer 132 Queue array 1330-1333 Multiplexer 134 Half empty detection circuit 140-143, 150-153 Node 160 Output circuit 163 Stream ID prediction circuit 162 Demultiplexer CK Clock input terminal CK1, CK2 Clock pulse OE Output enable control input terminal CMD command ADR, ADR1, ADR2 Address DA, DA1, DA2, DAi Destination address DA0-DA5, CH0, CH1 Bit PA, PA1, PA2 Page address WA, WX, WA1, WA2 Word address DATA Data CN Concatenated bit OD Order bit HM , HM1, HM2 hit bit CH system PT packet type TA, TAG tag address CNT counter MA merge stage identifier PR 1, PR2 processing V Valid bit D Dirty bit L Lock bit R Result bit VC Virus code S State SE Stream element SID, SID0 to SID3 Stream identifier IRQ1, IRQ2 Interrupt request DS Input data stream RD Search data set F01, F02, F1 F2 flip-flop

Claims (12)

入口ノードに供給されるパケットを、該パケットの行先アドレスに応じて、配列された複数の機能エレメントの1つへ選択的に転送させる上り流路と、選択された機能エレメントで生成されたパケットを出口ノードへ転送する下り流路とを有するデータ駆動型処理装置用通信路装置において、
該上り流路は、該入口ノードに供給される第1パケットを、パケット内の行先アドレスに応じ下流側のノードへ順次選択的に分流させて、該複数の機能エレメントの1つへ選択的に転送させるツリー形分流路であり、
該下り流路は、該複数の機能エレメントのうち選択されたものから、該第1パケットに対応した第2パケットを下流側へ順次選択的に合流させて該出口ノードに到達させるツリー形合流路であり、
該ツリー形分流路及び該ツリー形合流路の各ノードがパイプラインステージを構成し、該ツリー形分流路及び該ツリー形合流路のパイプライン段数がそれぞれ3以上であることを特徴とするデータ駆動型処理装置用通信路装置。
An upstream flow path for selectively transferring a packet supplied to an ingress node to one of a plurality of arranged functional elements according to a destination address of the packet, and a packet generated by the selected functional element In a data-driven processing device communication path device having a downstream flow path to be transferred to an exit node,
The upstream flow path selectively diverts the first packet supplied to the ingress node sequentially to a downstream node according to a destination address in the packet, and selectively selects one of the plurality of functional elements. It is a tree-shaped branch channel to be transferred,
The downstream flow path is a tree-shaped combined flow path that selectively combines the second packet corresponding to the first packet downstream from the selected one of the plurality of functional elements to reach the egress node. And
Each node of the tree-shaped branch flow path and the tree-shaped combined flow path constitutes a pipeline stage, and the number of pipeline stages of the tree-shaped branched flow path and the tree-shaped combined flow path is 3 or more, respectively. Communication path device for mold processing equipment.
該ツリー形分流路内において、任意の1つの行先アドレスを有するパケットの流路に対し、該行先アドレスと相補的な行先アドレスを有するパケットの流路が存在するように、該ツリー形分流路が形成されていることを特徴とする請求項1に記載のデータ駆動型処理装置用通信路装置。 In the tree-shaped branch flow path, the tree-shaped branch flow path has a packet flow path having a destination address complementary to the destination address for a flow path of a packet having an arbitrary destination address. 2. The communication path device for a data driven processing device according to claim 1, wherein the communication channel device is formed. 該任意の1つの行先アドレスを有するパケットの流路に対し、該流路を逆流する流路に対応したものが該ツリー形合流路内に存在するように、該ツリー形合流路が形成されていることを特徴とする請求項2に記載のデータ駆動型処理装置用通信路装置。 The tree-shaped combined flow path is formed such that a packet corresponding to the flow path that flows backward through the flow path exists in the tree-shaped combined flow path with respect to the flow path of the packet having the one destination address. The data-driven processing device communication path device according to claim 2, wherein: 該パケットは系統値を有し、
該ツリー形分流路は、系統毎に異なる該入口ノードを有し、中間ノードで複数の系統からのパケットを選択的に合流させ、出力段の各ノードが各系統で共通であり、
該ツリー形合流路は、入力段の各ノードが各系統で共通であり、中間ノードで複数の系統からのパケットを該系統値に基づき選択的に分岐させ、系統毎に異なる該出口ノードを有する、
ことを特徴とする請求項1に記載のデータ駆動型処理装置用通信路装置。
The packet has a systematic value;
The tree-shaped branch channel has the different entry nodes for each system, selectively joins packets from a plurality of systems at intermediate nodes, and each node of the output stage is common to each system,
In the tree-shaped joint channel, each node of the input stage is common to each system, and packets from a plurality of systems are selectively branched based on the system value at an intermediate node, and have different exit nodes for each system. ,
The communication path device for a data driven processing device according to claim 1.
該ツリー形分流路内において、任意の1つの行先アドレスを有するパケットの流路に対し、該行先アドレスと相補的な行先アドレスを有するパケットの流路が存在するように、該ツリー形分流路が形成されていることを特徴とする請求項4に記載のデータ駆動型処理装置用通信路装置。 In the tree-shaped branch flow path, the tree-shaped branch flow path has a packet flow path having a destination address complementary to the destination address for a flow path of a packet having an arbitrary destination address. 5. The communication path device for a data driven processing device according to claim 4, wherein the communication channel device is formed. 該任意の1つの行先アドレスを有するパケットの流路に対し、該流路を逆流する流路に対応したものが該ツリー形合流路内に存在するように、該ツリー形合流路が形成されていることを特徴とする請求項4又は5に記載のデータ駆動型処理装置用通信路装置。 The tree-shaped combined flow path is formed such that a packet corresponding to the flow path that flows backward through the flow path exists in the tree-shaped combined flow path with respect to the flow path of the packet having the one destination address. The data-driven processing device communication path device according to claim 4 or 5, characterized in that 該ツリー形分流路上のパケットはパケット側分岐段識別子を含み、
該ツリー形分流路の各ノードは、固定のノード側分岐段識別子を有し、該パケット側分岐段識別子が該ノード側分岐段識別子に対応しているか否かを判定する、
ことを特徴とする請求項6に記載のデータ駆動型処理装置用通信路装置。
The packet on the tree-shaped branch channel includes a packet side branch stage identifier,
Each node of the tree-shaped branch channel has a fixed node-side branch stage identifier, and determines whether the packet-side branch stage identifier corresponds to the node-side branch stage identifier.
The communication path device for a data driven processing device according to claim 6.
該ツリー形分流路の各入口ノードの上流側に分岐段識別子生成ノードをさらに備え、該分岐段識別子生成ノードは、互いに関連する複数のパケット内のそれぞれの行先アドレスの値に基づき、該パケット側分岐段識別子の値を生成することを特徴とする請求項7に記載のデータ駆動型処理装置用通信路装置。   A branch stage identifier generation node is further provided on the upstream side of each entry node of the tree-shaped branching channel, and the branch stage identifier generation node is configured to be connected to the packet side based on each destination address value in a plurality of packets related to each other. 8. The data path processing device communication path device according to claim 7, wherein a branch stage identifier value is generated. 該ツリー形合流路上のパケットはパケット側合流段識別子を含み、
該ツリー形合流路の各ノードは、固定のノード側合流段識別子を有し、該パケット側合流段識別子が該ノード側合流段識別子に対応しているか否かを判定する、
ことを特徴とする請求項6に記載のデータ駆動型処理装置用通信路装置。
A packet on the tree-shaped merge channel includes a packet side merge stage identifier;
Each node of the tree-shaped merge channel has a fixed node-side merge stage identifier, and determines whether the packet-side merge stage identifier corresponds to the node-side merge stage identifier.
The communication path device for a data driven processing device according to claim 6.
該ツリー形分流路の各入口ノードの上流側に合流段識別子生成ノードをさらに備え、該合流段識別子生成ノードは、互いに関連する複数のパケット内のそれぞれの行先アドレスの値に基づき、該パケット側合流段識別子の値を生成することを特徴とする請求項9に記載のデータ駆動型処理装置用通信路装置。   A merge stage identifier generation node is further provided on the upstream side of each inlet node of the tree-shaped branching channel, and the merge stage identifier generation node is configured to receive the packet side based on the value of each destination address in a plurality of packets related to each other. The data-driven processing device communication path device according to claim 9, wherein the value of the merging stage identifier is generated. 該ツリー形合流路の複数の出口ノードをそれぞれ、対応する該合流段識別子生成ノードに結合させる通信路をさらに有することを特徴とする請求項6乃至10のいずれか1つに記載のデータ駆動型処理装置用通信路装置。   The data driven type according to any one of claims 6 to 10, further comprising a communication path that couples each of the plurality of exit nodes of the tree-shaped merge channel to the corresponding merge stage identifier generation node. Communication device for processing device. 該ツリー形分流路は、該複数の入口ノードのそれぞれから、系統間で合流せずに分流した位置に、次段のノードを有することを特徴とする請求項6乃至11のいずれか1つに記載のデータ駆動型処理装置用通信路装置。   The tree-shaped branch channel includes a next-stage node at a position where the tree-shaped branch channel is branched from each of the plurality of inlet nodes without being merged between the systems. A communication path device for a data driven processing device.
JP2007083590A 2007-03-28 2007-03-28 Communication device for data-driven processing device having tree-type shunt and confluence channel and packet transfer method for data-driven processing device Expired - Fee Related JP5115922B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007083590A JP5115922B2 (en) 2007-03-28 2007-03-28 Communication device for data-driven processing device having tree-type shunt and confluence channel and packet transfer method for data-driven processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007083590A JP5115922B2 (en) 2007-03-28 2007-03-28 Communication device for data-driven processing device having tree-type shunt and confluence channel and packet transfer method for data-driven processing device

Publications (2)

Publication Number Publication Date
JP2008242895A JP2008242895A (en) 2008-10-09
JP5115922B2 true JP5115922B2 (en) 2013-01-09

Family

ID=39914149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007083590A Expired - Fee Related JP5115922B2 (en) 2007-03-28 2007-03-28 Communication device for data-driven processing device having tree-type shunt and confluence channel and packet transfer method for data-driven processing device

Country Status (1)

Country Link
JP (1) JP5115922B2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5723166A (en) * 1980-07-17 1982-02-06 Fujitsu Ltd Parallel data processing system driven by tree structure data
JP2004013602A (en) * 2002-06-07 2004-01-15 Handotai Rikougaku Kenkyu Center:Kk Data driven processor emulation system
JP4091604B2 (en) * 2002-10-03 2008-05-28 株式会社インフォーエス Bit string matching method and apparatus
JP2004157684A (en) * 2002-11-05 2004-06-03 Sharp Corp Information processing equipment
JP4360883B2 (en) * 2003-11-27 2009-11-11 富士通株式会社 Information search method, information search device, and information search program

Also Published As

Publication number Publication date
JP2008242895A (en) 2008-10-09

Similar Documents

Publication Publication Date Title
US7877401B1 (en) Pattern matching
US9787612B2 (en) Packet processing in a parallel processing environment
US4837676A (en) MIMD instruction flow computer architecture
US9444757B2 (en) Dynamic configuration of processing modules in a network communications processor architecture
CN101194245B (en) Packet Processor with Wide Register File Architecture
US8473657B2 (en) High speed packet FIFO output buffers for switch fabric with speedup
CN108475194A (en) Register Communication in a Network-on-Chip Architecture
US6922749B1 (en) Apparatus and methodology for an input port of a switch that supports cut-through operation within the switch
JP2002508100A (en) Packet routing switch to control access to shared memory at different data rates
CN1961302B (en) Memory Controller with Command Lookahead
JPH11312141A (en) Bus bridge
JP5256193B2 (en) Data-driven processing device and its sequential confluence control device
JP4128447B2 (en) Scalable interconnect structure for parallel computing and parallel memory access
JP5115922B2 (en) Communication device for data-driven processing device having tree-type shunt and confluence channel and packet transfer method for data-driven processing device
JP4509175B2 (en) Integrated circuit and packet switching control method
JP5059461B2 (en) Data-driven data buffer device and data buffering method
JP2008242896A (en) Data-driven processing method and apparatus for determining merging stage based on packet pair destination address in shunt channel
JP2008244952A (en) Data-driven processing method and apparatus for decompressing compressed pair packet at branch node
JP2008242902A (en) Order-synchronizing method and data-driven processing apparatus for performing order synchronization in a data-driven processing apparatus
WO2026040332A1 (en) Data forwarding method and apparatus, and electronic device and storage medium
JP2008242899A (en) Data-driven semiconductor memory device and packet read / write method in data-driven semiconductor memory device
JP2008242898A (en) Data-driven tag table device, data-driven cache memory, and read / write method in data-driven cache memory
JP2008242897A (en) Data-driven processing method and apparatus using concatenated packets
JP2008242901A (en) Finite automaton device and pattern matching method
JPH0799515B2 (en) Instruction flow computer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121009

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121009

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees