CN1212400A

CN1212400A - 数据处理装置

Info

Publication number: CN1212400A
Application number: CN98108341A
Authority: CN
Inventors: 坂下和広
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1997-09-19
Filing date: 1998-05-21
Publication date: 1999-03-31
Also published as: JP3612186B2; KR100268747B1; JPH1196123A; DE19822776A1; KR19990029204A; US6032246A; TW376581B

Abstract

具备运算部分11和存储部分12的单元10a、10b被各自形成在单一半导体芯片上。在2个存储部分12上,以位片处理后的形式分担存储数据信号,2个运算部分11的每一个可以通过配线22、23利用存储在2个存储部分12的全部中的32位的数据信号。作为结合各半导体芯片之间的配线,只配设从2个存储部分向2个运算部分11传输数据信号的配线22、23。从而提高处理速度和运算部分可以利用的半导体存储器的存储容量。

Description

数据处理装置

本发明涉及数据处理装置，尤其涉及用于既实现提高处理速度又确保所需要的半导体存储器的存储容量所进行的改进。

图13是展示作为本发明的背景的以往的数据处理装置的构成的方框图。在这以往装置151中，内置微机(以下简称CPU)的运算部分161，通过总线163与存储部分162连接。在存储部分162中备有例如DRAM(动态随机存取存储器)。各装置161、162分别在独立的半导体芯片(半导体基板)上构成。

在该装置151中，运算部分161，以N位为单位，从存储部分162读出数据信号，以及向存储部分162写入数据信号。具有通过在总线163上连接多个存储部分162，从而可以自由地扩大运算部分161存取的存储器空间的优点。

但是，在装置151中，由于是通过配设在各半导体芯片外的配线163进行数据信号的读出与写入，所以在数据信号的传输中存在着产生不能忽视的延迟的问题。另外，因为可以在1个半导体芯片上配备的引线(端子)的个数有限，所以能并列地写入以及读出的位数N受到限制。

由于加上数据信号的延迟，以及对并列位数N的制约，因而存在着不能提高运算部分161在单位时间可以读出以及写入的数据信号的量，即不能提高数据信号的传输速度的问题。数据信号的传输速度的延迟表现为装置151的处理速度的延迟。

图14是展示以解决此问题为目的而提出的另一以往装置的方框图。在该装置152中，运算部分166和存储部分167的双方被制成在一个半导体芯片上，即所谓的单芯片中。因而，运算部分166和存储部分167之间的N位单位的数据信号的传输在单一半导体芯片中进行。

因此，可以将伴随数据信号的传输的延迟抑制在低水平。另外，因为不需要在单一半导体芯片上设置N条引线，所以并列传送的信号的个数N不受引线条数的制约条件的限制。这样也可以使运算部分166读出以及写入的数据信号的传输速度提高。

但是，在装置152中，由于在单一半导体芯片中制造出运算部分166和存储部分167，所以存在限制存储部分167的存储容量的大小的另一问题。通常，微机所需要的半导体存储器的存储容量，远远超过可以制作在单一半导体存储芯片中的半导体存储器的容量。

例如，在现有的DRAM制造技术中，可以制造在单一半导体芯片中的DRAM的存储容量是16兆(=2兆字节)。与此相对，目前一般性能的CPU所需要的半导体存储器的存储容量是8～16兆字节左右。众所周知，小型计算机用户通过增设DRAM就可以确保所需要的存储容量。

由经验可知，在半导体技术的发展过程中，在CPU性能和该CPU所需要的半导体存储器的存储容量之间，存在比例关系，名为「安德鲁定律」。因而，在将具备CPU的运算部分166和具备DRAM的存储部分167制作在单一半导体存储芯片中的装置152的形态中，即使今后半导体技术发展了，存储容量不足作为未解决的问题也始终存在。

本发明就是为了解决在以往装置中的上述问题而提出的，其目的在于：提供同时实现提高处理速度和确保所需要的半导体存储器的存储容量的数据处理装置。

第1发明的装置，在数据处理装置中，具备：m(m≥2)个运算部分、m个存储部分、连接上述m个运算部分以及存储部分的配线；上述m个运算部分，分别具备m个CPU，上述m个存储部分分别具备m个半导体存储器。

上述m个半导体存储器，可以分别分担存储将包含规定上述m个CPU的动作的程序的，N(N≥2)位的数据信号列进行位片(bitslice)处理为L1、L2、…、Lm(在此，L1、L2、…、Lm≥1，而且，L1、L2、…、Lm=N)位后的数据信号，上述m个CPU顺序读出在上述全部m个半导体存储器中存储的N位的数据信号，顺序执行基于N位的数据信号的处理，上述m个运算部分和上述m个存储部分，其每一对被形成在单独的半导体芯片中。

根据本发明的第2装置，在第1发明的数据处理装置中，上述各m个CPU，读出在上述全部m个半导体存储器中存储的上述N位的数据信号，顺序执行基于上述N位的数据信号的处理，其结果，上述m个CPU执行相互同样的处理。

根据本发明的第3装置，在第2发明的数据处理装置中，上述m个运算部分，还具有分别与上述m个CPU连接的m个第1接口，上述m个存储部分，还具有分别与上述m个半导体存储器连接的m个第2接口，上述配线通过中继上述m个第1以及第2接口，使上述m个CPU的每一个都与上述全部m个半导体存储器结合。

而后，上述m个第2接口，从上述m个半导体存储器中分别读出上述L1、L2、…、Lm位的数据信号，上述各m个第1接口，接收上述m个第2接口读出的上述L1、L2、…、Lm位的数据信号的全部，在再次构成上述N位的数据信号之后，输入到属于上述m个CPU中的同一运算部分的CPU，而且，上述第1以及第2接口，对应于从外部输入的选择信号，可以变更地设定上述位的大小L1、L2、…、Lm。

根据本发明第4装置，在第3发明的数据处理装置中，上述各m个半导体存储器，可自由读写，上述m个第1接口，从由上述m个CPU输出的m个N位的数据信号中，分别分出每个被可变更地设定的上述L1、L2、…、Lm位，使其与位片对应，并进行分别向上述m个第2接口交付这些信号的动作。

另外，上述m个第2接口，进而进行将接收到的上述L1、L2、…、Lm位的数据信号分别写入上述m个半导体存储器的动作，而且，从上述m个第1接口，通过上述m个第2接口至上述m个半导体存储器的上述L1、L2、…、Lm位的数据信号的交付，是分别在相同的单一半导体芯片中进行。

根据本发明第5装置，在第1或第2发明的数据处理装置中，上述各m个半导体存储器，可以自由读写，上述m个CPU，在向上述m个半导体存储器写入N位的数据信号时，分别写入对上述每个数据信号位片成L1、L2、…、Lm位后的数据，而且，从上述m个CPU至上述m个半导体存储器的上述L1、L2、…、Lm位的数据信号的发送，是分别在相同的单一半导体芯片中进行。

根据本发明第6装置，在第1发明的数据处理装置中，上述各m个CPU，在上述m个半导体存储器中只读取被共同形成在上述单一半导体芯片中的一个上的Li(在此，i是1、2、…、m之中的某个)位的数据信号，至少在上述全部m个CPU中，顺序执行基于上述N位的数据信号的处理。

根据本发明第7装置，在第6发明的数据处理装置中，上述各m个CPU，具备译码部分和执行部分，上述译码部分，通过在每次译码上述Li位的数据信号时，将得到的译码信息信号，提供给其它所有的CPU，与此同时接受其它所有的CPU得到的译码信息信号，完成上述N位的数据信号的译码，上述执行部分通过输入在上述译码部分中形成的上述N位的数据信号的译码结果，执行基于上述N位的数据信号的处理。

根据本发明第8装置，在第6发明的数据处理装置中，上述各m个CPU，具备读取部分和执行部分，上述读取部分，在每次读取上述Li位的数据信号时，将得到的读取信息信号提供给其它所有的CPU，上述执行部分通过来自上述读取部分以及上述其它所有的CPU的读取信息信号，执行基于上述N位的数据信号的处理。

根据本发明第9装置，在第1至第8发明的任意项中的数据处理装置中，上述位的大小L1、L2、…、Lm是L1=L2=…=Lm。

根据本发明第10装置，在数据处理装置中，具备m(m≥2)个运算部分、m个存储部分、分别连接在上述m个运算部分以及存储部分之间的配线，上述m个运算部分，分别具备m个逻辑电路，上述m个存储部分，分别具备m个半导体存储器，上述m个半导体存储器具有1兆以上的存储容量，可以分别分担存储将N(N≥2)位的数据信号的列位片成L1、L2、…、Lm(L1、L2、…、Lm≥1；L1+L2+…+Lm=N)位后的数据信号。

上述m个逻辑电路，顺序接收在上述全部m个半导体存储器中存储的N位的数据信号，根据其N位数据信号顺序进行处理，上述m个运算部分和上述m个存储部分，其每一对被分别形成在单一半导体芯片中。

图1是实施例1的装置的概略方框图。

图2是实施例1的装置的详细方框图。

图3是展示实施例1的装置的另一例子的方框图。

图4是实施例2的装置的方框图。

图5是实施例2的CPU的方框图。

图6是实施例2的CPU的流水处理的动作说明图。

图7是实施例2的CPU的一个指令周期的动作说明图。

图8是实施例2的CPU的另一例子的方框图。

图9是实施例3的装置的方框图。

图10是实施例4的装置的方框图。

图11是展示实施例4的装置的位·字构成例的图。

图12是展示比实施例4的装置更理想的位·字构成例的图。

图13是展示以往的装置的构成的方框图。

图14是展示以往的装置的另一构成例的方框图。

<1．实施例1>

首先，说明有关实施例1的数据处理装置。

图1是展示实施例1的数据处理装置的概略构成的方框图。在该装置101中，具备电路板9，在该电路板9上，配设有相互并列连接的2个数据处理单元10a、10b。单元10a由单一半导体芯片构成，单元10b由另一单一半导体芯片构成。单元10a、10b各自具备有运算部分11和存储部分12。

运算部分11，具备有以32位为单位执行数据信号的运算处理的CPU。在运算部分11中通过接口R0～R31以32位为单位输入数据信号。另一方面，对于输出，运算部分11通过端口W0～W15，或端口W16～W31，以32位的一半16位为单位输出数据信号。

存储部分12，具备有超过1兆的存储容量的DRAM。而后，在存储部分12中，通过端口W0～W15，以16位为单位写入数据信号，端过接口R0～R15，以16位单位读出数据信号。进而，这里所谓的端口，是为了方便而称配设在半导体芯片上的配线中的一点，与用于使信号和外部中继的引线不同，不占特别大的面积。因而，在端口的个数上不存在如引线那样的制约。

在单元10a、10b的各自中，具备有配线20～23。而无论在单元10a、10b的哪一个中，从运算部分11的端口A0～A15输出的地址信号都被配线20传送到存储部分12的A0～A15。地址信号，是用于指定存储部分12中的DRAM存储区域的信号。另外，从运算部分11的W0～W15，或端口W16～W31输出的数据信号，通过配线21传送到存储部分12的W0～W15。

再有，从单元10a的存储部分12的端口R0～R15读出的数据信号，通过配线22传输到属于单元10a、10b各自的运算部分11的端口R0～R15。从另一单元10b的存储部分12的端口R0～R15读出的数据信号，通过配线23传输到属于单元10a、10b各自的运算部分的接口R16～R31。

在存储部分12内配备的DRAM中，存储有配备在运算部分11中的CPU进行运算处理所需要的程序以及数据。而后，在属于两个单元10a、10b各自的存储部分12中，存储构成运算部分11进行读出以及写入的32位的单位数据信号的下位16位，以及上位16位。即，运算部分11进行读出以及写入的数据信号，被“位片”后，分别存储在各存储部分12中。

在各运算部分11中，通过配线22、23同时输入32位的数据信号。为此，配备在运算部分11中的CPU，在单元10a、10b的双方中，执行完全相同的运算处理。而后，在相同的运算处理结果得到的数据信号中，例如下位16位在单元10a中被从运算部分11的端口W0～W15写入存储部分12，上位16位在单元10b中被从运算部分11的端口W16～W31写入到存储部分12。

即，属于单元10a、10b的运算部分11的各自，共有两个存储部分12。因而，各运算部分11可以利用单一的存储部分12具有的存储空间的2倍大小的存储空间。换言之，可以确保运算部分11可以存取的半导体存储器的存储空间超过单一半导体芯片的制约。

另外，在运算部分11和存储部分12之间交换的数据信号中，从运算部分11写入到存储部分12的数据信号，只在单一半导体芯片中传输，不需要由配设在单一半导体芯片的外部的配线中继。因而，对于写入的数据信号，不产生传输的延迟问题。再有，因为地址信号也由配设在单一半导体芯片内部的配线20传输，所以对于地址信号也不会产生传输的延迟问题。

还有，由于不需要将写入的数据信号输出到单一半导体芯片的外部，传输地址信号的配线20也不需要配设到外部，所以能够配备在单一半导体芯片中的引线就可以专门作为中继向运算部分11的接口R0～R31输入的数据信号的引线。因而，可以同时并行输入到运算部分11中的数据信号的位数，即输入的数据信号的位得以提高。

由此，不只带来数据信号的传输速度的提高，而且可以将CPU进行处理的单位的位扩大到例如64位、128位等。因而可以进一步提高装置的处理速度。

即，在装置101中，可以在维持高的装置处理速度的同时，可以确保运算部分11所需要的存储容量超过单一半导体芯片的制约。即，在以往装置151、152中不能同时回避的2个问题，得以同时缓解或消除。

<1-2．详细构成>

图2是详细展示装置101的构成的方框图。如图2所示，在运算部分11中，除了CPU1外，配备有输入输出接口2，以及CPU总线接口3。另外，在存储部分12中，除增加DRAM4外，配备有存储器总线接口5以及超高速缓冲存储器6。通过时钟脉冲配线27向属于单元10a、10b的各自的CPU，提供在时钟脉冲生成部分25中生成的时钟脉冲信号。CPU1与该时钟脉冲信号同步地分阶段执行运算处理。

属于单元10a、10b的各自的运算部分11，通过安装在电路板9上的端子26，与在装置101的外部准备的外部总线29连接。因此，可以在运算部分11和外部总线29之间进行数据交换。

配备在运算部分11中的输入输出接口2，是具有作为CPU1和外部总线29之间的接口功能的装置部分。由于输入输出接口2的构成本身是以往公知的，所以省略涉及该构成的详细说明。CPU1如上所述是以32位为单位执行运算的，所谓32位CPU。这时，在CPU1、输入输出接口2、端子26，以及外部总线29之间，以32位为单位传输数据信号。即，传输32位的数据信号。CPU1的构成也是以往公知的。

配备在运算部分11中作为另一个接口的CPU总线接口3，是具有作为CPU1和存储部分12之间的接口功能。CPU总线接口3只选择CPU1输出的32位的数据信号中的上位16位或下位16位输出到配线21。即，属于装置10a的CPU总线接口3选择下位16位，属于装置10b的CPU总线接口3选择上位16位。

CPU总线接口3，还将通过配线22、23输入的32位的数据信号，直接以32位传送到CPU1。如果除去选择位(分出)这一点，则CPU总线接口3与以往公知的CPU总线接口的构成相同。

在构成存储部分12的主要部分的DRAM4中，存储CPU1用于执行运算处理的指令群，即程序。DRAM4，还可以根据需要存储CPU1进行运算处理得到的数据。因而，在从DRAM4读出的数据信号中，包含有构成程序的指令。

因此，DRAM4至少具有1兆的存储容量，具有代表性的是16兆(2兆字节)的容量。即，DRAM4在临时保持数据信号这一点上和CPU1内部具备的寄存器是同样的易失型半导体存储器，而在其作用、以及所需要的存储容量上有明显的区别。

设置超高速缓冲存储器6，是以从DRAM读出数据信号时的高速读出为目的。另外，存储器总线接口5是具有作为DRAM4和运算部分11之间的接口功能的装置部分。因为DRAM4、超高速缓冲存储器6，以及存储器总线接口5，都是以往公知的装置，所以省略涉及这些装置构成的详细说明。

在存储器总线接口5、超高速缓冲存储器6，以及DRAM4之间，进行16位的数据信号的交换。从属于单元10a的CPU总线接口3输出到配线21的下位16位的数据信号，被输入到存储器总线接口5。该信号，此后经过超高速缓冲存储器6被写入DRAM4。

在属于单元10a的DRAM4中，预先存储构成程序的32位的指令中的下位16位。同样地，在属于单元10b的DRAM4中，预先存储32位的指令中的上位16位。

而后，下位16位的指令，从属于单元10a的存储部分12中经过超高速缓冲存储器6、存储器总线接口5，并通过配线22输入到单元10a、10b双方的CPU总线接口3。同样地，上位16位指令，从属于10b的存储器部分12中经过超高速缓冲存储器6、存储器总线接口5、并通过配线23输入到单元10a、10b双方的CPU总线接口3。

这样一来，CPU1进行读出以及写入的32位的数据信号，在2个DRAM中不重复地分别存储。即，多个DRAM4，将位分配成多个群(所谓的位片)后，存储数据信号。

在属于单元10a、10b各自的CPU1中，同样地输入同一32位的指令。因而，双方的CPU1，与同一时钟脉冲同步地同时执行完全相同的运算处理。其结果，从双方的CPU1中同时输出完全相同的数据信号。从CPU1输出到CPU总线接口3的数据信号，在如上述那样被进行位片处理后，传送到存储部分12。

另一方面，从CPU1输出到输入输出接口2的数据信号，直接以32位传送到外部总线29。因而，从单元10a、10b同时将同一数据信号输出到外部总线29。或者，可以这样构成输入输出接口2，使得只是单元10a、10b中的一方将数据信号输出到外部总线29。

进而，可以与CPU总线接口3同样地构成输入输出接口2，使得从CPU1输出的数据信号被位片后输出到外部总线29。例如，如此构成输入输出接口2，使得从装置10a的输入输出接口2输出下位16位、从装置10b的输入输出接口2输出上位16位，到外部总线29。

但是，从外部总线29输入到CPU1的数据信号，以32位同时输入到单元10a、10b两方。由此，属于单元10a、10b的2个CPU1总是可以同时执行同一运算处理。

如上所述，装置101，在针对CPU总线接口3进行简单的变更后，除了由配线21～23结合多个运算部分11和多个存储部分12这一特征点外，用以往公知的装置部分的组合就可以构成。即，装置101，与以往装置151、152相比，不需要特别复杂的构成，就各自实现装置的处理速度个改进，和存储容量的改进。

<1-3．装置101的扩充>

在图1、图2所示的装置101中，展示了将32位的数据信号，位片为各自16位的2组信号后，存储到DRAM的例子。一般，在CPU1以N(＞2)位为单位进行运算处理时，可以扩充装置101，使得将各个信号位片为L位(1≤L≤N/2)宽度的N/L组的信号，而后存储到N/L个DRAM4。图1、图2的装置101相当于N=32，L=16的例子，即组的个数为最小=2的例子。

一般，组的个数(=N/L)越大，CPU1可以存取的存储器空间的容量(即存储容量)越大。图3展示，N=32，L=8的例子。在该装置102中，具备有4个装置10e～10h。在装置10e～10h的各自中具备有运算部分13及存储部分14。

在存储部分14中，可以以8位为单位读出以及写入数据信号。从一个运算部分13中，从经由CPU1(图示省略)进行运算处理得到的32位的数据信号中分出8位，通过配线41写入属于同样的装置10e～10h的存储部分14。另外，从各存储部分14每次读出8位的数据信号，通过配线42～45收集，作为32位的数据信号输入到一个运算部分13。

在该装置102中，如果单一半导体芯片的面积和元件的集成度与装置101相同的话，CPU1可以存取的存储器空间的大小，就是装置101的2倍。为了将从存储部分14读出的数据信号传送到各运算部分13而需要配置在各半导体芯片上的引线的条数，在装置101和装置102之间没有差异。

因而，装置102，在和装置101同等情况下，可以提高输入到运算部分13的数据信号的位。即，在装置102中，在维持数据信号的高速传送上毫不逊色于装置101的同时，运算部分可以存取的存储空间可以比装置101扩大。

进而，在图1～图3中，展示了将N位的数据信号均等地位片为同一数据宽度L(＜N/2)的例子，但也可以使装置的构成为不均等地进行位片。即，一般可以构成这样的装置，使得将N位的数据信号位片成m群(>2)数据宽度L1、L2、…、Lm。这时，L1+L2+…+Lm=N的关系成立。

但是，当L1=L2=…=Lm=L时，即，当均等地进行位片处理时，各半导体芯片(例如，装置10a、10b等)，在除了CPU总线接口3(图2)的主要部分中，可以取得构成相互相同这一优点。即，可以减少制造成本。

<2．实施例2>

图4是展示实施例2的数据处理装置的构成的方框图。在该装置103中，配备在装置50a～50b各自中的CPU61，在并不是进行相互完全相同的运算处理，而至少分担运算处理的一部分这一点上，与实施例1的装置101～103的特征不同。

被设置在电路板9上的单元50a～50d，被分别构成在单独的单一半导体芯片上。而后，在这些单一半导体芯片上，制造运算部分51以及存储部分14。在存储部分14中，加上构成其主要部分的DRAM64，具备有存储器总线接口65，以及超高速缓冲存储器66。这些DRAM64、超高速缓冲存储器66、以及存储器总线接口65，除了作为处理对象的数据信号的位不同这一点外，与图1所示的DRAM4、超高速缓冲存储器6、以及存储器总线接口5的构成相同，且功能相同。

在另一运算部分51中，除了构成其主要部分的CPU61外，配置有输入输出接口2、以及CPU总线接口63和67。在时钟脉冲生成部分25中生成的时钟脉冲信号，通过未图示的时钟脉冲配线，同时提供给属于单元50a～50b的各个CPU61中。各CPU61，与该时钟脉冲信号同步地，分阶段地执行运算处理。属于单元50a～50b的各个运算部分51，通过安装在电路板9上的端子77，就可以与在装置103的外部准备的外部总线(图示省略)连接。

CPU61是32位的CPU，在CPU61、输入输出接口2、端子77、以及外部总线之间进行32位的数据信号交换。另一方面，在单元50a～50d的各自中，在CPU61和存储部分14之间，被位片后的8位的数据信号，通过CPU总线接口63以及配线71、72、81、82，进行交换。

进而，属于单元50a～50d的各CPU61，通过内部总线75、CPU总线接口67、以及配线83、84，相互进行译码信息信号或读出信息信号的交换。另外，DRAM64的地址指定由通过配线70从CPU61传送来的地址信号进行。

图5是展示CPU61的内部构造的方框图。与以往公知的CPU一样，在CPU61中，配备有执行部分90和控制部分91。在控制部分91中，在控制部分91中，配备有读取部分92以及译码部分93，在执行部分90中配备有执行运算部分95以及写入部分94。读取部分92，是通过配线82，取入存储在DRAM64中的指令的装置。被取入的指令，并不是32位的指令本身，而是构成指令的一部分，并被位片处理后的8位的部分指令。

被取入的部分指令，用译码部分93单独交换译码信息信号。部分指令，由于只不过是该指令的一部分，所以只用该译码信息信号，执行部分90不能进行正常的执行处理。在此，译码部分93，通过配线83，将译码信息信号传送到CPU总线接口67。

CPU总线接口67，通过配线73，将从译码部分93传送的译码信息信号传送到内部总线75。该动作，在所有的单元50a～50d中相同。即，从4个运算部分51的各自，向内部总线75同时提供译码信息信号。

译码部分93，通过CPU总线接口67以及配线84，接收从其它3个译码部分93提供给内部总线75的译码信息信号。由此，译码部分93，通过参照接收到的译码信息信号，最终完成32位的指令的译码。其结果，得到的译码信号，被发送到执行部分90。

执行部分90，根据译码信号进行处理。因而，属于单元50a～50b的各个执行部分90，根据相互相同的译码信号，执行相同的处理。而且，执行处理，与时钟脉冲生成部分25提供的时钟脉冲信号同步地相互同时地进行。执行处理，用配备在执行部分90中的运算执行部分95进行。而后，通过执行处理得到的数据信号，从运算执行部分95转送到写入部分94。

写入部分94，将发送来的32位的数据信号分离成8位后，通过配线81输出到CPU总线接口63。或者，也可以在写入部分94中，直接以32位输出数据信号，由CPU总线接口63将其分离成8位。如上所述，在属于单元50a～50d的各个CPU61中，与CPU1(图2)不同，并不是进行完全相同的处理，而是相互分担一部分处理。

从以上的读取到写入的一连串处理，是与时钟脉冲生成部分25提供的时钟脉冲信号同步地，以所谓的流水处理的形式反复地进行。图6是说明在CPU61中的流水处理的时间图。如图6所示，读取部分92，与时钟脉冲信号的脉冲同步地顺序从DRAM64读取指令1、2、3…。更准确地说，如上所述，属于一个CPU61的读取部分92，读取构成这些指令的一部分的部分指令。

如果对一个指令，例如对指令1的处理的过程进行研究，则在每个时钟脉冲信号的脉冲中，逐次由读取部分92进行读取、由译码部分93进行译码、由运算部分95进行执行处理，而后，由写入部分94进行写入。即，对于一个指令1的一连串的处理，由各装置部分在每个时钟脉冲信号的脉冲时逐次执行。

而后，对于下一个指令2的同样的一连串处理，在时钟脉冲信号的1脉冲后，同样地顺序进行。因而，如果研究1个装置部分，例如译码部分93，则在每个时钟脉冲信号的脉冲中，以指令1、2、3…的顺序，不停地进行这些指令的译码。CPU61，按照这种被称为流水处理的形式，逐次处理指令。

图7是更详细地展示对于一个指令从读取到写入的处理的过程的时间图。在此例子中，时钟脉冲的周期，被设定在25nses。在进行读取的时钟脉冲周期中，在其开始后输出规定的地址信号。在地址信号的输出开始后，至存储在DRAM64中的指令(图7的读出数据)到达读取部分92之前，通常产生相当的延迟。在图7的例子中，该延迟是20nsec。

在下一个时钟脉冲周期中，进行译码。在译码的周期开始后，至译码信息信号输出之前，仅仅需要4nsec左右。与读取相比，译码在短时间内完成。译码信息信号，在4个译码部分93之间相互进行交换。其后，输出最终执行部分90可以执行的译码信号。由于译码信息信号可以在4nsec左右的短时间得到，所以在25nsec周期期间，具有充分的富余，可以得到最终的译码信号。

在下一个时钟脉冲周期中，由运算执行部分95进行执行处理。即使在执行处理中，通常也需要相当的时间。在图7的例子中，在执行周期开始后，直到输出作为执行处理结果的执行数据信号之前，需要20nsec。在接着的时钟脉冲周期中，执行数据信号，由写入部分94，作为写入数据信号输出。

如上所述，在装置103中，从存储部分14到运算部分51的数据信号的传送，由于只是通过配设在单一半导体芯片内部的配线72进行，所以消除了数据信号传送延迟的问题。而且，越过单一半导体芯片，在单元50a～50d之间进行信号交换的动作，即伴随不能忽视的大的延迟时间的动作，可以在时间最富余的时钟脉冲周期的译码周期中进行。因而，消除数据信号的传送延迟可以有效地提高处理速度。

进而，可以配备在单一半导体芯片中的引线，可以专门作为中继通过内部总线75传送的译码信息信号的引线。因而，通过提高经内部总线75交换的译码信息信号的位，不只可以提高译码信息信号的传送速度，而且可以很容易将CPU61作为处理单位的位，扩大到例如64位、128位等。由此，可以进一步提高装置的处理速度。

图8是展示CPU61的内部构造的另一例子的方框图。该例子，在配线83代替译码部分93的输出，连接到读取部分92的输出这一点上，与图5所示的例子的特征不同。读取部分92，在通过配线82取入存储在DRAM64中的构成指令的一部分的8位的部分指令后，输出读取信息信号。读取部分92，例如配备锁存电路，被读取的部分指令和相同信号，作为读取信息信号保持在输出中。

该读取信息信号，在被提供给译码部分93的同时，通过配线83，传送到CPU总线接口67。CPU总线接口67，通过配线73，向内部总线75传送从读取部分92送出的读取信息信号。该动作，在所有的装置50a～50b中是相同的。即，从4个运算部分51的各自，向内部总线75同时提供读取信息信号。

译码部分93，通过CPU总线接口67以及配线84，接收从其它3个读取部分92提供给内部总线75的读取信息信号。其结果，译码部分93，接收从属于4个运算部分51的4个读取部分92提供的读取信息信号。译码部分93，通过参照接收到的读取信息信号，执行32位宽度的指令的译码。其结果，得到的译码信号，被转送到执行部分90。在执行部分90中的动作与图5的例子相同。

在图8的例子中，在4个CPU61之间，由于可以交换不加译码的读取信息信号，所以具有装置的构成简单的优点。另外，译码部分93，也可以在时间最富余的时钟脉冲中的译码周期中取入读取信息信号。此时，与图5的例子同样，消除了数据信号的传送延迟，可以有效地提高处理速度。

进而，在读取部分92中，当读出的数据信号并不是构成程序的指令，而是运算用的数据信号(例如，数值数据、逻辑值数据等)时，在执行部分90中，根据运算用的数据信号执行运算(例如，加算、逻辑运算等)。这时，在译码部分93中，因为不需要针对指令进行译码，所以例如可以将读取信息信号直接转送到执行部分90中。

另外，如上所述，展示了在配备于多个单元50a～50d的各自中的CPU61，只是控制部分91分担运算处理的例子，但即使包含执行部分90，也可以构成分担运算处理的装置。这时，作为CPU61，可以使用以8位为单位进行处理的8位的CPU。

此时，例如，在进行32位的数据信号的加法运算时，各执行部分90，只执行将32位进行位片处理成4等分而构成的8位的加法运算。由于需要在各执行部分90之间交换伴随加法运算的进位信号，因此不仅需要结合各译码部分93之间的配线83、84，而且需要结合各执行部分90之间的配线。

<3．实施例3>

在上述已说明的实施例1以及2的装置中，针对存储部分12(,14)进行写入以及读出的数据信号的位，和针对内置在存储部分12(,14)中的DRAM4(,64)进行写入以及读出的数据信号的位一致。

例如，在图2的例子中，在CPU总线接口3和存储器总线接口5之间，进行16位的数据信号的交换，在存储器总线接口5、超高速缓冲存储器6、以及DRAM4之间，也进行同样的16位的数据信号的交换。但是，一般，在它们之间，数据信号的为宽度也可以不同。图9是展示这样构成的装置的一例的方框图。

在图9所示的装置130中，具备有图2所示的运算部分11，同时还具备有存储部分132。装置130，以单一半导体芯片构成，与图2所示的单元10a、10b一样，通过与其它的装置130并列连接，就可以构成数据处理装置。

在存储部分132中，与DRAM4(图2)不同，是在存储器总线接口135、超高速缓冲存储器136、以及DRAM134之间，进行128位的数据信号的交换。即，数据信号，对于DRAM134以128位进行写入以及读出。在该装置130中，由于对DRAM134同时进行写入以及读出的数据信号的位数比单元10a、10b还高，所以可以进一步提高处理速度。

<4．实施例4>

图10是展示实施例4的装置构成的方框图。在该装置140中，具备有运算部分141以及存储部分142。装置140，被构成在单一半导体芯片上，和单元10a、10b(图2)或者单元50a～50d(图4)一样，通过并行连接其它单数或多个装置140，就可以构成数据处理装置。

在该装置140中，在针对存储部分142进行写入以及读出的数据信号的位是可变的这一点上，与实施例1～3所示的装置具有不同的特征。在运算部分141中，加上CPU1、以及输入输出接口2，具备有CPU总线接口113。该CPU总线接口113，应答通过配线133从外部输入的选择信号，自由地设定对存储部分142进行读出以及写入的数据信号的位Lj。

在存储部分142中，加上DRAM134、以及超高速缓冲存储器136具备存储器总线接口115。该存储器总线接口115，应答选择信号自由地设定和CPU总线接口113进行交换的数据信号的位Lj。即，CPU总线接口113和存储器总线接口115，应答一同输入的选择信号，相互联系地设定位Lj。

即，将位Lj作为基于选择信号的变量，通过从CPU总线接口113到存储器总线接口115的配线121，写入位Lj的数据信号，通过从存储器总线接口115到CPU总线接口113的配线122，读出位Lj的数据信号。

另外，从属于其它单数或者复数的装置140的存储器总线接口115，到CPU总线接口113，通过其它配线122分别输入位Lj的数据信号。传送位Lj的数据信号的配线122，属于总线123，应答选择信号分担总线123。

在图10的例子中，因为CPU1是32位的CPU，所以总线123，对应32位，具有32条配线。位Lj，例如如果是8位，则总线123，由各自具有8条配线的4个配线122构成。存储器总线接口115，与构成总线123的全部配线连接，在其中，对于与选择信号指定的位Lj对应的配线122以外的配线，变为高阻抗，如图10中虚线所示那样，解除连接状态。

配线121也和总线123一样，具有32条配线，使得可以传送最大32位的数据信号。而在其中，对应于选择信号指定的位Lj，只有Lj条的配线与CPU总线接口113和存储器接口115连接，用于传送位Lj的数据信号。

对于指定DRAM134的地址，与实施例1～3同样地，由通过配线120从CPU1传送到DRAM134的地址信号进行。而对于运算部分141，存储器部分142恰好是作为具有对应于选择信号指定的位Lj的Lj位的位线的DRAM功能。

图11以及图12，是以通过并列连接4个装置140构成的数据处理装置为例，展示存储部分142的位·字构成的说明图。在图11的例子中，在4个装置140之间，位Lj是不相同的。但是，位Lj(j=1～4)的总和与32位一致，和字线的数Wj的积Lj×Wj，在所有的装置140之间相同。

于此相反，在图12的例子中，在4个装置140之间，位Lj相同。比起图11的一般例子，图12的例子更好。加上位Lj的设定容易，具有在各装置140之间，数据信号的传送速度等的特性一致的优点。

<5．变形例>

(1)在上述的各实施例中，展示了在存储部分中配备DRAM的例子，但在本发明中，不只是DRAM，也可以使用SRAM(静态RAM)，或者读出专用的半导体ROM等一般的半导体存储器。另外，在使用一般的半导体存储器时，也可以同样得到在各实施例中所述的结果。但是，在一般的半导体存储器中，DRAM具有最高的集成度，最适合在本发明中使用。另外，在使用半导体ROM时，例如在图2中，不需要从运算部分11向存储部分12传送数据信号的配线21。

(2)在上述的实施例中，展示了运算部分配备CPU，在配备于存储部分中的DRAM等的半导体存储器中，预先存储规定CPU运算处理的顺序的程序的例子，但是，一般，运算部分也可以用逻辑电路(例如逻辑元件的组合)构成。这时，在半导体存储器中，不存储程序，而预先存储提供给逻辑电路的数据信号，这种情况下，在逻辑电路基于大规模的数据量的数据信号动作时，即，在半导体存储器的存储空间为具有代表性的1兆以上的存储容量时，特别能发挥本发明的作用。

在第1发明的装置中，数据信号以位片处理后的形式被分担存储在m个(多个)半导体存储器中，m个(多个)CPU，可以通过配线利用作为整体或者每个分别存储在m个半导体存储器整体中的N位的数据信号。因此，作为m个CPU可以利用的半导体存储器的存储容量，可以确保放大到形成在单一半导体芯片上的1个半导体存储器的存储容量的m倍。

而且，由于在每个单一半导体芯片上配备CPU，因此作为结合在各单一半导体芯片之间的配线，无论配置从m个半导体存储器向m个的CPU传送数据信号的配线，或者，用于在m个CPU之间交换信息信号的配线都足够。因而，对于这些信号以外的信号，例如地址信号等，不产生伴随传送的延迟问题。进而，由于可以将应该配备在各单一半导体芯片上的引线，专门用于传送上述数据信号或者信息信号的配线，所以可以扩大这些信号的位。由此，提高装置的处理速度。

在第2发明的装置中，m个CPU的每一个，基于在全部m个半导体存储器中存储的N位的数据信号进行处理。因此，不需要在m个CPU之间的信息信号的交换，由于装置的结构简单，因此装置的设计变得容易。

在第3发明的装置中，由于第1以及第2接口，可以对应选择信号改变位的大小L1、L2、…、Lm，因此使用内部制作有运算部分和存储部分的单一半导体芯片，就可以构成位的大小L1、L2、…、Lm不同的复数种类的数据处理装置。因而，可以以低廉的成本制造数据处理装置。

在第4发明的装置中，各m个半导体存储器，是例如DRAM等的读写自由的存储器，被写入的数据信号的位，与读出的位L1、L2、…Lm一致，而且可以改变。因此，m个CPU将运算处理得到的数据信号存储在m个半导体存储器中，还可以从m个半导体存储器中读出用于运算。而且，写入时的数据信号的交换，由于是在同一半导体芯片中进行，所以在写入时，不产生数据信号的传输延迟的问题。即，可以以低廉的成本制造处理速度高，且利用价值高的数据处理装置。

在第5发明的装置中，各m个半导体存储器，是例如DRAM等的读写自由的存储器，被写入的数据信号的位，与读出的位L1、L2、…Lm一致。因此，m个CPU将运算处理得到的数据信号，存储在m个半导体存储器中，还可以从m个半导体存储器读出用于运算。而且，写入时的数据信号的交换，由于在同一半导体芯片中进行，所以在写入时不产生数据信号的传输延迟。即，实现处理速度高，而且利用价值高的数据处理装置。

在第6发明的装置中，各m个CPU，由于只读取存储在形成于同一单一半导体芯片上的半导体存储器中的数据信号，所以从半导体存储器传送到CPU的数据信号的传送速度得以提高。因此，在CPU的处理周期中，在需要一个长时间周期的读取中所需要的时间缩短。

在第7发明的装置中，m个CPU，可以在需要时间的由执行部分进行的处理的过程中不进行信息信号的交换，而在可以在短时间中处理的译码过程中，进行必要的信息信号的交换。因此，缩短读取所需要的时间并不需要增加执行部分的处理时间，可以有效地提高CPU的处理速度。

在第8发明的装置中，m个CPU，由于交换读取部分输出的读取信息信号，所以装置的结构简单。另外，可以在能够短时间处理的译码过程中结束读取信息信号的交换，这时，缩短读取所需要的时间并不需要增大执行部分的处理时间，可以有效地提高CPU的处理速度。

在第9发明的装置中，因为均等地进行位片处理，所以m个单一半导体芯片，在其主要部分中，可以是相互相同的结构。因而，可以降低数据处理装置的制造成本。

在第10发明的装置中，在m个(多个)半导体存储器中，数据信号以位片处理后的形式被分担存储，m个(多个)逻辑电路，可以通过配线利用作为整体，或者每个分别地存储在m个半导体存储器的全部存储器中的N位的数据信号。因此，作为m个逻辑电路可以利用的半导体存储器的存储容量，可以确保放大至形成在单一半导体芯片上的1个半导体存储器的存储容量的m倍。

而且，因为在每个单一半导体芯片上配备有逻辑电路，所以作为结合各半导体芯片间的配线，只配设从m个半导体存储器向m个逻辑电路传送数据信号的配线就足够了。因而，对于该数据信号以外的信号，不产生伴随传送的延迟问题。再有，由于可以将应该配备在各单一半导体芯片上的引线，专门用于从m个半导体存储器向m个逻辑电路传送数据信号的配线，因此，可以扩大该数据信号的位。因而，可以提高该数据信号的传输速度，并提高装置的处理速度。

Claims

1、一种数据处理装置，在该数据处理装置中具备：m(m≥2)个运算部分(11、13、51、141)；m个存储部分(12、14、132、142)；结合上述m个运算部分和上述m个存储部分的配线(20～30、41～45、70～73、75、120～123)，上述m个运算部分，分别具备m个CPU(1、61)，上述m个存储部分，分别具备m个半导体存储器(4、64、134)，上述m个半导体存储器，可以分别存储将包含规定上述m个CPU的动作的程序的，N(N≥2)位的数据信号列经过位片处理，从而使得每个数据信号各为L1、L2、…、Lm(L1、L2、…、Lm≥1；L1+L2+…+Lm=N)位后的数据信号，上述m个CPU，顺序读出存储在上述全部m个半导体存储器中的N位的数据信号，根据N位的数据信号顺序执行处理，上述m个运算部分和上述m个存储部分，其每一对，被形成在单独的单一半导体芯片(9)中。

2、如权利要求1所述的数据处理装置，其中，上述各m个CPU，读取在上述全部m个半导体存储器中存储的上述N位的数据信号，根据该N位的数据信号顺序执行处理，其结果，上述m个CPU，执行相互相同的处理。

3、如权利要求2所述的数据处理装置，其中，上述m个运算部分，还具备分别结合在上述m个CPU上的m个第1接口(3、113)；上述m个存储部分，还具有分别结合在上述m个半导体存储器上的m个第2接口(5、135、115)；上述配线，通过中继上述m个第1以及第2接口，使上述m个CPU分别与上述全部m个半导体存储器结合；上述m个第2接口，从上述m个半导体存储器中分别读出上述L1、L2、…、Lm位的数据信号；上述各m个第1接口，接收上述m个第2接口读出的上述L1、L2、…、Lm位的数据信号的全部，在再次构成上述N位的数据信号之后，输入到属于上述m个CPU中的同一运算部分的CPU；而且，上述第1以及第2接口，对应从外部输入的选择信号，可以变更设定上述位的大小L1、L2、…、Lm。

4、如权利要求3所述的数据处理装置，其中，上述各个m个半导体存储器可以自由读写；上述m个第1接口，对由上述m个CPU输出的m个N位的数据信号，分别与位片对应地分离出每一个可以改变设定的上述L1、L2、…、L3位，再分别向上述m个第2接口发送；上述m个第2接口，还分别向上述m个半导体存储器写入接收到的上述L1、L2、…、Lm位的数据信号；而且，从上述m个第1接口，通过上述m个第2接口，至上述m个半导体存储器的上述L1、L2、…、Lm位的数据信号的发送，分别在同一半导体芯片中进行。

5、如权利要求1所述的数据处理装置，其中，上述各m个半导体存储器可以自由读写；上述m个CPU，在将N位的数据信号写入到上述m个半导体存储器时，是将每个上述数据信号在经过位片处理为L1、L2、…、Lm位的数据信号后分别写入的；而且，从上述m个CPU至上述m个半导体存储器的上述L1、L2、…、Lm位的数据信号的发送，是分别在同一单独半导体芯片中进行。

6、如权利要求5所述的数据处理装置，其中，上述m个存储器部分，是动态RAM。

7、如权利要求6所述的数据处理装置，其中，上述m个存储部分，还具备分别与上述m个动态RAM结合的m个超高速缓冲存储器(6、66、116、136)；向上述m个动态RAM的读写，分别通过分别结合在动态RAM上的上述m个超高速缓冲存储器进行。

8、如权利要求1所述的数据处理装置，其中，上述各m个CPU，在上述m个半导体存储器中，只读出存储在一同形成在上述单一半导体芯片中的一个中的Li(这里，i是1、2、…、m中的一个)位的数据信号，至少是在上述全部m个CPU中，根据上述N位的数据信号顺序执行处理。

9、如权利要求8所述的数据处理装置，其中，上述各m个CPU，具备译码部分(93)和执行部分(90)；上述译码部分，在每次译码上述Li位的数据信号时，通过在向其它全部的CPU提供得到的译码信息的同时，接收其它全部的CPU得到的译码信息，完成上述N位的数据信号的译码；上述执行部分，通过输入在上述译码部分中形成的上述N位的数据信号的译码结果，执行基于上述N位的数据信号的处理。

10、如权利要求8所述的数据处理装置，其中，上述各m个CPU，具备读取部分(92)和执行部分(90)；上述读取部分，在每次读取上述Li位的数据信号时，向其它全部的CPU提供得到的读取信息信号；上述执行部分，通过来自上述读取部分以及上述其它全部的CPU的读取信息，执行基于上述N位的数据信号的数据处理。

11、如权利要求1至权利要求7中任何一项所述的数据处理装置，其中，上述位的大小L1、L2、…、Lm是L1=L2=…=Lm。

12、如权利要求1所述的数据处理装置，其中，还具备生成时钟脉冲的时钟脉冲生成部分(25)该时钟脉冲生成部分，向上述m个CPU同时地提供上述时钟脉冲。

13、一种数据处理装置，具备：m(m≥2)个运算部分(11、13、51、141)；m个存储部分(12、14、132、142)；结合上述m个运算部分和上述m个存储部分的配线(20～23、41～45、70～73、75、120～123)，上述m个运算部分，分别具备m个逻辑电路；上述m个存储部分，分别具备m个半导体存储器(4、64、134)；上述m个半导体存储器，具有1兆以上的存储容量，可以分别存储将N(N≥2)位的数据信号的列的经过位片处理为每个数据信号分别为L1、L2、…、Lm(L1、L2、…、Lm21；L1+L2+…+Lm=N)位后的数据信号；上述m个逻辑电路，顺序接收在上述全部m个半导体存储器中存储的N位的数据信号，并顺序执行基于该N位的数据信号的处理；上述m个运算部分和上述m个存储部分，其每一对被形成在单独的单一半导体芯片(9)中。