CN103226465B

CN103226465B - 用于管线式处理的寄存器堆系统和方法

Info

Publication number: CN103226465B
Application number: CN201310122677.8A
Authority: CN
Inventors: 王林; 马苏德·卡迈; 保罗·巴塞特; 苏雷什·文库马洪蒂; 沈剑
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2007-09-12
Filing date: 2008-09-12
Publication date: 2016-05-11
Anticipated expiration: 2028-09-12
Also published as: JP5420545B2; KR20100061524A; JP2010539603A; EP3056985A1; EP2037358A1; US8725991B2; CN103226465A; CN101809537A; CN101809537B; KR101139066B1; WO2009036335A1; US20090070554A1

Abstract

本发明公开了用于管线式处理的寄存器堆系统和方法。本发明包含一种多线程处理器，其包含与第一线程相关联的第一寄存器堆以及与第二线程相关联的第二寄存器堆。至少一个硬件资源由所述第一和第二寄存器堆共享。另外，所述第一线程可具有不与所述第二线程连续的管线存取位置。本发明还揭示一种存取多个寄存器堆的方法。所述方法包含从第一寄存器堆读取数据，同时从第二寄存器堆读取数据。所述第一寄存器堆与第一指令流相关联，且所述第二寄存器堆与第二指令流相关联。在处理器的执行管线中，所述第一指令流与所述第二指令流是连续的，且所述第一寄存器堆相对于所述第二寄存器堆在非邻近位置中。

Description

用于管线式处理的寄存器堆系统和方法

分案声明

本案是发明名称为“用于管线式处理的寄存器堆系统和方法”，优先权日为2007年9月12日，申请号为200880109732.7，申请日为2008年9月12日的专利申请的分案申请。

技术领域

本发明大体上涉及一种用于管线式处理的寄存器堆系统和方法。

背景技术

技术的进步已产生更小且更强大的个人计算装置。举例来说，当前存在多种便携式个人计算装置，包含无线计算装置，例如便携式无线电话、个人数字助理（PDA）和寻呼装置，其体积小、重量轻，且容易被用户携带。更具体地说，便携式无线电话（例如蜂窝式电话和IP电话）可经由无线网络传送语音和数据包。另外，许多此类无线电话包含并入其中的其它类型的装置。举例来说，无线电话还可包含数字静物照相机、数字视频照相机、数字记录器和音频文件播放器。而且，此类无线电话可处理可执行指令，包含软件应用程序，例如网络浏览器应用程序，其可用于访问因特网。由此，这些无线电话可包含相当大的计算能力。

数字信号处理器（DSP）通常用于便携式个人计算装置（例如无线电话）中。此类DSP可用于提供视频和音频功能、用于处理接收到的数据，或用于执行其它功能。此类DSP可使用管线式和/或并行执行单元。

现代微处理器或DSP中的寄存器堆由于其相对大小、其数据总线的宽度以及其线迹的长度而消耗相当多的功率。在某些处理器中，使用多个寄存器堆，且此类寄存器堆促成装置的总功率消耗。另外，电路装置的邻近区域中的多个寄存器堆的布局可增加功率消耗密度，且促成因电路加热导致的低效。因此，需要一种增强的寄存器堆结构和使用寄存器堆的方法。

发明内容

在一特定实施例中，揭示一种多线程处理器。所述处理器包含与第一线程相关联的第一寄存器堆以及与第二线程相关联的第二寄存器堆。至少一个硬件资源由所述第一和第二寄存器堆共享。另外，所述第一线程具有不与所述第二线程连续的管线存取位置。

在另一特定实施例中，所述处理器包含与第一指令执行流相关联的第一寄存器堆以及与第二指令执行流相关联的第二寄存器堆。所述第一和第二执行流以连续方式进行管线输送，且第一寄存器堆相对于第二寄存器堆不在邻近位置中以允许在第一寄存器堆与第三寄存器堆之间共享硬件资源。

在另一特定实施例中，所述处理器包含：用以执行第一指令流的第一执行管线、用以执行第二指令流的第二执行管线、与第一指令流相关联的第一寄存器堆以及与第二指令流相关联的第二寄存器堆。所述第一和第二指令流以对第一和第二寄存器堆的非连续存取配置在第一和第二执行管线内，以允许第一和第二寄存器堆共享至少一个硬件资源。

在另一特定实施例中，揭示一种存取多个寄存器堆的方法。所述方法包含从第一寄存器堆读取数据，同时从第二寄存器堆读取数据。所述第一寄存器堆与第一指令流相关联，且所述第二寄存器堆与第二指令流相关联。在处理器的执行管线中，第一指令流与第二指令流是连续的，且第一寄存器堆相对于第二寄存器堆不在连续位置中。

在另一特定实施例中，揭示一种选择寄存器堆以供存取的方法。所述方法包含选择性地启用第一组寄存器堆中的至少一者以供存取，与此同时同时启用第二组寄存器堆中的至少一者以供存取。所述方法进一步包含：从所述第一组寄存器堆中的所述至少一者向与第一指令流相关联的第一指令单元提供数据；从所述第二组寄存器堆中的所述至少一者向与第二指令流相关联的第二指令单元提供数据；以及使用至少一个管线式执行单元来执行所述第一和第二指令流。所述第一组寄存器堆共享第一组硬件资源，且所述第二组寄存器堆共享第二组硬件资源。

用于管线式处理的寄存器堆系统和方法的实施例所提供的一个特定优点体现在降低的制造成本、操作期间降低的功率密度或两者。

在审阅整个申请案之后，将明白本发明的其它方面、优点和特征，整个申请案包含以下部分：附图说明、具体实施方式和权利要求书。

附图说明

图1是包含用于管线式处理的寄存器堆系统的处理器的实施例的框图；

图2是用于管线式处理的寄存器堆系统的物理布局的实施例的一部分的框图；

图3是描绘可使用用于管线式处理的寄存器堆系统来执行的管线式处理操作的概图；

图4是使用用于管线式处理的寄存器堆的方法的实施例的流程图；以及

图5是包含用于管线式处理的寄存器堆系统的便携式通信装置的框图。

具体实施方式

参看图1，揭示处理器100。在特定说明性实施例中，处理器100可为多线程数字信号处理器。处理器100包含具有指令队列134的存储器102、存储器总线107、定序器单元104、多个执行单元108到114、第一总线118、具有用以共享硬件资源的结构的寄存器堆116，以及第二总线120。定序器104耦合到控制寄存器103。存储器102耦合到第二总线120，且定序器104也耦合到第二总线120。

在特定实施例中，存储器总线107可为六十四（64）位总线，且定序器104可经配置以从存储器102检索指令。在特定说明性实施例中，每一指令可具有三十二（32）位的长度。定序器104经由第一路径（时隙0）耦合到第一指令执行单元108、经由第二路径（时隙1）耦合到第二指令执行单元110、经由第三路径（时隙2）耦合到第三指令执行单元112，且经由第四路径（时隙3）耦合到第四指令执行单元114。每一指令执行单元108、110、112和114可经由第一总线118耦合到一组经构造寄存器堆116。寄存器堆116也可经由第二总线120耦合到定序器104且耦合到存储器102。

在特定实施例中，存储器102可为内容可寻址存储器（CAM），其包含第一指令高速缓冲存储器122、第二指令高速缓冲存储器124、第三指令高速缓冲存储器126、第四指令高速缓冲存储器128、第五指令高速缓冲存储器130和第六指令高速缓冲存储器132。在操作期间，定序器104可存取指令高速缓冲存储器122、124、126、128、130和132中的每一者。另外，在特定实施例中，每一指令高速缓冲存储器122、124、126、128、130和132包含多个指令、用于每一指令的指令操纵数据以及用于每一指令的指令预解码数据。存储器102中的指令队列134可包含用于每一指令对应高速缓冲存储器122、124、126、128、130和132的指令队列136、138、140、142、144和146。

寄存器堆116包含第一组寄存器堆和第二组寄存器堆。所述第一组寄存器堆共享至少一个第一硬件资源，且所述第二组寄存器堆共享至少一个第二硬件资源。实例共享硬件资源包含数据读取端口、数据写入端口、数据读取总线、数据写入总线、存取逻辑和布线连接。在特定实施例中，寄存器堆116包含六个不同寄存器堆，其中所述六个寄存器堆中的每一者对应于存储器102内的相应指令高速缓冲存储器122、124、126、128、130和132中的一者。另外，在特定实施例中，所述寄存器堆中的每一者可具有相同构造，且可包含相等数目的数据操作数和地址操作数。

图1说明多线程处理器100可进一步包含耦合到定序器104的控制寄存器103。如图所示，控制寄存器103可为独立寄存器。

在多线程处理器100的操作期间，指令由定序器104从存储器102取出、发送到选定指令执行单元108、110、112和114，且在指令执行单元108、110、112和114处执行。来自在每一指令执行单元108、110、112和114处执行的指令的结果可写入到总寄存器堆116中的一者。在特定实施例中，处理器100能够执行多个程序线程。另外，在特定实施例中，处理器100可经配置以在交错基础上执行至多达六个不同程序线程。所述程序线程中的每一者可包括一指令流，且可使用执行单元108、110、112或114中的一者或一者以上以管线式方式来执行每一指令流。

参看图2，用于管线式处理的寄存器堆系统的物理布局的实施例的一部分经描绘且概括表示为200。系统200包含第一组寄存器堆202和第二组寄存器堆204。第一组寄存器堆202包含寄存器堆R₀（206）、R₂（208）和R₄（210）。第二组寄存器堆204包含R₃（212）、R₅（214）和R₁（216）。第一总线220耦合到R₀（206）、R₂（208）和R₄（210）中的每一者，以提供对第一组寄存器堆202的寄存器堆中的每一者的读取存取、写入存取或其任意组合。第二总线230耦合到R₃（212）、R₅（214）和R₁（216）中的每一者，以提供对第二组寄存器堆204的寄存器堆中的每一者的读取存取、写入存取或其任意组合。存取总线204耦合到第一总线220和第二总线230。存取总线240进一步耦合到一个或一个以上执行单元260。第一启用电路250耦合到第一组寄存器堆202的每一寄存器堆。第二启用电路252耦合到第二组寄存器堆204的每一寄存器堆。

在特定实施例中，第一组寄存器堆202中和第二组寄存器堆204中的每一寄存器堆与独立的指令执行流相关联。举例来说，R₀（206）可与第一执行流相关联，R₁（216）可与第二指令执行流相关联，R₂（208）可与第三指令执行流相关联，R₃（212）可与第四指令执行流相关联，R₄（210）可与第五指令执行流相关联，且R₅（214）可与第六指令执行流相关联。在说明性实施例中，指令执行流中的每一者可对应于多线程处理器的特定线程。在另一实施例中，指令执行流中的每一者可进行管线输送且可交错。指令流可包含超长指令字（VeryLongInstructionWord，VLIW）型指令、超标量型指令、可进行管线输送的其它类型的指令，或其任意组合。

在特定实施例中，连续管线式指令执行流与非邻近寄存器堆206到216相关联。举例来说，与第一执行流相关联的R₀（206）和与第二执行流相关联的R₁（216）具有连续管线存取位置，但定位在非邻近物理位置处。另外，物理上邻近的寄存器堆206到216具有非连续的管线存取位置。举例来说，R₀（206）物理上邻近于R₂（208），但与第一执行流相关联，而R₂与第三执行流相关联，第三执行流相对于第一执行流具有非连续管线存取位置。

在说明性实施例中，当第一和第二寄存器堆物理上不邻近时，与第一寄存器堆（例如R₀（206））相关联的第一执行流以及与第二寄存器堆（例如R₁（216））相关联的第二执行流可具有连续的管线存取。当第三执行流相对于第一执行流不连续地管线输送时，与第三执行流相关联的第三寄存器堆（例如R₂（208））可物理上邻近于第一寄存器堆。

在特定实施例中，对多个寄存器堆的数据存取可同时发生。举例来说，使用R₀（206）在第一指令执行流处执行的数据读取指令可与使用R₁（216）在第二指令流处执行的数据读取操作同时地执行数据读取操作。

在特定实施例中，指令执行流可包含一个或一个以上预定义的操作序列。举例来说，指令流可包含两个连续从相关联寄存器堆读取数据的操作，接着是一个或一个以上数据执行操作。因此，可同时从与连续指令执行流相关联的两个寄存器堆读取数据。所述组寄存器堆202和204经布置以使得与连续指令执行流相关联的寄存器堆定位在不同组的寄存器堆202和204中。明确地说，所述组寄存器堆202和204通过偶数编号的指令执行流和奇数编号的指令执行流来分组。

第一组寄存器堆202的寄存器堆R₀（206）、R₂（208）和R₄（210）与相对于彼此非连续执行的相应指令执行流相关联。类似地，第二组寄存器堆204的寄存器堆R₃（212）、R₅（214）和R₁（216）也与相对于彼此非连续执行的相应指令执行流相关联。因此，指令执行流的同时数据存取操作不会在第一组寄存器堆202间所共享的硬件资源上或在第二组寄存器堆204间所共享的硬件资源上产生冲突。

在特定实施例中，所述第一组寄存器堆202经布置以共享第一组硬件资源，且所述第二组寄存器堆204经布置以共享第二组硬件资源。举例来说，第一组寄存器堆202共享第一启用电路250。另外，第一组寄存器堆202共享第一共用数据存取资源，包含一个或一个以上逻辑元件（例如数据读取逻辑或数据写入逻辑），以及与第一总线220相关联的总线布线。第一组寄存器堆202还可共享其它数据线、控制线、其它硬件资源或其任意组合。类似地，第二组寄存器堆204共享第二启用电路252。另外，第二组寄存器堆204共享第二共用数据存取资源，包含一个或一个以上逻辑元件（例如数据读取逻辑或数据写入逻辑），以及与第二总线230相关联的总线布线。第二组寄存器堆204还可共享其它数据线、控制线、其它硬件资源或其任意组合。

在特定实施例中，硬件资源可在第一组寄存器堆202内共享，但此类硬件资源不可由第二组寄存器堆204的寄存器堆共享。类似地，硬件资源可在第二组寄存器堆204内共享，但不可由第一组寄存器堆202的寄存器堆共享。举例来说，第一总线220可包含由第一寄存器堆（例如R₀（206））与第三寄存器堆（例如R₂（208））共享的第一数据读取总线，但第一总线220不由第二寄存器堆（例如R₁（216））或第四寄存器堆（例如R₃（212））共享。类似地，第二总线230可包含由第二寄存器堆R₁（216）与第四寄存器堆R₃（212）共享的第二数据读取总线，但第二总线230不由第一寄存器堆R₀（206）和第三寄存器堆R₂（208）共享。因此，当连续执行流执行同时数据读取操作（例如对第一和第二寄存器堆、第二和第三寄存器堆或第三和第四寄存器堆的读取存取）时，可利用第一数据读取总线和第二数据读取总线两者，且不引入冲突。

第一组寄存器堆202和第二组寄存器堆204物理上布置在单独的区中，以减少多个指令执行流的操作的执行期间的功率密度。举例来说，位于第一区中的第一组寄存器堆202和位于第二区中的第二组寄存器堆204经布置以减少在与连续指令执行流相关联的寄存器堆处同时发生的数据读取期间的总功率耗散。第一区可位于第一功率耗散区域中，且第二区可位于第二功率耗散区域中，使得包含第一和第二区两者的区域具有比其中每一寄存器堆邻近于至少一个其它寄存器堆的相当区域低的功率密度。为了说明，在R₀（206）和R₁（216）处执行的同时数据读取在物理上分开的非邻近位置处发生，从而与在物理上邻近的寄存器堆处执行的数据读取相比，降低总功率密度，且改进芯片性能。作为另一实例，在R₃（212）和R₄（210）处的同时数据读取在第一区和第二区的物理上分开的非邻近位置处发生，从而降低总功率密度，且改进芯片性能。

在特定实施例中，系统200的配置通过配置寄存器堆以使得能够在每一组寄存器堆202和204间共享硬件资源（通过减少或消除所共享资源上的冲突），来实现较低制造成本。另外，由于个别寄存器堆相对于对寄存器堆中的每一者的连续存取的次序的物理位置而获得性能益处，从而实现降低的功率密度和改进的芯片性能。

参看图3，可用寄存器堆系统执行的管线式处理操作的说明性实施例经描绘且概括表示为300。以具有指示连续时间周期T₁、T₂、T₃、T₄、T₅和T₆的列且具有指示管线式指令流1到6的行的表格格式来描绘操作300。使用指令流1作为说明性实例，在T₁处执行第一读取操作接着在T₂处执行第二读取操作在T₃处执行第一执行操作接着在T₄处执行第二执行操作且在T₅处执行第三执行操作在T₆处执行数据写入操作W¹。同样，指令流2在T₂处执行第一读取操作在T₃处执行第二读取操作在T₄处执行一执行操作在T₅处执行一执行操作且在T₆处执行一执行操作

因为读取操作在管线式处理期间的连续时间周期（例如流1的T₁和T₂）处执行，所以读取操作针对具有连续管线存取的流同时执行。举例来说，在时间周期T₂期间，流1执行读取操作同时流2执行读取操作作为另一实例，在第三时间周期T₃期间，流2执行读取操作同时流3执行读取操作类似地，因为每一指令执行流包含三个连续执行步骤，所以多个流同时执行执行步骤。举例来说，在时间周期T₆处，流2正处理执行操作流3正处理执行操作且流4正处理执行操作

在一实施例中，指令流1到6可经由管线式处理器的多个执行管线来执行。在说明性实施例中，指令流1到6可由交错多线程处理器执行。在特定实施例中，指令流1到6中的每一者可为超长指令字（VLIW）型指令。在另一实施例中，指令流1到6中的每一者可为超标量型指令。

在特定实施例中，用于管线式处理的寄存器堆系统（例如图2的系统200）可使得能够使用在与流1到6相关联的寄存器堆间共享的硬件资源。举例来说，因为同时数据读取操作仅在与连续流相关联的寄存器堆处执行，所以寄存器堆可布置成群组，每一群组共享一单独读取数据总线，使得可在不引入冲突的情况下执行同时读取。作为另一实例，因为不执行同时数据写入操作，所以可使用单个数据写入总线来在第一寄存器堆处为第一指令流写入数据，且在第二寄存器堆处为与第一指令流连续的第二指令流写入数据，而不引入写入冲突。

参看图4，使用用于管线式处理的寄存器堆的方法的说明性实施例经描绘且概括表示为400。在402处，选择性地启用第一组寄存器堆中的至少一者以供存取，与此同时同时启用第二组寄存器堆中的至少一者以供存取。举例来说，寄存器堆R₂（208）可与寄存器堆R₁（216）同时存取。在特定实施例中，所述第一组寄存器堆共享第一组硬件资源，且所述第二组寄存器堆共享第二组硬件资源。举例来说，第一组硬件资源可包含数据读取总线。在说明性实施例中，第一组寄存器堆可为第一组寄存器堆202，且第二组寄存器堆可为图2的第二组寄存器堆204，或图1中描绘的执行单元108到114。

在404处，可从第一组寄存器堆中的至少一者向与第一指令流相关联的第一指令单元提供数据。在406处，可从第二组寄存器堆中的至少一者向与第二指令流相关联的第二指令单元提供数据（在406处）。在408处，可使用至少一个管线式执行单元来执行第一和第二指令流。在特定实施例中，第一指令单元、第二指令单元和执行单元可为经配置以处理管线式执行流的执行单元。在说明性实施例中，执行单元为图2中描绘的执行单元260。

在说明性实施例中，指令可在管线式执行单元中以预定次序执行。在特定实施例中，所述指令中的每一者可作为超长指令字（VLIW）型指令在管线式执行单元中执行。在另一实施例中，所述指令中的每一者可作为超标量型指令在管线式执行单元中执行。

图5是使用用于管线式处理的寄存器堆系统的便携式通信装置的框图。便携式通信装置500包含芯片上系统522，其包含管线式处理器，例如数字信号处理器510。数字信号处理器510包含具有共享硬件资源的寄存器堆570。举例来说，处理器510和具有共享硬件资源的寄存器堆570可包含图1或图2的系统的若干部分，且可利用图3或图4中描述的操作，或其任意组合。在特定说明性实施例中，具有共享硬件资源的寄存器堆570可实现降低的功率密度、降低的制造成本或两者，以支持管线式处理器，例如数字信号处理器510。

在特定实施例中，可通过配置具有共享硬件资源的寄存器堆570，使得邻近寄存器堆不被连续指令执行流存取以用于数据操作，从而防止邻近寄存器堆位置处的同时数据存取操作，来降低处理期间的功率密度。同样，可通过将具有共享硬件资源的寄存器堆570分成至少像存在同一类型的同时数据存取操作一样多组的寄存器堆，来降低制造成本。举例来说，如果两个管线式指令执行流在相关联的寄存器堆处同时执行数据读取操作，如图3中所描绘，那么可定义至少两组寄存器堆，每一组寄存器堆在所述组的寄存器堆间共享数据存取硬件资源，而不产生冲突，例如图2中所描绘。作为另一实例，如果三个管线式指令执行流在相关联的寄存器堆处同时执行数据读取操作，那么可定义至少三组寄存器堆，每一组寄存器堆在所述组的寄存器堆间共享数据存取硬件资源，而不在每一组内产生冲突。

图5还展示显示器控制器526，其耦合到数字信号处理器510且耦合到显示器528。此外，输入装置530耦合到数字信号处理器510。另外，存储器532耦合到数字信号处理器510。编码器/解码器（CODEC）534也可耦合到数字信号处理器510。扬声器536和麦克风538可耦合到CODEC534。

图5还指示无线控制器540可耦合到数字信号处理器510且耦合到无线天线542。在特定实施例中，电源544耦合到芯片上系统522。此外，在特定实施例中，如图5中所说明，显示器528、输入装置530、扬声器536、麦克风538、无线天线542和电源544在芯片上系统522外部。然而，每一者均耦合到芯片上系统522的组件。

在特定说明性实施例中，具有共享硬件资源的寄存器堆570可用于增强便携式通信装置500的总体性能。明确地说，具有共享硬件资源的寄存器堆570可降低功率密度，从而实现较快的处理速度，且可通过共享共用硬件来降低制造成本，而不使装置500的性能降级。

技术人员将进一步了解，结合本文所揭示的实施例而描述的各种说明性逻辑区块、配置、模块、电路和算法步骤可实施为电子硬件、计算机软件或上述两者的组合。为了清楚地说明硬件与软件的这种可互换性，上文已大体上根据各种说明性组件、区块、配置、模块、电路和步骤的功能性来描述各种说明性组件、区块、配置、模块、电路和步骤。将此类功能性实施为硬件还是软件取决于特定应用和强加于整个系统的设计约束。熟练的技术人员可针对每个特定应用以不同的方式来实施所描述的功能性，但此类实施决策不应被解释为导致与本发明范围的偏离。

结合本文所揭示的实施例而描述的方法或算法的步骤可直接以硬件、以由处理器执行的软件模块或以上述两者的组合的形式体现。软件模块可驻存在RAM存储器、快闪存储器、ROM存储器、PROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。示范性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息且将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体式。处理器和存储媒体可驻存在ASIC中。ASIC可驻存在计算装置或用户终端中。在替代方案中，处理器和存储媒体可作为离散组件驻存在计算装置或用户终端中。

提供对所揭示实施例的先前描述，以使所属领域的技术人员能够制作或使用所揭示的实施例。所属领域的技术人员将容易明白对这些实施例的各种修改，且本文所界定的一般原理可在不脱离本发明的精神或范围的情况下应用于其它实施例。因此，本发明不希望限于本文所展示的实施例，而是应被赋予与如所附权利要求书所界定的原理和新颖特征一致的最宽范围。

Claims

1.一种多线程处理器，其包括：

在芯片上的第一位置处的第一寄存器堆，其中所述第一寄存器堆与第一线程相关联；

在所述芯片上的第二位置处的第二寄存器堆，其中所述第二寄存器堆与第二线程相关联；

在所述芯片上的第三位置处的第三寄存器堆，其中所述第三寄存器堆与第三线程相关联；

在所述芯片上的第四位置处的第四寄存器堆，其中所述第四寄存器堆与第四线程相关联；以及

硬件资源，其由所述第一寄存器堆和所述第二寄存器堆共享；

其中所述第一位置物理上邻近于所述第二位置，并且其中所述第一线程具有第一管线存取位置，在管线中，所述第一管线存取位置在所述第二线程的第二管线存取位置之前且与所述第二管线存取位置不连续；

其中所述第三位置与所述第一位置在物理上非邻近，且其中在所述管线中，所述第一线程的所述第一管线存取位置在所述第三线程的第三管线存取位置之前，且与所述第三管线存取位置连续；

其中所述第四位置物理上邻近于所述第三位置，且其中在所述管线中，所述第四线程的第四管线存取位置在所述第二线程的所述第二管线存取位置之后，且与所述第二管线存取位置连续；

其中对所述第一寄存器堆的数据存取和对所述第二寄存器堆的数据存取不同时发生；

其中至少对所述第一寄存器堆的第一数据存取和对所述第三寄存器堆的第二数据存取同时发生；以及

其中至少对所述第二寄存器堆的第三数据存取和对所述第四寄存器堆的第四数据存取同时发生。

2.一种处理器，其包括：

第一寄存器堆组，其包括第一寄存器堆，所述第一寄存器堆物理上邻近于第二寄存器堆，所述第一寄存器堆与第一指令执行流相关联，且所述第二寄存器堆与第二指令执行流相关联；

第二寄存器堆组，其包括第三寄存器堆，所述第三寄存器堆与第三指令执行流相关联，其中所述第二寄存器堆组位于在芯片上相对于所述第一寄存器堆组的物理上非邻近位置；

其中所述第三指令执行流具有在所述第一指令执行流之后的管线存取位置，且与所述第一指令执行流连续，且其中所述第二指令执行流具有在第三指令执行流之后的第二管线存取位置，且与所述第三指令执行流连续，以允许在所述第一寄存器堆与所述第二寄存器堆之间共享硬件资源；

其中至少对所述第一寄存器堆的第一数据存取与对所述第三寄存器堆的第二数据存取同时发生；

其中对第一寄存器堆的数据存取与对所述第二寄存器堆的数据存取不同时发生；以及

其中所述第一寄存器堆组的第一多个寄存器堆共享第一组硬件资源，且所述第二寄存器堆组的第二多个寄存器堆共享第二组硬件资源。

3.一种处理器，其包括：

第二寄存器堆组，其包括第三寄存器堆，所述第三寄存器堆与第三指令执行流相关联，其中所述第二寄存器堆组位于在芯片上相对于所述第一寄存器堆组的物理上非邻近位置；以及

单个数据写入总线，其耦合到所述第一寄存器堆组和所述第二寄存器堆组，且用于向所述第一寄存器堆组和所述第二寄存器堆组写入数据；

其中所述第三指令执行流具有在所述第一指令执行流之后的管线存取位置，且与所述第一指令执行流连续，且其中所述第二指令执行流具有在第三指令执行流之后的第二管线存取位置，且与所述第三指令执行流连续，以允许硬件资源在所述第一寄存器堆与所述第二寄存器堆之间共享；

其中同时发生的所述第一数据存取与所述第二数据存取是数据读取存取；以及

其中对第一寄存器堆的数据存取与对所述第二寄存器堆的数据存取不同时发生。

4.一种处理器，其包括：

其中所述第一寄存器堆组位于第一功率耗散区域中，且所述第二寄存器堆组位于第二功率耗散区域中。

5.一种处理器，其包括：

第一寄存器堆组，其包括第一寄存器堆，所述第一寄存器堆物理上位于邻近于第二寄存器堆，所述第一寄存器堆与第一指令执行流相关联，且所述第二寄存器堆与第二指令执行流相关联；

其中对第一寄存器堆的数据存取与对所述第二寄存器堆的数据存取不同时发生；

其中所述硬件资源包括不与所述第三寄存器堆共享的第一数据读取总线；以及

其中第二硬件资源包括第二数据读取总线，所述第二数据读取总线由所述第二寄存器堆组共享，但是不由所述第一寄存器堆组共享。

6.一种处理器，其包括：

第一执行管线，其执行第一指令流；

第二执行管线，其执行第二指令流；

第三执行管线，其执行第三指令流；

第一寄存器堆，其与所述第一指令流相关联；

第二寄存器堆，其在芯片上物理上邻近于所述第一寄存器堆，所述第二寄存器堆与所述第二指令流相关联；以及

第三寄存器堆，其物理上非邻近于所述第一寄存器堆和第二寄存器堆，所述第三寄存器堆与所述第三指令流相关联；

其中所述第一指令流和所述第二指令流配置在所述第一执行管线和所述第二执行管线内，所述第一执行管线和所述第二执行管线具有不同时发生的第一寄存器堆和第二寄存器堆的存取，以使得所述第一寄存器堆和所述第二寄存器堆共享至少一个硬件资源；

第二硬件资源，其包括第二数据读取总线，所述第二数据读取总线由第二组寄存器堆共享，但是不由第一组寄存器堆共享；

其中所述第一指令流和所述第三指令流配置在所述第一执行管线和所述第三执行管线内，以同时存取所述第一寄存器堆和所述第三寄存器堆。

7.根据权利要求6所述的处理器，其中所述第一寄存器堆和所述第二寄存器堆位于第一功率耗散区域中，且所述第三寄存器堆位于第二功率耗散区域中。