CN1545034A

CN1545034A - 片内多处理器局部cache一致性的双环监听方法

Info

Publication number: CN1545034A
Application number: CNA2003101105657A
Authority: CN
Inventors: 张春元; 鲁建壮; 王志英; 戴葵; 沈立; 伍楠; 李礼; 赵学秘; 岳虹
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2003-11-26
Filing date: 2003-11-26
Publication date: 2004-11-10
Anticipated expiration: 2023-11-26
Also published as: CN1258716C

Abstract

本发明公开了一种片内多处理器局部cache一致性的双环监听方法，目的在于对现有片内多处理器间局部cache一致性方案进行改进，解决访问结点个数受限和局部cache一致性造成的访问冲突等问题。技术方案是其总体结构除含有多个CPU、cache、MIU外，还含有转发总线和双环结构，且cache分为一级指令cache、一级数据cache、二级cache，同时增加专门的逻辑控制电路扩展一级cache控制器的功能，使其通过双环结构发布所属处理节点对于数据的访问信息，获取和传播其它节点对于数据的访问情况，且借助转发总线完成cache一致性维护，并对一级数据cache标志位进行了扩展。本发明充分利用了芯片内部潜在的通信能力，使访问的冲突明显降低，通过较少的硬件开销解决了局部cache一致性问题。

Description

片内多处理器局部cache一致性的双环监听方法

技术领域：本发明涉及微处理器设计中片内多处理器之间局部cache一致性的解决方法，尤其是支持线程级前瞻执行(Thread LevelSpeculation)的片内多处理器结构中局部cache之间数据一致性的解决方法。

背景技术：微电子技术和加工工艺的不断发展，使得在单个芯片内放置多个处理器成为提高芯片整体性能的一个重要途径。局部cache的数据一致性(cache coherence)是传统片外多处理器系统并行执行必须解决的问题，但片内多处理器在组成、结构和通信能力等方面又具有很多新的特点，因此局部cache一致性需要采用新的解决方法。传统片外多处理器系统解决局部cache一致性的协议有以下两类，如2000年高等教育出版社出版的《计算机体系结构》一书中阐述的：总线监听(snooping)协议和目录(directory)协议，总线监听协议中每个cache除了包含物理存储器中块的数据拷贝之外，也保存着各个块的共享状态信息。Cache通常连在共享存储器的总线上，各个cache控制器通过监听总线来判断它们是否有总线上请求的数据块，从而维护cache的数据一致性。总线监听协议只能适用于处理器节点较少的通过总线相连的多处理器系统。基于目录的一致性解决方法通过目录结构记录进入cache的每个数据块的访问状态、该块在各个处理器的共享状态以及是否修改过的信息。通过处理器之间的内部互联网络(Intra-Connection Network)发布信息，维护局部cache一致性。目录可以分布在整个系统中，这种方法具有扩展能力，能够应用于处理节点较多的系统。处理器间的维护局部cache一致性的信息传递和数据交换分别通过总线或内部互联网络实现，因此处理节点间总线或者网络的带宽是影响整个系统性能的关键因素。

在单个芯片上实现多处理器系统，各个处理器之间的通信能力得到了很大的增强，片外的cache一致性维护操作需要数十个甚至数百个时钟周期(这里指CPU的时钟周期)才能完成，集中在同一个芯片上实现可以将其缩短到几个时钟周期。当前已经存在的单芯片多处理器系统中，Stanford大学在 http：//www-hydra.stanford.edu/hydra.shtml网址公布的Hydra处理器模型中，采用类似总线监听协议的方法解决局部cache一致性的问题，但是总线监听的访问量与处理节点个数的平方成正比；Illinois大学在 http：//www.cs.uiuc.edu公布的片内多处理器模型中，采用类目录的方法来解决cache之间的数据一致性问题，集中式的目录存储导致对该目录的访问成为瓶颈。

发明内容：本发明的目的在于对现有技术中片内多处理器间局部cache一致性方案进行改进，解决访问结点个数受限和局部cache一致性造成的访问冲突等问题，利用片内多处理器间通信高带宽、延迟易于确定的特点，采用一种双环结构解决片内多处理器的局部cache一致性问题。

本发明的技术方案是：

其总体逻辑结构包括多个处理器核CPU、cache、存储器接口单元MIU，其cache分为一级指令cache、一级数据cache、二级cache，在各一级数据cache之间设计了一个转发总线和一个双环结构，同时增加专门的逻辑控制电路扩展了一级cache控制器的功能。CPU分别通过单独的总线与一级指令cache和一级数据cache相连接，它是处理的核心部件，通过一级指令和数据cache获取指令和数据，执行程序；一级cache采用指令与数据相分离的哈佛结构，一级cache仅被它对应的CPU访问，CPU和它的一级cache构成一个处理节点；一级指令cache和数据cache的查找、替换、写回操作通过cache控制器控制完成。各个处理节点的一级cache通过共同的总线与二级cache连接，该总线是处理节点向二级cache读取指令，与二级cache进行数据交换的通路。二级cache是混合结构，同时存储指令和数据，被所有处理节点共享使用，二级cache通过总线和存储接口单元相连；存储器接口单元MIU实现与片外主存储系统的数据交换。在各一级数据cache之间设计一个转发总线，连接在各个局部一级数据cache上，用来实现局部cache一致性操作中的数据传送；转发总线包括以下几个部分：源id——发送数据的线程逻辑id，其位数由节点的个数以2为底取对数决定，目的id——接受数据的线程逻辑id，位数与源id相同，地址域——要传送的数据的地址，根据系统的寻址空间确定，数据域——传送的数据，宽度由系统的字长决定，使能、确认和忙闲信号各1位——用于传递时的控制，同时设计了一个转发仲裁逻辑解决访问冲突。

在片内各一级数据cache之间设计一个双环结构，它由连接在一级数据cache之间的两个相向传播的单向环形消息通路构成，用于传递各个节点的数据访问信息。访问的信息包括数据的地址和访问者的逻辑标识id，以消息形式在该结构上传播，每个时钟周期前进一个节点，直至被接收或回收，根据这些信息对本节点拥有的新数据进行转发、并通过CPU执行补偿代码或重新运行该线程解决本地节点的超前访问，解决处理器间的cache一致性，辅助多处理器系统高效并发运行；处理节点通过环形结构串联起来，每个处理节点运行一个线程，各个线程之间也存在逻辑关系，按照先后依次运行在环上的每个处理节点，处理节点的排列和线程的分布形成一个顺序的对应关系；同时在处理节点一级cache控制器中增加专门的逻辑控制电路，使得该控制器除了完成CPU对cache进行指令和数据访问中的失效、写回和替换的处理功能外，还通过双环结构发布自身所属处理节点对于数据的访问信息，并获取和传播其它节点对于数据的访问情况，并借助转发总线完成对局部cache一致性的维护。信息发布和新数据转发及处理节点的运行并行完成或者被访问公共存储器——二级cache的延迟所掩盖，从而达到提高整个芯片性能的目的。目前国内外尚无采用这种方法解决片内多处理器局部cache一致性的报道。

本发明定义了六个名词：逻辑标识id、双环结构、Load消息和Store消息、转发总线、cache标志位、主处理节点，它们的定义是：

(1)逻辑标识id：本发明中逻辑标识id用于指明线程的逻辑顺序，每个处理节点执行一个线程，在系统的运行过程中，线程按照逻辑顺序依次运行在由双环结构串联起来的各个节点。

(2)双环结构：本发明中用于交换对共享数据访问信息的两个相向传播的单向环形结构，即L-ring和S-ring，分别用来传递Load和Store消息，访问信息以消息形式在该结构上传播，每个时钟周期前进一个节点。

(3)Load消息和Store消息：分别含有对于cache中数据的读取和存储情况的消息，通过双环结构进行传送，Load消息通过L-ring，Store消息通过S-ring。

(4)转发总线：位于各个处理节点一级数据cache之间，用于完成不同处理节点的一级数据cache之间共享数据的传送。

(5)cache标志位：一级数据cache中的数据结构，标识其中以数据块或者以块中的字为单位的数据状态信息。

(6)主处理节点：运行逻辑顺序最前的线程的处理节点，其逻辑标识id也最小。

本发明设计的load和Store两种消息，其消息结构中都拥有的部分是：Th.id用于传递消息发起者的线程逻辑id；数据块地址用于传递该消息所涉及的数据块的地址；Wi表明消息感兴趣的某个或者某几个字。另外，Store消息中设计R位，用于传递发现了超前访问的信息。

本发明对一级数据cache标志位进行了扩展，原cache中一般设计有V和D位，以数据块为单位进行标识，其中的V位为有效位，表明数据块中的数据是否有效；D位表明数据块中的数据有没有被修改。本发明设计了RS位，表明在执行新的线程时该数据块是否需要设置为无效。U、L、S位以字为单位进行标识，U位表明本处理节点有没有修改过该字，修改过则置1；L用于标识本处理节点是否读取过该字，在第一次读取之前会发送Load消息，获得最新数据后将L位设置为1，以后的读取则不必发送Load消息；S位表明针对本节点的修改是否发送过Store消息，发送store消息是将其设置为1，当该数据被其它节点读取时，就会将它清除为0。

本发明一级cache控制器中增加了专门的逻辑控制电路后，一级cache控制器工作过程是：

1 CPU在执行用户程序时，对数据的读取和写回访问都发送给本地处理节点的一级数据cache。该一级cache作如下的处理：

1.1访问时命中cache，对于读取(Load)操作，根据该数据块中相应字的L和U标志位判断本地节点是否读取或修改过该数据，判断结果为真，则将数据传送到本地处理器；否则通过L-ring向前驱节点发送Load消息，如果前驱节点中拥有更新的数据，则通过转发总线读取新的数据到数据cache，如果没有新的数据则不读取转发总线，最后将正确的数据传送给处理器，同时设置L位；对于存储(Store)操作，则将数据写入一级cache，如果S位为0，通过S-ring向后继节点的cache发送Store消息，并设置S位为1，否则不发送store消息，无论是否发送消息，数据写入后CPU都将继续执行，即消息的发送与CPU运行是并行的。

1.2访问时如果发生cache失效，相应的CPU暂停运行。

1.2.1如果需要写回，对于主处理节点，将数据写回二级cache；对于非主处理节点，仅将数据缓冲，成为主处理节点后方能真正写回；

1.2.2不需要写回或者写回已经完成，向二级cache发送读请求，将数据所在的数据块读取到本处理节点的cache中，同时对于Load操作通过L-ring向前驱发送Load消息。对二级cache的读取完成后，对于Load操作，根据Load消息的返回结果对数据块进行更新，而后发送给CPU使它继续执行，同时设置L位；对于Store操作，将数据存入刚读进的数据块，CPU继续执行，同时通过S-ring向后继节点发送Store消息并设置S位。

2 cache控制器收到消息时，根据消息的不同类型分别进行处理：

2.1从L-ring上收到来自后继节点的Load消息，根据消息中的地址信息，查找本地cache是否存在该数据的新拷贝，如果存在新的拷贝则通过转发总线将其传递给相应的处理节点，同时清除cache中该数据的S位，否则对于主处理节点发送确认信号给本消息的源节点表明各个处理节点都不存在新的数据拷贝，对于非主处理节点就将消息继续向自身的前驱节点进行传递。

2.2从S-ring上收到来自前驱节点的Store消息，根据源节点与本地节点的关系分别处理如下：

2.2.1如果本处理节点属于该消息的后继节点，则根据消息中的地址信息，检查cache的L位，判断本处理节点是否读取了该数据的旧拷贝，如果读过则进行必要的补救措施：可以执行一定的补偿代码，代码通过编译器设置或者重新执行本地的线程，同时设置消息中的R位，而后将消息向后继传递。如果没有读取过该数据的旧拷贝，如果U位为1，清除消息中对应的W位，而后发送消息，否则直接转发该消息到后继节点。

2.2.2如果本处理节点属于该消息的逻辑前驱，则将消息向后继节点传递，同时按照消息中的地址信息，检查本地cache中是否存在该数据块，如果有则设置RS位为1，表明本处理节点执行新的线程时需要将该数据块置为无效。

2.2.3如果该消息是由本节点发送，则回收该消息。

3 冲突解决和优先级的设置：环形结构决定了系统中同类型的消息只能按顺序传送。如果出现冲突则优先发送来自逻辑顺序较前节点的消息，即对于L-ring上的处理是优先发送本地的Load消息，缓冲来自后继的Load消息；对于S-ring上的消息如果出现了冲突，比较逻辑顺序，发送逻辑顺序最前的消息，缓冲其他的消息。

4 如果处理节点的逻辑标识id需要改变，设计实现时，设计者有两种方法可以选择：先排空双环结构上的消息，再进行逻辑顺序号的改变；或者直接清除上面的消息，逻辑标识id更新后再重新发送这些消息。

采用本发明设计的微处理器可以达到以下技术效果：

1)每个线程读取新数据时，只需次第检查它前面的节点是否存在新的拷贝，最先遇到的新拷贝数据就是最新的，消息传递距离短；当它修改某个数据时，将消息发送给后继节点，消息发送与后续程序的执行并行完成；通过收到的store消息，判断是否进行了超前的数据访问，整个判断执行过程，硬件实现复杂度低，执行效率高。

2)对于有N个处理节点的系统，总线检测方案会使每个处理节点会受到N-1个处理节点的打扰，本地CPU访存将会受到很大的影响，本发明中消息依次向前(L-ring)和向后(S-ring)传播，每个处理节点仅响应来自两个相邻节点的消息，提高了对本地CPU的访存效率，同时减少了总线监听方法所带来的冲突。

3)本发明所提出的方案中，一级cache数据一致性维护操作可以被二级cache的访问延迟所掩盖或者与处理节点的工作并行完成，增加了操作并行性，提高了运行效率。

本发明充分利用了芯片内部潜在的通信能力，并使得访问的冲突明显降低，通过较少的硬件开销(双环结构、转发总线、cache控制器逻辑电路)解决了单芯片多处理器的局部cache一致性问题。

附图说明：

图1采用总线监听协议的系统结构图

图2采用目录协议的系统结构图

图3本发明的总体结构图

图4双环结构和转发总线结构图

图5一级数据cache的标志位结构图

图6Load和Store消息的结构图

图7cache命中时的处理流程图

图8cache失效时的处理流程图

图9收到消息时的处理流程图

具体实施方式：

图1是采用总线监听协议的系统结构图，由CPU和cache组成的部分为处理节点，通常情况下，二级cache也包含在节点内部。各个处理节点共享存储器，处理节点和存储器通过总线进行连接，各个处理节点的cache也通过监听总线上的操作完成数据一致性的维护。

图2是采用目录协议的系统结构图，CPU和cache组成处理节点，二级cache也包含在节点内部。存储器和目录分布在整个系统中，通过内部互连网络将它们连接起来，各个处理节点对数据的访问情况由目录进行记录，通过内部互连网络进行传递。

图3是本发明应用在拥有4个处理器核的片内并行处理体系结构中的总体结构图。它由4个处理器核、4个一级cache及相应控制器，二级cache，存储接口单元MIU，数据总线，转发总线和双环结构组成。

CPUi(i＝0，1，2，3)为处理器核，一级cache采用指令与数据相分离的哈佛结构，L1/I和L1/D分别为指令和数据cache，CPUi分别通过单独的总线与L1/I和L1/D相连接，获取指令和数据，CPU和相应一级cache构成一个处理节点，图中用虚线框表示；一级指令cache和数据cache的查找、替换、写回操作通过cache控制器控制完成。各个处理节点的一级cache通过共同的总线与二级cache连接，该总线是处理节点向二级cache读取指令，与二级cache进行数据交换的通路。二级cache是混合结构，可以同时存储指令和数据，被所有的处理节点共享使用，二级cache通过总线和存储接口单元相连；存储器接口单元MIU实现与片外主存储系统的数据交换。在各一级cache之间设计一个转发总线，连接在各个局部一级数据cache上，用来实现局部cache一致性操作中的数据传送。在片内各处理器节点间设计一个双环结构，它由连接在一级数据cache之间的两个相向传播的单向环形消息通路构成，用于传递各个节点的数据访问信息。

图4是本发明应用在拥有4个处理器核的片内并行处理体系结构中双环结构和转发总线的结构图。两个单向环相向地连接在一级数据cache之间完成存取数据信息的发布，顺时针的为S-ring，逆时针的为L-ring，消息的传播按照各自的方向依次经过各个处理节点直至被接收或回收。每个一级数据cache通过专用的接口与转发总线相连，其接口包括以下几组信号线：源id(2位)——发送数据的线程逻辑id、目的id(2位)——接受数据的线程逻辑id、地址域(32位)——要传送的数据的地址、数据域(32位)——传送的数据、使能(1位)、确认(1位)和忙闲(1位)信号——用于传递时的控制，转发总线将需要更新的数据从拥有新拷贝的节点传递到需要该数据的节点，如果出现数据转发的冲突，源id小的数据优先发送，该判断由转发仲裁逻辑实现。

图5一级数据cache的标志位结构图。V位和D位在一般的cache中都存在，以数据块为单位进行标识，其中V位表明数据块中的数据是否有效；D位表明数据块中的数据有没有被修改；RS位表明在执行新的线程时该数据块是否需要设置为无效。Ui、Li、Si(i＝0，1，2，3)位以字为单位进行标识，U位表明本处理节点有没有修改过该字，修改过则置1；L用于标识本处理节点是否读取过该字，在第一次读取之前会发送Load消息，获得最新数据后将L位设置为1，以后的读取不再发送Load消息；S位表明针对本节点的修改是否发送过Store消息，发送store消息是将其设置为1，当该数据被其它节点读取时，就会将S清除为0。

图6是Load和Store消息的结构图。其消息结构中都拥有的部分是：Th.id用于传递消息发起者的线程逻辑id；地址域用于传递该消息所涉及的数据块的地址；Wi(i＝0，1，2，3)表明消息感兴趣的某个或者某几个字；Store消息中R位用于传递发现了超前访问的信息。Cache的控制器中设有专门的缓冲，当消息的传播出现冲突时，将没有及时传播的消息缓冲。

在采用了本发明的微处理器运行加载的用户程序时，工作过程是：

图7是cache命中时的处理流程图。本图说明了CPU访问本地数据cache命中时的处理流程，在实现中各种判断是同时进行。对于Load操作在一个周期内同时判断是否命中、Ui和Li是否为1以及是否主线程，Li或Ui为1、或者是主线程则下一个周期向CPU送数据，否则发送load消息，收到返回信息或新数据后再向CPU传送有效数据。对于Store操作，将数据写入一级cache后，CPU即可继续执行；同时如Si位为0，通过S-ring向后继节点的cache发送Store消息，并设置S位为1，否则不发送store消息；如果是主线程则将数据写回二级cache。

图8是cache访问失效时的处理流程图。对于Load失效，向二级cache发送读取数据的请求，如果不是主线程则同时向前驱发送load消息，Load消息在访问二级cache的同时发送，从而达到了掩盖延迟的目的，如果前驱节点有最新的数据，则将转发总线上的数据和来自二级cache的数据合并，对于主线程仅读取二级cache的数据，写入一级cache并发送给CPU。对于store失效，首先向二级cache读取该数据所在的数据块；读取完成后，将新的数据写入该块，CPU继续执行，同时通过S-ring发送Store消息，对于主线程还要将新数据写回二级cache。本发明中一级cache采用的是写分配策略，另外，为了保持对数据的访问信息，执行的不是主线程的节点不能够将数据写回二级cache，为此引入了一定数量的写缓冲，这里看作是cache一部分没有进行特殊的表示。

图9是处理load消息和store消息的流程图。对各种标志位的查询是并行完成的，整个的消息处理过程在一个周期内实现。如果存在发送冲突，按照上面提到的冲突解决方法进行解决。对于load消息，如果地址信息命中本地cache块并且该数据对应的Ui位为1，则通过转发总线转发该数据，并清除本cache中该数据块的Si位，清除消息中的Wi位，如果所有的4个Wi位均为0则清除该消息；如果本cache不存在该数据或Ui为0，则不转发数据，此时对于主线程发送确认信号，其它线程继续转发消息。

对于store消息：如果消息来自逻辑顺序低的节点，cache中存在该数据且Li位为1，如果读过则进行必要的补救措施：可以执行一定的补偿代码，代码通过编译器设置或者重新执行本地的线程，同时设置消息中的R位，而后将消息向后继传递。如果Li为0而Ui为1，则清除消息中对应的Wi位，最后将消息发送到后继节点。如果消息来自逻辑顺序高的节点，则将消息向后继节点传递，同时如果本地cache中有该数据块，则设置RS位为1。如果该消息是由本节点发送的，则回收该消息。

Claims

1一种片内多处理器局部cache一致性的双环监听方法，其总体逻辑结构包括多个处理器核CPU、cache、存储器接口单元MIU，它们通过总线相连，CPU是处理的核心部件，CPU通过总线从cache获取数据和指令，cache内包含cache控制器、CPU对cache进行指令和数据访问中的失效、写回和替换的处理功能通过cache控制器控制完成，由存储器接口单元MIU实现与片外主存储系统的数据交换，其特征在于其cache分为一级指令cache、一级数据cache、二级cache，在各一级数据cache之间设计了一个转发总线和一个双环结构，同时增加专门的逻辑控制电路扩展了一级cache控制器的功能，并对一级数据cache标志位进行了扩展，从而实现局部cache一致性操作，具体方法为：

1.1 CPU分别通过单独的总线与一级指令cache和一级数据cache相连接，通过一级指令cache和数据cache获取指令和数据、执行程序；一级cache采用指令与数据相分离的哈佛结构，一级cache仅被它对应的CPU访问，CPU和它的一级cache构成一个处理节点；各个处理节点的一级cache通过共同的总线与二级cache连接，该总线是处理节点向二级cache读取指令，与二级cache进行数据交换的通路；二级cache是混合结构，同时存储指令和数据，被所有处理节点共享使用，二级cache通过总线和存储接口单元MIU相连；

1.2在各一级数据cache之间设计一个转发总线，包括：源id——发送数据的线程逻辑id，其位数由节点的个数以2为底取对数决定，目的id——接受数据的线程逻辑id，位数与源id相同，地址域——要传送的数据的地址，根据系统的寻址空间确定，数据域——传送的数据，宽度由系统的字长决定，使能、确认和忙闲信号各1位——用于传递时的控制；转发总线连接在各个局部一级数据cache上，用于完成不同处理节点的一级数据cache之间共享数据的传送，同时设计一个转发仲裁逻辑依据源id解决访问冲突；

1.3在片内各处理器节点间设计一个双环结构，它由连接在一级数据cache之间的两个相向传播的单向环形消息通路L-ring和S-ring构成，用于传递各个节点的数据访问信息，访问的信息包括数据的地址和访问者的逻辑标识id，以消息形式在该结构上传播，每个时钟周期前进一个节点，直至被接收或回收，根据这些信息对本节点拥有的新数据进行转发、并通过CPU执行补偿代码或重新运行该线程解决本地节点的超前访问，解决处理器间的cache一致性，辅助多处理器系统高效并发运行；L-ring传递Load消息，S-ring传递Store消息；处理节点通过环形结构串联起来，每个处理节点运行一个线程，各个线程之间也存在逻辑关系，按照先后依次运行在环上的每个处理节点，处理节点的排列和线程的分布形成一个顺序的对应关系；

1.4增加专门的逻辑控制电路来扩展处理节点一级cache控制器的功能，使得该控制器除了完成CPU对cache进行指令和数据访问中的失效、写回和替换的处理功能外，还通过双环结构发布自身所属处理节点对于数据的访问信息，获取和传播其它节点对于数据的访问情况，并借助转发总线完成对局部cache一致性的维护；

1.5对一级数据cache标志位进行扩展：保留一般cache中设计的V和D位，添加RS位，表明在执行新的线程时该数据块是否需要设置为无效；添加U、L、S位，以字为单位进行标识，U位表明本处理节点有没有修改过该字，修改过则置1；L用于标识本处理节点是否读取过该字，在第一次读取之前会发送Load消息，获得最新数据后将L位设置为1，以后的读取则不必发送Load消息；S位表明针对本节点的修改是否发送过Store消息，发送store消息是将其设置为1，当该数据被其它节点读取时，就将它清除为0。

2根据权利要求1所述的一种片内多处理器局部cache一致性的双环监听方法，其特征在于在一级cache控制器中增加所述逻辑控制电路后，一级cache控制器工作过程是：

2.1 CPU对数据的读取和写回访问都发送给本地处理节点的一级数据cache，该一级cache作如下的处理：

2.1.1访问时命中cache，对于读取(Load)操作，根据该数据块中相应字的L和U标志位判断本地节点是否读取或修改过该数据，判断结果为真，则将数据传送到本地处理器；否则通过L-ring向前驱节点发送Load消息，如果前驱节点中拥有更新的数据，则通过转发总线读取新的数据到数据cache，没有新数据则不读取转发总线，最后将正确的数据传送给处理器，同时设置L位；对于存储(Store)操作，则将数据写入一级cache，如果S位为0，通过S-ring向后继节点的cache发送Store消息，并设置S位为1，否则不发送store消息，无论是否发送消息，数据写入后CPU都继续执行，即消息的发送与CPU运行是并行的；

2.1.2访问时如果发生cache失效，相应CPU暂停；

2.1.2.1如果需要写回，对于主处理节点，将数据写回二级cache；对于非主处理节点，仅将数据缓冲，成为主处理节点后方能真正写回；

2.1.2.2不需要写回或者写回已经完成，向二级cache发送读请求，将数据所在的数据块读取到本处理节点的cache，同时对于Load操作通过L-ring向前驱发送Load消息；从二级cache的读取完成后，对于Load操作，根据Load消息的返回结果对数据块进行更新，而后发送给CPU使它继续执行，同时设置L位；对于Store操作，将数据存入刚读进的数据块，CPU继续执行，同时通过S-ring向后继节点发送Store消息并设置S位；

2.2 cache控制器收到消息时，根据消息的不同类型分别进行处理：

2.2.1从L-ring上收到来自后继节点的Load消息，根据消息中的地址信息，查找本地的cache是否具有该数据的新拷贝，存在新的拷贝则通过转发总线将新的数据拷贝传递给相应的处理节点，同时清除cache中该数据的S位，否则对于主处理节点发送确认信号给本消息的源节点表明各个处理节点都不存在新的数据拷贝，对于非主处理节点就将消息继续向自身的前驱节点进行传递；

2.2.2从S-ring上收到来自前驱节点的Store消息，根据源节点与本地节点的关系分别处理如下：

2.2.2.1如果本处理节点属于该消息的后继节点，则根据消息中的地址信息，检查cache的L位，判断本处理节点是否读取了该数据的旧拷贝，如果读过则进行必要的补救措施：可以执行一定的补偿代码，代码通过编译器设置或者重新执行本地的线程，同时设置消息中的R位，而后将消息向后继传递；如果没有读取过该数据的旧拷贝，如果U位为1，清除消息中对应的W位，而后发送消息，否则直接转发该消息到后继节点；

2.2.2.2如果本处理节点属于该消息的逻辑前驱，则将消息向后继节点传递，同时按照消息中的地址信息，检查本地cache中是否具有该数据块，有则设置RS位为1，表明本处理节点执行新的线程时需要将该数据块无效；

2.2.2.3如果该消息是由本节点发送的，则回收该消息；

2.3冲突解决和优先级的设置：环形结构决定了系统中同类型的消息只能够顺序传送；如果出现冲突则优先发送来自逻辑顺序较前的节点的消息，即对于L-ring上的处理是优先发送本地的Load消息，缓冲来自后继的Load消息；对于S-ring上的消息如果出现了冲突，比较逻辑顺序，发送逻辑顺序最前的消息，缓冲其他的；

2.4如果处理节点的逻辑标识id需要改变，在设计实现时，设计者有两种方法可选：先排空双环结构上的消息，再进行逻辑顺序号的改变；或者直接清除上面的消息，id更新后再重新发送这些消息。

3根据权利要求1所述的一种片内多处理器局部cache一致性的双环监听方法，其特征在于所述load消息含有对于cache中数据的读取信息，Store消息含有对于cache存储的信息，load消息和Store消息数据结构中都拥有的部分是：Th.id用于传递消息发起者的线程逻辑id；数据块地址用于传递该消息所涉及的数据块的地址；Wi表明消息感兴趣的某个或者某几个字；另外，Store消息中设计R位，用于传递发现了超前访问的信息。