DK168548B1

DK168548B1 - Cachesystem

Info

Publication number: DK168548B1
Application number: DK440585A
Authority: DK
Inventors: James W Keeley; Thomas F Joyce
Original assignee: Honeywell Inf Systems
Priority date: 1984-09-27
Filing date: 1985-09-27
Publication date: 1994-04-18
Also published as: US4695943A; PT81215A; EP0176972A2; FI853730A0; NO853797L; KR860002758A; DE3587439D1; NO173960B; YU154985A; AU4769685A; DK440585A; ATE91353T1; EP0176972A3; PT81215B; JPH0341857B2; NO173960C; FI91814C; MY101777A; IL76502A; ES8703652A1

Description

i DK 168548 B1

Den foreliggende opfindelse angår et cachesystem til tilvejebringelse af samtidig tilgang til en cacheenhed af flere tilgangsenheder, hvor hver af tilgangsenhederne, når de kræver tilgang til cacheenheden, leverer en adresserepræsentation af en hovedlager-5 plads.

Det er kendt, at cache!agre har været meget effektive til forøgelse af ydelsen af små og store enprocessor- og multiprocessorsystemer. I multiprocessorsystemer er cachelagre normalt konfigureret på en af to måder. Den første er en delt cachekonfiguration, hvor et 10 cachelager anvendes for en eller flere hoved!agermoduler. Det er tilgængeligt for alle processorerne i systemet. Den anden konfiguration er et privat cachearrangement, hvor cachelageret er reserveret til en enkelt processor. Disse konfigurationer er beskrevet i en artikel med benævnelsen "Effects of Cache Coherency in Multiproces-15 sors" af Michael Dubois og Fay A. Briggs, IEEE Transactions on Computers, Volume C-31, nr. 11, november 1982.

Endvidere er multiprocessorsystemer blevet konfigureret til at have en fælles styreenhed, som indbefatter et cachelager. USA patentskrifterne nr. 4.378.591 og 4.392.200 viser eksempler på disse 20 systemtyper. I sådanne systemer er behandlingsenhederne forbundet med en fælles bus og indbefatter arbitrationskredsløb til allokering af til rådighed værende buscykler for at få tilgang til cachelageret. Det har vist sig, at der medgår en betydelig tid til at løse tilgangskonflikter blandt processorer. Dette reducerer igen system-25 ydelsen udover at forøge systemets kompleksitet.

I systemet omhandlet i USA patentskrift nr. 4.378.591 er andre kilder for anmodninger og buscykler, såsom et først ind først ud (FIFO) lager endvidere indbefattet i cachesubsystemet. Denne resource skal tilsikres tilgang til cachelageret via den lokale bus på 30 prioritetsbasis. FIFO'en tilsikres en højere prioritet end behandlingsenhederne, så at informationsoverførsler, der sædvanligvis er hovediagerskriveoperationer, vil have forrang. Dvs. at cacheopdate-ringsoperationerne tildeles en højere prioritet end processoranmodningerne, hvilket yderligere nedsætter hastigheden af systemets ar-35 bejde.

Et kendt uniprocessorsystem anvender et lagersystem, der indeholder et cache- og hovedlager implementeret af fuldt segmenterede pipelines. Systemet er en enkelt personlig datamat og kan som sådan kun rumme et enkelt brugersystem. Med hensyn til en omtale af DK 168548 B1 2 systemet kan der henvises til en artikel med benævnelsen "The Memory System of a High-Performance Personal Computer" af Douglas W. Clark, Butler W. Lampson og Kenneth A. Pier, IEEE Transactions on Computers, Volume C-30, nr. 10, oktober 1981.

5 Fra US-A 4.349.871 kendes et multiprocessorsystem med et cache!ager, hvor en pipelineenhed genererer ressourcer for processorerne til anvendelse af cachelageret, hvilke ressourcer anvendes i fast rækkefølge og kan betjene forskellige processorer. Dette kendte system vedrører specielt "pipelining" af ressourcerne i det omhand-10 lede system, d.v.s. bussen og elementerne i den fælles kontrol (Common Control). P-bussen, lagerledelseskredsløbet, adresseoversættelseskredsløbet, cachelageret og cachetræfkontrol kredsløbet bliver således allokeret til en anmodende processor i den rækkefølge, der angives, når en lagerlæseanmodning foretages. En efterføl-15 gende anmodende processor kan allokere de samme ressourcer i den samme rækkefølge, men ikke tidligere end en ressource efter den tidligere processor.

Formålet med den foreliggende opfindelse er at tilvejebringe et højtydende cachesystem, som er i stand til at håndtere fordringer 20 fra flere kilder. Det er yderligere opfindelsens formål at tilvejebringe et system, som muliggør, at uafhængigt arbejdende kilder er fælles om en cacheenhed på et konfliktfrit grundlag.

De ovenfor angivne formål og fordele opnås med et cachesystem ifølge den foreliggende opfindelse, som er ejendommeligt ved: 25 en tidsstyreenhed til synkronisering af tilgang til cacheen- heden af tilgangsenhederne, så at kun en af tilgangsenhederne ad gangen tillades indledende tilgang til cacheenheden, et første trin til at modtage en adresserepræsentation og til at søge i cacheenhedens adresseliste efter en tilsvarende adresse-30 repræsentation, og hvis søgningen er vellykket, til at levere udgangssignaler, som repræsenterer pladsen for tilsvarende data indeholdt i cachelageret, og et andet trin til at modtage udgangssignalerne, og som er indrettet til at reagere derpå for at opnå tilgang til pladsen i 35 cachelageret, som er repræsenteret ved de nævnte udgangssignaler, hvor tidsstyreenheden samtidig tillader en af tilgangsenhederne tilgang til det første trin og en anden af tilgangsenhederne tilgang til det andet trin umiddelbart efter en vellykket søgning i adresselisten.

DK 168548 B1 3

Der er således i henhold til opfindelsen tale om en dobbeltcyklus cache, som tillader to processorer tilgang dertil og på samme tid. Cachelageret tillader en processor at søge i adresselisten samtidig med, at en tidligere søgende processor, som har forårsaget 5 et adresselistetræf, har tilgang til cachelageret for at søge de "fundne" data. Denne form for drift muliggør en to gange forøgelse i ydeevnen af cachelageret ved at undgå ledige elementer deri.

Ved at lade cachelagerstyreapparatet synkronisere operationen af kilderne bliver muligheden for konflikt mellem kilder effektivt 10 elimineret for derved at forøge systemets ydelse. Cachelageret bliver således cyklet kontinuerligt, hvilket tillader konfliktfri operation af pipelinetrinnene af alle kilder.

I den foretrukne udførelsesform er hver centralenhedskilde endvidere programmeret til at fordre brug af mindre end alle tids-15 kanalerne, som er allokeret til den af cacheenheden, dvs. i den foretrukne udførelsesform fordrer hver central processorkil de hver-anden tidskanal, som er allokeret til den. De øvrige tidskanaler bliver således stillet til rådighed for andre kilder. I den foretrukne udførelsesform er en sådan anden kilde en først ind først ud 20 (FIFO) buffer, som håndterer opdaterings- og erstatningsanmodninger. Arrangementet ifølge den foreliggende opfindelse tillader, at disse anmodninger håndteres under de frie tidskanaler ved en hastighed, som forhindrer noget overløb af bufferen.

Mere detaljeret angivet indbefatter den foretrukne udføre!ses-25 form et centralenhedssubsystem med to centralenheder (CPU'er). Hver CPU har en virtuel lagerstyreenhed til at oversætte virtuelle adresser for anmodninger til fysiske adresser. Hver centralenhed er mikroprogramstyret således, at skiftevise mi kroinstruktioner kodes for generering af anmodninger ved hveranden mi kroinstruktions 30 operationscyklus. Synkroniseringsstyrekredsløb, som indgår i cachelageret, genererer signaler til synkronisering af taktkredsløbene i hver centralenhed med forskellige tidsintervaller. Disse intervaller er forskudt et tilstrækkeligt antal tidskanaler for således at tilvejebringe en konfliktfri operation af sådanne subsystemer.

35 De nye særlige træk, som anses for ejendommelige for opfindel sen både med hensyn til dens organisering og arbejdsmåde tillige med yderligere formål og fordele, skal herefter beskrives nærmere under henvisning til tegningen, hvor fig. 1 viser et blokdiagram over et system, som indbefatter 4 DK 168548 Bl apparatet ifølge den foreliggende opfindelse, fig. 2 et blokdiagram over et af de centrale subsystemer i fig. 1 udført i henhold til den foreliggende opfindelse, 5 fig. 3a til 3c mere detaljeret tids- og styrekredsløbene i fig. 2 og fig. 4 et tidsdiagram, som anvendes til at forklare virkemåden af apparatet ifølge den foreliggende opfindelse.

10 På tegningen viser fig. 1 et multiprocessordatabehandlingssy stem 10, som indbefatter et antal subsystemer 14 til 30, der i fællesskab er koblet til en systembus 12. De illustrerede subsystemer indbefatter et antal central subsystemer 14 til 16, et antal lagersubsystemer 20 til 28 og et periferi subsystem 30. Hvert subsystem 15 indbefatter et grænsefladeområde, som tillader enheden eller enhederne i tilknytning dertil at sende eller modtage anmodninger i form af kommandoer, afbrydelser, data eller svar/status til en anden enhed på systembussen 12 på asynkron måde. Dette vil sige, at hvert grænsefladeområde kan antages at indbefatte busgrænsefladel ogik-20 kredsløb, såsom dem der er omhandlet i USA patentskrift nr.3.995.258 med benævnelsen "Data Processing System Having a Data Integrity Technique", opfundet af George J. Barlow.

Organiseringen af hvert af central subsystemerne 14 til 16 er den samme. Fig. 2 viser i blokdiagramform central subsystemet 14, der 25 er organiseret i henhold til den foreliggende opfindelse. Subsystem 14 indbefatter et par centralenheds (CPU) subsystemer 14-2 og 14-4, der er koblet således, at de er fælles om et cachesubsystem 14-6. Cachesubsystemet 14-6 er koblet til systembussen 12 over et først ind først ud (FIFO) subsystem 14-10, der kan betragtes som værende 30 indbefattet i grænsefladeområdet 14-1.

Som det fremgår af fig. 2, er de to CPU subsystemer 14-2 og 14-4 identiske i opbygningen. Dette vil sige, at hvert CPU subsystem indbefatter en 32-bit centralenhed (CPU) (dvs. CPU'er 14-20 14-40) og en virtuel lagerstyreenhed (VMMU) (dvs. VMMU 14-26 og 14-46) til 35 oversættelse af CPU virtuelle adresser til fysiske adresser for præsentation overfor cachesubsystemet 14-6 som en del af lagerforespørgslerne. Hvert CPU subsystem indbefatter også et læsel ager (ROS) og et 16-bit ROS dataudlæseregister (RDR) (dvs. ROS 14-24, 14-44 og RDR 14-25, 14-45).

DK 168548 B1 5

Ved begyndelsen af hver cyklus bliver hver ROS konditioneret til at udlæse et 16-bit mikroinstruktionsord til sit dataudlæsere-gister (RDR), som definerer typen af operation, der skal udføres under cyklen (firmware skridt/box). Taktkredsløbene i hvert CPU 5 subsystem (dvs. kredsløbene 14-22 og 14-42) etablerer basistidsstyringen for dets subsystem styret af cachesubsystemet 14-6 som forklaret heri. Elementerne i hvert CPU subsystem kan opbygges af standardintegrerede kredsløbschips.

Som det fremgår af fig. 2, er cachesubsystemet 14-6 organiseret 10 i en kildeadressegenereringssektion og to separate pipelinetrin hver med sit eget dekode- og styrekreds. Kildeadressegenereringssektionen indbefatter blokke 14-62 og 14-64, som udfører kiIdeadresseselek-terings- og inkrementeringsfunktionerne. Det første pipelinetrin er et adressetrin og indbefatter kredsløbsblokkene 14-66 til 14-76 15 arrangeret som vist. Dette trin udfører funktionerne med hensyn til låsning af den genererede kildeadresse og katalogsøgning og træf sammenligning. Det første pipelinetrin tilvejebringer som udlæsning information i form af et niveaunummer og en søjleadresse. Operationerne af det første pipelinetrin taktstyres af tidsstyresignaler, 20 som frembringes af tids- og styrekredsløbene i blok 14-60.

Informationen fra det første trin bliver umiddelbart overført til det andet pipelinetrin og efterlader det første trin til rådighed for den næste kildeanmodning. Det andet pipelinetrin er et datatrin og indbefatter kredsløbene i blokkene 14-80 til 14-96 25 arrangeret som vist. Dette trin udfører funktionerne med hensyn til at give tilgang til de forlangte data fra bufferlagrene 14-88 og

14-90 eller erstatning/lagring af data med data modtaget fra FIFO

subsystem 14-10. Det andet pipelinetrin tilvejebringer således et 36-bit dataord for overførsel til et af CPU subsystemerne. Igen er 30 operationerne af det andet pipelinetrin taktstyret af tidsstyresignaler, som frembringes af tids- og styrekredsløbene i blok 14-60.

De forskellige blokke i det første og andet pipelinetrin er opbygget af standardintegrerede kredsløb, såsom dem der er beskrevet i "The TTL Data Book, Volume 3", Copyright 1984 fra Texas Instru-35 ments Inc. og i "Advanced Micro Devices Programmable Array Logic Handbook", Copyright 1983 fra Advanced Micro Devices, Inc. Eksempelvis er adresseselektorkredsløbet i blok 14-62 opbygget af to sæt af seks 74AS857 multiplexer chips, der er kaskadekoblet for at vælge en af fire adresser. Swapmultiplexeren i blok 14-92 er opbygget af DK 168548 B1 6 den samme chiptype. Låsene i blokkene 14-68 og 14-72 er opbygget af 74AS843 D-type låschips. Swapmultiplexeren og dataregisterkredsløbene i blok 14-70 er opbygget af et enkelt taktstyret programmerbart arraylogi kelement, såsom part nr. AMPA16R6A fremstillet af Advanced 5 Micro Devices, Inc.

Kataloglagrene 14-74 og 14-76 er opbygget af 8-bit skive cacheadressekomparatorkredsløb med part nr. TMS2150JL fremstillet af Texas Instruments Incorporated. Adresse- og dataregistrene 14-80 til 14-84 og 14-94 og 14-96 er opbygget af 9-bit grænseflade flip-flop 10 med part nr. SN74AS823 fremstillet af Texas Instruments, Inc. Bufferlagrene er opbygget af 4k x 4-bit lagerchips med part nr. IMS1420 fremstillet af INMOS Corporation. Adresseinkrementkreds-løbene i blok 14-64 er opbygget af standard ALU chips betegnet med part nr. 74AS181A og et programmerbart array logikelement med part 15 nr. AmPAL16L8A fremstillet af Advanced Micro Devices, Inc.

Det første og andet niveau af kommandoregister- og dekodekredsløb i blok 14-66 henholdsvis 14-86 anvender taktstyrede programmerbare array logikelementer med part numrene AmPAL16R4A og AmPAL16R6A fremstillet af Advanced Micro Devices, Inc. Disse kreds-20 løb genererer de krævede selektions-, læse- og skrivestyresignaler som angivet i fig. 2 (dvs. signalerne SWAPLT+00, SWAPRT+00, PO LDDT-0L, P1LDDT-0L, POLDDFOR, P1LDDT-0R). Med hensyn til yderligere detaljer kan der henvises til ligningerne i Appendix.

Som det fremgår af fig. 2, er cachesubsystemet 14-6 organiseret 25 i lige og ulige sektioner, som tillader, at to dataord får tilgang samtidigt i afhængighed af enten en lige eller ulige lageradresse.

Med hensyn til yderligere information om denne type af cache-adresseringsarrangement kan der henvises til USA patentskrift nr. 4.378.591, som er overdraget til ansøgeren i den foreliggende 30 ansøgning.

Fig. 2 viser også i blokform FIFO subsystem 14-10, der indbefatter FIFO styre- og taktstyrekredsløbene i blok 14-11, som er koblet til et udskiftningsadresseregister 14-12 og til systembussen 12. FIFO subsystem 14-10 modtager hele den information, som over-35 føres mellem hvilke som helst to subsystemer på systembus 12. Når informationen tjener til opdatering af data i hovedlageret, kodes informationen til at indikere denne opdaterings- eller udskiftningsoperation. FIFO subsystem 14-10 modtager også eventuelle nye data hidrørende fra en lagerfordring, som sendes til systembus 12 af DK 168548 B1 7 cachesubsystem 14-6. Både opdaterings- og nye data lagres som fordringer i et bufferlager, som indgår i subsystem 14-10. FIFO styrekredsløbene dekoder hver fordring og initierer de korrekte operationscykler, som resulterer i, at adressedata og ordrer føres 5 til forskellige dele af cachesubsystem 14-6 som vist i fig. 2. Med henblik på den foreliggende opfindelse kan FIFO subsystemet anses for konventionelt i udformning og have form som FIFO kredsløbene omhandlet i USA patentskrift nr. 4.195.340, der er overdraget til ansøgeren i den foreliggende ansøgning.

10 Den grundlæggende tidsstyring for hvert af subsystemerne i fig.

2 etableres af tids- og styrekredsløbene i blok 14-60. I henhold til den foreliggende opfindelse tillader denne styring den konfliktfrie deling af cachesubsystemet 14-6 mellem CPU subsystemerne 14-2 og 14-4 og FIFO subsystemet 14-10. Kredsløbene i blok 14-60 er vist 15 mere detaljeret i fig. 3a til 3c. Fig. 3a viser adressevælgelo-gikkredsløb i blok 14-600, som genererer styresignaler PT0SEL+00, PT1SEL+00, SLFIAD+00 og SLRPAD+00. Disse signaler genereres i afhængighed af CPU cachefordringssignaler P0RDO2+10 og P1RD02+10 fra CPU subsystemerne 14-2 og 14-6, CPU port optaget signaler PT0BSY-00 20 og PT1BSY-00 fra grænsefladeområdet 14-1, FIFO signaler FIUPDT+00 og FISHBA+00 fra FIFO subsystem 14-10 og adressetidsstyresignaler TM1AD2+00 og TM3AD4+00 fra tidsstyrekredsløbene i blok 14-640. Disse signaler konditionerer adresseselektoren 14-62 til at selektere et af subsystemerne 14-2, 14-4 og 14-10 som en fordringsadressekilde.

25 Som det fremgår af fig. 3a, indbefatter kredsløbene 0G-porte 14-602 til 14-608 og en ELLER-port 14-610. Figuren viser også bitposition 2 i RDR registre 14-25 og 14-45 og en del af FIFO blok 14-11 indbefattende en 0G-port 14-112, som genererer signaler FIUPDT+00 og FISHBA+00.

30 Fig. 3b viser pipelinetaktkredsløbene i blok 14-620. Disse kredsløb definerer de forskellige typer af cache!agercykl er, som kan initiere starten af pipeline'en, som resulterer i genereringen af signalet STPIPE+00. Signalet STPIPE+00 konditionerer et taktstyreregister 14-632, som genererer en forudbestemt følge af signaler i 35 afhængighed af hver fordring.

Mere detaljeret angivet tilvejebringer hver af NAND-porte 14-622 til 14-628 et signal, som indikerer en aktivitetstype, der kræves af et af subsystemerne i fig. 2. Dette vil sige, at signaler POCARD-OO henholdsvis P1CARD-00 indikerer en cachefordring om DK 168548 B1 8 service af CPUO subsystem 14-2 og CPU1 subsystem 14-4, medens signaler FISHBA-10 og FIUPDT-10 indikerer cachefordringer om service af FIFOsubsystem 14-10. Disse fordringer kan summeres som følger: 1. CPUO Læsecvklus 5 En CPUO læsning sker i afhængighed af en cachefordring, som initieres af ROS 14-24 (dvs. signalet P0RD02+10=1) under en første tidskanal/interval (dvs. signalet TIME01+00=1), når CPU port 0 i grænsefladen 14-1 ikke er optaget (dvs. signalet PT0BSY-10=1). Adressen, som leveres af CPUO subsystem 14-2, 10 føres til det første pipelinetrin, og kataloget læses. Når en træffer detekteres, hvilket indikerer, at de forlangte data er lagret i databufferen, bliver bufferen læst, og dataene taktstyres ind i CPUO dataregistret. Når en forbier detekteres, bliver CPUO porten gjort optaget, fordringen sendes til lageret 15 for at hente de krævede data.

2. CPU1 Læsecvklus

En CPU1 læsning forekommer i afhængighed af en cachfordring initieret af ROS 14-44 (dvs. signalet P1RD02+10=1) under en tredie tidskanal/interval (dvs. signalet TIME03+00+1), når CPU 20 port 1 i grænsefladen 14-1 ikke er optaget (dvs. signalet PT1BSY-10=1).

3. Anden Halvbuscvklus

En anden halvbuscyklus forekommer i afhængighed af en første type af cachfordring initieret af FIFO subsystem 14-10 for 25 data, som fordres fra enten hovedlageret eller en I/O anord ning, som returneres på systembussen 12 (dvs. signalet FISHBA= 1) under en første eller tredie tidskanal/interval (dvs. signalet TM10R3+00=1), når FIFO subsystem 14-10 har en fordring lagret (dvs. signalet FIHAVE+10=1). Når FIFO subsystem 30 14-10 leverer data fra en I/O anordning til det første pipeli netrin, overføres de derigennem uden ændring af tilstandene af nogen af lagrene og taktstyres ind i det pågældende CPU dataregister. Data fra hovedlageret indskrives i cachedatabufrene og taktstyres ind i de pågældende CPU dataregistre.

35 4. Laaerskri veopdateri nqscvkl us

En lagerskriveopdateringscyklus forekommer i afhængighed af en anden type af cachefordring initieret af FIFO subsystem 14-10 for erstatning eller opdatering af data, som modtages fra systembus 12 (dvs. signalet FIUPDT+00=1) ved kvittering for DK 168548 B1 9 sådanne data (dvs. signalet F1ACKR+00=1) under en første eller tredie tidskanal/interval (dvs. signalet TM10R3+00=1), når FIFO subsystem 14-10 har en fordring lagret (dvs. signalet FIHAVE+ 10=1). FIFO subsystem 14-10 leverer data til det første 5 pipelinetrin, hvilket resulterer i læsningen af kataloglageret.

Når en træffer detekteres, bliver erstatningsdataene indskrevet i bufferlageret.

Når et hvilket som helst af signalerne P0CARD-00 til F1UPDT-10 gøres lavt til et binært nul, gør en IKKE ELLER-port 14-630 (ækvi-10 valent med en NAND-port) startpipesignalet STPIPE+00 højt til et binært et. Dette konditionerer registret 14-632 til at påbegynde tælling i afhængighed af hvert taktsignal MCL0CK+00. Registret 14-632 er forbundet som en ringtæller, således at registerudgangssignalerne føres tilbage til successive registerindgangstrin direkte 15 eller efter at være inverteret af et inverterkredsløb 14-634 som vist. Registret 14-632 fortsætter med at tælle ved at videreføre impulsen, som lades i det første trin i afhængighed af hver forekomst af taktsignalet MCL0CK+00. Dette frembringer en følge af impulser, som svarer til signalerne ΡΙΡΕ0Α+0Α til PIPEOB-OB. Takt-20 signaler MCL0CK+00 genereres af ikke viste krystalosci11atortidsty-rekredsløb, som indgår i blok 14-60. Taktsignalerne MCL0CK+00 føres også som indgangssignaler til CPU taktkredsløb i blokkene 14-22 og 14-42.

Fig. 3c viser hovedtælleren og synkroniseringsstyrekredsløbene 25 i blok 14-640 og FIFO cyklusvælgelogikkredsløbene i blok 14-660.

Kredsløbene i blok 14-640 genererer i afhængighed af taktsignalet MCLOCK+00 den krævede følge af tidsstyresignaler TIME01+00 til TM10R3+00, som definerer de forskellige tidskanaler/intervaller, under hvilke cachesubsystem 14-6 udfører de krævede operationer for 30 behandling af subsystemcachefordringer.

Hovedtælleren indbefatter et register 14-650 og tilknyttede IKKE OG og ELLER-porte 14-642 henholdsvis 14-644 til 14-648 forbundet som vist. Arrangementet fungerer som en ringtæller, der kontinuerligt inkrementeres eller tælles frem af hvert taktsignal 35 MCLOCK+00. Hovedtælleren fører tidsstyresignaler TIME01+00 og TIME03+00 til synkroniseringsstyrekredsløbene i blok 14-652. Disse kredsløb genererer signalet P0MSYN+00 og signalet P1MSYN+00, der føres til CPUO og 1 taktkredsløbene i blok 14-22 henholdsvis 14-24. Hvert sådant signal synkroniserer operationen af CPU taktkredsløbene DK 168548 B1 10 med cachesubsystemets tids- og styrekredsløb. Mere specifikt bliver synkroniseringssignalet P0MSYN+00 ført til en indgang på TIME02 flip-flop trinnet i et ringtællerregister, som indgår i blok 14-44. Hvert sådant signal tillader, når det optræder, fremtælling af CPU 5 taktkredsløbene med de korrekte tidsintervaller. Signaler POMSYNC+OO og P1MSYNC+00 genereres således, at de forbliver forskudt i forhold til hinanden med to tidskanaler/intervaller (se Appendix).

FIFO cyklusvælgel ogikkredsløbene i blok 14-660 indbefatter et par IKKE ELLER-porte 14-662 og 14-664, et par OG-porte 14-666 og 10 14-668, en NOR-port 14-670, en IKKE OR-port (NAND) 14-672 og et taktstyret D-type register flip-flop trin 14-674, som er forbundet i serie som vist. Disse kredsløb genererer FIFO cyklussignalet CYFIF0+00 og FIFO signalet D0AFIF+00 i tidskanaler/intervaller TIME02 og TIME04, som synkroniserer operationen af FIFO subsystem 15 14-10 med operationen af cachesubsystem 14-6 som forklaret heri.

Beskrivelse af virkemåde

Under henvisning til fig. 1 -3c skal virkemåden af den foretrukne udførelsesform ifølge den foreliggende opfindelse nu beskrives under henvisning til tidsdiagrammet i fig. 4. Det antages, at 20 ringtællerkredsløbene i blokkene 14-620 og 14-640 i fig. 3b og 3c cykler eller opererer (dvs. tæller i afhængighed af taktsignaler MCL0CK+00), og at begge ROS lagre 14-24 og 14-44 er blevet initialiseret til forudbestemte tilstande. Som tidligere nævnt er ROS ordene i hvert ROS lager passende kodet for således at tilvejebringe 25 mønstre af skiftevise ettere og nuller, som definerer cyklerne, som er allokeret CPU subsystemerne 14-2 og 14-4. Denne kodning er vist i fig. 2, hvor bitposition 2 i hvert ROS ord er kodet overensstemmende hermed.

Ved forflanken af signalet TIME01+00 bliver ROS ordet takt-30 styret ind i CPU0 ROS dataregistret 14-25. Kommandofeltet i ROS ordet undersøges (dvs. bit 0 og 1). Når bit 0 og 1 er "10", angiver dette, at cachesubsystem 14-6 skal udføre en systembusfordring, hvor data skrives eller læses fra en anordning, der er forbundet med systembus 12. Antages det, at cachefordri ngen specificerer en 35 hovedlagerlæseoperation, læser cachesubsystem 14-6 cachlageret. På dette tidspunkt bliver ROS databit 2 undersøgt for at fastslå, om CPU0 skal anvende den næste fremkommende cachepipelinecyklus, som svarer til tidsintervallerne T2 og T3 eller ikke. Når bit 2 er et nul, angiver dette, at CPU0 subsystem 14-2 ikke skal anvende den DK 168548 B1 11 næste cachecyklus. Når bit 2 er en et, angiver dette imidlertid, at CPUO subsystem 14-2 skal anvende den næste cachecyklus.

Det antages, at portkredsløbene for CPUO subsystem 14-2 ikke er optaget med at behandle en anden systembusfordring (dvs. signalet 5 PTOBSY-10=1). Som det fremgår af fig. 3b, gør NAND-porten 14-622 signalet P0CARD-00 til et nul, hvilket bringer IKKE ELLER-porten 14-630 til at gøre startpipesignalet STPIPE+00 til et binært et. Som det fremgår af fig. 4, er dette signal gyldigt ved bagkanten af signalet TIME01+00. Dette vil sige, at startpipesignalet STPIPE+00 10 som angivet ved det skraveret markerede område er gyldigt indtil forkanten af signalet betegnet som CPUO cyklus i fig. 4.

Det vil også bemærkes, at medens tidssignalet STPIPE+00 genereres, bringer signalet P0RD02+10 svarende til ROS dataordbit 2 tillige med tidsstyresignalet TM1AD2+00 og port optaget signalet 15 PT0BSY-00 OG-porten 14-602 i fig. 3a til at gøre adressevælgesig-nalet PT0SEL+00 til en et. Dette konditionerer eller konfigurerer adresseselektoren 14-62 til som adressen, der skal føres til ulige og lige låsene 14-68 og 14-72, at vælge 33-bit adressen fra CPUO VMMU 19-26.

20 Startpipesignalet STPIPE+00 føres til ringtælleren 14-623 i fig. 3b og taktstyres til den første bitposition ved forkanten af det andet taktsignal MCL0CK+00. Som det fremgår af fig. 4, resulterer dette i genereringen af signalet ΡΙΡΕ0Α+0Α.

Den første forekomst af startpipesignalet STPIPE+00 definerer 25 en CPUO cyklus. Signalet PIPE0A+00 føres som et taktindgangssignal til de ulige og lige adresselåse 14-68 og 14-72. Det samme signal føres til det første niveauregister og dekodekredsløbene i blok 14-66 og swapmultiplexerdataregistret 14-70. Ved forkanten af signalet PIPE0A+00 bliver låsene 14-68 og 14-72 aktiveret, og ved bag-30 kanten af signalet bliver låsene konditioneret til at lagre cache-fordringsadressen, som genereres af CPUO VMMU 14-26. Dette vil sige, at lige adresselåsene 14-72 lagrer en lige adresseværdi, som tidligere er inkrementeret med en af inkrementkredsløbet 14-64, hvis den oprindelig adresse var ulige. Den ikke inkrementerede ulige adres-35 seværdi er lagret i ulige adresselåsene 14-68.

De ulige og lige adresseindhold af låsene 14-68 og 14-72 føres til de ulige og lige kataloglagre 14-74 og 14-76. Idet det antages, at de krævede data ligger i cache, udlæser kataloglagrene 14-74 og 14-76 niveau- og søjleinformationen, som designerer pladserne i DK 168548 B1 12 respektive bufferlagre 14-88 og 14-90, hvor de krævede data ligger. Dekodekredsløbene i blok 14-66 genererer de pågældende kataloglæses i gnal er, som taktstyres ind i det programmerbare array logikudgangsregister i afhængighed af signalet P1PE0A+0A. Dette afslutter 5 operationerne, som udføres af det første pipelinetrin.

Som det fremgår af fig. 4, lades katalogniveau- og søjleinformationen i det ulige og lige adresseregister 14-80 og 14-84 i det andet pipelinetrin ved forkanten af signalet ΡΙΡΕ0Β+0Α. Dette signal genereres af ringtælleren 14-632 i afhængighed af det tredie takt-10 signal MCL0CK+00. Signalet PIPEOA+OB, som genereres i afhængighed af det andet taktsignal MCLOCK+OO, anvendes ikke.

Samtidig bliver det lige og ulige adresseregister 14-80 og 14-84 taktstyret af signalet ΡΙΡΕ0Β+0Α, andet niveau kommandoregister- og dekodekredsløbene i blok 14-86 dekoder kommandoordet, 15 hvilket reresulterer i genereringen af venstre og højre swapping- signaler SWAPLT+00 og SWAPRT+00, som føres til swapmultiplexeren 14-92. Swappingsignalerne såvel som de andre signaler, der frembringes af kredsløbene i blok 14-86, taktstyres ind i det programmerbare array logikudgangsregister i afhængighed af signalet 20 P1PE0B+0A.

De ulige og lige dataord, som udlæses fra det ulige og lige bufferlager 14-88 og 14-90 overføres over swapmultiplexeren 14-92 som specificeret af signalerne SWAPLT+00 og SWAPRT+00. Kredsløbene i blokken 14-86 genererer også venstre halvord- og højre halvordsig-25 naler P0LDDT-0L og P0LDDT-0R, som tillader, at et enkelt eller dobbelt ord taktstyres ind i CPU0 dataregistret 14-94 i afhængighed af taktsignalet ΡΙΡΕ0Β-0Β. Dataordene bliver derefter overført under mikroprogramstyring til CPU subsystem 14-2.

Som det fremgår af fig. 3b, er signalet ΡΙΡΕ0Β-0Β komplementet 30 af signalet ΡΙΡΕ0Β+0Β i fig. 4, som genereres af ringtælleren 14-632 i afhængighed af det fjerde taktsignal MCLOCK+00. Dette afslutter operationerne af det andet pipelinetrin.

Som det fremgår af fig. 4, udføres en lignende følge af operationer af det første og andet pipelinetrin ved behandling af en 35 cachehovedlagerfordring for CPU1 subsystem 14-4. Dette vil sige, at et andet startpipesignal STPIPE+00 genereres i tiden T3, ved at NAND-porten 14-624 bringer signalet P1CARD-00 på et binært nul. I tidsintervallet T4 når bufferlageradresserne for CPU0 cachefordringen lades i registrene 14-80 og 14-84, bliver de ulige og lige DK 168548 B1 13 cachefordringsadresser fra CPU1 subsystem 14-4 låst ind i de ulige og lige adresselåse 14-68 og 14-72.

I tilfælde af en anden cachetræffer udlæser kataloglagrene 14-74 og 14-76 derefter niveau- og søjleinformationen, som designe-5 rer pladserne i de ulige og lige cachebufferlagre 14-88 og 14-90, hvor de krævede data ligger. I afhængighed af signalet PIPEOB+OA lades denne information i de ulige og lige adresseregistre 14-80 og 14-84. Samtidig genererer kredsløbene i blok 14-86 ved kommandodekodning venstre og højre swappingsignaler SWAPLT+00 og SWAPRT+00 10 såvel som signaler P1LDDT-0L og P1LDDT-0R.

Resultatet er, at dataordene, som udlæses fra de ulige og lige bufferlagre 14-80 og 14-84 og overføres via swapmultiplexeren 14-92, taktstyres ind i CPU1 dataregistret 14-96. Dette afslutter behandlingen af den anden cachefordring.

15 Det antages nu, at FIFO subsystem 14-10 kræver servicering, hvilket resulterer i genereringen af et tredie startpipesignal STPEPE+00. Denne cyklus kan hidrøre fra den ene eller den anden af to typer af fordringer som omtalt ovenfor.

I henhold til den foreliggende opfindelse bliver FIFO subsystem 20 14-10 betjent, når der er et frit pipelinetrin. Et frit pipelinetrin forekommer i tiden TI, når CPU0 ROS databit 2 er et nul, eller i tiden T3, når en CPU1 ROS databit 2 er et nul. Dette tillader, at FIFO subsystem 14-10 betjenes i disse tider. FIFO cykler forekommer således til tiden 2 og tiden 4, når de tilsvarende CPU subsystemer 25 ikke forlanger cachecykler.

I fig. 4 antages det, at CPUO subsystem 14-2 og CPU1 subsystem 14-4 ikke anvender de følgende TI og T3 tidskanal er/cykl er. Når FIFO subsystem 14-10 genererer en cacheskriveopdateringsfordring, er kilden for cachefordringsadressen fra FIFO adressedelen af kommando doen, som leveres af kredsløbene 14-11. Dette vil sige, at adresse-selektoren 14-62 konditioneres eller figureres til at overføre denne adresse til ulige og lige låse 14-68 og 14-72.

Signalet ΡΙΡΕ0Α+0Α taktstyrer informationen ind i låsene, samtidig med at data fra FIFO subsystemkredsløbene 14-11 taktstyres ind d5 i swapregistret i blok 14-70. Programmerings array logikkredsløbene i blok 14-70 konditioneres af signaler fra FIFO subsystemet 14-10 (dvs. adressebit 22) til korrekt at bringe de venstre og højre dataordhalvdele på linie, hvorpå de taktstyres ind i swapregistret ved forkanten af signalet ΡΙΡΕ0Α+0Α.

DK 168548 B1 14

Som det fremgår af fig. 4, lader signalet PIPEOB+OA i tilfælde af en træffer niveau- og søjleinformationen i ulige og lige adresseregistrene 14-80 og 14-84 og designerer pladser i ulige og lige cachebufferlagrene 14-88 og 14-90, hvor dataene, som skal opdateres, 5 ligger. Samtidig bliver opdateringsdataene taktstyret ind i dataregistret 14-82. Derefter bliver opdateringsdataene skrevet i ulige og lige bufferlagrene 14-88 og 14-90 styret af skrivesignaler, der genereres af dekodekredsløbene i blok 14-86. Som det fremgår af fig. 3c, gør kredsløbene i blok 14-660 signalet DOAFIFIOO til et binært 10 et, når signalet P0RD02+10 er et nul i tiden TI (dvs. signalet TIME01+00=1). Som det fremgår af fig. 4, gør signalet D0AFIF+00 signalet CYFIF0+00 til et binært et i afhængighed af taktsignalet MCL0CK+00. Signalet CYFIF0+00 føres til FIFO kredsløbene i blok 14-11 og resulterer i inkrementering af de interne FIFO tæller-15 kredsløb, som fuldfører behandlingen af fordringen lagret i FIFO subsystem 14-10. Dette afslutter også behandlingen af FIFO fordringen af cachesubsystemet 14-6.

Det antages under den næste FIFO cyklus, at FIFO system 14-10 leverer en cacheudskiftningsfordring, som bringer NAND-porten 14-626 20 i fig. 3b til at gøre signalet FIUPDT-10 til et nul. Dette resulterer i genereringen af det fjerde startpipesignal STPIPE+00. I dette tilfælde vil RAR registret 14-12 være blevet ladet, da fordringen indledningsvis blev sendt til systembussen 12 i afhængighed af en CPU cachefordring. Følgelig udføres en lignende følge af operationer 25 af cachesubsystemet 14-6.

Det vil bemærkes, at FIFO cyklerne initieres af signalet D0AF1F+00 til tiden TI henholdsvis tiden T3, når signalet P0RD02+00 eller PT0BSY-10 er et nul, og signalet P1RD02+10 eller PT1BSY-10 er et nul. Dette bringer FIFO cyklerne til at forekomme til tiderne T2 30 og T4. I hvert tilfælde, når begge signaler (dvs. P0RD02+10, ΡΤ0 BSY-10 og P1RD01+10, PT1BSY-10) er ettere, udelukker dette genereringen af enten signalet SLFIF0+0A eller signalet SLFIF0+0B, som udelukker forekomsten af en FIFO cyklus. FIFO cyklerne bliver således udelukket, når CPU subsystemet allokeret tidskanal en/cykl en 35 anvender cyklen.

I værste fald kan der være højst to fordringer stablet i FIFO subsystem 14-10. Der kan således være op til to FIFO cykler, som forekommer i modtakt, når FIFO subsystemet 14-10 er fuldt som vist i fig. 4 som forklaret ovenfor. Arrangementet ifølge den foreliggende DK 168548 B1 15 opfindelse sikrer, at der altid er nok frie pipelinetrin til at betjene FIFO system 14-6 ved den maksimale hastighed, ved hvilken det modtager fordringer fra systembus 12. Dette opnås ved at tillade hvert CPU subsystem at udnytte en cachecyklus for hvert andet 5 mikroinstruktionsord/firmwarekasse. For CPU subsystem 14-2 kan hvert andet mikroinstruktionsord, som udlæses for hver tid TI, specificere en cgchefordring. Det samme gælder for CPU subsystem 14-4 for mikroinstruktionsordet, som udlæses for hver tid T3. På denne måde kan cachesubsystem 14-6 behandle cachefordringer fra et antal kilder 10 uden konflikt.

Det vil forstås, at når cachesubsystem 14-6 detekterer en fejlslagen tilstand i afhængighed af en CPU cachefordring, vil dette resultere i, at grænsefladeområdekredsløbene 14-1 bringer portkredsløbene i en optaget tilstand (dvs. signalet PT0BSY-10 eller 15 PT1BSY-10 gøres til et nul). Dette bliver igen sendt tilbage til CPU subsystemet og bringe r det til at standse sin operation. Da denne operation ikke er afgørende for forståelsen af den foreliggende opfindelse, skal den ikke forklares yderligere.

Af det ovenstående vil det ses, hvorledes den foreliggende op-20 findel se muliggør hurtig behandling af cachefordringer fra flere kilder. Den tillader tidsdeling af et cachesubsystem blandt de forskellige subsystemer i et multiprocessorsystem på et konfliktfrit grundlag. Dette tillader den fortsatte behandling af cachefordringer fra andre kilder, når dataene, som forlanges af én kilde, ikke 25 ligger i cache.

APPENDIX

Ligningerne til generering af signalerne i fig. 2 er givet ved de følgende Boolske udtryk: 30

1. *POLDDT-OL=CPUCYL*CPUNUM*DBWDRD*EVNHIT*ODDHIT

" y— ’ CPU Læsecyklus +CPUCYL»CPUNUM.DBWDRD.CMAD22.CMAD23·EVNHIT, 35 ' — "y" CPU Læsecyklus +CPUCYL*CPUnUm»DBWDRD^CMAD22 »CMAD23«0DDHIT^ CPU Læsecyklus DK 168548 B1 16 +^UCYL-FIAm»FI$H^-RPMREF^

I/O SHBC

+CPUCYL»FIAD17»FISHBA«RPMREF.^

MEM SHBC

2. *POLDDT-OR=^UCYL«CPUNUM»DBWDRD«J[VNHIT«^^HITj 10 ___CPU Læs +CPUCYL»CPUNUM»DBWDRD»CMAD22»EVNHITj CPU Læs +CPUCYL« CPUNUM«DBWDRD«CMAD22«ODDHITj 15 ^ CPU Læs +CPUCYL« FIAD17«FISHBA^RPMREF^

I/O SHBC

20 +CPUCYL« FIAD17« FISHBA«RPMREF.

3. *PlLDDT-OL=samme som 1 undtagen CPUNUM=CPUNUM.

4. *PlLDDT-OR=samme som 2 undtagen CPUNUM=CPUNUM.

25 *Disse signaler taktstyres med signalet PIPEOB+OA.

5. *SWAPLT=CPUCYL«CMAD22J

^ r" CPU Læs 30 +CPUCYj^ISHBA«RWREF»RPAD22^

MEM SHBC

6. *SWAPRT=CPUCYL·DBWDRD·CMAD2 2 _j -r 35 CPU Læs +CPUCYL·DBWDRD·CMAD22 ^ _ CPU Læs +CPUCYL-FISHBA-RPMREF- DK 168548 B1 17 (FIDBWD*RPAD22+FIDBWD·RPAD22)..

\__----

MEM SHBC

7. CPUCYL=P0RD02*TMIAD2+P1RD02.TM3AD4= 5 PT0SEL+00+PT1SEL+00.

8. CPUNUM=PlRD02*TM3AD4=PTlSEL+00.

9. CPUNUM=P0RD02.TMlAD2=PT0SEL+00.

10. P0MSYNCH+00=DATA AVAIL*TIME01+P0RD15*TIME01 hvor DATA AVAIL=P0LDDT-0L* POLDDT-OR.

10 11. P1MSYNCH+00=DATA AVAIL*TIME03+P0RD15-TIME03 hvor DATA AVAIL=P1LDDT-0L*P1LDDT-0R.

*Disse signaler taktstyres med signalet PIPEOB+OA.

15 Beskrivelse af 1ioninastermer 1. DBWDRD = dobbelt ord læsekommando defineret af ROS databit 4 = 1 og ROS databit 5=0 genereret af dekodekredsløbene i blok 14-66, som taktstyres med signalet PIPEOA+OA.

2. CPUNUM = CPU nummer (CPUO eller CPU1) signal genereret af 20 kredsløbene i blok 14-66, som taktstyres med signalet PIPEOA+OA.

3. CPUCYL = CPU cyklussignal genereret af kredsløbene i blok 14-66 i afhængighed af signalerne PTOSEL+OO og PT1SEL+00, og som taktstyres med signalet PIPEOA+OA.

25 4. EVNHIT = træffersignal genereret af lige kataloglager 14-76, som føres til dekodekredsløbene i blok 14-86.

5. CMAD22 = cache!ageradressebit 22 genereret på udgangen af selektor 14-62.

6. CMAD23 = cachelageradressebit 23 genereret på udgangen af 30 selektor 14-62, og som specificerer hvilken halvdel (venstre eller højre) af dataregistret 14-94 eller 14-96, der skal lades med et dataord.

7. FIAD17 = FIFO adressebit 17 fra FIFO subsystem 14-11 definerer, hvilken CPU der skal modtage erstatningsdataene.

35 8. FIDBWD = FIFO dobbeltbred ordkommandobit fra FIFO subsystem 14-11 specificerer, når dataene, som returneres, har to ord.

9. FISHBA = FIFO anden halvdel buscykluskvitteringssignal fra 14-11 specificerer, at FIFO subsystemet kræver en cachecyklus for at behandle data, som modtages fra en I/O anordning eller 18 DK 168548 B1 et lager under en anden halv buscyklus SHBC.

10. ODDHIT = træffersignal genereret af ulige kataloglager 14-74, som føres til dekodekredsløbene i blok 14-86.

11. RPMREF = lagerreferencesignal, som tilvejebringes af RAR 14-12, 5 der tillader, at hvilke som helst undtagelsesbetingelser tages i betragtning.

12. RPAD22 = erstatningsadressebit 22 fra RAR 14-12.

Det vil af fagfolk forstås, at mange ændringer kan udføres på den foretrukne udførelsesform ifølge den foreliggende opfindelse.

10 Eksempelvis kan systemtidsstyringen ændres, idet eksempelvis forskellige tidskanaler kan allokeres til subsystemerne, ligesom kodningen af ROS lagrene 14-24 og 14-44 kan ændres til at anvende forskellige cykler (f.eks. hver tredie, fjerde osv.). Også antallet af bit og cachebredden kan ændres (dvs. behandle enkelte, dobbelte 15 eller firedobbelte ord).

20 25 30 35

Claims

1. Cachesystem til tilvejebringelse af samtidig tilgang til en cacheenhed (14-74,76,88,90) af flere tilgangsenheder (14-2,4), hvor 5 hver af tilgangsenhederne, når de kræver tilgang til cacheenheden, leverer en adresserepræsentation af en hovedlagerplads, kendetegnet ved: en tidsstyreenhea (14-60) til synkronisering af tilgang til cache-10 enheden af tilgangsenhederne, så at kun en af tilgangsenhederne ad gangen tillades indledende tilgang til cacheenheden, et første trin (14-68,70,72) til at modtage en adresserepræsentation og til at søge i cacheenhedens adresseliste (14-74,76) efter en 15 tilsvarende adresserepræsentation, og hvis søgningen er vellykket, til at levere udgangssignaler, som repræsenterer pladsen for tilsvarende data indeholdt i cachelageret (14-88,90), og et andet trin (14-80,82,84,92) til at modtage udgangssignalerne, og 20 som er indrettet til at reagere derpå for at opnå tilgang til pladsen i cachelageret (14-88,90), som er repræsenteret ved de nævnte udgangssignaler, hvor tidsstyreenheden samtidig tillader en af tilgangsenhederne 25 tilgang til det første trin og en anden af tilgangsenhederne tilgang til det andet trin umiddelbart efter en vellykket søgning i adresselisten.

2. Cachesystem ifølge krav 1, kendetegnet ved, at 30 tidsstyreenheden (14-60) synkroniserer tilgangen af hver tilgangsenhed ved at synkronisere deres respektive taktkredsløb (14 -2 2,14-42) for at tillade tilgangsenhederne skiftevise indledende tilgangsintervaller til cacheenheden.

3. Cachesystem ifølge krav 2, kendetegnet ved: en yderligere tilgangsenhed (14-10), hvor i det mindste en af de synkroniserede tilgangsenheder er programmeret til selektivt at frafalde et af sine tilgangsintervaller for at tillade indledende 20 DK 168548 B1 tilgang til cacheenheden af den yderligere tilgangsenhed.

4. Cachesystem ifølge krav 3, kendetegnet ved, at de synkroniserede tilgangsenheder er CPU-subsystemer, og at den yder- 5 ligere tilgangsenhed (14-10) er et FIFO-subsystem til at præsentere yderligere anmodninger om tilgang til cacheenheden.

5. Cachesystem ifølge krav 1, kendetegnet ved en adresseselektor (14-62), der er koblet til hver af tilgangsenhederne 10 for at modtage adresserepræsentationerne, og at tidsstyreenheden (14-60) er koblet til tilgangsenhederne og adresseselektoren for at bringe adresseselektoren til til det første trin at overføre adresserepræsentationen, som leveres af den ene af tilgangsenhederne, som er tilladt tilgang til det første trin af tidsstyreenheden. 15 20 25 30 35