BRPI0610926A2

BRPI0610926A2 - método e equipamento para predizer instruções de ramificação

Info

Publication number: BRPI0610926A2
Application number: BRPI0610926-8A
Authority: BR
Inventors: Thomas Andrew Sartorius; Brian Michael Stempel; Jeffrey Todd Bridges; James Norris Dieffenderfer; Rodney Wayne Smith
Original assignee: Qualcomm Inc
Priority date: 2005-06-02
Filing date: 2006-05-24
Publication date: 2010-08-03
Also published as: CN101228506B; IL187609A0; EP1889152A2; US7278012B2; CN101228506A; US20060277397A1; JP2008542917A; WO2006130466A3; KR20080023723A; TWI317091B; WO2006130466A2; EP1889152B1; EP1889152A4; TW200713035A; KR100974384B1; JP4950186B2

Abstract

Um microprocessador inclui duas tabelas de histórico de ramificação, e é configurado para utilizar uma primeira das tabelas de histórico de ramificação para predizer as instruções de ramificação que são acertos em uma cache alvo de ramificação, e para utilizar uma segunda das tabelas de histórico de ramificação para predizer as instruções de ramificação que são erros na cache alvo de ramificação. Como tal, a primeira tabela de histórico de ramificação é configurada para ter uma velocidade de acesso que coincide com a da cache alvo de ramificacão, de forma que sua informação de predição seja prontamente disponível com relação á detecção de acerto de cache alvo de ramificação, que pode ocorrer mais cedo na seqúência de instrução de microprocessador. A segunda tabela de histórico de ramificação, dessa forma, só precisa ser tão rápida quanto necessário para fornecer a informação de predição temporal em associação com o reconhecimento dos erros da cache alvo de ramificação como instruções de ramificação, tal como nos estágios de decodificação de instrução da seqüência de instrução.

Description

"MÉTODO E EQUIPAMENTO PARA PREDIZER INSTRUÇÕES DE RAMIFICAÇÃO"

FUNDAMENTOS

Campo da Invenção

A presente invenção refere-se geralmente amicroprocessadores, e, particularmente, se refere amicroprocessadores de predição de ramificação.

Fundamentos Relevantes

Os microprocessadores em seqüência comumenteutilizam predição de ramificação para evitar a interrupçãode suas seqüências de instrução enquanto esperam adeterminação de se as instruções de ramificação condicionaldevem ser realizadas. Os mecanismos de predizer ramificaçãopermitem que tais microprocessadores "adivinhem" se asinstruções de ramificação condicional serão realizadas ounão, antes da avaliação real de suas condições deramificação.

Um método de predizer ramificação comum se baseiana manutenção de uma tabela de histórico de ramificação queinclui um número de contadores saturados, ou outrosindicadores de rastreamento, que fornecem a informação depredizer ramificação. Como um exemplo, um contador saturadode dois bits conta até um valor máximo de 11, e de formaregressiva até um valor minimo de 00, onde o valor 11representa realização forte, 10 representa realizaçãofraca, 01 representa não realização fraca e 00 representanão realização forte. Tais contadores podem ser mantidosdinamicamente com base na heurística de tempo defuncionamento, tal como o microprocessador rastreandocomportamentos de ramificação anteriores.

Visto que os ganhos de desempenho real obtidosatravés da predição de ramificação dependem nas precisõesde predição de ramificação, contadores diferentes podem serutilizados para faixas de endereço de instrução diferentes,de forma que o estado do indicador de cada contador refletede forma melhor o comportamento realizado/não realizado dasinstruções de ramificação dentro de uma faixa de endereçode instrução menor. 0 aperfeiçoamento da precisão depredição dessa forma pode resultar no uso de um númerorelativamente maior de contadores, visto que cada contadorfornece um elemento de predizer ramificação para uma faixade endereço de instrução relativamente pequena. Dessaforma, as tabelas de histórico de ramificação podem serrelativamente grandes, e a indexação nos mesmos pode exigira decodificação de um número significativo de bits deendereço de instrução para identificar a faixa de endereçode instrução relativamente estreita envolvida.

Os retardos limitam a capacidade de se realizaradicionalmente os ganhos de desempenho de predizerramificação através do uso de caches de endereço alvo deramificação (ou, de forma equivalente, os caches deinstrução alvo de ramificação). Tais caches alvo deramificação mantêm os endereços de instrução das instruçõesde ramificação reconhecidas previamente, por exemplo,instruções de ramificação que foram previamente recolhidas,decodificadas e identificadas como instruções deramificação pelo microprocessador, e as instruções deramificação podem ser detectadas antes da decodificaçãopela comparação do endereço de instrução de cada instruçãorecém recolhida para o conteúdo de cachê alvo deramificação. Um "acerto" de cache alvo de ramificaçãoindica que o endereço de instrução corresponde a umaramificação previamente reconhecida, enquanto um "erro" decache alvo de ramificação indica que a instrução não é umaramificação reconhecida previamente,, significando que omicroprocessador deve esperar até que o estágio dedecodificação de instrução determine se a instrução é umainstrução de ramificação.

Dessa forma, as instruções de ramificação que sãoacertos de cache alvo de ramificação podem ser previstascomo realizadas ou não realizadas sem esperar peladecodificação de instrução. No entanto, a capacidade de serealizar as previsões utilizando a tabela de histórico deramificação depende da informação de tabela estandodisponível na mesma quantidade de tempo que leva para sedetectar os acertos de cache alvo de ramificação. Grandestabelas de histórico de ramificação geralmente não estãoacessíveis rapidamente o suficiente para uso na prediçãodos acertos de cache alvo de ramificação.

A indisponibilidade de informação de prediçãotemporal força os microprocessadores a adotarem outrasabordagens. Em uma abordagem alternativa, as instruções deramificação que são os acertos de cache alvo de ramificaçãosão assumidos como tendo sido sempre realizadas, isso é, a"predição" é fixada como realizada. Tais abordagens podemlevar a previsões erradas várias vezes. Outra alternativa ése acelerar a tabela de histórico de ramificação,tipicamente tornando-a pequena o suficiente para seracessível logo nos estágios de recolhimento da seqüência deinstrução, de forma que a informação de predição estejadisponível antes da decodificação da instrução. No entanto,o encolhimento da tabela de histórico de ramificação dessaforma geralmente reduz as precisões de predição visto que omesmo elemento de predição (ou elementos) é utilizado parapredizer as ramificações através de uma faixa maior deendereços de instrução.SUMÁRIO DA DESCRIÇÃO

Em uma ou mais modalidades, um microprocessadorutiliza uma primeira tabela de histórico de ramificaçãopara predizer as instruções de ramificação que são acertosde cache alvo de ramificação, e utiliza uma segunda tabelade histórico de ramificação para predizer as instruções deramificação que são erros de cache alvo de ramificação. Aprimeira tabela de histórico de ramificação é configuradapara ter uma velocidade de acesso coincidente com a dacache alvo de ramificação, de forma que sua informação depredição esteja disponível logo na seqüência de instruçãodo microprocessador, onde os acertos e erros de cache alvode ramificação são detectados. Visto que a informação depredição não é necessária até mais tarde na seqüência, asegunda tabela de histórico de ramificação não precisa sertão rápida quanto a primeira tabela de histórico deramificação. Esse fato permite uma flexibilidadesignificativa na configuração do tamanho e da precisão dasegunda tabela de histórico de ramificação.

O microprocessador pode incluir um circuito depredizer ramificação que é configurado para direcionar orecolhimento de instrução de um cachê de instrução para aseqüência de instrução do microprocessador com base napredição de instruções de ramificação recolhidas naseqüência de instrução como realizadas ou não. Umamodalidade do circuito de predizer ramificação compreendeum cache alvo de ramificação configurado para armazenarinformação alvo de ramificação para as instruções deramificação conhecidas, uma primeira tabela de histórico deramificação configurada para armazenar a primeirainformação de predizer ramificação, uma segunda tabela dehistórico de ramificação configurada para armazenar asegunda informação de predizer ramificação,1 e uma lógica decontrole de ramificação. A lógica de controle deramificação pode ser configurada para predizer asinstruções de ramificação como realizadas ou não de acordocom a primeira informação de predizer ramificação para asinstruções de ramificação que são acertos de cache alvo deramificação, e de acordo com a segunda informação depredizer ramificação para as instruções de ramificação quesão erros de cache alvo de ramificação.

Em uma modalidade, a primeira tabela de históricode ramificação é configurada para ter uma velocidade deacesso coincidente com a da cache alvo de ramificação, e asegunda tabela de histórico de ramificação é configuradapara ter uma velocidade de acesso coincidente com a dacache de instrução. Mais geralmente, a primeira tabela dehistórico de ramificação é configurada de modo que suainformação de predizer ramificação esteja disponível emconjunto com a detecção dos acertos de cache alvo deramificação, por exemplo, logo nos estágios de recolhimentoda seqüência de instrução, enquanto a segunda tabela dehistórico de ramificação é configurada de forma que suainformação de predizer, ramificação esteja disponível emconjunto com o reconhecimento das instruções deramificação, por exemplo, mais tarde nos estágios dedecodificação da tubulação de instrução.

0 microprocessador acima pode consubstanciar umaou mais variações do método de predição de acertos de cachealvo de ramificação utilizando a primeira tabela dehistórico de ramificação, e a predição de erros de cachealvo de ramificação utilizando a segunda tabela dehistórico de ramificação. Por exemplo, o microprocessadorpode ser configurado para realizar as previsões iniciaispara os acertos de cache alvo de ramificação de acordo coma primeira informação de predizer ramificação, econfigurado para realizar as previsões subseqüentescorrespondentes para os acertos de cache alvo deramificação de acordo com a segunda informação de predizerramificação. Dessa forma, o microprocessador pode serconfigurado para direcionar o recolhimento de instrução deacordo com as previsões iniciais, e redirecionar de formacondicional o recolhimento de instrução de acordo com asprevisões subseqüentes correspondentes. Isso é, visto que asegunda tabela de histórico de ramificação pode ser maior(e mais precisa) do que a primeira tabela de histórico deramificação, o microprocessador pode redirecionar orecolhimento de instrução se a predição subseqüentecorrespondente não concordar com a predição inicialfornecida.

Adicionalmente, o microprocessador pode serconfigurado para atualizar a segunda informação de predizerramificação em resposta à solução das previsões deramificação realizadas para os acertos e erros de cachealvo de ramificação, de forma que a segunda informação depredizer ramificação reflita os históricos de ramificaçãopara ambos os acertos e erros de cache alvo de ramificação.Com essa abordagem, o microprocessador pode ser configuradopara atualizar a primeira informação de predizerramificação como uma função da segunda informação depredizer ramificação. Isso é, a segunda tabela de históricode ramificação é criada para refletir os históricos deramificação de todas as instruções de ramificação,executadas, representadas ou não na cache alvo deramificação.

Alternativamente, o microprocessador pode serconfigurado para atualizar a segunda informação de predizerramificação em resposta à solução das previsões deramificação realizadas para os erros de cache alvo deramificação, e pode ser configurado para atualizar aprimeira informação de predizer ramificação em resposta àsolução das previsões de ramificação criada para os acertosde cache alvo de ramificação. Com essa abordagem, aprimeira tabela de histórico de ramificação reflete oshistóricos de ramificação para as instruções de ramificaçãorepresentadas dentro da cache, e a segunda tabela dehistórico de ramificação reflete os históricos deramificação para as instruções de ramificação nãorepresentadas na cache.

BREVE DESCRIÇÃO DOS DESENHOS

A figura 1 é um diagrama em bloco de ummicroprocessador;

A figura 2 é um diagrama em bloco de um circuitode extremidade dianteira para uma seqüência de instruçãoque pode ser implementada no microprocessador da figura 1;

A figura 3 é um fluxograma do processamento deinstrução para uma modalidade do circuito de extremidadedianteira ilustrado na figura 2.

DESCRIÇÃO DAS MODALIDADES DA INVENÇÃO

Por meio de um exemplo não limitador, a figura 1ilustra um microprocessador 10, que pode compreender ummicroprocessador RISC em seqüência. Na modalidadeilustrada, o microprocessador 10 compreende circuitos deentrada/saida (1/0) 12, uma cache de instrução 14, umacache de dados 16, e uma seqüência de instrução 18, quecompreendem um circuito de extremidade dianteira 20, umaunidade de execução 22, e uma unidade de finalização 24.

Em operação, o circuito de extremidade dianteirarecolhe as instruções da cache de instrução 14, que podeser uma cache de Nível 1 embutida (LI). As instruções sãorecolhidas de acordo com um fluxo de programa de computadordefinido, que pode incluir ramificações de programa oupulos. O microprocessador 10 utiliza a predição deramificação para predizer ser as ramificações condicionaisserão realizadas ou não, de forma que geralmente nãointerrompa suas operações de recolhimento de instruçãoquando as instruções de ramificação condicional sãoencontradas.

As instruções recolhidas são decodificadas eemitidas para a unidade de execução 22, que pode serimplementada de acordo com uma arquitetura superescalonada.A unidade de execução 22 executa as instruções emitidas, e

a unidade de finalização 24 retira as instruçõesexecutadas. A unidade de finalização 24 pode compreender ummecanismo de escrita que armazena os resultados de execuçãoem um ou mais registros de arquivo alvo. Por meio de umexemplo não limitador, a unidade de execução 22 compreendeuma unidade inteira 26, uma unidade de carga/armazenamento28 e uma unidade de ponto flutuante 30. Dessa forma, ocircuito de extremidade dianteira 20 pode ser configuradopara despachar as instruções inteiras para a unidadeinteira 26, as instruções de acesso à memória para aunidade de carga/armazenamento 28, e assim por diante.

Os versados na técnica apreciarão que cadasubunidade dentro da unidade de execução 22 propriamentedita pode compreender vários estágios seqüenciais, e que assubunidades em particular implementadas dentro da unidadede execução 22 podem variar. Na verdade, os versados natécnica apreciarão que a arquitetura do microprocessador 10pode variar muito sem se distanciar dos métodos de predizerramificação e equipamento descritos aqui.

Voltando-se a um tratamento mais detalhado dapredição de ramificação de acordo com uma modalidade domicroprocessador 10, o circuito de extremidade dianteira 20compreende vários estágios seqüenciais, incluindo osestágios de recolhimento seqüencial 32 e 34 (tambémdenotados FE1 e FE2 no diagrama) , os estágios dedecodificação seqüencial 36 e 38 (também denotados DC1 eDC2 no diagrama) e um estágio de emissão/despacho 40(também denotado IS no diagrama). Um ou mais dessesestágios seqüenciais de extremidade dianteira sãoassociados com um circuito de predizer ramificação 42 quecompreende lógica de controle de ramificação 44, uma cachealvo de ramificação 46, uma primeira tabela de histórico deramificação 48 (também denotada BHT1 no diagrama), e umasegunda tabela de histórico de ramificação 50 (tambémdenotada BHT2 no diagrama).

O estágio de recolhimento 32' pode ser configuradopara manter um contador de endereço que representa oendereço de instrução da próxima instrução a ser recolhidadentro da seqüência de instrução 18. O valor mantido noestágio de recolhimento 32 é fornecido para a cache deinstrução 14, de forma que a cache de instrução 14 envie ainstrução de programa real mantida no endereçoespecificado, para decodificação pelo estágio dedecodificação 36. O valor mantido no estágio derecolhimento 32 é geralmente atualizado em cada ciclo derelógio. Para o recolhimento seqüencial, a atualização dovalor compreendendo o incremento do mesmo para que apontepara a próxima instrução de programa na seqüência atual deinstruções. No entanto, o recolhimento seqüencial não éadequado, se a última instrução recolhida for uma instruçãode ramificação condicional que será realizada. Ao invésdisso, o recolhimento de instrução deve ser redirecionadapara o endereço alvo da instrução de ramificação.

Para essa finalidade, o circuito de predizerramificação 42 utiliza a informação de histórico deramificação para predizer se uma instrução de ramificaçãocondicional fornecida será realizada ou não. Tal informaçãode ramificação pode ser gerada de acordo com uma ou maisheurísticas. Por meio de um exemplo não limitador, ainformação de predizer ramificação pode ser baseada nomonitoramento de quantas das últimas ramificações R foramrealizadas ou não. Tal informação pode ser refinada, talcomo pela manutenção da informação do histórico separadopara ramificações de avanço e retrocesso, e/ou pelamanutenção dos elementos de precisão de histórico deramificação para as sub-faixas do espaço de endereço deinstrução de programa geral, de forma que cada elemento depredizer ramificação reflita o comportamento realizado/nãorealizado de uma faixa de endereço de instruçãorelativamente pequena. A restrição de cada elemento depredição a uma faixa menor dos endereços de instrução podefornecer um elemento de predição mais preciso, visto que onúmero de ramificações representadas por cada elemento depredição é incluído e, de forma presumida, reflete mais oscomportamentos específicos desse número menor deramificações.

No entanto, a manutenção de um número maior deelementos de predição exige geralmente uma tabela dehistórico de ramificação grande, que pode reduzir a taxa naqual a tabela pode ser acessada. Uma velocidade de acessomenor não é problemática em termos de instruções deramificação que não são reconhecidas (e, dessa forma,imprevistas) até a etapa de decodificação na seqüência deinstrução 18, mas é problemática para instruções deramificação que são reconhecidas como instruções deramificação logo na seqüência de instrução 18, em virtudeda cache alvo de ramificação 46, que fornece aomicroprocessador 10 a capacidade de reconhecer se umainstrução recém recolhida é ou não uma instrução deramificação, antes de a instrução ser decodificada.

Por meio de exemplos não limitadores, que a cachealvo de ramificação 4 6 pode ser implementada como uma Cachede Endereço Alvo de Ramificação (conhecida como "BTAC"), oucomo uma Cache de Instrução Alvo de Ramificação (conhecidacomo "BTIC"). No primeiro caso, a cache alvo de ramificação46 armazena os endereços de instrução das instruções deramificação previamente identificadas, e armazena osendereços alvo da ramificação correspondente. No segundocaso, a cache alvo de ramificação 46 armazena o endereço deinstrução das instruções de ramificação previamenteidentificadas, as instruções alvo reais dessas instruçõesde ramificação, e o próximo endereço de instrução depois doendereço da instrução alvo.

Independentemente, se uma instrução fornecidativer sido previamente recolhida, decodificada eidentificada como uma instrução de ramificação condicional,seu endereço de instrução correspondente pode serarmazenado na cache alvo de ramificação 46. A cache alvo deramificação 4 6, dessa forma, armazena os endereços deinstrução das instruções de ramificação conhecidas, e oendereço de instrução de cada instrução recém recolhidapode ser comparado com os valores de endereço mantidos nacache alvo de ramificação 46. Uma combinação de comparação(um acerto de cache alvo de ramificação) significa que ainstrução recolhida recentemente é uma instrução deramificação conhecida, enquanto nenhuma combinação (um errode cache alvo de ramificação) significa que a decodificaçãode instrução será necessária para se determinar se ainstrução recém recolhida é uma instrução de ramificação.

Visto que o estágio no qual as instruções deramificação são identificadas com base na detecção deacerto de cache alvo de ramificação é mais cedo do que oestágio no qual as instruções de ramificação sãoidentificadas com base na decodificação de instrução, ainformação de predizer ramificação utilizada para predizeras instruções de ramificação que são acertos de cache alvode ramificação deve estar disponível mais rapidamente doque a informação de predizer ramificação utilizada parapredizer as instruções de ramificação que são erros decache alvo de ramificação. Dessa forma, em pelo menos umamodalidade do microprocessador 10, seu método de predizerramificação compreende a manutenção da cache alvo deramificação 46 para identificação das instruções deramificação conhecidas, determinação de se as instruções deramificação recolhidas na seqüência de instrução 18 domicroprocessador 10 são acertos de cache alvo deramificação ou erros de cache alvo de ramificação, e apredição das instruções de ramificação que são acertos decache alvo de ramificação como realizadas ou não de acordocom a primeira informação de predizer ramificaçãoarmazenada na primeira tabela de histórico de ramificação48, e a predição das instruções de ramificação que sãoerros de cache alvo de ramificação como realizadas ou nãode acordo com a segunda informação de predizer ramificaçãoarmazenada na segunda tabela de histórico de ramificação 50.

O método pode compreender adicionalmente aconfiguração da primeira tabela de histórico de ramificação48 para ter uma velocidade de acesso combinada com a dacache alvo de ramificação 46, e a configuração da segundatabela de histórico de ramificação 50 para ter umavelocidade de acesso combinada com a da cache de instrução14, da qual as instruções são recolhidas na seqüência deinstrução 18. Geralmente, a velocidade de acesso da cachede instrução 14 é tal que a instrução de programa real(recolhida) é fornecida para o primeiro estágio dedecodificação 36 no ciclo de relógio de instrução adequado.

Como um exemplo, a primeira tabela de histórico deramificação 48 e a cache alvo de ramificação 46 pode serconfigurada para ser acessível em M ciclos da seqüência deinstrução 18, e a segunda tabela de histórico deramificação 50 pode ser configurada como sendo acessível emN ciclos de seqüência de instrução 18, onde M e N sãoprimeiro e segundo números, com M sendo inferior a N.

Um método de configuração da primeira tabela dehistórico de ramificação 48 para que seja mais rápida doque a segunda tabela de histórico de ramificação 50compreende a configuração da primeira tabela de históricode ramificação 48 para armazenar um número menor deelementos de predizer ramificação do que a segunda tabelade histórico de ramificação 50, de forma que o acesso a umelemento de predizer ramificação na primeira tabela dehistórico de ramificação 48 leve menos tempo do que oacesso a um elemento de predizer ramificação na segundatabela de histórico de ramificação 50. Como notadopreviamente, os elementos de predição individuaisarmazenados nas tabelas de histórico de ramificação 48 e 50podem compreender contadores saturados, por exemplo,contadores de dois bits, que fornecem informação depredizer ramificação na forma de um indicador possuindoestados altamente realizado, pouco realizado, pouco nãorealizado e altamente não realizado. No entanto, deve-secompreender que as tabelas de histórico de ramificação 48 e50 podem adotar um tipo diferente de contador, ou adotaruma forma completamente diferente de elemento de predizerramificação.Em um aspecto adicional do método de predizerramificação de duas tabelas destacado acima, omicroprocessador 10 pode ser configurado para realizar asprevisões iniciais para os acertos de cache alvo deramificação de acordo com a primeira informação de predizerramificação, e realizar as previsões subseqüentescorrespondentes para os acertos de cache alvo deramificação de acordo com a segunda informação de predizerramificação. Isso é, o microprocessador 10 pode serconfigurado para controlar seu recolhimento de instruçãopara os acertos de cache alvo de ramificação com base emuma predição de ramificação inicial (cedo), realizadautilizando a informação armazenada na primeira tabela dehistórico de ramificação 48, e então a eliminação de talcontrole se a predição de ramificação subseqüentecorrespondente realizada utilizando a informação armazenadana segunda tabela de histórico de ramificação 50 nãoconcordar com a predição inicial.

Nesse contexto, a eliminação da predição anteriorpode compreender o redirecionamento do recolhimento deinstrução. Por exemplo, se a predição inicial forrealizada, o circuito de predizer ramificação 42 podedirecionar o recolhimento de instrução para o endereço alvode ramificação indicado, e, se a predição subseqüente nãofor realizada, o circuito de predizer ramificação poderedirecionar o recolhimento de instrução de volta para opróximo endereço seqüência depois da instrução deramificação não realizada. Existem muitas vantagens para oredirecionamento condicional (eliminação) das previsões deramificação anteriores utilizando as previsões deramificação subseqüentes, tal como onde a segunda tabela dehistórico de ramificação 50 é maior e, presumivelmente,mais precisa do que a primeira tabela de histórico deramificação menor e mais rápida 48.

Com o método acima, a segunda tabela de históricode ramificação 50 armazena a informação de predição que éutilizada para ambos os acertos de cache alvo deramificação e os erros de cache alvo de ramificação. Comotal, o método de atualização da segunda tabela de históricode ramificação 50 compreende a atualização da segundainformação de predizer ramificação em resposta à soluçãodas previsões de ramificação realizadas para os acertos eerros de cache alvo de ramificação, de forma que a segundainformação de predizer ramificação reflita os históricos deramificação para ambos os acertos de cache alvo deramificação e os erros. Isso é, a unidade de execução 22pode ser configurada para fornecer retorno para o circuitode predizer ramificação 42, quanto ao fato de se asinstruções de ramificação individuais, para ambos osacertos e os erros de cache alvo de ramificação, na verdadeforam realizadas ou não, e que o retorno pode ser utilizadopara atualizar a informação de predição armazenada nasegunda tabela de histórico de ramificação 50. Por sua vez,a informação de predição armazenada na primeira tabela dehistórico de ramificação 48 pode ser atualizada como umafunção da segunda informação de predizer ramificação(atualizada). De forma equivalente, pelo menos o retornopara os acertos de cache alvo de ramificação podem serfornecidos para o circuito de predizer ramificação 42, parauso direto na atualização da primeira tabela de históricode ramificação 48.

Outra modalidade do método de predizerramificação de duas tabelas ensinado aqui compreende oinicio dos acesso para as primeira e segunda tabelas dehistórico de ramificação 48 e 50 em resposta aorecolhimento de um endereço de instrução para dentro daseqüência de instrução 18, e a abortagem do acesso àsegunda tabela de histórico de ramificação 50 em resposta àdetecção de que um endereço de instrução é um acerto nacache alvo de ramificação 46. Dessa forma, omicroprocessador 10 inicia os acessos às primeira e segundatabelas de histórico de ramificação 48 e 50, em conjuntocom o recolhimento de uma nova instrução na seqüência deinstrução 18. Se a instrução recém recolhida for detectadacomo um acerto de cache alvo de ramificação, omicroprocessador 10 aborta o acesso à segunda tabela dehistórico de ramificação 50 como desnecessário.

A abortagem desse acesso sob tais circunstânciaspode economizar energia. Por exemplo, os amplificadorese/ou outros circuitos de saida utilizados para enviar osresultados de predição de ramificação a partir da segundatabela de histórico de ramificação 50 não precisam serenergizados. Adicionalmente, a iniciação dos acessos para asegunda tabela de histórico de ramificação 50 de acordo como método acima, mesmo se algum número desses acessos forabortado, garante que os resultados necessários estarãodisponíveis de forma temporal, isso é, o acesso à segundatabela de histórico de ramificação 50 é iniciado cedo naseqüência de instrução 18, de forma que os resultados dapredição da segunda tabela de histórico de ramificação 50para os erros de cache alvo de ramificação estejam prontose disponíveis posteriormente na seqüência de instrução 18.

Essa abordagem permite que a primeira tabela dehistórico de ramificação 48 armazene a informação depredição exclusivamente para as instruções de ramificaçãoque são os acertos de cache alvo de ramificação, e permiteque a segunda tabela de histórico de ramificação 50armazene a informação de predição exclusivamente para asinstruções de ramificação que a cache alvo de ramificaçãoperde. Como tal, o método de atualização de informação depredizer ramificação adotado pelo microprocessador 10 podecompreender a atualização da segunda informação de predizerramificação em resposta à solução das previsões deramificação realizadas para os erros da cache alvo deramificação, e a atualização da primeira informação depredizer ramificação em resposta à solução das previsões deramificação realizadas para os acertos de cache alvo deramificação.

Em outras palavras, o microprocessador 10 podeutilizar o retorno da unidade de execução 22, paradeterminar se as instruções de ramificação foram na verdaderealizadas ou não. O retorno para as instruções deramificação que foram acertos da cache alvo de ramificaçãopode ser utilizado para atualizar a informação de prediçãoarmazenada na primeira tabela de histórico de ramificação48, e o retorno para as instruções de ramificação que foramos erros da cache alvo de ramificação pode ser utilizadopara atualizar a informação de predição armazenada nasegunda tabela de histórico de ramificação 50. A segregaçãoda informação de predição dessa forma aperfeiçoa a precisãode predição do microprocessador 10, pelo menos no sentidode os acertos e erros de cache alvo de ramificação exibiremdiferentes comportamentos de realização/não realização.

A figura 2 fornece um diagrama em bloco funcionalde uma parte do microprocessador 10, onde os elementosfuncionais ilustrados podem ser configurados para realizaros métodos de predizer ramificação de duas tabelasensinados aqui. A partir da ilustração, se observa que oestágio de coleta 32 da seqüência de instrução 18 forneceendereços de instrução para a cache de instrução 14, e paraa lógica de controle de ramificação 44. A cache deinstrução 14 utiliza esses endereços para recolher ainstrução correspondente para o envio para o estágio dedecodificação 36 da seqüência de instrução, enquanto alógica de controle de ramificação 44 compara cada endereçorecolhido com a cache alvo de ramificação 46, para detectaras instruções de ramificação conhecidas, isso é, paraidentificar os endereços de instrução recolhidos quecoincidem com um endereço de instrução armazenado na cachealvo de ramificação 46.

Se a cache alvo de ramificação 46 retornar umaindicação de acerto para a lógica de controle deramificação 44, a lógica de controle de ramificação 44obtém a informação de predição a partir da primeira tabelade histórico de ramificação 48, para determinar se o acertode cache alvo de ramificação deve ser previsto comorealizado ou não. Se o indicador de predição indicar umapredição realizada, a lógica de controle de ramificação 44faz com que o próximo endereço de recolhimento do estágiode recolhimento 32 seja atualizado com o endereço alvo deramificação do acerto de cache de ramificação, que édenotado como "BTA (BTC HIT)" no diagrama, para indicar oEndereço Alvo de Ramificação (BTA) para um acerto de CacheAlvo de Ramificação (BTC).

Os endereços de instrução que são erros de cachealvo de ramificação se propagam seqüencialmente através dosestágios recolhidos 32 e 34, e as instruçõescorrespondentes a esses endereços são fornecidas pela cachede instrução 14 para decodificação do estágio dedecodificação 36. Nesse ponto, as instruções de ramificaçãodecodificadas que foram perdidas na cache alvo deramificação 46 são reconhecidas, e a lógica de controle deramificação 4 4 prevê as instruções de ramificação comorealizadas ou não utilizando a informação de predição dasegunda tabela de histórico de ramificação 50. Se foremprevistas como realizadas, a lógica de controle deramificação 44 fornece o estágio de recolhimento 32 com oendereço alvo de ramificação correspondente, denotado "BTA(BTC MISS)" no diagrama, para indicar a BTA para erro BTC.

A figura 3 ilustra a temporização de ciclo deacesso para uma ou mais modalidades da funcionalidadeacima, onde a primeira tabela de histórico de ramificação48 é configurada para ter uma velocidade de acesso quecoincide com a da cache alvo de ramificação 46. Essacombinação permite que o microprocessador 10 obtenha ainformação de predizer ramificação nos mesmos estágios deseqüência que o microprocessador 10 identifica asinstruções de ramificação com base na detecção dos acertosde cache alvo de ramificação. Como um exemplo, a cache alvode ramificação 46 e a primeira tabela de histórico deramificação 48 ambas podem estar acessíveis em M ciclos daseqüência de instrução 18 (por exemplo, M ciclos de relógiode instrução). A configuração permite que omicroprocessador 10 forneça endereços alvo de ramificaçãopara o estágio de recolhimento 32 depois de M + 1 ciclos,para as instruções de ramificação que são acertos de cachealvo de ramificação.

Adicionalmente, a segunda tabela de histórico deramificação 50 pode ser configurada para ter uma velocidadede acesso que coincide com a da cache de instrução 14, oucom qualquer velocidade adequada para o retardo entre orecolhimento do endereço de instrução e a decodificaçãosubseqüente da instrução correspondente pelo estágio dedecodificação 36. Como um exemplo, a cache de instrução 14e a segunda tabela de histórico de ramificação 50 podem serconfiguradas para serem acessíveis em N ciclos da seqüênciade instrução 19. Essa configuração permite que omicroprocessador 10 forneça os endereços alvo deramificação para o estágio de recolhimento 32 depois de N +1 ciclos, para as instruções de ramificação que são errosde cache alvo de ramificação.

Por meio de um exemplo não limitados, M pode serum ciclo de relógio, e N pode ser dois ciclos de relógio.

Dessa 'forma, o microprocessador 10 obtém as previsões deramificação para os acertos de cache alvo de ramificação emdois ciclos de relógio de instrução, utilizando a primeiratabela de histórico de ramificação 48, que pode serrelativamente pequena em termos de número de elementos depredizer ramificação individual que contém, em comparaçãocom a segunda tabela de histórico de ramificação 50.

Adicionalmente, o microprocessador 10 obtém as previsões deramificação para os acertos de cache alvo de ramificação emtrês ciclos de relógio de instrução, utilizando a segundatabela de histórico de ramificação 50.

A partir do exemplo acima, se observa que pelautilização de uma "mini" tabela de histórico de ramificação(isso é, a primeira tabela de histórico de ramificação 48) ,o microprocessador 10 obtém uma vantagem de desempenho depredição e recolhimento para as instruções de ramificaçãoque são detectadas como acertos de cache alvo deramificação. Ademais, esses ganhos de desempenho não vêm àcusta da manutenção de uma tabela de histórico deramificação principal arbitrariamente grande e(presumivelmente) mais precisa (isso é, a segunda tabela dehistórico de ramificação 50), que pode ser utilizada parapredizer as instruções de ramificação que não são acertosde cache alvo de ramificação, e/ou para eliminar asprevisões iniciais realizadas a partir da mini tabela.

Como tal, os versados na técnica apreciarão que apredição de ramificação de duas tabelas como descrita aquipode ser submetida a muitas variações, tal como em termosda arquitetura do microprocessador, as diferenças detemporização de acesso ao ciclo de instrução relativasentre as mini tabela e a tabela de histórico de ramificaçãoprincipal, caso os acertos de cache alvo de ramificaçãoforem exclusivamente ou inicialmente previstos utilizando-se a mini tabela, a heurística e métodos escolhidos paraatualização da mini tabela e da tabela de histórico deramificação principal, o formato particular da informaçãode predizer ramificação armazenada na mini tabela e natabela principal, os tamanhos relativos da mini tabela e databela principal, etc. Mais particularmente, os versados natécnica deve apreciar que a presente invenção não estálimitada pela discussão acima, ou pelos desenhos em anexo.

Na verdade, a presente invenção está limitada apenas pelasreivindicações a seguir e suas equivalências legais.

Claims

1. Microprocessador compreendendo um circuito depredição configurado para direcionar o recolhimento deinstrução para uma seqüência de instrução domicroprocessador com base nas instruções de ramificação depredição recolhidas na seqüência de instrução comorealizadas ou não, o dito circuito de predizer ramificaçãocompreendendo:uma cache alvo de ramificação configurada paraarmazenar informação alvo de ramificação para as instruçõesde ramificação conhecidas;uma primeira tabela de histórico de ramificaçãoconfigurada para armazenar a primeira informação depredizer ramificação;uma segunda tabela de histórico de ramificaçãopara armazenar a segunda informação de predizerramificação; elógica de controle de ramificação configuradapara predizer as instruções de ramificação como realizadasou não de acordo com a primeira informação de predizerramificação para as instruções de ramificação que sãoacertos de cache alvo de ramificação, e de acordo com asegunda informação de predizer ramificação para asinstruções de ramificação que são erros de cache alvo deramificação.

2. Microprocessador, compreendendo uma seqüênciade instrução que inclui ou é associada com:uma cache de instrução configurada para armazenartemporariamente instruções para o recolhimento na seqüênciade instrução;uma cache alvo de ramificação configurada paraarmazenar a informação alvo de ramificação para asinstruções de ramificação conhecidas;uma primeira tabela de histórico de ramificaçãoconfigurada para armazenar a primeira informação depredizer ramificação;uma segunda tabela de histórico de ramificaçãoconfigurada para armazenar a segunda informação de predizerramificação; ea lógica de controle de ramificação para predizeras instruções de ramificação como realizadas ou nãorealizadas de acordo coma primeira informação de predizerramificação para as instruções de ramificação que sãoacertos de cache alvo de ramificação, de acordo com asegunda informação de predizer ramificação para instruçõesde ramificação que são erros de cache alvo de ramificação.

3. Microprocessador, de acordo com areivindicação 2, no qual a primeira tabela de histórico deramificação é configurada para ter uma velocidade de acessoque coincide com a da cache alvo de ramificação, e onde asegunda tabela de histórico de ramificação é configuradapara ter uma velocidade de acesso que coincide com a dacache de instrução.

4. Microprocessador, de acordo com areivindicação 2, no qual a primeira tabela de histórico deramificação e a cache alvo de ramificação são configuradaspara serem acessíveis em M ciclos de seqüência deinstrução, e onde a segunda tabela de histórico deramificação é configurada para ser acessível em N ciclos deseqüência de instrução, onde M e N são os primeiro esegundo números, com M sendo inferior a N.

5. Microprocessador, de acordo com areivindicação 2, no qual a primeira tabela de histórico deramificação compreende um número menor de elementos deprecisão de ramificação do que a segunda tabela dehistórico de ramificação, de forma que o acesso a umelemento de predizer ramificação na primeira tabela dehistórico de ramificação leve menos tempo do que o acesso aum elemento de predizer ramificação na segunda tabela dehistórico de ramificação.

6. Microprocessador, de acordo com areivindicação 2, no qual o microprocessador é configuradopara realizar as previsões iniciais para os acertos decache alvo de ramificação de acordo com a primeirainformação de predizer ramificação, e configurado pararealizar as previsões subseqüentes correspondentes para osacertos de cache alvo de ramificação de acordo com asegunda informação de predizer ramificação.

7. Microprocessador, de acordo com areivindicação 6, no qual o microprocessador é configuradopara direcionar o recolhimento de instrução de acordo comas previsões iniciais, e redirecionar de forma condicionalo recolhimento de instrução de acordo com as previsõessubseqüentes correspondentes.

8. Microprocessador, de acordo com areivindicação 7, no qual o microprocessador é configuradopara redirecionar de forma condicional o recolhimento deinstrução, para uma predição inicial determinada, pararedirecionar o recolhimento de instrução se a prediçãosubseqüente correspondente não concordar com a prediçãoinicial determinada.

9. Microprocessador, de acordo com areivindicação 2, no qual o microprocessador é configuradopara atualizar a segunda informação de predizer ramificaçãoem resposta à solução das previsões de ramificaçãorealizadas para os acertos e erros de cache alvo deramificação, de forma que a segunda informação de predizerramificação reflita os históricos de ramificação para ambosos acertos e erros de cache alvo de ramificação.

10. Microprocessador, de acordo com areivindicação 9, no qual o microprocessador é configuradopara atualizar a primeira informação de predizerramificação como uma função da segunda informação depredizer ramificação.

11. Microprocessador, de acordo com areivindicação 2, no qual o microprocessador é configuradopara atualizar a segunda informação de predizer ramificaçãoem resposta à solução das previsões de ramificaçãorealizadas para os erros de cache alvo de ramificação, econfigurado para atualizar a primeira informação depredizer ramificação em resposta à solução das previsões deramificação realizadas para os acertos de cache alvo deramificação.

12. Microprocessador, de acordo com areivindicação 2, no qual o microprocessador é configuradopara iniciar os acessos às primeira e segunda tabelas dehistórico de ramificação em resposta ao recolhimento de umendereço de instrução na seqüência de instrução, econfigurado adicionalmente para abortar o acesso à segundatabela de histórico de ramificação em resposta à detecçãode que o endereço de instrução é um acerto na cache alvo deramificação, de forma que um acesso total da segunda tabelade histórico de ramificação seja evitado para instruções deramificação que são acertos de cache alvo de ramificação.

13. Microprocessador, de acordo com areivindicação 2, no qual a cache alvo de ramificaçãocompreende uma dentre uma cache de endereço alvo deramificação ou uma cache de instrução alvo de ramificação.

14. Método de predizer ramificação em ummicroprocessador:mantendo uma cache alvo de ramificação queidentifica as instruções de ramificação conhecidas;determinando se as instruções de ramificaçãorecolhidas em uma seqüência de instrução domicroprocessador são acertos de cache alvo de ramificaçãoou erros de cache alvo de ramificação; eprevendo instruções de ramificação que sãoacertos de cache alvo de ramificação como realizadas ou nãode acordo com a primeira informação de predizer ramificaçãoarmazenada em uma primeira tabela de histórico deramificação, e prevendo as instruções de ramificação quesão erros de cache alvo de ramificação como realizadas ounão de acordo com a segunda informação de predizerramificação armazenada em uma segunda tabela de históricode ramificação.

15. Método, de acordo com a reivindicação 14,compreendendo adicionalmente a configuração da primeiratabela de histórico de ramificação para ter uma velocidadede acesso que coincide com a da cache alvo de ramificação,e configurando a segunda tabela de histórico de ramificaçãopara ter uma velocidade de acesso que coincide com a de umacache de instrução a partir da qual as instruções sãorecolhidas para dentro da seqüência de instrução.

16. Método, de acordo com a reivindicação 14,compreendendo adicionalmente a configuração da primeiratabela de histórico de ramificação e cache alvo deramificação para ser acessível em M ciclos da seqüência deinstrução, e configurando a segunda tabela de histórico deramificação para ser acessível em N ciclos da seqüência deinstrução, onde M e N são primeiro e segundo números, com Msendo inferior a N.

17. Método, de acordo com a reivindicação 14,compreendendo adicionalmente a configuração da primeiratabela de histórico de ramificação para armazenar um númeromenor de elementos de predizer ramificação do que a segundatabela de histórico de ramificação de forma que o acesso aum elemento de predizer ramificação na primeira tabela dehistórico de ramificação leve menos tempo do que o acesso aum elemento de predição na segunda tabela de histórico deramificação.

18. Método, de acordo com a reivindicação 14, noqual a predição das instruções de ramificação que sãoacertos de cache alvo de ramificação como realizadas ou nãode acordo com a primeira informação de predizer ramificaçãoarmazenada em uma primeira tabela de histórico deramificação compreende a realização de previsões iniciaispara os acertos de cache alvo de ramificação de acordo coma primeira informação de predizer ramificação, e realizandoas previsões subseqüentes correspondentes para os acertosde cache alvo de ramificação de acordo com a segundainformação de predizer ramificação.

19. Método, de acordo com a reivindicação 18,compreendendo adicionalmente o direcionamento dorecolhimento de instrução de acordo com as previsõesiniciais, e o redirecionamento condicional do recolhimentode instrução de acordo com as previsões subseqüentescorrespondentes.

20. Método, de acordo com a reivindicação 19, noqual o redirecionamento condicional do recolhimento deinstrução de acordo com as previsões subseqüentescorrespondentes compreende, para uma determinada prediçãoinicial, o redirecionamento do recolhimento de instrução sea predição subseqüente correspondente discordar da prediçãoinicial determinada.

21. Método, de acordo com a reivindicação 14,compreendendo adicionalmente a atualização da segundainformação de predizer ramificação em resposta à soluçãodas previsões de ramificação realizadas para os acertos eerros de cache alvo de ramificação, de forma que a segundainformação de predizer ramificação reflita os históricos deramificação para ambos os acertos e os erros de cache alvode ramificação.

22. Método, de acordo com a reivindicação 21,compreendendo adicionalmente a atualização da primeirainformação de predizer ramificação como uma função dasegunda informação de predizer ramificação.

23. Método, de acordo com a reivindicação 14,compreendendo adicionalmente a atualização da segundainformação de predizer ramificação em resposta à soluçãodas previsões de ramificação realizadas para os erros decache alvo de ramificação, e atualização da primeirainformação de predizer ramificação em resposta à soluçãodas previsões de ramificação realizadas para os acertos decache alvo de ramificação.

24. Método, de acordo com a reivindicação 14,compreendendo adicionalmente a iniciação de acessos àsprimeira e segunda tabelas de histórico de ramificação emresposta ao recolhimento de um endereço de instrução naseqüência de instrução, e abortagem do acesso à segundatabela de histórico de ramificação em resposta à detecçãode que o endereço de instrução é um acerto na cache alvo deramificação, de forma que um acesso total da segunda tabelade histórico de ramificação seja evitado para as instruçõesde ramificação que são acertos de cache alvo deramificação.

25. Método, de acordo com a reivindicação 14,compreendendo adicionalmente a configuração da cache alvode ramificação como uma dentre uma cache de endereço alvode ramificação e uma cache de instrução alvo deramificação.