ITRM20120094A1

ITRM20120094A1 - Scheda di interfaccia di rete per nodo di rete di calcolo parallelo su gpu, e relativo metodo di comunicazione internodale

Info

Publication number: ITRM20120094A1
Application number: IT000094A
Authority: IT
Inventors: Davide Rossetti
Original assignee: Istituto Naz Di Fisica Nuclea Re
Priority date: 2012-03-14
Filing date: 2012-03-14
Publication date: 2013-09-14
Also published as: US20150039793A1; IT1411178B1; WO2013136355A1; US9658981B2

Description

Scheda di interfaccia di rete per nodo di rete di calcolo parallelo su GPU, e relativo metodo di comunicazione internodale

La presente invenzione riguarda una scheda di interfaccia di rete per nodo di rete di calcolo parallelo su GPU, e relativo metodo di comunicazione internodale.

PiÃ¹ precisamente, la presente invenzione riguarda una scheda ed un metodo di interfaccia di rete per nodo di rete di calcolo parallelo su GPU che permette di effettuare uno scambio di dati direttamente tra la GPU e la scheda, senza passare per l'host, risparmiando cosÃ¬ tempo di comunicazione e perciÃ² velocizzando i calcoli.

L'ambito di applicazione della soluzione della presente invenzione Ã ̈ principalmente il calcolo distribuito, da pochi nodi di calcolo fino alle soluzioni estreme di tipo HPC ("High Performance Computing", ovvero il calcolo numerico ad alte prestazioni), con migliaia di nodi di calcolo interagenti.

Il comportamento di un'applicazione numerica parallela, al variare del numero di nodi di calcolo su cui viene eseguita, Ã ̈ legato alle sue caratteristiche intrinseche, quali il tipo di calcolo, la dimensione della base di dati, il rapporto tra accessi di memoria detta memoria GPU, in modo tale che l'applicazione che gira sull'host sia informata che la memoria della GPU Ã ̈ in uso o disponibile per essere riutilizzata.

Preferibilmente secondo l'invenzione, la scheda comprende aggiuntivamente, quando il nodo di rete comprende una GPU configurata per trasmettere dati, un blocco di trasmissione diretta da GPU, il quale comprende mezzi atti a ricevere dalla GPU sia i dati da trasmettere sia i relativi metadati, e ad instradarli verso detto blocco di connessione alla rete in trasmissione, in modo tale che sia la GPU ad iniziare un'operazione di trasmissione nei confronti della NIC, senza alcun intervento dell'host.

Preferibilmente secondo l'invenzione, detto blocco di trasmissione diretta da GPU include una logica di controllo di messaggio ed un buffer di messaggio, il buffer di messaggio essendo atto a ricevere dati dalla GPU, la logica di controllo di messaggio essendo atta a ricevere metadati dalla GPU.

Preferibilmente secondo l'invenzione, detto blocco di trasmissione e blocco di ricezione comprendono ciascuno una logica di controllo e rispettivamente un buffer di trasmissione ed un buffer di ricezione.

E' ulteriore oggetto della presente invenzione un metodo di comunicazione internodale di un cluster di nodi, ciascun nodo di rete includendo un host, con una memoria host, su cui Ã ̈ installabile un'applicazione di calcolo, una GPU con una memoria di GPU, un bus ed una NIC, la NIC comprendendo un blocco di connessione alla rete in trasmissione ed un blocco di connessione alla rete in ricezione, il metodo comprendendo l'utilizzo della tecnica RDMA per la comunicazione di pacchetti di dati tra un nodo ricevente ed un nodo trasmittente, in cui il nodo ricevente, in una fase preliminare, registra un buffer di ricezione presso la NIC e ne comunica, in una fase preliminare, l'indirizzo di memoria al futuro nodo trasmittente ,

il metodo essendo caratterizzato dal fatto che ciascun nodo utilizza la scheda NIC secondo 1'invenzione e dal fatto che:

- in detta fase preliminare:

- l'applicazione di calcolo del nodo ricevente pre-alloca uno o piÃ¹ buffer sulla memoria di GPU del nodo ricevente;

- l'applicazione di calcolo del nodo ricevente registra preventivamente gli indirizzi di memoria di detti uno o piÃ¹ buffer presso la NIC del nodo ricevente, formando una lista di registrazione di buffer;

- detto nodo ricevente comunica preventivamente gli indirizzi di memoria di detti uno o piÃ¹ buffer al nodo trasmittente;

- detto nodo trasmittente invia i dati a partire dalla memoria della sua GPU, utilizzando il blocco di trasmissione della sua NIC a detto nodo ricevente insieme a metadati contenenti l'indirizzo di memoria di detti uno o piÃ¹ buffer, il nodo ricevente utilizzando il blocco di ricezione;

- al momento della ricezione dei pacchetti di dati, il blocco di ricezione della NIC del nodo ricevente riconosce gli indirizzi di memoria di detti uno o piÃ¹ buffer e invia i dati ricevuti alla memoria della sua GPU, utilizzando il blocco di gestione di memoria della GPU.

Preferibilmente secondo l'invenzione, la trasmissione dati tra nodo trasmittente e nodo ricevente comprende le seguenti fasi internamente al nodo trasmittente :

TI . l'host comunica a detto blocco di trasmissione della NIC metadati relativi alla trasmissione di dati, compresa la quantitÃ di dati da trasmettere e l'indirizzo virtuale del buffer di memoria GPU in cui sono presenti i dati da trasmettere,·

T2 . detto blocco di trasmissione manda detti metadati relativi alla trasmissione di dati a detto blocco di gestione di memoria della GPU;

T3 . detto blocco di gestione di memoria della GPU invia dei metadati alla GPU che provocano lo spostamento dei dati da detto indirizzo virtuale (GPU_MEM_ADDR) a detto buffer di trasmissione;

T4 . quando tutti i dati di detta quantitÃ di dati sono presenti in detto buffer di trasmissione, detto L'invenzione verrÃ ora descritta a titolo illustrativo ma non limitativo, con particolare riferimento ai disegni delle figure allegate, in cui:

- la figura 1 mostra la funzionalitÃ P2P GPU TX dell'invenzione, che permette ad un'applicazione eseguita sull'host di iniziare una trasmissione di dati presenti in un buffer GPU;

- la figura 2 mostra la funzionalitÃ P2P GPU RX del sistema secondo l'invenzione, la quale permette alla scheda di comunicazione secondo l'invenzione di completare la ricezione di dati destinati ad un buffer di memoria GPU;

- la figura 3 mostra la funzionalitÃ "GPU-as-TX-initiator" dell'invenzione, che permette alla GPU stessa di iniziare un'operazione di trasmissione nei confronti della NIC;

- la figura 4 mostra uno schema misto a blocchi e di flusso complessivo della NIC secondo la forma realizzativa relativa alle figure 1-3. Si definiscono i seguenti termini:

- Un cluster Ã ̈ un calcolatore parallelo dove il nodo di calcolo Ã ̈ un host di tipo commerciale, eventualmente dotato di uno o piÃ¹ acceleratori di calcolo e di una rete di interconnessione ad alte prestazioni e bassa latenza.

che consente di inviare i dati su iniziativa della GPU) delle trasmissioni, invece dell'host, evitando il passo

Per trasferimenti di piccole dimensioni, il punto permette di evitare i passi 2 e 5, risparmiando un tempo stimabile intorno al 66% dell'intera sequenza 2-5.

Per trasferimenti di grandi dimensioni, Ã ̈ piÃ¹ complesso stimare i vantaggi offerti dal punto , in quanto, con l'approccio tradizionale, Ã ̈ possibile ad esempio dividere i grandi vettori di dati in porzioni piÃ¹ piccole e sovrapporre i passi 0 e 0 su porzioni diverse. In questo caso perÃ² si osservano rilevanti effetti di cache pollutlon {ovvero quando un programma in esecuzione carica nella cache dati non necessari, provocando lo spostamento di altri dati in livelli piÃ¹ bassi della gerarchia di memoria, causando una perdita di efficienza) dovuti al passaggio dei dati per la memoria dell'host, cosa che Ã ̈ evitata tramite la tecnica<~>.

Inoltre Ã ̈ noto in letteratura che l'efficienza di molte delle applicazioni numeriche piÃ¹ diffuse Ã ̈ limitata nel caso in cui si trasferiscano solo di vettori di dati relativamente piccoli, come sopra spiegato.

Per sfruttare pienamente il punto nella ricezione dei dati, la tecnica RDMA Ã ̈ essenziale, soprattutto per la ricezione verso zone di memoria GPU. Tradizionalmente, l'approccio RDMA prevede che il nodo ricevitore, in una fase iniziale, registri il buffer di ricezione presso la NIC e ne comunichi preventivamente l'indirizzo di memoria al futuro nodo trasmittente (nodo che poi effettivamente trasmetterÃ i dai al nodo ricevitore) . Nella soluzione della presente invenzione, al momento della ricezione dei pacchetti di dati, la NIC riconosce che questi sono destinati alla GPU e li sposta sulla stessa, utilizzando i blocchi HW descritti nel seguito, quindi comunicando preventivamente gli indirizzi di memoria della GPU.

Tradizionalmente, l'iniziativa dell'attivitÃ TX nasce dall'host. Invece il punto secondo l'invenzione consiste nella capacitÃ di iniziare un trasferimento di rete sulla NIC direttamente dalla GPU, senza dover coinvolgere l'host. Tale capacitÃ puÃ² portare a due ottimizzazioni: risparmiare i ys relativi al passo 0, e permettere in alcuni casi di non spezzare il calcolo della GPU in due parti, risparmiando quindi i tempi di inizializzazione dovuti alla ripresa delle porzioni di calcolo successive al trasferimento.

I concetti fondamentali utilizzati nella seguente descrizione dettagliata sono:

- Messaggi e frammentazione;

- Memoria virtuale per host e/o GPU;

- RDMA per RX, pre-registrazione dei buffer;

- Mapping di un intervallo di indirizzi ("address range") del bus sulla GPU.

I blocchi hardware (logiche di controllo e registri di memoria) utilizzati nella presente invenzione sono i seguenti :

â€” NIC_GPU_TX_BLOCK

- NIC_GPU_RX__BLOCK

- NIC_GPU_DMA_BLOCK

- NIC_EQ_BLOCK

- NIC_DIRECT_GPU_TX

Nel seguito si descrivono tre flussi di dati illustrati rispettivamente nelle figure 1-3, due in trasmissione (TX) e uno in ricezione (RX) che coinvolgono i blocchi HW oggetto dell'invenzione.

Si presuppone che l'host, ad esempio uno dei nodi di un calcolatore parallelo, stia eseguendo un'applicazione accelerata tramite GPU.

Facendo riferimento alla figura 1, la funzionalitÃ P2P GPU TX secondo l'invenzione permette ad un'applicazione eseguita sull'host di iniziare una trasmissione di dati presenti in un buffer GPU. L'architettura descritta consente un approccio cosiddetto Zero-Copy, cioÃ ̈ senza copie in buffer intermedi di memoria della GPU e/o dell'host, andando a prelevare i dati direttamente dalla loro locazione originale.

La sequenza (riferimenti da 1 a 6 in figura) che permette di ottenere questa funzionalitÃ Ã ̈ la seguente:

- l'host comunica al blocco NIC_GPU_TX le informazioni della trasmissione (TX_INFO) , quali l'indirizzo del nodo di destinazione remoto (DEST_NODE_ADDR) , la quantitÃ di dati (TX SIZE), l'indirizzo virtuale del buffer di memoria GPU (GPU_MEM_ADDR) in cui sono presenti i dati;

- Il blocco NIC_GPU_TX manda GPU_MEM_ADDR e TX_SIZE al blocco NIC_GPU_DMA_BLOCK, e si mette in attesa che siano caricati TX_SIZE dati nella memoria TX_BUFFER;

- NIC_GPU_DMA_BLOCK (3.a) stimola lo spostamento dei dati da GPU_MEM__ADDR a TX_BUFFER (3.b); i dettagli di come questo venga fatto sono dipendenti dal particolare modello e dalla marca di GPU;

- Quando tutti i TX_SIZE dati sono presenti in TX_BUFFER, NIC_GPU_TX comunica TX_INFO al blocco di trasmissione TX_LINK_BLOCK e segnala il completamento dell'operazione al NIC_EQ__BLOCK;

- TX_LINK_BLOCK sceglie il percorso di destinazione opportuno e inizia a prelevare i dati da TX_BUFFER e a iniettarli nella rete (i dettagli esulano dal focus dell'invenzione); - NIC_EQ_BLOCK, come forma di avviso di completamento dell'operazione descritta, esegue la scrittura di una struttura di dati su una zona di memoria dell'host opportunamente preparata che funge da coda degli eventi (Event Queue o EQ). Tale procedura informa l'applicazione che la zona di memoria GPU utilizzata come buffer Ã ̈ stata letta ed Ã ̈ perciÃ² disponibile per essere riutilizzata ed eventualmente modificata.

Facendo riferimento alla figura 2, la funzionalitÃ P2P GPU RX permette alla scheda di comunicazione secondo l'invenzione di completare la ricezione di dati destinati ad un buffer di memoria GPU.

L'architettura descritta consente un approccio cosiddetto Zero-Copy, cioÃ ̈ senza copie in buffer intermedi di memoria della GPU e/o dell'host, andando a depositare i dati direttamente nella loro destinazione finale. Tale approccio Ã ̈ ottenuto con una applicazione secondo l'invenzione della tecnica nota RDMA ("Remote Direct Memory Access") ai buffer GPU, e prevede che l'applicazione che gira sull'host abbia preregistrato uno o piÃ¹ buffer di ricezione presso la NIC in un momento precedente al loro effettivo utilizzo (tecnica anteriore), nel blocco NIC__GPU_RX (secondo l'invenzione), in modo tale da rendere tali buffer conosciuti e quindi realizzare un passaggio diretto dei dati tra NIC e GPU.

La sequenza di ricezione (riferimenti da 1 a 4 in figura) di un pacchetto destinato alla GPU Ã ̈ descritta nel seguito:

- RX_LINK_BLOCK riceve un pacchetto di dati dai canali di comunicazione e li passa a NIC_GPU_RX (NIC);

- i dati vengono temporaneamente memorizzati in RX_BUFFER e l'header del medesimo viene analizzato dalla logica CTRL, che

- legge nell'header la dimensione in byte RX_SIZE del pacchetto ed eventualmente l'indirizzo di memoria DEST_MEM_ADDR a cui i dati sono destinati ;

- Se DEST_MEM_ADDR corrisponde a un buffer di memoria GPU, l'operazione viene completata dal blocco NIC_GPU_RX (CTRL) , altrimenti viene affidata ad un altro blocco della prior art che lo indirizza verso la memoria dell'host;

- NIC_GPU_RX ricerca l'intervallo di indirizzi di memoria virtuali [DEST_MEM_ADDR, DEST_MEM_ADDR+RX_SIZE- 1] nella lista dei buffer GPU pre-registrati dall'applicazione;

- Se la ricerca ha successo, l'intervallo viene scomposto in sotto-intervalli IlrI2, â€”, Inin accordo con i vincoli architetturali della particolare GPU impiegata; ad esempio per mapping virtuale- fisico { "Virtual-to-physicaltranslation" ) con pagine di memoria GPU da 4KB e un valore massimo di grandezza di pacchetto MAX_PKT_SIZE pari a 4KB, i sotto-intervalli possono essere al massimo due;

- Per ogni sub-intervallo Ijcon 7=1,2. n:

- NIC_GPU_RX chiede al blocco NIC_GPU_DMA di impostare la GPU in modo da rendere accessibile, tramite bus PCI express o altro bus locale, la zona di memoria interessata da Ij,-- NIC_GPU_DMA esegue tale operazione generalmente tramite manipolazione di opportuni registri della GPU;

- Si esegue il trasferimento della parte dei dati concernenti il sub- intervallo Ij da RX_BUFFER alla GPU tramite opportuna transazione DMA sul bus;

- NIC_EQ_BLOCK, come forma di avviso di completamento (Completion) dell'operazione descritta, esegue la scrittura di un evento sulla coda degli eventi (EQ) in memoria host (prior art) ; tale procedura informa l'applicazione che la zona di memoria GPU Ã ̈ stata scritta ed Ã ̈ perciÃ² disponibile per essere elaborata.

3. FunzionalitÃ "GPU-as-TX-initiator"

Facendo riferimento alla figura 3, la funzionalitÃ "GPU-as-TX-initiator" permette alla GPU stessa di iniziare un'operazione di trasmissione nei confronti della NIC, in altre parole inviare messaggi sulla rete di interconnessione contenente dati provenienti dalla memoria GPU, senza bisogno di interessare l'host.

Questo Ã ̈ fatto preferibilmente per i casi in cui i messaggi da trasferire sono di grandezza limitata (ovvero quando il tempo di trasmissione Ã ̈ minore del tempo necessario per bloccare la GPU e farla ripartire), mentre per messaggi grandi (ovvero quando il tempo di trasmissione Ã ̈ uguale o maggiore del tempo necessario per bloccare la GPU e farla ripartire) si applica preferibilmente la tecnica descritta in riferimento alla figura 1.

A tal fine Ã ̈ necessario che la NIC offra un'opportuna interfaccia HW, nel seguito denominata NIC_D IRECT__GPU_TX, direttamente accessibile alla GPU tramite bus (PCI express o altro).

Nel seguito si utilizza il concetto di messaggio, inteso come operazione di trasferimento di dimensione arbitraria, e di frammentazione di un messaggio, che Ã ̈ la successiva suddivisione dei dati in una o piÃ¹ porzioni da trasmettere utilizzando una serie di pacchetti, tenendo conto della massima quantitÃ di dati trasportabile dal singolo pacchetto (MAX__PKT_SIZE), di eventuali controlli di flusso sui canali di trasmissione e dello stato di riempimento dei buffer intermedi.

Come sopra spiegato, poichÃ© la GPU ha un gran numero di unitÃ di calcolo ed Ã ̈ relativamente lenta a sincronizzarsi a livello globale, Ã ̈ opportuno implementare e ottimizzare il caso di trasmissioni di messaggi di dimensioni medio-piccole (per esempio 128KB) introducendo un meccanismo di frammentazione automatica di messaggi in pacchetti di dimensione massima limitata (4KB) consentita per ogni pacchetto a causa della struttura del canale di comunicazione.

Inoltre, per rendere piÃ¹ veloce il trasferimento dalla GPU, si utilizzano piÃ¹ unitÃ di calcolo della GPU (preferÃ¬bilmente tutte) per spostare i dati. PoichÃ© perÃ² le unitÃ che compongono la GPU non sono sincronizzate, questo costringe a prevedere la possibilitÃ che i dati vengano caricati sul blocco NIC_DIRECT_GPU_TX in maniera out-of-order , ovvero in sotto-gruppi sequenziali non consecutivi, ad esempio il gruppo di dati da byte 4096 a 8191 viene caricato prima del gruppo 0-4095. DI conseguenza, serve anche una funzionalitÃ in sÃ© nota nel campo che gestisca l'accumulazione in questo modo. Si Ã ̈ chiamato il blocco che realizza tale funzionalitÃ con MSG_BUFFER (reorder buffer).

Nel seguito si suppone che il particolare modello di GPU offra un'opportuna funzionalitÃ di mapping di un arbitrario intervallo di indirizzi di memoria fisica sul bus delle periferiche (PCI express o altro); ovvero di rendere possibili operazioni di lettura e scrittura su MSG_BUFFER di intervalli di indirizzi all'interno dei codici di calcolo GPU, trasformandole in equivalenti operazioni sul bus.

Il blocco NIC_DIRECT_GPU_TX espone almeno due macrofunzioni .

Come detto, la prima funzione, MSG_BUFFER, Ã ̈ costituita da un'area di memoria temporanea nella quale la GPU possa scrivere i dati che costituiscono il contenuto del messaggio da inviare. Nel caso in cui il messaggio sia di dimensione superiore alla massima dimensione del singolo pacchetto, il blocco NIC_D IRECT_GPU_TX si preoccupa di frammentare il messaggio in pacchetti. Inoltre il MSG_BUFFER agisce come reorder buffer, cioÃ ̈ come una zona in cui i dati possono essere caricati out-of-order.

La funzione MSG__CTRL Ã ̈ un insieme di registri di controllo memory-mapped contenenti tutte le informazioni necessarie a spedire il messaggio verso il destinatario. I registri agiscono come delle mailbox, ovvero possono essere letti e/o scritti sia dalla GPU che dal blocco NIC_DIRECT_GPU_TX . Tra i registri ci sono:

- MSG_DEST_NODE, ovvero l'identificatore del nodo di rete destinatario del messaggio,

- MSG_SIZE, la dimensione in byte del messaggio, - MSG_DEST_MEM_ADDR, l'indirizzo virtuale del buffer di memoria sul nodo di destinazione, - CTRL_LOCK, un registro dove la GPU segnala al NIC_DIRECT_G PU__TX che il MSG_BUFFER non Ã ̈ ancora pronto, ad esempio perchÃ© la GPU non ha copiato tutti i dati del messaggio,

- CTRL_STATUS , un registro dove il blocco NIC_DIRECT_GPU_TX segnala che il messaggio Ã ̈ stato completamente consumato, ad esempio spostato in buffer intermedi successivi, ed Ã ̈ pronto per accogliere un nuovo messaggio.

La sequenza (riferimenti da 1 a 6 in figura) di utilizzo del blocco NIC__DIRECT_GPU_TX Ã ̈ descritta nel seguito :

- una delle unitÃ di calcolo GPU scrive il registro CTRL_LOCK per reclamare il possesso del MSG_BUFFER (il MSG_BUFFER Ã ̈ una risorsa condivisa tra la NIC e la GPU. Quando la GPU vuole usarla deve reclamarne il possesso, per informare la NIC che non puÃ² toccare il MSG_BUFFER; CTRL_LOCK funziona come un mutex ("mutuai exclusion primitive'')) e poi carica i dettagli del trasferimento nei registri MSG_DEST_NODE, MSG_SIZE e MSG_DEST_MEM_ADDR del MSG_CTRL ;

- una o piÃ¹ unitÃ di calcolo della GPU iniziano a copiare contemporaneamente i dati del messaggio nel MSG_BUFFER;

- ultimate le operazioni di caricamento dati, una unitÃ di calcolo (ad esempio l'ultima temporalmente ad aver completato le operazioni di calcolo) scrive sul registro CTRL_LOCK di MSG_CRL un codice per dichiarare che MSG_BUFFER Ã ̈ pronto per essere letto;

- NIC DIRECT GPU TX nota la scrittura su CTRL LOCK, accende il flag STATUS_MSG_PROCESSING in CTRL_STATUS per segnalare la condizione "elaborazione del messaggio in atto" e inizia le operazioni di frammentazione e spedizione dei pacchetti verso il blocco TX_LINK;

- Quando le operazioni sono concluse e il MSG_BUFFER Ã ̈ di nuovo disponibile, NIC_DIRECT_G PU_TX abbassa il flag STATUS_MSG_PROCESSING in CTRL_ STATÃ™S e, se richiesto, comunica al blocco NIC_EQ_BLOCK l'esito dell'operazione;

- NIC_EQ_BLOCK, come forma opzionale (nel senso che non deve avvenire per ogni operazione ma puÃ² avvenire dopo gruppi di operazioni, questo vale anche per i casi delle altre figure) di avviso di completamento (Completion) dell'operazione descritta, esegue la scrittura di un evento sulla coda degli eventi (EQ) che puÃ² trovarsi o in memoria host o in memoria GPU, in quest'ultimo caso utilizzando il blocco NIC_GPU_DMA_BLOCK . Tale procedura informa l'applicazione mittente che tutti i frammenti che compongono il messaggio sono stati spediti, anche se devolve a eventuali protocolli di alto livello la gestione della condizione di avvenuta ricezione.

In quel che precede sono state descritte le preferite forme di realizzazione e sono state suggerite delle varianti della presente invenzione, ma Ã ̈ da intendersi che gli esperti del ramo potranno apportare modificazioni e cambiamenti senza con ciÃ² uscire dal relativo ambito di protezione, come definito dalle rivendicazioni allegate.

Claims

RIVENDICAZIONI 1. Scheda di interfaccia di rete NIC da utilizzare in un nodo di un cluater, detto nodo di cluster essendo preposto al calcolo parallelo in cooperazione con gli altri nodi del cluster, detto nodo di cluster comprendendo : - una GPU con una memoria GPU; - un host con una memoria host, su detto host essendo installabile un'applicazione di calcolo per l'esecuzione di detto calcolo parallelo; - un bus; ed - una NIC; la NIC comprendendo un blocco di connessione alla rete in trasmissione (TX_LINK) ed un blocco di connessione alla rete in ricezione (RX_LINK), la scheda di interfaccia di rete NIC essendo caratterizzata dal fatto di comprendere ulteriormente i seguenti blocchi: - un blocco di trasmissione (NIC_GPU_TX), il quale comprende mezzi atti a ricevere dati dalla memoria di GPU e metadati dall'Host attraverso detto bus, e ad instradarli verso detto blocco di connessione alla rete in trasmissione (TX_LINK); - un blocco di ricezione (NIC_GPU_RX), il quale comprende mezzi atti a riceve dati da detto blocco di connessione alla rete in ricezione (RX_LINK) e a fornirli alla memoria GPU attraverso detto bus, - un blocco di gestione di memoria della GPU (NIC_GPU_DMA) , il quale comprende mezzi atti ad inviare metadati alla GPU per comandare la lettura o la scrittura di dati dalla/nella memoria della stessa GPU, sulla base di metadati ricevuti rispettivamente da detto blocco di ricezione (NIC_GPU_RX) o detto blocco di trasmissione (NIC_GPU_TX),· realizzando cosÃ¬ uno scambio diretto di dati tra la memoria GPU e la rete attraverso la NIC, senza che detti dati passino attraverso l'Host.
2 . Scheda di interfaccia di rete NIC secondo la rivendicazione 1, caratterizzata dal fatto di comprendere ulteriormente un blocco di gestione code di eventi (NIC_EQ), il quale comprende un buffer di memoria circolare per scrivere code di eventi presso detta memoria host o detta memoria GPU, in modo tale che l'applicazione che gira sull'host sia informata che la memoria della GPU Ã ̈ in uso o disponibile per essere riutilizzata .
3 . Scheda di interfaccia di rete NIC secondo la rivendicazione 1 o 2, caratterizzata dal fatto di comprendere aggiuntivamente, quando il nodo di rete comprende una GPU configurata per trasmettere dati, un blocco di trasmissione diretta (NIC__DIRECT_GPU_TX) da GPU, il quale comprende mezzi atti a ricevere dalla GPU sia i dati da trasmettere sia i relativi metadati, e ad instradarli verso detto blocco di connessione alla rete in trasmissione (TX_LINK), in modo tale che sia la GPU ad iniziare un'operazione di trasmissione nei confronti della NIC, senza alcun intervento dell'host.
4 . Scheda di interfaccia di rete NIC secondo una la rivendicazione 3, caratterizzata dal fatto che detto blocco di trasmissione diretta da GPU (NIC_DIRECT_GPU_TX) include una logica di controllo di messaggio (MSG_CTRL) ed un buffer di messaggio (MSG_BUFFER) , il buffer di messaggio (MSG_BUFFER) essendo atto a ricevere dati dalla GPU, la logica di controllo di messaggio (MSG_CTRL) essendo atta a ricevere metadati dalla GPU.
5. Scheda di interfaccia di rete NIC secondo una qualsiasi delle rivendicazioni da 1 a 4, caratterizzata dal fatto che detto blocco di trasmissione (NIC_GPU_TX) e blocco di ricezione (NIC_GPU_RX) comprendono ciascuno una logica di controllo e rispettivamente un buffer di trasmissione (TX_BUFFER) ed un buffer di ricezione (RX_BUFFER).
6 . Metodo di comunicazione internodale di un cluster di nodi preposto al calcolo parallelo, ciascun nodo di cluster includendo: - un host con una memoria host, su detto host essendo installabile un'applicazione di calcolo per l'esecuzione di detto calcolo parallelo; - - una GPU con una memoria di GPU, un bus ed una NIC, la NIC comprendendo un blocco di connessione alla rete in trasmissione (TX_LINK) ed un blocco di connessione alla rete in ricezione (RX_LINK) , il metodo comprendendo l'utilizzo della tecnica RDMA per la comunicazione di pacchetti di dati tra un nodo ricevente ed un nodo trasmittente, in cui il nodo ricevente, in una fase preliminare, registra un buffer di ricezione presso la NIC e ne comunica, in una fase preliminare, l'indirizzo di memoria al futuro nodo trasmittente, il metodo essendo caratterizzato dal fatto che ciascun nodo utilizza la scheda NIC secondo una qualsiasi delle rivendicazioni da 1 a 5 e dal fatto che: - in detta fase preliminare: o l'applicazione di calcolo del nodo ricevente pre-alloca uno o piÃ¹ buffer sulla memoria di GPU del nodo ricevente; o l'applicazione di calcolo del nodo ricevente registra preventivamente gli indirizzi di memoria di detti uno o piÃ¹ buffer presso la NIC del nodo ricevente, formando una lista di registrazione di buffer ; o detto nodo ricevente comunica preventivamente gli indirizzi di memoria di detti uno o piÃ¹ buffer al nodo trasmittente ; - detto nodo trasmittente invia i dati, a partire dalla memoria della sua GPU, utilizzando il blocco di trasmissione (NIC_GPU_TX) della sua NIC, a detto nodo ricevente insieme a metadati contenenti l'indirizzo di memoria di detti uno o piÃ¹ buffer, il nodo ricevente utilizzando il blocco di ricezione (NIC_GPU_RX); - al momento della ricezione dei pacchetti di dati, il blocco di ricezione (NIC_GPU__RX) della NIC del nodo ricevente riconosce gli indirizzi di memoria di detti uno o piÃ¹ buffer e invia i dati ricevuti alla memoria della sua GPU, utilizzando il blocco di gestione di memoria della GPU (NIC_GPU_DMA).
7. Metodo secondo la rivendicazione 6, caratterizzato dal fatto che la trasmissione dati tra nodo trasmittente e nodo ricevente comprende le seguenti fasi internamente al nodo trasmittente: Tl. l'host comunica a detto blocco di trasmissione (NIC_GPU_TX) della NIC metadati (TX_INFO) relativi alla trasmissione di dati, compresa la quantitÃ di dati da trasmettere (TX_SIZE) e l'indirizzo virtuale (GPU_MEM_ADDR) del buffer di memoria GPU in cui sono presenti i dati da trasmettere,-T2 . detto blocco di trasmissione (NIC_GPU_TX) manda detti metadati (TX_INFO) relativi alla trasmissione di dati a detto blocco di gestione di memoria della GPU (NIC GPU_DMA); T3 . detto blocco di gestione di memoria della GPU (NIC_GPU_DMA, 3. a) invia dei metadati alla GPU che provocano lo spostamento dei dati da detto indirizzo virtuale (GPU_MEM_ADDR) a detto buffer di trasmissione (TX_BUFFER, 3.b); T4 . quando tutti i dati di detta quantitÃ di dati (TX_SIZE) sono presenti in detto buffer di trasmissione (TX_BUFFER) , detto blocco di trasmissione (NIC_GPU_TX) comunica detti metadati (TX__INFO) relativi alla trasmissione di dati a detto blocco di connessione alla rete in trasmissione (TX_LINK) ; T5 . detto blocco di connessione alla rete in trasmissione (TX_LINK) della NIC del nodo trasmittente sceglie il percorso di destinazione opportuno e inizia a prelevare i dati da detto buffer di trasmissione (TX_BUFFER) e a iniettarli nella rete.
8. Metodo secondo la rivendicazione 6 o 7, caratterizzato dal fatto che la ricezione dati tra nodo trasmittente e nodo ricevente comprende le seguenti fasi internamene al nodo ricevente : RI. il blocco di connessione alla rete in ricezione (RX_LINK) riceve un pacchetto di dati, comprendente un header, e lo passa a detto blocco di ricezione (NIC_G PU_RX }; R2 . i dati vengono temporaneamente memorizzati in detto buffer di ricezione (RX BUFFER) e 1' header del medesimo viene analizzato da una logica (CTRL) del blocco di ricezione, la quale: - R2-a. legge nell'header la dimensione in byte (RX_SIZE) del pacchetto e l'indirizzo di memoria (DEST_MEM_ADDR) a cui i dati sono destinati; - R2-b. se detto indirizzo di memoria (DEST_MEM_ADDR) a cui i dati sono destinati corrisponde a un buffer di memoria GPU, l'operazione viene completata da detto blocco di ricezione (NIC_GPU_RX) , altrimenti viene affidata ad un ulteriore blocco atto ad indirizzarlo verso la memoria dell'host; - R2-c. detto blocco di ricezione (NIC_GPU_RX) ricerca l'intervallo di indirizzi di memoria virtuali in detta lista di registrazione di buffer; - R2-d. Se la ricerca della fase R2-c ha successo, l'intervallo di indirizzi di memoria virtuali viene scomposto in sotto-intervalli li, 12 »<â– >â– · s In ÏŠ R3 . Per ogni sub-intervallo /;con y<â€ ̃>=l,2, R3-a. detto blocco di ricezione (NIC_GPU_RX) chiede a detto blocco di gestione di memoria della GPU (NIC_GPU_DMA) di inviare metadati alla GPU in modo da rendere accessibile, tramite bus PCI express o altro bus locale, la zona di memoria interessata da Ij; R3-b. Si esegue il trasferimento della parte dei dati concernenti il sub-intervallo Ijda detto buffer di ricezione (RX_BUFFER) alla memoria di GPU; R4. detto blocco di gestione code di eventi (NIC_EQ) , come forma di avviso di completamento (Completion) dell'operazione in R3, esegue la scrittura di un evento sulla coda degli eventi (EQ) in memoria host.
9. Metodo secondo la rivendicazione 6 o 8, caratterizzato dal fatto di utilizzare la NIC secondo la rivendicazione 3 o 4, in cui la GPU Ã ̈ una GPU multi-core, e dal fatto di eseguire le seguenti fasi successive di trasmissione internamente al nodo trasmittente: - uno dei core della GPU scrive in detto blocco di trasmissione diretta (NIC_DIRECT_GPU_TX, MSG_CTRL) : - metadati per reclamare il possesso di detto buffer di messaggio (MSG_BUFFER); - metadati relativi alla trasmissione dati; - uno o piÃ¹ core della GPU iniziano a caricare contemporaneamente i dati del messaggio in detto buffer di messaggio (MSG_BUFFER); - ultimate le operazioni di caricamento dati, un core, in particolare l'ultimo temporalmente ad aver completato le operazioni di calcolo, scrive in detto blocco di trasmissione diretta (NIC_DIRECT_GPU_TX, MSG_CTRL) un metadato per dichiarare che detto buffer di messaggio (MSG__BUFFER) Ã ̈ pronto per essere letto; - detto blocco di trasmissione diretta da GPU <NIC_DIRECT_GPU_TX) nota la scrittura della fase precedente e inizia le operazioni di frammentazione e spedizione dei pacchetti di dati caricati nella fase precedente verso il blocco di connessione alla rete in trasmissione (TX_LINK) .
10. Metodo secondo una qualsiasi delle rivendicazioni da 6 a 9, caratterizzato dal fatto di utilizzare la scheda di rete della rivendicazione 2 e dal fatto di comprendere l'ulteriore seguente fase: - detto blocco di gestione code di eventi (NIC_EQ) , come forma di avviso di completamento dell'operazione di ricezione o trasmissione, esegue la scrittura di relativi metadati su una zona di memoria dell'host opportunamente preparata che funge da coda degli eventi.