FR3132963A3

FR3132963A3 - Architecture informatique de traitement de volumes de donnees importants

Info

Publication number: FR3132963A3
Application number: FR2201540A
Authority: FR
Inventors: Xavier CALLENS; Colas Fleurbaey
Original assignee: Amadeus SAS
Current assignee: Amadeus SAS
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2023-08-25
Anticipated expiration: 2032-02-22
Also published as: FR3132963B3

Abstract

ARCHITECTURE INFORMATIQUE DE TRAITEMENT DE VOLUMES DE DONNEES IMPORTANTS Un aspect de l’invention se rapporte à une architecture informatique (1) de traitement de volumes de données importants, ladite architecture informatique (1) comportant : des nœuds de stockage de données (2) comportant chacun au moins un processeur (3) et un module de communication (4), chacun des nœuds de stockage de données (2) étant construit et agencé pour exécuter des opérations de stockage de données et ne pas exécuter des opérations de calcul,des nœuds de calcul (5) comportant chacun au moins un processeur (6) et un module de communication (7), chacun des nœuds de calcul (5) étant construit et agencé pour exécuter des opérations de calcul et ne pas exécuter des opérations de stockage de données, les nœuds de calcul (5) étant physiquement distants des nœuds de stockage de données (2),des liaisons de communication réseau (8) entre les modules de communication (4, 7). Figure à publier avec l’abrégé : Figure 1

Description

ARCHITECTURE INFORMATIQUE DE TRAITEMENT DE VOLUMES DE DONNEES IMPORTANTS

DOMAINE TECHNIQUE DE L’INVENTION

La présente invention se rapporte au domaine du traitement de données et plus spécifiquement à une architecture pour le traitement de volumes de données importants.

L'invention trouve des applications intéressantes, par exemple, dans le domaine de l’industrie du voyage. Elle s’applique tout particulièrement à la collecte et l’analyse de données de recherche de prix, communément appelées (shopping en anglais).

ARRIERE-PLAN TECHNOLOGIQUE DE L’INVENTION

Le monde entre dans l’ère de la révolution des données. Avec les dernières avancées de l’Internet, de l’intelligence artificielle (IA), des appareils mobiles, de la conduite autonome et de l’Internet des objets, la quantité de données que nous générons, collectons, stockons, gérons et analysons augmente de manière exponentielle. Le stockage et le traitement de ces données ont fait apparaitre d’énormes défis.

A titre illustratif, une architecture informatique d’un acteur économique dédiée à la collecte et l’analyse de données de recherche de prix, par exemple pour la réservation de vols et d’hôtels, peut traiter plus d’un milliard de recherches de prix par jour. Cette activité génère une volumétrie de données conséquente qui augmente chaque année.

Cette explosion du volume des données est notamment liée à :

une collecte d’un maximum de données, par exemple relatif à toutes les interactions utilisateurs,
une variété des types de données collectées, par exemple des journaux d’évènements machines, des commentaires d’utilisateurs, des images ou encore des vidéos et autres flux multimédias,
une vélocité des données, dont la durée de vie est de plus en plus faible, impliquant la nécessité de développer des processus de traitement de haute performance.

Pour traiter ces volumes de données, il est connu des architectures informatiques pour le traitement de données munies de plusieurs nœuds informatiques où chacun des nœuds est en mesure d’échanger avec un autre nœud informatique via des liens de communication physiques.

En outre, il convient de noter que chacun des nœuds informatiques est muni de moyens de stockage des données et de moyens de calcul. Autrement dit, le stockage des données et les calculs sont effectués localement sur une même entité physique.

L’augmentation du nombre d’applications supportées par une telle architecture et la volumétrie croissante des données exploitées ne permettent plus de traiter rapidement les requêtes des utilisateurs. En outre, les limites électriques, physiques et technologiques d’une telle architecture informatique sont atteintes.

L’invention offre une solution au problème évoqué précédemment, en proposant une architecture informatique de stockage et de calcul permettant de traiter des volumes de données importants.

Dans ce contexte, l’invention se rapporte ainsi, dans son acceptation la plus large, à une architecture informatique de traitement de volumes de données importants. L’architecture informatique selon cet aspect de l’invention comporte :

des nœuds de stockage de données comportant chacun au moins un processeur et un module de communication, chacun des nœuds de stockage de données étant construit et agencé pour exécuter des opérations de stockage de données et ne pas exécuter des opérations de calcul,
des nœuds de calcul comportant chacun au moins un processeur et un module de communication, chacun des nœuds de calcul étant construit et agencé pour exécuter des opérations de calcul et ne pas exécuter des opérations de stockage de données, les nœuds de calcul étant physiquement distants des nœuds de stockage de données, et
des liaisons de communication réseau entre les modules de communication des nœuds de stockage de données et les modules de communication des nœuds de calcul.

Autrement dit, le stockage des données et le calcul sont exécutés sur des nœuds informatiques distincts communiquant entre eux au moyen d’un lien de communication réseau et non plus local.

Cette architecture particulière permet d’obtenir, pour des volumes de données conséquent, une scalabilité très importante, et des temps de réponse très rapides.

En outre, comme les opérations de calcul sont déportées sur des entités physiques distinctes et éloignées des entités informatiques de stockage des données, les limites électriques, physiques et technologiques de l’architecture informatique selon cet aspect de l’invention sont respectées.

Outre les caractéristiques qui viennent d’être évoquées dans le paragraphe précédent, l’architecture informatique de traitement de volumes de données importants selon cet aspect de l’invention peut présenter une ou plusieurs caractéristiques complémentaires parmi les suivantes, considérées individuellement ou selon toutes les combinaisons techniquement possibles.

Selon un aspect non limitatif de l’invention, chacun des nœuds de calcul est construit et agencé pour exécuter un processus de traitement distribué.

Selon un aspect non limitatif de l’invention, le processus de traitement distribué est un processus Spark.

Selon un aspect non limitatif de l’invention, l’architecture informatique comporte des moyens construits et agencés pour paralléliser des calculs.

Selon un aspect non limitatif de l’invention, les moyens construits et agencés pour paralléliser des calculs sont construits et agencés pour solliciter parallèlement, au maximum, 100 nœuds de calcul.

Selon un aspect non limitatif de l’invention, l’architecture informatique comporte des moyens construits et agencés pour limiter une taille de fichier.

Selon un aspect non limitatif de l’invention, chaque fichier présente une taille inférieure à 100 MB, typiquement 50MB.

Selon un aspect non limitatif de l’invention, chacun des nœuds de stockage de données est construit et agencé pour exécuter un processus de stockage distribué.

Selon un aspect non limitatif de l’invention, le processus de stockage distribué est un processus Map.

Selon un aspect non limitatif de l’invention, l’architecture informatique comporte entre 500 et 1000 nœuds de calcul, typiquement 1000 nœuds de calculs.

L’invention et ses différentes applications seront mieux comprises à la lecture de la description qui suit et à l’examen des figures qui l’accompagnent.

BREVE DESCRIPTION DES FIGURES

Les figures sont présentées à titre indicatif et nullement limitatif de l’invention.

montre une représentation schématique d’une architecture informatique construite et agencée pour le traitement de volumes de données importants selon un aspect non limitatif de l’invention.

illustre une performance globale de traitement des données exécuté par une architecture informatique telle que celle représentée à la .

DESCRIPTION DETAILLEE

Sauf précision contraire, un même élément apparaissant sur des figures différentes présente une référence unique.

La montre un exemple de réalisation non limitatif d’une architecture informatique 1 de traitement de volumes de données importants.

L’architecture informatique 1 comporte des nœuds de stockage de données 2 comportant chacun un processeur 3 et un module de communication 4 avec des nœuds de calcul. Ces nœuds de stockage de données 2 peuvent par exemple stocker des fichiers ainsi que des bibliothèques.

Il convient de que chacun des nœuds de stockage de données 2 est construit et agencé pour exécuter des opérations de stockage de données et ne pas exécuter des opérations de calcul.

Dans une mise en œuvre non limitative, chacun des nœuds de stockage de données 2 est construit et agencé pour exécuter un processus de stockage distribué. Ainsi, le volume des données stockées est partagé entre différentes entités informatiques.

Dans un exemple de réalisation non limitatif, ce processus de stockage distribué est un processus Map. Ce processus Map qui permet un stockage distribué est par exemple en mesure d’effectuer un filtrage, un classement des données ainsi que des opérations de synthèse.

Cette architecture informatique 1 comporte également des nœuds de calcul 5 comportant chacun un processeur 6 et un module de communication 7 avec les nœuds de stockage de données 2.

Il convient de noter que chacun des nœuds de calcul 5 est construit et agencé pour exécuter des opérations de calcul et ne pas exécuter des opérations de stockage de données qui sont laissées aux nœuds de stockage de données 2.

Ainsi, les nœuds de calcul 5 ne réalisent pas des opérations de stockage de données.

Les nœuds de stockage de données 2 ne réalisent pas, quant à eux, des opérations de calcul qui sont réservées aux nœuds de calcul 5. Il y a donc une séparation matérielle pour la réalisation des opérations de calcul et de stockage de données.

Dans une mise en œuvre non limitative, chacun des nœuds de calcul 5 est construit et agencé pour exécuter un processus de traitement distribué. Ce processus de traitement distribué peut par exemple être un processus Spark. Un tel processus Spark offre un grand nombre d'outils statistiques aidant à l'analyse des données. Il est en outre capable de fonctionner sur un cluster de nœuds de calcul et de traiter des données très rapidement.

L’architecture informatique 1 comporte en outre des liaisons de communication réseau 8 entre les modules de communication 4 des nœuds de stockage de données 2 et les modules de communication 7 des nœuds de calcul 5.

Grâce à cette architecture informatique 1, les nœuds de stockage de données 2 ne sont plus liés localement aux nœuds de calcul 5. Les nœuds de calcul 5 sont, au contraire, physiquement distants des nœuds de stockage de données 2. Les nœuds de calcul 5 et les nœuds de stockage de données 2 sont construits et agencées pour échanger des données entre eux via des liaisons de communication réseau 8 qui peuvent être formées, par exemple, par des liaisons de communication réseau de type IP pour (Internet Protocol en anglais).

Dans une mise en œuvre non limitative l’architecture informatique 1 comporte en outre des moyens 9 construits et agencés pour paralléliser des calculs.

Ainsi, les nœuds de calculs 5 sont en mesure de réaliser simultanément plusieurs opérations de calcul.

Plus particulièrement, ces moyens 9 construits et agencés pour paralléliser des calculs permettent de séparer un calcul en une pluralité de tâches et de répartir ces différentes tâches ainsi séparées aux différents nœuds de calcul 5. Chacun des nœuds de calcul 5 ayant reçu une tâche, exécute alors cette tâche réduite au moyen de son microprocesseur 6.

Ces moyens 9 construits et agencés pour paralléliser des calculs permettent ainsi d'obtenir un temps de traitement global réduit par le fait que plusieurs processeurs 6 de différents nœuds de calcul 5 sont sollicités en parallèle.

Le temps de calcul de l'architecture informatique 1 est ainsi fortement réduit par l'utilisation de ces moyens 9 construits et agencés pour paralléliser des calculs.

Dans une mise en œuvre non limitative, les moyens 9 construits et agencés pour paralléliser des calculs sont construits et agencés pour limiter une parallélisation de calculs à, maximum, 100 nœuds de calcul 5.

La illustre une performance globale de traitement des données exécuté au moyen d’une architecture informatique 1 pour le traitement de volumes de données importants conforme à celle illustrée à la .

Plus particulièrement, la montre le temps mis, par des nœuds de calcul, pour traiter une somme de données de plusieurs dizaines de TeraByte.

On s’aperçoit, qu’en fonction du nombre de nœuds de calcul 5 sollicités pour traiter ces données, le temps nécessaire pour effectuer ce traitement de données est différent.

Par exemple,

en sollicitant deux nœuds de calcul 5 pour traiter cette quantité de données, le temps de traitement a presque été divisé par deux ;
en sollicitant cinq nœuds de calcul 5 pour traiter cette quantité de données, le temps de traitement a quasiment été divisé par quatre ;
en sollicitant quinze nœuds de calcul 5 pour traiter cette quantité de données, le temps de traitement a presque été divisé par dix.

Ainsi, nous pouvons voir que le temps de traitement des données traitées par l’architecture informatique 1 est réduit grâce à la parallélisation. Cette réduction n’est pas linéaire du fait du temps connexe d’agrégation et d’ordonnancement lié à la parallélisation. Toutefois, il convient de noter que l’accélération du temps de calcul est considérable.

Dans une réalisation non limitative, l’architecture informatique 1 selon l’invention comporte également des moyens 10 construits et agencés pour limiter une taille de fichier pour exécuter la parallélisation.

Il convient de noter que cette limitation de la taille des fichiers vient en support de la parallélisation.

Selon un aspect non limitatif de l’invention, ces moyens 10 construits et agencés pour limiter une taille de fichier sont capables de limiter la taille de chacun des fichiers à une taille inférieure à 100 MB, typiquement 50MB.

L’architecture informatique selon l’aspect de l’invention précitée permet ainsi une délégation de la charge de calculs en dehors du centre de stockage de données. Cette architecture informatique permet une manipulation de volumes de données importants, et une scalabilité particulièrement performante.

Les différents aspects de l’invention susmentionnés présentent de nombreux avantages. Parmi ceux-ci, on peut citer :

augmenter la scalabilité de l’architecture informatique pour gérer des milliers de processus d’orchestration,
optimiser les temps de traitements des données,
protéger l’architecture informatique d’une quelconque surutilisation de ces équipements.

Il convient de noter que l’homme du métier est en mesure d’apporter différentes variantes aux aspects de l’invention précités, par exemple en modifiant le nombre de nœuds de calcul ou en modifiant le type de processus de calcul distribué ou de stockage distribué.

Claims

Architecture informatique (1) de traitement de volumes de données importants, ladite architecture informatique (1) étant caractérisée en ce qu’elle comporte :
des nœuds de stockage de données (2) comportant chacun au moins un processeur (3) et un module de communication (4), chacun desdits nœuds de stockage de données (2) étant construit et agencé pour exécuter des opérations de stockage de données et ne pas exécuter des opérations de calcul,

des nœuds de calcul (5) comportant chacun au moins un processeur (6) et un module de communication (7), chacun desdits nœuds de calcul (5) étant construit et agencé pour exécuter des opérations de calcul et ne pas exécuter des opérations de stockage de données, lesdits nœuds de calcul (5) étant physiquement distants desdits nœuds de stockage de données (2),

des liaisons de communication réseau (8) entre lesdits modules de communication (4) desdits nœuds de stockage de données (2) et lesdits modules de communication (7) desdits nœuds de calcul (5).
Architecture informatique (1) selon la revendication précédente caractérisée en ce que chacun des nœuds de calcul (5) est construit et agencé pour exécuter un processus de traitement distribué.
Architecture informatique (1) selon la revendication précédente caractérisée en ce que le processus de traitement distribué est un processus Spark.
Architecture informatique (1) selon l’une quelconque des revendications précédentes caractérisée en ce qu’elle comporte des moyens (9) construits et agencés pour paralléliser des calculs.
Architecture informatique (1) selon la revendication précédente caractérisée en ce que lesdits moyens (9) construits et agencés pour paralléliser des calculs sont construits et agencés pour solliciter parallèlement, au maximum, 100 nœuds de calcul (5).
Architecture informatique (1) selon l’une quelconque des revendications 4 ou 5 caractérisée en ce qu’elle comporte des moyens (10) construits et agencés pour limiter une taille de fichier.
Architecture informatique (1) selon la revendication précédente caractérisée en ce que chaque fichier présente une taille inférieure à 100 MB.
Architecture informatique (1) selon l’une quelconque des revendications précédentes caractérisée en ce que chacun des nœuds de stockage de données (2) est construit et agencé pour exécuter un processus de stockage distribué.
Architecture informatique (1) selon la revendication précédente caractérisée en ce que le processus de stockage distribué est un processus Map.
Architecture informatique (1) selon l’une quelconque des revendications précédentes caractérisée en ce qu’elle comporte entre 500 et 1500 nœuds de calcul (5).