EP3948579A1

EP3948579A1 - Systeme et procede d'enrichissement de donnees

Info

Publication number: EP3948579A1
Application number: EP20731903.9A
Authority: EP
Inventors: Emmanuel Le Huerou; Mikaël SZCZERBAK
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2019-03-29
Filing date: 2020-03-20
Publication date: 2022-02-09
Also published as: FR3094508A1; US20220171749A1; WO2020201662A1; CN113826091A

Abstract

Système et procédé d'enrichissement de données La présente invention concerne un procédé d'enrichissement de données comprenant : a) recevoir (S1) plusieurs ensembles de données comprenant chacun une donnée fondamentale et des métadonnées, b) grouper (S3) les ensembles de données en fonction des données fondamentales selon une fonction de similarité (F), c) enrichir (S4) chaque ensemble de données d'un label caractérisant le groupe auquel appartient l'ensemble de données, d) chercher (S5) pour chaque ensemble de données enrichi, dans une base de données (DB1, DB2) stockant des ensembles de données comprenant chacun des métadonnées et un label, une combinaison d'une partie au moins des métadonnées et du label de l'ensemble de données enrichi, et e) si la combinaison d'une partie au moins des métadonnées et du label de l'ensemble de données enrichi est absente de la base de données, retirer (S6) le label de l'ensemble de données enrichi.

Description

Titre : Système et procédé d’enrichissement de données

Le domaine de l’invention se rapporte à l’enrichissement des données, notamment lorsque celles-ci présentent le risque de comporter des imprécisions ou des erreurs dues aux conditions d’émission et de réception de ces données. L’une des applications principales de l’invention concerne notamment la banque mobile, plus connue sous le terme anglophone « mobile banking ».

Lorsque des données sont transmises, il existe un risque que celles-ci soient compromises et des erreurs ou des imprécisions résultent bien souvent du transfert des données. Ces erreurs ou imprécisions dans les données peuvent être présentes à la source mais peuvent également être introduites à l’émission ou à la réception.

La nécessité de fiabiliser les données reçues est un enjeu important dans tous les systèmes dans lesquels le transfert des données, parfois de manière répétée, est inévitable. En particulier, le domaine de la banque mobile, qui désigne tous types de services financiers accessibles depuis un équipement mobile connecté à un réseau étendu, tel qu’un téléphone portable par exemple, est un domaine dans lequel les transferts de données sont nombreux et la restitution de ces données est une condition nécessaire à la mise en œuvre des services. Dans ce domaine spécifique, les données transférées peuvent comporter des informations telles que le libellé d’un commerçant, son code d’activité, sa localisation, son nom, etc. Il est alors nécessaire de s’assurer de la fiabilité de ces données lorsque celles-ci présentent le risque de comporter des erreurs pour le bon fonctionnement des services.

La présente invention vient améliorer la situation.

A ce titre, la présente invention concerne un procédé d’enrichissement de données mis en œuvre par des moyens informatiques et comprenant :

a) recevoir plusieurs ensembles de données, un ensemble de données comprenant une donnée fondamentale et une ou plusieurs métadonnées relatives à la donnée fondamentale,...

b) grouper les ensembles de données en fonction des données fondamentales respectivement associées aux ensembles de données selon une fonction de similarité,...

c) enrichir chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient l’ensemble de données,

d) chercher pour chaque ensemble de données enrichi, dans au moins une base de données stockant des ensembles de données comprenant chacun des métadonnées et un label, une combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi, et

e) si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est absente de l’au moins une base de données, retirer le label de l’ensemble de données enrichi.

Par exemple, la donnée fondamentale est une suite de caractères, ou un signal sonore ou une image numérique.

Selon un mode de réalisation, le procédé comprend en outre, suite à la réception des ensembles de données: générer pour chaque ensemble de données, par application d’un traitement de diminution d’un niveau de bruit à la donnée fondamentale, une donnée traitée associée à l’ensemble de données. Dans un tel mode de réalisation, le regroupement des ensembles de données est mis en œuvre en fonction des données traitées respectivement associées aux ensembles de données.

Par exemple, la donnée fondamentale est une suite de caractères et la donnée traitée est générée par suppression de la suite de caractères d’un ou plusieurs caractères d’une liste de caractères prédéterminés.

Selon un mode de réalisation, le regroupement des ensembles de données utilise un algorithme d’apprentissage non supervisé.

Selon un mode de réalisation, chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale et, si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est présente dans l’au moins une base de données dans un ensemble de données correspondant, la donnée fondamentale de l’ensemble de données enrichi est remplacée si nécessaire par la donnée fondamentale de l’ensemble de donnée correspondant.

Selon un mode de réalisation, chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale, et la recherche est effectuée sur une pluralité de bases de données, chaque base de données étant caractérisé par un coefficient de fiabilité, et, si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, le label de l’ensemble de données enrichi est retiré si la donnée fondamentale de l’ensemble de données enrichi est distincte de la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisée par le plus grand coefficient de fiabilité.

Selon un mode de réalisation, chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale, et la recherche est effectuée sur une pluralité de bases de données, chaque base de données étant caractérisé par un coefficient de fiabilité, et, si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant la donnée fondamentale en question, et le label de l’ensemble de données enrichi est retiré si la donnée fondamentale de l’ensemble de données enrichi est distincte de la donnée fondamentale associée au facteur de vraisemblance le plus élevé.

Selon un mode de réalisation, chaque métadonnées d’un ensemble de données enrichi étant associé à un poids, la combinaison d’une partie au moins des métadonnées et du label est présente dans une base de données si et seulement si une valeur d’une fonction de présence, calculée en fonction des poids respectifs des métadonnées de la combinaison présente dans la base de données, est supérieure ou égale un seuil prédéterminé.

Selon un mode de réalisation, si, après la recherche dans l’au moins une base de données, un ensemble de données enrichi conserve son label, l’ensemble de données enrichi est à nouveau enrichi par des données représentatives de la fonction de similarité et/ou d’au moins une base de données au sein de laquelle la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi a été trouvée.

Selon un mode de réalisation, :les étapes b) à e) sont répétées pour les ensembles de données dont le label a été retiré avec une nouvelle fonction de similarité, de sorte qu’un ensemble de données ne peut être enrichi par un label déjà agrégé puis retiré précédemment.

Par exemple, la répétition des étapes b) à e) est limitée à un nombre d’itérations maximal prédéterminé.

Selon un mode de réalisation, la donnée fondamentale est relative à un individu ou d’une entité, et les métadonnées comprennent au moins des données de contact de l’individu ou de l’entité, et dans lequel l’ensemble de données enrichi est transmis, à l’aide des données de contact, à destination de l’individu ou de l’entité pour une vérification du label agrégé.

Par exemple, les données de contact sont une adresse postale, un numéro de téléphone, une adresse électronique et/ou une adresse d’un compte utilisateur d’une application.

La présente invention concerne également un programme informatique comprenant des instructions pour la mise en œuvre du procédé décrit précédemment, lorsque les instructions sont exécutées par au moins un processeur.

Enfin, la présente invention vise un système d’enrichissement de données comprenant :

- un module de communication agencé pour recevoir plusieurs ensembles de données, un ensemble de données comprenant une donnée fondamentale et une ou plusieurs métadonnées relatives à la donnée fondamentale,

- une unité de traitement agencée pour :

grouper les ensembles de données en fonction des données fondamentales respectivement associées aux ensembles de données selon une fonction de similarité,

enrichir chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient ledit ensemble de données, et

- au moins une base de données configurée pour stocker des ensembles de données comprenant chacun des métadonnées et un label,

l’unité de traitement étant agencée en outre pour :

chercher pour chaque ensemble de données enrichi, dans l’au moins une base de données, une combinaison d’une partie au moins des métadonnées et du label dudit ensemble de données enrichi, et si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est absente de l’au moins une base de données, retirer le label de l’ensemble de données enrichi.

D’autres caractéristiques, détails et avantages de l’invention apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :

- [Fig. 1] illustre un système d’enrichissement de données selon l’invention; et

- [Fig. 2] illustre un procédé d’enrichissement de données selon l’invention.

La [Fig. 1] illustre un système d’enrichissement de données, ci-après système SYS, selon l’invention.

Le système SYS est agencé pour recevoir des données présentant le risque de comporter des erreurs ou des imprécisions et pour enrichir ces données malgré ces potentielles erreurs ou imprécisions.

Dans le contexte de l’invention, les données reçues par le système SYS sont en effet susceptibles de comporter un certain niveau de bruit. Par exemple, lorsque les données correspondent à une suite de caractères, ces données sont susceptibles de comporter des caractères erronés ou des imprécisions. On comprend donc ici que le bruit désigne typiquement toute erreur introduite dans une suite de caractère à la source, à l’émission ou à la réception ou lors de la transmission des données.

Typiquement, dans le contexte de la banque mobile (aussi connue sous le terme anglophone « mobile banking »), les données reçues à l’entrée du système SYS sont des données permettant à un utilisateur d’accéder à des services financiers depuis un équipement mobile, par exemple un téléphone portable. Les données transférées permettent alors de consulter un compte en ligne ou encore d’effectuer un virement. Les données peuvent correspondre au libellé d’un commerçant, à son code d’activité, à sa localisation, donc sa ville, son adresse et son code postal, ou encore à son nom. Dans un tel domaine d’application, par exemple, certaines informations sont limitées à un nombre maximal de caractères. Le transfert de données représentatives de telles informations sont donc nécessairement imprécises et incomplètes puisque tous les caractères n’ont pu être renseignés. Dans la présente invention, le bruit fait référence, par exemple, à ce type d’imprécisions.

Le système SYS est agencé pour permettre, même lorsque ces données comportent des erreurs, introduites parfois à la source mais également à l’émission ou à la réception des données, la fourniture du service.

Ces données peuvent être également un signal sonore comportant du bruit ou une image numérique comportant du bruit numérique. Le système SYS est agencé pour enrichir les données malgré ce bruit potentiel

Comme illustré en [Fig. 1], le système SYS comprend une unité de traitement UNT et au moins une base de données, ici deux bases de données DB1, DB2.

L’unité de traitement UNT est agencée pour, sur réception de plusieurs ensembles de données, enrichir chaque ensemble de données et vérifier la pertinence de cet enrichissement des données à l’aide des bases de données DB1, DB2. Plus spécifiquement, l’unité de traitement UNT est agencée pour générer, pour chaque ensemble de données reçu, une donnée supplémentaire dite label et agréger ou adjoindre le label généré à l’ensemble de données associé. Dans la littérature, on parlera également d’étiquette pour désigner le label.

Par ailleurs, l’unité de traitement UNT est également agencée pour appliquer un traitement à une partie au moins des données reçues pour réduire un niveau de bruit que les données sont susceptibles de comporter.

L’unité de traitement UNT est agencée en outre pour, une fois un ensemble de données enrichi, acheminer cet ensemble de données à une adresse afin de permettre à un utilisateur de prendre connaissance des données enrichies et de vérifier que ces données ont été correctement enrichies.

Dans l’exemple illustré en [Fig. 1], trois ensembles de données DAT1, DAT2, DAT3 sont transmis à l’unité de traitement UNT.

Chaque ensemble de données comprend une donnée fondamentale Di, D₂, D₃ et une ou plusieurs métadonnées relatives à cette donnée fondamentales. Les métadonnées accompagnant les données fondamentales sont des données descriptives permettant de décrire ou de définir les données fondamentales. Par exemple, dans le domaine de la banque mobile, la donnée fondamentale est le libellé d’un commerçant tandis que les métadonnées caractérisent son code d’activité, sa localisation ou toute autre information concernant le commerçant en question. Dans l’exemple de la [Fig. 1], le premier ensemble de données DAT1 comprend la donnée fondamentale Di et comprend en outre des métadonnées MDi¹, MDi^m. Le deuxième ensemble de données DAT2 comprend la donnée fondamentale D₂ et comprend en outre des métadonnées MD₂\ MD₂“. Enfin, le troisième ensemble de données DAT3 comprend la donnée fondamentale D₃ et comprend en outre des métadonnées MD₃\ MD₃ ^P. Dans les notations précédentes, m, n et p sont des entiers naturels désignant le nombre de métadonnées respectif des premier, deuxième et troisième ensembles de données DAT1, DAT2, DAT3.

Dans le contexte de l’invention, la donnée fondamentale de chaque ensemble de données est susceptible de présenter un certain niveau de bruit et donc de comporter des erreurs ou des imprécisions.

Bien entendu, les métadonnées sont également susceptibles de présenter un certain niveau de bruit. On comprend que le traitement appliqué par l’unité de traitement UNT aux données fondamentales pour réduire le bruit peut également être appliqué aux métadonnées. Dans la suite de la description, on se focalise en particulier sur le cas dans lequel les données fondamentales peuvent être bruitées. Comme expliqué par la suite, l’unité de traitement UNT est agencée notamment pour générer une donnée traitée en appliquant un traitement de diminution d’un niveau de bruit à la donnée fondamentale d’un ensemble de données.

Toutefois, il est entendu que les métadonnées peuvent également être bruitées et que l’unité de traitement UNT peut également être agencée pour générer de nouvelles métadonnées par application d’un traitement de diminution d’un niveau de bruit aux métadonnées reçues.

Par ailleurs, toujours en référence à l’exemple illustré en [Fig. 1], trois ensembles de données enrichis DAT1*, DAT2*, DAT3* sont générés par l’unité de traitement UNT. Comme expliqué précédemment, l’unité de traitement UNT est agencée plus particulièrement pour générer, pour chaque ensemble de données reçu, une donnée supplémentaire aussi appelée label ou étiquette et pour enrichir chaque ensemble de données en lui agrégeant ou adjoignant le label généré. Dans l’exemple décrit ici, les premier et deuxième ensembles de données DAT1, DAT2 sont enrichis par un même label label(Ci) tandis que le troisième ensemble de données DAT3 est enrichi par un label label(C₃).

L’unité de traitement UNT comprend un module de communication COM, une mémoire MEM et un processeur PROC.

Le module de communication COM est agencé pour recevoir plusieurs ensembles de données. Dans l’exemple illustré en [Fig. 1], le module de communication COM est agencé pour recevoir les premier, deuxième et troisième ensembles de données DAT1, DAT2, DAT3. Par ailleurs, le module de communication COM est agencé en outre pour émettre plusieurs ensembles de données enrichis. Dans l’exemple illustré en [Fig. 1], le module de communication COM est agencé pour émettre les premier, deuxième et troisième ensembles de données enrichis DAT1*, DAT2*, DAT3*.

Il est connu de l'homme du métier qu'il existe de nombreux types différents de réseaux de communication de données, par exemple des réseaux de radiocommunication, cellulaires ou non cellulaires, et qu’en fonction du mode de réalisation, le module de communication COM pourra intégrer un ou plusieurs modules de communication, par exemple de communication radiofréquence et être configuré pour l’émission et la réception de signaux radiofréquences, selon une ou plusieurs technologies, telles que TDMA, FDMA, OFDMA, CDMA, ou un ou plusieurs standards de radiocommunication, tels que GSM, EDGE, CDMA, UMTS, HSPA, LTE, LTE- A, WiFi (IEEE 802.11) et WiMAX (IEEE 802.16), ou leurs variantes ou évolutions, actuellement connus ou développés ultérieurement.

En d’autres termes, le module de communication COM est agencé pour communiquer avec un réseau étendu (également connu sous l’acronyme anglophone WAN pour « Wide Area Newtork »), un réseau local (également connu sous l’acronyme anglophone LAN pour « Local Area Network ») ou tout autre type de réseau.

Les ensembles de données sont, par exemple, émis à destination du module de communication COM de l’unité de traitement UNT suite à l’utilisation d’une application. Une telle application est typiquement implémentée sur un terminal, par exemple un terminal mobile de type smartphone (terme anglophone usuel pour désigner un téléphone intelligent), et est par exemple destinée à être utilisée par un utilisateur. Par exemple, l’utilisateur effectue un paiement via cette application et ce paiement engendre la génération d’une partie au moins des données d’un ensemble de données, que ce soit la donnée fondamentale et/ou les métadonnées. C’est typiquement dans un tel cas que du bruit peut être introduit avec des erreurs ou des imprécisions. Par exemple, ces informations sont une suite de caractères. La mémoire MEM est agencée pour stocker des instructions sous la forme d’un programme informatique dont l’exécution par le processeur PROC se traduit par le fonctionnement de l’unité de traitement UNT.

Le fonctionnement du processeur PROC et donc de l’unité de traitement UNT sera décrit plus en détails dans la suite de la description en référence à la [Fig. 2].

Comme expliqué précédemment, le système SYS comprend également au moins une base de données. Dans l’exemple illustré en [Fig. 1], le système SYS comprend deux bases de données DB1, DB2. Néanmoins, l’homme du métier comprend ici que le système SYS peut ne comprendre qu’une seule base de données. Chaque base de données DB1, DB2 est configurée pour stocker des ensembles de données comprenant chacun des métadonnées et un label. Avantageusement, un ou plusieurs ensembles de données stockés dans une base de données DB 1 , DB2 comprennent également, outre des métadonnées et un label, une donnée fondamentale.

Par ailleurs, chaque base de données DB1, DB2 est configurée pour être accessible à l’unité de traitement UNT au sein du système SYS. Comme expliqué dans la suite de la description, cette accessibilité se traduit par la possibilité pour l’unité de traitement UNT d’effectuer une recherche au sein de chaque base de données DB1, DB2 pour établir, si possible, une correspondance entre un ensemble de données enrichi et les ensembles de données stockés dans les bases de données. Cette recherche vise en particulier à vérifier la pertinence de T enrichissement de l’ensemble de données réalisé et sa conformité avec les bases de données connues.

Comme expliqué précédemment, un des domaines d’ application de la présente invention est la banque mobile. Dans un tel contexte, les bases de données adressées par l’unité de traitement UNT pour vérifier qu’un ensemble de données reçu a été correctement enrichi est par exemple une base de données de type SIREN (pour « Système d’identification du répertoire des entreprises »), SIRET (pour « Système d’identification du répertoire des établissements ») ou encore Infogreffe. Ces bases de données publiques permettent d’accéder à des données relatives à l’identification d’une entreprise, d’une société, d’un établissement, d’un organisme ou d’une association ayant des activités en France. Bien entendu, l’homme du métier comprend que les bases de données DB1, DB2 peuvent désigner toute base de données de ce type et pas seulement pour la France. Bien entendu, les bases de données DB1, DB2 peuvent également désigner d’autres types de base de données accessibles par des interfaces de programmation (connues également sous l’acronyme anglophone API pour « Application programming interface »).

Un procédé d’enrichissement de données selon l’invention va à présent être décrit en référence à la

[Fig. 2]

Dans le contexte de la mise en œuvre du procédé décrit ci-après, plusieurs ensembles de données sont émis à destination du système SYS tel que décrit précédemment en référence à la [Fig. 1].

Ces données sont transmises au système SYS par exemple via un réseau étendu de type Internet ou via un réseau local. Ce procédé est typiquement mis en œuvre aux fins de fournir un service dans le cadre de la banque mobile. Un ensemble de données se rapporte alors par exemple à une entreprise, une société ou un commerçant et les métadonnées comprises dans l’ensemble de données sont des données informatives ou descriptives d’une donnée fondamentale concernant le libellé de l’entreprise, de la société ou du commerçant. Cette donnée fondamentale est, du fait du transfert de l’ensemble de données, susceptible de comporter des erreurs ou des imprécisions et donc d’être corrompue par un certain niveau de bruit. Ce bruit peut avoir été introduit à la source, à l’émission ou encore à la réception.

Lors d’une étape SI, le système SYS reçoit plusieurs ensembles de données. Plus spécifiquement, les ensembles de données sont reçus par le module de communication COM de l’unité de traitement UNT du système SYS.

Comme expliqué précédemment, dans le domaine de la banque mobile, la génération de tels ensembles de données est par exemple déclenchée par une application sur un terminal mobile d’un utilisateur.

Dans l’exemple illustré en [Fig. 1], le module de communication COM reçoit un premier ensemble de données DAT1, un deuxième ensemble de données DAT2 et un troisième ensemble de données DAT3. Bien entendu, cet exemple est purement illustratif et le système SYS peut avoir à traiter un nombre beaucoup plus important d’ensembles de données.

Chaque ensemble de données comprend une donnée fondamentale et une ou plusieurs métadonnées relatives à la donnée fondamentale. En d’autres termes, les métadonnées permettent de définir, de décrire ou d’ apporter des informations supplémentaires concernant la donnée fondamentale.

Dans l’exemple décrit ici, le premier ensemble de données DAT1 comprend des métadonnées MDi¹, ..., MDi^m décrivant la donnée fondamentale Di. Le deuxième ensemble de données DAT2 comprend des métadonnées MD₂\ ..., Ml)₂" décrivant la donnée fondamentale D₂. Enfin, le troisième ensemble de données DAT3 comprend des métadonnées MD3¹, ..., MD₃ ^P décrivant la donnée fondamentale D₃.

Optionnellement, lors d’une étape S2, l’unité de traitement UNT du système SYS génère pour chaque ensemble de données, par application d’un traitement de diminution d’un niveau de bruit à la donnée fondamentale, une donnée traitée associée à l’ensemble de données.

En effet, comme expliqué précédemment, du fait du transfert de l’ensemble de données, du bruit peut être introduit à la source, à l’émission ou à la réception dans l’ensemble de données et plus spécifiquement dans la donnée fondamentale. La mise en œuvre du service requérant l’acheminement correct de l’ensemble de données est alors compromise par de telles erreurs ou imprécisions.

Au cours de cette étape, l’unité de traitement UNT applique tout type de traitement de données permettant de réduire le niveau de niveau de bruit de la donnée fondamentale. L’homme du métier connaît les techniques employées habituellement pour diminuer le niveau de bruit ou le supprimer complètement d’une ou de plusieurs données.

Par exemple, lorsque la donnée fondamentale est une suite de caractères, la donnée traitée est générée par suppression de la suite de caractères d’un ou plusieurs caractères d’une liste de caractères prédéterminés. Cette liste de caractères est par exemple stockée dans la mémoire MEM de l’unité de traitement UNT de sorte que, lorsque l’unité de traitement détecte un caractère de cette liste dans une donnée fondamentale prenant la forme d’une suite de caractère, ce caractère est supprimé pour générer la donnée traitée.

Bien entendu, la donnée fondamentale peut également être un signal sonore ou une image numérique. Là encore, les techniques diverses permettant de réduire ou de supprimer le bruit dans un signal sonore ou une image numérique sont largement connues de l’homme du métier de sorte que l’unité de traitement UNT peut être configurée pour être apte à appliquer de telles techniques sur la donnée fondamentale de chaque ensemble de données reçues par le système SYS.

Dans le cas présent, on désigne par Di’ la donnée traitée générée par le premier ensemble de données DAT1 par diminution du niveau de bruit de la donnée fondamentale Di. De même, on désigne par D₂’ la donnée traitée générée par le deuxième ensemble de données DAT2 par diminution du niveau de bruit de la donnée fondamentale D₂, et par D₃’ la donnée traitée générée par le troisième ensemble de données DAT3 par diminution du niveau de bruit de la donnée fondamentale D₃.

A ce stade du procédé, la donnée traitée pour un ensemble de donnée peut être agrégée ou adjointe à l’ensemble de donnée en plus ou à la place de la donnée fondamentale, et en compagnie des métadonnées correspondantes.

Dans la suite de la description du procédé, on considère que cette étape S2 a été mise en œuvre et que la donnée traitée remplace la donnée fondamentale. L’homme du métier comprend ici que dans le mode de réalisation dans lequel cette étape n’est pas mise en œuvre, cette donnée traitée n’est donc pas générée et ce qui est réalisé par la suite à l’aide la donnée traitée l’est à l’aide de la donnée fondamentale. D’ailleurs, dans le cas où la donnée traitée est générée, cette donnée traitée peut être identique à la donnée fondamentale. En particulier, si la donnée fondamentale ne comporte aucun bruit, la donnée traitée est identique à la donnée fondamentale.

En référence à la [Fig. 2], on incrémente à partir de maintenant un compteur i, initialisé à 1 et on sélectionne une fonction de similarité I j. Avantageusement, la mémoire MEM stocke un ensemble de fonctions de similarité.

Lors d’une étape S3, l’unité de traitement UNT groupe les ensembles de données en fonction des données traitées respectivement associées aux ensembles de données selon la fonction de similarité. Le regroupement des données mis en œuvre par l’unité de traitement UNT est plus connu sous le terme anglophone « data clustering » ou plus simplement « clustering ». On peut parler également ici de partitionnement ou de mise en grappe des données. Là encore, les techniques de regroupement utilisées par l’unité de traitement UNT sont des techniques connues de l’homme du métier. Avantageusement, le regroupement mis en œuvre par l’unité de traitement UNT permet d’obtenir une grande similarité intra-groupe, à savoir une homogénéité élevée entre les éléments, ici des ensembles de données, d’un même groupe, et une faible similarité inter-groupe, afin d’avoir des groupes bien différenciés.

Les techniques de regroupement ou « clustering » utilisées dans le cadre de la mise en œuvre du procédé sont variées. Avantageusement, le regroupement mis en œuvre par l’unité de traitement UNT comprend un algorithme de partitionnement, un algorithme hiérarchique, un algorithme basé sur la densité, un algorithme de grille ou encore un algorithme de modèle.

Avantageusement, le regroupement des ensembles de données utilise un algorithme d’apprentissage non supervisé De tels algorithmes sont connus de l’homme du métier.

A l’issue de cette étape, donc, les ensembles de données sont regroupés par groupes, plus connus sous le terme anglophone « clusters », selon la fonction de similarité utilisée.

Typiquement, la fonction de similarité est une fonction de distance définie sur un espace de M+l dimensions, où M est le nombre de métadonnées (M+l correspondant donc au cardinal d’un ensemble de données reçu avec M métadonnées et une donnée fondamentale). Par exemple, si les données sont des données numériques, la fonction de similarité peut être une distance euclidienne. Si les données sont des caractères, typiquement des lettres, la fonction de similarité peut être une distance de Levenshtein. Bien entendu, lorsque certaines données d’un ensemble de données sont numériques tandis que d’autres sont des lettres, la fonction de similarité peut être une combinaison d’une distance euclidienne et d’une distance de Levenshtein. On peut alors définir un seuil de sorte que, lorsque la distance entre deux ensembles de données est inférieure ou égale à ce seuil, alors les deux ensembles de données sont regroupés ensemble, faisant ainsi partie du même cluster.

En référence à nouveau à l’exemple illustré en [Fig. 1], le premier ensemble de données DAT1 et le deuxième ensemble de données DAT2 sont regroupés dans un même groupe ou « cluster » Ci. Le troisième ensemble de données DAT3 est quant à lui placé dans un groupe C₂. Les premier, deuxième et troisième ensembles de données DAT1, DAT2, DAT3 ont été regroupés en fonction de leurs données traitées respectives Di’, D₂’, D₃‘.

Comme expliqué précédemment, la génération de la donnée traitée est optionnelle. Ainsi, lorsqu’ aucune donnée traitée n’a été générée, le regroupement des ensembles de données est mis en œuvre en fonction des données fondamentales respectives des ensembles de données.

Lors d’une étape S4, l’unité de traitement UNT enrichit chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient l’ensemble de données considéré. En d’autre terme, un ensemble de donnée reçoit, à l’issue du regroupement, une donnée supplémentaire caractérisant le groupe au sein duquel a été classé l’ensemble de données en question. On peut considérer que cette donnée supplémentaire, aussi appelée label ou étiquette, est agrégée ou adjointe à l’ensemble de données.

En référence à nouveau à l’exemple illustré en [Fig. 1], les premier et deuxième ensembles de données DAT1, DAT2 ont été classés dans le même groupe ou « cluster » Ci. Ces deux ensembles de données DAT1, DAT2 sont donc enrichis par la même donnée supplémentaire référencée label(Ci). De même, le troisième ensemble de données DAT3 ayant été classé dans le groupe ou « cluster » C₂, celui-ci est enrichi par la donnée supplémentaire label(C₂).

Lors d’une étape S5, l’unité de traitement UNT cherche, pour chaque ensemble de données enrichi, dans au moins une base de données stockant des ensembles de données comprenant chacun des métadonnées et un label, une combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi considéré.

Dans le cas d’illustration développé ici, par exemple, le premier ensemble DAT1 enrichi comprend la donnée fondamentale Di, des métadonnées MDi¹, ..., MDi^m, un label label(Ci) et, optionnellement, la donnée traitée Di’. La recherche effectuée par l’unité de traitement UNT dans au moins une des bases de données DB1, DB2 vise donc à déterminer si la combinaison d’une partie au moins des métadonnées MDi¹, ..., MDi^m et du label label(Ci) est présent dans un ensemble de données parmi les ensembles de données stocké dans la base de données DB1, DB2. Avantageusement, une telle recherche est réalisée dans toutes les bases de données, donc ici la base de données DB 1 et la base de données DB2.

Dans la suite de la description, on parlera d’un « ensemble de données correspondant » pour désigner un ensemble de données stocké dans une base de données et comprenant la combinaison cherchée. On dit ainsi que cet ensemble de données est un ensemble de données correspondant de l’ensemble de données enrichi dont est issue la combinaison cherchée.

En référence à nouveau au procédé illustré en [Fig. 2], il y a alors deux possibilités pour un ensemble de données enrichi :

- soit une telle combinaison de métadonnées et de label est bien présente dans au moins une base de données ;

- soit une telle combinaison est absente.

Avantageusement, dans un ou plusieurs modes de réalisation, chaque métadonnée d’un ensemble de données enrichi est associée à un poids. Ce poids permet de caractériser l’importance d’une métadonnée au sein d’un ensemble de données. La combinaison d’une partie au moins des métadonnées et du label est alors considérée comme présente dans une base de données si et seulement si une valeur d’une fonction de présence, calculée en fonction des poids respectifs des métadonnées de la combinaison présente dans la base de données en question, est supérieure ou égale un seuil prédéterminé.

En d’autres termes, dans ce mode de réalisation spécifique, on applique un critère supplémentaire pour déterminer si un ensemble de données stocké dans une base de données peut être considéré comme un « ensemble de données correspondant ». Ce critère consiste à vérifier si un ensemble de données correspondant potentiel est suffisamment significatif, selon les métadonnées qu’il contient et partage en commun avec un ensemble de données enrichi. Bien entendu, la nécessité que le label de cet ensemble de données correspondant potentiel soit le même que l’ensemble de données enrichi considéré subsiste dans ce mode de réalisation spécifique.

On considère à titre d’exemple le premier ensemble de données enrichi DAT1*. On suppose que les métadonnées MDi¹, ..., MDi^m sont toutes respectivement associées à un poids Pi¹, ..., Pi^m. On suppose par ailleurs que, dans la base de données DB1, un ensemble de données comprend les métadonnées MDi¹, ..., MDi^k et le label label(Ci), où k est un entier naturel strictement inférieur à m. En d’autres termes, cet ensemble de données trouvé dans la base de données DB1 comprend bien une partie au moins des métadonnées du premier ensemble de données enrichi DAT1* ainsi que le label label(Ci). Il s’agit donc un ensemble de données correspondant potentiel.

Néanmoins, dans ce mode de réalisation, on applique en plus, pour déterminer si cet ensemble de données correspondant potentiel est pertinent, le critère explicité précédemment en calculant la valeur Vi prise par la fonction de présence, notée G ci-après, pour les métadonnées du premier ensemble de données enrichi DAT1*, et plus exactement pour les poids respectivement associés à ces métadonnées. En d’autres termes :

Vf = G(Pi\ ..., Pi^k)

Cette valeur Vi est ensuite comparée avec un seuil prédéterminé et, si cette valeur est supérieure ou égale au seuil prédéterminé, alors l’ensemble de données trouvé dans la base de données DB1 est pertinent et est retenu comme un ensemble de données correspondant.

Par exemple, la fonction de présence G est une addition ou une multiplication.

Toujours à titre d’exemple, on suppose par ailleurs que, au sein de la base de données DB2, une autre combinaison d’une partie au moins des métadonnées et du label du premier ensemble de données enrichi DAT1* est trouvée dans un ensemble de données, donc potentiellement un ensemble de données correspondant. Les métadonnées communes à cet ensemble de données et au premier ensemble de données enrichi DAT1* peuvent bien entendu être différentes de celles trouvées dans la base de données DB1. Par exemple, Pensemble de données trouvé dans la base de données DB2 comprend les métadonnées MD , MDi^m, où j est un entier naturel inférieur à m, et le label label(Ci).

De même que pour l’exemple précédent, l’unité de traitement UNT calcule alors la valeur V₂ prise par la fonction G prise pour cette combinaison trouvée. En d’ autres termes :

V₂ = G(P₁ ^j, ..., P₁ ^k)

Cette valeur V₂ est ensuite comparée avec le seuil prédéterminé et, si cette valeur est supérieure ou égale au seuil prédéterminé, alors l’ensemble de données trouvé dans la base de données DB2 est pertinent et est retenu comme un ensemble de données correspondant.

Par exemple, l’ensemble de données trouvé dans la base de données DB1 est retenu selon ce critère tandis que celui trouvé dans la base de données DB2 ne l’est pas.

Dans la suite de la description du procédé, il est compris que, dans ce mode de réalisation, un ensemble de données correspondant est non seulement un ensemble de données stocké dans une base de données comprenant la combinaison d’une partie au moins des métadonnées et du label d’une ensemble de données enrichi mais aussi un ensemble de données vérifiant le critère décrit précédemment concernant les poids respectifs des métadonnées qu’il partage avec l’ensemble de données enrichi sur la base duquel la recherche est effectuée par l’unité de traitement UNT.

Lors d’une étape S6, mise en œuvre notamment dans le cas où une combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est absent de l’au moins une base de données, le label précédemment attribué est retiré de l’ensemble de données enrichi. En d’autres termes, puisqu’il n’y a trace dans aucune base de données d’une combinaison d’une partie au moins des métadonnées et du label, il est considéré que c’est par erreur que celui-ci a été attribué lors du regroupement de l’étape S3 à l’ensemble de données considéré. Celui-ci précédemment enrichi se voit donc retirer la donnée supplémentaire ou label qui lui a été agrégée ou adjointe.

En référence à nouveau au cas illustré en [Fig. 1], on considère par exemple le deuxième groupe de données DAT2. A l’issue de l’étape S4, celui-ci a été enrichi par la donnée supplémentaire label(Ci). L’unité de traitement UNT a donc ensuite cherché, au cours de l’étape S5, dans au moins une des bases de données DB 1 , DB2 si un ensemble de données stocké dans une de ces bases de données DB 1 , DB2, comprend à la fois une partie au moins des métadonnées Ml)₂' , ..., MD₂" et la donnée supplémentaire label(Ci). Si aucun ensemble de données stocké dans les bases de données DB1, DB2 ne comprend une telle combinaison, le label label(Ci) est donc retiré du deuxième ensemble de données enrichi DAT2*. Celui-ci ne comprend plus alors, à l’issue de cette étape S5, que la donnée fondamentale D2, les métadonnées MD₂\ ..., MD₂" et, éventuellement, la donnée traitée D₂’. Alternativement, en référence à la [Fig. 2], si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est bien présent dans au moins une base de données, il est déterminé si cette combinaison a été déterminée dans une seule base de données ou dans plusieurs bases de données. Bien entendu, dans un mode de réalisation dans laquelle une seule base de données est intégrée au système SYS et est accessible à l’unité de traitement UNT, un ensemble de données correspondant à la combinaison d’une partie au moins des métadonnées et de label recherché ne peut être trouvé que dans cette base de données seule.

Néanmoins, dans le cas illustré par exemple en [Fig. 1], une telle recherche peut être réalisée sur une pluralité de bases de données, ici deux bases de données DB1, DB2 et un ensemble de données correspondant peut être trouvé dans plusieurs bases de données différentes. Par exemple, concernant le troisième ensemble de données enrichi DAT3*, l’unité de traitement UNT a cherché dans la base de données DB1 mais aussi dans la base de données DB2 un ensemble de données comprenant la combinaison d’une partie au moins des métadonnées MD₃ ¹, ... MD₃ ^P et du label label(C₂). Il est tout à fait possible qu’un ensemble de données correspondant ait été trouvé dans la base de données DB1, tandis qu’un autre ensemble de données correspondant a été trouvé dans la base de données DB2. En d’autres termes, l’unité de traitement UNT a trouvé un ensemble de données stocké dans la base de données DB1 comprenant la combinaison d’une partie au moins des métadonnées et du label du troisième ensemble de données enrichi DAT3* mais a aussi trouvé un ensemble de données stocké dans la base de données DB2 comprenant cette même combinaison de métadonnées et du label.

Dans un tel cas, lors d’une étape S7, l’unité de traitement UNT applique un critère prédéfini pour déterminé si le résultat de cette recherche qui a abouti à trouver un ensemble de données correspondant dans plus d’une base de données du système SYS permet de conclure à la pertinence du label attribué ou non.

Lors de cette étape S7, on distingue deux modes de réalisation :

Dans un premier mode de réalisation, chaque base de données est caractérisée par un coefficient de fiabilité. De plus, chaque ensemble de données stocké dans une base de données comprend en outre une donnée fondamentale.

On compare alors la donnée traitée de l’ensemble de données considéré et la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisé par le plus grand coefficient de fiabilité.

Comme expliqué précédemment, on est ici dans le cas particulier où, pour chaque ensemble de données, une donnée traitée a été générée lors de l’étape optionnelle S2 et remplace la donnée fondamentale pour la mise en œuvre du procédé. II est donc bien clair ici que, si la donnée traitée n’a pas été générée, on compare, lors de cette étape S7, la donnée fondamentale de l’ensemble de données considéré et la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisé par le plus grand coefficient de fiabilité.

Par exemple, en référence toujours à la [Fig. 1], dans lequel le système SYS comprend deux bases de données DB1, DB2. Puisqu’il y a plusieurs bases de données, chacune se voit attribuer un coefficient de fiabilité permettant de quantifier sa pertinence ou sa fiabilité. Avantageusement, les coefficients de fiabilité respectifs de deux bases de données distinctes sont distincts. Ainsi, la base de données DB1 est caractérisée par un coefficient de fiabilité CFI tandis que la base de données DB2 est caractérisée par un coefficient de fiabilité CF2. On considère en outre que la base de données DB 1 étant plus fiable que la base de données DB2, on a : CF1>CF2.

On suppose ensuite que la combinaison d’une partie au moins des métadonnées MDi¹, ..., MDi^m et de la donnée supplémentaire label(Ci) du premier ensemble de données enrichi DAT1* a été trouvée dans un ensemble de données correspondant stocké dans la base de données DB 1 mais aussi dans un autre ensemble de données correspondant stocké dans la base de données DB2. Ces deux ensembles correspondants comprennent donc chacun une donnée fondamentale. Ces données fondamentales respectives peuvent être similaires ou différentes.

Etant donné que, parmi les bases de données stockant un ensemble de données correspondant, la base de données dont le coefficient de fiabilité est le plus élevé est la base de données DB 1 caractérisée par le coefficient de fiabilité CFI. Au cours de cette étape S7, dans ce premier mode de réalisation, la donnée traitée Di’ du premier ensemble de données enrichi DAT1* est donc comparée à la donnée fondamentale de l’ensemble de données correspondant trouvé dans la base de données DB1.

En référence au procédé d’enrichissement de données illustré en [Fig. 2], si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, le label de l’ensemble de données enrichi est retiré lors de l’étape S6 alors mise en œuvre par l’unité de traitement UNT si la donnée traitée de l’ensemble de données enrichi est distincte de la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisée par le plus grand coefficient de fiabilité.

Dans un deuxième mode de réalisation, chaque base de données est là encore caractérisée par un coefficient de fiabilité. De plus, chaque ensemble de données stocké dans une base de données comprend en outre une donnée fondamentale.

Cette fois-ci, dans ce mode de réalisation alternatif, on ne considère pas seulement la base de données ayant le coefficient de fiabilité le plus élevé parmi toutes les bases de données comprenant un ensemble de données correspondant à la combinaison cherchée. Dans ce mode de réalisation particulier, l’unité de traitement UNT prend en compte toutes les bases de données comprenant un ensemble de données correspondant.

Chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant la donnée fondamentale considérée.

Pour illustrer ce mode de réalisation, on fait référence à nouveau à l’exemple illustré en [Fig. 1]. On suppose en outre qu’une troisième base de données (non représentée ici) est comprise dans le système SYS et fait l’objet d’une recherche par l’unité de traitement UNT en plus des bases de données DB1, DB2. On suppose enfin que cette troisième base de données est caractérisée par un coefficient de fiabilité CF3. On suppose également pour ce mode de réalisation que la base de données DB1 est caractérisée par un coefficient de fiabilité CFI tandis que la base de données DB2 est caractérisée par un coefficient de fiabilité CF2. Avantageusement là aussi, les coefficients de fiabilité respectifs de deux bases de données distinctes sont distincts.

On suppose ensuite que la combinaison d’une partie au moins des métadonnées MD3¹, ..., MD₃ ^P et de la donnée supplémentaire label(C₂) du troisième ensemble de données enrichi DAT3* a été trouvée dans un ensemble de données correspondant stocké dans la base de données DB 1 mais aussi dans un ensemble de données correspondant stocké dans la base de données DB2 et dans un ensemble de données correspondant stocké dans la troisième base de données. Ces trois ensembles correspondants comprennent donc chacun une donnée fondamentale. Ces données fondamentales respectives peuvent être similaires ou différentes.

On suppose à titre d’exemple que l’ensemble de données correspondant stocké dans la base de données DB 1 et l’ensemble de données correspondant stocké dans la base de données DB2 comprennent la même donnée fondamentale, notée ci-après DFi ₂. En revanche, l’ensemble de données correspondant stocké dans la troisième base de données comprend une donnée fondamentale, notée ci- après DF₃, différente. L’unité de traitement UNT détermine alors un facteur de vraisemblance FV(DF_{I 2}) associé à la donnée fondamentale DFi ₂. Ce facteur de vraisemblance FV(DF_{I 2}) est calculé en fonction des coefficients de fiabilité de la base de données DB1 et de la base de données DB2, à savoir CFI et CF2. De même, l’unité de traitement UNT détermine un facteur de vraisemblance FV(DF₃) associé à la donnée fondamentale DF₃. Ce facteur de vraisemblance FV(DF₃) est calculé en fonction du coefficient de fiabilité de la troisième base de données, à savoir CF3.

Par exemple, un facteur de vraisemblance est déterminé par addition des coefficients de fiabilité. On a alors :

FV(DF_U) = CF1+CF2 FV(DF₃) = CF3

Une autre possibilité peut également être de calculer la moyenne des coefficients de fiabilité pour calculer le facteur de vraisemblance. On a alors :

FV(DF ) = (CFl+CF2)/2

FV(DF₃) = CF3

L’homme du métier comprend ici que plusieurs calculs sont possibles pour déterminer le facteur de vraisemblance d’une donnée fondamentale en fonction des coefficients de fiabilité.

On compare alors dans l’exemple développé ici la donnée traitée D₃’ du troisième ensemble de données enrichi DAT3* avec la donnée fondamentale associée au facteur de vraisemblance le plus élevé.

Comme expliqué précédemment, on est ici dans le cas particulier où, pour chaque ensemble de données, une donnée traitée a été générée lors de l’étape optionnelle S2 et remplace la donnée fondamentale pour la mise en œuvre du procédé. Il est donc bien clair ici que, si la donnée traitée n’a pas été générée, on compare, lors de cette étape S7, la donnée fondamentale de l’ensemble de données considéré et la donnée fondamentale associée au facteur de vraisemblance le plus élevé.

En référence au procédé d’enrichissement de données illustré en [Fig. 2], si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant la donnée fondamentale considérée, et le label de l’ensemble de données enrichi est retiré lors de l’étape S6 alors mise en œuvre par l’unité de traitement UNT si la donnée traitée de l’ensemble de données enrichi est distincte de la donnée fondamentale associée au facteur de vraisemblance le plus élevé.

L’étape S6, comme précisé précédemment, est mise en œuvre pour un ensemble de données enrichi soit à la suite de l’étape S5 s’il s’avère que la combinaison d’une partie au moins des métadonnées et du label de cet ensemble de données enrichi n’est présente dans aucune base de données, soit à la suite de l’étape S7 si cette combinaison a été trouvée dans plusieurs bases de données et qu’il s’avère que le label attribué est erroné. Lors de cette étape S6, donc, le label de l’ensemble de données enrichi est retiré. Ensuite, comme illustré en [Fig. 2], on détermine si le compteur i caractérisant le nombre d’itérations du procédé est inférieure ou égale à un nombre maximal d’itérations prédéterminé N. Si ce nombre maximal d’itérations n’a pas encore été atteint, le compteur est incrémenté. Avantageusement, lorsque le compteur est incrémenté, une nouvelle fonction de similarité, par exemple stockée dans la mémoire MEM de l’unité de traitement UNT, est sélectionnée. Les étapes S3 et suivantes sont alors répétées pour les ensembles de données dont le label a été retiré avec la nouvelle fonction de similarité, de sorte qu’un ensemble de donné ne peut être enrichi par un label déjà agrégé puis retiré précédemment.

Comme expliqué précédemment, une fonction de similarité permet de calculer une distance entre deux ensembles de données de sorte que deux ensembles de données sont regroupés dans un même groupe ou cluster lorsque la distance entre ces deux ensembles de données est inférieure ou égale à un certain seuil. Aussi, lorsqu’une nouvelle fonction de similarité est sélectionnée il est également possible de modifier ce seuil, par exemple en l’augmentant. Par ailleurs, il est également possible de conserver la même fonction de similarité et de seulement changer le seuil.

En revanche, si le nombre maximal d’itérations prédéterminé N du procédé a été atteint, l’unité de traitement UNT interrompt la boucle et passe à l’étape S8 quand bien même certains ensembles de données se retrouvent sans label attribué.

L’étape S8 est mise en œuvre à l’issue de l’étape S7 s’il est déterminé que le label attribué à un ensemble de données lors de l’enrichissement de celui-ci est correct au vu de la recherche réalisée sur T au moins une base de données, il est alors considéré que cet ensemble de données a été correctement enrichi.

L’étape S8 peut également être mise en œuvre si le nombre maximal d’itérations prédéterminé N du procédé a été atteint.

Par ailleurs, en référence à la [Fig. 2], l’étape S8 peut également être mise en œuvre dans le cas où, pour un ensemble de données enrichi, la combinaison d’une partie au moins des métadonnées et du label de cet ensemble de données enrichi n’a été trouvée que dans une seule base de données à l’issue de l’étape S5. Dans un tel cas, lors de l’étape S8 alors mise en œuvre par l’unité de traitement UNT du système SYS, la donnée fondamentale de l’ensemble de données enrichi est remplacée si nécessaire par la donnée fondamentale de l’ensemble de donnée correspondant. Par « nécessaire », on entend ici que la donnée fondamentale de l’ensemble de données correspondant est distincte de l’ensemble de données enrichi. D’ailleurs, cette donnée fondamentale présente dans l’ensemble de données correspondant peut correspondre à la donnée traitée.

On comprend ici l’ensemble de données enrichi en sortie du système comprend au moins soit la donnée fondamentale d’origine, soit la donnée traitée soit la donnée fondamentale trouvée dans l’ensemble de données correspondant. En référence à la [Fig. 1], on suppose par exemple que la combinaison d’une partie au moins des métadonnées MD₂\ MD₂" et du label label(Ci) issues du deuxième ensemble de données enrichi DAT2* a été trouvée uniquement dans une base de données, par exemple la base de données DB1, donc dans un seul ensemble de données correspondant lors de l’étape S5. Lors de l’étape S8 immédiatement en œuvre par la suite, l’unité de traitement UNT compare alors la donnée fondamentale D₂ du deuxième ensemble de données enrichi DAT2* est comparée avec la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données DB1. Si la donnée fondamentale de l’ensemble de données correspondant est distincte de la donnée fondamentale du deuxième ensemble de données enrichi, cette dernière est alors remplacée dans le deuxième ensemble de données enrichi par la donnée fondamentale de l’ensemble de données correspondant.

A l’issue de l’étape S8, donc, chaque ensemble de données a bénéficié au plus de N itérations des étapes S3 et suivantes pour se voir attribuer un label cohérent au vu de la recherche effectuée sur un ou plusieurs bases de données du système SYS. Certains ensembles de données sont, à l’issue de cette étape, toujours enrichis d’une donnée supplémentaire ou label tandis que d’autres ensembles de données peuvent rester sans label.

Par ailleurs, concernant les ensembles de données enrichis qui, à l’issue de l’étape S8, ont conservé leur label du fait du résultat positif de la recherche dans la ou les bases de données DB1, DB2, soit parce que la combinaison d’une partie au moins des métadonnées et du label se retrouvait dans une seule et unique base de données soit parce que cette combinaison se retrouvait dans plusieurs bases de données et que le label apparaissait finalement correct au vu de la recherche, de tels ensembles enrichis peuvent également être complétés par de nouvelles métadonnées issues des bases de données.

En effet, comme expliqué précédemment, le test consiste à déterminer si, pour un ensemble de données, la combinaison d’une partie au moins des métadonnées et du label généré sont comprises dans au moins un ensemble de données, dit ensemble de données correspondant, d’au moins une base de données. Mais de tels ensembles correspondants peuvent bien évidemment comprendre d’autres données en plus de la combinaison cherchée. Ces métadonnées supplémentaires peuvent alors être récupérées par l’unité de traitement UNT pour compléter avantageusement les ensembles de données enrichis.

Dans l’exemple illustré en [Fig. 1], les ensembles de données enrichis DAT1*, DAT2*, DAT3* ne comprennent pas de métadonnées supplémentaires par rapport aux ensembles de données DAT1, DAT2, DAT3 reçus par le système. Néanmoins, l’homme du métier comprend ici que les données enrichis peuvent comprendre des métadonnées supplémentaires issues des bases de données DB1, DB2. Toujours au cours de l’étape S8, avantageusement, les ensembles de données enrichis peuvent être à nouveau enrichis de manière à conserver, par souci de traçabilité, un historique de l’enrichissement des données et de la recherche au sein des bases de données. Par exemple, un ensemble de données enrichi peut être complété par une donnée représentative de la fonction de similarité utilisée pour mettre en œuvre le regroupement à l’étape S2.

Toujours avantageusement, un ensemble de données enrichi peut être également ou alternativement complété par une donnée représentative de la base de données au sein de laquelle l’ensemble correspondant le plus pertinent a été trouvé. Bien entendu, dans les cas plus complexes explicités précédemment dans lesquels la combinaison d’une partie au moins des métadonnées et du label d’un ensemble enrichi a été retrouvée dans plusieurs bases de données, les données ajoutées à l’ensemble de données enrichi au cours de l’étape S8 peuvent être représentatives d’une partie au moins des bases de données au sein desquelles sont stockés ces ensembles de données correspondants.

Ainsi, un ensemble de données enrichi en sortie du système SYS peut comporter, outre le label et éventuellement la donnée traitée avec ou à la place de la donnée fondamentale d’origine, des données permettant de caractériser les différentes étapes du procédé ayant conduit à la génération et à la vérification des ensembles de données enrichi. Cet enrichissement supplémentaire d’un ensemble de données comprend typiquement une donnée représentative de la fonction de similarité utilisée et/ou une ou plusieurs données représentatives des bases de données au sein desquelles des ensembles correspondants sont stockés.

En d’autres termes, si, après la recherche dans la ou les bases de données, un ensemble de données enrichi conserve son label, l’ensemble de données enrichi en question est à nouveau enrichi par des données représentatives de la fonction de similarité et/ou d’au moins une base de données au sein de laquelle la combinaison d’une partie au moins des métadonnées et du label de cet ensemble de données enrichi a été trouvée.

Lors d’une étape S9, optionnellement mise en œuvre à l’issue de l’étape S8, les métadonnées des ensembles de données enrichis sont exploitées afin de faire procéder à une vérification du label attribué. Une telle vérification peut permettre également de corriger si besoin la donnée fondamentale.

Selon un mode de réalisation, par exemple dans le domaine spécifique de la banque mobile, la donnée fondamentale est relative à un individu ou d’une entité, et les métadonnées comprennent au moins des données de contact de l’individu ou de l’entité. L’ensemble de données enrichi est transmis, à l’aide des données de contact, pour une vérification du label agrégé. Une entité peut désigner ici une entreprise, une société, un organisme ou un établissement.

Comme expliqué précédemment, de telles données de contact peuvent être déjà présentes dans l’ensemble de données reçu puis enrichi mais peuvent aussi être récupérées dans l’une des bases de données DB1, DB2 si le résultat de la recherche est satisfaisant. Typiquement, lorsque les métadonnées d’un ensemble de données enrichi à l’issue de l’étape S4 ne comprennent pas de données de contact permettant ultérieurement une transmission de l’ensemble de données enrichi pour une vérification, de telles données de contact sont cherchées dans le ou les ensembles correspondants au sein de la ou des bases de données.

En référence à la [Fig. 1], les ensembles de données enrichis sont traitées avant émission pour conserver soit la donnée fondamentale telle que reçue par le module de communication COM soit la donnée traitée, soit la donnée fondamentale récupérée dans une base de données. Par exemple, dans le premier ensemble de données enrichi DAT1*, la donnée fondamentale Di reçue est conservée seule. Dans le deuxième ensemble de données enrichi DAT2*, la donnée traitée D₂’ générée est conservée seule. De même, dans le troisième ensemble de données enrichi DAT3*, la donnée traitée D₃’ générée est conservée seule.

Les données de contact peuvent être par exemple une adresse postale, un numéro de téléphone et/ou une adresse électronique. Dans l’exemple décrit ici, on considère par exemple que les métadonnées du premier ensemble de données enrichi comprennent des données de contact relatives à une adresse électronique ADD1, les métadonnées du deuxième ensemble de données enrichi comprennent des données de contact relatives à un numéro de téléphone ADD2 tandis que les métadonnées du troisième ensemble de données enrichi comprennent des données de contact relatives à une adresse postale ADD3.

Concernant ces adresses, il convient de noter par ailleurs qu’un ensemble de données enrichi peut être, à des fins de vérification, transmis évidemment à l’individu ou l’entité faisant l’objet de ces données mais peut l’être également à la source de l’ensemble de données. Par exemple, en considérant à nouveau le domaine d’application de la banque mobile, la génération d’un ensemble de données puis la transmission au système SYS peuvent avoir été déclenchées par le terminal d’un utilisateur, par exemple lors d’un paiement. Plus exactement, ces données sont générées depuis un compte utilisateur de l’utilisateur sur l’application de paiement. Ces données ne concernent pas l’utilisateur en question mais le commerce, l’entreprise ou la société. Lors de l’étape S9, l’ensemble de données enrichi peut donc être transmis pour vérification bien entendu au commerce, à l’entreprise ou à la société via des données de contacts comprises dans les métadonnées, mais peuvent aussi, toujours pour vérification, être également envoyées au compte utilisateur à l’origine de la génération de l’ensemble de données tel que reçu par le système SYS et plus particulièrement par le module de communication COM.

Les ensembles de données enrichi sont alors transmis à ces adresses fournies par les données de contact, par exemple via le module de communication COM, pour qu’il soit procédé à des vérifications du label, et éventuellement de la donnée fondamentale/traitée et de l’ensemble de données enrichi transmis. En particulier, l’unité de traitement UNT est par exemple munie des technologies permettant d’envoyer automatiquement un courriel ou d’utiliser un bot d’appel permettant de téléphoner automatiquement au numéro de téléphone récupéré.

Bien entendu, si une partie au moins des données d’un ensemble de données s’avère, après vérification, erronée, ces données erronées peuvent être corrigées puis renvoyées au système SYS. Par exemple, toujours dans le cas où un ensemble de données a été généré suite au paiement réalisé par un utilisateur via une application de paiement exécutée sur un terminal, cette application lui permet également de recevoir l’ensemble de données enrichi en sortie du système et d’accéder, au moins en partie, à certaines données de l’ensemble de données enrichi à des fins de vérification. Si une donnée, par exemple la donnée fondamentale ou la donnée traitée ou une métadonnée, est erroné, l’utilisateur a la possibilité de corriger cette donnée puis d’envoyer cette correction au système SYS.

Sur réception d’un ensemble de données enrichi corrigé, le système SYS peut alors mettre en œuvre à nouveau certaines étapes du procédé décrit précédemment. Par exemple, le système SYS peut procéder à un nouveau regroupement ou clustering sur plusieurs ensembles de données enrichi corrigés ou procéder à une nouvelle recherche dans une ou plusieurs bases de données.

Claims

Revendications

1. Procédé d’enrichissement de données mis en œuvre par des moyens informatiques et comprenant : a) recevoir (SI) plusieurs ensembles de données (DAT1, DAT2, DAT3), un ensemble de données comprenant une donnée fondamentale (Di, D₂, D₃) et une ou plusieurs métadonnées relatives à ladite donnée fondamentale (MDi¹, MDi^m, MD₂\ MD₂", MD3¹, MD₃ ^P), b) grouper (S3) les ensembles de données en fonction des données fondamentales respectivement associées auxdits ensembles de données selon une fonction de similarité (F), c) enrichir (S4) chaque ensemble de données d’une donnée supplémentaire (label(Ci), label(C₂), label (C₃)) dite label caractérisant le groupe auquel appartient ledit ensemble de données, d) chercher (S5) pour chaque ensemble de données enrichi, dans au moins une base de données (DB 1 , DB2) stockant des ensembles de données comprenant chacun des métadonnées et un label, une combinaison d’une partie au moins des métadonnées et du label dudit ensemble de données enrichi, et e) si ladite combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est absente de l’au moins une base de données, retirer (S6) le label de l’ensemble de données enrichi.

2. Procédé selon la revendication 1 , dans lequel la donnée fondamentale est une suite de caractères, ou un signal sonore ou une image numérique.

3. Procédé selon la revendication 1 ou 2, comprenant en outre, suite à la réception des ensembles de données: générer (S2) pour chaque ensemble de données, par application d’un traitement de diminution d’un niveau de bruit à la donnée fondamentale, une donnée traitée (Di’, D₂’, D₃’) associée audit ensemble de données,

le regroupement des ensembles de données étant mis en œuvre en fonction des données traitées respectivement associées auxdits ensembles de données.

4. Procédé selon la revendication 3, dans lequel la donnée fondamentale est une suite de caractères et la donnée traitée est générée par suppression de ladite suite de caractères d’un ou plusieurs caractères d’une liste de caractères prédéterminés.

5. Procédé selon l’une des revendications précédentes, dans lequel le regroupement des ensembles de données utilise un algorithme d’apprentissage non supervisé.

6. Procédé selon l’une des revendications précédentes, dans lequel chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale et, si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est présente dans l’au moins une base de données dans un ensemble de données correspondant, la donnée fondamentale de l’ensemble de données enrichi est remplacée si nécessaire par la donnée fondamentale de l’ensemble de donnée correspondant.

7. Procédé selon l’une des revendications précédentes, dans lequel chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale, dans lequel la recherche est effectuée sur une pluralité de bases de données, chaque base de données étant caractérisé par un coefficient de fiabilité, et, si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, le label de l’ensemble de données enrichi est retiré si la donnée fondamentale dudit ensemble de données enrichi est distincte de la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisée par le plus grand coefficient de fiabilité.

8. Procédé selon l’une des revendications 1 à 6, dans lequel chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale, dans lequel la recherche est effectuée sur une pluralité de bases de données, chaque base de données étant caractérisé par un coefficient de fiabilité, et, si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant ladite donnée fondamentale, et le label de l’ensemble de données enrichi est retiré si la donnée fondamentale dudit ensemble de données enrichi est distincte de la donnée fondamentale associée au facteur de vraisemblance le plus élevé.

9. Procédé selon l'une des revendications précédentes, chaque métadonnées d’un ensemble de données enrichi étant associé à un poids, dans lequel la combinaison d’une partie au moins des métadonnées et du label est présente dans une base de données si et seulement si une valeur d’une fonction de présence (G), calculée en fonction des poids respectifs des métadonnées de ladite combinaison présente dans ladite base de données, est supérieure ou égale un seuil prédéterminé.

10. Procédé selon l’une des revendications précédentes, dans lequel si, après la recherche dans l’au moins une base de données, un ensemble de données enrichi conserve son label, ledit ensemble de données enrichi est à nouveau enrichi par des données représentatives de la fonction de similarité et/ou d’au moins une base de données au sein de laquelle la combinaison d’une partie au moins des métadonnées et du label dudit ensemble de données enrichi a été trouvée.

11. Procédé selon l’une des revendications précédentes, dans lequel les étapes b) à e) sont répétées pour les ensembles de données dont le label a été retiré avec une nouvelle fonction de similarité, de sorte qu’un ensemble de donné ne peut être enrichi par un label déjà agrégé puis retiré précédemment.

12. Procédé selon la revendication 10, dans lequel la répétition des étapes b) à e) est limitée à un nombre d’itérations maximal prédéterminé.

13. Procédé selon l’une des revendications précédentes, dans lequel la donnée fondamentale est relative à un individu ou d’une entité, et les métadonnées comprennent au moins des données de contact dudit individu ou de ladite entité, et dans lequel l’ensemble de données enrichi est transmis (S9), à l’aide des données de contact, à destination dudit individu ou de ladite entité pour une vérification du label agrégé.

14. Procédé selon la revendication 13, dans lequel les données de contact sont une adresse postale (ADD3), un numéro de téléphone (ADD2), une adresse électronique (ADD1) et/ou une adresse d’un compte utilisateur d’une application.

15. Programme informatique comprenant des instructions pour la mise en œuvre du procédé selon l’une des revendications précédentes, lorsque lesdites instructions sont exécutées par au moins un processeur (PROC).

16. Système (SYS) d’enrichissement de données comprenant :

- un module de communication (COM) agencé pour recevoir plusieurs ensembles de données, un ensemble de données comprenant une donnée fondamentale et une ou plusieurs métadonnées relatives à ladite donnée fondamentale, - une unité de traitement (UNT) agencée pour : grouper les ensembles de données en fonction des données fondamentales respectivement associées auxdits ensembles de données selon une fonction de similarité, enrichir chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient ledit ensemble de données, et

- au moins une base de données (DB1, DB2) configurée pour stocker des ensembles de données comprenant chacun des métadonnées et un label, l’unité de traitement étant agencée en outre pour : chercher pour chaque ensemble de données enrichi, dans l’au moins une base de données, une combinaison d’une partie au moins des métadonnées et du label dudit ensemble de données enrichi, et si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est absente de l’au moins une base de données, retirer le label de l’ensemble de données enrichi.