EP4272090A1

EP4272090A1 - Système et procédé pour classifier des données de chaînes de caractères d'une entité primaire d'un lac de données

Info

Publication number: EP4272090A1
Application number: EP21854759.4A
Authority: EP
Inventors: Malik SOUDED
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-12-31
Filing date: 2021-12-31
Publication date: 2023-11-08
Also published as: EP4272089A1; WO2022144852A1; WO2022144848A1

Abstract

L'un des objectifs de cette invention est de fournir un outil objectif et reproductible pour identifier les types de données dans un lac de données. Pour cela, l'art antérieur qui propose d'entraîner des modèles d'apprentissage machine pour réaliser cette tâche. Or, l'entraînement de modèles d'apprentissage machine nécessite de gros volumes de données d'entraînement et des compétences avancées en science de la donnée. Or, les inventeurs ont remarqué que la majorité des données d'un lac de données se présentent sous la forme d'une chaîne de caractères ou peuvent être converties en chaînes de caractères. Aussi, les inventeurs proposent d'utiliser l'approche des expressions régulières pour classifier et ensuite identifier les types de données dans un lac de données. Cette solution est simple à mettre en œuvre et ne nécessite pas de faire appel à des connaissances avancées en science de la donnée.

Description

SYSTÈME ET PROCÉDÉ POUR CLASSIFIER DES DONNÉES DE CHAÎNES DE CARACTÈRES D’UNE ENTITÉ PRIMAIRE D’UN LAC DE DONNÉES

L’invention concerne le domaine de la classification des données comprises dans des entités de données d’un lac de données. En particulier, elle concerne un système et un procédé pour classifier des données de chaînes de caractères d’une entité primaire d’un lac de données.

L’accroissement du volume des données numériques a permis le développement des technologies liées aux mégadonnées (« Big Data », en anglais).

Le caractère hétérogène de ces données numériques, ainsi que leurs sources diverses, ont nécessité de modifier les manières traditionnelles de stocker les données.

C’est notamment dans ce cadre que l’on a introduit les lacs de données (« Data Lake », en anglais).

Or, dans ces lacs de données, il est difficile d’analyser des données à cause de leur hétérogénéité, car elles peuvent comprendre des données de différentes natures.

En effet, cette hétérogénéité complexifie leur exploitation, car chaque type de données nécessite un traitement particulier.

Ainsi, il existe un besoin pour identifier les types de données dans les lacs de données.

L’invention vise à résoudre, au moins partiellement, ce besoin.

L’invention vise en particulier un procédé de classification de données de chaînes de caractères d’au moins une entité de données primaire d’un lac de données.

En particulier, le procédé comprend :
- une étape de description de chaque chaîne de caractères sous la forme d’une expression régulière correspondante, de sorte que chaque expression régulière décrit une chaîne de caractères au moyen d’une suite de caractères typographiques, dit motifs, chaque motif étant caractérisé par son nombre d’apparitions consécutives, le nombre d’apparitions consécutives étant supérieur ou égal à un ;
- une étape d’extraction de la structure sémantique de chaque expression régulière, dans laquelle on omet temporairement de la structure sémantique, les nombres d’apparitions consécutives de motifs de chaque expression régulière jusqu’à l’exécution de l’étape de fusion ;
- une étape de groupement des expressions régulières dans une pluralité de groupes disjoints, chaque groupe comprenant des expressions régulières qui présentent la même structure sémantique ;
- une étape de fusion des expressions régulières de chaque groupe en une expression régulière de fusion de sorte que chaque expression régulière de fusion décrive, pour chaque motif de même niveau, le nombre minimal d’apparitions consécutives et le nombre maximal d’apparitions consécutives, et
- une étape d’association de chaque chaîne de caractères à une expression régulière de fusion.

Dans un premier mode de réalisation, l’étape de description comprend une étape de suppression des expressions régulières redondantes.

Dans une deuxième mode de réalisation, l’étape de description comprend une étape de détection des expressions régulières aberrantes.

Dans une première mise en œuvre du deuxième mode de réalisation, l’étape de détection des expressions régulières aberrantes comprend le calcul d’au moins une métrique représentative des expressions régulières et qui est choisie parmi : une grandeur statistique et un algorithme de regroupement.

Dans une deuxième mise en œuvre du deuxième mode de réalisation, l’étape de détection comprend une étape de suppression des expressions régulières aberrantes.

Dans une troisième mode de réalisation, l’étape de fusion comprend une étape d’identification du niveau d’un motif dans plusieurs expressions régulières d’un groupe en fonction de sa position dans chaque expression régulière.

Dans un quatrième mode de réalisation, l’étape d’association comprend une étape d’application des expressions régulières de fusion à chaque chaîne de caractère pour produire une donnée de sortie qui est représentative de la correspondance entre les expressions régulières de fusion et chaque chaîne de caractère.

Dans un cinquième mode de réalisation,
- l’étape de description comprend l’association d’un premier index unique entre chaque chaîne de caractère et la structure sémantique correspondante,
- l’étape de groupement comprend l’association d’un deuxième index unique entre chaque structure sémantique et le groupe correspondant, et
- l’étape d’association comprend l’utilisation du premier index et du deuxième index pour associer chaque chaîne de caractères à une expression régulière de fusion.

L’invention couvre également un système de classification de données de chaînes de caractères d’au moins une entité de données primaire d’un lac de données.
En particulier, le système comprend :
- au moins un dispositif de stockage de données configuré pour stocker des données de chaînes de caractères d’au moins une entité de données primaire d’un lac de données, et
- au moins un processeur configuré pour exécuter les instructions pour mettre en œuvre du procédé de classification.

D’autres caractéristiques et avantages de l’invention seront mieux compris à la lecture de la description qui va suivre et en référence aux dessins annexés, donnés à titre illustratif et nullement limitatif.

La représente un mode de réalisation d’un procédé de classification selon l’invention.

La représente un mode de réalisation d’un système pour la mise en œuvre du procédé de la .

Sur les différentes figures, les traits et flèches en pointillés indiquent des éléments, des étapes et des enchaînements facultatifs ou optionnels.

L’un des objectifs de cette invention est de fournir un outil objectif et reproductible pour identifier les types de données dans un lac de données.

Pour cela, l’art antérieur propose d’entraîner des modèles d’apprentissage machine pour réaliser cette tâche. Or, l’entraînement de modèles d’apprentissage machine nécessite de gros volumes de données d’entraînement et des compétences avancées en science de la donnée (« data science », en anglais).

Or, les inventeurs ont remarqué que la majorité des données d’un lac de données se présentent sous la forme d’une chaîne de caractères ou peuvent être converties en chaînes de caractères.

Aussi, les inventeurs proposent d’utiliser l’approche des expressions régulières pour classifier et ensuite identifier les types de données dans un lac de données.

Cette solution est simple à mettre en œuvre, n’utilise pas de modèle d’apprentissage et ne nécessite pas de faire appel à des connaissances avancées en science de la donnée.

Ainsi, l’invention concerne un procédé de classification de données de chaînes de caractères d’au moins une entité de données primaire d’un lac de données.

Dans l’invention, on entend par lac de données (« data lake », en anglais) un espace de stockage où l’on rassemble des données sous leur forme naturelle, qu’elles soient brutes ou transformées. Et ce, dans un objectif d’analyse (p. ex. l’établissement de comptes rendus, de visualisations ou de structures analytiques) ou d’action (p. ex. apprentissage machine).

Ainsi, un lac de données peut comprendre des entités de données primaires sous différentes formes telles que des données structurées (p. ex. des bases de données qui comprennent des lignes et des colonnes), des données semi-structurées (p. ex. des fichiers du type CSV, logs, XML ou JSON), des données non structurées (p. ex. des emails, des fichiers PDFs), et des données binaires (p. ex. des fichiers images, audios ou vidéos).

En pratique, chaque entité de données primaire comprend une pluralité de champs de données.

De manière connue, chaque champ de données possède un type de données qui peut être choisi parmi : les types numériques, les types temporels et les types chaînes de caractères.

Dans un premier exemple, lorsque le type de donnée est numérique, celui-ci peut être choisi parmi les types numériques définis dans les normes associées aux bases de données relationnelles du type SQL, tels qu’un entier ou un nombre décimal et toutes combinaisons de ceux-ci.

Toutefois, selon les données disponibles, on pourra utiliser d’autres types numériques, et ce, sans nécessiter de modifications substantielles de l’invention.

Dans un deuxième exemple, lorsque le type de donnée est temporel, celui-ci peut être choisi parmi les types temporels définis dans les normes associées aux bases de données relationnelles du type SQL, tels qu’une date, une heure, un jour, une année, une minute, une seconde et toutes combinaisons de ceux-ci.

Toutefois, selon les données disponibles, on pourra utiliser d’autres types temporels, et ce, sans nécessiter de modifications substantielles de l’invention.

Dans un troisième exemple, lorsque le type de donnée est une chaîne de caractères, celui-ci peut être choisi parmi les types de chaînes de caractères définis dans les normes associées aux bases de données relationnelles du type SQL, tels qu’une chaîne en ASCII, une chaîne binaire, une énumération et toutes combinaisons de celles-ci.

Toutefois, selon les données disponibles, on pourra utiliser d’autres types de chaînes de caractères, et ce, sans nécessiter de modifications substantielles de l’invention.

Dans un mode particulier de réalisation de l’invention, on pourra considérer que tous les champs du lac de données possèdent le même type, par exemple le type chaîne de caractères.

Pour cela, on pourra utiliser des techniques connues de conversion de types de données.

De retour à l’invention, comme illustré dans l’exemple de la , le procédé de classification 100 comprend une étape de description 110, une étape d’extraction 120, une étape de groupement 130, une étape de fusion 140 et une étape d’association 150.

Tout d’abord, l’étape de description 110 du procédé de classification 100 comprend la description de chaque chaîne de caractères sous la forme d’une expression régulière correspondante.

De manière connue, on entend par expression régulière (également appelée « regular expression », ou regex, en anglais), une chaîne de caractères, qui décrit, selon une syntaxe précise, un ensemble de chaînes de caractères possibles.

En pratique, dans l’invention, chaque expression régulière, décrit une chaîne de caractères au moyen d’une suite de caractères typographiques, dit motifs (« patterns », en anglais).

Par exemple, l’ensemble de mots « ex-équo, ex-equo, ex-aequo et ex-æquo » peut être condensé en un seul motif « ex-(a?e|æ|é)quo ». Les mécanismes de base pour former des expressions régulières sont basés sur des caractères spéciaux de substitution, de groupement et de quantification.

De préférence, chaque chaîne de caractère comprend au moins un caractère spécial pour décrire le début de l’expression régulière et au moins un caractère spécial pour décrire la fin de l’expression régulière.

Par exemple, on pourra utiliser le caractère « ^ » pour décrire le début d’une expression régulière et le caractère « $ » pour décrire la fin de l’expression régulière. Pour cela, chacun de ces caractères ne devra pas être précédé ou suivi d’un autre caractère.

En particulier, on caractérise chaque motif par son nombre d’apparitions consécutives avec le nombre d’apparitions consécutives qui est supérieur ou égal à un.

Dans un mode de réalisation particulier, on pourra utiliser un ou plusieurs caractères spéciaux, qui sont dotés d’une sémantique particulière, pour caractériser le nombre d’apparitions consécutives de l’expression qui précèdent.

De manière connue, on pourra utiliser la forme suivante « expr{n} » pour indiquer exactement « n » occurrences consécutives de l’expression « expr ».

Par exemple, l’expression régulière « a{3} » décrira une chaîne de caractères qui comprend trois caractères « a » qui sont consécutifs. À savoir, la chaîne de caractère « aaa ». Ainsi, l’expression régulière « a{3} » ne décrira pas les chaînes de caractères « aa » ou « aaaa ».

Dans un premier mode de réalisation, on pourra réduire la liste des expressions régulières produites, en supprimant celles qui apparaissent plusieurs fois.

Pour cela, l’étape de description 110 comprend une étape de suppression 111 des expressions régulières redondantes.

Ainsi, si l’on peut décrire deux chaînes de caractères avec la même expression régulière, alors on supprimera l’une pour n’en conserver qu’une seule.

Bien sûr, si l’on obtient plus de deux expressions régulières identiques, alors on n’en conservera qu’une seule.

Dans un deuxième mode de réalisation, on pourra réduire la liste des expressions régulières produites, en supprimant celles qui s’écartent tellement du reste des expressions régulières que l’on peut soupçonner qu’elles aient été produites à partir de chaînes de caractères qui suivent une structure très différente de celle des autres chaînes de caractères.

Pour cela, l’étape de description 110 comprend une étape de détection 112 des expressions régulières aberrantes.

On entend par expression régulière « aberrante » (« outlier », en anglais), une expression régulière qui contraste grandement avec les autres expressions régulières.

Dans un exemple du deuxième mode de réalisation, l’étape de détection 112 des expressions régulières aberrantes comprend le calcul d’au moins une métrique représentative des expressions régulières et qui est choisie parmi : une grandeur statistique et un algorithme de regroupement et toutes combinaisons de ceux-ci.

Dans un premier exemple, lorsque la métrique est une grandeur statistique, celle-ci est basée sur l’écart-type.

Par exemple, on pourra déterminer l’occurrence de chaque expression régulière extraite, puis utiliser la métrique suivante : avec l’occurrence moyenne de l’ensemble des expressions régulières produites, un coefficient prédéterminé (p. ex. ou ; bien sûr, on pourra envisager d’autres valeurs, sans nécessiter de modifications substantielles de l’invention) et l’écart-type de l’ensemble des expressions régulières produites.

Dans un deuxième exemple, lorsque la métrique est un algorithme de regroupement, celui-ci est choisi parmi : un groupement des k moyennes, un groupement de c-moyennes floues, un groupement spectral, une propagation d’affinité, un décalage moyen, un groupement hiérarchique de Ward, un groupement agglomératif, un regroupement par espérance-maximisation, un algorithme basé sur la densité comme DBSCAN, des mélanges gaussiens, un groupement de Birch, et toutes combinaisons de ceux-ci.

Dans une mise en œuvre particulière l’étape de détection 112, celle-ci comprend une étape de suppression 113 des expressions régulières aberrantes.

Ainsi, si une expression régulière se trouve au-delà d’une valeur prédéterminée de la métrique, alors on la supprimera.

Ensuite, l’étape d’extraction 120 du procédé de classification 100 comprend l’extraction de la structure sémantique de chaque expression régulière.

En particulier, on extrait pour chaque expression régulière, les différents motifs et caractères spéciaux.

En outre, on omet temporairement de la structure sémantique, les nombres d’apparitions consécutives de motifs de chaque expression régulière jusqu’à l’exécution de l’étape de fusion 140.

Par exemple, l’expression régulière suivante :
« ^[a-z]{7}@{1}[a-z]{5}\.{1}[a-z]{3}$ »
deviendra
« ^[a-z]@[a-z]\.[a-z]$ ».

Ou encore, l’expression régulière
« ^[a-z]{6}\.{1}[a-z]{3}@{1}[a-z]{5}\.{1}[a-z]{3}$ »
deviendra
« ^[a-z]\.[a-z]@{1}[a-z]{5}\.[a-z]$ ».

Ainsi, on note qu’à l’issue de l’étape d’extraction 120, on a seulement conservé l’expression « expr » dans chaque motif de forme « expr{n} » et que on a supprimé l’expression « {n} ».

Puis, l’étape de groupement 130 du procédé de classification 100 comprend le groupement des expressions régulières dans une pluralité de groupes disjoints, chaque groupe comprenant des expressions régulières qui présentent la même structure sémantique.

Par exemple, les deux expressions régulières suivantes :
« ^[a-z]{7}@{1}[a-z]{5}\.{1}[a-z]{3}$ », et
« ^[a-z]{7}@{1}[a-z]{7}\.{1}[a-z]{2}$ »,
qui deviennent respectivement, à l’étape d’extraction 120 :
« ^[a-z]@[a-z]\.[a-z]$ », et
« ^[a-z]@[a-z]\.[a-z]$ »,
forment partie d’un même premier groupe.

Aussi, les deux expressions régulières suivantes :
« ^[a-z]{6}\.{1}[a-z]{3}@{1}[a-z]{5}\.{1}[a-z]{3}$ », et
« ^[a-z]{6}\.{1}[a-z]{6}@{1}[a-z]{7}\.{1}[a-z]{2}$ »
qui deviennent respectivement, à l’étape d’extraction 120,
« ^[a-z]\.[a-z]@{1}[a-z]{5}\.[a-z]$ », et
« ^[a-z]\.[a-z]@{1}[a-z]{5}\.[a-z]$ »,
forment partie d’un même deuxième groupe.

Ensuite, l’étape de fusion 140 du procédé de classification 100 comprend la fusion des expressions régulières de chaque groupe en une expression régulière de fusion de sorte que chaque expression régulière de fusion décrive, pour chaque motif de même niveau, le nombre minimal d’apparitions consécutives et le nombre maximal d’apparitions consécutives.

Dans un mode de réalisation, l’étape de fusion 140 comprend une étape d’identification 141 du niveau d’un motif dans plusieurs expressions régulières d’un groupe en fonction de sa position dans chaque expression régulière.

Par exemple, dans les deux expressions régulières suivantes :
« ^[a-z]{7}@{1}[a-z]{5}\.{1}[a-z]{3}$ », et
« ^[a-z]{7}@{1}[a-z]{7}\.{1}[a-z]{2}$ »,
l’expression « ^[a-z]{7} » de la première expression régulière se situe au même niveau que l’expression « ^[a-z]{7} » de la deuxième expression régulière.
Puis, l’expression « @{1} » de la première expression régulière se situe au même niveau que l’expression « @{1} » de la deuxième expression régulière.
Ensuite, l’expression « [a-z]{5} » de la première expression régulière se situe au même niveau que l’expression « [a-z]{7} » de la deuxième expression régulière. Et ainsi de suite jusqu’à la fin de chaque expression régulière.

Par ailleurs, de manière connue, pour exprimer le nombre minimal d’apparitions consécutives et le nombre maximal d’apparitions consécutives, on pourra utiliser la forme suivante « expr{n,m} » pour indiquer entre « n » et « m » occurrences de l’expression « expr ».

Par exemple, la fusion des deux expressions régulières suivantes :
« ^[a-z]{7}@{1}[a-z]{5}\.{1}[a-z]{3}$ », et
« ^[a-z]{7}@{1}[a-z]{7}\.{1}[a-z]{2}$ »
qui à l’étape de groupement 130 forment partie d’un premier groupe, produit l’expression régulière de fusion suivante « ^[a-z]{7}@{1}[a-z]{5,7}\.{1}[a-z]{2,3}$ ».

Aussi, la fusion des deux expressions régulières suivantes :
« ^[a-z]{6}\.{1}[a-z]{3}@{1}[a-z]{5}\.{1}[a-z]{3}$ », et
« ^[a-z]{6}\.{1}[a-z]{6}@{1}[a-z]{7}\.{1}[a-z]{2}$ »
qui à l’étape de groupement 130 forment partie d’un deuxième groupe, produit l’expression régulière de fusion suivante, « ^[a-z]{6}\.{1}[a-z]{3,6}@{1}[a-z]{5,7}\.{1}[a-z]{2,3}$ ».

Enfin, l’étape d’association 150 du procédé de classification 100 comprend l’association de chaque chaîne de caractères à une expression régulière de fusion.

Dans un premier mode de réalisation, on peut utiliser les expressions régulières produites pour identifier les chaînes de caractères qui leur correspondent.

Pour cela, l’étape d’association 150 comprend une étape d’application 151 des expressions régulières de fusion à chaque chaîne de caractère pour produire une donnée de sortie qui est représentative de la correspondance entre les expressions régulières de fusion et chaque chaîne de caractère.

En effet, lorsqu’une chaîne de caractères correspond à la description donnée par l’expression régulière, on dit qu’il y a « correspondance » entre la chaîne et le motif, ou que le motif « reconnaît » la chaîne. Cette correspondance peut concerner la totalité ou une partie de la chaîne de caractères. Par exemple, dans la phrase « Les deux équipes ont terminé ex-æquo et se sont saluées. », la sous-chaîne « ex-æquo » est reconnue par le motif « ex-(a?e|æ|é)quo ».

Dans l’invention, on considèrera qu’il y a correspondance lorsque la correspondance concerne la totalité de la chaîne de caractère concernée.

Dans un deuxième mode de réalisation, on pourra considérer que des étapes consécutives du procédé de classification 100 sont reliées par une relation bijective de sorte qu’il possible d’associer chaque chaîne de caractères à l’expression régulière de fusion dont elle découle.

Pour cela,
- l’étape de description 110 comprend l’association d’un premier index unique entre chaque chaîne de caractère et la structure sémantique correspondante,
- l’étape de groupement 130 comprend l’association d’un deuxième index unique entre chaque structure sémantique et le groupe correspondant, et
- l’étape d’association 150 comprend l’utilisation du premier index et du deuxième index pour associer chaque chaîne de caractères à une expression régulière de fusion.

Ainsi, en sauvegardant le premier index, le deuxième index et leurs relations, on peut relier chaque chaîne de caractères à l’expression régulière de fusion dont elle découle.

L’invention couvre également un système informatique pour classifier des données de chaînes de caractères d’au moins une entité de données primaire d’un lac de données.

Ainsi, comme illustré dans l’exemple de la , le système 200 comprend au moins un dispositif de stockage de données 210 et au moins un processeur 220.

Le dispositif de stockage de données 210 est configuré pour stocker des données de chaînes de caractères d’au moins une entité de données primaire d’un lac de données.

Le processeur 220 est configuré pour exécuter les instructions pour mettre en œuvre tout ou partie du procédé de classification 100 tel que décrit ci-dessus.

Nous avons décrit et illustré l’invention. Toutefois, l’invention ne se limite pas aux formes de réalisations que nous avons présentées. Ainsi, un expert du domaine peut déduire d’autres variantes et modes de réalisation, à la lecture de la description et des figures annexées.

L’invention peut faire l’objet de nombreuses variantes et applications autres que celles décrites ci-dessus. En particulier, sauf indication contraire, les différentes caractéristiques structurelles et fonctionnelles de chacune des mises en œuvre décrite ci-dessus ne doivent pas être considérées comme combinées et/ou étroitement et/ou inextricablement liées les unes aux autres, mais, au contraire, comme de simples juxtapositions. En outre, les caractéristiques structurelles et/ou fonctionnelles des différents modes de réalisation décrits ci-dessus peuvent faire l’objet en tout ou partie de toute juxtaposition différente ou de toute combinaison différente.

Claims

Procédé de classification (100) de données de chaînes de caractères d’au moins une entité de données primaire d’un lac de données, le procédé (100) comprenant :
- une étape de description (110) de chaque chaîne de caractères sous la forme d’une expression régulière correspondante, de sorte que chaque expression régulière décrit une chaîne de caractères au moyen d’une suite de caractères typographiques, dit motifs,
chaque motif étant caractérisé par son nombre d’apparitions consécutives, le nombre d’apparitions consécutives étant supérieur ou égal à un ;
- une étape d’extraction (120) de la structure sémantique de chaque expression régulière, dans laquelle on omet temporairement de la structure sémantique, les nombres d’apparitions consécutives de motifs de chaque expression régulière jusqu’à l’exécution de l’étape de fusion (140) ;
- une étape de groupement (130) des expressions régulières dans une pluralité de groupes disjoints, chaque groupe comprenant des expressions régulières qui présentent la même structure sémantique ;
- une étape de fusion (140) des expressions régulières de chaque groupe en une expression régulière de fusion de sorte que chaque expression régulière de fusion décrive, pour chaque motif de même niveau, le nombre minimal d’apparitions consécutives et le nombre maximal d’apparitions consécutives, et
- une étape d’association (150) de chaque chaîne de caractères à une expression régulière de fusion.
Procédé (100) selon la revendication 1, dans lequel l’étape de description (110) comprend une étape de suppression (111) des expressions régulières redondantes.
Procédé (100) selon l’une quelconque des revendications 1 à 2, dans lequel l’étape de description (110) comprend une étape de détection (112) des expressions régulières aberrantes.
Procédé (100) selon la revendication 3, dans lequel l’étape de détection (112) des expressions régulières aberrantes comprend le calcul d’au moins une métrique représentative des expressions régulières et qui est choisie parmi : une grandeur statistique et un algorithme de regroupement.
Procédé (100) selon l’une quelconque des revendications 3 à 4, dans lequel l’étape de détection (112) comprend une étape de suppression (113) des expressions régulières aberrantes.
Procédé (100) selon l’une quelconque des revendications 1 à 5, dans lequel l’étape de fusion (140) comprend une étape d’identification (141) du niveau d’un motif dans plusieurs expressions régulières d’un groupe en fonction de sa position dans chaque expression régulière.
Procédé (100) selon l’une quelconque des revendications 1 à 6, dans lequel l’étape d’association (150) comprend une étape d’application (151) des expressions régulières de fusion à chaque chaîne de caractère pour produire une donnée de sortie qui est représentative de la correspondance entre les expressions régulières de fusion et chaque chaîne de caractère.
Procédé (100) selon l’une quelconque des revendications 1 à 6, dans lequel,
- l’étape de description (110) comprend l’association d’un premier index unique entre chaque chaîne de caractère et la structure sémantique correspondante,
- l’étape de groupement (130) comprend l’association d’un deuxième index unique entre chaque structure sémantique et le groupe correspondant, et
- l’étape d’association (150) comprend l’utilisation du premier index et du deuxième index pour associer chaque chaîne de caractères à une expression régulière de fusion.
Système (200) de classification de données de chaînes de caractères d’au moins une entité de données primaire d’un lac de données, le système (200) comprenant :
- au moins un dispositif de stockage de données (210) configuré pour stocker des données de chaînes de caractères d’au moins une entité de données primaire d’un lac de données, et
- au moins un processeur (220) configuré pour exécuter les instructions pour mettre en œuvre un procédé selon l’une quelconque des revendications 1 à 8.