EP3948579A1 - Systeme et procede d'enrichissement de donnees - Google Patents

Systeme et procede d'enrichissement de donnees

Info

Publication number
EP3948579A1
EP3948579A1 EP20731903.9A EP20731903A EP3948579A1 EP 3948579 A1 EP3948579 A1 EP 3948579A1 EP 20731903 A EP20731903 A EP 20731903A EP 3948579 A1 EP3948579 A1 EP 3948579A1
Authority
EP
European Patent Office
Prior art keywords
data
label
enriched
fundamental
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP20731903.9A
Other languages
German (de)
English (en)
Inventor
Emmanuel Le Huerou
Mikaël SZCZERBAK
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of EP3948579A1 publication Critical patent/EP3948579A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • the field of the invention relates to the enrichment of data, in particular when the latter present the risk of including inaccuracies or errors due to the conditions of transmission and reception of these data.
  • One of the main applications of the invention relates in particular to mobile banking, better known by the English term "mobile banking”.
  • the need to make the data received reliable is an important issue in all systems in which the transfer of data, sometimes repeatedly, is inevitable.
  • the field of mobile banking which designates all types of financial services accessible from mobile equipment connected to a wide area network, such as a mobile phone for example, is a field in which data transfers are numerous and restitution of this data is a necessary condition for the implementation of the services.
  • the data transferred may include information such as the name of a merchant, his activity code, his location, his name, etc. It is therefore necessary to ensure the reliability of this data when it presents the risk of containing errors for the proper functioning of the services.
  • the present invention improves the situation.
  • the present invention relates to a data enrichment method implemented by computer means and comprising:
  • a) receive several sets of data, a set of data comprising fundamental data and one or more metadata relating to the fundamental data, ...
  • the fundamental data is a series of characters, or a sound signal or a digital image.
  • the method further comprises, following the reception of the data sets: generating for each data set, by applying a processing for reducing a noise level to the fundamental datum, a processed datum associated with the dataset.
  • the grouping of the data sets is implemented as a function of the processed data respectively associated with the data sets.
  • the fundamental data is a sequence of characters and the processed data is generated by deleting the sequence of characters of one or more characters from a list of predetermined characters.
  • the grouping of the datasets uses an unsupervised learning algorithm.
  • each set of data stored in the at least one database further comprises fundamental data and, if the combination of at least part of the metadata and of the label of an enriched data set is present in at least one database in a corresponding data set, the fundamental data of the enriched data set is replaced if necessary by the fundamental data of the corresponding data set.
  • each set of data stored in the at least one database further comprises fundamental data
  • the search is carried out on a plurality of databases, each database being characterized by a coefficient of reliability, and, if the combination of at least part of the metadata and the label of the enriched data set is present in corresponding data sets respectively stored in separate databases of the plurality of databases, the label of the enriched data set is removed if the fundamental data of the enriched data set is distinct from the fundamental data of the corresponding data set stored in the database characterized by the greatest reliability coefficient.
  • each set of data stored in the at least one database further comprises fundamental data
  • the search is carried out on a plurality of databases, each database being characterized by a coefficient of reliability, and, if the combination of at least part of the metadata and the label of the enriched dataset is present in corresponding data sets respectively stored in separate databases of the plurality of databases, each fundamental data present in at least one of the corresponding data sets is associated with a likelihood factor determined as a function of the reliability coefficient of each database storing a corresponding data set comprising the fundamental data in question, and the label of the enriched data set is removed if the fundamental data of the enriched data set is distinct from the fundamental data associated with the factor highest likelihood.
  • each metadata of an enriched data set being associated with a weight the combination of at least part of the metadata and of the label is present in a database if and only if a value of one. presence function, calculated as a function of the respective weights of the metadata of the combination present in the database, is greater than or equal to a predetermined threshold.
  • the enriched data set is again enriched by data representative of the similarity function and / or at least one database within which the combination of at least part of the metadata and of the label of the enriched data set has been found.
  • steps b) to e) are repeated for the data sets from which the label has been removed with a new similarity function, so that a data set cannot be enriched by a label already aggregated then removed previously.
  • steps b) to e) are limited to a predetermined maximum number of iterations.
  • the fundamental data relates to an individual or of an entity
  • the metadata comprises at least contact data of the individual or of the entity, and in which the enriched data set is transmitted, using contact data, to the individual or entity for verification of the aggregated label.
  • contact data is a postal address, phone number, email address and / or an address of an application user account.
  • the present invention also relates to a computer program comprising instructions for implementing the method described above, when the instructions are executed by at least one processor.
  • the present invention relates to a data enrichment system comprising:
  • a communication module designed to receive several sets of data, a set of data comprising fundamental data and one or more metadata relating to the fundamental data,
  • processing unit designed for:
  • At least one database configured to store sets of data each comprising metadata and a label
  • processing unit being furthermore arranged for:
  • FIG. 1 illustrates a data enrichment system according to the invention
  • FIG. 2 illustrates a data enrichment method according to the invention.
  • FIG. 1 illustrates a data enrichment system, hereinafter SYS system, according to the invention.
  • the SYS system is designed to receive data presenting the risk of including errors or inaccuracies and to enrich these data despite these potential errors or inaccuracies.
  • the data received by the SYS system is indeed likely to include a certain level of noise.
  • this data is liable to contain erroneous characters or inaccuracies. It is therefore understood here that noise typically designates any error introduced into a character sequence at the source, on transmission or on reception or during the transmission of data.
  • the data received at the entrance of the SYS system are data allowing a user to access financial services from a mobile device. , for example a cell phone.
  • the data transferred then makes it possible to consult an online account or to make a transfer.
  • the data can correspond to the name of a merchant, to his activity code, to his location, therefore his city, his address and his postal code, or even to his name.
  • certain information is limited to a maximum number of characters. The transfer of data representative of such information is therefore necessarily imprecise and incomplete since not all the characters could be entered.
  • noise refers, for example, to this type of imprecision.
  • the SYS system is designed to allow, even when these data contain errors, sometimes introduced at the source but also at the sending or receiving of the data, the provision of the service.
  • These data can also be a sound signal comprising noise or a digital image comprising digital noise.
  • the SYS system is designed to enrich the data despite this potential noise
  • the SYS system comprises a processing unit UNT and at least one database, here two databases DB1, DB2.
  • the UNT processing unit is designed to, upon receipt of several data sets, enrich each data set and verify the relevance of this data enrichment using databases DB1, DB2. More specifically, the processing unit UNT is designed to generate, for each set of data received, an additional piece of data called a label and to aggregate or append the label generated to the associated set of data. In the literature, we will also talk about label to designate the label.
  • processing unit UNT is also arranged to apply processing to at least part of the data received in order to reduce a level of noise that the data is likely to contain.
  • the processing unit UNT is furthermore arranged for, once a data set has been enriched, forwarding this data set to an address in order to allow a user to take cognizance of the enriched data and to verify that this data has been correctly enriched. .
  • Each set of data comprises a fundamental datum Di, D 2 , D 3 and one or more metadata relating to this fundamental datum.
  • Metadata accompanying fundamental data is descriptive data used to describe or define fundamental data.
  • the fundamental data is the description of a merchant while the metadata characterizes his activity code, his location or any other information concerning the merchant in question.
  • the first set of data DAT1 comprises the fundamental data item Di and further comprises metadata MDi 1 , MDi m .
  • the second set of data DAT2 comprises the fundamental data item D 2 and further comprises metadata MD 2 ⁇ MD 2 ′′.
  • the third set of data DAT3 comprises the fundamental data item D 3 and further comprises metadata MD 3 ⁇ MD 3 P.
  • m, n and p are natural numbers designating the respective number of metadata of the first, second and third data sets DAT1, DAT2, DAT3.
  • the fundamental data of each set of data is likely to present a certain level of noise and therefore to include errors or inaccuracies.
  • the processing applied by the UNT to fundamental data to reduce noise can also be applied to metadata.
  • the processing unit UNT is designed in particular to generate a piece of data processed by applying a processing for reducing a noise level to the fundamental datum of a set of data.
  • the metadata can also be noisy and that the processing unit UNT can also be arranged to generate new metadata by applying a noise reduction processing to the received metadata.
  • three enriched data sets DAT1 *, DAT2 *, DAT3 * are generated by the UNT processing unit.
  • the processing unit UNT is more particularly designed to generate, for each set of data received, additional data also called label or label and to enrich each set of data by aggregating or adding to it the label generated.
  • the first and second data sets DAT1, DAT2 are enriched by a single label label (Ci) while the third data set DAT3 is enriched by a label label (C 3 ).
  • the UNT processing unit comprises a COM communication module, a MEM memory and a PROC processor.
  • the COM communication module is designed to receive several sets of data.
  • the communication module COM is arranged to receive the first, second and third sets of data DAT1, DAT2, DAT3.
  • the communication module COM is furthermore designed to send several enriched data sets.
  • the communication module COM is arranged to send the first, second and third enriched data sets DAT1 *, DAT2 *, DAT3 *.
  • the communication module COM can integrate one or more communication modules, for example radiofrequency communication and be configured for the transmission and reception of radiofrequency signals, according to one or more technologies, such as TDMA, FDMA, OFDMA, CDMA, or one or more standards communications, such as GSM, EDGE, CDMA, UMTS, HSPA, LTE, LTE-A, WiFi (IEEE 802.11) and WiMAX (IEEE 802.16), or their variants or evolutions, currently known or developed later.
  • technologies such as TDMA, FDMA, OFDMA, CDMA
  • standards communications such as GSM, EDGE, CDMA, UMTS, HSPA, LTE, LTE-A, WiFi (IEEE 802.11) and WiMAX (IEEE 802.16), or their variants or evolutions, currently known or developed later.
  • the COM communication module is arranged to communicate with a wide area network (also known by the English acronym WAN for “Wide Area Newtork”), a local network (also known by the English acronym LAN for " Local Area Network ”) or any other type of network.
  • a wide area network also known by the English acronym WAN for "Wide Area Newtork”
  • a local network also known by the English acronym LAN for " Local Area Network ”
  • any other type of network any other type of network.
  • Data sets are, for example, sent to the COM communication module of the UNT processing unit following the use of an application.
  • an application is typically implemented on a terminal, for example a mobile terminal of smartphone type (common English term for a smart phone), and is for example intended to be used by a user.
  • the user makes a payment via this application and this payment generates the generation of at least part of the data of a set of data, whether it is the fundamental data and / or the metadata. It is typically in such a case that noise can be introduced with errors or inaccuracies.
  • this information is a series of characters.
  • the memory MEM is arranged to store instructions in the form of a computer program whose execution by the processor PROC results in the operation of the processing unit UNT.
  • the SYS system also includes at least one database.
  • the SYS system includes two databases DB1, DB2. Nevertheless, those skilled in the art understand here that the SYS system can only include a single database.
  • Each DB1, DB2 database is configured to store data sets each including metadata and a label.
  • one or more data sets stored in a database DB 1, DB2 also include, in addition to metadata and a label, fundamental data.
  • each DB1, DB2 database is configured to be accessible to the UNT processing unit within the SYS system. As explained in the remainder of the description, this accessibility results in the possibility for the processing unit UNT to perform a search within each database DB1, DB2 to establish, if possible, a correspondence between a set of enriched data and data sets stored in databases. This research aims in particular to verify the relevance of the enrichment of the set of data produced and its conformity with known databases.
  • the databases sent by the processing unit UNT to verify that a set of data received has been correctly enriched is for example a database of the SIREN type (for "Identification system of the directory of companies ”), SIRET (for“ Identification system of the establishment directory ”) or even Infogreffe.
  • SIREN for "Identification system of the directory of companies ”
  • SIRET for“ Identification system of the establishment directory
  • Infogreffe information relating to the identification of a company, a company, an establishment, an organization or an association with activities in France.
  • DB1 and DB2 databases can refer to any database of this type and not only for France.
  • databases DB1, DB2 can also refer to other types of databases accessible by programming interfaces (also known by the acronym API for "Application programming interface").
  • a set of data then relates, for example, to a company, a company or a merchant and the metadata included in the set of data are informative or descriptive data of a fundamental data concerning the name of the company, the company or the merchant.
  • This fundamental data is, due to the transfer of the data set, likely to include errors or inaccuracies and therefore to be corrupted by a certain noise level. This noise may have been introduced at the source, on transmission or even on reception.
  • the SYS system receives several sets of data. More specifically, the data sets are received by the COM communication module of the SYS system UNT processing unit.
  • the communication module COM receives a first set of data DAT1, a second set of data DAT2 and a third set of data DAT3.
  • this example is purely illustrative and the SYS system may have to process a much larger number of data sets.
  • Each data set comprises a fundamental data and one or more metadata relating to the fundamental data.
  • metadata makes it possible to define, describe or provide additional information about the fundamental data.
  • the first set of data DAT1 comprises metadata MDi 1 , ..., MDi m describing the fundamental data item Di.
  • the second data set DAT2 comprises metadata MD 2 ⁇ ..., Ml) 2 "describing the fundamental data item D 2.
  • the third data set DAT3 comprises metadata MD3 1 , ..., MD 3 P describing the fundamental data D 3 .
  • the processing unit UNT of the system SYS generates for each set of data, by applying a processing for reducing a noise level to the fundamental datum, a processed datum associated with the 'dataset.
  • noise can be introduced at the source, on the transmission or on the reception in the data set and more specifically in the fundamental data.
  • the implementation of the service requiring the correct routing of the data set is then compromised by such errors or inaccuracies.
  • the UNT processing unit applies any type of data processing allowing the noise level level of the fundamental data to be reduced. Those skilled in the art are familiar with the techniques usually employed to decrease the noise level or completely remove it from one or more data.
  • the processed data is generated by deleting the sequence of characters of one or more characters from a list of characters predetermined.
  • This list of characters is for example stored in the memory MEM of the processing unit UNT so that, when the processing unit detects a character from this list in a fundamental datum taking the form of a series of characters, this character is deleted to generate the processed data.
  • the fundamental data can also be a sound signal or a digital image.
  • the various techniques for reducing or eliminating noise in a sound signal or a digital image are widely known to those skilled in the art so that the UNT processing unit can be configured to be able to apply such techniques on the fundamental data of each set of data received by the SYS system.
  • Di ′ denotes the processed data item generated by the first set of data DAT1 by reducing the noise level of the fundamental data item Di.
  • D 2 ' denotes the processed data item generated by the second set of data DAT2 by reducing the noise level of the fundamental datum D 2
  • D 3 ' denotes the processed datum generated by the third set of data DAT3 by reduction of the noise level of the fundamental datum D 3 .
  • the data processed for a data set can be aggregated or appended to the data set in addition to or in place of the fundamental data, and in the company of the corresponding metadata.
  • this step S2 has been implemented and that the processed data item replaces the fundamental data.
  • this processed data item is therefore not generated and what is carried out subsequently using the processed data item l 'is using the fundamental data.
  • this processed data can be identical to the fundamental data.
  • the fundamental datum does not include any noise, the processed datum is identical to the fundamental datum.
  • a counter i initialized to 1, is incremented and a similarity function I j is selected.
  • the memory MEM stores a set of similarity functions.
  • the processing unit UNT groups the data sets according to the processed data respectively associated with the data sets according to the similarity function.
  • the grouping of data implemented by the processing unit UNT is better known under the English term “data clustering” or more simply “clustering”. We can also speak here of partitioning or clustering of data.
  • the grouping techniques used by the processing unit UNT are techniques known to those skilled in the art.
  • the grouping implemented by the processing unit UNT makes it possible to obtain a great intra-group similarity, namely a high homogeneity between the elements, here data sets, of the same group, and a low similarity inter-group, in order to have well-differentiated groups.
  • the grouping implemented by the UNT processing unit comprises a partitioning algorithm, a hierarchical algorithm, a density-based algorithm, a grid algorithm or even a model algorithm.
  • the grouping of data sets uses an unsupervised learning algorithm.
  • Such algorithms are known to those skilled in the art.
  • the data sets are grouped into groups, better known under the English term “clusters”, according to the similarity function used.
  • the similarity function is a distance function defined on a space of M + l dimensions, where M is the number of metadata (M + l therefore corresponding to the cardinality of a set of data received with M metadata and a fundamental data ).
  • M is the number of metadata
  • M + l therefore corresponding to the cardinality of a set of data received with M metadata and a fundamental data .
  • the similarity function can be a Euclidean distance.
  • the similarity function can be a Levenshtein distance.
  • the similarity function can be a combination of a Euclidean distance and a Levenshtein distance.
  • the first set of data DAT1 and the second set of data DAT2 are grouped together in the same group or “cluster” Ci.
  • the third set of data DAT3 is for its part placed in a group C 2 .
  • the first, second and third data sets DAT1, DAT2, DAT3 have been grouped together according to their respective processed data Di ', D 2 ', D 3 '.
  • the generation of the processed data item is optional.
  • the grouping of the datasets is implemented according to the respective fundamental data of the datasets.
  • the processing unit UNT enriches each set of data with an additional piece of data called a label characterizing the group to which the set of data considered belongs.
  • a set of data receives, at the end of the grouping, a data additional characterization of the group into which the data set in question has been classified.
  • this additional data also called label or tag, is aggregated or appended to the data set.
  • the first and second data sets DAT1, DAT2 have been classified in the same group or “cluster” Ci. These two data sets DAT1, DAT2 are therefore enriched by the same additional data item referenced label (Ci). Likewise, the third set of data DAT3 having been classified in the group or "cluster” C 2 , it is enriched by the additional data item label (C 2 ).
  • the processing unit UNT searches, for each enriched data set, in at least one database storing data sets each comprising metadata and a label, a combination of at least part metadata and the label of the enriched data set considered.
  • the first enriched set DAT1 comprises the fundamental data Di, metadata MDi 1 , ..., MDi m , a label label (Ci) and, optionally, the processed data Di ' .
  • the search performed by the processing unit UNT in at least one of the databases DB1, DB2 therefore aims to determine whether the combination of at least part of the metadata MDi 1 , ..., MDi m and the label label ( Ci) is present in a dataset among the datasets stored in the database DB1, DB2.
  • a search is carried out in all the databases, therefore here the database DB 1 and the database DB2.
  • a “corresponding data set” to designate a data set stored in a database and comprising the desired combination.
  • this dataset is a corresponding dataset of the enriched dataset from which the sought combination is derived.
  • each metadata of an enriched data set is associated with a weight.
  • This weight makes it possible to characterize the importance of a metadata within a set of data.
  • the combination of at least part of the metadata and the label is then considered to be present in a database if and only if a value of a presence function, calculated according to the respective weights of the metadata of the combination present in the database in question is greater than or equal to a predetermined threshold.
  • an additional criterion is applied to determine whether a dataset stored in a database can be considered a "corresponding dataset”.
  • This criterion consists of verifying whether a potential corresponding dataset is sufficiently meaningful, according to the metadata it contains and shares in common with an enriched dataset.
  • the need for the label of this potential corresponding data set to be the same as the enriched data set considered remains in this specific embodiment.
  • the metadata MDi 1 , ..., MDi m are all respectively associated with a weight Pi 1 , ..., Pi m .
  • a set of data includes the metadata MDi 1 , ..., MDi k and the label label (Ci), where k is a natural integer strictly less than m.
  • this data set found in the database DB1 does indeed include at least part of the metadata of the first enriched data set DAT1 * as well as the label label (Ci). So this is a potential matching dataset.
  • Vf G (Pi ⁇ ..., Pi k )
  • This value Vi is then compared with a predetermined threshold and, if this value is greater than or equal to the predetermined threshold, then the dataset found in the database DB1 is relevant and is retained as a corresponding dataset.
  • the presence function G is an addition or a multiplication.
  • the dataset found in the DB2 database includes the metadata MD, MDi m , where j is a natural number less than m, and the label label (Ci).
  • the processing unit UNT then calculates the value V 2 taken by the function G taken for this combination found. In other words:
  • V 2 G (P 1 j , ..., P 1 k )
  • This value V 2 is then compared with the predetermined threshold and, if this value is greater than or equal to the predetermined threshold, then the data set found in the database DB2 is relevant and is retained as a corresponding data set.
  • the dataset found in the DB1 database is retained according to this criterion while the one found in the DB2 database is not.
  • a corresponding data set is not only a data set stored in a database comprising the combination of at least part of the metadata and the label of an enriched data set but also a data set verifying the criterion described above concerning the respective weights of the metadata that it shares with the enriched data set on the basis of which the search is carried out by the UNT processing.
  • step S6 implemented in particular in the case where a combination of at least part of the metadata and of the label of an enriched data set is absent from the at least one database, the label previously assigned is removed from the enriched dataset.
  • the label since there is no trace in any database of a combination of at least part of the metadata and the label, it is considered that it was by mistake that it was assigned during the grouping of step S3 to the data set considered.
  • This previously enriched is therefore removed from the additional data or label which has been aggregated or added to it.
  • step S4 this has been enriched by the additional data item label (Ci).
  • the processing unit UNT therefore then searched, during step S5, in at least one of the databases DB 1, DB2 if a set of data stored in one of these databases DB 1, DB2, comprises both at least part of the metadata M1) 2 ', ..., MD 2 "and the additional data label (Ci). If no data set stored in the databases DB1, DB2 does not include such a combination, the label label (Ci) is therefore removed from the second enriched data set DAT2 *.
  • such a search can be performed on a plurality of databases, here two databases DB1, DB2 and a corresponding set of data can be found in several different databases.
  • the processing unit UNT searched in the database DB1 but also in the database DB2 for a data set comprising the combination of at least part of the metadata MD 3 1 , ... MD 3 P and the label label (C 2 ). It is quite possible that a matching dataset was found in the DB1 database, while another matching dataset was found in the DB2 database.
  • the processing unit UNT has found a data set stored in the database DB1 comprising the combination of at least part of the metadata and the label of the third enriched data set DAT3 * but also found a dataset stored in the DB2 database including this same combination of metadata and label.
  • the processing unit UNT applies a predefined criterion to determine whether the result of this search which resulted in finding a corresponding set of data in more than one database of the system SYS makes it possible to conclude on the relevance of the label attributed or not.
  • each database is characterized by a reliability coefficient.
  • each set of data stored in a database further comprises fundamental data.
  • the SYS system includes two databases DB1, DB2. Since there are several databases, each is assigned a reliability coefficient to quantify its relevance or reliability.
  • the respective reliability coefficients of two distinct databases are distinct.
  • the database DB1 is characterized by a reliability coefficient CFI while the database DB2 is characterized by a reliability coefficient CF2. It is also considered that the database DB 1 being more reliable than the database DB2, we have: CF1> CF2.
  • the database with the highest reliability coefficient is the database DB 1 characterized by the reliability coefficient CFI.
  • the processed data Di ’of the first enriched data set DAT1 * is therefore compared with the fundamental data of the corresponding data set found in the database DB1.
  • the label of the enriched data set is removed during step S6 then implemented by the processing unit UNT if the processed data of the enriched data set is distinct from the fundamental data of the corresponding data set stored in the database characterized by the highest coefficient of reliability.
  • each database is again characterized by a reliability coefficient.
  • each set of data stored in a database further comprises fundamental data.
  • the processing unit UNT takes into account all the databases comprising a corresponding set of data.
  • Each fundamental data item present in at least one of the corresponding data sets is associated with a likelihood factor determined as a function of the reliability coefficient of each database storing a corresponding data set comprising the considered fundamental data.
  • a third database (not shown here) is included in the SYS system and is searched by the processing unit UNT in addition to the databases DB1, DB2.
  • this third database is characterized by a reliability coefficient CF3.
  • the database DB1 is characterized by a reliability coefficient CFI while the database DB2 is characterized by a reliability coefficient CF2.
  • the respective reliability coefficients of two distinct databases are distinct.
  • the processing unit UNT determines a likelihood factor FV (DF I 2 ) associated with the fundamental datum DFi 2 .
  • This likelihood factor FV (DF I 2 ) is calculated as a function of the reliability coefficients of the database DB1 and of the database DB2, namely CFI and CF2.
  • the processing unit UNT determines a likelihood factor FV (DF 3 ) associated with the fundamental datum DF 3 .
  • This likelihood factor FV (DF 3 ) is calculated as a function of the reliability coefficient of the third database, namely CF3.
  • a likelihood factor is determined by adding the reliability coefficients.
  • the processed data D 3 'of the third enriched data set DAT3 * is then compared with the fundamental data associated with the highest likelihood factor.
  • each data item fundamental present in at least one of the corresponding data sets is associated with a likelihood factor determined as a function of the reliability coefficient of each database storing a corresponding data set comprising the fundamental data considered, and the label of the set of enriched data is removed during step S6 then implemented by the processing unit UNT if the processed data of the enriched data set is distinct from the fundamental data associated with the highest likelihood factor.
  • Step S6 is implemented for an enriched data set either following step S5 if it turns out that the combination of at least part of the metadata and the label of this enriched data set is not present in any database, either following step S7 if this combination has been found in several databases and it turns out that the assigned label is incorrect. During this step S6, therefore, the label of the enriched data set is removed. Then, as illustrated in [Fig. 2], it is determined whether the counter i characterizing the number of iterations of the method is less than or equal to a predetermined maximum number of iterations N. If this maximum number of iterations has not yet been reached, the counter is incremented .
  • a new similarity function for example stored in the memory MEM of the processing unit UNT. Steps S3 and following are then repeated for the data sets whose label has been removed with the new similarity function, so that a data set cannot be enriched by a label already aggregated and then removed previously.
  • a similarity function calculates a distance between two sets of data so that two sets of data are grouped together in the same group or cluster when the distance between these two sets of data is less than or equal to a certain threshold. Also, when a new similarity function is selected, it is also possible to modify this threshold, for example by increasing it. Furthermore, it is also possible to keep the same similarity function and only change the threshold.
  • the processing unit UNT interrupts the loop and proceeds to step S8 even though some data sets are found without an assigned label.
  • Step S8 is implemented at the end of step S7 if it is determined that the label attributed to a set of data during the enrichment of the latter is correct in view of the search carried out on T at least one database, it is then considered that this data set has been correctly enriched.
  • Step S8 can also be implemented if the maximum number of predetermined iterations N of the method has been reached.
  • step S8 can also be implemented in the case where, for an enriched data set, the combination of at least part of the metadata and of the label of this enriched data set has only been found. in a single database at the end of step S5.
  • the fundamental data of the enriched data set is replaced if necessary by the fundamental data of the data set corresponding.
  • the fundamental data of the corresponding data set is distinct from the enriched data set.
  • this fundamental data present in the corresponding dataset may correspond to the processed data.
  • the enriched data set at the output of the system comprises at least either the original fundamental data, the processed data or the fundamental data found in the corresponding data set.
  • the processing unit UNT compares the fundamental datum D 2 of the second enriched data set DAT2 * is compared with the fundamental data of the corresponding data set stored in the database DB1. If the fundamental data of the corresponding data set is distinct from the fundamental data of the second data set enriched, the latter is then replaced in the second enriched data set by the fundamental data of the corresponding data set.
  • each set of data has benefited from at most N iterations of steps S3 and following to be assigned a consistent label in view of the search carried out on one or more databases of the system.
  • enriched data sets which, at the end of step S8, have retained their label because of the positive result of the search in the database or databases DB1, DB2, or because the combination d '' at least part of the metadata and the label were found in a single database, either because this combination was found in several databases and the label finally appeared correct in the light of the search, such enriched sets may also be supplemented by new metadata from databases.
  • the test consists in determining whether, for a set of data, the combination of at least part of the metadata and of the label generated are included in at least one set of data, called the corresponding set of data, at least one database. But such corresponding sets can of course include other data in addition to the desired combination.
  • This additional metadata can then be retrieved by the UNT processing unit to advantageously complement the enriched data sets.
  • the enriched datasets DAT1 *, DAT2 *, DAT3 * do not include additional metadata compared to the datasets DAT1, DAT2, DAT3 received by the system.
  • the enriched data can comprise additional metadata originating from databases DB1, DB2.
  • the enriched data sets can be enriched again so as to keep, for the sake of traceability, a history of the enrichment of the data and of the search within the databases.
  • an enriched data set can be completed by a piece of data representative of the similarity function used to implement the grouping in step S2.
  • an enriched data set can also or alternatively be supplemented by data representative of the database within which the most relevant corresponding set has been found.
  • data representative of the database within which the most relevant corresponding set has been found may be representative of at least part of the databases within which these corresponding data sets are stored.
  • a set of enriched data at the output of the SYS system can include, in addition to the label and possibly the data processed with or in place of the original fundamental data, data making it possible to characterize the different steps of the process that led to generation and verification of enriched data sets.
  • This additional enrichment of a set of data typically comprises data representative of the similarity function used and / or one or more data representative of databases in which corresponding sets are stored.
  • the enriched data set in question is again enriched by data representative of the similarity function and / or at least one database within which the combination of at least part of the metadata and the label of this enriched data set has been found.
  • step S9 optionally implemented at the end of step S8, the metadata of the enriched data sets are used in order to carry out a verification of the assigned label. Such a check can also make it possible to correct the fundamental data if necessary.
  • the fundamental data relates to an individual or of an entity
  • the metadata comprises at least contact data of the individual or of the entity.
  • the enriched data set is transmitted, using contact data, for verification of the aggregated label.
  • An entity can designate here a company, a company, an organization or an establishment.
  • contact data may already be present in the data set received and then enriched, but may also be retrieved from one of the databases.
  • DB1 data, DB2 if the search result is satisfactory.
  • contact data is sought. in the corresponding set or sets within the database or databases.
  • the enriched data sets are processed before transmission in order to keep either the fundamental data as received by the communication module COM or the data processed or the fundamental data recovered from a database.
  • the fundamental data item Di received is kept alone.
  • the processed data item D 2 'generated is kept alone.
  • the processed data item D 3 'generated is kept alone.
  • the contact data can be for example a postal address, a telephone number and / or an e-mail address.
  • the metadata of the first enriched data set comprises contact data relating to an electronic address ADD1
  • the metadata of the second enriched data set include contact data relating to a telephone number.
  • telephone ADD2 while the metadata of the third enriched data set comprises contact data relating to a postal address ADD3.
  • an enriched data set may be, for verification purposes, obviously transmitted to the individual or entity being the subject of these data but may also be sent to the source of the dataset.
  • the generation of a set of data and then the transmission to the SYS system may have been triggered by a user's terminal, for example during a payment. . More precisely, this data is generated from a user account of the user on the payment application. These data do not relate to the user in question but to the trade, business or society.
  • the enriched data set can therefore be transmitted for verification of course to the business, the company or the company via contact data included in the metadata, but can also, still for verification, also be sent to the user account at the origin of the generation of the data set as received by the SYS system and more particularly by the communication module COM.
  • the enriched data sets are then transmitted to these addresses provided by the contact data, for example via the communication module COM, for verifications of the label, and possibly of the fundamental / processed data and of the data. 'enriched data set transmitted.
  • the processing unit UNT is for example provided with technologies to automatically send an email or use a call bot to automatically call the retrieved phone number.
  • this erroneous data can be corrected and then sent back to the SYS system.
  • this application also allows him to receive the enriched set of data at the output of the system and to access, at least in part, certain data in the enriched data set for verification purposes. If a data, for example the fundamental data or the processed data or a metadata, is erroneous, the user has the possibility to correct this data then to send this correction to the SYS system.
  • the SYS system can then re-implement certain steps of the method described above. For example, the SYS system can re-group or cluster on multiple corrected rich data sets or re-search one or more databases.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Système et procédé d'enrichissement de données La présente invention concerne un procédé d'enrichissement de données comprenant : a) recevoir (S1) plusieurs ensembles de données comprenant chacun une donnée fondamentale et des métadonnées, b) grouper (S3) les ensembles de données en fonction des données fondamentales selon une fonction de similarité (F), c) enrichir (S4) chaque ensemble de données d'un label caractérisant le groupe auquel appartient l'ensemble de données, d) chercher (S5) pour chaque ensemble de données enrichi, dans une base de données (DB1, DB2) stockant des ensembles de données comprenant chacun des métadonnées et un label, une combinaison d'une partie au moins des métadonnées et du label de l'ensemble de données enrichi, et e) si la combinaison d'une partie au moins des métadonnées et du label de l'ensemble de données enrichi est absente de la base de données, retirer (S6) le label de l'ensemble de données enrichi.

Description

Description
Titre : Système et procédé d’enrichissement de données
Le domaine de l’invention se rapporte à l’enrichissement des données, notamment lorsque celles-ci présentent le risque de comporter des imprécisions ou des erreurs dues aux conditions d’émission et de réception de ces données. L’une des applications principales de l’invention concerne notamment la banque mobile, plus connue sous le terme anglophone « mobile banking ».
Lorsque des données sont transmises, il existe un risque que celles-ci soient compromises et des erreurs ou des imprécisions résultent bien souvent du transfert des données. Ces erreurs ou imprécisions dans les données peuvent être présentes à la source mais peuvent également être introduites à l’émission ou à la réception.
La nécessité de fiabiliser les données reçues est un enjeu important dans tous les systèmes dans lesquels le transfert des données, parfois de manière répétée, est inévitable. En particulier, le domaine de la banque mobile, qui désigne tous types de services financiers accessibles depuis un équipement mobile connecté à un réseau étendu, tel qu’un téléphone portable par exemple, est un domaine dans lequel les transferts de données sont nombreux et la restitution de ces données est une condition nécessaire à la mise en œuvre des services. Dans ce domaine spécifique, les données transférées peuvent comporter des informations telles que le libellé d’un commerçant, son code d’activité, sa localisation, son nom, etc. Il est alors nécessaire de s’assurer de la fiabilité de ces données lorsque celles-ci présentent le risque de comporter des erreurs pour le bon fonctionnement des services.
La présente invention vient améliorer la situation.
A ce titre, la présente invention concerne un procédé d’enrichissement de données mis en œuvre par des moyens informatiques et comprenant :
a) recevoir plusieurs ensembles de données, un ensemble de données comprenant une donnée fondamentale et une ou plusieurs métadonnées relatives à la donnée fondamentale,...
b) grouper les ensembles de données en fonction des données fondamentales respectivement associées aux ensembles de données selon une fonction de similarité,...
c) enrichir chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient l’ensemble de données,
d) chercher pour chaque ensemble de données enrichi, dans au moins une base de données stockant des ensembles de données comprenant chacun des métadonnées et un label, une combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi, et
e) si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est absente de l’au moins une base de données, retirer le label de l’ensemble de données enrichi.
Par exemple, la donnée fondamentale est une suite de caractères, ou un signal sonore ou une image numérique.
Selon un mode de réalisation, le procédé comprend en outre, suite à la réception des ensembles de données: générer pour chaque ensemble de données, par application d’un traitement de diminution d’un niveau de bruit à la donnée fondamentale, une donnée traitée associée à l’ensemble de données. Dans un tel mode de réalisation, le regroupement des ensembles de données est mis en œuvre en fonction des données traitées respectivement associées aux ensembles de données.
Par exemple, la donnée fondamentale est une suite de caractères et la donnée traitée est générée par suppression de la suite de caractères d’un ou plusieurs caractères d’une liste de caractères prédéterminés.
Selon un mode de réalisation, le regroupement des ensembles de données utilise un algorithme d’apprentissage non supervisé.
Selon un mode de réalisation, chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale et, si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est présente dans l’au moins une base de données dans un ensemble de données correspondant, la donnée fondamentale de l’ensemble de données enrichi est remplacée si nécessaire par la donnée fondamentale de l’ensemble de donnée correspondant.
Selon un mode de réalisation, chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale, et la recherche est effectuée sur une pluralité de bases de données, chaque base de données étant caractérisé par un coefficient de fiabilité, et, si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, le label de l’ensemble de données enrichi est retiré si la donnée fondamentale de l’ensemble de données enrichi est distincte de la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisée par le plus grand coefficient de fiabilité.
Selon un mode de réalisation, chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale, et la recherche est effectuée sur une pluralité de bases de données, chaque base de données étant caractérisé par un coefficient de fiabilité, et, si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant la donnée fondamentale en question, et le label de l’ensemble de données enrichi est retiré si la donnée fondamentale de l’ensemble de données enrichi est distincte de la donnée fondamentale associée au facteur de vraisemblance le plus élevé.
Selon un mode de réalisation, chaque métadonnées d’un ensemble de données enrichi étant associé à un poids, la combinaison d’une partie au moins des métadonnées et du label est présente dans une base de données si et seulement si une valeur d’une fonction de présence, calculée en fonction des poids respectifs des métadonnées de la combinaison présente dans la base de données, est supérieure ou égale un seuil prédéterminé.
Selon un mode de réalisation, si, après la recherche dans l’au moins une base de données, un ensemble de données enrichi conserve son label, l’ensemble de données enrichi est à nouveau enrichi par des données représentatives de la fonction de similarité et/ou d’au moins une base de données au sein de laquelle la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi a été trouvée.
Selon un mode de réalisation, :les étapes b) à e) sont répétées pour les ensembles de données dont le label a été retiré avec une nouvelle fonction de similarité, de sorte qu’un ensemble de données ne peut être enrichi par un label déjà agrégé puis retiré précédemment.
Par exemple, la répétition des étapes b) à e) est limitée à un nombre d’itérations maximal prédéterminé.
Selon un mode de réalisation, la donnée fondamentale est relative à un individu ou d’une entité, et les métadonnées comprennent au moins des données de contact de l’individu ou de l’entité, et dans lequel l’ensemble de données enrichi est transmis, à l’aide des données de contact, à destination de l’individu ou de l’entité pour une vérification du label agrégé.
Par exemple, les données de contact sont une adresse postale, un numéro de téléphone, une adresse électronique et/ou une adresse d’un compte utilisateur d’une application.
La présente invention concerne également un programme informatique comprenant des instructions pour la mise en œuvre du procédé décrit précédemment, lorsque les instructions sont exécutées par au moins un processeur.
Enfin, la présente invention vise un système d’enrichissement de données comprenant :
- un module de communication agencé pour recevoir plusieurs ensembles de données, un ensemble de données comprenant une donnée fondamentale et une ou plusieurs métadonnées relatives à la donnée fondamentale,
- une unité de traitement agencée pour :
grouper les ensembles de données en fonction des données fondamentales respectivement associées aux ensembles de données selon une fonction de similarité,
enrichir chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient ledit ensemble de données, et
- au moins une base de données configurée pour stocker des ensembles de données comprenant chacun des métadonnées et un label,
l’unité de traitement étant agencée en outre pour :
chercher pour chaque ensemble de données enrichi, dans l’au moins une base de données, une combinaison d’une partie au moins des métadonnées et du label dudit ensemble de données enrichi, et si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est absente de l’au moins une base de données, retirer le label de l’ensemble de données enrichi.
D’autres caractéristiques, détails et avantages de l’invention apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :
- [Fig. 1] illustre un système d’enrichissement de données selon l’invention; et
- [Fig. 2] illustre un procédé d’enrichissement de données selon l’invention.
La [Fig. 1] illustre un système d’enrichissement de données, ci-après système SYS, selon l’invention.
Le système SYS est agencé pour recevoir des données présentant le risque de comporter des erreurs ou des imprécisions et pour enrichir ces données malgré ces potentielles erreurs ou imprécisions.
Dans le contexte de l’invention, les données reçues par le système SYS sont en effet susceptibles de comporter un certain niveau de bruit. Par exemple, lorsque les données correspondent à une suite de caractères, ces données sont susceptibles de comporter des caractères erronés ou des imprécisions. On comprend donc ici que le bruit désigne typiquement toute erreur introduite dans une suite de caractère à la source, à l’émission ou à la réception ou lors de la transmission des données.
Typiquement, dans le contexte de la banque mobile (aussi connue sous le terme anglophone « mobile banking »), les données reçues à l’entrée du système SYS sont des données permettant à un utilisateur d’accéder à des services financiers depuis un équipement mobile, par exemple un téléphone portable. Les données transférées permettent alors de consulter un compte en ligne ou encore d’effectuer un virement. Les données peuvent correspondre au libellé d’un commerçant, à son code d’activité, à sa localisation, donc sa ville, son adresse et son code postal, ou encore à son nom. Dans un tel domaine d’application, par exemple, certaines informations sont limitées à un nombre maximal de caractères. Le transfert de données représentatives de telles informations sont donc nécessairement imprécises et incomplètes puisque tous les caractères n’ont pu être renseignés. Dans la présente invention, le bruit fait référence, par exemple, à ce type d’imprécisions.
Le système SYS est agencé pour permettre, même lorsque ces données comportent des erreurs, introduites parfois à la source mais également à l’émission ou à la réception des données, la fourniture du service.
Ces données peuvent être également un signal sonore comportant du bruit ou une image numérique comportant du bruit numérique. Le système SYS est agencé pour enrichir les données malgré ce bruit potentiel
Comme illustré en [Fig. 1], le système SYS comprend une unité de traitement UNT et au moins une base de données, ici deux bases de données DB1, DB2.
L’unité de traitement UNT est agencée pour, sur réception de plusieurs ensembles de données, enrichir chaque ensemble de données et vérifier la pertinence de cet enrichissement des données à l’aide des bases de données DB1, DB2. Plus spécifiquement, l’unité de traitement UNT est agencée pour générer, pour chaque ensemble de données reçu, une donnée supplémentaire dite label et agréger ou adjoindre le label généré à l’ensemble de données associé. Dans la littérature, on parlera également d’étiquette pour désigner le label.
Par ailleurs, l’unité de traitement UNT est également agencée pour appliquer un traitement à une partie au moins des données reçues pour réduire un niveau de bruit que les données sont susceptibles de comporter.
L’unité de traitement UNT est agencée en outre pour, une fois un ensemble de données enrichi, acheminer cet ensemble de données à une adresse afin de permettre à un utilisateur de prendre connaissance des données enrichies et de vérifier que ces données ont été correctement enrichies.
Dans l’exemple illustré en [Fig. 1], trois ensembles de données DAT1, DAT2, DAT3 sont transmis à l’unité de traitement UNT.
Chaque ensemble de données comprend une donnée fondamentale Di, D2, D3 et une ou plusieurs métadonnées relatives à cette donnée fondamentales. Les métadonnées accompagnant les données fondamentales sont des données descriptives permettant de décrire ou de définir les données fondamentales. Par exemple, dans le domaine de la banque mobile, la donnée fondamentale est le libellé d’un commerçant tandis que les métadonnées caractérisent son code d’activité, sa localisation ou toute autre information concernant le commerçant en question. Dans l’exemple de la [Fig. 1], le premier ensemble de données DAT1 comprend la donnée fondamentale Di et comprend en outre des métadonnées MDi1, MDim. Le deuxième ensemble de données DAT2 comprend la donnée fondamentale D2 et comprend en outre des métadonnées MD2\ MD2“. Enfin, le troisième ensemble de données DAT3 comprend la donnée fondamentale D3 et comprend en outre des métadonnées MD3\ MD3 P. Dans les notations précédentes, m, n et p sont des entiers naturels désignant le nombre de métadonnées respectif des premier, deuxième et troisième ensembles de données DAT1, DAT2, DAT3.
Dans le contexte de l’invention, la donnée fondamentale de chaque ensemble de données est susceptible de présenter un certain niveau de bruit et donc de comporter des erreurs ou des imprécisions.
Bien entendu, les métadonnées sont également susceptibles de présenter un certain niveau de bruit. On comprend que le traitement appliqué par l’unité de traitement UNT aux données fondamentales pour réduire le bruit peut également être appliqué aux métadonnées. Dans la suite de la description, on se focalise en particulier sur le cas dans lequel les données fondamentales peuvent être bruitées. Comme expliqué par la suite, l’unité de traitement UNT est agencée notamment pour générer une donnée traitée en appliquant un traitement de diminution d’un niveau de bruit à la donnée fondamentale d’un ensemble de données.
Toutefois, il est entendu que les métadonnées peuvent également être bruitées et que l’unité de traitement UNT peut également être agencée pour générer de nouvelles métadonnées par application d’un traitement de diminution d’un niveau de bruit aux métadonnées reçues.
Par ailleurs, toujours en référence à l’exemple illustré en [Fig. 1], trois ensembles de données enrichis DAT1*, DAT2*, DAT3* sont générés par l’unité de traitement UNT. Comme expliqué précédemment, l’unité de traitement UNT est agencée plus particulièrement pour générer, pour chaque ensemble de données reçu, une donnée supplémentaire aussi appelée label ou étiquette et pour enrichir chaque ensemble de données en lui agrégeant ou adjoignant le label généré. Dans l’exemple décrit ici, les premier et deuxième ensembles de données DAT1, DAT2 sont enrichis par un même label label(Ci) tandis que le troisième ensemble de données DAT3 est enrichi par un label label(C3).
L’unité de traitement UNT comprend un module de communication COM, une mémoire MEM et un processeur PROC.
Le module de communication COM est agencé pour recevoir plusieurs ensembles de données. Dans l’exemple illustré en [Fig. 1], le module de communication COM est agencé pour recevoir les premier, deuxième et troisième ensembles de données DAT1, DAT2, DAT3. Par ailleurs, le module de communication COM est agencé en outre pour émettre plusieurs ensembles de données enrichis. Dans l’exemple illustré en [Fig. 1], le module de communication COM est agencé pour émettre les premier, deuxième et troisième ensembles de données enrichis DAT1*, DAT2*, DAT3*.
Il est connu de l'homme du métier qu'il existe de nombreux types différents de réseaux de communication de données, par exemple des réseaux de radiocommunication, cellulaires ou non cellulaires, et qu’en fonction du mode de réalisation, le module de communication COM pourra intégrer un ou plusieurs modules de communication, par exemple de communication radiofréquence et être configuré pour l’émission et la réception de signaux radiofréquences, selon une ou plusieurs technologies, telles que TDMA, FDMA, OFDMA, CDMA, ou un ou plusieurs standards de radiocommunication, tels que GSM, EDGE, CDMA, UMTS, HSPA, LTE, LTE- A, WiFi (IEEE 802.11) et WiMAX (IEEE 802.16), ou leurs variantes ou évolutions, actuellement connus ou développés ultérieurement.
En d’autres termes, le module de communication COM est agencé pour communiquer avec un réseau étendu (également connu sous l’acronyme anglophone WAN pour « Wide Area Newtork »), un réseau local (également connu sous l’acronyme anglophone LAN pour « Local Area Network ») ou tout autre type de réseau.
Les ensembles de données sont, par exemple, émis à destination du module de communication COM de l’unité de traitement UNT suite à l’utilisation d’une application. Une telle application est typiquement implémentée sur un terminal, par exemple un terminal mobile de type smartphone (terme anglophone usuel pour désigner un téléphone intelligent), et est par exemple destinée à être utilisée par un utilisateur. Par exemple, l’utilisateur effectue un paiement via cette application et ce paiement engendre la génération d’une partie au moins des données d’un ensemble de données, que ce soit la donnée fondamentale et/ou les métadonnées. C’est typiquement dans un tel cas que du bruit peut être introduit avec des erreurs ou des imprécisions. Par exemple, ces informations sont une suite de caractères. La mémoire MEM est agencée pour stocker des instructions sous la forme d’un programme informatique dont l’exécution par le processeur PROC se traduit par le fonctionnement de l’unité de traitement UNT.
Le fonctionnement du processeur PROC et donc de l’unité de traitement UNT sera décrit plus en détails dans la suite de la description en référence à la [Fig. 2].
Comme expliqué précédemment, le système SYS comprend également au moins une base de données. Dans l’exemple illustré en [Fig. 1], le système SYS comprend deux bases de données DB1, DB2. Néanmoins, l’homme du métier comprend ici que le système SYS peut ne comprendre qu’une seule base de données. Chaque base de données DB1, DB2 est configurée pour stocker des ensembles de données comprenant chacun des métadonnées et un label. Avantageusement, un ou plusieurs ensembles de données stockés dans une base de données DB 1 , DB2 comprennent également, outre des métadonnées et un label, une donnée fondamentale.
Par ailleurs, chaque base de données DB1, DB2 est configurée pour être accessible à l’unité de traitement UNT au sein du système SYS. Comme expliqué dans la suite de la description, cette accessibilité se traduit par la possibilité pour l’unité de traitement UNT d’effectuer une recherche au sein de chaque base de données DB1, DB2 pour établir, si possible, une correspondance entre un ensemble de données enrichi et les ensembles de données stockés dans les bases de données. Cette recherche vise en particulier à vérifier la pertinence de T enrichissement de l’ensemble de données réalisé et sa conformité avec les bases de données connues.
Comme expliqué précédemment, un des domaines d’ application de la présente invention est la banque mobile. Dans un tel contexte, les bases de données adressées par l’unité de traitement UNT pour vérifier qu’un ensemble de données reçu a été correctement enrichi est par exemple une base de données de type SIREN (pour « Système d’identification du répertoire des entreprises »), SIRET (pour « Système d’identification du répertoire des établissements ») ou encore Infogreffe. Ces bases de données publiques permettent d’accéder à des données relatives à l’identification d’une entreprise, d’une société, d’un établissement, d’un organisme ou d’une association ayant des activités en France. Bien entendu, l’homme du métier comprend que les bases de données DB1, DB2 peuvent désigner toute base de données de ce type et pas seulement pour la France. Bien entendu, les bases de données DB1, DB2 peuvent également désigner d’autres types de base de données accessibles par des interfaces de programmation (connues également sous l’acronyme anglophone API pour « Application programming interface »).
Un procédé d’enrichissement de données selon l’invention va à présent être décrit en référence à la
[Fig. 2]
Dans le contexte de la mise en œuvre du procédé décrit ci-après, plusieurs ensembles de données sont émis à destination du système SYS tel que décrit précédemment en référence à la [Fig. 1].
Ces données sont transmises au système SYS par exemple via un réseau étendu de type Internet ou via un réseau local. Ce procédé est typiquement mis en œuvre aux fins de fournir un service dans le cadre de la banque mobile. Un ensemble de données se rapporte alors par exemple à une entreprise, une société ou un commerçant et les métadonnées comprises dans l’ensemble de données sont des données informatives ou descriptives d’une donnée fondamentale concernant le libellé de l’entreprise, de la société ou du commerçant. Cette donnée fondamentale est, du fait du transfert de l’ensemble de données, susceptible de comporter des erreurs ou des imprécisions et donc d’être corrompue par un certain niveau de bruit. Ce bruit peut avoir été introduit à la source, à l’émission ou encore à la réception.
Lors d’une étape SI, le système SYS reçoit plusieurs ensembles de données. Plus spécifiquement, les ensembles de données sont reçus par le module de communication COM de l’unité de traitement UNT du système SYS.
Comme expliqué précédemment, dans le domaine de la banque mobile, la génération de tels ensembles de données est par exemple déclenchée par une application sur un terminal mobile d’un utilisateur.
Dans l’exemple illustré en [Fig. 1], le module de communication COM reçoit un premier ensemble de données DAT1, un deuxième ensemble de données DAT2 et un troisième ensemble de données DAT3. Bien entendu, cet exemple est purement illustratif et le système SYS peut avoir à traiter un nombre beaucoup plus important d’ensembles de données.
Chaque ensemble de données comprend une donnée fondamentale et une ou plusieurs métadonnées relatives à la donnée fondamentale. En d’autres termes, les métadonnées permettent de définir, de décrire ou d’ apporter des informations supplémentaires concernant la donnée fondamentale.
Dans l’exemple décrit ici, le premier ensemble de données DAT1 comprend des métadonnées MDi1, ..., MDim décrivant la donnée fondamentale Di. Le deuxième ensemble de données DAT2 comprend des métadonnées MD2\ ..., Ml)2" décrivant la donnée fondamentale D2. Enfin, le troisième ensemble de données DAT3 comprend des métadonnées MD31, ..., MD3 P décrivant la donnée fondamentale D3.
Optionnellement, lors d’une étape S2, l’unité de traitement UNT du système SYS génère pour chaque ensemble de données, par application d’un traitement de diminution d’un niveau de bruit à la donnée fondamentale, une donnée traitée associée à l’ensemble de données.
En effet, comme expliqué précédemment, du fait du transfert de l’ensemble de données, du bruit peut être introduit à la source, à l’émission ou à la réception dans l’ensemble de données et plus spécifiquement dans la donnée fondamentale. La mise en œuvre du service requérant l’acheminement correct de l’ensemble de données est alors compromise par de telles erreurs ou imprécisions.
Au cours de cette étape, l’unité de traitement UNT applique tout type de traitement de données permettant de réduire le niveau de niveau de bruit de la donnée fondamentale. L’homme du métier connaît les techniques employées habituellement pour diminuer le niveau de bruit ou le supprimer complètement d’une ou de plusieurs données.
Par exemple, lorsque la donnée fondamentale est une suite de caractères, la donnée traitée est générée par suppression de la suite de caractères d’un ou plusieurs caractères d’une liste de caractères prédéterminés. Cette liste de caractères est par exemple stockée dans la mémoire MEM de l’unité de traitement UNT de sorte que, lorsque l’unité de traitement détecte un caractère de cette liste dans une donnée fondamentale prenant la forme d’une suite de caractère, ce caractère est supprimé pour générer la donnée traitée.
Bien entendu, la donnée fondamentale peut également être un signal sonore ou une image numérique. Là encore, les techniques diverses permettant de réduire ou de supprimer le bruit dans un signal sonore ou une image numérique sont largement connues de l’homme du métier de sorte que l’unité de traitement UNT peut être configurée pour être apte à appliquer de telles techniques sur la donnée fondamentale de chaque ensemble de données reçues par le système SYS.
Dans le cas présent, on désigne par Di’ la donnée traitée générée par le premier ensemble de données DAT1 par diminution du niveau de bruit de la donnée fondamentale Di. De même, on désigne par D2’ la donnée traitée générée par le deuxième ensemble de données DAT2 par diminution du niveau de bruit de la donnée fondamentale D2, et par D3’ la donnée traitée générée par le troisième ensemble de données DAT3 par diminution du niveau de bruit de la donnée fondamentale D3.
A ce stade du procédé, la donnée traitée pour un ensemble de donnée peut être agrégée ou adjointe à l’ensemble de donnée en plus ou à la place de la donnée fondamentale, et en compagnie des métadonnées correspondantes.
Dans la suite de la description du procédé, on considère que cette étape S2 a été mise en œuvre et que la donnée traitée remplace la donnée fondamentale. L’homme du métier comprend ici que dans le mode de réalisation dans lequel cette étape n’est pas mise en œuvre, cette donnée traitée n’est donc pas générée et ce qui est réalisé par la suite à l’aide la donnée traitée l’est à l’aide de la donnée fondamentale. D’ailleurs, dans le cas où la donnée traitée est générée, cette donnée traitée peut être identique à la donnée fondamentale. En particulier, si la donnée fondamentale ne comporte aucun bruit, la donnée traitée est identique à la donnée fondamentale.
En référence à la [Fig. 2], on incrémente à partir de maintenant un compteur i, initialisé à 1 et on sélectionne une fonction de similarité I j. Avantageusement, la mémoire MEM stocke un ensemble de fonctions de similarité.
Lors d’une étape S3, l’unité de traitement UNT groupe les ensembles de données en fonction des données traitées respectivement associées aux ensembles de données selon la fonction de similarité. Le regroupement des données mis en œuvre par l’unité de traitement UNT est plus connu sous le terme anglophone « data clustering » ou plus simplement « clustering ». On peut parler également ici de partitionnement ou de mise en grappe des données. Là encore, les techniques de regroupement utilisées par l’unité de traitement UNT sont des techniques connues de l’homme du métier. Avantageusement, le regroupement mis en œuvre par l’unité de traitement UNT permet d’obtenir une grande similarité intra-groupe, à savoir une homogénéité élevée entre les éléments, ici des ensembles de données, d’un même groupe, et une faible similarité inter-groupe, afin d’avoir des groupes bien différenciés.
Les techniques de regroupement ou « clustering » utilisées dans le cadre de la mise en œuvre du procédé sont variées. Avantageusement, le regroupement mis en œuvre par l’unité de traitement UNT comprend un algorithme de partitionnement, un algorithme hiérarchique, un algorithme basé sur la densité, un algorithme de grille ou encore un algorithme de modèle.
Avantageusement, le regroupement des ensembles de données utilise un algorithme d’apprentissage non supervisé De tels algorithmes sont connus de l’homme du métier.
A l’issue de cette étape, donc, les ensembles de données sont regroupés par groupes, plus connus sous le terme anglophone « clusters », selon la fonction de similarité utilisée.
Typiquement, la fonction de similarité est une fonction de distance définie sur un espace de M+l dimensions, où M est le nombre de métadonnées (M+l correspondant donc au cardinal d’un ensemble de données reçu avec M métadonnées et une donnée fondamentale). Par exemple, si les données sont des données numériques, la fonction de similarité peut être une distance euclidienne. Si les données sont des caractères, typiquement des lettres, la fonction de similarité peut être une distance de Levenshtein. Bien entendu, lorsque certaines données d’un ensemble de données sont numériques tandis que d’autres sont des lettres, la fonction de similarité peut être une combinaison d’une distance euclidienne et d’une distance de Levenshtein. On peut alors définir un seuil de sorte que, lorsque la distance entre deux ensembles de données est inférieure ou égale à ce seuil, alors les deux ensembles de données sont regroupés ensemble, faisant ainsi partie du même cluster.
En référence à nouveau à l’exemple illustré en [Fig. 1], le premier ensemble de données DAT1 et le deuxième ensemble de données DAT2 sont regroupés dans un même groupe ou « cluster » Ci. Le troisième ensemble de données DAT3 est quant à lui placé dans un groupe C2. Les premier, deuxième et troisième ensembles de données DAT1, DAT2, DAT3 ont été regroupés en fonction de leurs données traitées respectives Di’, D2’, D3‘.
Comme expliqué précédemment, la génération de la donnée traitée est optionnelle. Ainsi, lorsqu’ aucune donnée traitée n’a été générée, le regroupement des ensembles de données est mis en œuvre en fonction des données fondamentales respectives des ensembles de données.
Lors d’une étape S4, l’unité de traitement UNT enrichit chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient l’ensemble de données considéré. En d’autre terme, un ensemble de donnée reçoit, à l’issue du regroupement, une donnée supplémentaire caractérisant le groupe au sein duquel a été classé l’ensemble de données en question. On peut considérer que cette donnée supplémentaire, aussi appelée label ou étiquette, est agrégée ou adjointe à l’ensemble de données.
En référence à nouveau à l’exemple illustré en [Fig. 1], les premier et deuxième ensembles de données DAT1, DAT2 ont été classés dans le même groupe ou « cluster » Ci. Ces deux ensembles de données DAT1, DAT2 sont donc enrichis par la même donnée supplémentaire référencée label(Ci). De même, le troisième ensemble de données DAT3 ayant été classé dans le groupe ou « cluster » C2, celui-ci est enrichi par la donnée supplémentaire label(C2).
Lors d’une étape S5, l’unité de traitement UNT cherche, pour chaque ensemble de données enrichi, dans au moins une base de données stockant des ensembles de données comprenant chacun des métadonnées et un label, une combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi considéré.
Dans le cas d’illustration développé ici, par exemple, le premier ensemble DAT1 enrichi comprend la donnée fondamentale Di, des métadonnées MDi1, ..., MDim, un label label(Ci) et, optionnellement, la donnée traitée Di’. La recherche effectuée par l’unité de traitement UNT dans au moins une des bases de données DB1, DB2 vise donc à déterminer si la combinaison d’une partie au moins des métadonnées MDi1, ..., MDim et du label label(Ci) est présent dans un ensemble de données parmi les ensembles de données stocké dans la base de données DB1, DB2. Avantageusement, une telle recherche est réalisée dans toutes les bases de données, donc ici la base de données DB 1 et la base de données DB2.
Dans la suite de la description, on parlera d’un « ensemble de données correspondant » pour désigner un ensemble de données stocké dans une base de données et comprenant la combinaison cherchée. On dit ainsi que cet ensemble de données est un ensemble de données correspondant de l’ensemble de données enrichi dont est issue la combinaison cherchée.
En référence à nouveau au procédé illustré en [Fig. 2], il y a alors deux possibilités pour un ensemble de données enrichi :
- soit une telle combinaison de métadonnées et de label est bien présente dans au moins une base de données ;
- soit une telle combinaison est absente.
Avantageusement, dans un ou plusieurs modes de réalisation, chaque métadonnée d’un ensemble de données enrichi est associée à un poids. Ce poids permet de caractériser l’importance d’une métadonnée au sein d’un ensemble de données. La combinaison d’une partie au moins des métadonnées et du label est alors considérée comme présente dans une base de données si et seulement si une valeur d’une fonction de présence, calculée en fonction des poids respectifs des métadonnées de la combinaison présente dans la base de données en question, est supérieure ou égale un seuil prédéterminé.
En d’autres termes, dans ce mode de réalisation spécifique, on applique un critère supplémentaire pour déterminer si un ensemble de données stocké dans une base de données peut être considéré comme un « ensemble de données correspondant ». Ce critère consiste à vérifier si un ensemble de données correspondant potentiel est suffisamment significatif, selon les métadonnées qu’il contient et partage en commun avec un ensemble de données enrichi. Bien entendu, la nécessité que le label de cet ensemble de données correspondant potentiel soit le même que l’ensemble de données enrichi considéré subsiste dans ce mode de réalisation spécifique.
On considère à titre d’exemple le premier ensemble de données enrichi DAT1*. On suppose que les métadonnées MDi1, ..., MDim sont toutes respectivement associées à un poids Pi1, ..., Pim. On suppose par ailleurs que, dans la base de données DB1, un ensemble de données comprend les métadonnées MDi1, ..., MDik et le label label(Ci), où k est un entier naturel strictement inférieur à m. En d’autres termes, cet ensemble de données trouvé dans la base de données DB1 comprend bien une partie au moins des métadonnées du premier ensemble de données enrichi DAT1* ainsi que le label label(Ci). Il s’agit donc un ensemble de données correspondant potentiel.
Néanmoins, dans ce mode de réalisation, on applique en plus, pour déterminer si cet ensemble de données correspondant potentiel est pertinent, le critère explicité précédemment en calculant la valeur Vi prise par la fonction de présence, notée G ci-après, pour les métadonnées du premier ensemble de données enrichi DAT1*, et plus exactement pour les poids respectivement associés à ces métadonnées. En d’autres termes :
Vf = G(Pi\ ..., Pik)
Cette valeur Vi est ensuite comparée avec un seuil prédéterminé et, si cette valeur est supérieure ou égale au seuil prédéterminé, alors l’ensemble de données trouvé dans la base de données DB1 est pertinent et est retenu comme un ensemble de données correspondant.
Par exemple, la fonction de présence G est une addition ou une multiplication.
Toujours à titre d’exemple, on suppose par ailleurs que, au sein de la base de données DB2, une autre combinaison d’une partie au moins des métadonnées et du label du premier ensemble de données enrichi DAT1* est trouvée dans un ensemble de données, donc potentiellement un ensemble de données correspondant. Les métadonnées communes à cet ensemble de données et au premier ensemble de données enrichi DAT1* peuvent bien entendu être différentes de celles trouvées dans la base de données DB1. Par exemple, Pensemble de données trouvé dans la base de données DB2 comprend les métadonnées MD , MDim, où j est un entier naturel inférieur à m, et le label label(Ci).
De même que pour l’exemple précédent, l’unité de traitement UNT calcule alors la valeur V2 prise par la fonction G prise pour cette combinaison trouvée. En d’ autres termes :
V2 = G(P1 j, ..., P1 k)
Cette valeur V2 est ensuite comparée avec le seuil prédéterminé et, si cette valeur est supérieure ou égale au seuil prédéterminé, alors l’ensemble de données trouvé dans la base de données DB2 est pertinent et est retenu comme un ensemble de données correspondant.
Par exemple, l’ensemble de données trouvé dans la base de données DB1 est retenu selon ce critère tandis que celui trouvé dans la base de données DB2 ne l’est pas.
Dans la suite de la description du procédé, il est compris que, dans ce mode de réalisation, un ensemble de données correspondant est non seulement un ensemble de données stocké dans une base de données comprenant la combinaison d’une partie au moins des métadonnées et du label d’une ensemble de données enrichi mais aussi un ensemble de données vérifiant le critère décrit précédemment concernant les poids respectifs des métadonnées qu’il partage avec l’ensemble de données enrichi sur la base duquel la recherche est effectuée par l’unité de traitement UNT.
Lors d’une étape S6, mise en œuvre notamment dans le cas où une combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est absent de l’au moins une base de données, le label précédemment attribué est retiré de l’ensemble de données enrichi. En d’autres termes, puisqu’il n’y a trace dans aucune base de données d’une combinaison d’une partie au moins des métadonnées et du label, il est considéré que c’est par erreur que celui-ci a été attribué lors du regroupement de l’étape S3 à l’ensemble de données considéré. Celui-ci précédemment enrichi se voit donc retirer la donnée supplémentaire ou label qui lui a été agrégée ou adjointe.
En référence à nouveau au cas illustré en [Fig. 1], on considère par exemple le deuxième groupe de données DAT2. A l’issue de l’étape S4, celui-ci a été enrichi par la donnée supplémentaire label(Ci). L’unité de traitement UNT a donc ensuite cherché, au cours de l’étape S5, dans au moins une des bases de données DB 1 , DB2 si un ensemble de données stocké dans une de ces bases de données DB 1 , DB2, comprend à la fois une partie au moins des métadonnées Ml)2' , ..., MD2" et la donnée supplémentaire label(Ci). Si aucun ensemble de données stocké dans les bases de données DB1, DB2 ne comprend une telle combinaison, le label label(Ci) est donc retiré du deuxième ensemble de données enrichi DAT2*. Celui-ci ne comprend plus alors, à l’issue de cette étape S5, que la donnée fondamentale D2, les métadonnées MD2\ ..., MD2" et, éventuellement, la donnée traitée D2’. Alternativement, en référence à la [Fig. 2], si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est bien présent dans au moins une base de données, il est déterminé si cette combinaison a été déterminée dans une seule base de données ou dans plusieurs bases de données. Bien entendu, dans un mode de réalisation dans laquelle une seule base de données est intégrée au système SYS et est accessible à l’unité de traitement UNT, un ensemble de données correspondant à la combinaison d’une partie au moins des métadonnées et de label recherché ne peut être trouvé que dans cette base de données seule.
Néanmoins, dans le cas illustré par exemple en [Fig. 1], une telle recherche peut être réalisée sur une pluralité de bases de données, ici deux bases de données DB1, DB2 et un ensemble de données correspondant peut être trouvé dans plusieurs bases de données différentes. Par exemple, concernant le troisième ensemble de données enrichi DAT3*, l’unité de traitement UNT a cherché dans la base de données DB1 mais aussi dans la base de données DB2 un ensemble de données comprenant la combinaison d’une partie au moins des métadonnées MD3 1, ... MD3 P et du label label(C2). Il est tout à fait possible qu’un ensemble de données correspondant ait été trouvé dans la base de données DB1, tandis qu’un autre ensemble de données correspondant a été trouvé dans la base de données DB2. En d’autres termes, l’unité de traitement UNT a trouvé un ensemble de données stocké dans la base de données DB1 comprenant la combinaison d’une partie au moins des métadonnées et du label du troisième ensemble de données enrichi DAT3* mais a aussi trouvé un ensemble de données stocké dans la base de données DB2 comprenant cette même combinaison de métadonnées et du label.
Dans un tel cas, lors d’une étape S7, l’unité de traitement UNT applique un critère prédéfini pour déterminé si le résultat de cette recherche qui a abouti à trouver un ensemble de données correspondant dans plus d’une base de données du système SYS permet de conclure à la pertinence du label attribué ou non.
Lors de cette étape S7, on distingue deux modes de réalisation :
Dans un premier mode de réalisation, chaque base de données est caractérisée par un coefficient de fiabilité. De plus, chaque ensemble de données stocké dans une base de données comprend en outre une donnée fondamentale.
On compare alors la donnée traitée de l’ensemble de données considéré et la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisé par le plus grand coefficient de fiabilité.
Comme expliqué précédemment, on est ici dans le cas particulier où, pour chaque ensemble de données, une donnée traitée a été générée lors de l’étape optionnelle S2 et remplace la donnée fondamentale pour la mise en œuvre du procédé. II est donc bien clair ici que, si la donnée traitée n’a pas été générée, on compare, lors de cette étape S7, la donnée fondamentale de l’ensemble de données considéré et la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisé par le plus grand coefficient de fiabilité.
Par exemple, en référence toujours à la [Fig. 1], dans lequel le système SYS comprend deux bases de données DB1, DB2. Puisqu’il y a plusieurs bases de données, chacune se voit attribuer un coefficient de fiabilité permettant de quantifier sa pertinence ou sa fiabilité. Avantageusement, les coefficients de fiabilité respectifs de deux bases de données distinctes sont distincts. Ainsi, la base de données DB1 est caractérisée par un coefficient de fiabilité CFI tandis que la base de données DB2 est caractérisée par un coefficient de fiabilité CF2. On considère en outre que la base de données DB 1 étant plus fiable que la base de données DB2, on a : CF1>CF2.
On suppose ensuite que la combinaison d’une partie au moins des métadonnées MDi1, ..., MDim et de la donnée supplémentaire label(Ci) du premier ensemble de données enrichi DAT1* a été trouvée dans un ensemble de données correspondant stocké dans la base de données DB 1 mais aussi dans un autre ensemble de données correspondant stocké dans la base de données DB2. Ces deux ensembles correspondants comprennent donc chacun une donnée fondamentale. Ces données fondamentales respectives peuvent être similaires ou différentes.
Etant donné que, parmi les bases de données stockant un ensemble de données correspondant, la base de données dont le coefficient de fiabilité est le plus élevé est la base de données DB 1 caractérisée par le coefficient de fiabilité CFI. Au cours de cette étape S7, dans ce premier mode de réalisation, la donnée traitée Di’ du premier ensemble de données enrichi DAT1* est donc comparée à la donnée fondamentale de l’ensemble de données correspondant trouvé dans la base de données DB1.
En référence au procédé d’enrichissement de données illustré en [Fig. 2], si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, le label de l’ensemble de données enrichi est retiré lors de l’étape S6 alors mise en œuvre par l’unité de traitement UNT si la donnée traitée de l’ensemble de données enrichi est distincte de la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisée par le plus grand coefficient de fiabilité.
Dans un deuxième mode de réalisation, chaque base de données est là encore caractérisée par un coefficient de fiabilité. De plus, chaque ensemble de données stocké dans une base de données comprend en outre une donnée fondamentale.
Cette fois-ci, dans ce mode de réalisation alternatif, on ne considère pas seulement la base de données ayant le coefficient de fiabilité le plus élevé parmi toutes les bases de données comprenant un ensemble de données correspondant à la combinaison cherchée. Dans ce mode de réalisation particulier, l’unité de traitement UNT prend en compte toutes les bases de données comprenant un ensemble de données correspondant.
Chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant la donnée fondamentale considérée.
Pour illustrer ce mode de réalisation, on fait référence à nouveau à l’exemple illustré en [Fig. 1]. On suppose en outre qu’une troisième base de données (non représentée ici) est comprise dans le système SYS et fait l’objet d’une recherche par l’unité de traitement UNT en plus des bases de données DB1, DB2. On suppose enfin que cette troisième base de données est caractérisée par un coefficient de fiabilité CF3. On suppose également pour ce mode de réalisation que la base de données DB1 est caractérisée par un coefficient de fiabilité CFI tandis que la base de données DB2 est caractérisée par un coefficient de fiabilité CF2. Avantageusement là aussi, les coefficients de fiabilité respectifs de deux bases de données distinctes sont distincts.
On suppose ensuite que la combinaison d’une partie au moins des métadonnées MD31, ..., MD3 P et de la donnée supplémentaire label(C2) du troisième ensemble de données enrichi DAT3* a été trouvée dans un ensemble de données correspondant stocké dans la base de données DB 1 mais aussi dans un ensemble de données correspondant stocké dans la base de données DB2 et dans un ensemble de données correspondant stocké dans la troisième base de données. Ces trois ensembles correspondants comprennent donc chacun une donnée fondamentale. Ces données fondamentales respectives peuvent être similaires ou différentes.
On suppose à titre d’exemple que l’ensemble de données correspondant stocké dans la base de données DB 1 et l’ensemble de données correspondant stocké dans la base de données DB2 comprennent la même donnée fondamentale, notée ci-après DFi 2. En revanche, l’ensemble de données correspondant stocké dans la troisième base de données comprend une donnée fondamentale, notée ci- après DF3, différente. L’unité de traitement UNT détermine alors un facteur de vraisemblance FV(DFI 2) associé à la donnée fondamentale DFi 2. Ce facteur de vraisemblance FV(DFI 2) est calculé en fonction des coefficients de fiabilité de la base de données DB1 et de la base de données DB2, à savoir CFI et CF2. De même, l’unité de traitement UNT détermine un facteur de vraisemblance FV(DF3) associé à la donnée fondamentale DF3. Ce facteur de vraisemblance FV(DF3) est calculé en fonction du coefficient de fiabilité de la troisième base de données, à savoir CF3.
Par exemple, un facteur de vraisemblance est déterminé par addition des coefficients de fiabilité. On a alors :
FV(DFU) = CF1+CF2 FV(DF3) = CF3
Une autre possibilité peut également être de calculer la moyenne des coefficients de fiabilité pour calculer le facteur de vraisemblance. On a alors :
FV(DF ) = (CFl+CF2)/2
FV(DF3) = CF3
L’homme du métier comprend ici que plusieurs calculs sont possibles pour déterminer le facteur de vraisemblance d’une donnée fondamentale en fonction des coefficients de fiabilité.
On compare alors dans l’exemple développé ici la donnée traitée D3’ du troisième ensemble de données enrichi DAT3* avec la donnée fondamentale associée au facteur de vraisemblance le plus élevé.
Comme expliqué précédemment, on est ici dans le cas particulier où, pour chaque ensemble de données, une donnée traitée a été générée lors de l’étape optionnelle S2 et remplace la donnée fondamentale pour la mise en œuvre du procédé. Il est donc bien clair ici que, si la donnée traitée n’a pas été générée, on compare, lors de cette étape S7, la donnée fondamentale de l’ensemble de données considéré et la donnée fondamentale associée au facteur de vraisemblance le plus élevé.
En référence au procédé d’enrichissement de données illustré en [Fig. 2], si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant la donnée fondamentale considérée, et le label de l’ensemble de données enrichi est retiré lors de l’étape S6 alors mise en œuvre par l’unité de traitement UNT si la donnée traitée de l’ensemble de données enrichi est distincte de la donnée fondamentale associée au facteur de vraisemblance le plus élevé.
L’étape S6, comme précisé précédemment, est mise en œuvre pour un ensemble de données enrichi soit à la suite de l’étape S5 s’il s’avère que la combinaison d’une partie au moins des métadonnées et du label de cet ensemble de données enrichi n’est présente dans aucune base de données, soit à la suite de l’étape S7 si cette combinaison a été trouvée dans plusieurs bases de données et qu’il s’avère que le label attribué est erroné. Lors de cette étape S6, donc, le label de l’ensemble de données enrichi est retiré. Ensuite, comme illustré en [Fig. 2], on détermine si le compteur i caractérisant le nombre d’itérations du procédé est inférieure ou égale à un nombre maximal d’itérations prédéterminé N. Si ce nombre maximal d’itérations n’a pas encore été atteint, le compteur est incrémenté. Avantageusement, lorsque le compteur est incrémenté, une nouvelle fonction de similarité, par exemple stockée dans la mémoire MEM de l’unité de traitement UNT, est sélectionnée. Les étapes S3 et suivantes sont alors répétées pour les ensembles de données dont le label a été retiré avec la nouvelle fonction de similarité, de sorte qu’un ensemble de donné ne peut être enrichi par un label déjà agrégé puis retiré précédemment.
Comme expliqué précédemment, une fonction de similarité permet de calculer une distance entre deux ensembles de données de sorte que deux ensembles de données sont regroupés dans un même groupe ou cluster lorsque la distance entre ces deux ensembles de données est inférieure ou égale à un certain seuil. Aussi, lorsqu’une nouvelle fonction de similarité est sélectionnée il est également possible de modifier ce seuil, par exemple en l’augmentant. Par ailleurs, il est également possible de conserver la même fonction de similarité et de seulement changer le seuil.
En revanche, si le nombre maximal d’itérations prédéterminé N du procédé a été atteint, l’unité de traitement UNT interrompt la boucle et passe à l’étape S8 quand bien même certains ensembles de données se retrouvent sans label attribué.
L’étape S8 est mise en œuvre à l’issue de l’étape S7 s’il est déterminé que le label attribué à un ensemble de données lors de l’enrichissement de celui-ci est correct au vu de la recherche réalisée sur T au moins une base de données, il est alors considéré que cet ensemble de données a été correctement enrichi.
L’étape S8 peut également être mise en œuvre si le nombre maximal d’itérations prédéterminé N du procédé a été atteint.
Par ailleurs, en référence à la [Fig. 2], l’étape S8 peut également être mise en œuvre dans le cas où, pour un ensemble de données enrichi, la combinaison d’une partie au moins des métadonnées et du label de cet ensemble de données enrichi n’a été trouvée que dans une seule base de données à l’issue de l’étape S5. Dans un tel cas, lors de l’étape S8 alors mise en œuvre par l’unité de traitement UNT du système SYS, la donnée fondamentale de l’ensemble de données enrichi est remplacée si nécessaire par la donnée fondamentale de l’ensemble de donnée correspondant. Par « nécessaire », on entend ici que la donnée fondamentale de l’ensemble de données correspondant est distincte de l’ensemble de données enrichi. D’ailleurs, cette donnée fondamentale présente dans l’ensemble de données correspondant peut correspondre à la donnée traitée.
On comprend ici l’ensemble de données enrichi en sortie du système comprend au moins soit la donnée fondamentale d’origine, soit la donnée traitée soit la donnée fondamentale trouvée dans l’ensemble de données correspondant. En référence à la [Fig. 1], on suppose par exemple que la combinaison d’une partie au moins des métadonnées MD2\ MD2" et du label label(Ci) issues du deuxième ensemble de données enrichi DAT2* a été trouvée uniquement dans une base de données, par exemple la base de données DB1, donc dans un seul ensemble de données correspondant lors de l’étape S5. Lors de l’étape S8 immédiatement en œuvre par la suite, l’unité de traitement UNT compare alors la donnée fondamentale D2 du deuxième ensemble de données enrichi DAT2* est comparée avec la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données DB1. Si la donnée fondamentale de l’ensemble de données correspondant est distincte de la donnée fondamentale du deuxième ensemble de données enrichi, cette dernière est alors remplacée dans le deuxième ensemble de données enrichi par la donnée fondamentale de l’ensemble de données correspondant.
A l’issue de l’étape S8, donc, chaque ensemble de données a bénéficié au plus de N itérations des étapes S3 et suivantes pour se voir attribuer un label cohérent au vu de la recherche effectuée sur un ou plusieurs bases de données du système SYS. Certains ensembles de données sont, à l’issue de cette étape, toujours enrichis d’une donnée supplémentaire ou label tandis que d’autres ensembles de données peuvent rester sans label.
Par ailleurs, concernant les ensembles de données enrichis qui, à l’issue de l’étape S8, ont conservé leur label du fait du résultat positif de la recherche dans la ou les bases de données DB1, DB2, soit parce que la combinaison d’une partie au moins des métadonnées et du label se retrouvait dans une seule et unique base de données soit parce que cette combinaison se retrouvait dans plusieurs bases de données et que le label apparaissait finalement correct au vu de la recherche, de tels ensembles enrichis peuvent également être complétés par de nouvelles métadonnées issues des bases de données.
En effet, comme expliqué précédemment, le test consiste à déterminer si, pour un ensemble de données, la combinaison d’une partie au moins des métadonnées et du label généré sont comprises dans au moins un ensemble de données, dit ensemble de données correspondant, d’au moins une base de données. Mais de tels ensembles correspondants peuvent bien évidemment comprendre d’autres données en plus de la combinaison cherchée. Ces métadonnées supplémentaires peuvent alors être récupérées par l’unité de traitement UNT pour compléter avantageusement les ensembles de données enrichis.
Dans l’exemple illustré en [Fig. 1], les ensembles de données enrichis DAT1*, DAT2*, DAT3* ne comprennent pas de métadonnées supplémentaires par rapport aux ensembles de données DAT1, DAT2, DAT3 reçus par le système. Néanmoins, l’homme du métier comprend ici que les données enrichis peuvent comprendre des métadonnées supplémentaires issues des bases de données DB1, DB2. Toujours au cours de l’étape S8, avantageusement, les ensembles de données enrichis peuvent être à nouveau enrichis de manière à conserver, par souci de traçabilité, un historique de l’enrichissement des données et de la recherche au sein des bases de données. Par exemple, un ensemble de données enrichi peut être complété par une donnée représentative de la fonction de similarité utilisée pour mettre en œuvre le regroupement à l’étape S2.
Toujours avantageusement, un ensemble de données enrichi peut être également ou alternativement complété par une donnée représentative de la base de données au sein de laquelle l’ensemble correspondant le plus pertinent a été trouvé. Bien entendu, dans les cas plus complexes explicités précédemment dans lesquels la combinaison d’une partie au moins des métadonnées et du label d’un ensemble enrichi a été retrouvée dans plusieurs bases de données, les données ajoutées à l’ensemble de données enrichi au cours de l’étape S8 peuvent être représentatives d’une partie au moins des bases de données au sein desquelles sont stockés ces ensembles de données correspondants.
Ainsi, un ensemble de données enrichi en sortie du système SYS peut comporter, outre le label et éventuellement la donnée traitée avec ou à la place de la donnée fondamentale d’origine, des données permettant de caractériser les différentes étapes du procédé ayant conduit à la génération et à la vérification des ensembles de données enrichi. Cet enrichissement supplémentaire d’un ensemble de données comprend typiquement une donnée représentative de la fonction de similarité utilisée et/ou une ou plusieurs données représentatives des bases de données au sein desquelles des ensembles correspondants sont stockés.
En d’autres termes, si, après la recherche dans la ou les bases de données, un ensemble de données enrichi conserve son label, l’ensemble de données enrichi en question est à nouveau enrichi par des données représentatives de la fonction de similarité et/ou d’au moins une base de données au sein de laquelle la combinaison d’une partie au moins des métadonnées et du label de cet ensemble de données enrichi a été trouvée.
Lors d’une étape S9, optionnellement mise en œuvre à l’issue de l’étape S8, les métadonnées des ensembles de données enrichis sont exploitées afin de faire procéder à une vérification du label attribué. Une telle vérification peut permettre également de corriger si besoin la donnée fondamentale.
Selon un mode de réalisation, par exemple dans le domaine spécifique de la banque mobile, la donnée fondamentale est relative à un individu ou d’une entité, et les métadonnées comprennent au moins des données de contact de l’individu ou de l’entité. L’ensemble de données enrichi est transmis, à l’aide des données de contact, pour une vérification du label agrégé. Une entité peut désigner ici une entreprise, une société, un organisme ou un établissement.
Comme expliqué précédemment, de telles données de contact peuvent être déjà présentes dans l’ensemble de données reçu puis enrichi mais peuvent aussi être récupérées dans l’une des bases de données DB1, DB2 si le résultat de la recherche est satisfaisant. Typiquement, lorsque les métadonnées d’un ensemble de données enrichi à l’issue de l’étape S4 ne comprennent pas de données de contact permettant ultérieurement une transmission de l’ensemble de données enrichi pour une vérification, de telles données de contact sont cherchées dans le ou les ensembles correspondants au sein de la ou des bases de données.
En référence à la [Fig. 1], les ensembles de données enrichis sont traitées avant émission pour conserver soit la donnée fondamentale telle que reçue par le module de communication COM soit la donnée traitée, soit la donnée fondamentale récupérée dans une base de données. Par exemple, dans le premier ensemble de données enrichi DAT1*, la donnée fondamentale Di reçue est conservée seule. Dans le deuxième ensemble de données enrichi DAT2*, la donnée traitée D2’ générée est conservée seule. De même, dans le troisième ensemble de données enrichi DAT3*, la donnée traitée D3’ générée est conservée seule.
Les données de contact peuvent être par exemple une adresse postale, un numéro de téléphone et/ou une adresse électronique. Dans l’exemple décrit ici, on considère par exemple que les métadonnées du premier ensemble de données enrichi comprennent des données de contact relatives à une adresse électronique ADD1, les métadonnées du deuxième ensemble de données enrichi comprennent des données de contact relatives à un numéro de téléphone ADD2 tandis que les métadonnées du troisième ensemble de données enrichi comprennent des données de contact relatives à une adresse postale ADD3.
Concernant ces adresses, il convient de noter par ailleurs qu’un ensemble de données enrichi peut être, à des fins de vérification, transmis évidemment à l’individu ou l’entité faisant l’objet de ces données mais peut l’être également à la source de l’ensemble de données. Par exemple, en considérant à nouveau le domaine d’application de la banque mobile, la génération d’un ensemble de données puis la transmission au système SYS peuvent avoir été déclenchées par le terminal d’un utilisateur, par exemple lors d’un paiement. Plus exactement, ces données sont générées depuis un compte utilisateur de l’utilisateur sur l’application de paiement. Ces données ne concernent pas l’utilisateur en question mais le commerce, l’entreprise ou la société. Lors de l’étape S9, l’ensemble de données enrichi peut donc être transmis pour vérification bien entendu au commerce, à l’entreprise ou à la société via des données de contacts comprises dans les métadonnées, mais peuvent aussi, toujours pour vérification, être également envoyées au compte utilisateur à l’origine de la génération de l’ensemble de données tel que reçu par le système SYS et plus particulièrement par le module de communication COM.
Les ensembles de données enrichi sont alors transmis à ces adresses fournies par les données de contact, par exemple via le module de communication COM, pour qu’il soit procédé à des vérifications du label, et éventuellement de la donnée fondamentale/traitée et de l’ensemble de données enrichi transmis. En particulier, l’unité de traitement UNT est par exemple munie des technologies permettant d’envoyer automatiquement un courriel ou d’utiliser un bot d’appel permettant de téléphoner automatiquement au numéro de téléphone récupéré.
Bien entendu, si une partie au moins des données d’un ensemble de données s’avère, après vérification, erronée, ces données erronées peuvent être corrigées puis renvoyées au système SYS. Par exemple, toujours dans le cas où un ensemble de données a été généré suite au paiement réalisé par un utilisateur via une application de paiement exécutée sur un terminal, cette application lui permet également de recevoir l’ensemble de données enrichi en sortie du système et d’accéder, au moins en partie, à certaines données de l’ensemble de données enrichi à des fins de vérification. Si une donnée, par exemple la donnée fondamentale ou la donnée traitée ou une métadonnée, est erroné, l’utilisateur a la possibilité de corriger cette donnée puis d’envoyer cette correction au système SYS.
Sur réception d’un ensemble de données enrichi corrigé, le système SYS peut alors mettre en œuvre à nouveau certaines étapes du procédé décrit précédemment. Par exemple, le système SYS peut procéder à un nouveau regroupement ou clustering sur plusieurs ensembles de données enrichi corrigés ou procéder à une nouvelle recherche dans une ou plusieurs bases de données.

Claims

Revendications
1. Procédé d’enrichissement de données mis en œuvre par des moyens informatiques et comprenant : a) recevoir (SI) plusieurs ensembles de données (DAT1, DAT2, DAT3), un ensemble de données comprenant une donnée fondamentale (Di, D2, D3) et une ou plusieurs métadonnées relatives à ladite donnée fondamentale (MDi1, MDim, MD2\ MD2", MD31, MD3 P), b) grouper (S3) les ensembles de données en fonction des données fondamentales respectivement associées auxdits ensembles de données selon une fonction de similarité (F), c) enrichir (S4) chaque ensemble de données d’une donnée supplémentaire (label(Ci), label(C2), label (C3)) dite label caractérisant le groupe auquel appartient ledit ensemble de données, d) chercher (S5) pour chaque ensemble de données enrichi, dans au moins une base de données (DB 1 , DB2) stockant des ensembles de données comprenant chacun des métadonnées et un label, une combinaison d’une partie au moins des métadonnées et du label dudit ensemble de données enrichi, et e) si ladite combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est absente de l’au moins une base de données, retirer (S6) le label de l’ensemble de données enrichi.
2. Procédé selon la revendication 1 , dans lequel la donnée fondamentale est une suite de caractères, ou un signal sonore ou une image numérique.
3. Procédé selon la revendication 1 ou 2, comprenant en outre, suite à la réception des ensembles de données: générer (S2) pour chaque ensemble de données, par application d’un traitement de diminution d’un niveau de bruit à la donnée fondamentale, une donnée traitée (Di’, D2’, D3’) associée audit ensemble de données,
le regroupement des ensembles de données étant mis en œuvre en fonction des données traitées respectivement associées auxdits ensembles de données.
4. Procédé selon la revendication 3, dans lequel la donnée fondamentale est une suite de caractères et la donnée traitée est générée par suppression de ladite suite de caractères d’un ou plusieurs caractères d’une liste de caractères prédéterminés.
5. Procédé selon l’une des revendications précédentes, dans lequel le regroupement des ensembles de données utilise un algorithme d’apprentissage non supervisé.
6. Procédé selon l’une des revendications précédentes, dans lequel chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale et, si la combinaison d’une partie au moins des métadonnées et du label d’un ensemble de données enrichi est présente dans l’au moins une base de données dans un ensemble de données correspondant, la donnée fondamentale de l’ensemble de données enrichi est remplacée si nécessaire par la donnée fondamentale de l’ensemble de donnée correspondant.
7. Procédé selon l’une des revendications précédentes, dans lequel chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale, dans lequel la recherche est effectuée sur une pluralité de bases de données, chaque base de données étant caractérisé par un coefficient de fiabilité, et, si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, le label de l’ensemble de données enrichi est retiré si la donnée fondamentale dudit ensemble de données enrichi est distincte de la donnée fondamentale de l’ensemble de données correspondant stocké dans la base de données caractérisée par le plus grand coefficient de fiabilité.
8. Procédé selon l’une des revendications 1 à 6, dans lequel chaque ensemble de données stocké dans l’au moins une base de données comprend en outre une donnée fondamentale, dans lequel la recherche est effectuée sur une pluralité de bases de données, chaque base de données étant caractérisé par un coefficient de fiabilité, et, si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est présente dans des ensembles de données correspondants respectivement stockés dans des bases de données distinctes de la pluralité de bases de données, chaque donnée fondamentale présente dans au moins un des ensembles de données correspondants est associée à un facteur de vraisemblance déterminé en fonction du coefficient de fiabilité de chaque base de données stockant un ensemble de données correspondant comprenant ladite donnée fondamentale, et le label de l’ensemble de données enrichi est retiré si la donnée fondamentale dudit ensemble de données enrichi est distincte de la donnée fondamentale associée au facteur de vraisemblance le plus élevé.
9. Procédé selon l'une des revendications précédentes, chaque métadonnées d’un ensemble de données enrichi étant associé à un poids, dans lequel la combinaison d’une partie au moins des métadonnées et du label est présente dans une base de données si et seulement si une valeur d’une fonction de présence (G), calculée en fonction des poids respectifs des métadonnées de ladite combinaison présente dans ladite base de données, est supérieure ou égale un seuil prédéterminé.
10. Procédé selon l’une des revendications précédentes, dans lequel si, après la recherche dans l’au moins une base de données, un ensemble de données enrichi conserve son label, ledit ensemble de données enrichi est à nouveau enrichi par des données représentatives de la fonction de similarité et/ou d’au moins une base de données au sein de laquelle la combinaison d’une partie au moins des métadonnées et du label dudit ensemble de données enrichi a été trouvée.
11. Procédé selon l’une des revendications précédentes, dans lequel les étapes b) à e) sont répétées pour les ensembles de données dont le label a été retiré avec une nouvelle fonction de similarité, de sorte qu’un ensemble de donné ne peut être enrichi par un label déjà agrégé puis retiré précédemment.
12. Procédé selon la revendication 10, dans lequel la répétition des étapes b) à e) est limitée à un nombre d’itérations maximal prédéterminé.
13. Procédé selon l’une des revendications précédentes, dans lequel la donnée fondamentale est relative à un individu ou d’une entité, et les métadonnées comprennent au moins des données de contact dudit individu ou de ladite entité, et dans lequel l’ensemble de données enrichi est transmis (S9), à l’aide des données de contact, à destination dudit individu ou de ladite entité pour une vérification du label agrégé.
14. Procédé selon la revendication 13, dans lequel les données de contact sont une adresse postale (ADD3), un numéro de téléphone (ADD2), une adresse électronique (ADD1) et/ou une adresse d’un compte utilisateur d’une application.
15. Programme informatique comprenant des instructions pour la mise en œuvre du procédé selon l’une des revendications précédentes, lorsque lesdites instructions sont exécutées par au moins un processeur (PROC).
16. Système (SYS) d’enrichissement de données comprenant :
- un module de communication (COM) agencé pour recevoir plusieurs ensembles de données, un ensemble de données comprenant une donnée fondamentale et une ou plusieurs métadonnées relatives à ladite donnée fondamentale, - une unité de traitement (UNT) agencée pour : grouper les ensembles de données en fonction des données fondamentales respectivement associées auxdits ensembles de données selon une fonction de similarité, enrichir chaque ensemble de données d’une donnée supplémentaire dite label caractérisant le groupe auquel appartient ledit ensemble de données, et
- au moins une base de données (DB1, DB2) configurée pour stocker des ensembles de données comprenant chacun des métadonnées et un label, l’unité de traitement étant agencée en outre pour : chercher pour chaque ensemble de données enrichi, dans l’au moins une base de données, une combinaison d’une partie au moins des métadonnées et du label dudit ensemble de données enrichi, et si la combinaison d’une partie au moins des métadonnées et du label de l’ensemble de données enrichi est absente de l’au moins une base de données, retirer le label de l’ensemble de données enrichi.
EP20731903.9A 2019-03-29 2020-03-20 Systeme et procede d'enrichissement de donnees Pending EP3948579A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1903406A FR3094508A1 (fr) 2019-03-29 2019-03-29 Système et procédé d’enrichissement de données
PCT/FR2020/050609 WO2020201662A1 (fr) 2019-03-29 2020-03-20 Systeme et procede d'enrichissement de donnees

Publications (1)

Publication Number Publication Date
EP3948579A1 true EP3948579A1 (fr) 2022-02-09

Family

ID=67956931

Family Applications (1)

Application Number Title Priority Date Filing Date
EP20731903.9A Pending EP3948579A1 (fr) 2019-03-29 2020-03-20 Systeme et procede d'enrichissement de donnees

Country Status (5)

Country Link
US (1) US20220171749A1 (fr)
EP (1) EP3948579A1 (fr)
CN (1) CN113826091A (fr)
FR (1) FR3094508A1 (fr)
WO (1) WO2020201662A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11841891B2 (en) * 2022-04-29 2023-12-12 Content Square SAS Mapping webpages to page groups
CN114817229B (zh) * 2022-06-21 2022-09-20 布比(北京)网络技术有限公司 基于区块链的清分数据处理的方法和区块链系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPR033800A0 (en) * 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
GB2395807A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
US8504456B2 (en) * 2009-12-01 2013-08-06 Bank Of America Corporation Behavioral baseline scoring and risk scoring
US8983954B2 (en) * 2012-04-10 2015-03-17 Microsoft Technology Licensing, Llc Finding data in connected corpuses using examples
US9218546B2 (en) * 2012-06-01 2015-12-22 Google Inc. Choosing image labels
US20140006275A1 (en) * 2012-06-28 2014-01-02 Bank Of America Corporation Electronic identification and notification of banking record discrepancies
CA2892891C (fr) * 2014-05-27 2022-09-06 The Toronto-Dominion Bank Systemes et methodes d'alertes de fraude transmises aux marchands
US9740979B2 (en) * 2015-12-06 2017-08-22 Xeeva, Inc. Model stacks for automatically classifying data records imported from big data and/or other sources, associated systems, and/or methods
CN107133226B (zh) * 2016-02-26 2021-12-07 阿里巴巴集团控股有限公司 一种区分主题的方法及装置
US20180011919A1 (en) * 2016-07-05 2018-01-11 Kira Inc. Systems and method for clustering electronic documents
US20220035862A1 (en) * 2018-12-19 2022-02-03 jSonar Inc. Context enriched data for machine learning model
US11625723B2 (en) * 2020-05-28 2023-04-11 Paypal, Inc. Risk assessment through device data using machine learning-based network

Also Published As

Publication number Publication date
FR3094508A1 (fr) 2020-10-02
US20220171749A1 (en) 2022-06-02
WO2020201662A1 (fr) 2020-10-08
CN113826091A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
EP3443678B1 (fr) Methode de décodage d'un code polaire avec inversion de bits peu fiables
CN108959370B (zh) 一种基于知识图谱中实体相似度的社区发现方法及装置
US10073876B2 (en) Bloom filter index for device discovery
EP0995272B1 (fr) Decodage iteratif de codes produits
EP3948579A1 (fr) Systeme et procede d'enrichissement de donnees
US20190065518A1 (en) Context aware delta algorithm for genomic files
US11366641B2 (en) Generating microservices for monolithic system using a design diagram
EP3671578A1 (fr) Procédé d'analyse d'une simulation de l'exécution d'un circuit quantique
FR3009462B1 (fr) Procede ameliore de decodage d'un code correcteur avec passage de message, en particulier pour le decodage de codes ldpc ou codes turbo
EP3806548A1 (fr) Procédé d'optimisation de la quantité de ressources réseau et du nombre de services susceptibles d'utiliser lesdites ressources
WO2018067388A1 (fr) Réparation de données par connaissance de domaine
US11789810B2 (en) Method and system for detecting data corruption
EP3970025A1 (fr) Gestion de données d'événement réseau dans un réseau de télécommunications
US8788500B2 (en) Electronic mail duplicate detection
CN114661793A (zh) 模糊查询方法、装置、电子设备及存储介质
FR2871631A1 (fr) Procede de decodage iteractif de codes blocs et dispositif decodeur correspondant
FR2884661A1 (fr) Procede et dispositif de decodage d'un code a longueur variable prenant en compte une information de probabilite a priori
EP3671577A1 (fr) Procédé d'analyse d'une simulation de l'exécution d'un circuit quantique
EP3869368A1 (fr) Procede et dispositif de detection d'anomalie
WO2018104557A1 (fr) Procédé d'émission d'un message, procédé de réception, dispositif d'émission, dispositif de réception et système de communication associés
CN117093880B (zh) 一种基于医疗集成平台的单点登录用户管理方法及系统
FR3047580B1 (fr) Index de table de base de donnees
US20210303797A1 (en) Semantic correction of messages
US20230315883A1 (en) Method to privately determine data intersection
EP4117222A1 (fr) Procédés de comparaison de bases de données biométriques confidentielles

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20210915

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20230818

RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE