EP4226268A1 - Method for evaluating the risk of re-identification of anonymized data - Google Patents

Method for evaluating the risk of re-identification of anonymized data

Info

Publication number
EP4226268A1
EP4226268A1 EP21810398.4A EP21810398A EP4226268A1 EP 4226268 A1 EP4226268 A1 EP 4226268A1 EP 21810398 A EP21810398 A EP 21810398A EP 4226268 A1 EP4226268 A1 EP 4226268A1
Authority
EP
European Patent Office
Prior art keywords
individuals
original
anonymous
individual
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP21810398.4A
Other languages
German (de)
French (fr)
Inventor
Morgan GUILLAUDEUX
Olivier BREILLACQ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Sante
Original Assignee
Big Data Sante
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Sante filed Critical Big Data Sante
Publication of EP4226268A1 publication Critical patent/EP4226268A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/54Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by adding security routines or objects to programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/575Secure boot
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/42Anonymization, e.g. involving pseudonyms

Definitions

  • the invention generally relates to the anonymization of sensitive data intended to be shared with third parties, for example, for research, analysis or exploitation purposes. More particularly, the invention relates to a method for evaluating the risk of re-identification of anonymized data.
  • data is a source of performance for organizations and constitutes an important asset for them.
  • Data provides crucial and valuable information for the production of quality goods and services, as well as for decision-making. They provide a competitive advantage that allows organizations to survive and stand out from the competition.
  • the sharing of data for example in the form of open data known as "open data" in English, is today perceived as offering many opportunities, in particular for the extension of knowledge and human knowledge, innovation and creation of new products and services.
  • the data may contain personal data, known as "personal data”, which is subject to regulations relating to the protection of privacy.
  • personal data is subject to regulations relating to the protection of privacy.
  • the use, storage and sharing of personal data are subject in France to the European GDPR regulation, for "General Data Protection Regulation", and to the French law known as the "IT law”. and freedoms >>.
  • Certain data, such as those relating to the state of health, private and family life, assets and others, are particularly sensitive and must be subject to special precautions.
  • Data anonymization can be defined as a process that removes the association between the identifying dataset and the data subject.
  • the process of anonymization aims to prevent the singling out of an individual within a dataset, the link between two records within the same dataset, or between two distinct datasets, when one of the records matches to individual-specific data, and inferring information from the dataset.
  • the data is presented in a form that should not allow individuals to be identified, even when combined with other data.
  • the anonymization method called "k-anonymization” is one of the most widely used methods. This method seeks to make each record of a data set indistinguishable from at least k-1 other records of this data set.
  • the so-called “L-diversity” anonymization method is an extension of the "k-anonymization” method which allows better data protection by involving in each group of k records, called “k-group", the presence of at least L sensitive attribute values.
  • the main known anonymization algorithms modify data by deleting, generalizing or replacing personal information in individual records.
  • An alteration of the informative content of the data may be the consequence of excessive anonymization.
  • it is important that anonymized data remains quality data that retains a maximum of informative content. It is on this condition that anonymized data remain useful for the extraction of knowledge through analysis and reconciliation with other data.
  • the degree of reliability of the anonymization algorithm is directly related to the risk of re-identification of anonymized data.
  • This risk includes the risk of individualization, that is to say, the possibility of isolating an individual, the risk of correlation, that is to say, the possibility of linking distinct sets of data concerning the same individual, and the risk of inference, that is, the possibility of inferring information about an individual.
  • risk of individualization that is to say, the possibility of isolating an individual
  • the risk of correlation that is to say, the possibility of linking distinct sets of data concerning the same individual
  • the risk of inference that is, the possibility of inferring information about an individual.
  • Different methods for evaluating the risk of re-identification of a set of data having undergone anonymization processing also referred to as “metrics” below, have been proposed and provide quantitative evaluations of this risk.
  • Probabilistic matching makes it possible to establish probabilities of links between records. Two records are considered linked when the probability of a link between them exceeds a certain threshold. Probabilistic matching is described by Fellegi LP. et al., Jaro MA, and Winkler WE in their respective articles "A theory of record linkage", Journal of the American Statistical Association 64, 1969, pp. 1 183-1210, "Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa, Florida", Journal of the American Statistical Association 84, 1989, pp. 414-420, and “Advanced methods for record linkage”, Proceedings of the American Statistical Association Section on Survey Research Methods, 1995, pp. 467-472. Distance-based matching is described by Pagliuca D. et al.
  • the objective of the present invention is to provide a new method for evaluating the risk of re-identification of anonymized data during a search for correspondence attack comprising a deterministic search based on external sources of information and a search based on the distance.
  • the invention relates to a data processing method implemented by computer for the evaluation of a risk of re-identification of anonymized data, the method providing a protection rate representative of the risk of re-identification in the case of a match-seeking attack comprising a deterministic search based on at least one external source of information and a distance-based match search, the method comprising the steps of E) grouping an original data set comprising a plurality of original individuals and a set of anonymized data comprising a plurality of anonymous individuals, the anonymous individuals being produced by an anonymizing process of the original individuals; F) identifying in said source data set at-risk source individuals as being source individuals having at least one remarkable, or unique, value in at least one considered variable, or at least one combination of remarkable values , or unique, in a set of considered variables, in a deterministic matching search and to which can be associated only one respective anonymous individual approaching by the deterministic matching search; G) Evaluate a re-identification failure rate for the original and anonymized datasets
  • an anonymous individual is considered to be an anonymous individual approaching an individual of origin at risk considered when 1) the anonymous individual has a variable of the same modality as a considered variable of the original individual at risk in the search for correspondence in the case where the variable is a qualitative variable, or when 2) the anonymous individual has a value for the considered variable equal to within a tolerance interval to the value of the same variable considered of the original individual at risk in the case where the variable considered in the search for deterministic correspondence is a continuous variable.
  • step G) comprises the sub-steps of a) linking the set of original data to the set of anonymized data; b) transforming the original individuals and the anonymous individuals in Euclidean space, the original individuals and anonymous individuals being represented by coordinates in Euclidean space; c) identify for each said original individual one or more closest anonymous individuals on the basis of a distance, by the so-called "k-NN” method; and d) calculating the re-identification failure rate as a percentage of cases where a closest anonymous individual identified in substep c) for a considered original individual is not a corresponding valid anonymous individual to this original individual.
  • the aforementioned distance is a Euclidean distance.
  • the transformation of sub-step b) is carried out by a factorial method and/or using an artificial neural network called an “auto-encoder”.
  • the factorial method used for the transformation of sub-step b) is a method called "Principal Component Analysis” when the individuals include variables of continuous type, a method called “Analysis of Multiple Correspondences >> when individuals include qualitative type variables or a method called “Factor Analysis of Mixed Data” when individuals include mixed “continuous/qualitative” type variables.
  • the invention also relates to a data anonymization computer system comprising a data storage device storing program instructions for implementing the method as described briefly above.
  • the invention also relates to a computer program product comprising a medium in which are recorded program instructions readable by a processor for implementing the method as described briefly above.
  • Fig.1 is a flowchart showing the major steps included in a particular embodiment of the method according to the invention.
  • Fig.2 represents an illustrative diagram of a method used in the particular embodiment of the method of the invention of Fig.1, to evaluate a re-identification failure rate of a attacking when searching for a match based on distance.
  • FIG.3 shows an example of a general architecture of a data anonymization computer system in which the method according to the invention is implemented.
  • Assessing the risk of re-identification requires comparing a set of original data made up of so-called original individuals with a set of anonymized data made up of so-called anonymous individuals.
  • Individuals are typically data records.
  • Each anonymized individual in the anonymized dataset represents an anonymized version of a corresponding original individual.
  • a pair formed by an original individual and a corresponding anonymous individual is referred to as an “original/anonymous pair”.
  • Re-identification risk is the risk that an attacker will successfully link an original individual to their anonymized record, i.e. the corresponding anonymous individual, thereby forming a valid original/anonymous pair.
  • the method according to the invention for the evaluation of the risk of re-identification of data provides a metric, based on an individual-centric approach, which makes it possible to quantify the risk of re-identification of personal data during a match search comprising a deterministic search based on external sources of information and a search based on distance.
  • MR3 a particular embodiment, designated MR3, of the method of the invention is now described, having an interesting applicability in the context of a straddling attack between a deterministic correspondence search based on one or more external sources of information and a match search based on distance.
  • MR3 essentially comprises ten steps S3-1 to S3-10.
  • the first step S3-1 performs data join processing and combines a set of original data EDO comprising a plurality of original individuals IO with a set of anonymized data EDA comprising a plurality of anonymized individuals IA.
  • EDA anonymized data is that provided by an anonymization process that has processed the original EDO data and corresponds to it.
  • the second step S3-2 is a step of identifying individuals of origin at risk, hereinafter designated IOr, in the EDO set considered which comprises M individuals of origin IO.
  • IOr individuals of origin at risk
  • the individuals of origin IO having at least one remarkable or unique value in at least one variable considered or at least one combination of remarkable or unique values in a set of values considered are sought. , in deterministic matching. Those individuals of IO origin having a remarkable or unique value or combination of values are those identified as being the individuals of IO origin exposed to a risk of re-identification. It is considered here that R individuals of origin at IOr risk are identified among the M individuals of IO origin considered.
  • the third step S3-3 is a step of identifying anonymous individuals close to the original individuals at risk IOr identified in step S3-2, hereinafter designated IAP.
  • close anonymous individuals IA P are sought for each of the R original individuals at risk IOr.
  • the anonymous individuals IA which are retained as being approaching anonymous individuals IA P are those having the same modalities as the original individual at risk IOr considered.
  • the anonymous individuals IA which are retained as being approaching anonymous individuals IA P are those whose variables have values equivalent to those of the variables of the individuals of origin , that is to say, equal to within a tolerance interval.
  • the tolerance interval could be predefined at plus or minus (+/-) 2.5% for example of the variance of the variable considered.
  • the fourth step S3-4 is a step of identifying, according to the results of step S3-3, the individuals potentially most exposed among the original individuals at risk IOr identified in step S3-2.
  • this step S3-4 only the individuals of IOr origin having a unique approaching anonymous individual IA P are retained as being potentially the most exposed to risks of re-identification.
  • These selected individuals of IOr origin are referred to below as lOrs. It is considered here that RS original individuals at risk have been identified.
  • the unique approaching anonymous RS individuals corresponding to the original RS individuals lOrs are designated IA prs .
  • the fifth to eighth following steps S3-5 to S3-8 implement a method, designated MR1 , making it possible to evaluate, for the sets EDO and EDA, a txP1 re-identification failure rate of an attacker during a distance-based match-seeking attack.
  • step S3-5 the original data set EDO comprising the original individuals IO is linked to the anonymized data set EDA comprising the anonymized individuals IA.
  • Step S3-6 performs transformation processing of individuals IO and IA in Euclidean space.
  • various transformation methods may be used.
  • a factorial method or an artificial neural network called “autoencoder”, or “autoencoder” in English can be used to convert the individuals IO and IA in the form of coordinates in a Euclidean space.
  • PCA Principal Component Analysis
  • ACM Multiple Correspondence Analysis
  • MCA Multiple Correspondence Analysis
  • step S3-6 a factorial method is used in step S3-6.
  • significant axes of variance are identified in the data sets by multivariate data analysis. These significant axes of variance determine the axes of Euclidean space onto which individuals IO and IA are projected.
  • the transformation of individuals IO and IA in Euclidean space makes it possible to calculate the mathematical distance between individuals, from their coordinates.
  • the method of the invention provides for a privileged use of a Euclidean distance as a mathematical distance.
  • a privileged use of a Euclidean distance as a mathematical distance.
  • various other mathematical distances such as a Manhattan distance, a Mahalanobis distance and the like, is included within the scope of the present invention.
  • step S3-7 the method of the “k nearest neighbors” called “k-NN” (from “k-Nearest Neighbors” in English) is used to identify the anonymous individuals IA closest to the individuals of origin IO, with a mathematical distance such as a Euclidean distance.
  • step S3-8 based on the distance measurement results obtained in the previous step S3-7, the re-identification failure rate txP1 of an attacker employing a match search is calculated. based on distance.
  • the re-identification failure rate txP1 is represented by the percentage of cases where an individual of IO origin and the individual anonymous closest match IA, identified in step S3-7, does not form a valid origin/anonymous pair.
  • Fig.2 The processing performed by the fifth to eighth steps S3-5 to S3-8 described above is shown in Fig.2.
  • the original 10 individuals and the anonymous IA individuals are represented by black circles and white circles, respectively, in a Euclidean space with coordinate axes A1 and A2.
  • the attacker In order to re-identify the valid origin/anonymous pair (IOi, IAi), the attacker must perform a matching of individuals and uses for this a mathematical distance between them, such as a Euclidean distance.
  • the attacker identifies the anonymous individual IAk as the closest anonymous individual to the original individual IOi, as shown schematically in Fig.2, and associates the anonymous individual IAk with the original individual Ii.
  • Fig.2 shows the case of a failed attacker who failed to identify the valid origin/anonymous pair (IOi, IAi) based on distance.
  • the re-identification failure rate txP1 is equal to 95%.
  • the ninth step S3-9 is a step of evaluating the number m of successful re-identifications by the attacker on the original individuals lOrs, from the failure rate of re-identification txP1 obtained in step S3-8 and the original individual RS number lOrs.
  • the identified valid anonymous individuals IA are the unique approaching anonymous individuals IA prs (step S3-4) of the original individuals lOrs.
  • the tenth step S3-10 calculates a protection rate, hereinafter referred to as txP3, for the considered original data set EDO.
  • the protection rate txP3 therefore corresponds to the percentage of IO individuals that have not been re-identified by the attacker in the original EDO dataset.
  • RS 4 individuals, for example, are identified as fulfilling the above condition.
  • FIG. 1 A general architecture of a data anonymization computer system SAD in which the method according to the invention for evaluating the risk of re-identification is implemented is shown by way of example in FIG.
  • the SAD system is implemented here in a local computer system DSL and comprises two software modules MAD and MET.
  • the MAD and MET software modules are hosted in data storage devices SD, such as memory and/or hard disk, of the local computer system DSL.
  • the local computer system DSL also hosts an original database BDO in which original data DO is stored and an anonymized database BDA in which anonymized data DA is stored.
  • the MAD software module implements a data anonymization process which processes the original data DO and outputs the anonymized data DA.
  • the software module MET implements the method according to the invention for the evaluation of the risk of re-identification of the data.
  • the software module MET receives as input original data DO and anonymized data DA and provides as output a protection rate TP against the risk of re-identification.
  • the implementation of the method according to the invention is ensured by the execution of code instructions of the software module MET by a processor (not shown) of the local computer system DSL.
  • the protection rate TP provided by the software module MET provides a measure of the performance of the data anonymization process implemented by the software module MAD.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The method delivers a degree of protection (txP3) representative of the risk of re-identification of data in the case of an inference attack comprising a deterministic search based on an external information source and a correspondence search based on a distance. The method comprises steps of E) defining a set of starting individuals (EDO) and a set of anonymous individuals (IA); F) identifying, in the set of starting individuals, individuals at risk (IOrs) via the deterministic correspondence search; G) evaluating a degree of failure of re-identification (txP1) for the sets of starting individuals and of anonymous individuals, on the basis of the correspondence search based on distance; H) computing the degree of protection as a function of a total number of individuals in the starting dataset, of a number (RS) of individuals at risk identified in step B) and of the degree of failure of reidentification (txP1).

Description

Description Description
Titre de l’invention : PROCÉDÉ D’ÉVALUATION DU RISQUE DE RɬTitle of the invention: PROCEDURE FOR ASSESSING THE RISK OF RE¬
IDENTIFICATION DE DONNÉES ANONYMISÉES IDENTIFICATION OF ANONYMIZED DATA
L’invention concerne de manière générale l’anonymisation de données sensibles destinées à être partagées avec des tiers, par exemple, à des fins de recherche, d’analyse ou d’exploitation de celles-ci. Plus particulièrement, l’invention se rapporte à un procédé d’évaluation du risque de ré-identification de données anonymisées. The invention generally relates to the anonymization of sensitive data intended to be shared with third parties, for example, for research, analysis or exploitation purposes. More particularly, the invention relates to a method for evaluating the risk of re-identification of anonymized data.
De manière générale, les données sont pour les organisations une source de performance et constituent pour celles-ci un actif important. Les données apportent des informations cruciales et précieuses pour la production de biens et de services de qualité, ainsi que pour la prise de décision. Elles procurent un avantage concurrentiel qui permet aux organisations de perdurer et de se démarquer de la concurrence. Le partage de données, par exemple sous la forme de données ouvertes dites « open data >> en anglais, est aujourd’hui perçu comme offrant de nombreuses opportunités, notamment pour l’extension des connaissances et du savoir humain, l’innovation et la création de nouveaux produits et services. In general, data is a source of performance for organizations and constitutes an important asset for them. Data provides crucial and valuable information for the production of quality goods and services, as well as for decision-making. They provide a competitive advantage that allows organizations to survive and stand out from the competition. The sharing of data, for example in the form of open data known as "open data" in English, is today perceived as offering many opportunities, in particular for the extension of knowledge and human knowledge, innovation and creation of new products and services.
Les données sont devenues aisément partageables avec les technologies du numérique et les innovations technologiques, et ce au-delà des organisations qui les collectent et les stockent en vue de leur exploitation. La transformation numérique de la société, avec l’essor des réseaux sociaux, la généralisation de la consommation en ligne, la dématérialisation des services, etc., génère un phénomène de massification des données dit « big data >> en anglais. Ce phénomène de massification des données s’est accentué avec l’adoption par un grand nombre de pays de politiques publiques dites « open data >> qui favorisent l'ouverture et le partage des données. Les technologies qui sont actuellement disponibles autorisent le stockage, le traitement et l’analyse de cette masse de données toujours croissante et permettent d’en extraire des connaissances et des informations exploitables. Data has become easily shareable with digital technologies and technological innovations, beyond the organizations that collect and store it for use. The digital transformation of society, with the rise of social networks, the generalization of online consumption, the dematerialization of services, etc., generates a phenomenon of massification of data called "big data" in English. This phenomenon of massification of data has increased with the adoption by a large number of countries of public policies known as "open data" which promote the opening and sharing of data. The technologies that are currently available allow the storage, processing and analysis of this ever-growing mass of data and make it possible to extract knowledge and actionable information from it.
Les données sont susceptibles de contenir des données à caractère personnel, dites « données personnelles >>, qui font l’objet de réglementations relatives à la protection de la vie privée. Ainsi, de manière générale, l’utilisation, le stockage et le partage des données personnelles sont soumis en France au règlement européen RGPD, pour « Règlement Général sur la Protection des Données », et à la loi française connue sous le nom « loi informatique et libertés >>. Certaines données, comme celles relatives à l'état de santé, à la vie privée et familiale, au patrimoine et autres, sont particulièrement sensibles et doivent faire l'objet de précautions particulières. The data may contain personal data, known as "personal data", which is subject to regulations relating to the protection of privacy. Thus, in general, the use, storage and sharing of personal data are subject in France to the European GDPR regulation, for "General Data Protection Regulation", and to the French law known as the "IT law". and freedoms >>. Certain data, such as those relating to the state of health, private and family life, assets and others, are particularly sensitive and must be subject to special precautions.
Plusieurs méthodes d’anonymisation sont connues et utilisées pour traiter des données originales de façon à protéger la vie privée des individus. L’anonymisation des données peut être définie comme un processus qui supprime l’association entre l'ensemble de données identifiant et le sujet des données. Le processus d’anonymisation vise à empêcher la singularisation d’un individu dans un ensemble de données, le lien entre deux enregistrements au sein d'un même ensemble de données, ou entre deux ensembles de données distincts, lorsque l’un des enregistrements correspond à des données propres à un individu, et la déduction d’informations dans l’ensemble de données. Ainsi, suite à un processus d’anonymisation, les données sont présentées sous une forme qui ne doit pas permettre d’identifier les individus, même par combinaison avec d’autres données. Several anonymization methods are known and used to process original data in such a way as to protect the privacy of individuals. Data anonymization can be defined as a process that removes the association between the identifying dataset and the data subject. The process of anonymization aims to prevent the singling out of an individual within a dataset, the link between two records within the same dataset, or between two distinct datasets, when one of the records matches to individual-specific data, and inferring information from the dataset. Thus, following an anonymization process, the data is presented in a form that should not allow individuals to be identified, even when combined with other data.
La méthode d’anonymisation dite « k-anonymisation >> est l’une des méthodes plus utilisées. Cette méthode cherche à rendre indiscernable chaque enregistrement d'un ensemble de données d'au moins k-1 autres enregistrements de cet ensemble de données. La méthode d’anonymisation dite « L-diversité >> est une extension de la méthode de « k-anonymisation >> qui autorise une meilleure protection des données en impliquant dans chaque groupe de k enregistrements, dit « k-groupe >>, la présence d'au moins L valeurs d'attributs sensibles. The anonymization method called "k-anonymization" is one of the most widely used methods. This method seeks to make each record of a data set indistinguishable from at least k-1 other records of this data set. The so-called "L-diversity" anonymization method is an extension of the "k-anonymization" method which allows better data protection by involving in each group of k records, called "k-group", the presence of at least L sensitive attribute values.
De manière générale, les principaux algorithmes d'anonymisation connus modifient les données par suppression, généralisation ou remplacement des informations personnelles dans les enregistrements individuels. Une altération du contenu informatif des données peut être la conséquence d’une anonymisation excessive. Or, il est important que les données anonymisées restent des données de qualité qui conservent un maximum de contenu informatif. C’est à cette condition que les données anonymisées gardent une utilité pour l’extraction de connaissances par l’analyse et le rapprochement avec d’autres données. In general, the main known anonymization algorithms modify data by deleting, generalizing or replacing personal information in individual records. An alteration of the informative content of the data may be the consequence of excessive anonymization. However, it is important that anonymized data remains quality data that retains a maximum of informative content. It is on this condition that anonymized data remain useful for the extraction of knowledge through analysis and reconciliation with other data.
Le choix de l’algorithme d’anonymisation et l’ajustement des paramètres de fonctionnement de celui-ci sont importants pour concilier à la fois l’obligation de respect de la vie privée et la nécessité de préserver l’utilité des données. Dans l’état de la technique, il n’est pas connu d’algorithme d’anonymisation unique qui s’adapte à tous les contextes et qui donne le meilleur résultat à chaque fois. Plusieurs algorithmes d'anonymisation existent avec des degrés de fiabilité et des contextes d’applicabilité variables. Le contexte d’applicabilité des algorithmes d’anonymisation est caractérisé, entre autres, par le type de données à anonymiser et par l’usage souhaité des données anonymisées. The choice of the anonymization algorithm and the adjustment of its operating parameters are important to reconcile both the obligation to respect privacy and the need to preserve the usefulness of the data. In the state of the art, there is no known single anonymization algorithm that adapts to all contexts and that gives the best result every time. Several anonymization algorithms exist with varying degrees of reliability and contexts of applicability. The context of applicability of anonymization algorithms is characterized, among other things, by the type of data to be anonymized and by the desired use of the anonymized data.
Le degré de fiabilité de l’algorithme d'anonymisation est en lien direct avec le risque de ré-identification des données anonymisées. Ce risque englobe le risque d’individualisation, c’est-à-dire, la possibilité d’isoler un individu, le risque de corrélation, c’est-à-dire, la possibilité de relier des ensembles de données distincts concernant un même individu, et le risque d’inférence, c’est-à-dire, la possibilité de déduction d’information sur un individu. Cependant, face à l’évolution des technologies de l’information qui rendent possible le lien entre des données de différentes sources, il est quasiment impossible de garantir une anonymisation qui offrirait un risque de ré-identification nul. Différentes méthodes d’évaluation du risque de ré-identification d’un ensemble de données ayant subi un traitement d’anonymisation, dites aussi « métriques >> ci-après, ont été proposées et procurent des évaluations quantitatives de ce risque. The degree of reliability of the anonymization algorithm is directly related to the risk of re-identification of anonymized data. This risk includes the risk of individualization, that is to say, the possibility of isolating an individual, the risk of correlation, that is to say, the possibility of linking distinct sets of data concerning the same individual, and the risk of inference, that is, the possibility of inferring information about an individual. However, faced with the evolution of information technologies which make it possible to link data from different sources, it is almost impossible to guarantee anonymization which would offer a zero risk of re-identification. Different methods for evaluating the risk of re-identification of a set of data having undergone anonymization processing, also referred to as “metrics” below, have been proposed and provide quantitative evaluations of this risk.
Certaines de ces métriques font appel à une méthode dite de couplage d’enregistrements, ou « record-linkage >> en anglais, qui est décrite par Robinson- Cox J. F. dans l’article « A record-linkage approach to imputation of missing data : Analyzing tag retention in a tag-recapture experiment >>, Journal of Agricultural, Biological, and Environmental Statistics 3(1 ), 1998, pp. 48-61. Cette méthode, qui consiste à comparer les individus d’un ensemble de données ayant fait l’objet d’un traitement d’anonymisation à un ensemble de données d’origine, fut initialement développée pour améliorer la qualité des données en reliant dans des fichiers distincts des enregistrements relatifs à la même personne. Elle permet en outre d’évaluer la robustesse d’un traitement d’anonymisation face une tentative de ré-identification dans laquelle l’attaquant serait en possession de l’ensemble de données anonymisées et de données originales d’un ou plusieurs individus dont il cherche à prouver l’appartenance à la cohorte anonymisée. Some of these metrics use a method called record-linkage, which is described by Robinson-Cox J. F. in the article “A record-linkage approach to imputation of missing data: Analyzing tag retention in a tag-recapture experiment >>, Journal of Agricultural, Biological, and Environmental Statistics 3(1), 1998, pp. 48-61. This method, which consists of comparing individuals from a data set that has undergone anonymization treatment with an original data set, was initially developed to improve data quality by linking in files distinct from records relating to the same person. It also makes it possible to assess the robustness of anonymization processing in the face of a re-identification attempt in which the attacker would be in possession of the set of anonymized data and original data of one or more individuals of whom he seeks to prove membership in the anonymized cohort.
Les méthodes de couplage déterministes, traitées par Gill L. dans l’article « Methods for Automatic Record Matching and Linking and Their Use in National Statistics >>, National Statistics Methodology Series no. 25, 2001 , London : Office for National Statistics, supposent l'existence d'un ensemble de variables communes dans les fichiers à relier. Le problème majeur d'une telle hypothèse est qu'une procédure d'appariement exacte des valeurs prises par les variables communes aux individus n’est pas toujours possible, ou suffisante, pour établir un lien entre les enregistrements. Cette problématique est abordée par Winkler W.E. dans l’article « Matching and record linkage », Cox B. G. (Ed.), Business Survey Methods, Wiley, New York, 1995, pp. 355-384. Dans la réalité, il existe entre les variables communes à deux enregistrements appariés une multitude de petites ou grandes différences provenant de plusieurs facteurs qui empêchent une correspondance parfaite des valeurs de ces variables. Deterministic linking methods, discussed by Gill L. in the article "Methods for Automatic Record Matching and Linking and Their Use in National Statistics", National Statistics Methodology Series no. 25, 2001, London: Office for National Statistics, assumes the existence of a set of common variables in the files to be linked. The major problem with such an assumption is that an exact matching procedure for the values taken by the variables common to the individuals is not always possible, or sufficient, to establish a link between the records. This issue is addressed by Winkler W.E. in the article “Matching and record linkage”, Cox B. G. (Ed.), Business Survey Methods, Wiley, New York, 1995, pp. 355-384. In reality, there are between the variables common to two matched records a multitude of small or large differences resulting from several factors which prevent a perfect correspondence of the values of these variables.
Pour pallier au problème susmentionné, des méthodes non déterministes ont été développées et permettent d’établir un lien entre deux enregistrements, avec un appariement qui peut être probabiliste ou basé sur une distance entre les individus. To overcome the aforementioned problem, non-deterministic methods have been developed and make it possible to establish a link between two records, with a matching that can be probabilistic or based on a distance between individuals.
L’appariement probabiliste permet d’établir des probabilités de lien entre des enregistrements. Deux enregistrements sont considérés comme liés lorsque la probabilité de lien entre eux dépasse un certain seuil. L’appariement probabiliste est décrit par Fellegi LP. et al., Jaro M.A., et Winkler W.E. dans leurs articles respectifs « A theory of record linkage >>, Journal of the American Statistical Association 64, 1969, pp. 1 183-1210, « Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa, Florida >>, Journal of the American Statistical Association 84, 1989, pp. 414-420, et « Advanced methods for record linkage >>, Proceedings of the American Statistical Association Section on Survey Research Methods, 1995, pp. 467-472. L’appariement basé sur la distance est décrit par Pagliuca D. et al. dans la publication « Some Results of Individual Ranking Method on the System of Enterprise Accounts Annual Survey, Esprit SDC Project», Deliverable MI-3/D2, 1999. Dans cette approche, des distances sont établies entre les individus et chaque individu se voit associé l’enregistrement le plus proche ou le deuxième enregistrement le plus proche, et est dit respectivement « linked to nearest » ou « linked to 2nd nearest », en anglais. Probabilistic matching makes it possible to establish probabilities of links between records. Two records are considered linked when the probability of a link between them exceeds a certain threshold. Probabilistic matching is described by Fellegi LP. et al., Jaro MA, and Winkler WE in their respective articles "A theory of record linkage", Journal of the American Statistical Association 64, 1969, pp. 1 183-1210, "Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa, Florida", Journal of the American Statistical Association 84, 1989, pp. 414-420, and “Advanced methods for record linkage”, Proceedings of the American Statistical Association Section on Survey Research Methods, 1995, pp. 467-472. Distance-based matching is described by Pagliuca D. et al. in the publication "Some Results of Individual Ranking Method on the System of Enterprise Accounts Annual Survey, Esprit SDC Project", Deliverable MI-3/D2, 1999. In this approach, distances are established between individuals and each individual is associated the closest record or the second closest record, and is said respectively “linked to nearest” or “linked to 2nd nearest”, in English.
L’article « Disclosure risk assessment via record linkage by a maximumknowledge attacker », présenté par Josep Domingo-Ferrer, 13th Annual Conference on Privacy, Security and Trust (PST), 2015, concerne l’évaluation du risque de divulgation via le couplage de dossiers par un attaquant ayant une connaissance maximale. Des comparaisons de distributions de distances de couplage d’un ensemble de données d’origine et d’un ensemble de données anonymisées sont décrites. Il est souligné l’intérêt d’une distance minimale pour obtenir un niveau de protection acceptable. The article "Disclosure risk assessment via record linkage by a maximumknowledge attacker", presented by Josep Domingo-Ferrer, 13th Annual Conference on Privacy, Security and Trust (PST), 2015, concerns the assessment of the risk of disclosure via the coupling of folders by an attacker with maximum knowledge. Comparisons of coupling distance distributions of an original data set and an anonymized data set are described. The interest of a minimum distance to obtain an acceptable level of protection is underlined.
Le risque de divulgation dans des ensembles de données anonymisées lorsqu’un attaquant bénéficie d’information externe ou d’une connaissance générale est traité de manière générale dans l’article « Assessing Disclosure Risk in Anonymized Datasets », Alexei Kounine et al., FloCon 2008 Conference. The risk of disclosure in anonymized datasets when an attacker benefits from external information or general knowledge is dealt with in a general way in the article "Assessing Disclosure Risk in Anonymized Datasets", Alexei Kounine et al., FloCon 2008 Conference.
La présente invention a pour objectif de fournir un nouveau procédé d’évaluation du risque de ré-identification de données anonymisées lors d’une attaque de recherche de correspondance comportant une recherche déterministe basée sur des sources externes d’information et une recherche basée sur la distance.The objective of the present invention is to provide a new method for evaluating the risk of re-identification of anonymized data during a search for correspondence attack comprising a deterministic search based on external sources of information and a search based on the distance.
Selon un premier aspect, l’invention concerne un procédé de traitement de données mis en oeuvre par ordinateur pour l’évaluation d’un risque de réidentification de données anonymisées, le procédé fournissant un taux de protection représentatif du risque de ré-identification dans le cas d’une attaque de recherche de correspondance comportant une recherche déterministe basée sur au moins une source externe d’information et une recherche de correspondance basée sur une distance, le procédé comprenant les étapes de E) regrouper un ensemble de données d’origine comprenant une pluralité d’individus d’origine et un ensemble de données anonymisées comprenant une pluralité d’individus anonymes, les individus anonymes étant produits par un processus d’anonymisation des individus d’origine ; F) identifier dans ledit ensemble de données d’origine des individus d’origine à risque comme étant des individus d’origine ayant au moins une valeur remarquable, ou unique, dans au moins une variable considérée, ou au moins une combinaison de valeurs remarquable, ou unique, dans un ensemble de variables considérées, dans une recherche de correspondance déterministe et auxquels ne peuvent être associé qu’un seul individu anonyme approchant respectif par la recherche de correspondance déterministe; G) évaluer un taux d’échec de ré-identification pour les ensembles de données d’origine et de données anonymisées, à partir de la recherche de correspondance basée sur une distance entre chaque individu d’origine et un ou plusieurs individus anonymes les plus proches identifiés par une méthode dite « k-NN » ; H) calculer le taux de protection en fonction d’un nombre total d’individus d’origine dans l’ensemble de données d’origine, d’un nombre d’individus d’origine à risque identifiés à l’étape B) et du taux d’échec de ré-identification obtenu à l’étape G). According to a first aspect, the invention relates to a data processing method implemented by computer for the evaluation of a risk of re-identification of anonymized data, the method providing a protection rate representative of the risk of re-identification in the case of a match-seeking attack comprising a deterministic search based on at least one external source of information and a distance-based match search, the method comprising the steps of E) grouping an original data set comprising a plurality of original individuals and a set of anonymized data comprising a plurality of anonymous individuals, the anonymous individuals being produced by an anonymizing process of the original individuals; F) identifying in said source data set at-risk source individuals as being source individuals having at least one remarkable, or unique, value in at least one considered variable, or at least one combination of remarkable values , or unique, in a set of considered variables, in a deterministic matching search and to which can be associated only one respective anonymous individual approaching by the deterministic matching search; G) Evaluate a re-identification failure rate for the original and anonymized datasets, from matching based on a distance between each original individual and one or more most anonymous individuals relatives identified by a so-called “k-NN” method; H) calculate the protection rate given a total number of original individuals in the original dataset, a number of original individuals at risk identified in step B) and the re-identification failure rate obtained in step G).
Selon une caractéristique particulière du procédé, dans l’étape F), un individu anonyme est considéré comme étant un individu anonyme approchant d’un individu d’origine à risque considéré lorsque 1 ) l’individu anonyme a une variable de même modalité qu’une variable considérée de l’individu d’origine à risque dans la recherche de correspondance dans le cas où la variable est une variable qualitative, ou lorsque 2) l’individu anonyme a une valeur pour la variable considérée égale à un intervalle de tolérance près à la valeur de la même variable considérée de l’individu d’origine à risque dans le cas où la variable considérée dans la recherche de correspondance déterministe est une variable continue.According to a particular characteristic of the method, in step F), an anonymous individual is considered to be an anonymous individual approaching an individual of origin at risk considered when 1) the anonymous individual has a variable of the same modality as a considered variable of the original individual at risk in the search for correspondence in the case where the variable is a qualitative variable, or when 2) the anonymous individual has a value for the considered variable equal to within a tolerance interval to the value of the same variable considered of the original individual at risk in the case where the variable considered in the search for deterministic correspondence is a continuous variable.
Selon une autre caractéristique particulière du procédé, l’étape G) comprend les sous-étapes de a) lier l’ensemble de données d’origine à l’ensemble de données anonymisées ; b) transformer les individus d’origine et les individus anonymes dans un espace euclidien, les individus d’origine et individus anonymes étant représentés par des coordonnées dans l’espace euclidien ; c) identifier pour chaque dit individu d’origine un ou plusieurs individus anonymes les plus proches sur la base d’une distance, par la méthode dite « k-NN >> ; et d) calculer le taux d’échec de ré-identification comme étant un pourcentage de cas où un individu anonyme le plus proche identifié à la sous-étape c) pour un individu d’origine considéré n’est pas un individu anonyme valide correspondant à cet individu d’origine. According to another particular characteristic of the method, step G) comprises the sub-steps of a) linking the set of original data to the set of anonymized data; b) transforming the original individuals and the anonymous individuals in Euclidean space, the original individuals and anonymous individuals being represented by coordinates in Euclidean space; c) identify for each said original individual one or more closest anonymous individuals on the basis of a distance, by the so-called "k-NN" method; and d) calculating the re-identification failure rate as a percentage of cases where a closest anonymous individual identified in substep c) for a considered original individual is not a corresponding valid anonymous individual to this original individual.
Selon encore une autre caractéristique particulière du procédé, la distance précitée est une distance euclidienne. According to yet another particular characteristic of the method, the aforementioned distance is a Euclidean distance.
Selon une autre caractéristique particulière du procédé, la transformation de la sous-étape b) est réalisée par une méthode factorielle et/ou à l’aide d’un réseau de neurones artificiels dit « auto-encodeur ». According to another particular characteristic of the method, the transformation of sub-step b) is carried out by a factorial method and/or using an artificial neural network called an “auto-encoder”.
Selon encore une autre caractéristique particulière du procédé, la méthode factorielle utilisée pour la transformation de la sous-étape b) est une méthode dite « Analyse en Composantes Principales >> lorsque les individus comprennent des variables de type continu, une méthode dite « Analyse des Correspondances Multiples >> lorsque les individus comprennent des variables de type qualitatif ou une méthode dite « Analyse Factorielle de Données Mixtes >> lorsque les individus comprennent des variables de type mixte « continu/qualitatif >>. According to yet another particular characteristic of the method, the factorial method used for the transformation of sub-step b) is a method called "Principal Component Analysis" when the individuals include variables of continuous type, a method called "Analysis of Multiple Correspondences >> when individuals include qualitative type variables or a method called "Factor Analysis of Mixed Data" when individuals include mixed "continuous/qualitative" type variables.
L’invention concerne aussi un système informatique d’anonymisation de données comportant un dispositif de stockage de données stockant des instructions de programme pour la mise en oeuvre du procédé tel que décrit brièvement ci- dessus. The invention also relates to a data anonymization computer system comprising a data storage device storing program instructions for implementing the method as described briefly above.
L’invention concerne aussi un produit programme d’ordinateur comportant un support dans lequel sont enregistrées des instructions de programme lisibles par un processeur pour la mise en oeuvre du procédé tel que décrit brièvement ci- dessus. D’autres avantages et caractéristiques de la présente invention apparaîtront plus clairement à la lecture de la description ci-dessous de plusieurs modes de réalisation particuliers en référence aux dessins annexés, dans lesquels : The invention also relates to a computer program product comprising a medium in which are recorded program instructions readable by a processor for implementing the method as described briefly above. Other advantages and characteristics of the present invention will appear more clearly on reading the description below of several particular embodiments with reference to the appended drawings, in which:
[Fig.1 ] La Fig.1 est un logigramme montrant des grandes étapes comprises dans un mode de réalisation particulier du procédé selon l’invention. [Fig.1] Fig.1 is a flowchart showing the major steps included in a particular embodiment of the method according to the invention.
[Fig.2] La Fig.2 représente un diagramme illustratif d’une méthode utilisée dans le mode de réalisation particulier du procédé de l’invention de la Fig.1 , pour évaluer un taux d’échec de ré-identification d’un attaquant lors d’une recherche de correspondance basée sur la distance. [Fig.2] Fig.2 represents an illustrative diagram of a method used in the particular embodiment of the method of the invention of Fig.1, to evaluate a re-identification failure rate of a attacking when searching for a match based on distance.
[Fig.3] La Fig.3 montre un exemple d’une architecture générale d’un système informatique d’anonymisation de données dans lequel est mis en oeuvre le procédé selon l’invention. [Fig.3] Fig.3 shows an example of a general architecture of a data anonymization computer system in which the method according to the invention is implemented.
Dans la description qui suit, à des fins d'explication et non de limitation, des détails spécifiques sont fournis afin de permettre une compréhension de la technologie décrite. Il sera évident pour l'homme du métier que d'autres modes ou formes de réalisation peuvent être mis en pratique en dehors des détails spécifiques décrits ci-dessous. Dans d'autres cas, les descriptions détaillées de méthodes, techniques, etc., bien connus sont omises afin de ne pas complexifier la description avec des détails inutiles. In the description that follows, for purposes of explanation and not limitation, specific details are provided in order to facilitate an understanding of the technology described. It will be apparent to those skilled in the art that other modes or embodiments may be practiced outside of the specific details described below. In other cases, detailed descriptions of well-known methods, techniques, etc. are omitted so as not to complicate the description with unnecessary detail.
L’évaluation du risque de ré-identification nécessite de comparer un ensemble de données d’origine formé d’individus dits d’origine à un ensemble de données anonymisées formés d’individus dits anonymes. Les individus sont typiquement des enregistrements de données. Chaque individu anonyme de l’ensemble de données anonymisées représente une version anonymisée d’un individu d’origine correspondant. Une paire constituée par un individu d’origine et un individu anonyme correspondant est désignée « paire origine / anonyme ». Le risque de ré-identification est le risque qu’un attaquant réussisse à lier un individu d’origine à son enregistrement anonymisé, autrement dit l’individu anonyme correspondant, formant ainsi une paire origine / anonyme valide. Assessing the risk of re-identification requires comparing a set of original data made up of so-called original individuals with a set of anonymized data made up of so-called anonymous individuals. Individuals are typically data records. Each anonymized individual in the anonymized dataset represents an anonymized version of a corresponding original individual. A pair formed by an original individual and a corresponding anonymous individual is referred to as an “original/anonymous pair”. Re-identification risk is the risk that an attacker will successfully link an original individual to their anonymized record, i.e. the corresponding anonymous individual, thereby forming a valid original/anonymous pair.
Le procédé selon l’invention pour l’évaluation du risque de ré-identification de données procure une métrique, basée sur une approche individu centrique, qui permet de quantifier le risque de ré-identification d’une donnée personnelle lors d’une attaque de recherche de correspondance comportant une recherche déterministe basée sur des sources externes d’information et une recherche basée sur la distance. The method according to the invention for the evaluation of the risk of re-identification of data provides a metric, based on an individual-centric approach, which makes it possible to quantify the risk of re-identification of personal data during a match search comprising a deterministic search based on external sources of information and a search based on distance.
En référence aux Figs.1 et 2, il est maintenant décrit un mode de réalisation particulier, désigné MR3, du procédé de l’invention, ayant une applicabilité intéressante dans le contexte d’une attaque à cheval entre une recherche de correspondance déterministe basée sur une ou plusieurs sources externes d’information et une recherche de correspondance basée sur la distance. With reference to Figs.1 and 2, a particular embodiment, designated MR3, of the method of the invention is now described, having an interesting applicability in the context of a straddling attack between a deterministic correspondence search based on one or more external sources of information and a match search based on distance.
Comme visible à la Fig.1 , ce mode de réalisation MR3 comprend essentiellement dix étapes S3-1 à S3-10. La première étape S3-1 effectue un traitement de jonction des données et regroupe un ensemble de données d’origine EDO comprenant une pluralité d’individus d’origine IO à un ensemble de données anonymisées EDA comprenant une pluralité d’individus anonymisés IA. Les données anonymisées EDA sont celles fournies par un processus d’anonymisation ayant traité les données d’origine EDO et correspondant à celles-ci. As visible in Fig.1, this embodiment MR3 essentially comprises ten steps S3-1 to S3-10. The first step S3-1 performs data join processing and combines a set of original data EDO comprising a plurality of original individuals IO with a set of anonymized data EDA comprising a plurality of anonymized individuals IA. EDA anonymized data is that provided by an anonymization process that has processed the original EDO data and corresponds to it.
La deuxième étape S3-2 est une étape d’identification d’individus d’origine à risque, désignés ci-après IOr, dans l’ensemble EDO considéré qui comprend M individus d’origine IO. Dans cette étape S3-2, il est recherché les individus d’origine IO ayant au moins une valeur remarquable, ou unique, dans au moins une variable considérée ou au moins une combinaison de valeurs remarquable, ou unique, dans un ensemble de valeurs considérées, dans la recherche de correspondance déterministe. Ces individus d’origine IO ayant une valeur ou une combinaison de valeurs remarquable, ou unique, sont ceux identifiés comme étant les individus d’origine IOr exposés à un risque de ré-identification. On considère ici que R individus d’origine à risque IOr sont identifiés parmi les M individus d’origine IO considérés. The second step S3-2 is a step of identifying individuals of origin at risk, hereinafter designated IOr, in the EDO set considered which comprises M individuals of origin IO. In this step S3-2, the individuals of origin IO having at least one remarkable or unique value in at least one variable considered or at least one combination of remarkable or unique values in a set of values considered are sought. , in deterministic matching. Those individuals of IO origin having a remarkable or unique value or combination of values are those identified as being the individuals of IO origin exposed to a risk of re-identification. It is considered here that R individuals of origin at IOr risk are identified among the M individuals of IO origin considered.
La troisième étape S3-3 est une étape d’identification d’individus anonymes proches des individus d’origine à risque IOr identifiés à l’étape S3-2, désignés ci- après IAp. Dans cette étape S3-3, des individus anonymes proches IAP sont recherchés pour chacun des R individus d’origine à risque IOr. The third step S3-3 is a step of identifying anonymous individuals close to the original individuals at risk IOr identified in step S3-2, hereinafter designated IAP. In this step S3-3, close anonymous individuals IA P are sought for each of the R original individuals at risk IOr.
Lorsque les variables prises en compte dans la recherche de correspondance déterministe sont des variables qualitatives, les individus anonymes IA qui sont retenus comme étant des individus anonymes approchants IAP sont ceux ayant les mêmes modalités que l’individu d’origine à risque IOr considéré. When the variables taken into account in the search for deterministic correspondence are qualitative variables, the anonymous individuals IA which are retained as being approaching anonymous individuals IA P are those having the same modalities as the original individual at risk IOr considered.
Lorsque les variables prises en compte dans la recherche de correspondance déterministe sont des variables continues, les individus anonymes IA qui sont retenus comme étant des individus anonymes approchants IAP sont ceux dont les variables ont des valeurs équivalentes à celles des variables des individus d’origines, c’est-à-dire, égales à un intervalle de tolérance près. Ainsi, l’intervalle de tolérance pourra être prédéfini à plus ou moins (+/-) 2,5% par exemple de la variance de la variable considérée. When the variables taken into account in the search for deterministic correspondence are continuous variables, the anonymous individuals IA which are retained as being approaching anonymous individuals IA P are those whose variables have values equivalent to those of the variables of the individuals of origin , that is to say, equal to within a tolerance interval. Thus, the tolerance interval could be predefined at plus or minus (+/-) 2.5% for example of the variance of the variable considered.
La quatrième étape S3-4 est une étape d’identification, en fonction des résultats de l’étape S3-3, des individus potentiellement les plus exposés parmi les individus d’origine à risque IOr identifiés à l’étape S3-2. Dans cette étape S3-4, seuls les individus d’origine IOr ayant un individu anonyme approchant unique IAP sont retenus comme étant potentiellement les plus exposés à des risques de ré-identification. Ces individus d’origine IOr retenus sont désignés ci-après lOrs. On considère ici que RS individus d’origine à risque lOrs ont été identifiés. Les RS individus anonymes approchants uniques correspondant aux RS individus d’origine lOrs sont désignés IAprs. The fourth step S3-4 is a step of identifying, according to the results of step S3-3, the individuals potentially most exposed among the original individuals at risk IOr identified in step S3-2. In this step S3-4, only the individuals of IOr origin having a unique approaching anonymous individual IA P are retained as being potentially the most exposed to risks of re-identification. These selected individuals of IOr origin are referred to below as lOrs. It is considered here that RS original individuals at risk have been identified. The unique approaching anonymous RS individuals corresponding to the original RS individuals lOrs are designated IA prs .
Les cinquième à huitième étapes suivantes S3-5 à S3-8 mettent en oeuvre une méthode, désignée MR1 , permettant d’évaluer, pour les ensembles EDO et EDA, un taux d’échec de ré-identification txP1 d’un attaquant lors d’une attaque de recherche de correspondance basée sur la distance. The fifth to eighth following steps S3-5 to S3-8 implement a method, designated MR1 , making it possible to evaluate, for the sets EDO and EDA, a txP1 re-identification failure rate of an attacker during a distance-based match-seeking attack.
A l’étape S3-5, l’ensemble de données d’origine EDO comprenant les individus d’origine IO est lié l’ensemble de données anonymisées EDA comprenant les individus anonymisés IA. In step S3-5, the original data set EDO comprising the original individuals IO is linked to the anonymized data set EDA comprising the anonymized individuals IA.
L’étape S3-6 effectue un traitement de transformation des individus IO et IA dans un espace euclidien. Conformément à l’invention, différentes méthodes de transformation pourront être utilisées. Typiquement, mais pas exclusivement, une méthode factorielle ou un réseau de neurones artificiels dit « autoencodeur >>, ou « autoencoder >> en anglais, pourra être utilisé pour convertir les individus IO et IA sous forme de coordonnées dans un espace euclidien. Step S3-6 performs transformation processing of individuals IO and IA in Euclidean space. In accordance with the invention, various transformation methods may be used. Typically, but not exclusively, a factorial method or an artificial neural network called "autoencoder", or "autoencoder" in English, can be used to convert the individuals IO and IA in the form of coordinates in a Euclidean space.
Différentes méthodes factorielles pourront être utilisées en fonction du type des données. Ainsi, l’Analyse en Composantes Principales dite « ACP », ou « PCA >> en anglais pour « Principal Component Analysis”, sera utilisée typiquement lorsque les variables sont continues. L’Analyse des Correspondances Multiples dite « ACM >>, ou « MCA >> en anglais pour « Multiple Correspondance Analysis >>, sera utilisée typiquement si les variables sont qualitatives. L’« Analyse Factorielle de Données Mixtes >> dite « AFDM >>, ou « FAMD >> en anglais pour « Factor Analysis of Mixed Data >>, sera utilisée typiquement si les variables sont mixtes, c’est-à-dire, de type continu et de type qualitatif. Different factorial methods can be used depending on the type of data. Thus, Principal Component Analysis, known as “PCA”, or “PCA” in English for “Principal Component Analysis”, will typically be used when the variables are continuous. Multiple Correspondence Analysis, known as “ACM”, or “MCA”, in English for “Multiple Correspondence Analysis”, will typically be used if the variables are qualitative. The "Factor Analysis of Mixed Data" called "AFDM", or "FAMD" in English for "Factor Analysis of Mixed Data", will typically be used if the variables are mixed, that is to say, continuous type and qualitative type.
Dans l’exemple de réalisation traité ici, une méthode factorielle est utilisée à l’étape S3-6. Dans cette étape S3-6, des axes de variance signifiants sont identifiés dans les ensembles de données par une analyse de données multivariée. Ces axes de variance signifiants déterminent les axes de l’espace euclidien sur lesquels sont projetés les individus IO et IA. In the example embodiment discussed here, a factorial method is used in step S3-6. In this step S3-6, significant axes of variance are identified in the data sets by multivariate data analysis. These significant axes of variance determine the axes of Euclidean space onto which individuals IO and IA are projected.
La transformation des individus IO et IA dans l’espace euclidien rend possible des calculs de distance mathématique entre les individus, à partir de leurs coordonnées. Le procédé de l’invention prévoit une utilisation privilégiée d’une distance euclidienne en tant que distance mathématique. Cependant, on notera que l’utilisation de différentes autres distances mathématiques, telles qu’une distance de Manhattan, une distance de Mahalanobis et autres, est incluse dans la vision de la présente invention. The transformation of individuals IO and IA in Euclidean space makes it possible to calculate the mathematical distance between individuals, from their coordinates. The method of the invention provides for a privileged use of a Euclidean distance as a mathematical distance. However, it should be noted that the use of various other mathematical distances, such as a Manhattan distance, a Mahalanobis distance and the like, is included within the scope of the present invention.
A l’étape S3-7, la méthode des « k plus proches voisins >> dite « k-NN >> (de « k- Nearest Neighbors >> en anglais) est utilisée pour identifier les individus anonymes IA les plus proches des individus d’origine IO, avec une distance mathématique telle qu’une distance euclidienne. At step S3-7, the method of the “k nearest neighbors” called “k-NN” (from “k-Nearest Neighbors” in English) is used to identify the anonymous individuals IA closest to the individuals of origin IO, with a mathematical distance such as a Euclidean distance.
A l’étape S3-8, sur la base des résultats de mesure de distance obtenus lors de l’étape précédente S3-7, il est calculé le taux d’échec de ré-identification txP1 d’un attaquant employant une recherche de correspondance basée sur la distance. Dans cette étape S3-8, le taux d’échec de ré-identification txP1 est représenté par le pourcentage de cas où un individu d’origine IO et l’individu anonyme IA le plus proche correspondant, identifié à l’étape S3-7, ne forment pas une paire origine / anonyme valide. In step S3-8, based on the distance measurement results obtained in the previous step S3-7, the re-identification failure rate txP1 of an attacker employing a match search is calculated. based on distance. In this step S3-8, the re-identification failure rate txP1 is represented by the percentage of cases where an individual of IO origin and the individual anonymous closest match IA, identified in step S3-7, does not form a valid origin/anonymous pair.
Le traitement réalisé par les cinquième à huitième étapes S3-5 à S3-8 décrites ci-dessus est illustré à la Fig.2. Dans l’exemple de la Fig.2, décrit ci-dessus. Les individus d’origine 10 et les individus anonymes IA sont représentés respectivement par des cercles noirs et des cercles blancs, dans un espace euclidien ayant des axes de coordonnées A1 et A2. The processing performed by the fifth to eighth steps S3-5 to S3-8 described above is shown in Fig.2. In the example of Fig.2, described above. The original 10 individuals and the anonymous IA individuals are represented by black circles and white circles, respectively, in a Euclidean space with coordinate axes A1 and A2.
On considère ici l’exemple d’un attaquant qui est en possession d'un ensemble de données contenant des données anonymes (individus IA) de 100 personnes dont fait partie une personne considérée i. L’attaquant est également en possession de la donnée originale (individu IOi) de la personne considérée i. L’attaquant tente de prouver que la donnée originale (individu IOi) de la personne considérée i fait partie de la cohorte anonymisée. We consider here the example of an attacker who is in possession of a data set containing anonymous data (AI individuals) of 100 people, including a person considered i. The attacker is also in possession of the original data (individual IOi) of the considered person i. The attacker tries to prove that the original data (individual IOi) of the considered person i is part of the anonymized cohort.
Afin de ré-identifier la paire origine / anonyme valide (IOi, IAi), l’attaquant doit procéder à une mise en correspondance des individus et utilise pour cela une distance mathématique entre ceux-ci, telle qu’une distance euclidienne. L’attaquant identifie l’individu anonyme IAk comme étant l’individu anonyme le plus proche de l’individu d'origine IOi, comme représenté schématiquement à la Fig.2, et associe l’individu anonyme IAk à l’individu d’origine IOi. La Fig.2 montre le cas d’un échec de l’attaquant qui n’a pas réussi à identifier la paire origine / anonyme valide (IOi, IAi) en se basant sur la distance. Ainsi, par exemple, si l’attaquant échoue pour 95 personnes sur les 100 personnes considérées, le taux d’échec de ré-identification txP1 est égal à 95 %. In order to re-identify the valid origin/anonymous pair (IOi, IAi), the attacker must perform a matching of individuals and uses for this a mathematical distance between them, such as a Euclidean distance. The attacker identifies the anonymous individual IAk as the closest anonymous individual to the original individual IOi, as shown schematically in Fig.2, and associates the anonymous individual IAk with the original individual Ii. Fig.2 shows the case of a failed attacker who failed to identify the valid origin/anonymous pair (IOi, IAi) based on distance. Thus, for example, if the attacker fails for 95 people out of the 100 people considered, the re-identification failure rate txP1 is equal to 95%.
En référence de nouveau à la Fig.1 , la neuvième étape S3-9 est une étape d’évaluation du nombre m de ré-identifications réussies par l’attaquant sur les individus d’origine lOrs, à partir du taux d’échec de ré-identification txP1 obtenu à l’étape S3-8 et le nombre RS individus d’origine lOrs. Pour ces identifications réussies, les individus anonymes valides IA identifiés sont les individus anonymes approchants uniques IAprs (étape S3-4) des individus d’origine lOrs. Le nombre m est donné par l’égalité suivante : m= ((100-txP1 )/100)*RS, le taux txP1 étant en pourcentage (%). Referring again to Fig.1, the ninth step S3-9 is a step of evaluating the number m of successful re-identifications by the attacker on the original individuals lOrs, from the failure rate of re-identification txP1 obtained in step S3-8 and the original individual RS number lOrs. For these successful identifications, the identified valid anonymous individuals IA are the unique approaching anonymous individuals IA prs (step S3-4) of the original individuals lOrs. The number m is given by the following equality: m= ((100-txP1 )/100)*RS, the rate txP1 being in percentage (%).
La dixième étape S3-10 calcule un taux de protection, désigné ci-après txP3, pour l’ensemble de données d’origine considéré EDO. Le taux de protection txP3 est donné ici par l’égalité : txP3=(1 -m/M)*100, m étant le nombre de réidentifications réussies par l’attaquant qui est déterminé à l’étape S3-9 et M étant le nombre total d’individus d’origine IO dans l’ensemble EDO. Le taux de protection txP3 correspond donc au pourcentage d’individus IO n’ayant pas été ré-identifiés par l’attaquant dans l’ensemble de données d’origine EDO. The tenth step S3-10 calculates a protection rate, hereinafter referred to as txP3, for the considered original data set EDO. The protection rate txP3 is given here by the equality: txP3=(1 -m/M)*100, m being the number of successful re-identifications by the attacker which is determined in step S3-9 and M being the total number of individuals of IO origin in the EDO set. The protection rate txP3 therefore corresponds to the percentage of IO individuals that have not been re-identified by the attacker in the original EDO dataset.
A titre d’exemple, on considère un ensemble de données anonymisées comprenant M=100 individus et un attaquant voulant ré-identifier des personnes en utilisant des sources externes telles qu’un registre de liste électorale. L’attaquant a par exemple accès à trois variables de l’ensemble de données anonymisées, par exemple, le sexe, l’âge et le code postal de domicile. Conformément au procédé de l’invention, dans son mode de réalisation MR3 décrit ci-dessus, des individus d’origine à risque ayant une valeur ou une combinaison de valeurs, remarquable, ou unique, pour ces trois variables sont d’abord recherchés dans l’ensemble d’individus d’origine. Ainsi, par exemple, R=15 individus à risque sont identifiés parmi les M=100 individus. By way of example, we consider a set of anonymized data comprising M=100 individuals and an attacker wanting to re-identify people using external sources such as an electoral list register. The attacker, for example, has access to three variables from the anonymized dataset, for example, gender, age and home zip code. According to the method of the invention, in its embodiment MR3 described above, individuals of origin at risk having a value or a combination of values, remarkable, or unique, for these three variables are first searched in the original set of individuals. Thus, for example, R=15 individuals at risk are identified among the M=100 individuals.
Pour ces R=15 individus à risque, il est recherché ceux ayant un individu anonyme approchant unique (une même valeur pour les variables catégorielles and +/- 2,5% de la variance pour les variables continues, comme indiqué plus haut). RS=4 individus, par exemple, sont identifiés comme remplissant la condition susmentionnée. For these R=15 individuals at risk, those with a unique approaching anonymous individual are sought (the same value for the categorical variables and +/- 2.5% of the variance for the continuous variables, as indicated above). RS=4 individuals, for example, are identified as fulfilling the above condition.
Le taux d’échec de ré-identification de l’attaquant lors d’une attaque de recherche de correspondance basée sur la distance est évalué à txP1 =50%. Il en découle que parmi les RS=4 individus d’origine ayant un individu anonyme approchant unique, m=((100-txP1 )/100)*RS = 2 individus d’origine sont potentiellement réidentifiables. Le taux de protection txP3 dans cet exemple est donc donné par : txP3=(1 -m/M)*100=( 1 -2/100)*100=98%. The attacker's re-identification failure rate during a distance-based match-finding attack is evaluated at txP1 = 50%. It follows that among the RS=4 original individuals having a unique approaching anonymous individual, m=((100-txP1 )/100)*RS = 2 original individuals are potentially reidentifiable. The protection rate txP3 in this example is therefore given by: txP3=(1 -m/M)*100=(1 -2/100)*100=98%.
Une architecture générale d’un système informatique d’anonymisation de données SAD dans lequel est mis en oeuvre le procédé selon l’invention d’évaluation du risque de ré-identification est montrée à titre d’exemple à la Fig.3.A general architecture of a data anonymization computer system SAD in which the method according to the invention for evaluating the risk of re-identification is implemented is shown by way of example in FIG.
Le système SAD est implanté ici dans un système informatique local DSL et comprend deux modules logiciels MAD et MET. Les modules logiciels MAD et MET sont hébergés dans des dispositifs de stockage de données SD, tels que mémoire et/ou disque dur, du système informatique local DSL. Le système informatique local DSL héberge également une base de données d’origine BDO dans laquelle sont stockées des données d’origine DO et une base de données anonymisées BDA dans laquelle sont stockées des données anonymisées DA.The SAD system is implemented here in a local computer system DSL and comprises two software modules MAD and MET. The MAD and MET software modules are hosted in data storage devices SD, such as memory and/or hard disk, of the local computer system DSL. The local computer system DSL also hosts an original database BDO in which original data DO is stored and an anonymized database BDA in which anonymized data DA is stored.
Le module logiciel MAD met en oeuvre un processus d’anonymisation de données qui traite les données d’origine DO et fournit en sortie les données anonymisées DA. The MAD software module implements a data anonymization process which processes the original data DO and outputs the anonymized data DA.
Le module logiciel MET met en oeuvre le procédé selon l’invention pour l’évaluation du risque de ré-identification des données. Le module logiciel MET reçoit en entrée des données d’origine DO et des données anonymisées DA et fournit en sortie un taux de protection TP contre le risque de ré-identification. La mise en oeuvre du procédé selon l’invention est assurée par l'exécution d'instructions de code du module logiciel MET par un processeur (non représenté) du système informatique local DSL. Le taux de protection TP fourni par le module logiciel MET procure une mesure de la performance du processus d’anonymisation de données mis en oeuvre par le module logiciel MAD. The software module MET implements the method according to the invention for the evaluation of the risk of re-identification of the data. The software module MET receives as input original data DO and anonymized data DA and provides as output a protection rate TP against the risk of re-identification. The implementation of the method according to the invention is ensured by the execution of code instructions of the software module MET by a processor (not shown) of the local computer system DSL. The protection rate TP provided by the software module MET provides a measure of the performance of the data anonymization process implemented by the software module MAD.
Bien entendu, l’invention ne se limite pas aux exemples de réalisation qui ont été décrits ici à titre illustratif. L’homme du métier, selon les applications de l’invention, pourra apporter différentes modifications et variantes entrant dans le champ de protection de l’invention. Of course, the invention is not limited to the embodiments which have been described here by way of illustration. The person skilled in the art, depending on the applications of the invention, may make various modifications and variants falling within the scope of protection of the invention.

Claims

Revendications Procédé de traitement de données mis en œuvre par ordinateur pour l’évaluation d’un risque de ré-identification de données anonymisées, ledit procédé fournissant un taux de protection (txP3) représentatif dudit risque de ré-identification dans le cas d’une attaque de recherche de correspondance comportant une recherche déterministe basée sur au moins une source externe d’information et une recherche de correspondance basée sur une distance, ledit procédé comprenant les étapes de E) regrouper un ensemble de données d’origine (EDO) comprenant une pluralité d’individus d’origine (IO) et un ensemble de données anonymisées (EDA) comprenant une pluralité d’individus anonymes (IA), lesdits individus anonymes (IA) étant produits par un processus d’anonymisation desdits individus d’origine (IO) ; F) identifier dans ledit ensemble de données d’origine (EDO) des individus d’origine à risque (lOrs) comme étant des individus d’origine (IO) ayant au moins une valeur remarquable, ou unique, dans au moins une variable considérée, ou au moins une combinaison de valeurs remarquable, ou unique, dans un ensemble de variables considérées, dans une recherche de correspondance déterministe et auxquels ne peuvent être associé qu’un seul individu anonyme approchant respectif (IAprs) par ladite recherche de correspondance déterministe ; G) évaluer un taux d’échec de réidentification (txP1) pour lesdits ensemble de données d’origine (EDO) et ensemble de données anonymisées (EDA), à partir de ladite recherche de correspondance basée sur une distance entre chaque dit individu d’origine (IO) et un ou plusieurs dits individus anonymes (IA) les plus proches identifiés par une méthode dite « k-NN >> ; H) calculer ledit taux de protection (txP3) en fonction d’un nombre total (M) d’individus d’origine (IO) dans ledit ensemble de données d’origine (EDO), d’un nombre (RS) d’individus d’origine à risque (IOre) identifiés à l’étape B) et dudit taux d’échec de ré-identification (txP1 ) obtenu à l’étape G). Procédé selon la revendication 1 , caractérisé en ce que, dans l’étape F), un individu anonyme (IA) est considéré comme étant un dit individu anonyme approchant (IAP, IAprs) d’un dit individu d’origine à risque (lOrs) considéré lorsque 1 ) ledit individu anonyme (IA) a une variable de même modalité qu’une variable considérée dudit individu d’origine à risque (lOrs) dans ladite recherche de correspondance dans le cas où ladite variable est une variable qualitative, ou lorsque 2) ledit individu anonyme a une valeur pour ladite variable considérée égale à un intervalle de tolérance près à la valeur de ladite même variable considérée dudit individu d’origine à risque (lOrs) dans le cas où ladite variable considérée dans ladite recherche de correspondance déterministe est une variable continue. Procédé selon la revendication 1 ou 2, caractérisé en ce que l’étape G) comprend les sous-étape de a) lier ledit ensemble de données d’origine (EDO) audit ensemble de données anonymisées (EDA) ; b) transformer (PGA, MCA, FAMD) lesdits individus d’origine (IO) et lesdits individus anonymes (IA) dans un espace euclidien (A1 , A2), lesdits individus d’origine (IO) et individus anonymes (IA) étant représentés par des coordonnées dans ledit espace euclidien (A1 , A2) ; c) identifier pour chaque dit individu d’origine (10) un ou plusieurs dits individus anonymes (IA) les plus proches sur la base de ladite distance, par la méthode dite « k-NN >> ; et d) calculer ledit taux d’échec de ré-identification (txP1 ) comme étant un pourcentage de cas où un dit individu anonyme (IAk) le plus proche identifié à la sous-étape c) pour un dit individu d’origine (IOi) n’est pas un individu anonyme valide (IAi) correspondant audit individu d’origine (IOi). Procédé selon la revendication 3, caractérisé en ce que ladite distance est une distance euclidienne. Procédé selon la revendication 3 ou 4, caractérisé en ce que la transformation de la sous-étape b) est réalisée par une méthode factorielle (PCA, MCA, FAMD) et/ou à l’aide d’un réseau de neurones artificiels dit « auto-encodeur ». Procédé selon la revendication 5, caractérisé en ce que ladite méthode factorielle est une méthode dite « Analyse en Composantes Principales >> (PCA) lorsque lesdits individus (IO, IA) comprennent des variables de type continu, une méthode dite « Analyse des Correspondances Multiples >> (MCA) lorsque lesdits individus (IO, IA) comprennent des variables de type qualitatif, ou une méthode dite « Analyse Factorielle de Données Mixtes >> (FAMD) lorsque lesdits individus (IO, IA) comprennent des variables de type mixte « continu/qualitatif >>. Système informatique d’anonymisation de données (SAD) comportant un dispositif de stockage de données (SD) stockant des instructions de programme (MET) pour la mise en oeuvre du procédé selon l’une quelconque des revendications 1 à 6. Produit programme d’ordinateur comportant un support dans lequel sont enregistrées des instructions de programme (MET) lisibles par un processeur pour la mise en oeuvre du procédé selon l’une quelconque des revendications 1 à 6. Claims Computer-implemented data processing method for evaluating a risk of re-identification of anonymized data, said method providing a protection rate (txP3) representative of said risk of re-identification in the event of a a match-seeking attack comprising a deterministic search based on at least one external source of information and a distance-based match search, said method comprising the steps of E) grouping an original data set (EDO) comprising a plurality of original individuals (IO) and a set of anonymized data (EDA) comprising a plurality of anonymous individuals (IA), said anonymous individuals (IA) being produced by a process of anonymizing said original individuals ( IO); F) identifying in said original data set (EDO) at-risk original individuals (lOrs) as being original individuals (IO) having at least one remarkable, or unique, value in at least one considered variable , or at least one remarkable or unique combination of values in a set of considered variables, in a deterministic matching search and to which only one respective approaching anonymous individual (IA prs ) can be associated by said deterministic matching search ; G) evaluating a re-identification failure rate (txP1) for said original data set (EDO) and anonymized data set (EDA), from said match search based on a distance between each said individual of origin (IO) and one or more said closest anonymous individuals (IA) identified by a so-called “k-NN” method; H) calculating said protection rate (txP3) as a function of a total number (M) of original individuals (IO) in said original data set (EDO), of a number (RS) of original individuals at risk (IO re ) identified in step B) and said re-identification failure rate (txP1 ) obtained in step G). Method according to claim 1, characterized in that, in step F), an anonymous individual (IA) is considered to be a said approaching anonymous individual (IA P , IA prs ) of a said original individual at risk (lOrs) considered when 1) said anonymous individual (IA) has a variable of the same modality as a considered variable of said original individual at risk (lOrs) in said correspondence search in the case where said variable is a qualitative variable, or when 2) said anonymous individual has a value for said considered variable equal to within a tolerance interval of the value of said same considered variable of said original individual at risk (lOrs) in the event that said variable considered in said search for deterministic correspondence is a continuous variable. Method according to claim 1 or 2, characterized in that step G) comprises the substeps of a) linking said set of original data (EDO) to said set of anonymized data (EDA); b) transforming (PGA, MCA, FAMD) said original individuals (IO) and said anonymous individuals (IA) into a Euclidean space (A1, A2), said original individuals (IO) and anonymous individuals (IA) being represented by coordinates in said Euclidean space (A1, A2); c) identify for each said original individual (10) one or more said anonymous individuals (IA) closest on the basis of said distance, by the method known as "k-NN"; and d) calculating said re-identification failure rate (txP1 ) as being a percentage of cases where a said anonymous individual (IAk) closest identified in sub-step c) for a said original individual (IOi ) is not a valid anonymous individual (IAi) corresponding to said original individual (IOi). Method according to Claim 3, characterized in that the said distance is a Euclidean distance. Method according to Claim 3 or 4, characterized in that the transformation of sub-step b) is carried out by a factorial method (PCA, MCA, FAMD) and/or using an artificial neural network called " auto-encoder”. Method according to Claim 5, characterized in that the said factorial method is a method called "Principal Component Analysis" (PCA) when the said individuals (IO, IA) comprise variables of continuous type, a method called "Multiple Correspondence Analysis">> (MCA) when said individuals (IO, IA) include qualitative type variables, or a method called “Factorial Analysis of Mixed Data” (FAMD) when said individuals (IO, IA) include mixed type variables “ continuous/qualitative >>. Data anonymization computer system (SAD) comprising a data storage device (SD) storing program instructions (MET) for implementing the method according to any one of Claims 1 to 6. computer comprising a medium in which are recorded program instructions (MET) readable by a processor for implementing the method according to any one of Claims 1 to 6.
EP21810398.4A 2020-10-07 2021-10-07 Method for evaluating the risk of re-identification of anonymized data Withdrawn EP4226268A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2010259A FR3114892A1 (en) 2020-10-07 2020-10-07 PROCEDURE FOR ASSESSING THE RISK OF RE-IDENTIFICATION OF ANONYMIZED DATA
PCT/FR2021/000114 WO2022074302A1 (en) 2020-10-07 2021-10-07 Method for evaluating the risk of re-identification of anonymized data

Publications (1)

Publication Number Publication Date
EP4226268A1 true EP4226268A1 (en) 2023-08-16

Family

ID=74553910

Family Applications (2)

Application Number Title Priority Date Filing Date
EP21810398.4A Withdrawn EP4226268A1 (en) 2020-10-07 2021-10-07 Method for evaluating the risk of re-identification of anonymized data
EP21810059.2A Withdrawn EP4226267A1 (en) 2020-10-07 2021-10-07 Method for evaluating the risk of re-identification of anonymised data

Family Applications After (1)

Application Number Title Priority Date Filing Date
EP21810059.2A Withdrawn EP4226267A1 (en) 2020-10-07 2021-10-07 Method for evaluating the risk of re-identification of anonymised data

Country Status (5)

Country Link
US (2) US20230367901A1 (en)
EP (2) EP4226268A1 (en)
CA (2) CA3194570A1 (en)
FR (1) FR3114892A1 (en)
WO (2) WO2022074301A1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3048101A1 (en) * 2016-02-22 2017-08-25 Digital & Ethics METHOD AND DEVICE FOR EVALUATING THE ROBUSTNESS OF AN ANONYMOUSING OF A SET OF DATA
US11188678B2 (en) * 2018-05-09 2021-11-30 Fujitsu Limited Detection and prevention of privacy violation due to database release

Also Published As

Publication number Publication date
CA3194820A1 (en) 2022-04-14
CA3194570A1 (en) 2022-04-14
WO2022074301A1 (en) 2022-04-14
WO2022074302A1 (en) 2022-04-14
US20240005035A1 (en) 2024-01-04
US20230367901A1 (en) 2023-11-16
EP4226267A1 (en) 2023-08-16
FR3114892A1 (en) 2022-04-08

Similar Documents

Publication Publication Date Title
US10019653B2 (en) Method and system for predicting personality traits, capabilities and suggested interactions from images of a person
US8301498B1 (en) Video content analysis for automatic demographics recognition of users and videos
WO2017202006A1 (en) Data processing method and device, and computer storage medium
US20200285960A1 (en) Effective user modeling with time-aware based binary hashing
Csányi et al. Challenges and open problems of legal document anonymization
US20080080745A1 (en) Computer-Implemented Method for Performing Similarity Searches
Jusas et al. Methods and tools of digital triage in forensic context: Survey and future directions
CN111859451A (en) Processing system of multi-source multi-modal data and method applying same
US20090132264A1 (en) Media asset evaluation based on social relationships
Osia et al. Privacy-preserving deep inference for rich user data on the cloud
Grubl et al. Applying artificial intelligence for age estimation in digital forensic investigations
Papapetrou et al. Social context discovery from temporal app use patterns
EP4226268A1 (en) Method for evaluating the risk of re-identification of anonymized data
EP3752948A1 (en) Automatic processing method for anonymizing a digital data set
US11314897B2 (en) Data identification method, apparatus, device, and readable medium
Erfanian et al. Chameleon: Foundation Models for Fairness-aware Multi-modal Data Augmentation to Enhance Coverage of Minorities
Marturana et al. A machine learning‐based approach to digital triage
Pushpalatha et al. An information theoretic similarity measure for unified multimedia document retrieval
Erol et al. Detecting personal health data disclosures in turkish social data
US20230379178A1 (en) System for dynamic data aggregation and prediction for assessment of electronic non-fungible resources
Ganga et al. Sentimental Analysis on Cosmetics using Machine Learning
Jeǵou Efficient similarity search
Dantcheva Computer vision for deciphering and generating faces
Mewada et al. SUH-AIFRD: A self-training-based hybrid approach for individual fake reviewer detection
US20200175410A1 (en) Computer architecture for generating hierarchical clusters in a correlithm object processing system

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230505

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20231128