EP4226267A1 - Method for evaluating the risk of re-identification of anonymised data - Google Patents

Method for evaluating the risk of re-identification of anonymised data

Info

Publication number
EP4226267A1
EP4226267A1 EP21810059.2A EP21810059A EP4226267A1 EP 4226267 A1 EP4226267 A1 EP 4226267A1 EP 21810059 A EP21810059 A EP 21810059A EP 4226267 A1 EP4226267 A1 EP 4226267A1
Authority
EP
European Patent Office
Prior art keywords
individuals
original
anonymous
data
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21810059.2A
Other languages
German (de)
French (fr)
Inventor
Morgan GUILLAUDEUX
Olivier BREILLACQ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Sante
Original Assignee
Big Data Sante
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Sante filed Critical Big Data Sante
Publication of EP4226267A1 publication Critical patent/EP4226267A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/54Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by adding security routines or objects to programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/575Secure boot
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/42Anonymization, e.g. involving pseudonyms

Abstract

The method of the invention provides a protection rate (txP2) representative of the risk of re-identification of data. In the case of a distance-based correspondence-seeking attack, the method comprises the steps of: a) linking an original dataset (EDO) comprising a plurality of original individuals (IO) with an anonymised dataset (EDA) comprising a plurality of anonymised individuals (IA); b) transforming (PCA, MCA, FAMD) the original individuals and the anonymous individuals in a Euclidean space; c) identifying, for each original individual, one or more nearest anonymous individuals based on a distance, by a method referred to as the "k-NN" method; and d) calculating the protection rate, being a mean number (Nm) of anonymous individuals, nearest to a considered original individual (IOi), who are not a valid anonymous individual corresponding to the original individual considered, the nearest anonymous individuals being those identified in step c) and having a distance (dy) relative to the considered original individual less than the distance between the considered original individual and the valid anonymous individual.

Description

Description Description
Titre de l’invention : PROCÉDÉ D’ÉVALUATION DU RISQUE DE RÉIDENTIFICATION DE DONNÉES ANONYMISÉES Title of the invention: PROCEDURE FOR ASSESSING THE RISK OF RE-IDENTIFICATION OF ANONYMIZED DATA
L’invention concerne de manière générale l’anonymisation de données sensibles destinées à être partagées avec des tiers, par exemple, à des fins de recherche, d’analyse ou d’exploitation de celles-ci. Plus particulièrement, l’invention se rapporte à un procédé d’évaluation du risque de ré-identification de données anonymisées. The invention generally relates to the anonymization of sensitive data intended to be shared with third parties, for example, for research, analysis or exploitation purposes. More particularly, the invention relates to a method for evaluating the risk of re-identification of anonymized data.
De manière générale, les données sont pour les organisations une source de performance et constituent pour celles-ci un actif important. Les données apportent des informations cruciales et précieuses pour la production de biens et de services de qualité, ainsi que pour la prise de décision. Elles procurent un avantage concurrentiel qui permet aux organisations de perdurer et de se démarquer de la concurrence. Le partage de données, par exemple sous la forme de données ouvertes dites « open data >> en anglais, est aujourd’hui perçu comme offrant de nombreuses opportunités, notamment pour l’extension des connaissances et du savoir humain, l’innovation et la création de nouveaux produits et services. In general, data is a source of performance for organizations and constitutes an important asset for them. Data provides crucial and valuable information for the production of quality goods and services, as well as for decision-making. They provide a competitive advantage that allows organizations to survive and stand out from the competition. The sharing of data, for example in the form of open data known as "open data" in English, is today perceived as offering many opportunities, in particular for the extension of knowledge and human knowledge, innovation and creation of new products and services.
Les données sont devenues aisément partageables avec les technologies du numérique et les innovations technologiques, et ce au-delà des organisations qui les collectent et les stockent en vue de leur exploitation. La transformation numérique de la société, avec l’essor des réseaux sociaux, la généralisation de la consommation en ligne, la dématérialisation des services, etc., génère un phénomène de massification des données dit « big data >> en anglais. Ce phénomène de massification des données s’est accentué avec l’adoption par un grand nombre de pays de politiques publiques dites « open data >> qui favorisent l'ouverture et le partage des données. Les technologies qui sont actuellement disponibles autorisent le stockage, le traitement et l’analyse de cette masse de données toujours croissante et permettent d’en extraire des connaissances et des informations exploitables. Data has become easily shareable with digital technologies and technological innovations, beyond the organizations that collect and store it for use. The digital transformation of society, with the rise of social networks, the generalization of online consumption, the dematerialization of services, etc., generates a phenomenon of massification of data called "big data" in English. This phenomenon of massification of data has increased with the adoption by a large number of countries of public policies known as "open data" which promote the opening and sharing of data. The technologies that are currently available allow the storage, processing and analysis of this ever-growing mass of data and make it possible to extract knowledge and actionable information from it.
Les données sont susceptibles de contenir des données à caractère personnel, dites « données personnelles >>, qui font l’objet de réglementations relatives à la protection de la vie privée. Ainsi, de manière générale, l’utilisation, le stockage et le partage des données personnelles sont soumis en France au règlement européen RGPD, pour « Règlement Général sur la Protection des Données », et à la loi française connue sous le nom « loi informatique et libertés >>. Certaines données, comme celles relatives à l'état de santé, à la vie privée et familiale, au patrimoine et autres, sont particulièrement sensibles et doivent faire l'objet de précautions particulières. The data may contain personal data, known as "personal data", which is subject to regulations relating to the protection of privacy. Thus, in general, the use, storage and sharing of personal data are subject in France to the European GDPR regulation, for "General Data Protection Regulation", and to the French law known as the "IT law". and freedoms >>. Certain data, such as those relating to the state of health, private and family life, assets and others, are particularly sensitive and must be subject to special precautions.
Plusieurs méthodes d’anonymisation sont connues et utilisées pour traiter des données originales de façon à protéger la vie privée des individus. L’anonymisation des données peut être définie comme un processus qui supprime l’association entre l'ensemble de données identifiant et le sujet des données. Le processus d’anonymisation vise à empêcher la singularisation d’un individu dans un ensemble de données, le lien entre deux enregistrements au sein d'un même ensemble de données, ou entre deux ensembles de données distincts, lorsque l’un des enregistrements correspond à des données propres à un individu, et la déduction d’informations dans l’ensemble de données. Ainsi, suite à un processus d’anonymisation, les données sont présentées sous une forme qui ne doit pas permettre d’identifier les individus, même par combinaison avec d’autres données. Several anonymization methods are known and used to process original data in such a way as to protect the privacy of individuals. Data anonymization can be defined as a process that removes the association between the identifying dataset and the subject of data. The process of anonymization aims to prevent the singling out of an individual within a dataset, the link between two records within the same dataset, or between two distinct datasets, when one of the records matches to individual-specific data, and inferring information from the data set. Thus, following an anonymization process, the data is presented in a form that should not allow individuals to be identified, even by combination with other data.
La méthode d’anonymisation dite « k-anonymisation >> est l’une des méthodes plus utilisées. Cette méthode cherche à rendre indiscernable chaque enregistrement d'un ensemble de données d'au moins k-1 autres enregistrements de cet ensemble de données. La méthode d’anonymisation dite « L-diversité >> est une extension de la méthode de « k-anonymisation >> qui autorise une meilleure protection des données en impliquant dans chaque groupe de k enregistrements, dit « k-groupe >>, la présence d'au moins L valeurs d'attributs sensibles. The anonymization method called "k-anonymization" is one of the most widely used methods. This method seeks to make each record of a data set indistinguishable from at least k-1 other records of this data set. The so-called "L-diversity" anonymization method is an extension of the "k-anonymization" method which allows better data protection by involving in each group of k records, called "k-group", the presence of at least L sensitive attribute values.
De manière générale, les principaux algorithmes d'anonymisation connus modifient les données par suppression, généralisation ou remplacement des informations personnelles dans les enregistrements individuels. Une altération du contenu informatif des données peut être la conséquence d’une anonymisation excessive. Or, il est important que les données anonymisées restent des données de qualité qui conservent un maximum de contenu informatif. C’est à cette condition que les données anonymisées gardent une utilité pour l’extraction de connaissances par l’analyse et le rapprochement avec d’autres données. In general, the main known anonymization algorithms modify data by deleting, generalizing or replacing personal information in individual records. An alteration of the informative content of the data may be the consequence of excessive anonymization. However, it is important that anonymized data remains quality data that retains a maximum of informative content. It is on this condition that anonymized data remain useful for the extraction of knowledge through analysis and reconciliation with other data.
Le choix de l’algorithme d’anonymisation et l’ajustement des paramètres de fonctionnement de celui-ci sont importants pour concilier à la fois l’obligation de respect de la vie privée et la nécessité de préserver l’utilité des données. Dans l’état de la technique, il n’est pas connu d’algorithme d’anonymisation unique qui s’adapte à tous les contextes et qui donne le meilleur résultat à chaque fois. Plusieurs algorithmes d'anonymisation existent avec des degrés de fiabilité et des contextes d’applicabilité variables. Le contexte d’applicabilité des algorithmes d’anonymisation est caractérisé, entre autres, par le type de données à anonymiser et par l’usage souhaité des données anonymisées. The choice of the anonymization algorithm and the adjustment of its operating parameters are important to reconcile both the obligation to respect privacy and the need to preserve the usefulness of the data. In the state of the art, there is no known single anonymization algorithm that adapts to all contexts and that gives the best result every time. Several anonymization algorithms exist with varying degrees of reliability and contexts of applicability. The context of applicability of anonymization algorithms is characterized, among other things, by the type of data to be anonymized and by the desired use of the anonymized data.
Le degré de fiabilité de l’algorithme d'anonymisation est en lien direct avec le risque de ré-identification des données anonymisées. Ce risque englobe le risque d’individualisation, c’est-à-dire, la possibilité d’isoler un individu, le risque de corrélation, c’est-à-dire, la possibilité de relier des ensembles de données distincts concernant un même individu, et le risque d’inférence, c’est-à-dire, la possibilité de déduction d’information sur un individu. Cependant, face à l’évolution des technologies de l’information qui rendent possible le lien entre des données de différentes sources, il est quasiment impossible de garantir une anonymisation qui offrirait un risque de ré-identification nul. Différentes méthodes d’évaluation du risque de ré-identification d’un ensemble de données ayant subi un traitement d’anonymisation, dites aussi « métriques >> ci-après, ont été proposées et procurent des évaluations quantitatives de ce risque. The degree of reliability of the anonymization algorithm is directly related to the risk of re-identification of anonymized data. This risk includes the risk of individualization, i.e. the possibility of isolating an individual, the risk of correlation, i.e. the possibility of linking distinct sets of data concerning the same individual, and the risk of inference, that is, the possibility of inferring information about an individual. However, faced with the development of information technologies which make it possible to link data from different sources, it is almost impossible to guarantee anonymization which would offer a zero risk of re-identification. Different methods for evaluating the risk of re-identification of a set of data having undergone anonymization processing, also referred to as “metrics” below, have been proposed and provide quantitative evaluations of this risk.
Certaines de ces métriques font appel à une méthode dite de couplage d’enregistrements, ou « record-linkage >> en anglais, qui est décrite par Robinson- Cox J. F. dans l’article « A record-linkage approach to imputation of missing data : Analyzing tag retention in a tag-recapture experiment >>, Journal of Agricultural, Biological, and Environmental Statistics 3(1 ), 1998, pp. 48-61. Cette méthode, qui consiste à comparer les individus d’un ensemble de données ayant fait l’objet d’un traitement d’anonymisation à un ensemble de données d’origine, fut initialement développée pour améliorer la qualité des données en reliant dans des fichiers distincts des enregistrements relatifs à la même personne. Elle permet en outre d’évaluer la robustesse d’un traitement d’anonymisation face une tentative de ré-identification dans laquelle l’attaquant serait en possession de l’ensemble de données anonymisées et de données originales d’un ou plusieurs individus dont il cherche à prouver l’appartenance à la cohorte anonymisée. Some of these metrics use a method called record-linkage, which is described by Robinson-Cox J. F. in the article “A record-linkage approach to imputation of missing data: Analyzing tag retention in a tag-recapture experiment >>, Journal of Agricultural, Biological, and Environmental Statistics 3(1), 1998, pp. 48-61. This method, which consists of comparing individuals from a data set that has undergone anonymization treatment with an original data set, was initially developed to improve data quality by linking in files distinct from records relating to the same person. It also makes it possible to assess the robustness of anonymization processing in the face of a re-identification attempt in which the attacker would be in possession of the set of anonymized data and original data of one or more individuals of whom he seeks to prove membership in the anonymized cohort.
Les méthodes de couplage déterministes, traitées par Gill L. dans l’article « Methods for Automatic Record Matching and Linking and Their Use in National Statistics >>, National Statistics Methodology Series no. 25, 2001 , London : Office for National Statistics, supposent l'existence d'un ensemble de variables communes dans les fichiers à relier. Le problème majeur d'une telle hypothèse est qu'une procédure d'appariement exacte des valeurs prises par les variables communes aux individus n’est pas toujours possible, ou suffisante, pour établir un lien entre les enregistrements. Cette problématique est abordée par Winkler W.E. dans l’article « Matching and record linkage », Cox B. G. (Ed.), Business Survey Methods, Wiley, New York, 1995, pp. 355-384. Dans la réalité, il existe entre les variables communes à deux enregistrements appariés une multitude de petites ou grandes différences provenant de plusieurs facteurs qui empêchent une correspondance parfaite des valeurs de ces variables. Deterministic linking methods, discussed by Gill L. in the article "Methods for Automatic Record Matching and Linking and Their Use in National Statistics", National Statistics Methodology Series no. 25, 2001, London: Office for National Statistics, assumes the existence of a set of common variables in the files to be linked. The major problem with such an assumption is that an exact matching procedure for the values taken by the variables common to the individuals is not always possible, or sufficient, to establish a link between the records. This issue is addressed by Winkler W.E. in the article “Matching and record linkage”, Cox B. G. (Ed.), Business Survey Methods, Wiley, New York, 1995, pp. 355-384. In reality, there are between the variables common to two matched records a multitude of small or large differences resulting from several factors which prevent a perfect correspondence of the values of these variables.
Pour pallier au problème susmentionné, des méthodes non déterministes ont été développées et permettent d’établir un lien entre deux enregistrements, avec un appariement qui peut être probabiliste ou basé sur une distance entre les individus. To overcome the aforementioned problem, non-deterministic methods have been developed and make it possible to establish a link between two records, with a matching that can be probabilistic or based on a distance between individuals.
L’appariement probabiliste permet d’établir des probabilités de lien entre des enregistrements. Deux enregistrements sont considérés comme liés lorsque la probabilité de lien entre eux dépasse un certain seuil. L’appariement probabiliste est décrit par Fellegi LP. et al., Jaro M.A., et Winkler W.E. dans leurs articles respectifs « A theory of record linkage >>, Journal of the American Statistical Association 64, 1969, pp. 1 183-1210, « Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa, Florida >>, Journal of the American Statistical Association 84, 1989, pp. 414-420, et « Advanced methods for record linkage >>, Proceedings of the American Statistical Association Section on Survey Research Methods, 1995, pp. 467-472. L’appariement basé sur la distance est décrit par Pagliuca D. et al. dans la publication « Some Results of Individual Ranking Method on the System of Enterprise Accounts Annual Survey, Esprit SDC Project», Deliverable MI-3/D2, 1999. Dans cette approche, des distances sont établies entre les individus et chaque individu se voit associé l’enregistrement le plus proche ou le deuxième enregistrement le plus proche, et est dit respectivement « linked to nearest » ou « linked to 2nd nearest », en anglais. Probabilistic matching makes it possible to establish probabilities of links between records. Two records are considered linked when the probability of a link between them exceeds a certain threshold. Probabilistic matching is described by Fellegi LP. et al., Jaro MA, and Winkler WE in their respective articles "A theory of record linkage", Journal of the American Statistical Association 64, 1969, pp. 1 183-1210, "Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa, Florida", Journal of the American Statistical Association 84, 1989, pp. 414-420, and “Advanced methods for record linkage”, Proceedings of the American Statistical Association Section on Survey Research Methods, 1995, pp. 467-472. Distance-based matching is described by Pagliuca D. et al. in the publication "Some Results of Individual Ranking Method on the System of Enterprise Accounts Annual Survey, Esprit SDC Project", Deliverable MI-3/D2, 1999. In this approach, distances are established between individuals and each individual is associated the closest record or the second closest record, and is said respectively “linked to nearest” or “linked to 2nd nearest”, in English.
La présente invention a pour objectif de fournir un nouveau procédé d’évaluation du risque de ré-identification de données anonymisées lors d’une attaque de recherche de correspondance basée sur la distance. The aim of the present invention is to provide a new method for evaluating the risk of re-identification of anonymized data during a distance-based matching search attack.
Selon un premier aspect, l’invention concerne un procédé de traitement de données mis en oeuvre par ordinateur pour l’évaluation d’un risque de réidentification de données anonymisées, le procédé fournissant un taux de protection représentatif du risque de ré-identification dans le cas d’une attaque de recherche de correspondance basée sur une distance, le procédé comprenant les étapes de a) lier un ensemble de données d’origine comprenant une pluralité d’individus d’origine à un ensemble de données anonymisées comprenant une pluralité d’individus anonymes, les individus anonymes étant produits par un processus d’anonymisation des individus d’origine ; b) transformer les individus d’origine et les individus anonymes dans un espace euclidien, les individus d’origine et individus anonymes étant représentés par des coordonnées dans l’espace euclidien ; c) identifier pour chaque dit individu d’origine un ou plusieurs individus anonymes les plus proches sur la base d'une distance, par une méthode dite « k-NN » ; et d) calculer le taux de protection comme étant un nombre moyen d’individus anonymes les plus proches de l’individu d’origine considéré qui ne sont pas un individu anonyme valide correspondant à l’individu d’origine considéré, les individus anonymes les plus proches étant ceux identifiés à l’étape c) et ayant une distance avec l’individu d’origine considéré inférieure à la distance entre l’individu d’origine considéré et l’individu anonyme valide. According to a first aspect, the invention relates to a data processing method implemented by computer for the evaluation of a risk of re-identification of anonymized data, the method providing a protection rate representative of the risk of re-identification in the case of a distance-based match-seeking attack, the method comprising the steps of a) linking an original data set comprising a plurality of original individuals to an anonymized data set comprising a plurality of anonymous individuals, the anonymous individuals being produced by a process of anonymization of the original individuals; b) transforming the original individuals and the anonymous individuals in Euclidean space, the original individuals and anonymous individuals being represented by coordinates in Euclidean space; c) identify for each said original individual one or more nearest anonymous individuals on the basis of a distance, by a so-called "k-NN" method; and d) calculating the protection rate as an average number of anonymous individuals closest to the original individual under consideration who are not a valid anonymous individual corresponding to the original individual under consideration, the anonymous individuals closer being those identified in step c) and having a distance with the original individual considered less than the distance between the original individual considered and the valid anonymous individual.
Selon une caractéristique particulière du procédé, la distance précitée est une distance euclidienne. According to a particular characteristic of the method, the aforementioned distance is a Euclidean distance.
Selon une autre caractéristique particulière du procédé, la transformation de l’étape b) est réalisée par une méthode factorielle et/ou à l’aide d’un réseau de neurones artificiels dit « auto-encodeur ». According to another particular characteristic of the method, the transformation of step b) is carried out by a factorial method and/or using an artificial neural network called an “auto-encoder”.
Selon encore une autre caractéristique particulière du procédé, la méthode factorielle utilisée à l’étape b) est une méthode dite « Analyse en Composantes Principales » lorsque les individus comprennent des variables de type continu, une méthode dite « Analyse des Correspondances Multiples » lorsque les individus comprennent des variables de type qualitatif ou une méthode dite « Analyse Factorielle de Données Mixtes » lorsque les individus comprennent des variables de type mixte « continu/qualitatif ». L’invention concerne aussi un système informatique d’anonymisation de données comportant un dispositif de stockage de données stockant des instructions de programme pour la mise en oeuvre du procédé tel que décrit brièvement ci- dessus. According to yet another particular characteristic of the method, the factorial method used in step b) is a so-called “Principal Component Analysis” method when the individuals include variables of the continuous type, a so-called “Multiple Correspondence Analysis” method when the individuals include qualitative type variables or a so-called “Mixed Data Factor Analysis” method when individuals include mixed “continuous/qualitative” type variables. The invention also relates to a data anonymization computer system comprising a data storage device storing program instructions for implementing the method as described briefly above.
L’invention concerne aussi un produit programme d’ordinateur comportant un support dans lequel sont enregistrées des instructions de programme lisibles par un processeur pour la mise en oeuvre du procédé tel que décrit brièvement ci- dessus. The invention also relates to a computer program product comprising a medium in which are recorded program instructions readable by a processor for implementing the method as described briefly above.
D’autres avantages et caractéristiques de la présente invention apparaîtront plus clairement à la lecture de la description ci-dessous de plusieurs modes de réalisation particuliers en référence aux dessins annexés, dans lesquels : Other advantages and characteristics of the present invention will appear more clearly on reading the description below of several particular embodiments with reference to the appended drawings, in which:
[Fig.1 ] La Fig.1 est un logigramme montrant un mode de réalisation particulier du procédé selon l’invention. [Fig.1] Fig.1 is a flowchart showing a particular embodiment of the method according to the invention.
[Fig.2] La Fig.2 représente un diagramme illustratif relatif au mode de réalisation du procédé selon l’invention de la Fig.1 . [Fig.2] Fig.2 represents an illustrative diagram relating to the embodiment of the method according to the invention of Fig.1.
[Fig.3] La Fig.3 montre un exemple d’une architecture générale d’un système informatique d’anonymisation de données dans lequel est mis en oeuvre le procédé selon l’invention. [Fig.3] Fig.3 shows an example of a general architecture of a data anonymization computer system in which the method according to the invention is implemented.
Dans la description qui suit, à des fins d'explication et non de limitation, des détails spécifiques sont fournis afin de permettre une compréhension de la technologie décrite. Il sera évident pour l'homme du métier que d'autres modes ou formes de réalisation peuvent être mis en pratique en dehors des détails spécifiques décrits ci-dessous. Dans d'autres cas, les descriptions détaillées de méthodes, techniques, etc., bien connus sont omises afin de ne pas complexifier la description avec des détails inutiles. In the description that follows, for purposes of explanation and not limitation, specific details are provided in order to facilitate an understanding of the technology described. It will be apparent to those skilled in the art that other modes or embodiments may be practiced outside of the specific details described below. In other cases, detailed descriptions of well-known methods, techniques, etc. are omitted so as not to complicate the description with unnecessary detail.
L’évaluation du risque de ré-identification nécessite de comparer un ensemble de données d’origine formé d’individus dits d’origine à un ensemble de données anonymisées formés d’individus dits anonymes. Les individus sont typiquement des enregistrements de données. Chaque individu anonyme de l’ensemble de données anonymisées représente une version anonymisée d’un individu d’origine correspondant. Une paire constituée par un individu d’origine et un individu anonyme correspondant est désignée « paire origine / anonyme ». Le risque de ré-identification est le risque qu’un attaquant réussisse à lier un individu d’origine à son enregistrement anonymisé, autrement dit l’individu anonyme correspondant, formant ainsi une paire origine / anonyme valide. Assessing the risk of re-identification requires comparing a set of original data made up of so-called original individuals with a set of anonymized data made up of so-called anonymous individuals. Individuals are typically data records. Each anonymized individual in the anonymized dataset represents an anonymized version of a corresponding original individual. A pair formed by an original individual and a corresponding anonymous individual is referred to as an “original/anonymous pair”. Re-identification risk is the risk that an attacker will successfully link an original individual to their anonymized record, i.e. the corresponding anonymous individual, thus forming a valid original/anonymous pair.
Le procédé selon l’invention pour l’évaluation du risque de ré-identification de données procure une métrique, basée sur une approche individu centrique, qui permet de quantifier le risque de ré-identification d’une donnée personnelle lors d’une attaque de recherche de correspondance basée sur la distance. En référence aux Figs.1 et 2, il est maintenant décrit un mode de réalisation particulier, désigné MR2, du procédé de l’invention, ayant une applicabilité intéressante dans le contexte d’une attaque de recherche de correspondance basée sur la distance. Ce mode de réalisation particulier MR2 est construit avec une approche résolument différente par rapport aux méthodes connues de l’état de l’art, en établissant un taux de protection qui est basé sur l’évaluation d’une densité de présence d’individus anonymes dans l’environnement immédiat des individus d’origine. The method according to the invention for the evaluation of the risk of re-identification of data provides a metric, based on an individual-centric approach, which makes it possible to quantify the risk of re-identification of personal data during a distance-based match search. With reference to Figs. 1 and 2, a particular embodiment, designated MR2, of the method of the invention is now described, having an interesting applicability in the context of a distance-based match-seeking attack. This particular embodiment MR2 is built with a decidedly different approach compared to the known methods of the state of the art, by establishing a protection rate which is based on the evaluation of a density of presence of anonymous individuals in the immediate environment of the original individuals.
Comme visible à la Fig.1 , ce mode de réalisation MR2 comprend cinq étapes S2- 1 à S2-5. As visible in Fig.1, this embodiment MR2 comprises five steps S2-1 to S2-5.
La première étape S2-1 effectue un traitement de jonction des données. La première étape S2-1 est une étape de jonction des données. Dans l’étape S2-1 , un ensemble de données d’origine EDO comprenant une pluralité d’individus d’origine IO est lié à un ensemble de données anonymisées EDA comprenant une pluralité d’individus anonymes IA. Les données anonymisées EDA sont celles fournies par un processus d’anonymisation ayant traité les données d’origine EDO et correspondant à celles-ci. The first step S2-1 performs data joining processing. The first step S2-1 is a data joining step. In step S2-1, a set of original data EDO comprising a plurality of original individuals IO is linked to a set of anonymized data EDA comprising a plurality of anonymous individuals IA. EDA anonymized data is that provided by an anonymization process that has processed the original EDO data and corresponds to it.
La deuxième étape S2-2 effectue un traitement de transformation des individus IO et IA dans un espace euclidien. Conformément à l’invention, différentes méthodes de transformation pourront être utilisées. Typiquement, mais pas exclusivement, une méthode factorielle ou un réseau de neurones artificiels dit « auto-encodeur >>, ou « autoencoder >> en anglais, pourra être utilisé pour convertir les individus IO et IA sous forme de coordonnées dans un espace euclidien. The second step S2-2 carries out a processing of transformation of the individuals IO and IA in a Euclidean space. In accordance with the invention, various transformation methods may be used. Typically, but not exclusively, a factorial method or an artificial neural network called "auto-encoder", or "autoencoder" in English, can be used to convert the individuals IO and IA in the form of coordinates in a Euclidean space.
Différentes méthodes factorielles pourront être utilisées en fonction du type des données. Ainsi, l’Analyse en Composantes Principales dite « ACP », ou « PCA >> en anglais pour « Principal Component Analysis”, sera utilisée typiquement lorsque les variables sont continues. L’Analyse des Correspondances Multiples dite « ACM >>, ou « MCA >> en anglais pour « Multiple Correspondance Analysis >>, sera utilisée typiquement si les variables sont qualitatives. L’« Analyse Factorielle de Données Mixtes >> dite « AFDM >>, ou « FAMD >> en anglais pour « Factor Analysis of Mixed Data >>, sera utilisée typiquement si les variables sont mixtes, c’est-à-dire, de type continu et de type qualitatif. Different factorial methods can be used depending on the type of data. Thus, Principal Component Analysis, known as “PCA”, or “PCA” in English for “Principal Component Analysis”, will typically be used when the variables are continuous. Multiple Correspondence Analysis, known as “ACM”, or “MCA”, in English for “Multiple Correspondence Analysis”, will typically be used if the variables are qualitative. The "Factor Analysis of Mixed Data" called "AFDM", or "FAMD" in English for "Factor Analysis of Mixed Data", will typically be used if the variables are mixed, that is to say, continuous type and qualitative type.
Dans l’exemple de réalisation traité ici, une méthode factorielle est utilisée à l’étape S2-2. Dans cette étape S2-2, des axes de variance signifiants sont identifiés dans les ensembles de données par une analyse de données multivariée. Ces axes de variance signifiants déterminent les axes de l’espace euclidien sur lesquels sont projetés les individus IO et IA. In the example embodiment discussed here, a factorial method is used in step S2-2. In this step S2-2, significant axes of variance are identified in the data sets by multivariate data analysis. These significant axes of variance determine the axes of Euclidean space onto which individuals IO and IA are projected.
La transformation des individus IO et IA dans l’espace euclidien rend possible des calculs de distance mathématique entre les individus, à partir de leurs coordonnées. Le procédé de l’invention prévoit une utilisation privilégiée d’une distance euclidienne en tant que distance mathématique. Cependant, on notera que l’utilisation de différentes autres distances mathématiques, telles qu’une distance de Manhattan, une distance de Mahalanobis et autres, est incluse dans la vision de la présente invention. The transformation of the individuals IO and IA in Euclidean space makes it possible to calculate the mathematical distance between the individuals, from their coordinates. The method of the invention provides for a privileged use of a Euclidean distance as a mathematical distance. However, it will be noted that the use of various other mathematical distances, such as a Manhattan distance, a Mahalanobis distance and the like, is included within the scope of the present invention.
La troisième étape S2-3 est une étape de calcul de distance mathématique, telle qu’une distance euclidienne. Dans cette étape S2-3, comme illustré à la Fig.2 dans laquelle les individus d’origine 10 et les individus anonyme IA sont représentés respectivement par des cercles noirs et des cercles blancs, dans un espace euclidien ayant des axes A1 et A2, il est calculé pour chaque individu d’origine IOi la distance mathématique dû qui le sépare de l’individu anonyme IAi avec qui il forme une paire origine / anonyme valide (IOi, IAi). The third step S2-3 is a mathematical distance calculation step, such as a Euclidean distance. In this step S2-3, as illustrated in Fig.2 in which the original individuals 10 and the anonymous individuals IA are represented respectively by black circles and white circles, in a Euclidean space having axes A1 and A2, for each original individual IOi, the mathematical distance due which separates it from the anonymous individual IAi with which it forms a valid origin/anonymous pair (IOi, IAi) is calculated.
La quatrième étape S2-4 est une étape de comptage, pour chaque individu d’origine IOi, du nombre Nj des individus anonymes non valides IAj séparés de l’individu d’origine IOi par une distance mathématique dij qui est inférieure à la distance dû calculée à l’étape S2-3. La méthode des « k plus proches voisins >> dite « k-NN >> (de « k-Nearest Neighbors >> en anglais) est ici utilisée pour identifier pour chaque individu d’origine un ou plusieurs individus anonymes les plus proches sur la base d'une distance mathématique, telle qu’une distance euclidienne. The fourth step S2-4 is a step of counting, for each original individual IOi, the number Nj of invalid anonymous individuals IAj separated from the original individual IOi by a mathematical distance dij which is less than the distance due calculated in step S2-3. The "k-nearest neighbors" method, known as "k-NN" (from "k-Nearest Neighbors" in English) is used here to identify, for each individual of origin, one or more anonymous individuals closest on the based on a mathematical distance, such as a Euclidean distance.
Dans cette étape S2-4, comme illustré à la Fig.2, il est donc compté le nombre Nj des individus anonymes non valides IAj présents dans la zone contenue dans le cercle de rayon dû centré sur l’individu d’origine IOi. In this step S2-4, as illustrated in Fig.2, the number Nj of invalid anonymous individuals IAj present in the area contained in the circle of radius due centered on the original individual IOi is therefore counted.
L’individu d’origine IOi est d’autant mieux protégé contre une ré-identification que le nombre Nj est élevé. En effet, les Nj individus anonymes non valides IAj étant plus proches, en termes de distance mathématique, de l’individu d’origine IOi que l’individu anonyme valide IAi, une attaque basée sur la distance sera fondée à sélectionner prioritairement l’un des Nj individus anonymes non valides IAj comme étant l’individu anonyme correspondant. Le nombre Nj représente le nombre de correspondances possibles pour l’attaquant avant de sélectionner l’individu anonyme valide IAi. The original individual IOi is all the better protected against re-identification as the number Nj is high. Indeed, the Nj invalid anonymous individuals IAj being closer, in terms of mathematical distance, to the original individual IOi than the valid anonymous individual IAi, an attack based on the distance will be based on selecting as a priority one Nj invalid anonymous individuals IAj as being the corresponding anonymous individual. The number Nj represents the number of possible matches for the attacker before selecting the valid anonymous individual IAi.
La cinquième étape S2-5 est une étape de calcul du taux de protection des données contre la ré-identification, désigné ici txP2, pour l’ensemble de données considéré. Le taux de protection txP2 est ici calculé comme étant un nombre médian Nm d’individus anonymes non valides IAj présents autour d’un individu d’origine dans l’ensemble de données considéré. The fifth step S2-5 is a step for calculating the data protection rate against re-identification, designated here txP2, for the data set considered. The protection rate txP2 is calculated here as being a median number Nm of invalid anonymous individuals IAj present around an original individual in the considered data set.
A titre d’exemple, on considère ici le cas d’un attaquant qui est en possession d'un ensemble de données contenant des données anonymes (individus IA) de 100 personnes dont fait partie une personne considérée i. L’attaquant est également en possession de la donnée originale (individu IOi) de la personne considérée i. L’attaquant tente de prouver que la donnée originale (individu IOi) de la personne considérée i fait partie de la cohorte anonymisée. Afin de réidentifier la paire origine / anonyme valide (IOi, IAi), l’attaquant doit procéder à une mise en correspondance des individus et utilise pour cela une distance mathématique entre ceux-ci, telle qu’une distance euclidienne. Si, par exemple, le taux de protection des données est de txP2=7 pour cet ensemble de données, cela signifie que l’attaquant se trouvera alors dans une situation, comme représentée à la Fig.2, dans laquelle il aura en moyenne Nj=7 individus anonymes non valides IAj plus proches que l’individu anonyme valide IAi et potentiellement sélectionnâmes. Ainsi, plus l’environnement de l’individu d’origine IOi est dense, avec de nombreux individus anonymes non valides IAj, et plus cet individu IOi sera difficile à ré-identifier. By way of example, we consider here the case of an attacker who is in possession of a data set containing anonymous data (IA individuals) of 100 people of which a considered person i belongs. The attacker is also in possession of the original datum (individual IOi) of the considered person i. The attacker attempts to prove that the original datum (individual IOi) of the considered person i is part of the anonymized cohort. In order to re-identify the valid origin/anonymous pair (IOi, IAi), the attacker must carry out a matching of the individuals and uses for this a mathematical distance between them, such as a Euclidean distance. If, for example, the data protection rate is txP2=7 for this data set, this means that the attacker will then find himself in a situation, as represented in Fig.2, in which he will have on average Nj=7 anonymous individuals not able-bodied IAj closer than the valid anonymous individual IAi and potentially selected. Thus, the denser the environment of the original individual IOi, with numerous invalid anonymous individuals IAj, the more difficult this individual IOi will be to re-identify.
Une architecture générale d’un système informatique d’anonymisation de données SAD dans lequel est mis en oeuvre le procédé selon l’invention d’évaluation du risque de ré-identification est montrée à titre d’exemple à la Fig.3.A general architecture of a data anonymization computer system SAD in which the method according to the invention for evaluating the risk of re-identification is implemented is shown by way of example in FIG.
Le système SAD est implanté ici dans un système informatique local DSL et comprend deux modules logiciels MAD et MET. Les modules logiciels MAD et MET sont hébergés dans des dispositifs de stockage de données SD, tels que mémoire et/ou disque dur, du système informatique local DSL. Le système informatique local DSL héberge également une base de données d’origine BDO dans laquelle sont stockées des données d’origine DO et une base de données anonymisées BDA dans laquelle sont stockées des données anonymisées DA.The SAD system is implemented here in a local computer system DSL and comprises two software modules MAD and MET. The MAD and MET software modules are hosted in data storage devices SD, such as memory and/or hard disk, of the local computer system DSL. The local computer system DSL also hosts an original database BDO in which original data DO is stored and an anonymized database BDA in which anonymized data DA is stored.
Le module logiciel MAD met en oeuvre un processus d’anonymisation de données qui traite les données d’origine DO et fournit en sortie les données anonymisées DA. The MAD software module implements a data anonymization process which processes the original data DO and outputs the anonymized data DA.
Le module logiciel MET met en oeuvre le procédé selon l’invention pour l’évaluation du risque de ré-identification des données. Le module logiciel MET reçoit en entrée des données d’origine DO et des données anonymisées DA et fournit en sortie un taux de protection TP contre le risque de ré-identification. La mise en oeuvre du procédé selon l’invention est assurée par l'exécution d'instructions de code du module logiciel MET par un processeur (non représenté) du système informatique local DSL. Le taux de protection TP fourni par le module logiciel MET procure une mesure de la performance du processus d’anonymisation de données mis en oeuvre par le module logiciel MAD. The software module MET implements the method according to the invention for the evaluation of the risk of re-identification of the data. The software module MET receives as input original data DO and anonymized data DA and provides as output a protection rate TP against the risk of re-identification. The implementation of the method according to the invention is ensured by the execution of code instructions of the software module MET by a processor (not shown) of the local computer system DSL. The protection rate TP provided by the software module MET provides a measure of the performance of the data anonymization process implemented by the software module MAD.
Bien entendu, l’invention ne se limite pas aux exemples de réalisation qui ont été décrits ici à titre illustratif. L’homme du métier, selon les applications de l’invention, pourra apporter différentes modifications et variantes entrant dans le champ de protection de l’invention. Of course, the invention is not limited to the embodiments which have been described here by way of illustration. The person skilled in the art, depending on the applications of the invention, may make various modifications and variants falling within the scope of protection of the invention.

Claims

9 9
Revendications Procédé de traitement de données mis en oeuvre par ordinateur pour l’évaluation d’un risque de ré-identification de données anonymisées, ledit procédé fournissant un taux de protection (txP2) représentatif dudit risque de ré-identification dans le cas d’une attaque de recherche de correspondance basée sur une distance, ledit procédé comprenant les étapes de a) lier un ensemble de données d’origine (EDO) comprenant une pluralité d’individus d’origine (IO) à un ensemble de données anonymisées (EDA) comprenant une pluralité d’individus anonymes (IA), lesdits individus anonymes (IA) étant produits par un processus d’anonymisation desdits individus d’origine (IO); b) transformer (PCA, MCA, FAMD) lesdits individus d’origine (IO) et lesdits individus anonymes (IA) dans un espace euclidien (A1 , A2), lesdits individus d’origine (IO) et individus anonymes (IA) étant représentés par des coordonnées dans ledit espace euclidien (A1 , A2) ; c) identifier pour chaque dit individu d’origine (IO) un ou plusieurs dits individus anonymes (IA) les plus proches sur la base d'une distance, par une méthode dite « k-NN >> ; et d) calculer ledit taux de protection (txP2) comme étant un nombre moyen (Nm) de dits individus anonymes (IAj) les plus proches d’un dit individu d’origine (IOi) qui ne sont pas un individu anonyme valide (IAi) correspondant audit individu d’origine (IOi), lesdits individus anonymes (IAj) les plus proches étant ceux identifiés à l’étape c) et ayant une distance (dij) avec ledit individu d’origine (IOi) inférieure à la distance (dû) entre ledit individu d’origine (IOi) et ledit individu anonyme valide (IAi). Procédé selon la revendication 1 , caractérisé en ce que ladite distance est une distance euclidienne. Procédé selon la revendication 1 ou 2, caractérisé en ce que la transformation de l’étape b) est réalisée par une méthode factorielle (PCA, MCA, FAMD) et/ou à l’aide d’un réseau de neurones artificiels dit « autoencodeur ». Procédé selon la revendication 3, caractérisé en ce que ladite méthode factorielle est une méthode dite « Analyse en Composantes Principales >> (PCA) lorsque lesdits individus (IO, IA) comprennent des variables de type continu, une méthode dite « Analyse des Correspondances Multiples >> (MCA) lorsque lesdits individus (IO, IA) comprennent des variables de type qualitatif, ou une méthode dite « Analyse Factorielle de Données Mixtes >> (FAMD) lorsque lesdits individus (IO, IA) comprennent des variables de type mixte « continu/qualitatif >>. Système informatique d’anonymisation de données (SAD) comportant un dispositif de stockage de données (SD) stockant des instructions de programme (MET) pour la mise en oeuvre du procédé selon l’une quelconque des revendications 1 à 4. Produit programme d’ordinateur comportant un support dans lequel sont enregistrées des instructions de programme (MET) lisibles par un processeur pour la mise en oeuvre du procédé selon l’une quelconque des revendications 1 à 4. Claims Data processing method implemented by computer for the evaluation of a risk of re-identification of anonymized data, said method providing a protection rate (txP2) representative of said risk of re-identification in the case of a distance-based match-seeking attack, said method comprising the steps of a) linking an original dataset (EDO) comprising a plurality of original individuals (IO) to an anonymized dataset (EDA) comprising a plurality of anonymous individuals (IA), said anonymous individuals (IA) being produced by a process of anonymizing said original individuals (IO); b) transforming (PCA, MCA, FAMD) said original individuals (IO) and said anonymous individuals (IA) into a Euclidean space (A1, A2), said original individuals (IO) and anonymous individuals (IA) being represented by coordinates in said Euclidean space (A1, A2); c) identify for each said original individual (IO) one or more said closest anonymous individuals (IA) on the basis of a distance, by a method called "k-NN"; and d) calculating said protection rate (txP2) as being an average number (Nm) of said anonymous individuals (IAj) closest to a said original individual (IOi) who are not a valid anonymous individual (IAi ) corresponding to said original individual (IOi), said closest anonymous individuals (IAj) being those identified in step c) and having a distance (dij) with said original individual (IOi) less than the distance ( due) between said original individual (IOi) and said valid anonymous individual (IAi). Method according to Claim 1, characterized in that the said distance is a Euclidean distance. Method according to Claim 1 or 2, characterized in that the transformation of step b) is carried out by a factorial method (PCA, MCA, FAMD) and/or using an artificial neural network called an "autoencoder ". Method according to Claim 3, characterized in that the said factorial method is a method called "Principal Component Analysis" (PCA) when the said individuals (IO, IA) comprise variables of continuous type, a method called "Multiple Correspondence Analysis" >> (MCA) when said individuals (IO, IA) include qualitative type variables, or a method called “Factorial Analysis of Mixed Data” (FAMD) when said individuals (IO, IA) include mixed type variables “ continuous/qualitative >>. Data anonymization computer system (SAD) comprising a data storage device (SD) storing program instructions (MET) for implementing the method according to any one of Claims 1 to 4. computer comprising a medium in which are recorded program instructions (MET) readable by a processor for implementing the method according to any one of Claims 1 to 4.
EP21810059.2A 2020-10-07 2021-10-07 Method for evaluating the risk of re-identification of anonymised data Pending EP4226267A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2010259A FR3114892A1 (en) 2020-10-07 2020-10-07 PROCEDURE FOR ASSESSING THE RISK OF RE-IDENTIFICATION OF ANONYMIZED DATA
PCT/FR2021/000113 WO2022074301A1 (en) 2020-10-07 2021-10-07 Method for evaluating the risk of re-identification of anonymised data

Publications (1)

Publication Number Publication Date
EP4226267A1 true EP4226267A1 (en) 2023-08-16

Family

ID=74553910

Family Applications (2)

Application Number Title Priority Date Filing Date
EP21810059.2A Pending EP4226267A1 (en) 2020-10-07 2021-10-07 Method for evaluating the risk of re-identification of anonymised data
EP21810398.4A Withdrawn EP4226268A1 (en) 2020-10-07 2021-10-07 Method for evaluating the risk of re-identification of anonymized data

Family Applications After (1)

Application Number Title Priority Date Filing Date
EP21810398.4A Withdrawn EP4226268A1 (en) 2020-10-07 2021-10-07 Method for evaluating the risk of re-identification of anonymized data

Country Status (5)

Country Link
US (2) US20240005035A1 (en)
EP (2) EP4226267A1 (en)
CA (2) CA3194820A1 (en)
FR (1) FR3114892A1 (en)
WO (2) WO2022074302A1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3048101A1 (en) * 2016-02-22 2017-08-25 Digital & Ethics METHOD AND DEVICE FOR EVALUATING THE ROBUSTNESS OF AN ANONYMOUSING OF A SET OF DATA
US11188678B2 (en) * 2018-05-09 2021-11-30 Fujitsu Limited Detection and prevention of privacy violation due to database release

Also Published As

Publication number Publication date
WO2022074301A1 (en) 2022-04-14
US20230367901A1 (en) 2023-11-16
CA3194820A1 (en) 2022-04-14
FR3114892A1 (en) 2022-04-08
WO2022074302A1 (en) 2022-04-14
CA3194570A1 (en) 2022-04-14
US20240005035A1 (en) 2024-01-04
EP4226268A1 (en) 2023-08-16

Similar Documents

Publication Publication Date Title
EP2795831B1 (en) Biometric identification using filtering and secure multi party computation
JP2017091515A (en) Computer-implemented system and method for automatically identifying attributes for anonymization
CA2743954C (en) Identification or authorisation method, and associated system and secure module
FR3018934A1 (en) METHOD OF INPUTTING DATA IN A BASE FOR THE PROTECTION OF THESE DATA
CN111859451A (en) Processing system of multi-source multi-modal data and method applying same
EP2862309A1 (en) Secure method of processing data
Osia et al. Privacy-preserving deep inference for rich user data on the cloud
WO2009067159A2 (en) Media asset evaluation based on social relationships
WO2018138423A1 (en) Automatic detection of frauds in a stream of payment transactions by neural networks integrating contextual information
EP4226267A1 (en) Method for evaluating the risk of re-identification of anonymised data
Bryant et al. Evaluation of bias in sensitive personal information used to train financial models
US11314897B2 (en) Data identification method, apparatus, device, and readable medium
WO2020165519A1 (en) Method for constructing behavioural software signatures
FR3048101A1 (en) METHOD AND DEVICE FOR EVALUATING THE ROBUSTNESS OF AN ANONYMOUSING OF A SET OF DATA
CH717260A2 (en) Computer-implemented method for analogue document retrieval.
Boudewijn et al. Privacy Measurements in Tabular Synthetic Data: State of the Art and Future Research Directions
Marturana et al. A machine learning‐based approach to digital triage
US11436515B2 (en) Computer architecture for generating hierarchical clusters in a correlithm object processing system
EP4179444A1 (en) Method and system for anonymisation of time series
FR3010206A1 (en) METHOD FOR MANAGING A USER DATABASE ON A MULTIMEDIA CONTENT PLATFORM
WO2021009364A1 (en) Method for identifying outlier data in a set of input data acquired by at least one sensor
FR3134674A1 (en) Method and device for communicating data representative of graphic objects generated from data representative of a set of electronic messages
FR3080930A1 (en) COMPUTER BASED DATA SYSTEM
FR3067899A1 (en) METHOD AND MODULE FOR MANAGING SECURE DATA TRANSMISSIONS AND CORRESPONDING PROGRAM.
EP2477148A1 (en) Method and system for private data protection

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230505

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN