CN117546166A - 用于检查数据匿名化的计算机实现的方法和系统 - Google Patents
用于检查数据匿名化的计算机实现的方法和系统 Download PDFInfo
- Publication number
- CN117546166A CN117546166A CN202280044817.1A CN202280044817A CN117546166A CN 117546166 A CN117546166 A CN 117546166A CN 202280044817 A CN202280044817 A CN 202280044817A CN 117546166 A CN117546166 A CN 117546166A
- Authority
- CN
- China
- Prior art keywords
- data
- distributed database
- computer
- metadata
- anonymization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 238000012795 verification Methods 0.000 claims abstract description 10
- 238000007689 inspection Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 13
- 230000002159 abnormal effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000033228 biological regulation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 238000013524 data verification Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000013474 audit trail Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3236—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
- H04L9/3239—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/50—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及用于检查数据的匿名化的计算机实现的方法和系统。匿名化数据(D2)通过基于数据隐私规则(PR)的智能合同过程来分析,从而在异常的情况下自动产生标志。智能合同可以以分散的方式管理,其中分布式数据库(DB)的阳极可以验证智能合同中指定的规则和/或评估异常情况。为此,通过将数据隐私规则(PR)应用于原始数据(D1),在数据源处生成测试数据(D3)。对照匿名化数据(D2)检查测试数据(D3),并根据检查结果生成元数据(MD)。元数据(MD)被提供给分布式数据库的节点用于进一步验证。
Description
技术领域
本发明涉及用于检查数据匿名化的计算机实现的方法和系统以及计算机程序产品。
背景技术
数据收集是支持数据分析、过程挖掘、机器学习和/或人工智能的最重要的方面之一。然而,这种数据收集也引起了关于数据隐私和基于数据的用户识别的关注。随着越来越多的重要性和规定被应用于保护用户数据隐私,数据匿名化技术可用于确保保护用户身份。数据匿名化基本上在收集之前或收集期间,以及在将数据发送到数据收集器之前,去除数据的可识别部分。有各种技术方式来实现数据匿名化,但无论所使用的技术如何,最终结果都应符合数据隐私规定。然而,需要一种数据是否被正确匿名的自动审查机制。此外,通常没有匿名化是否正确执行的证明,例如,以用于以后的审计。
US2020/41 0135A1公开了一种用于提供对信息的访问的方法,包括用于匿名化数据的方法步骤。
发明内容
因此,本发明的目的是提供数据匿名化的验证。
该目的通过独立权利要求的特征来解决。从属权利要求包含本发明的进一步发展。
根据第一方面,本发明提供了一种用于检查数据匿名化的计算机实现的方法,所述方法包括以下步骤:
-读入数据隐私规则,
-存储分布式数据库的第一节点的原始数据,
-读入匿名化数据,其中匿名化数据是在由分布式数据库的第二节点取回原始数据时借助于匿名化方法并且依赖于原始数据而生成的,
-通过将数据隐私规则应用于原始数据来生成测试数据,
-对照测试数据的至少部分检查匿名化数据的至少部分,并输出检查结果,
-根据检查结果生成元数据,
以及
-将元数据发送到分布式数据库。
根据第二方面,本发明提供了一种用于检查数据匿名化的系统,所述系统包括:
-第一接口,其被配置为读入数据隐私规则,
-存储模块,其被配置为存储分布式数据库的第一节点的原始数据,
-第二接口,其被配置为读入匿名化数据,其中,匿名化数据是在由分布式数据库的第二节点取回原始数据时借助于匿名化方法并且依赖于原始数据而生成的,
-测试数据生成器,其被配置为通过将数据隐私规则应用于原始数据来生成测试数据,
-检查模块,其被配置为对照匿名化数据的至少部分检查测试数据的至少部分,并输出检查结果,
-元数据生成器,被配置为根据检查结果生成元数据,
以及
-输出模块,其被配置成将元数据发送到分布式数据库中。
除非在下面的描述中另有说明,否则术语“执行”、“运算”、“计算机辅助”、“计算”、“发现”、“生成”、“配置”、“重建”等优选地涉及改变和/或产生数据和/或将数据转换成其他数据的动作和/或过程和/或处理步骤,所述数据能够作为物理变量呈现或可用,特别地,例如作为电脉冲。特别地,表述“计算机”应该尽可能广义地解释,以便特别覆盖具有数据处理特性的所有电子设备。
因此,计算机可以是例如个人计算机、服务器、可编程逻辑控制器(PLC)、手持计算机系统、掌上PC设备、移动无线电和能够以计算机辅助方式处理数据的其他通信设备、用于数据处理的处理器和其他电子设备。处理器特别地可以是中央处理单元(CPU)、微处理器或微控制器,例如可能与用于存储程序指令等的存储器单元相结合的专用集成电路或数字信号处理器等。作为示例,处理器也可以是IC(集成电路),特别是FPGA(现场可编程门阵列)或ASIC(专用集成电路),或者DSP(数字信号处理器)或图形处理器GPU(图形处理单元)。处理器也可以理解为意为虚拟化处理器、虚拟机或软CPU。作为示例,它也可以是可编程处理器,其配备有用于执行根据本发明的实施例的方法的配置步骤,或者其通过配置步骤来配置,使得可编程处理器实现根据本发明的实施例的用于方法、组件、模块或本发明的实施例的其他方面和/或子方面的特征。
在本发明的实施例的上下文内,“模块”可以被理解为意为例如处理器和/或用于存储程序指令的存储器单元。作为示例,处理器被具体配置为执行程序指令,使得处理器执行功能以实现或执行根据本发明的实施例的方法或根据本发明的实施例的方法的步骤。作为示例,模块也可以是分布式数据库系统的节点,其例如执行/实现适用模块的特定功能/特征。作为示例,各个模块也可以是分离的或独立的模块的形式。为此,例如,适用模块可以包括另外的元件。这些元件例如是一个或多个接口(例如,数据库接口、通信接口——例如,网络接口、WLAN接口)和/或评估单元(例如,处理器)和/或存储器单元。接口可以用于例如交换(例如,接收、传送、发送或提供)数据。评估单元可以用于例如以计算机辅助和/或自动化的方式比较、检查、处理、分配或计算数据。存储器单元可以用于例如以计算机辅助和/或自动化的方式存储、取回或提供数据。
在本发明的实施例的上下文内,“提供”,特别是关于数据和/或信息,可以理解为意为例如计算机辅助供应。例如经由接口(例如数据库接口、网络接口、到存储器单元的接口)实施供应。该接口可以用于例如在供应期间传送和/或发送和/或取回和/或接收适用数据和/或信息。
在本发明的实施例的上下文内,“供应”也可以被理解为意为例如加载或存储例如包含适用数据的事务。作为示例,这可以在存储器模块上实施或者由存储器模块实施。“供应”也可以被理解为意为例如从区块链或分布式数据库系统(或其基础设施)的一个节点向另一个节点传输(或发送或传送)适用数据。
在本发明的实施例的上下文内,“智能合同过程”可以被理解为意为特别是分布式数据库系统或其基础设施在过程中执行(例如,控制指令的)程序代码。
在本发明的实施例的上下文内,“插入到分布式数据库系统中”等可以被理解为意为例如,特别地,一个或多个事务或具有其事务的数据块被传送到分布式数据库系统的一个或多个节点。如果这些事务例如被成功验证(例如,通过一个或多个节点),则这些事务特别地与分布式数据库系统的至少一个现有数据块连结(concatenate)为新数据块。为此目的,适用事务被存储在例如新数据块中。特别地,这种验证和/或连结可以由可信节点(例如,挖掘节点、区块链预言机(oracle)或区块链平台)来执行。
在本发明的实施例的上下文内,“事务”或“多个事务”可以被理解为意为例如智能合同、数据结构或事务数据记录,特别地,每个包括事务之一或多个事务。在本发明的实施例的上下文内,“事务”或“多个事务”也可以理解为意为例如区块链的数据块的事务的数据。例如,事务特别地可以包括提供智能合同的程序代码。作为示例,在本发明的实施例的上下文内,事务也可以理解为意为控制事务和/或确认事务。替代地,作为示例,事务可以是存储数据(例如,控制指令)的数据结构。例如,事务特别地可以包括提供智能合同的程序代码。
在本发明的实施例的上下文内,“程序代码”(例如,智能合同)可以被理解为意为例如程序指令或多个程序指令,特别是存储在一个或多个事务中。程序代码特别是可执行的,并且例如由分布式数据库系统执行。这可以借助于执行环境(例如虚拟机)来实现,例如,执行环境或程序代码优选地是图灵完整的。程序代码优选地由分布式数据库系统的基础设施执行。这涉及例如由分布式数据库系统的基础设施实现的虚拟机。
在本发明的实施例的上下文内,“智能合同”可以被理解为意为例如可执行程序代码(特别地参见“程序代码”定义)。智能合同优选地存储在分布式数据库系统(例如,区块链)的事务中,例如存储在分布式数据库系统的数据块中。作为示例,智能合同可以以与“程序代码”的定义中所解释的相同方式来执行,特别是在本发明的实施例的上下文内。
在本发明的实施例的上下文内,作为示例,也可以被称为分布式数据库系统的“分布式数据库”可以被理解为意为例如本地分布式数据库、区块链、分布式账本、分布式存储器系统、基于分布式账本技术(DLT)的系统(DLTS)、防修订数据库系统、云、云服务、云中的区块链或对等数据库。
“分布式数据库系统”也可以被理解为意为例如具有由云实现的其节点和/或设备和/或基础设施中的至少一些的分布式数据库系统。作为示例,适用组件被实现为云中的节点/设备(例如,虚拟机中的虚拟节点)。
例如,分布式数据库系统可以是公共分布式数据库系统(例如,公共区块链)或封闭(或私有)分布式数据库系统(例如,私有区块链)。
例如,分布式数据库系统也可以是用于数据交换的分布式通信系统或对等通信系统或对等应用。例如,这可以是网络或对等网络。例如,分布式数据库系统也可以是本地分布式数据库系统和/或本地分布式通信系统。
在本发明的实施例的上下文内,“区块链节点”、“节点”、“分布式数据库系统的节点”等可以被理解为意为例如为(利用)分布式数据库系统(例如区块链)执行操作的设备(例如现场设备)、计算机、智能电话、客户端或订户。作为示例,这种节点可以执行分布式数据库系统的事务或其数据块,或者借助于新数据块将新数据块与新事务一起插入或连结到分布式数据库系统中。
在本发明实施例的上下文内,“数据隐私规则”,也称为隐私规则或(隐私)规定,可以理解为包括关于数据隐私的定义、约束和/或规定。数据隐私规则可以例如基于数据分类,其中数据分类定义了哪些数据被分类为私有的。例如,数据隐私规则可以定义在收集或存储数据集时,数据集的哪一部分受到限制。对数据集应用数据隐私规则可以例如意味着删除或修改数据集的至少一部分以满足数据隐私规则。
在本发明实施例的上下文内,“匿名化”可以理解为使用已知的匿名化方法/技术的数据匿名化。匿名化方法可以例如包括抑制(suppression),其中信息被从数据中去除;一般化(generalization),其中信息被一般化/粗化;扰动(perturbation),其中例如通过向数据添加噪声来修改信息;以及置换(permutation),其中信息被交换。
本发明的一个优点是使数据匿名化的验证自动化,其中自动化可以由在分布式数据库系统上执行的智能合同来管理。由于这种智能合同是由分布式数据库系统的一组节点运行的,因此可以最小化个体疏忽的机会。
例如,可以通过将匿名化数据的数据结构的内容与测试数据的数据结构的内容进行比较来执行检查。然后,检查结果可以作为元数据提供。因此,元数据被链接到相应的原始数据。由于只提供元数据,所以在提供关于所执行的数据匿名化的证明的同时,维护了数据隐私。因此,还可以实现数据匿名化的未来审计。
根据该方法的实施例,在否定的检查结果的情况下,元数据可以包括关于匿名化数据与测试数据的偏差的信息。
因此,可以进一步分析和/或验证元数据。匿名化数据与测试数据的偏差可以是例如测试数据中不存在的包含在匿名化数据中的数据字段和/或特定信息。在肯定的检查结果的情况下,元数据优选地仅包括关于正确执行的匿名化的信息。
根据该方法的进一步实施例,匿名化方法可以由第二节点定义。
优选地,数据收集器,即第二节点,可以预定义/提供匿名化方法。当从第一节点收集/取回数据时,匿名化技术应该确保满足数据隐私规则。
根据该方法的进一步实施例,元数据可以包括关于匿名化方法的信息。
优选地,当由第二节点读取/收集原始数据时,自动生成元数据。元数据可以包括关于所执行的数据匿名化方法/技术的信息。优选地,元数据不包括敏感信息,而仅包括验证数据匿名化过程所需的信息。
根据该方法的进一步实施例,数据隐私规则可以定义原始数据的哪一部分需要被去除。
为此,数据隐私规则定义了数据集的哪一部分不应被公开。例如,数据隐私规则可以定义数据提供者/数据所有者的例如姓名、年龄、性别等不应由数据收集器收集。
根据该方法的进一步实施例,在否定的检查结果的情况下,可以标记所应用的匿名化方法和/或第二节点。
例如,审计员可以根据该标志进一步检查匿名化数据。
根据该方法的进一步实施例,元数据和/或检查结果可以存储在分布式数据库中。
例如,元数据可以插入到分布式数据库中。因此,关于数据匿名化过程的信息可以被不可变地存储,并且可以例如用于例如将来的审计。
根据该方法的进一步实施例,数据隐私规则可以由分布式数据库的选定节点来定义。
优选地,数据隐私规则可以由分布式数据库系统的节点的选定子集来管理。
根据该方法的进一步实施例,可以由分布式数据库的至少一个选定节点和/或外部实体对照数据隐私规则来验证元数据。
根据该方法的进一步实施例,元数据可以由分布式数据库的多个选定节点来验证,并且该验证基于由选定节点执行的共识方法。
这例如具有这样的优点,即匿名化过程由若干实体检查,从而确保匿名化被正确执行。
根据该方法的进一步实施例,该方法步骤可以通过由分布式数据库的节点执行的智能合同来实现。
因此,匿名化的验证可以自动化。由于智能合同可以由一组节点运行,因此个体疏忽的机会被最小化。此外,智能合同可以基于规则/规定进行更新,以保持持续的合规性。
根据该方法的进一步实施例,分布式数据库可以是区块链或分布式账本。
此外,要求保护一种计算机程序产品(具有指令的非暂时性计算机可读存储介质,当由处理器执行时,所述指令执行动作),所述计算机程序产品具有用于执行根据本发明的实施例的前述方法的程序指令,其中根据本发明的实施例的方法之一、根据本发明的实施例的所有方法或者根据本发明的实施例的方法的组合每次可通过计算机程序产品来执行。
附图说明
将参照附图更详细地解释本发明。
图1是本发明的第一示例性实施例;
图2是本发明的第二示例性实施例;并且
图3是本发明的第三示例性实施例。
不同附图中的等同部分用相同的附图标记标注。
具体实施方式
此外,特别地,具有一个或多个方法权利要求的知识的本领域(相关)技术人员当然知道用于实现产品的所有常规选项或用于在传统技术中实施的选项,因此不需要特别地在描述中独立公开。特别地,本领域技术人员已知的这些常规实现变型可以排他性地通过硬件(组件)或排他性地通过软件(组件)来实现。替代地和/或附加地,本领域技术人员在其专业能力范围内,可以最大可能程度地选择根据本发明的实施例的硬件(组件)和软件(组件)的任意组合,以便实现根据本发明的实施例的实现变型。
根据本发明的实施例的硬件(组件)和软件(组件)的组合可以发生,特别是如果根据本发明的实施例的效果的一部分优选地排他性地由专用硬件(例如,ASIC或FPGA形式的处理器)和/或另一部分由(处理器和/或存储器辅助的)软件带来。
特别地,鉴于大量不同的实现选项,命名所有这些实现选项对于理解本发明的实施例是不可能的,也是没有帮助或必要的。在这方面,特别地,以下所有示例性实施例旨在仅通过示例的方式来展示一些方式,在这些方式中,特别地,根据本发明的实施例的教导的这种实现可以被体现。
因此,特别地,各个示例性实施例的特征不限于相应的示例性实施例,而是特别地通常涉及本发明的实施例。因此,一个示例性实施例的特征也可以优选地用作另一个示例性实施例的特征,特别是在这不必在相应的示例性实施例中明确说明的情况下。
图1示出了本发明的第一示例性实施例。它示出了图示用于检查数据匿名化的计算机实现的方法的方法步骤的流程图。
数据例如可以是数据源/数据所有者拥有的个人、敏感和/或安全数据。例如,数据由数据源(例如个体或设备)提供。数据可以例如由数据收集器从数据源收集/取回。例如,数据可以由实体所拥有的IoT设备和传感器的个体或组提供,并且可以由可以基于该数据提供分析和智能的另一个实体收集。例如,数据可以由一组个体基于活动(例如停车模式或交通信息)提供,并且可以由自动驾驶公司收集以用于智能。
该方法可以通过在分布式数据库系统的节点上运行的智能合同过程来实现。例如,数据源和数据收集器二者可以是所述分布式数据库系统的节点。该方法实现了数据匿名化的自动验证,例如通过智能合同过程。此外,关于所执行的数据匿名化的信息可以被插入到分布式数据库中。
该方法涉及在第一步骤S1中读入数据隐私规则。数据隐私规则例如可以由分布式数据库的节点的至少一些来定义。
在下一步骤S2中,提供分布式数据库的第一节点的原始数据。例如,原始数据可以包括敏感、机密或个人数据部分。例如,当收集原始数据时,可以由数据隐私规则来定义哪些数据部分需要被去除或修改。
原始数据可以例如由分布式数据库系统的第二节点取回/收集。第二节点定义了匿名化方法,其在取回原始数据时应用于原始数据,从而生成匿名化数据。换句话说,当收集/取回原始数据时,借助于匿名化方法修改原始数据,使得数据收集器仅取回匿名化数据。
在下一步骤S3中,提供了匿名化数据。优选地,匿名化数据在其被创建时并且在被数据收集器收集之前被读取。
在下一步骤S4中,通过将数据隐私规则应用于原始数据来生成测试数据。为此,原始数据被修改以符合数据隐私规则。因此,测试数据优选地仅包括遵循数据隐私规则的经批准/授权的数据部分。
在下一步骤S5中,对照测试数据的至少部分检查匿名化数据的至少部分,并输出检查结果。例如,可以将匿名化数据与测试数据进行比较,并返回比较结果。还可能的是,随机选择测试数据的部分,并比较匿名化数据的对应部分。
在匿名化数据不与测试数据对应的情况下,检查结果可能是否定的。在这种情况下,检查结果可以包括关于匿名化数据与测试数据的偏差的信息。
在匿名化数据与测试数据匹配的情况下,检查结果可以是肯定的。在这种情况下,检查结果可以包括关于匿名化数据的状态的记录。
在下一步骤S6中,根据检查结果生成元数据。优选地,元数据包括检查结果。
在下一步骤S7中,元数据可以被发送和/或插入到分布式数据库中。元数据例如可以是事务的一部分,其可以由分布式数据库的节点的至少部分来验证。因此,元数据可以不可变地存储在分布式数据库中。
然后,元数据可以例如由审计员(例如分布式数据库的一个节点和/或外部审计员)检验。此外,或者替代地,如果检查结果是否定的,则可以对照数据隐私规则来验证元数据。该验证可以例如由分布式数据库的节点和/或外部审计员来执行。优选地,验证可以由分布式数据库的节点的子集来执行,并且可以基于共识方法。
图2示出了用于检查数据匿名化的系统的实施例的示意图。
系统100包括第一接口101、存储模块102、第二接口103、测试数据生成器104、检查模块105、元数据生成器106和输出模块107。
优选地,该系统可以至少部分地由分布式数据库DB的节点N、N1、N2来实现。数据匿名化过程的检查可以例如通过分布式数据库的节点执行智能合同来实现。分布式数据库DB可以是例如区块链或分布式账本。
系统100使得能够由第二节点N2从第一节点N1对数据D1进行数据收集DC,其中使用给定的匿名化方法对数据进行匿名化,并且自动检查匿名化过程的结果。
第一节点N1例如可以是用户拥有的设备。存储在设备上的数据例如可以包括敏感、机密或个人数据。
第一接口101被配置成读入数据隐私规则PR。数据隐私规则PR例如由分布式数据库DB的节点N、N1、N2的至少部分来定义。优选地,数据隐私规则PR可以在智能合同中定义。
存储模块102被配置为存储第一节点N1的原始数据D1。还可能的是,存储模块102仅引用原始数据,例如通过链接。
第二接口103被配置成读入匿名化数据D2,其中匿名化数据D2是在由第二节点N2取回DC原始数据D1时借助于匿名化方法AM并根据原始数据D1生成的。
测试数据生成器104被配置为通过将数据隐私规则PR应用于原始数据D1来生成测试数据D3。
检查模块105被配置为对照匿名化数据D2的至少部分来检查测试数据D3的至少部分,并输出检查结果CR。
元数据生成器106被配置为生成元数据MD,其中元数据包括检查结果CR。在否定的检查结果CR的情况下,即,如果匿名化数据与测试数据不匹配,则可以标记所应用的匿名化方法AM和/或第二节点N2。该标志可以例如存储在分布式数据库DB中。
输出模块107被配置为将元数据MD和/或检查结果CR插入到分布式数据库中。然后,元数据MD可以例如由分布式数据库DB的至少一个选定节点N和/或外部实体对照数据隐私规则PR来验证。替代地,元数据MD可以由分布式数据库的多个选定节点来验证,并且该验证基于由选定节点执行的共识方法。
图3示出了用于检查数据匿名化的方法的另一个实施例。它示出了图示用于检查数据匿名化的计算机实现的方法的方法步骤的流程图。
当由数据收集器收集数据时,使用匿名化技术对数据进行匿名化。智能合同可用于基于预定义的数据隐私规则/规定分析匿名化数据,并在异常或差异的情况下自动产生标志。智能合同优选地由分布式数据库(例如区块链)的节点执行,并且因此可以以分散的方式管理。优选地,节点可以验证智能合同中指定的规则,并评估数据匿名化的异常情况。节点可以批准包含关于数据匿名化的信息的事务。因此,这提供了关于数据匿名化的永久可审计记录,这可在将来争议或差异的情况下使用。
执行以下方法步骤的系统可以包括以下组件:形成分布式网络的节点、智能合同、针对所收集的不同数据类型的数据分类、数据源(例如,从其产生数据的个体或设备)、管理联盟,其是可以验证和维护匿名化证明的分布式数据库的节点的子集。
数据分类标记,例如哪些数据被认为是私有的并且需要匿名化,以及哪些数据可以由数据收集器收集。例如,数据分类可以定义姓名或社会安全号码是私有的,因此不应该被收集,而例如其他数据可以被收集。从本质上讲,数据分类可以提供确定匿名化证明的数据隐私规则的基础。
该联盟可以包括例如来自收集数据的企业的节点、审计实体和/或来自其数据正被收集的个体或个体群组的节点。
根据数据隐私规定,要收集的数据可以被定义和分类。这种分类将数据分为两类:第一,匿名化后收集的实际数据,以及第二,与数据相关联的元数据。当数据被匿名化时,该元数据在源处自动生成。
数据收集和匿名化证明执行如下。
针对数据隐私规则建立智能合同,请参见步骤S1。智能合同中的规则被配置为分析来自每个数据读取的元数据,以验证匿名化结果是否符合数据隐私规则。
数据可以由数据源提供,参见步骤S2。数据的读取器或收集器自由选择任何数据匿名化机制或技术。当读取/收集数据时,借助于匿名化机制生成匿名化数据。然后,可以提供匿名化数据用于数据匿名化过程的检验,参见步骤S3。
智能合同可以提供基于数据隐私规则的元数据的定义,以及在读取数据时创建元数据的脚本。例如,该脚本/智能合同可以比较来自数据源的原始数据和被生成以拷贝该数据的匿名化数据。基于该比较,可以生成元数据。
元数据可以例如如下生成:从数据源中选择少量随机数据集。基于匿名化技术获取相应的匿名化数据集。基于数据分类和/或指示为了用户隐私需要去除的字段的数据隐私规则,所选择的原始随机数据集被脚本改变,并且输出对应的新数据集,参见步骤S4。然后,将基于数据隐私规则的该新数据集与匿名化数据集进行比较,参见步骤S5。元数据然后可以包括关于比较结果的信息。
这种比较可以导致生成元数据的两种不同情况,参见步骤S6:如果匿名化数据集已经正确地省略了规定的数据,即肯定的检查结果,则元数据只能记录匿名化的状态是良好的。如果存在对数据匿名化的违背,即否定的检查结果,则元数据可以包括关于由匿名化数据集存储的各种数据字段以及它如何不同于规定的数据隐私规则的信息。
然后,可以将元数据写入区块链网络,参见步骤S7。智能合同可以例如对照数据隐私规则来验证该元数据,以确认匿名化是否符合数据隐私规则。在肯定的检查结果的情况下,联盟节点可以验证并签署数据匿名化符合数据隐私规则。在否定的检查结果的情况下,智能合同产生关于数据匿名化技术的标志。基于该标志,来自联盟节点的审计员或外部审计员可以检验匿名化数据。在检验(例如手动检验)之后,审计员可以更新关于区块链上的读取实体和数据匿名化技术的状态。数据的所有者或原始来源可以总是访问区块链,以访问所有数据读取的审计跟踪和相关的匿名化报告。
尽管已经参照优选实施例详细描述了本发明,但是应当理解,本发明不被所公开的示例限制,并且本领域技术人员可以在不脱离本发明的范围的情况下对其进行许多附加的修改和变化。
Claims (13)
1.用于检查数据的匿名化的计算机实现的方法,所述方法包括以下步骤:
-读入(S1)数据隐私规则(PR),
-存储(S2)分布式数据库(DB)的第一节点(N1)的原始数据(D1),
-读入(S3)匿名化数据(D2),其中匿名化数据(D2)是在由分布式数据库的第二节点(N2)取回原始数据时借助于匿名化方法(AM)并根据原始数据生成的,
-通过将数据隐私规则(PR)应用于原始数据(D1)来生成(S4)测试数据(D3),
-对照测试数据(D3)的至少部分检查(S5)匿名化数据(D2)的至少部分并输出检查结果(CR),
-根据检查结果(CR)生成(S6)元数据(MD),
和
-将元数据(MD)发送(S7)到分布式数据库(DB),其中所述方法步骤通过由分布式数据库的节点执行的智能合同来实现。
2.根据权利要求1所述的计算机实现的方法,其中,在否定的检查结果(CR)的情况下,所述元数据包括关于匿名化数据与测试数据的偏差的信息。
3.根据前述权利要求之一所述的计算机实现的方法,其中,匿名化方法(AM)由第二节点(N2)定义。
4.根据前述权利要求之一所述的计算机实现的方法,其中元数据(MD)包括关于匿名化方法(AM)的信息。
5.根据前述权利要求之一所述的计算机实现的方法,其中,数据隐私规则(PR)定义需要去除原始数据的哪个部分。
6.根据前述权利要求之一所述的计算机实现的方法,其中,在否定的检查结果(CR)的情况下,所应用的匿名化方法(AM)和/或第二节点(N2)被标记。
7.根据前述权利要求之一所述的计算机实现的方法,其中元数据(MD)和/或检查结果(CR)存储在分布式数据库(DB)中。
8.根据前述权利要求之一所述的计算机实现的方法,其中,数据隐私规则(PR)由分布式数据库(DB)的选定节点来定义。
9.根据前述权利要求之一所述的计算机实现的方法,其中,由分布式数据库的至少一个选定节点和/或外部实体对照数据隐私规则(PR)来验证元数据(MD)。
10.根据前述权利要求之一所述的计算机实现的方法,其中,所述元数据(MD)由所述分布式数据库的多个选定节点验证,并且所述验证基于由选定节点执行的共识方法。
11.根据前述权利要求之一所述的计算机实现的方法,其中,分布式数据库(DB)是区块链或分布式账本。
12.可直接加载到数字计算机的内部存储器中的计算机程序产品,其包括当所述计算机程序产品在计算机上运行时用于执行前述权利要求之一的方法步骤的软件代码部分。
13.用于检查数据的匿名化的系统(100),所述系统包括:
-第一接口(101),其被配置成读入数据隐私规则(PR),
-存储模块(102),被配置成存储分布式数据库的第一节点(N1)的原始数据(D1),
-第二接口(103),其被配置成读入匿名化数据(D2),其中匿名化数据是在由分布式数据库的第二节点取回原始数据时借助于匿名化方法(AM)并根据原始数据(D1)生成的,
-测试数据生成器(104),其被配置成通过将数据隐私规则应用于原始数据来生成测试数据(D3),
-检查模块(105),其被配置成对照匿名化数据(D2)的至少部分检查测试数据(D3)的至少部分并输出检查结果(CR),
-元数据生成器(106),其被配置成根据检查结果(CR)生成元数据(MD),
和
-输出模块(107),其被配置成将元数据(MD)发送到分布式数据库。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21181850.5A EP4109313A1 (en) | 2021-06-25 | 2021-06-25 | Computer-implemented method and system for checking data anonymization |
EP21181850.5 | 2021-06-25 | ||
PCT/EP2022/064573 WO2022268439A1 (en) | 2021-06-25 | 2022-05-30 | Computer-implemented method and system for checking data anonymization |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117546166A true CN117546166A (zh) | 2024-02-09 |
Family
ID=76641620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280044817.1A Pending CN117546166A (zh) | 2021-06-25 | 2022-05-30 | 用于检查数据匿名化的计算机实现的方法和系统 |
Country Status (3)
Country | Link |
---|---|
EP (2) | EP4109313A1 (zh) |
CN (1) | CN117546166A (zh) |
WO (1) | WO2022268439A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117061403A (zh) * | 2023-10-10 | 2023-11-14 | 中铱数字科技有限公司 | 一种基于区块链BaaS的自动化测试方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110719176A (zh) * | 2019-10-22 | 2020-01-21 | 黑龙江工业学院 | 基于区块链的物流隐私保护方法、系统和可读存储介质 |
US20200410135A1 (en) * | 2018-02-28 | 2020-12-31 | Barclays Execution Services Limited | Data security |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10753488B2 (en) | 2018-08-03 | 2020-08-25 | Sun Hydraulics, Llc | Three-way hydraulic valve with a floating bushing |
-
2021
- 2021-06-25 EP EP21181850.5A patent/EP4109313A1/en not_active Withdrawn
-
2022
- 2022-05-30 EP EP22734132.8A patent/EP4334834A1/en active Pending
- 2022-05-30 WO PCT/EP2022/064573 patent/WO2022268439A1/en active Application Filing
- 2022-05-30 CN CN202280044817.1A patent/CN117546166A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200410135A1 (en) * | 2018-02-28 | 2020-12-31 | Barclays Execution Services Limited | Data security |
CN110719176A (zh) * | 2019-10-22 | 2020-01-21 | 黑龙江工业学院 | 基于区块链的物流隐私保护方法、系统和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4334834A1 (en) | 2024-03-13 |
EP4109313A1 (en) | 2022-12-28 |
WO2022268439A1 (en) | 2022-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110990871B (zh) | 基于人工智能的机器学习模型训练方法、预测方法及装置 | |
CN109074563A (zh) | 区块链系统内的基于代理的图灵完备交易集成反馈 | |
CN112632629B (zh) | 基于区块链的投票管理方法、装置、介质及电子设备 | |
US11501315B2 (en) | Compliance verification of connected data | |
Gharib et al. | Privacy requirements: findings and lessons learned in developing a privacy platform | |
CN103365812A (zh) | 用于数据隐私引擎的方法和系统 | |
CN112016911B (zh) | 基于区块链数字货币金融的信息管理方法及数字服务平台 | |
Sun et al. | Defining security requirements with the common criteria: Applications, adoptions, and challenges | |
CN111666591A (zh) | 线上核保数据安全处理方法、系统、设备及存储介质 | |
CN113947471A (zh) | 一种构建风险评估模型的方法、装置及设备 | |
US11856086B2 (en) | Tracking and linking item-related data | |
AU2023226639A1 (en) | Apparatus and system for zero-knowledge proof performed in multi-party computation | |
US20210104326A1 (en) | Detecting prescription drug abuse using a distributed ledger and machine learning | |
CN117546166A (zh) | 用于检查数据匿名化的计算机实现的方法和系统 | |
US20230351036A1 (en) | Data Analytics Privacy Platform with Quantified Re-Identification Risk | |
CN116506206A (zh) | 基于零信任网络用户的大数据行为分析方法及系统 | |
AU2021253009B2 (en) | Contextual integrity preservation | |
US11748496B1 (en) | Data jurisdiction management | |
US20210241149A1 (en) | System to ensure safe artificial general intelligence via distributed ledger technology | |
CN114450687A (zh) | 用于实现对计算结果的验证的方法、计算机程序和系统 | |
CN112632607A (zh) | 一种数据处理方法、装置及设备 | |
CN113343288B (zh) | 一种基于tee的区块链智能合约安全管理系统 | |
EP4276666A1 (en) | Method and device for secure swarm learning | |
Svancara et al. | Delivering Threat Analysis and Risk Assessment Based on ISO 21434: Practical and Tooling Considerations | |
Girdhari et al. | Adoption of Blockchain to Support the National Health Insurance Implementation in South Africa: An Integrative Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |