CN111177786A - 基于随机响应机制本地差分隐私的数据库水印系统 - Google Patents
基于随机响应机制本地差分隐私的数据库水印系统 Download PDFInfo
- Publication number
- CN111177786A CN111177786A CN202010001221.6A CN202010001221A CN111177786A CN 111177786 A CN111177786 A CN 111177786A CN 202010001221 A CN202010001221 A CN 202010001221A CN 111177786 A CN111177786 A CN 111177786A
- Authority
- CN
- China
- Prior art keywords
- database
- watermark
- value
- odd
- attribute value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 52
- 230000004044 response Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 8
- 230000008520 organization Effects 0.000 claims abstract description 3
- 238000012986 modification Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 12
- 230000004048 modification Effects 0.000 description 6
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000013496 data integrity verification Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Storage Device Security (AREA)
- Editing Of Facsimile Originals (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于随机响应机制本地差分隐私的数据库水印系统,数据拥有者利用数据库预处理模块对待发布的原始数据库进行属性排序获得排序数据库;由本地差分隐私与水印嵌入模块针对排序数据库的敏感属性值实施基于随机响应机制的本地差分隐私,获得隐私保护数据库,依据隐私保护数据库中的数据特征向隐私保护数据库中嵌入水印信息,获得带水印信息数据库并发布到云端;针对被怀疑数据库,由数据拥有者或权威取证机构根据带水印信息数据库所对应的密钥和水印位置数组,从被怀疑数据库中提取水印信息,从而进行版权追踪和数据库完整性验证。本发明能够对数据库的隐私数据安全性、数据完整性及来源可靠性等做出综合保护。
Description
技术领域
本发明属于数据库安全领域,特别是涉及一种基于随机响应机制本地差分隐私的数据库水印系统及其实施方法。
背景技术
计算机网络技术和大数据技术的快速发展为数据在世界范围内的迅速传播开辟了便捷的途径,然而,日趋流行的大数据共享和交易也导致了信息安全和数据库版权保护的问题日趋严重。近年来,数据泄露的事件频繁发生,甚至发生在包含大量敏感数据的医疗领域以及服务行业。数据库作为政府、企业以及个人获取和传递信息的重要载体,其创建、传输和共享显著增加的同时也带来了安全风险,如数据被盗窃、非法复制和侵犯版权。目前针对数据库的隐私保护技术包括k-匿名、l-diversity匿名、t-closeness匿名和差分隐私等方法,而针对数据库版权保护技术主要依赖于数据库水印技术。尽管这些技术都得到了很好的发展,但是,目前缺少一种方法能够在保持较高数据可用性的同时解决数据库隐私问题以及版权保护问题。
目前的差分隐私技术和数据库水印技术还存在以下缺点:
1、当数据库中包含大量的用户个人敏感信息时,隐私保护非常重要且数据库共享时数据库溯源、版权保护以及数据的完整性验证等问题也需要解决。目前的数据库水印技术只能对数据库的完整性进行验证以及对数据库进行版权保护,但不能保护隐私。
2、目前尚无既能提供数据库隐私保护,又能提供原始数据版权追踪、完整性验证的数据库水印方法。
3、目前的差分隐私技术进行隐私保护时造成的数据失真比较大。
4、目前的数据库水印技术的鲁棒性还有待进一步提高,且嵌入水印导致失真使数据质量下降,不能满足大数据共享环境下数据挖掘和统计分析的需求,还有待进一步改进。
针对以上缺点,本申请发明人公开号为CN109033766A、公开日为20181218的发明专利申请中公开了“一种基于本地差分隐私的数据库水印方法”,其是基于拉普拉斯机制的本地差分隐私的数据库水印方法的发明专利申请,以提供改进方案,但其技术方案仍然存在不足,一是该方法虽然在提供版权保护的同时提供了较好数据库隐私保护,但依然没有解决传统差分隐私机制造成数据失真较大的问题;二是该方法中数据库水印技术具有很好的鲁棒性,但还有进一步改进的空间。
发明内容
本发明是为避免上述现有技术所存在的问题,提供一种基于随机响应机制本地差分隐私的数据库水印系统,以期对数据库的隐私数据安全性、数据完整性及来源可靠性等做出综合保护。
本发明为解决技术问题采用如下技术方案:
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点是:
所述数据库水印系统包括:数据库预处理模块、本地差分隐私与水印嵌入模块和水印提取模块;
数据拥有者利用所述数据库预处理模块针对待发布的原始数据库A进行属性排序获得排序数据库A1,并获得排序数据库A1的敏感属性,根据随机生成的密钥对所述排序数据库A1进行元组分组,确定所述排序数据库A1中各元组编号;
由所述本地差分隐私与水印嵌入模块针对所述排序数据库A1的敏感属性值实施基于随机响应机制的本地差分隐私,获得隐私保护数据库B,依据所述隐私保护数据库B中的数值特性向隐私保护数据库B中嵌入水印信息,获得带水印信息数据库C,由所述数据拥有者将带水印信息数据库C发布到云端;
在发现有被怀疑数据库D时,由所述数据拥有者或权威取证机构根据带水印信息数据库C所对应的密钥和水印位置数组,由水印提取模块从经过所述数据库预处理模块处理后的被怀疑数据库D中提取水印信息,从而进行版权追踪和数据库完整性验证;
所述带水印信息数据库C所对应的密钥和水印位置数组是由数据拥有者通过安全信道传递给权威取证机构;
所述被怀疑数据库D是指疑似为带水印信息数据库C的非法传播、或为带水印信息数据库C被篡改数据的数据库。
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点也在于:
利用式(1)确定所述排序数据库A1中各元组编号ni:
ni=H(Ks||H(Ks||tu.PK))%Ng (1)
式(1)中:
ni=1,2…Ng,Ng为水印信息长度,以i表征排序数据库A1中第i行元组行号;
H()表示hash算法,“||”是连接符号,Ks是密钥,tu.PK是元组的主键。
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点也在于按如下方式获得隐私保护数据库B:
针对排序数据库A1中各元组所对应的敏感属性值xi实施基于随机响应机制的本地差分隐私,按如下方式获得一一对应的具有隐私保护的各属性值yi:
依据满足式(2)的概率pu,v将敏感属性值xi修改为属性值yi:
式(2)中:
t为敏感属性值xi能取到的最大整数值,xi∈(1,2,…,t)是指属性值xi取从1到t的整数值,xi∈(0,1)是指属性值xi取值为0或1;
pu,v=p[yi=u,xi=v]为将取值为v的敏感属性值xi修改为取值为u的属性值yi的概率值;
针对排序数据库A1中所有元组的敏感属性值xi一一对应获得各属性值yi,从而得到隐私保护数据库B,且隐私保护数据库B中各元组编号与排序数据库A1中各元组编号相同。
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点也在于:按如下步骤向隐私保护数据库B中嵌入水印信息得到带水印信息数据库C:
步骤4.1、初始化水印位置数组mark;
步骤4.2、计算获得属性值yi造成的数据失真值di为:di=|yi-xi|;数据库拥有者自定义属性值失真范围为ξ,若数据失真值di超出属性值失真范围ξ,则在水印位置数组mark中记录属性值yi所在隐私保护数据库B中的位置,并在属性值yi中按如下方式嵌入水印位;
根据隐私保护数据库B中各元组编号ni进行水印嵌入,具有相同元组编号的元组嵌入相同的水印位w;水印嵌入过程为:首先根据要嵌入的水印位w修改属性值yi得到更新属性值y′i,当嵌入的水印为1时,将属性值yi变为奇数作为更新属性值y′i,当嵌入的水印为0时,将属性值yi变为偶数作为更新属性值y′i;针对所有元组完成水印嵌入得到带水印信息数据库C。
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点也在于按如下方式进行版权追踪和数据库完整性验证:
步骤5.1、数据使用者、权威取证机构或数据拥有者针对带水印信息数据库C从云端下载得到下载数据库D′w,根据下载数据库D′w的属性名的升序或者降序对属性进行排序得到排序下载数据库D″w;
所述排序下载数据库D″w与所述排序数据库A1中的属性排序相同,且各元组编号相同;
步骤5.2、拥有密钥和水印位置数组的数据拥有者或权威取证机构从排序下载数据库D″w中提取水印信息;按照排序下载数据库D″w中元组编号ni依次对每组中的所有元组进行对应水印位的提取;如果每组中各元组的属性位置信息存在于水印位置数组mark中则提取水印位;
针对所述排序下载数据库D″w存在于水印位置数组mark中的属性值s提取水印位的过程如下:
初始化变量:ones=0,zeros=0;
当属性值s为奇数时,将ones加1;当属性值s为偶数时,将zeros加1;
每完成一组中所有元组的遍历之后,比较当前ones值和当前zeros值的大小;
若有:当前ones值>当前zeros值,则提取的水印位w为1;否则提取的水印位w为0;
若是:当前ones值和当前zeros值都不为0,则判断为带水印信息数据库C已被篡改,数据的完整性遭到破坏。
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点也在于:将所述属性值yi变为奇数或偶数是按如下可选的两种方式进行:
方式一、依据随机响应机制引起的数据失真,使得最终的数据失真最小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi+1;若yi为偶数,且xi为奇数,则将yi的值修改为xi;
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi-1;若yi为偶数,且xi为奇数,则将yi的值修改为xi;
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi+1;若yi为奇数,且xi为偶数,则将yi的值修改为xi;
当w=0,且yi<xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi-1;若yi为奇数,且xi为偶数,则将yi的值修改为xi;
方式二、依据数据拥有者自定义的属性值失真范围ξ,使得最终的数据失真尽可能小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi-ξ为偶数,则将yi的值修改为yi-ξ+1;若yi为偶数,且yi-ξ为奇数,则将值yi的值修改为yi-ξ;
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi+ξ为偶数,则将yi的值修改为yi+ξ-1;若yi为偶数,且yi+ξ为奇数,则将yi的值修改为yi+ξ;
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且yi-ξ为奇数,则将yi的值修改为yi-ξ+1;若yi为奇数,且yi-ξ为偶数,则将yi的值修改为yi-ξ;
当w=0,且yi<xi时:若yi为偶数则保持yi的值不变;若yi为奇数,且yi+ξ为奇数,则将yi的值修改为yi+ξ-1;若yi为奇数,且yi+ξ为偶数,则将yi的值修改为yi+ξ。
对于本发明的应用,数据拥有者可以使用本发明来保护数据库版权以及隐私信息。数据使用者可以从云端下载并使用数据库,但是不能通过数据分析得到数据库中个人的敏感信息;拥有密钥的数据拥有者和权威取证机构不仅可以像数据使用者一样使用数据库,而且可以提取水印用于版权和数据完整性验证,与已有技术相比,本发明有益效果体现在:
1、本发明不仅实现了对数据库的隐私保护、而且实现了对数据库的版权保护以及完整性验证。
2、本发明中数据库水印极大地提高了差分隐私后数据库的数据质量,减小了差分隐私造成的数据失真;
3、本发明基于随机响应机制本地差分隐私设计出的数据库水印使得嵌入水印后数据库仍然能够保持差分隐私的特性;
4、本发明中数据库水印有很高的鲁棒性,即在数据库元组遭受插入或者修改攻击时,数据拥有者和权威取证机构仍然能够正确且完整地提取出水印;
5、本发明可以运用于大数据处理机构,运用于数据库中原始数据的版权保护,完整性保护以及发布数据的隐私保护,数据拥有者和权威取证机构可以判断数据库的来源、验证数据的完整性并且不能得到确切的用户隐私数据。
附图说明
图1为本发明中基于随机响应机制本地差分隐私的数据库水印系统架构图;
图2为不同的数据库水印方法所嵌入水印的鲁棒性对比图。
具体实施方式
参见图1,本实施例中基于随机响应机制本地差分隐私的数据库水印系统包括:数据库预处理模块a、本地差分隐私与水印嵌入模块b和水印提取模块c。
数据拥有者利用数据库预处理模块a针对待发布的原始数据库A进行属性排序获得排序数据库A1,并获得排序数据库A1的敏感属性,根据随机生成的密钥对所述排序数据库A1进行元组分组,确定排序数据库A1中各元组编号。
由本地差分隐私与水印嵌入模块b针对所述排序数据库A1的敏感属性值实施基于随机响应机制的本地差分隐私,获得隐私保护数据库B,依据隐私保护数据库B中的数值特性向隐私保护数据库B中嵌入水印信息,获得带水印信息数据库C,由数据拥有者将带水印信息数据库C发布到云端;
在发现有被怀疑数据库D时,由数据拥有者或权威取证机构根据带水印信息数据库C所对应的密钥和水印位置数组,由水印提取模块c从经过数据库预处理模块a处理后的被怀疑数据库D中提取水印信息,从而进行版权追踪和数据库完整性验证;
带水印信息数据库C所对应的密钥和水印位置数组是由数据拥有者通过安全信道传递给权威取证机构;被怀疑数据库D是指疑似为带水印信息数据库C的非法传播、或为带水印信息数据库C被篡改数据的数据库。
数据使用者都可以从云端下载并使用数据库,但并不能通过数据分析得到数据库中任何元组的敏感属性值。
本实施例中,利用式(1)确定排序数据库A1中各元组编号ni:
ni=H(Ks||H(Ks||tu.PK))%Ng (1)
式(1)中:
ni=1,2…Ng,Ng为水印信息长度,以i表征排序数据库A1中第i行元组行号;
H()表示hash算法,“||”是连接符号,Ks是密钥,tu.PK是元组的主键。
本实施例中按如下方式获得隐私保护数据库B:
针对排序数据库A1中各元组所对应的敏感属性值xi实施基于随机响应机制的本地差分隐私,按如下方式获得一一对应的具有隐私保护的各属性值yi:
依据满足式(2)的概率pu,v将敏感属性值xi修改为属性值yi,实现对数据库中的敏感属性的隐私保护:
式(2)中:
t为敏感属性值xi能取到的最大整数值,xi∈(1,2,…,t)是指属性值xi取从1到t的整数值,xi∈(0,1)是指属性值xi取值为0或1;
pu,v=p[yi=u,xi=v]为将取值为v的敏感属性值xi修改为取值为u的属性值yi的概率值;
针对排序数据库A1中所有元组的敏感属性值xi一一对应获得各属性值yi,从而得到隐私保护数据库B,且隐私保护数据库B中各元组编号与排序数据库A1中各元组编号相同。
本实施例中按如下步骤向隐私保护数据库B中嵌入水印信息得到带水印信息数据库C:
步骤1、初始化水印位置数组mark;
步骤2、计算获得属性值yi造成的数据失真值di为:di=|yi-xi|;数据库拥有者自定义属性值失真范围为ξ,若数据失真值di超出属性值失真范围ξ,则在水印位置数组mark中记录属性值yi所在隐私保护数据库B中的位置,并在属性值yi中按如下方式嵌入水印位;
根据隐私保护数据库B中各元组编号ni进行水印嵌入,具有相同元组编号的元组嵌入相同的水印位w;水印嵌入过程为:首先根据要嵌入的水印位w修改属性值yi得到更新属性值y′i,当嵌入的水印为1时,将属性值yi变为奇数作为更新属性值y′i,当嵌入的水印为0时,将属性值yi变为偶数作为更新属性值y′i;针对所有元组完成水印嵌入得到带水印信息数据库C。
本实施例中按如下方式进行版权追踪和数据库完整性验证:
步骤1、数据使用者、权威取证机构或数据拥有者针对带水印信息数据库C从云端下载得到下载数据库D′w,根据下载数据库D′w的属性名的升序或者降序对属性进行排序得到排序下载数据库D″w;排序下载数据库D″w与排序数据库A1中的属性排序相同,且各元组编号相同。
步骤2、拥有密钥和水印位置数组的数据拥有者或权威取证机构从排序下载数据库D″w中提取水印信息;按照排序下载数据库D″w中元组编号ni依次对每组中的所有元组进行对应水印位的提取;如果每组中各元组的属性位置信息存在于水印位置数组mark中则提取水印位;
针对排序下载数据库D″w存在于水印位置数组mark中的属性值s提取水印位的过程如下:
初始化变量:ones=0,zeros=0;
当属性值s为奇数时,将ones加1;当属性值s为偶数时,将zeros加1;
每完成一组中所有元组的遍历之后,比较当前ones值和当前zeros值的大小;
若有:当前ones值>当前zeros值,则提取的水印位w为1;否则提取的水印位w为0;
若是:当前ones值和当前zeros值都不为0,则判断为带水印信息数据库C已被篡改,数据的完整性遭到破坏。
本实施例中将属性值yi变为奇数或偶数是按如下可选的两种方式进行:
方式一、依据随机响应机制引起的数据失真,使得最终的数据失真最小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi+1;若yi为偶数,且xi为奇数,则将yi的值修改为xi。
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi-1;若yi为偶数,且xi为奇数,则将yi的值修改为xi。
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi+1;若yi为奇数,且xi为偶数,则将yi的值修改为xi。
当w=0,且yi<xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi-1;若yi为奇数,且xi为偶数,则将yi的值修改为xi。
方式二、依据数据拥有者自定义的属性值失真范围ξ,使得最终的数据失真尽可能小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi-ξ为偶数,则将yi的值修改为yi-ξ+1;若yi为偶数,且yi-ξ为奇数,则将值yi的值修改为yi-ξ。
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi+ξ为偶数,则将yi的值修改为yi+ξ-1;若yi为偶数,且yi+ξ为奇数,则将yi的值修改为yi+ξ。
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且yi-ξ为奇数,则将yi的值修改为yi-ξ+1;若yi为奇数,且yi-ξ为偶数,则将yi的值修改为yi-ξ。
当w=0,且yi<xi时:若yi为偶数则保持yi的值不变;若yi为奇数,且yi+ξ为奇数,则将yi的值修改为yi+ξ-1;若yi为奇数,且yi+ξ为偶数,则将yi的值修改为yi+ξ。
本系统按如下步骤实施:
1.1:输入原始数据库A、密钥Ks、隐私保护预算值ε、数据库拥有者自定义属性值失真范围ξ以及水印信息W:
以成人收入预测的数据库作为原始数据库A进行实验,由于所用数据库已经针对属性名进行排序,故此处原始数据库A也等同于排序数据库A1,排序数据库A1中包含了32,560个成人的信息,两种敏感属性分别为年龄(age)和每周工作时间(hours-per-week),以两种敏感属性为例并生成一列作为主键进行实验。密钥Ks随机生成,属性失真范围ξ以及水印信息W由数据拥有者自定义,隐私保护预算值ε根据数据拥有者需求并结合数据库训练出最优的值。
以排序数据库A1中的部分敏感属性值为例,如表1所示:
表1
age | hours-per-week |
39 | 40 |
50 | 13 |
38 | 40 |
53 | 40 |
28 | 40 |
37 | 40 |
49 | 16 |
52 | 45 |
31 | 50 |
42 | 40 |
37 | 80 |
30 | 40 |
23 | 30 |
32 | 50 |
1.2:根据水印信息W计算元组分组数目Ng:Ng=strlen(W),其中strlen(W)表示水印信息W的长度。
1.3:利用式(1)对排序数据库A1进行元组分组得到Ng个分组;
1.4:对排序数据库A1实施基于随机响应机制的本地差分隐私,得到隐私保护数据库B;
1.5:如果排序数据库A1中的敏感属性值xi经本地差分隐私后的属性值yi超过自定义属性失真范围ξ,即|yi-xi|>ξ,则在水印位置数组mark中记录该敏感属性值yi所在隐私保护数据库B中的位置为提取水印做准备,并在属性值yi中嵌入属性值所在元组分组对应的水印位;通过理论分析得到若嵌入水印数据的变化为-1,即属性值yi嵌入水印位后的值减去属性值xi等于-1时,水印不会破坏本地差分隐私保护,仅仅会削弱本地差分隐私的强度。
以Wr表示水印信息W的第r个水印位;
假设数据拥有者自定义属性失真范围ξ=8,隐私保护预算ε=ln(2)时,在水印位置数组mark数组中记录下属性值yi在隐私保护数据库B中的位置,初始化mark[n][m]数组中所有数据为0,其中n为隐私保护数据库B中元组的个数,m为隐私保护数据库B中属性的数量,当在隐私保护数据库B的第tu个元组的第c个属性值中嵌入水印位,则修改mark[tu][c]为1;然后根据所对应的水印位修改属性值yi从而嵌入水印。
修改属性值yi有以下两种可选方式:
方式1:依据随机响应机制引起的数据失真,使得最终的数据失真最小(记为RRDW1):
例如:第一行第二列的属性值经本地差分隐私后的属性值为60,超过了自定义失真限制ξ,则修改mark[1][2]=1,需要嵌入的水印位为1,由于属性值60是偶数且本地差分隐私前的属性值40是偶数,故需要对属性值40进行加1操作变为奇数,并赋值给本地差分隐私后的属性值60,故嵌入水印后的属性值为41;如果需要嵌入的水印位是0,由于60与0都是偶数,故本地差分隐私后的属性值60保持不变,嵌入水印后仍为60;依次类推得到所述隐私保护数据库B部分敏感属性值嵌入水印后的属性值如表2所示:
表2
age | hours-per-week |
39 | 41 |
43 | 14 |
72 | 12 |
53 | 40 |
29 | 41 |
45 | 39 |
49 | 48 |
18 | 26 |
31 | 49 |
37 | 40 |
38 | 75 |
30 | 40 |
73 | 31 |
41 | 73 |
方式2、依据数据拥有者自定义的属性值失真范围ξ,使得最终的数据失真尽可能小(记为RRDW2):
例如:第一行第二列的属性值经本地差分隐私后的属性值为60,超过了自定义失真限制ξ,则修改mark[1][2]=1,并根据需要嵌入的水印位1,由于属性值60是偶数,故需要对属性值60进行减ξ操作,属性值变为52,又由于52是偶数,需要对属性值52进行加1操作变为奇数,故嵌入水印后的属性值为53;如果需要嵌入的水印位是0,由于60与0都是偶数,故本地差分隐私后的属性值60保持不变,嵌入水印后仍为60;依次类推得到隐私保护数据库B部分敏感属性值嵌入水印后的敏感属性值如表3所示:
表3
age | hours-per-week |
77 | 53 |
43 | 78 |
72 | 12 |
69 | 40 |
73 | 63 |
45 | 21 |
49 | 48 |
18 | 26 |
31 | 17 |
37 | 90 |
38 | 75 |
54 | 36 |
73 | 57 |
41 | 73 |
1.6:输出嵌入水印后的带水印信息数据库C和水印位置数组mark;
针对带水印信息数据库C从云端下载得到的下载数据库D′w中水印信息的提取过程按如下步骤进行:
2.1:输入下载数据库D′w经过属性排序得到的排序下载数据库D″w、密钥Ks和水印位置数组mark;
2.2:初始化变量:zeros=0,ones=0,数据库完整性标志位integrity=TRUE;
2.3:利用式(1)对排序下载数据库D″w进行分组得到D″w中各元组的编号ni;
2.4:提取水印阶段,依次对排序下载数据库D″w每组的所有元组中存在于水印位置数组mark中的属性值进行以下操作:如果属性值是奇数,则属性值所在分组的ones加1;否则属性值所在分组的zeros加1;直到排序下载数据库D″w各分组中所有元组都迭代完成;
2.5:分别比较排序下载数据库D″w每组中zeros与ones的大小,如果第ni个分组的zeros较大,则认为嵌入的第ni个水印位为0;否则认为嵌入的第ni个水印位为1;
2.6:若排序下载数据库D″w中出现任意一个分组的zeros与ones都不为0,则认为数据库被篡改,修改数据库完整性标志位integrity=FALSE;
2.7:输出提取的水印信息以及数据库完整性判断值integrity。
嵌入水印的鲁棒性实验结果如图2所示,图2为本发明中数据库水印方法(RRDW1、RRDW2)和本申请发明人公开号为CN109033766A的发明专利申请中公开的“一种基于本地差分隐私的数据库水印方法”(LMDW)中所嵌入水印的鲁棒性对比图;图2中曲线a、曲线b和曲线c分别表示数据库水印方法LMDW、RRDW1、RRDW2受到删除攻击的水印鲁棒性示意;曲线d、曲线e和曲线f分别表示数据库水印方法LMDW、RRDW1、RRDW2受到修改攻击的水印鲁棒性示意图。
实验操作过程如下:
数据库所嵌入水印的鲁棒性通过式(3)中的误码率BER来衡量,即提取出的水印信息的正确率。
针对本发明实施方法以及本申请发明人公开号为CN109033766A的发明专利申请中公开的“一种基于本地差分隐私的数据库水印方法”(记为LMDW),考虑三种典型的攻击类型:插入、删除以及修改。
首先对带水印信息数据库C进行插入攻击,攻击者随机创建元组并将其插入到带水印信息数据库C中以期销毁水印,实验表明无论插入多少元组,本发明以及LMDW方法都能完整提取水印信息,即误码率为0。
分别考虑删除和修改攻击,每一种攻击分别对带水印信息数据库C删除或修改10%,20%,…,90%,然后从受到攻击后的数据库C中提取水印,得到误码率如图2所示。图2中横坐标表示数据库C中被删除或修改的元组个数占总元组个数的比例,纵坐标表示误码率BER,图中可见,即使当修改或删除比例达到80%时,修改攻击对两种方法提取水印也没有影响,当修改攻击达到90%时,本发明中基于自定义失真范围ξ的方法(RRDW2)误码率最低,效果最好;删除攻击对本发明中提取水印的影响最大也仅为0.8%,相对于LMDW也有很大的改进,因此本发明具有更高的鲁棒性。
表4分别为原始数据库A以及对原始数据库A实施基于拉普拉斯机制本地差分隐私的数据库水印方法后的带水印信息数据库C1、对原始数据库A实施本地差分隐私后的数据库C2、对原始数据库A实施本发明中基于随机响应机制本地差分隐私的数据库水印方法后的带水印信息数据库C3、C4的属性值统计分析情况(其中获得数据库C3是实施基于最小数据失真的随机响应机制,获得数据库C4是实施基于自定义失真范围ξ的随机响应机制):
对于嵌入水印造成的数据失真问题,统计分析数据库经本地差分隐私以及嵌入水印前后各属性的均值和标准差,并使用平均绝对误差MAE来量化数据库水印方法造成的数据失真。
表4
表4可见,本发明降低了数据失真,提高了数据的可用性,显然的,数据库C3即本发明中基于最小数据失真的随机响应机制的数据库水印方法的数据可用性最高,故本发明针对数据失真较大问题与本申请发明人公开号为CN109033766A、公开日为20181218的发明专利申请中公开的“一种基于本地差分隐私的数据库水印方法”(LMDW)相比有较大改进。
进一步评估LMDW、RRDW1和RRDW2对数据库分类任务的影响,分别采取了朴素贝叶斯(Bayes)、Adaboost和决策树(Decision Tree)分类方法对原始数据库、本地差分隐私保护的数据库以及实施本地差分隐私并嵌入水印后的数据库进行分类。依然以成人收入预测数据库为例,成人收入预测结果分为2类:
分类1:‘fnlwgt’大于50
分类2:‘fnlwgt’不大于50
使用分类准确率(Accuracy)和分类敏感度(Sensitivity)作为衡量分类结果的指标。
式(5)和式(6)中,TP表示分类为1的元组被正确检测为分类1的元组数目,TN表示分类为2的元组中被正确检测为分类2的元组数目,FP表示分类为2的元组中被误检测为分类1的元组数目,FN表示分类为1的元组中被误检测为分类2的元组数目。
分类统计结果如表5所示,其中Aco、AcLM、AcLMDW、AcRR、AcRRDW1和AcRRDW2分别为原始数据库、对原始数据库实施拉普拉斯机制后的数据库、对原始数据库实施随机响应机制以及LMDW、RRDW1和RRDW2后的数据库的分类准确度;Seo、SeLM、SeLMDW、SeRR、SeRRDW1和SeRRDW2分别为原始数据库、对原始数据库实施拉普拉斯机制后的数据库、对原始数据库实施随机响应机制以及LMDW、RRDW1和RRDW2后的数据库的分类敏感度;
表5
通过表5可以发现,本发明中所提出数据库水印方法对数据挖掘任务的影响较小,且从总体来看实施了本发明中基于最小失真限制随机响应机制的数据库水印方法(RRDW1)后的数据库更接近于原始数据库。
Claims (6)
1.一种基于随机响应机制本地差分隐私的数据库水印系统,其特征是:
所述数据库水印系统包括:数据库预处理模块(a)、本地差分隐私与水印嵌入模块(b)和水印提取模块(c);
数据拥有者利用所述数据库预处理模块(a)针对待发布的原始数据库A进行属性排序获得排序数据库A1,并获得排序数据库A1的敏感属性,根据随机生成的密钥对所述排序数据库A1进行元组分组,确定所述排序数据库A1中各元组编号;
由所述本地差分隐私与水印嵌入模块(b)针对所述排序数据库A1的敏感属性值实施基于随机响应机制的本地差分隐私,获得隐私保护数据库B,依据所述隐私保护数据库B中的数值特性向隐私保护数据库B中嵌入水印信息,获得带水印信息数据库C,由所述数据拥有者将带水印信息数据库C发布到云端;
在发现有被怀疑数据库D时,由所述数据拥有者或权威取证机构根据带水印信息数据库C所对应的密钥和水印位置数组,由水印提取模块(c)从经过所述数据库预处理模块(a)处理后的被怀疑数据库D中提取水印信息,从而进行版权追踪和数据库完整性验证;
所述带水印信息数据库C所对应的密钥和水印位置数组是由数据拥有者通过安全信道传递给权威取证机构;
所述被怀疑数据库D是指疑似为带水印信息数据库C的非法传播、或为带水印信息数据库C被篡改数据的数据库。
2.根据权利要求1所述的基于随机响应机制本地差分隐私的数据库水印系统,其特征是:
利用式(1)确定所述排序数据库A1中各元组编号ni:
ni=H(Ks||H(Ks||tu.PK))%Ng (1)
式(1)中:
ni=1,2…Ng,Ng为水印信息长度,以i表征排序数据库A1中第i行元组行号;
H()表示hash算法,“||”是连接符号,Ks是密钥,tu.PK是元组的主键。
3.根据权利要求2所述的基于随机响应机制本地差分隐私的数据库水印系统,其特征是按如下方式获得隐私保护数据库B:
针对排序数据库A1中各元组所对应的敏感属性值xi实施基于随机响应机制的本地差分隐私,按如下方式获得一一对应的具有隐私保护的各属性值yi:
依据满足式(2)的概率pu,v将敏感属性值xi修改为属性值yi:
式(2)中:
t为敏感属性值xi能取到的最大整数值,xi∈(1,2,…,t)是指属性值xi取从1到t的整数值,xi∈(0,1)是指属性值xi取值为0或1;
pu,v=p[yi=u,xi=v]为将取值为v的敏感属性值xi修改为取值为u的属性值yi的概率值;
针对排序数据库A1中所有元组的敏感属性值xi一一对应获得各属性值yi,从而得到隐私保护数据库B,且隐私保护数据库B中各元组编号与排序数据库A1中各元组编号相同。
4.根据权利要求2所述的基于随机响应机制本地差分隐私的数据库水印系统,其特征是,按如下步骤向隐私保护数据库B中嵌入水印信息得到带水印信息数据库C:
步骤4.1、初始化水印位置数组mark;
步骤4.2、计算获得属性值yi造成的数据失真值di为:di=|yi-xi|;数据库拥有者自定义属性值失真范围为ξ,若数据失真值di超出属性值失真范围ξ,则在水印位置数组mark中记录属性值yi所在隐私保护数据库B中的位置,并在属性值yi中按如下方式嵌入水印位;
根据隐私保护数据库B中各元组编号ni进行水印嵌入,具有相同元组编号的元组嵌入相同的水印位w;水印嵌入过程为:首先根据要嵌入的水印位w修改属性值yi得到更新属性值y′i,当嵌入的水印为1时,将属性值yi变为奇数作为更新属性值y′i,当嵌入的水印为0时,将属性值yi变为偶数作为更新属性值y′i;针对所有元组完成水印嵌入得到带水印信息数据库C。
5.根据权利要求4所述的基于随机响应机制本地差分隐私的数据库水印系统,其特征是按如下方式进行版权追踪和数据库完整性验证:
步骤5.1、数据使用者、权威取证机构或数据拥有者针对带水印信息数据库C从云端下载得到下载数据库D′w,根据下载数据库D′w的属性名的升序或者降序对属性进行排序得到排序下载数据库D″w;
所述排序下载数据库D″w与所述排序数据库A1中的属性排序相同,且各元组编号相同;
步骤5.2、拥有密钥和水印位置数组的数据拥有者或权威取证机构从排序下载数据库D″w中提取水印信息;按照排序下载数据库D″w中元组编号ni依次对每组中的所有元组进行对应水印位的提取;如果每组中各元组的属性位置信息存在于水印位置数组mark中则提取水印位;
针对所述排序下载数据库D″w存在于水印位置数组mark中的属性值s提取水印位的过程如下:
初始化变量:ones=0,zeros=0;
当属性值s为奇数时,将ones加1;当属性值s为偶数时,将zeros加1;
每完成一组中所有元组的遍历之后,比较当前ones值和当前zeros值的大小;
若有:当前ones值>当前zeros值,则提取的水印位w为1;否则提取的水印位w为0;
若是:当前ones值和当前zeros值都不为0,则判断为带水印信息数据库C已被篡改,数据的完整性遭到破坏。
6.根据权利要求4所述的基于随机响应机制本地差分隐私的数据库水印系统,其特征是:将所述属性值yi变为奇数或偶数是按如下可选的两种方式进行:
方式一、依据随机响应机制引起的数据失真,使得最终的数据失真最小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi+1;若yi为偶数,且xi为奇数,则将yi的值修改为xi;
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi-1;若yi为偶数,且xi为奇数,则将yi的值修改为xi;
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi+1;若yi为奇数,且xi为偶数,则将yi的值修改为xi;
当w=0,且yi<xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi-1;若yi为奇数,且xi为偶数,则将yi的值修改为xi;
方式二、依据数据拥有者自定义的属性值失真范围ξ,使得最终的数据失真尽可能小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi-ξ为偶数,则将yi的值修改为yi-ξ+1;若yi为偶数,且yi-ξ为奇数,则将值yi的值修改为yi-ξ;
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi+ξ为偶数,则将yi的值修改为yi+ξ-1;若yi为偶数,且yi+ξ为奇数,则将yi的值修改为yi+ξ;
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且yi-ξ为奇数,则将yi的值修改为yi-ξ+1;若yi为奇数,且yi-ξ为偶数,则将yi的值修改为yi-ξ;
当w=0,且yi<xi时:若yi为偶数则保持yi的值不变;若yi为奇数,且yi+ξ为奇数,则将yi的值修改为yi+ξ-1;若yi为奇数,且yi+ξ为偶数,则将yi的值修改为yi+ξ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010001221.6A CN111177786A (zh) | 2020-01-02 | 2020-01-02 | 基于随机响应机制本地差分隐私的数据库水印系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010001221.6A CN111177786A (zh) | 2020-01-02 | 2020-01-02 | 基于随机响应机制本地差分隐私的数据库水印系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111177786A true CN111177786A (zh) | 2020-05-19 |
Family
ID=70654418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010001221.6A Pending CN111177786A (zh) | 2020-01-02 | 2020-01-02 | 基于随机响应机制本地差分隐私的数据库水印系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177786A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116150716A (zh) * | 2023-04-24 | 2023-05-23 | 中国科学技术大学 | 数据库水印嵌入方法、提取方法、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030217272A1 (en) * | 2002-05-15 | 2003-11-20 | International Business Machines Corporation | System and method for digital watermarking of data repository |
CN1737794A (zh) * | 2005-06-15 | 2006-02-22 | 武汉大学 | 一种用数字水印技术保护数据库数据版权的方法及其应用 |
CN109033766A (zh) * | 2018-08-03 | 2018-12-18 | 合肥工业大学 | 基于本地差分隐私的数据库水印方法 |
-
2020
- 2020-01-02 CN CN202010001221.6A patent/CN111177786A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030217272A1 (en) * | 2002-05-15 | 2003-11-20 | International Business Machines Corporation | System and method for digital watermarking of data repository |
CN1737794A (zh) * | 2005-06-15 | 2006-02-22 | 武汉大学 | 一种用数字水印技术保护数据库数据版权的方法及其应用 |
CN109033766A (zh) * | 2018-08-03 | 2018-12-18 | 合肥工业大学 | 基于本地差分隐私的数据库水印方法 |
Non-Patent Citations (2)
Title |
---|
DONGHUI HU等: "A New Robust Approach for Reversible Database Watermarking with Distortion Control", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
赵丹: "面向大数据共享的数据库水印技术研究", 《万方数据库》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116150716A (zh) * | 2023-04-24 | 2023-05-23 | 中国科学技术大学 | 数据库水印嵌入方法、提取方法、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7730037B2 (en) | Fragile watermarks | |
Li et al. | Tamper detection and localization for categorical data using fragile watermarks | |
CN109033766B (zh) | 基于本地差分隐私的数据库水印方法 | |
Guo et al. | A fragile watermarking scheme for detecting malicious modifications of database relations | |
Camara et al. | Distortion-free watermarking approach for relational database integrity checking | |
GB2358100A (en) | Digital watermarks | |
CN108614961B (zh) | 一种数据库数字水印嵌入和保护方法 | |
CN111125750B (zh) | 一种基于双层椭圆模型的数据库水印嵌入、检测方法及系统 | |
CN110770725B (zh) | 数据处理方法及装置 | |
CN112561770A (zh) | 一种基于脆弱水印的对抗样本防御方法 | |
Shah et al. | Semi-fragile watermarking scheme for relational database tamper detection | |
CN111177786A (zh) | 基于随机响应机制本地差分隐私的数据库水印系统 | |
Zhou et al. | An additive-attack-proof watermarking mechanism for databases' copyrights protection using image | |
CN108229113B (zh) | 一种数据库数字水印提取方法 | |
Sonnleitner | A robust watermarking approach for large databases | |
CN1758585A (zh) | 数字水印认证签章的方法 | |
Chai et al. | A robust and reversible watermarking technique for relational dataset based on clustering | |
Mohanpurkar et al. | Applying watermarking for copyright protection, traitor identification and joint ownership: A review | |
Waheeb Yaqub et al. | Distortion-free watermarking scheme for compressed data in columnar database | |
Shah et al. | Query preserving relational database watermarking | |
Xiao et al. | Second-LSB-dependent robust watermarking for relational database | |
Kamel et al. | Distortion-free fragile watermark for relational databases | |
Olliaro et al. | Empirical analysis of the impact of queries on watermarked relational databases | |
Murugan et al. | A robust watermarking technique for copyright protection for relational databases | |
Khatatneh et al. | Secure digital databases using watermarking based on english-character attributes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |