CN111177786A - 基于随机响应机制本地差分隐私的数据库水印系统 - Google Patents

基于随机响应机制本地差分隐私的数据库水印系统 Download PDF

Info

Publication number
CN111177786A
CN111177786A CN202010001221.6A CN202010001221A CN111177786A CN 111177786 A CN111177786 A CN 111177786A CN 202010001221 A CN202010001221 A CN 202010001221A CN 111177786 A CN111177786 A CN 111177786A
Authority
CN
China
Prior art keywords
database
watermark
value
odd
attribute value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010001221.6A
Other languages
English (en)
Inventor
胡东辉
严凇
赵丹
李萌
郑淑丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010001221.6A priority Critical patent/CN111177786A/zh
Publication of CN111177786A publication Critical patent/CN111177786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Storage Device Security (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于随机响应机制本地差分隐私的数据库水印系统,数据拥有者利用数据库预处理模块对待发布的原始数据库进行属性排序获得排序数据库;由本地差分隐私与水印嵌入模块针对排序数据库的敏感属性值实施基于随机响应机制的本地差分隐私,获得隐私保护数据库,依据隐私保护数据库中的数据特征向隐私保护数据库中嵌入水印信息,获得带水印信息数据库并发布到云端;针对被怀疑数据库,由数据拥有者或权威取证机构根据带水印信息数据库所对应的密钥和水印位置数组,从被怀疑数据库中提取水印信息,从而进行版权追踪和数据库完整性验证。本发明能够对数据库的隐私数据安全性、数据完整性及来源可靠性等做出综合保护。

Description

基于随机响应机制本地差分隐私的数据库水印系统
技术领域
本发明属于数据库安全领域,特别是涉及一种基于随机响应机制本地差分隐私的数据库水印系统及其实施方法。
背景技术
计算机网络技术和大数据技术的快速发展为数据在世界范围内的迅速传播开辟了便捷的途径,然而,日趋流行的大数据共享和交易也导致了信息安全和数据库版权保护的问题日趋严重。近年来,数据泄露的事件频繁发生,甚至发生在包含大量敏感数据的医疗领域以及服务行业。数据库作为政府、企业以及个人获取和传递信息的重要载体,其创建、传输和共享显著增加的同时也带来了安全风险,如数据被盗窃、非法复制和侵犯版权。目前针对数据库的隐私保护技术包括k-匿名、l-diversity匿名、t-closeness匿名和差分隐私等方法,而针对数据库版权保护技术主要依赖于数据库水印技术。尽管这些技术都得到了很好的发展,但是,目前缺少一种方法能够在保持较高数据可用性的同时解决数据库隐私问题以及版权保护问题。
目前的差分隐私技术和数据库水印技术还存在以下缺点:
1、当数据库中包含大量的用户个人敏感信息时,隐私保护非常重要且数据库共享时数据库溯源、版权保护以及数据的完整性验证等问题也需要解决。目前的数据库水印技术只能对数据库的完整性进行验证以及对数据库进行版权保护,但不能保护隐私。
2、目前尚无既能提供数据库隐私保护,又能提供原始数据版权追踪、完整性验证的数据库水印方法。
3、目前的差分隐私技术进行隐私保护时造成的数据失真比较大。
4、目前的数据库水印技术的鲁棒性还有待进一步提高,且嵌入水印导致失真使数据质量下降,不能满足大数据共享环境下数据挖掘和统计分析的需求,还有待进一步改进。
针对以上缺点,本申请发明人公开号为CN109033766A、公开日为20181218的发明专利申请中公开了“一种基于本地差分隐私的数据库水印方法”,其是基于拉普拉斯机制的本地差分隐私的数据库水印方法的发明专利申请,以提供改进方案,但其技术方案仍然存在不足,一是该方法虽然在提供版权保护的同时提供了较好数据库隐私保护,但依然没有解决传统差分隐私机制造成数据失真较大的问题;二是该方法中数据库水印技术具有很好的鲁棒性,但还有进一步改进的空间。
发明内容
本发明是为避免上述现有技术所存在的问题,提供一种基于随机响应机制本地差分隐私的数据库水印系统,以期对数据库的隐私数据安全性、数据完整性及来源可靠性等做出综合保护。
本发明为解决技术问题采用如下技术方案:
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点是:
所述数据库水印系统包括:数据库预处理模块、本地差分隐私与水印嵌入模块和水印提取模块;
数据拥有者利用所述数据库预处理模块针对待发布的原始数据库A进行属性排序获得排序数据库A1,并获得排序数据库A1的敏感属性,根据随机生成的密钥对所述排序数据库A1进行元组分组,确定所述排序数据库A1中各元组编号;
由所述本地差分隐私与水印嵌入模块针对所述排序数据库A1的敏感属性值实施基于随机响应机制的本地差分隐私,获得隐私保护数据库B,依据所述隐私保护数据库B中的数值特性向隐私保护数据库B中嵌入水印信息,获得带水印信息数据库C,由所述数据拥有者将带水印信息数据库C发布到云端;
在发现有被怀疑数据库D时,由所述数据拥有者或权威取证机构根据带水印信息数据库C所对应的密钥和水印位置数组,由水印提取模块从经过所述数据库预处理模块处理后的被怀疑数据库D中提取水印信息,从而进行版权追踪和数据库完整性验证;
所述带水印信息数据库C所对应的密钥和水印位置数组是由数据拥有者通过安全信道传递给权威取证机构;
所述被怀疑数据库D是指疑似为带水印信息数据库C的非法传播、或为带水印信息数据库C被篡改数据的数据库。
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点也在于:
利用式(1)确定所述排序数据库A1中各元组编号ni
ni=H(Ks||H(Ks||tu.PK))%Ng (1)
式(1)中:
ni=1,2…Ng,Ng为水印信息长度,以i表征排序数据库A1中第i行元组行号;
H()表示hash算法,“||”是连接符号,Ks是密钥,tu.PK是元组的主键。
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点也在于按如下方式获得隐私保护数据库B:
针对排序数据库A1中各元组所对应的敏感属性值xi实施基于随机响应机制的本地差分隐私,按如下方式获得一一对应的具有隐私保护的各属性值yi
依据满足式(2)的概率pu,v将敏感属性值xi修改为属性值yi
Figure BDA0002353577880000031
式(2)中:
t为敏感属性值xi能取到的最大整数值,xi∈(1,2,…,t)是指属性值xi取从1到t的整数值,xi∈(0,1)是指属性值xi取值为0或1;
pu,v=p[yi=u,xi=v]为将取值为v的敏感属性值xi修改为取值为u的属性值yi的概率值;
pu,v满足0<pu,v<1,且
Figure BDA0002353577880000032
m为xi的取值范围的长度,并且当u=v=b时,pu,v=pb,b>0.5;ε是隐私保护预算值,ε不小于
Figure BDA0002353577880000033
针对排序数据库A1中所有元组的敏感属性值xi一一对应获得各属性值yi,从而得到隐私保护数据库B,且隐私保护数据库B中各元组编号与排序数据库A1中各元组编号相同。
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点也在于:按如下步骤向隐私保护数据库B中嵌入水印信息得到带水印信息数据库C:
步骤4.1、初始化水印位置数组mark;
步骤4.2、计算获得属性值yi造成的数据失真值di为:di=|yi-xi|;数据库拥有者自定义属性值失真范围为ξ,若数据失真值di超出属性值失真范围ξ,则在水印位置数组mark中记录属性值yi所在隐私保护数据库B中的位置,并在属性值yi中按如下方式嵌入水印位;
根据隐私保护数据库B中各元组编号ni进行水印嵌入,具有相同元组编号的元组嵌入相同的水印位w;水印嵌入过程为:首先根据要嵌入的水印位w修改属性值yi得到更新属性值y′i,当嵌入的水印为1时,将属性值yi变为奇数作为更新属性值y′i,当嵌入的水印为0时,将属性值yi变为偶数作为更新属性值y′i;针对所有元组完成水印嵌入得到带水印信息数据库C。
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点也在于按如下方式进行版权追踪和数据库完整性验证:
步骤5.1、数据使用者、权威取证机构或数据拥有者针对带水印信息数据库C从云端下载得到下载数据库D′w,根据下载数据库D′w的属性名的升序或者降序对属性进行排序得到排序下载数据库D″w
所述排序下载数据库D″w与所述排序数据库A1中的属性排序相同,且各元组编号相同;
步骤5.2、拥有密钥和水印位置数组的数据拥有者或权威取证机构从排序下载数据库D″w中提取水印信息;按照排序下载数据库D″w中元组编号ni依次对每组中的所有元组进行对应水印位的提取;如果每组中各元组的属性位置信息存在于水印位置数组mark中则提取水印位;
针对所述排序下载数据库D″w存在于水印位置数组mark中的属性值s提取水印位的过程如下:
初始化变量:ones=0,zeros=0;
当属性值s为奇数时,将ones加1;当属性值s为偶数时,将zeros加1;
每完成一组中所有元组的遍历之后,比较当前ones值和当前zeros值的大小;
若有:当前ones值>当前zeros值,则提取的水印位w为1;否则提取的水印位w为0;
若是:当前ones值和当前zeros值都不为0,则判断为带水印信息数据库C已被篡改,数据的完整性遭到破坏。
本发明基于随机响应机制本地差分隐私的数据库水印系统的特点也在于:将所述属性值yi变为奇数或偶数是按如下可选的两种方式进行:
方式一、依据随机响应机制引起的数据失真,使得最终的数据失真最小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi+1;若yi为偶数,且xi为奇数,则将yi的值修改为xi
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi-1;若yi为偶数,且xi为奇数,则将yi的值修改为xi
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi+1;若yi为奇数,且xi为偶数,则将yi的值修改为xi
当w=0,且yi<xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi-1;若yi为奇数,且xi为偶数,则将yi的值修改为xi
方式二、依据数据拥有者自定义的属性值失真范围ξ,使得最终的数据失真尽可能小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi-ξ为偶数,则将yi的值修改为yi-ξ+1;若yi为偶数,且yi-ξ为奇数,则将值yi的值修改为yi-ξ;
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi+ξ为偶数,则将yi的值修改为yi+ξ-1;若yi为偶数,且yi+ξ为奇数,则将yi的值修改为yi+ξ;
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且yi-ξ为奇数,则将yi的值修改为yi-ξ+1;若yi为奇数,且yi-ξ为偶数,则将yi的值修改为yi-ξ;
当w=0,且yi<xi时:若yi为偶数则保持yi的值不变;若yi为奇数,且yi+ξ为奇数,则将yi的值修改为yi+ξ-1;若yi为奇数,且yi+ξ为偶数,则将yi的值修改为yi+ξ。
对于本发明的应用,数据拥有者可以使用本发明来保护数据库版权以及隐私信息。数据使用者可以从云端下载并使用数据库,但是不能通过数据分析得到数据库中个人的敏感信息;拥有密钥的数据拥有者和权威取证机构不仅可以像数据使用者一样使用数据库,而且可以提取水印用于版权和数据完整性验证,与已有技术相比,本发明有益效果体现在:
1、本发明不仅实现了对数据库的隐私保护、而且实现了对数据库的版权保护以及完整性验证。
2、本发明中数据库水印极大地提高了差分隐私后数据库的数据质量,减小了差分隐私造成的数据失真;
3、本发明基于随机响应机制本地差分隐私设计出的数据库水印使得嵌入水印后数据库仍然能够保持差分隐私的特性;
4、本发明中数据库水印有很高的鲁棒性,即在数据库元组遭受插入或者修改攻击时,数据拥有者和权威取证机构仍然能够正确且完整地提取出水印;
5、本发明可以运用于大数据处理机构,运用于数据库中原始数据的版权保护,完整性保护以及发布数据的隐私保护,数据拥有者和权威取证机构可以判断数据库的来源、验证数据的完整性并且不能得到确切的用户隐私数据。
附图说明
图1为本发明中基于随机响应机制本地差分隐私的数据库水印系统架构图;
图2为不同的数据库水印方法所嵌入水印的鲁棒性对比图。
具体实施方式
参见图1,本实施例中基于随机响应机制本地差分隐私的数据库水印系统包括:数据库预处理模块a、本地差分隐私与水印嵌入模块b和水印提取模块c。
数据拥有者利用数据库预处理模块a针对待发布的原始数据库A进行属性排序获得排序数据库A1,并获得排序数据库A1的敏感属性,根据随机生成的密钥对所述排序数据库A1进行元组分组,确定排序数据库A1中各元组编号。
由本地差分隐私与水印嵌入模块b针对所述排序数据库A1的敏感属性值实施基于随机响应机制的本地差分隐私,获得隐私保护数据库B,依据隐私保护数据库B中的数值特性向隐私保护数据库B中嵌入水印信息,获得带水印信息数据库C,由数据拥有者将带水印信息数据库C发布到云端;
在发现有被怀疑数据库D时,由数据拥有者或权威取证机构根据带水印信息数据库C所对应的密钥和水印位置数组,由水印提取模块c从经过数据库预处理模块a处理后的被怀疑数据库D中提取水印信息,从而进行版权追踪和数据库完整性验证;
带水印信息数据库C所对应的密钥和水印位置数组是由数据拥有者通过安全信道传递给权威取证机构;被怀疑数据库D是指疑似为带水印信息数据库C的非法传播、或为带水印信息数据库C被篡改数据的数据库。
数据使用者都可以从云端下载并使用数据库,但并不能通过数据分析得到数据库中任何元组的敏感属性值。
本实施例中,利用式(1)确定排序数据库A1中各元组编号ni
ni=H(Ks||H(Ks||tu.PK))%Ng (1)
式(1)中:
ni=1,2…Ng,Ng为水印信息长度,以i表征排序数据库A1中第i行元组行号;
H()表示hash算法,“||”是连接符号,Ks是密钥,tu.PK是元组的主键。
本实施例中按如下方式获得隐私保护数据库B:
针对排序数据库A1中各元组所对应的敏感属性值xi实施基于随机响应机制的本地差分隐私,按如下方式获得一一对应的具有隐私保护的各属性值yi
依据满足式(2)的概率pu,v将敏感属性值xi修改为属性值yi,实现对数据库中的敏感属性的隐私保护:
Figure BDA0002353577880000061
式(2)中:
t为敏感属性值xi能取到的最大整数值,xi∈(1,2,…,t)是指属性值xi取从1到t的整数值,xi∈(0,1)是指属性值xi取值为0或1;
pu,v=p[yi=u,xi=v]为将取值为v的敏感属性值xi修改为取值为u的属性值yi的概率值;
pu,v满足0<pu,v<1,且
Figure BDA0002353577880000062
m为xi的取值范围的长度,并且当u=v=b时,pu,v=pb,b>0.5;
ε是隐私保护预算值,ε不小于
Figure BDA0002353577880000071
ε越小隐私保护的程度越高,但同时数据失真越大,具体应用中根据隐私保护及数据可用性平衡的需求进行设置。
针对排序数据库A1中所有元组的敏感属性值xi一一对应获得各属性值yi,从而得到隐私保护数据库B,且隐私保护数据库B中各元组编号与排序数据库A1中各元组编号相同。
本实施例中按如下步骤向隐私保护数据库B中嵌入水印信息得到带水印信息数据库C:
步骤1、初始化水印位置数组mark;
步骤2、计算获得属性值yi造成的数据失真值di为:di=|yi-xi|;数据库拥有者自定义属性值失真范围为ξ,若数据失真值di超出属性值失真范围ξ,则在水印位置数组mark中记录属性值yi所在隐私保护数据库B中的位置,并在属性值yi中按如下方式嵌入水印位;
根据隐私保护数据库B中各元组编号ni进行水印嵌入,具有相同元组编号的元组嵌入相同的水印位w;水印嵌入过程为:首先根据要嵌入的水印位w修改属性值yi得到更新属性值y′i,当嵌入的水印为1时,将属性值yi变为奇数作为更新属性值y′i,当嵌入的水印为0时,将属性值yi变为偶数作为更新属性值y′i;针对所有元组完成水印嵌入得到带水印信息数据库C。
本实施例中按如下方式进行版权追踪和数据库完整性验证:
步骤1、数据使用者、权威取证机构或数据拥有者针对带水印信息数据库C从云端下载得到下载数据库D′w,根据下载数据库D′w的属性名的升序或者降序对属性进行排序得到排序下载数据库D″w;排序下载数据库D″w与排序数据库A1中的属性排序相同,且各元组编号相同。
步骤2、拥有密钥和水印位置数组的数据拥有者或权威取证机构从排序下载数据库D″w中提取水印信息;按照排序下载数据库D″w中元组编号ni依次对每组中的所有元组进行对应水印位的提取;如果每组中各元组的属性位置信息存在于水印位置数组mark中则提取水印位;
针对排序下载数据库D″w存在于水印位置数组mark中的属性值s提取水印位的过程如下:
初始化变量:ones=0,zeros=0;
当属性值s为奇数时,将ones加1;当属性值s为偶数时,将zeros加1;
每完成一组中所有元组的遍历之后,比较当前ones值和当前zeros值的大小;
若有:当前ones值>当前zeros值,则提取的水印位w为1;否则提取的水印位w为0;
若是:当前ones值和当前zeros值都不为0,则判断为带水印信息数据库C已被篡改,数据的完整性遭到破坏。
本实施例中将属性值yi变为奇数或偶数是按如下可选的两种方式进行:
方式一、依据随机响应机制引起的数据失真,使得最终的数据失真最小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi+1;若yi为偶数,且xi为奇数,则将yi的值修改为xi
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi-1;若yi为偶数,且xi为奇数,则将yi的值修改为xi
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi+1;若yi为奇数,且xi为偶数,则将yi的值修改为xi
当w=0,且yi<xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi-1;若yi为奇数,且xi为偶数,则将yi的值修改为xi
方式二、依据数据拥有者自定义的属性值失真范围ξ,使得最终的数据失真尽可能小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi-ξ为偶数,则将yi的值修改为yi-ξ+1;若yi为偶数,且yi-ξ为奇数,则将值yi的值修改为yi-ξ。
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi+ξ为偶数,则将yi的值修改为yi+ξ-1;若yi为偶数,且yi+ξ为奇数,则将yi的值修改为yi+ξ。
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且yi-ξ为奇数,则将yi的值修改为yi-ξ+1;若yi为奇数,且yi-ξ为偶数,则将yi的值修改为yi-ξ。
当w=0,且yi<xi时:若yi为偶数则保持yi的值不变;若yi为奇数,且yi+ξ为奇数,则将yi的值修改为yi+ξ-1;若yi为奇数,且yi+ξ为偶数,则将yi的值修改为yi+ξ。
本系统按如下步骤实施:
1.1:输入原始数据库A、密钥Ks、隐私保护预算值ε、数据库拥有者自定义属性值失真范围ξ以及水印信息W:
以成人收入预测的数据库作为原始数据库A进行实验,由于所用数据库已经针对属性名进行排序,故此处原始数据库A也等同于排序数据库A1,排序数据库A1中包含了32,560个成人的信息,两种敏感属性分别为年龄(age)和每周工作时间(hours-per-week),以两种敏感属性为例并生成一列作为主键进行实验。密钥Ks随机生成,属性失真范围ξ以及水印信息W由数据拥有者自定义,隐私保护预算值ε根据数据拥有者需求并结合数据库训练出最优的值。
以排序数据库A1中的部分敏感属性值为例,如表1所示:
表1
age hours-per-week
39 40
50 13
38 40
53 40
28 40
37 40
49 16
52 45
31 50
42 40
37 80
30 40
23 30
32 50
1.2:根据水印信息W计算元组分组数目Ng:Ng=strlen(W),其中strlen(W)表示水印信息W的长度。
1.3:利用式(1)对排序数据库A1进行元组分组得到Ng个分组;
1.4:对排序数据库A1实施基于随机响应机制的本地差分隐私,得到隐私保护数据库B;
1.5:如果排序数据库A1中的敏感属性值xi经本地差分隐私后的属性值yi超过自定义属性失真范围ξ,即|yi-xi|>ξ,则在水印位置数组mark中记录该敏感属性值yi所在隐私保护数据库B中的位置为提取水印做准备,并在属性值yi中嵌入属性值所在元组分组对应的水印位;通过理论分析得到若嵌入水印数据的变化为-1,即属性值yi嵌入水印位后的值减去属性值xi等于-1时,水印不会破坏本地差分隐私保护,仅仅会削弱本地差分隐私的强度。
以Wr表示水印信息W的第r个水印位;
针对敏感属性值yi嵌入水印位的过程为:根据该属性值所在元组的元组编号ni,找到对应的水印位
Figure BDA0002353577880000091
嵌入水印
Figure BDA0002353577880000092
如果
Figure BDA0002353577880000093
为1,则将属性值yi修改为奇数,否则修改为偶数。
假设数据拥有者自定义属性失真范围ξ=8,隐私保护预算ε=ln(2)时,在水印位置数组mark数组中记录下属性值yi在隐私保护数据库B中的位置,初始化mark[n][m]数组中所有数据为0,其中n为隐私保护数据库B中元组的个数,m为隐私保护数据库B中属性的数量,当在隐私保护数据库B的第tu个元组的第c个属性值中嵌入水印位,则修改mark[tu][c]为1;然后根据所对应的水印位修改属性值yi从而嵌入水印。
修改属性值yi有以下两种可选方式:
方式1:依据随机响应机制引起的数据失真,使得最终的数据失真最小(记为RRDW1):
例如:第一行第二列的属性值经本地差分隐私后的属性值为60,超过了自定义失真限制ξ,则修改mark[1][2]=1,需要嵌入的水印位为1,由于属性值60是偶数且本地差分隐私前的属性值40是偶数,故需要对属性值40进行加1操作变为奇数,并赋值给本地差分隐私后的属性值60,故嵌入水印后的属性值为41;如果需要嵌入的水印位是0,由于60与0都是偶数,故本地差分隐私后的属性值60保持不变,嵌入水印后仍为60;依次类推得到所述隐私保护数据库B部分敏感属性值嵌入水印后的属性值如表2所示:
表2
age hours-per-week
39 41
43 14
72 12
53 40
29 41
45 39
49 48
18 26
31 49
37 40
38 75
30 40
73 31
41 73
方式2、依据数据拥有者自定义的属性值失真范围ξ,使得最终的数据失真尽可能小(记为RRDW2):
例如:第一行第二列的属性值经本地差分隐私后的属性值为60,超过了自定义失真限制ξ,则修改mark[1][2]=1,并根据需要嵌入的水印位1,由于属性值60是偶数,故需要对属性值60进行减ξ操作,属性值变为52,又由于52是偶数,需要对属性值52进行加1操作变为奇数,故嵌入水印后的属性值为53;如果需要嵌入的水印位是0,由于60与0都是偶数,故本地差分隐私后的属性值60保持不变,嵌入水印后仍为60;依次类推得到隐私保护数据库B部分敏感属性值嵌入水印后的敏感属性值如表3所示:
表3
age hours-per-week
77 53
43 78
72 12
69 40
73 63
45 21
49 48
18 26
31 17
37 90
38 75
54 36
73 57
41 73
1.6:输出嵌入水印后的带水印信息数据库C和水印位置数组mark;
针对带水印信息数据库C从云端下载得到的下载数据库D′w中水印信息的提取过程按如下步骤进行:
2.1:输入下载数据库D′w经过属性排序得到的排序下载数据库D″w、密钥Ks和水印位置数组mark;
2.2:初始化变量:zeros=0,ones=0,数据库完整性标志位integrity=TRUE;
2.3:利用式(1)对排序下载数据库D″w进行分组得到D″w中各元组的编号ni
2.4:提取水印阶段,依次对排序下载数据库D″w每组的所有元组中存在于水印位置数组mark中的属性值进行以下操作:如果属性值是奇数,则属性值所在分组的ones加1;否则属性值所在分组的zeros加1;直到排序下载数据库D″w各分组中所有元组都迭代完成;
2.5:分别比较排序下载数据库D″w每组中zeros与ones的大小,如果第ni个分组的zeros较大,则认为嵌入的第ni个水印位为0;否则认为嵌入的第ni个水印位为1;
2.6:若排序下载数据库D″w中出现任意一个分组的zeros与ones都不为0,则认为数据库被篡改,修改数据库完整性标志位integrity=FALSE;
2.7:输出提取的水印信息以及数据库完整性判断值integrity。
嵌入水印的鲁棒性实验结果如图2所示,图2为本发明中数据库水印方法(RRDW1、RRDW2)和本申请发明人公开号为CN109033766A的发明专利申请中公开的“一种基于本地差分隐私的数据库水印方法”(LMDW)中所嵌入水印的鲁棒性对比图;图2中曲线a、曲线b和曲线c分别表示数据库水印方法LMDW、RRDW1、RRDW2受到删除攻击的水印鲁棒性示意;曲线d、曲线e和曲线f分别表示数据库水印方法LMDW、RRDW1、RRDW2受到修改攻击的水印鲁棒性示意图。
实验操作过程如下:
数据库所嵌入水印的鲁棒性通过式(3)中的误码率BER来衡量,即提取出的水印信息的正确率。
Figure BDA0002353577880000121
Ng是水印信息长度,wi是嵌入的第i个水印位,
Figure BDA0002353577880000122
是提取出的第i个水印位。
针对本发明实施方法以及本申请发明人公开号为CN109033766A的发明专利申请中公开的“一种基于本地差分隐私的数据库水印方法”(记为LMDW),考虑三种典型的攻击类型:插入、删除以及修改。
首先对带水印信息数据库C进行插入攻击,攻击者随机创建元组并将其插入到带水印信息数据库C中以期销毁水印,实验表明无论插入多少元组,本发明以及LMDW方法都能完整提取水印信息,即误码率为0。
分别考虑删除和修改攻击,每一种攻击分别对带水印信息数据库C删除或修改10%,20%,…,90%,然后从受到攻击后的数据库C中提取水印,得到误码率如图2所示。图2中横坐标表示数据库C中被删除或修改的元组个数占总元组个数的比例,纵坐标表示误码率BER,图中可见,即使当修改或删除比例达到80%时,修改攻击对两种方法提取水印也没有影响,当修改攻击达到90%时,本发明中基于自定义失真范围ξ的方法(RRDW2)误码率最低,效果最好;删除攻击对本发明中提取水印的影响最大也仅为0.8%,相对于LMDW也有很大的改进,因此本发明具有更高的鲁棒性。
表4分别为原始数据库A以及对原始数据库A实施基于拉普拉斯机制本地差分隐私的数据库水印方法后的带水印信息数据库C1、对原始数据库A实施本地差分隐私后的数据库C2、对原始数据库A实施本发明中基于随机响应机制本地差分隐私的数据库水印方法后的带水印信息数据库C3、C4的属性值统计分析情况(其中获得数据库C3是实施基于最小数据失真的随机响应机制,获得数据库C4是实施基于自定义失真范围ξ的随机响应机制):
对于嵌入水印造成的数据失真问题,统计分析数据库经本地差分隐私以及嵌入水印前后各属性的均值和标准差,并使用平均绝对误差MAE来量化数据库水印方法造成的数据失真。
Figure BDA0002353577880000131
式(4)中,n是元组个数,m是敏感属性的个数,Aij是原始数据库A中第i个元组中第j个敏感属性值,
Figure BDA0002353577880000132
是带水印信息数据库C中Aij所对应的经本地差分隐私并嵌入水印后的属性值。
表4
Figure BDA0002353577880000133
表4可见,本发明降低了数据失真,提高了数据的可用性,显然的,数据库C3即本发明中基于最小数据失真的随机响应机制的数据库水印方法的数据可用性最高,故本发明针对数据失真较大问题与本申请发明人公开号为CN109033766A、公开日为20181218的发明专利申请中公开的“一种基于本地差分隐私的数据库水印方法”(LMDW)相比有较大改进。
进一步评估LMDW、RRDW1和RRDW2对数据库分类任务的影响,分别采取了朴素贝叶斯(
Figure BDA0002353577880000136
Bayes)、Adaboost和决策树(Decision Tree)分类方法对原始数据库、本地差分隐私保护的数据库以及实施本地差分隐私并嵌入水印后的数据库进行分类。依然以成人收入预测数据库为例,成人收入预测结果分为2类:
分类1:‘fnlwgt’大于50
分类2:‘fnlwgt’不大于50
使用分类准确率(Accuracy)和分类敏感度(Sensitivity)作为衡量分类结果的指标。
Figure BDA0002353577880000134
Figure BDA0002353577880000135
式(5)和式(6)中,TP表示分类为1的元组被正确检测为分类1的元组数目,TN表示分类为2的元组中被正确检测为分类2的元组数目,FP表示分类为2的元组中被误检测为分类1的元组数目,FN表示分类为1的元组中被误检测为分类2的元组数目。
分类统计结果如表5所示,其中Aco、AcLM、AcLMDW、AcRR、AcRRDW1和AcRRDW2分别为原始数据库、对原始数据库实施拉普拉斯机制后的数据库、对原始数据库实施随机响应机制以及LMDW、RRDW1和RRDW2后的数据库的分类准确度;Seo、SeLM、SeLMDW、SeRR、SeRRDW1和SeRRDW2分别为原始数据库、对原始数据库实施拉普拉斯机制后的数据库、对原始数据库实施随机响应机制以及LMDW、RRDW1和RRDW2后的数据库的分类敏感度;
表5
Figure BDA0002353577880000141
通过表5可以发现,本发明中所提出数据库水印方法对数据挖掘任务的影响较小,且从总体来看实施了本发明中基于最小失真限制随机响应机制的数据库水印方法(RRDW1)后的数据库更接近于原始数据库。

Claims (6)

1.一种基于随机响应机制本地差分隐私的数据库水印系统,其特征是:
所述数据库水印系统包括:数据库预处理模块(a)、本地差分隐私与水印嵌入模块(b)和水印提取模块(c);
数据拥有者利用所述数据库预处理模块(a)针对待发布的原始数据库A进行属性排序获得排序数据库A1,并获得排序数据库A1的敏感属性,根据随机生成的密钥对所述排序数据库A1进行元组分组,确定所述排序数据库A1中各元组编号;
由所述本地差分隐私与水印嵌入模块(b)针对所述排序数据库A1的敏感属性值实施基于随机响应机制的本地差分隐私,获得隐私保护数据库B,依据所述隐私保护数据库B中的数值特性向隐私保护数据库B中嵌入水印信息,获得带水印信息数据库C,由所述数据拥有者将带水印信息数据库C发布到云端;
在发现有被怀疑数据库D时,由所述数据拥有者或权威取证机构根据带水印信息数据库C所对应的密钥和水印位置数组,由水印提取模块(c)从经过所述数据库预处理模块(a)处理后的被怀疑数据库D中提取水印信息,从而进行版权追踪和数据库完整性验证;
所述带水印信息数据库C所对应的密钥和水印位置数组是由数据拥有者通过安全信道传递给权威取证机构;
所述被怀疑数据库D是指疑似为带水印信息数据库C的非法传播、或为带水印信息数据库C被篡改数据的数据库。
2.根据权利要求1所述的基于随机响应机制本地差分隐私的数据库水印系统,其特征是:
利用式(1)确定所述排序数据库A1中各元组编号ni
ni=H(Ks||H(Ks||tu.PK))%Ng (1)
式(1)中:
ni=1,2…Ng,Ng为水印信息长度,以i表征排序数据库A1中第i行元组行号;
H()表示hash算法,“||”是连接符号,Ks是密钥,tu.PK是元组的主键。
3.根据权利要求2所述的基于随机响应机制本地差分隐私的数据库水印系统,其特征是按如下方式获得隐私保护数据库B:
针对排序数据库A1中各元组所对应的敏感属性值xi实施基于随机响应机制的本地差分隐私,按如下方式获得一一对应的具有隐私保护的各属性值yi
依据满足式(2)的概率pu,v将敏感属性值xi修改为属性值yi
Figure FDA0002353577870000021
式(2)中:
t为敏感属性值xi能取到的最大整数值,xi∈(1,2,…,t)是指属性值xi取从1到t的整数值,xi∈(0,1)是指属性值xi取值为0或1;
pu,v=p[yi=u,xi=v]为将取值为v的敏感属性值xi修改为取值为u的属性值yi的概率值;
pu,v满足0<pu,v<1,且
Figure FDA0002353577870000022
m为xi的取值范围的长度,并且当u=v=b时,pu,v=pb,b>0.5;
ε是隐私保护预算值,ε不小于
Figure FDA0002353577870000023
针对排序数据库A1中所有元组的敏感属性值xi一一对应获得各属性值yi,从而得到隐私保护数据库B,且隐私保护数据库B中各元组编号与排序数据库A1中各元组编号相同。
4.根据权利要求2所述的基于随机响应机制本地差分隐私的数据库水印系统,其特征是,按如下步骤向隐私保护数据库B中嵌入水印信息得到带水印信息数据库C:
步骤4.1、初始化水印位置数组mark;
步骤4.2、计算获得属性值yi造成的数据失真值di为:di=|yi-xi|;数据库拥有者自定义属性值失真范围为ξ,若数据失真值di超出属性值失真范围ξ,则在水印位置数组mark中记录属性值yi所在隐私保护数据库B中的位置,并在属性值yi中按如下方式嵌入水印位;
根据隐私保护数据库B中各元组编号ni进行水印嵌入,具有相同元组编号的元组嵌入相同的水印位w;水印嵌入过程为:首先根据要嵌入的水印位w修改属性值yi得到更新属性值y′i,当嵌入的水印为1时,将属性值yi变为奇数作为更新属性值y′i,当嵌入的水印为0时,将属性值yi变为偶数作为更新属性值y′i;针对所有元组完成水印嵌入得到带水印信息数据库C。
5.根据权利要求4所述的基于随机响应机制本地差分隐私的数据库水印系统,其特征是按如下方式进行版权追踪和数据库完整性验证:
步骤5.1、数据使用者、权威取证机构或数据拥有者针对带水印信息数据库C从云端下载得到下载数据库D′w,根据下载数据库D′w的属性名的升序或者降序对属性进行排序得到排序下载数据库D″w
所述排序下载数据库D″w与所述排序数据库A1中的属性排序相同,且各元组编号相同;
步骤5.2、拥有密钥和水印位置数组的数据拥有者或权威取证机构从排序下载数据库D″w中提取水印信息;按照排序下载数据库D″w中元组编号ni依次对每组中的所有元组进行对应水印位的提取;如果每组中各元组的属性位置信息存在于水印位置数组mark中则提取水印位;
针对所述排序下载数据库D″w存在于水印位置数组mark中的属性值s提取水印位的过程如下:
初始化变量:ones=0,zeros=0;
当属性值s为奇数时,将ones加1;当属性值s为偶数时,将zeros加1;
每完成一组中所有元组的遍历之后,比较当前ones值和当前zeros值的大小;
若有:当前ones值>当前zeros值,则提取的水印位w为1;否则提取的水印位w为0;
若是:当前ones值和当前zeros值都不为0,则判断为带水印信息数据库C已被篡改,数据的完整性遭到破坏。
6.根据权利要求4所述的基于随机响应机制本地差分隐私的数据库水印系统,其特征是:将所述属性值yi变为奇数或偶数是按如下可选的两种方式进行:
方式一、依据随机响应机制引起的数据失真,使得最终的数据失真最小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi+1;若yi为偶数,且xi为奇数,则将yi的值修改为xi
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且xi为偶数,则将yi的值修改为xi-1;若yi为偶数,且xi为奇数,则将yi的值修改为xi
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi+1;若yi为奇数,且xi为偶数,则将yi的值修改为xi
当w=0,且yi<xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且xi为奇数,则将yi的值修改为xi-1;若yi为奇数,且xi为偶数,则将yi的值修改为xi
方式二、依据数据拥有者自定义的属性值失真范围ξ,使得最终的数据失真尽可能小:
当w=1,且yi>xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi-ξ为偶数,则将yi的值修改为yi-ξ+1;若yi为偶数,且yi-ξ为奇数,则将值yi的值修改为yi-ξ;
当w=1,且yi<xi时:若yi为奇数,则保持yi的值不变;若yi为偶数,且yi+ξ为偶数,则将yi的值修改为yi+ξ-1;若yi为偶数,且yi+ξ为奇数,则将yi的值修改为yi+ξ;
当w=0,且yi>xi时:若yi为偶数,则保持yi的值不变;若yi为奇数,且yi-ξ为奇数,则将yi的值修改为yi-ξ+1;若yi为奇数,且yi-ξ为偶数,则将yi的值修改为yi-ξ;
当w=0,且yi<xi时:若yi为偶数则保持yi的值不变;若yi为奇数,且yi+ξ为奇数,则将yi的值修改为yi+ξ-1;若yi为奇数,且yi+ξ为偶数,则将yi的值修改为yi+ξ。
CN202010001221.6A 2020-01-02 2020-01-02 基于随机响应机制本地差分隐私的数据库水印系统 Pending CN111177786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010001221.6A CN111177786A (zh) 2020-01-02 2020-01-02 基于随机响应机制本地差分隐私的数据库水印系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010001221.6A CN111177786A (zh) 2020-01-02 2020-01-02 基于随机响应机制本地差分隐私的数据库水印系统

Publications (1)

Publication Number Publication Date
CN111177786A true CN111177786A (zh) 2020-05-19

Family

ID=70654418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010001221.6A Pending CN111177786A (zh) 2020-01-02 2020-01-02 基于随机响应机制本地差分隐私的数据库水印系统

Country Status (1)

Country Link
CN (1) CN111177786A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150716A (zh) * 2023-04-24 2023-05-23 中国科学技术大学 数据库水印嵌入方法、提取方法、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030217272A1 (en) * 2002-05-15 2003-11-20 International Business Machines Corporation System and method for digital watermarking of data repository
CN1737794A (zh) * 2005-06-15 2006-02-22 武汉大学 一种用数字水印技术保护数据库数据版权的方法及其应用
CN109033766A (zh) * 2018-08-03 2018-12-18 合肥工业大学 基于本地差分隐私的数据库水印方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030217272A1 (en) * 2002-05-15 2003-11-20 International Business Machines Corporation System and method for digital watermarking of data repository
CN1737794A (zh) * 2005-06-15 2006-02-22 武汉大学 一种用数字水印技术保护数据库数据版权的方法及其应用
CN109033766A (zh) * 2018-08-03 2018-12-18 合肥工业大学 基于本地差分隐私的数据库水印方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONGHUI HU等: "A New Robust Approach for Reversible Database Watermarking with Distortion Control", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
赵丹: "面向大数据共享的数据库水印技术研究", 《万方数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150716A (zh) * 2023-04-24 2023-05-23 中国科学技术大学 数据库水印嵌入方法、提取方法、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US7730037B2 (en) Fragile watermarks
Li et al. Tamper detection and localization for categorical data using fragile watermarks
CN109033766B (zh) 基于本地差分隐私的数据库水印方法
Guo et al. A fragile watermarking scheme for detecting malicious modifications of database relations
Camara et al. Distortion-free watermarking approach for relational database integrity checking
GB2358100A (en) Digital watermarks
CN108614961B (zh) 一种数据库数字水印嵌入和保护方法
CN111125750B (zh) 一种基于双层椭圆模型的数据库水印嵌入、检测方法及系统
CN110770725B (zh) 数据处理方法及装置
CN112561770A (zh) 一种基于脆弱水印的对抗样本防御方法
Shah et al. Semi-fragile watermarking scheme for relational database tamper detection
CN111177786A (zh) 基于随机响应机制本地差分隐私的数据库水印系统
Zhou et al. An additive-attack-proof watermarking mechanism for databases' copyrights protection using image
CN108229113B (zh) 一种数据库数字水印提取方法
Sonnleitner A robust watermarking approach for large databases
CN1758585A (zh) 数字水印认证签章的方法
Chai et al. A robust and reversible watermarking technique for relational dataset based on clustering
Mohanpurkar et al. Applying watermarking for copyright protection, traitor identification and joint ownership: A review
Waheeb Yaqub et al. Distortion-free watermarking scheme for compressed data in columnar database
Shah et al. Query preserving relational database watermarking
Xiao et al. Second-LSB-dependent robust watermarking for relational database
Kamel et al. Distortion-free fragile watermark for relational databases
Olliaro et al. Empirical analysis of the impact of queries on watermarked relational databases
Murugan et al. A robust watermarking technique for copyright protection for relational databases
Khatatneh et al. Secure digital databases using watermarking based on english-character attributes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519