CN105512523B - 一种匿名化的数字水印嵌入和提取方法 - Google Patents

一种匿名化的数字水印嵌入和提取方法 Download PDF

Info

Publication number
CN105512523B
CN105512523B CN201510856638.XA CN201510856638A CN105512523B CN 105512523 B CN105512523 B CN 105512523B CN 201510856638 A CN201510856638 A CN 201510856638A CN 105512523 B CN105512523 B CN 105512523B
Authority
CN
China
Prior art keywords
watermark
data
anonymization
information
embedded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510856638.XA
Other languages
English (en)
Other versions
CN105512523A (zh
Inventor
陈瑞霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MrRay Chengdu Technology Co Ltd
Original Assignee
MrRay Chengdu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MrRay Chengdu Technology Co Ltd filed Critical MrRay Chengdu Technology Co Ltd
Priority to CN201510856638.XA priority Critical patent/CN105512523B/zh
Publication of CN105512523A publication Critical patent/CN105512523A/zh
Application granted granted Critical
Publication of CN105512523B publication Critical patent/CN105512523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/106Enforcing content protection by specific content processing
    • G06F21/1063Personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及数据库安全技术和数据匿名化,具体涉及一种匿名化的数字水印嵌入和提取方法,嵌入方法包括确定所需要嵌入的水印信息、散列处理、带盐散列计算、水印索引计算和水印嵌入后得到带有版权标记的匿名化数据集,提取放方法包括读取匿名化数据集、对每一行数据进行水印索引计算、水印提取、提取完所有行的数据后,采用投票机制还原水印信息、输出所提取的水印信息。实现了在对数据匿名化的同时嵌入数字水印信息,具有良好的隐蔽性,在保证隐私数据不被泄露的同时保障了数据发布者的权益。支持动态发布数据,支持多数据源数据发布。

Description

一种匿名化的数字水印嵌入和提取方法
技术领域
本发明涉及数据库安全技术和数据匿名化,具体涉及一种匿名化的数字水印嵌入和提取方法。
背景技术
近年来,人们一直见证着数据爆炸,对大数据的分析和挖掘在极大程度上方便了我们的生活,然而,这些被分析的数据当中,大部分是专有的,并且包含许多个人或商业敏感信息,敏感数据的示例包括患者记录、特殊房屋信息,税务记录、客户购买记录、移动呼叫详细记录(CDR)等。这样的数据集非常敏感的性质禁止它们被直接公开。需要采用适当的隐私保护技术进行处理后发布。
数字水印技术是网络环境下实现多媒体信息版权保护的一种有效手段。随着关系型数据库的广泛使用,人们越来越关注数据库的版权保护,特别是提供信息服务的公司,如气象服务、人才市场信息、股票交易信息等,其主要资产是存储于数据库里的大量数据。通过在关系数据库中嵌入代表所有权的水印信息,可以有效防止有价值的数据被非法盗用,实现数据库的版权保护。因此,关系型数据库水印技术的研究和发展具有较大的理论价值和实际意义。
用于匿名化的具体操作包括用于以较高级别的概念来替代数据的泛化(generalization)、用于抑制数据的抑制、用于分割表并且减弱标识信息与秘密信息关联的剖析(anatomization)。
数据的匿名化发布在大数据时代显得尤为重要,关于数据的匿名化算法和匿名化理论以及相应的去匿名化攻击的研究也日益丰富。然而,当前领域的关注重点在于匿名话机制及算法。对于数据版权保护在数据匿名化发布中的研究较少。
使数据匿名化依赖删除或修改包含在数据集中的多个标识变量,也称为个人可标识信息。通常,标识变量是描述个人特征的变量,个人特征可观察、被注册(标识号,如社会保险号,身份证号,员工ID等)或者通常为其他人所知。标识号需要做匿名化处理以保护被引用人隐私,同时需要关注与数据提取人员的需要。
同时,标识变量是链接不同数据源内相关记录的关键,对于关系挖掘,行为提取有着积极的意义,匿名化将防止数据提取人员标识在数据集中引用的用户。
发明内容
本发明的目的在于提供一种匿名化的数字水印嵌入和提取方法,解决现有的水印技术无法做到将数据数字匿名化的问题。
为解决上述的技术问题,本发明采用以下技术方案:
一种匿名化的数字水印嵌入方法,包括以下步骤:
步骤一,对所需要嵌入的水印信息进行水印字符串生成处理,根据水印字符串大小随机生成散列所需要的盐,对水印字符串进行加盐处理得到;
步骤二,对水印字符串中需要匿名的数据逐行依次进行散列处理,得到匿名标识符;
步骤三,利用散列值进行带盐散列计算;
步骤四,水印索引计算;
步骤五,水印嵌入;
步骤六,判断是否最后一行数据,如果否,继续重复步骤二至步骤六;
步骤七,若为最后一行数据则得到带有版权标记的匿名化数据集。
进一步的,所述步骤一中,对水印字符串进行加盐处理的方法是将水印字符串与盐字符串进行连接。
进一步的,所述步骤三中,带盐散列计算的散列函数是MD5、SHA或MAC。
进一步的,所述步骤五中,水印嵌入的位置是匿名标识符任意位或多位二进制位,所述多位二进制位的位数在3位以内。
进一步的,所述步骤五中,水印嵌入的方法是提取除水印嵌入位外所有位进行运算,确定水印嵌入索引值,根据水印索引值从数据库的水印信息二进制串Wb[]中取出对应位的值,并根据该值完成对水印嵌入位的修改和确定。
一种匿名化的数字水印提取方法,包括以下步骤:
步骤一,读取匿名化数据集;
步骤二,对匿名化数据集中每一行数据进行水印索引计算,得到水印嵌入索引值;
步骤三,水印提取并验证;
步骤四,水印提取后,判断当前计算的数据是否为匿名化数据集的最后一行数据,如果不是最后一行数据则继续重复步骤二对下一行数据进行计算;
步骤五,提取完匿名化数据集中所有行的数据后,采用投票机制还原水印信息;
步骤六,输出所提取的水印信息。
进一步的,所述步骤三中,水印提取的方法是:构建二进制序列水印数组,所述水印数组的位数与水印信息二进制串Wb[]的位数相同。
进一步的,所述步骤三中,水印的验证方法是:将所得水印数组与数据库中的水印信息二进制串Wb[]相比较,若二者的相似度不小于使用者设定的相似度阈值,则认为所得水印数组与数据库中的水印信息二进制串Wb[]相同。
进一步的,所述步骤五中,所述投票机制的数据是采用数组统计所提取出的水印信息。
进一步的,所述原出水印信息方法如下:所述步骤五中,采用投票机制还原水印信息的方式是,对于水印数组中每一项,执行计算,若为负数或0,则赋值为0,若为正数,则赋值为1,得到水印数组的水印信息。
与现有技术相比,本发明的有益效果是:实现了在对数据匿名化的同时嵌入数字水印信息,具有良好的隐蔽性,在保证隐私数据不被泄露的同时保障了数据发布者的权益。支持动态发布数据,支持多数据源数据发布。具有如下特性:
对数据的匿名化操作具有单向性,无法通过匿名标识符反向计算得到源标识符,同时,统一的匿名化计算使得不同数据源的同一个标识符所计算出的匿名化标识符一致,不破坏数据之间的关系,保留了对数据关联分析的价值。
具有抗列重排序和行重排序的特性,水印的计算与行列顺序无关,只与标识符的值有关,所以对行列数据的重排序对本水印机制不会造成影响。
本发明支持动态发布匿名数据,仅需要对新产生的数据进行匿名化数字水印运算即可完成动态发布,不需要对之前已发布的数据进行操作。
附图说明
图1为本发明一种匿名化的数字水印嵌入方法流程示意图。
图2为本发明一种匿名化的数字水印提取方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
首先根据需要被保护的唯一、标志性数据就是所需要嵌入的水印信息。如,用户的身份证号、时间等。
图1示出了本发明一种匿名化的数字水印嵌入方法的一个实施例:一种匿名化的数字水印嵌入方法,包括以下步骤:
步骤一,对所需要嵌入的水印信息进行水印字符串生成处理,根据水印字符串大小随机生成散列所需要的盐,对水印字符串进行加盐处理得到;
步骤二,对水印字符串中需要匿名的数据逐行依次进行散列处理,得到匿名标识符;
步骤三,利用散列值进行带盐散列计算;
步骤四,水印索引计算;
步骤五,水印嵌入;
步骤六,判断是否最后一行数据,如果继续重复步骤二至步骤六;
步骤七,若为最后一行数据则得到带有版权标记的匿名化数据集。
根据本发明一种匿名化的数字水印嵌入方法的另一个实施例,所述步骤一中,对水印字符串进行加盐处理的方法是将水印字符串与盐字符串进行连接,加盐的目的是为了防止对散列算法的字典攻击。
根据本发明一种匿名化的数字水印嵌入方法的另一个实施例,所述步骤三中,带盐散列计算的散列函数是MD5(Message Digest Algorithm 5)、SHA(Secure HashAlgorithm)或MAC(Message Authentication Code)。
根据本发明一种匿名化的数字水印嵌入方法的一个优选实施例,所述步骤五中,水印嵌入的位置是匿名标识符任意位或多位二进制位,所述多位二进制位的位数在3位以内,过多的嵌入位可能会影响水印信息的隐蔽性。
根据本发明一种匿名化的数字水印嵌入方法的一个优选实施例,所述步骤五中,水印嵌入的方法是提取除水印嵌入位外所有位进行运算,确定水印嵌入索引值,根据水印索引值从数据库的水印信息二进制串Wb[]中取出对应位的值,并根据该值完成对水印嵌入位的修改和确定。
图2示出了本发明一种匿名化的数字水印提取方法的一个实施例:一种匿名化的数字水印提取方法,包括以下步骤:
步骤一,读取匿名化数据集;
步骤二,对匿名化数据集中每一行数据进行水印索引计算,得到水印嵌入索引值;
步骤三,水印提取并验证;
步骤四,水印提取后,判断当前计算的数据是否为匿名化数据集的最后一行数据,如果不是最后一行数据则继续重复步骤二对下一行数据进行计算;
步骤五,提取完匿名化数据集中所有行的数据后,采用投票机制还原水印信息;
步骤六,输出所提取的水印信息。
根据本发明一种匿名化的数字水印提取方法的另一个实施例,所述步骤三中,水印提取的方法是:构建二进制序列水印数组Result,所述水印数组Result的位数与水印信息二进制串Wb[]的位数相同,若设定均为T,则Index'∈[0,T-1]。
根据本发明一种匿名化的数字水印提取方法的另一个实施例,所述步骤三中,水印的验证方法是:将所得水印数组Result与数据库中的水印信息二进制串Wb[]相比较,若二者的相似度不小于使用者设定的相似度阈值,则认为所得水印数组Result与数据库中的水印信息二进制串Wb[]相同。
根据本发明一种匿名化的数字水印提取方法的另一个优选实施例,所述步骤五中,所述投票机制的数据是采用数组统计所提取出的水印信息。
根据本发明一种匿名化的数字水印提取方法的另一个优选实施例,所述原出水印信息方法如下:所述步骤五中,采用投票机制还原水印信息的方式是,对于水印数组Result中每一项,执行计算,若为负数或0,则赋值为0,若为正数,则赋值为1,得到水印的水印信息。
下面以酒店开房信息为例,下表为数据表字典。
列名 数据类型 备注
ID String 身份证号码
StartTime DateTime 入住时间
EndTime Varchar 退房时间
RomNumber String 房间号
对该数据表实现水印方法步骤如下:
(1)根据需要被保护的唯一、标志性数据确定所需要嵌入的水印信息和散列所需要的盐等参数。
(2)对水印字符串属性进行匿名化操作,在本例中,水印字符串属性为身份证号码,身份证号码的泄漏必然会引起严重的隐私问题。具体做法为对身份证信息进行带盐散列,得到一个唯一的散列值。设定ID为字符变量,SALT为盐,HID为计算后的匿名ID,则HID=HASH(SALT+ID)。
(3)对步骤(2)所生成的散列值进行计算,得到所需嵌入位索引Index。取HID的子字符串,子字符串可以是HID前N个字符,N大于字符总长度的一半且小于其总长度,计算对应的密钥位Index值,Index=HASH(Sub(HID))%sizeof(waterbit_binary),其中,waterbit_binary为需要嵌入的水印信息字符串的二进制形式标识。
(4)对HID的最低有效位进行修改,嵌入水印信息。首先计算得出的index值得到嵌入位的值,并修改HID的二进制最低位,完成水印的嵌入。然后获得HID的最低有效位值,并进行统计,LSB(HID)=waterbit_binary[index]。
在处理完所有数据后,对统计信息进行处理,还原水印信息,并与所嵌入信息比对,若相似度大于一定阈值时(如90%),则可认定水印存在。
尽管这里参照本发明的多个解释性实施例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开、附图和权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变形和改进外,对于本领域技术人员来说,其他的用途也将是明显的。

Claims (10)

1.一种匿名化的数字水印嵌入方法,其特征在于包括以下步骤:
步骤一,对所需要嵌入的水印信息进行水印字符串生成处理,根据水印字符串大小随机生成散列所需要的盐,对水印字符串进行加盐处理得到;
步骤二,对水印字符串中需要匿名的数据逐行依次进行散列处理,得到匿名标识符;
步骤三,利用步骤二得到的散列值进行带盐散列计算;
步骤四,水印索引计算;
步骤五,水印嵌入;
步骤六,判断是否是最后一行数据,如果否,继续重复步骤二至步骤六;
步骤七,若为最后一行数据则得到带有版权标记的匿名化数据集。
2.根据权利要求1所述的一种匿名化的数字水印嵌入方法,其特征在于:所述步骤一中,对水印字符串进行加盐处理的方法是将水印字符串与盐字符串进行连接。
3.根据权利要求1所述的一种匿名化的数字水印嵌入方法,其特征在于:所述步骤三中,带盐散列计算的散列函数是MD5、SHA或MAC。
4.根据权利要求1所述的一种匿名化的数字水印嵌入方法,其特征在于:所述步骤五中,水印嵌入的位置是匿名标识符任意位或多位二进制位,所述多位二进制位的位数在3位以内。
5.根据权利要求4所述的一种匿名化的数字水印嵌入方法,其特征在于:所述步骤五中,水印嵌入的方法是提取除水印嵌入位外所有位进行运算,确定水印嵌入索引值,根据水印索引值从数据库的水印信息二进制串Wb[]中取出对应位的值,并根据该值完成对水印嵌入位的修改和确定。
6.一种匿名化的数字水印提取方法,其特征在于包括以下步骤:
步骤一,读取匿名化数据集;
步骤二,对匿名化数据集中每一行数据进行水印索引计算,得到水印嵌入索引值;
步骤三,水印提取并验证;
步骤四,水印提取后,判断当前计算的数据是否为匿名化数据集的最后一行数据,如果不是最后一行数据则继续重复步骤二对下一行数据进行计算;
步骤五,提取完匿名化数据集中所有行的数据后,采用投票机制还原水印信息;
步骤六,输出所提取的水印信息。
7.根据权利要求6所述的一种匿名化的数字水印提取方法,其特征在于:所述步骤三中,水印提取的方法是:构建二进制序列水印数组,所述水印数组的位数与水印信息二进制串Wb[]的位数相同。
8.根据权利要求7所述的一种匿名化的数字水印提取方法,其特征在于:所述步骤三中,水印的验证方法是:将所得水印数组与数据库中的水印信息二进制串Wb[]相比较,若二者的相似度不小于使用者设定的相似度阈值,则认为所得水印数组与数据库中的水印信息二进制串Wb[]相同。
9.根据权利要求6所述的一种匿名化的数字水印提取方法,其特征在于:所述步骤五中,所述投票机制的数据是采用数组统计所提取出的水印信息。
10.根据权利要求9所述的一种匿名化的数字水印提取方法,其特征在于:所述还原出水印信息方法如下:所述步骤五中,采用投票机制还原水印信息的方式是,对于水印数组中每一项,执行计算,若为负数或0,则赋值为0,若为正数,则赋值为1,得到水印数组的水印信息。
CN201510856638.XA 2015-11-30 2015-11-30 一种匿名化的数字水印嵌入和提取方法 Active CN105512523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510856638.XA CN105512523B (zh) 2015-11-30 2015-11-30 一种匿名化的数字水印嵌入和提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510856638.XA CN105512523B (zh) 2015-11-30 2015-11-30 一种匿名化的数字水印嵌入和提取方法

Publications (2)

Publication Number Publication Date
CN105512523A CN105512523A (zh) 2016-04-20
CN105512523B true CN105512523B (zh) 2018-04-13

Family

ID=55720500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510856638.XA Active CN105512523B (zh) 2015-11-30 2015-11-30 一种匿名化的数字水印嵌入和提取方法

Country Status (1)

Country Link
CN (1) CN105512523B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201521134D0 (en) 2015-12-01 2016-01-13 Privitar Ltd Privitar case 1
CN110365468B (zh) 2018-04-11 2021-09-14 华为技术有限公司 匿名化处理方法、装置、设备及存储介质
US20210232705A1 (en) * 2018-07-13 2021-07-29 Imagia Cybernetics Inc. Method and system for generating synthetically anonymized data for a given task
CN109740316B (zh) * 2018-12-27 2021-03-16 三未信安科技股份有限公司 一种动态水印嵌入、验证方法及系统和动态水印处理系统
CN112559985B (zh) * 2020-12-22 2024-02-20 深圳昂楷科技有限公司 一种水印嵌入及提取方法
CN115242515B (zh) * 2022-07-25 2023-11-03 上海交通大学 一种基于水印的Tor匿名通信双方身份关联系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1737794A (zh) * 2005-06-15 2006-02-22 武汉大学 一种用数字水印技术保护数据库数据版权的方法及其应用
CN103971323A (zh) * 2014-05-22 2014-08-06 复旦大学 一种基于置乱变换和形态成分分析的数字水印隐写方法
CN104346321A (zh) * 2013-07-31 2015-02-11 北大方正集团有限公司 一种文本中数字水印信息的嵌入和提取方法及装置
CN104866735A (zh) * 2015-05-22 2015-08-26 电子科技大学 一种数值型关系数据库水印的嵌入及提取验证方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1737794A (zh) * 2005-06-15 2006-02-22 武汉大学 一种用数字水印技术保护数据库数据版权的方法及其应用
CN104346321A (zh) * 2013-07-31 2015-02-11 北大方正集团有限公司 一种文本中数字水印信息的嵌入和提取方法及装置
CN103971323A (zh) * 2014-05-22 2014-08-06 复旦大学 一种基于置乱变换和形态成分分析的数字水印隐写方法
CN104866735A (zh) * 2015-05-22 2015-08-26 电子科技大学 一种数值型关系数据库水印的嵌入及提取验证方法

Also Published As

Publication number Publication date
CN105512523A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN105512523B (zh) 一种匿名化的数字水印嵌入和提取方法
Li et al. Tamper detection and localization for categorical data using fragile watermarks
Guo et al. A fragile watermarking scheme for detecting malicious modifications of database relations
CN104866735B (zh) 一种数值型关系数据库水印的嵌入及提取验证方法
US7730037B2 (en) Fragile watermarks
Farfoura et al. A novel blind reversible method for watermarking relational databases
US6807634B1 (en) Watermarks for customer identification
Sion et al. On watermarking numeric sets
CN105303075B (zh) 基于pdf格式的自适应文本水印方法
CN106126982B (zh) 一种基于数字指纹的pdf文档版权保护方法
CN104850765A (zh) 一种水印处理方法、装置及系统
Zhang et al. A novel robust text watermarking for word document
Khanduja et al. Enabling information recovery with ownership using robust multiple watermarks
CN109840401A (zh) 针对数据文本的水印嵌入方法
CN111241576B (zh) 一种用于数据库分发保护的零水印方法
Xie et al. A Survey of Data Distortion Watermarking Relational Databases.
CN102842053B (zh) 一种防伪图码标签及其制造方法
CN114356919A (zh) 一种结构化数据库的水印嵌入方法、溯源方法及装置
Khanduja et al. A robust multiple watermarking technique for information recovery
Iftikhar et al. A survey on reversible watermarking techniques for relational databases
Alsaadi et al. Text steganography in font color of MS excel sheet
Zhou et al. An additive-attack-proof watermarking mechanism for databases' copyrights protection using image
Tiwari et al. A novel watermarking scheme for secure relational databases
CN104376236A (zh) 基于伪装学的方案自适应数字水印嵌入方法及提取方法
Lohegaon A robust, distortion minimization fingerprinting technique for relational database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant