CN113626774A - 一种可逆的数据库水印方法及系统 - Google Patents
一种可逆的数据库水印方法及系统 Download PDFInfo
- Publication number
- CN113626774A CN113626774A CN202110733866.3A CN202110733866A CN113626774A CN 113626774 A CN113626774 A CN 113626774A CN 202110733866 A CN202110733866 A CN 202110733866A CN 113626774 A CN113626774 A CN 113626774A
- Authority
- CN
- China
- Prior art keywords
- watermark
- database
- prediction error
- key
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 230000002441 reversible effect Effects 0.000 title claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 81
- 230000002068 genetic effect Effects 0.000 claims abstract description 37
- 241000254158 Lampyridae Species 0.000 claims abstract description 31
- 238000012217 deletion Methods 0.000 claims abstract description 3
- 230000037430 deletion Effects 0.000 claims abstract description 3
- 210000000349 chromosome Anatomy 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000006467 substitution reaction Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011549 displacement method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012892 rational function Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/005—Robust watermarking, e.g. average attack or collusion attack resistant
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0062—Embedding of the watermark in text images, e.g. watermarking text documents using letter skew, letter distance or row distance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
Abstract
本发明提供的一种可逆的数据库水印方法及系统,包括利用数据库中非空文本型数据生成主键;利用萤火虫遗传算法生成秘钥,并根据所述秘钥、所述主键利用哈希算法对数据库中数值型数据计算添加或存在水印的位置,并在该位置添加或删除水印;根据所述主键利用同义词对数据库中文本型数据确定添加或存在水印的位置,并采用同义词替换和算术编码法在该位置嵌入或删除文本型水印;本发明采用萤火虫遗传算法生成密钥提高了局部搜索效率和鲁棒性,并且实现了同时对数据库中不同的数据类型添加或删除水印。
Description
技术领域
本发明涉及数据库管理领域,具体涉及一种可逆的数据库水印方法及系统。
背景技术
关系数据库是当前应用较为广泛的数据库。数据盗窃,非法复制和侵犯版权的安全风险随着数据库的创建,传输和共享也显著增加。近年来经常发生数据库泄漏事故的报道,哪怕在数据敏感的领域如医疗保健领域也是如此。如今用于确保各种数据格式所有权保护和防篡改的有效方法之一是水印技术。数据库加水印将消息嵌入通常独立且离散的数据库记录中,是一种相对较新的技术。数据库水印由Agrawal和Kiernan于2002年首次引入。此后,国内外学者提出了几种方法。
萤火虫遗传算法FFA是剑桥科学家Xinshe Yang提出的基于生物智能的随机搜索优化算法,通过模拟自然界中萤火虫在择偶觅食等情况下产生的因光而相互吸引,进而相互移动的合作行为,来解决现实生活中的最优化问题。萤火虫遗传算法FFGA是将遗传算法GA与萤火虫算法FFA相结合构成的一种优化算法。遗传算法的局部搜索能力较差,但把握搜索过程总体能力较强。
Y.Wu等提出遗传算法(GA)可以被用来设计鲁棒的密钥方法。然后,一种基于差分扩展水印(GADEW)技术的遗传算法被提出,作为一种健壮且可逆的数据库水印解决方案。M.B.Imamogh等提出了一种新的可逆数据库水印方法,该方法将DEW与萤火虫算法(FFA)相结合,FFA选择最佳属性值以产生较低的失真并增加水印容量。2019年Donghui Hu等提出了遗传算法和直方图移位算法GAHSW。
Lingyun Xian从无损数据压缩的角度提出了一种基于自适应二进制算术编码的可逆自然语言水印算法,针对现有的文本可逆水印方法主要存在两个问题:水印嵌入容量低、附加信息共享量大。该方法通过对水印文本中的同义词值进行解码来提取水印,同时可以通过使用算术编码对提取的压缩数据进行解压缩来恢复原始同义词。
尽管FFADEW等方法最小化了数据失真并增加了水印容量,但是信息失真仍然很严重。GAHSW虽然失真较小,但只适用于数值型数据库,实用性较差。同时其使用生成主键,前期计算量非常大。并且单纯的文本型水印与单纯的数值型水印只适用于单一类型数据库,容易遭到攻击且无法满足现实生产生活需求。
发明内容
为了解决现有技术中所存在的现有的数据库水印方法中部分方法增加辅助数据导致存储空间增大;部分方法只能用于数值型数据库,实用性较差;且大多数方法会大幅度修改原始数据,导致数据质量下降的问题,本发明提供了一种可逆的数据库水印方法,包括:
利用数据库中非空文本型数据生成主键;
利用萤火虫遗传算法生成秘钥,并根据所述秘钥、所述主键利用哈希算法对数据库中数值型数据计算添加或存在水印的位置,并在该位置添加或删除水印;
根据所述主键利用同义词对数据库中文本型数据确定添加或存在水印的位置,并采用同义词替换和算术编码法在该位置嵌入或删除文本型水印。
优选的,所述根据所述秘钥、所述主键利用哈希算法对不同的数据类型分别计算添加或存在水印的位置,并在该位置添加或删除水印,包括:
根据所述秘钥、所述主键利用哈希算法对数据库中数值型的属性列进行分组;根据每组内的各属性所在列的位置确定添加或存在水印的位置,并采用直方图移位法在该位置添加或删除水印。
优选的,所述根据每组内的各属性所在列的位置确定添加或存在水印的位置,包括:
判断每组中的属性是否为所在列的最大或最小值;
当不为最大或最小值时,将所述属性所在位置作为添加或存在水印的位置;
当为最大或最小值时,该属性所在位置不作为添加或存在水印的位置,并跳转到下一列的属性继续进行判断,直到找到所有可作为添加或存在水印的位置。
优选的,所述采用直方图移位法在该位置添加或删除水印,包括:
基于每组的属性列中最大值、最小值以及原始值计算所述属性列的预测变量和预测误差值,并以预测误差为横坐标,以预测误差出现的次数作为纵坐标构建每个元组的直方图;
将预先设置的水印信息从第一个bit位开始,依次添加至数值型数据添加或存在水印的位置处,每个位置上添加一个水印信息的bit位,循环执行,直到所有添加或存在水印的位置处均添加了水印信息;
基于所有元组的直方图、添加或存在水印的位置以及水印信息构建低失真的直方图,得到加入水印信息后的新属性值;
基于新属性值、添加或存在水印的位置以及水印信息结合低失真的直方图删除水印信息,恢复原始数据。
优选的,所述基于所有元组的直方图、添加或存在水印的位置以及水印信息构建低失真的直方图,得到加入水印信息后的新属性值,包括:
基于所述每个元组的直方图确定具有非零频率的峰值及所述峰值的位置,放入峰值数组,并计算所述峰值左侧频率和、右侧频率和,并将所述左侧频率和以及右侧频率和放入附加信息数组中;
计算所述峰值与左侧和右侧第一个为零的频率位置的左侧差值和右侧差值,并将所述左侧差值和右侧差值放入附加信息数组中;
基于所述左侧频率和、右侧频率和的大小关系以及预测误差是否大于零,确定新的预测误差计算式,并结合所述预测误差分别与峰值、峰值和所述左侧差值的差、峰值和右侧差值的和的大小关系,以及水印信息计算新的预测误差;
以所述新的预测误差为横坐标,以所述新的预测误差出现的次数为纵坐标构建每个元组的低失真直方图;
基于所述新的预测误差和预测变量结合属性值计算式计算添加了水印的新的属性值。
优选的,所述新的预测误差计算式如下式所示:
当左侧频率和大于右侧频率和,并预测误差大于零时,新的预测误差按下式计算:
式中,be为预测误差,w为水印中的bit位,b′e为降低失真后的预测误差,bi为峰值;dir为右侧差值;
当左侧频率和大于右侧频率和,并预测误差小于零时,新的预测误差按下式计算:
当左侧频率和小于右侧频率和,并预测误差不小于零时,新的预测误差按下式计算:
式中,dil为左侧差值;
当左侧频率和小于右侧频率和,并预测误差小于零时,新的预测误差按下式计算:
优选的,所述基于新的属性值、添加或存在水印的位置以及水印信息结合低失真的直方图删除水印信息,恢复原始数据,包括:
基于所述新的属性值和预测变量结合预测误差计算式,得到新的预测误差及新的预测误差的绝对值;
以所述新的预测误差为横坐标,以新的预测误差出现的次数作为纵坐标构建每个元组的低失真直方图;
基于所述低失真直方图确定具有非零频率的峰值及所述峰值的位置,并计算所述峰值左侧频率和、右侧频率和;
计算所述峰值与左侧和右侧第一个为零的频率位置的左侧差值和右侧差值;
将所述新的预测误差与峰值数组中存储的峰值相比较,基于左侧频率和、右侧频率和,所述新的预测误差与零的关系,结合原始数据计算式还原原始数据。
优选的,所述原始数据计算式如下式所示:
当Hsl≥Hsr并且b′e≥0时:
当Hsl≥Hsr并且b′e<0时:
当Hsl<Hsr并且b′e≥0时:
当Hsl<Hsr并且b′e<0时:
式中,be为预测误差,w为水印中的bit位,b′e为降低失真后的预测误差,bi为峰值;dir为右侧差值;c′为水印的数据库中存放的值;dil为左侧差值;Hsl为左侧频率和;Hsr为右侧频率和;w为水印中的bit位。
优选的,所述当数据类型为文本型数据时,利用同义词确定添加或存在水印的位置,包括:
当存在未作为主键的文本型数据时,基于预先设置的同义词数据库检索数据库中未作为主键的文本型数据,识别出同义词;
将所述同义词所在位置确定为添加或存在水印的位置。
优选的,所述采用同义词替换和算术编码法在该位置嵌入或删除文本型水印,包括:
将识别出的同义词量化为二进制序列,得到同义词序列;
采用自适应二进制算术编码将所述同义词序列进行压缩得到压缩后的同义词序列;
预先设定的水印信息根据其字符的ASCII值转换为二进制序列;
将附加信息与所述压缩后的同义词序列和二进制序列的水印信息串联,形成嵌入式信息;
将所述嵌入式信息与所述同义词序列进行比较,找到不匹配的位置;
在所有不匹配的位置,用所述嵌入式信息替换同义词序列,生成带水印的数据库;或在所有不匹配的位置,用同义词序列替换嵌入式信息,恢复原始数据。
优选的,所述利用萤火虫遗传算法生成秘钥,包括:
将容量成本、元组失真、容量成本所占权重与元组失真所占权重作为种群中个体的染色体,以容量成本与容量成本所占权重乘积和元组失真与元组失真所占权重的乘积之和得到的总耗费作为适应度,采用萤火虫遗传算法得到总耗费最低对应的适应度最高时的染色体串,并将所述染色体串中容量成本、元组失真、容量成本所占权重与元组失真所占权重作为分组的密钥;
其中,将容量成本为不能嵌入水印的行数,元组失真为将水印嵌入前后的属性值的绝对差值的总和。
优选的,所述根据所述秘钥、所述主键和哈希算法对数据库数据分组,包括:
根据所述秘钥、所述主键和哈希算法按下式得到分组后各组的序号:
nu=H(Ks|H(Ks|tu.PK))mod Ng
式中,nu是分组后某组的序号,H()为加密哈希函数,tu.PK为元组tu主键,tu为元组,Ks为数据库分组的密钥,Ng为组数。
基于同一发明构思本发明还提供了一种可逆的数据库水印系统,包括:
参数生成模块,用于利用萤火虫遗传算法生成秘钥,并利用数据库中非空文本型数据生成主键;
水印处理模块,用于根据所述秘钥、所述主键利用哈希算法对数据库中数值型数据计算添加或存在水印的位置,并在该位置添加或删除水印,同时根据所述主键利用同义词对数据库中文本型数据确定添加或存在水印的位置,并采用同义词替换和算术编码法在该位置嵌入或删除文本型水印。
与现有技术相比,本发明的有益效果为:
(1)本发明提供的一种可逆的数据库水印方法及系统,包括利用数据库中非空文本型数据生成主键;利用萤火虫遗传算法生成秘钥,并根据所述秘钥、所述主键利用哈希算法对数据库中数值型数据计算添加或存在水印的位置,并在该位置添加或删除水印;根据所述主键利用同义词对数据库中文本型数据确定添加或存在水印的位置,并采用同义词替换和算术编码法在该位置嵌入或删除文本型水印;本发明采用萤火虫遗传算法生成密钥提高了局部搜索效率和鲁棒性,并且实现了同时对数据库中不同的数据类型添加或删除水印。
(2)本发明是为了实现在数值与文本数据并存的实际数据库上均可使用,水印还原后不会损害数据并且具有高鲁棒性的可逆数据库水印方法。
附图说明
图1为本发明的一种可逆的数据库水印方法流程图;
图2为萤火虫遗传FFGA算法流程图。
具体实施方式
为了更好地理解本发明,下面结合说明书附图和实例对本发明的内容做进一步的说明。
在本发明中,使用萤火虫遗传算法和直方图移位方法用于数值关系数据水印,同时采用同义词替换和算术编码用于文本型水印,将二者综合而得出了一种可逆的数据库水印方法如图1所示,包括:
S1:利用数据库中非空文本型数据生成主键;
S2:利用萤火虫遗传算法生成秘钥,并根据所述秘钥、所述主键利用哈希算法对数据库中数值型数据计算添加或存在水印的位置,并在该位置添加或删除水印;
S3:根据所述主键利用同义词对数据库中文本型数据确定添加或存在水印的位置,并采用同义词替换和算术编码法在该位置嵌入或删除文本型水印。
对于S1具体包括:
具体操作可以选择很多种方法,本实施例选择将文本数据转换为十六进制并将其重复循环,直至生成统一长度的主键值,长度可以由用户自己确定,但是要确保主键值满足互不重复的保障条件。当数据库中没有文本数据时,使用从1逐级增加的自增序列作为主键。
在进行数据库水印提取的时候只要确定是哪几个属性列以及生成方法就可以确定主键,在传输过程中主键不会进行传输,不仅可以节省存储空间,而且避免了因主键被恶意删除使得水印无法恢复的问题。
对于S2具体包括:
本发明引入萤火虫算法的吸引度思想,在进化时进行选择操作,从而提高算法收敛到全局最优的能力。
步骤1:首先利用萤火虫遗传算法FFGA算法获取最适合数据库分组的密钥KS,将待添加水印的数据库作为种群,并设置种群规模和最大迭代次数,这部分工作属于前期工作,如图2所示具体算法流程如下:
(1)生成初始种群:随机生成N个初始种群,然后利用适应度函数来评价该种群所有染色体适应度。
(2)选择交配个体:GA通常使用轮盘赌或锦标赛选择法。我们这里使用改进策略,利用萤火虫之间相互吸引的行为进行选择结合个体。每只萤火虫染色体的吸引度为染色体i和j之间的吸引度可表示为其中γ为闪光的吸收系数,r为i和j之间的欧式距离。由此我们可以生成N或2对染色体,当两对染色体的平均适应度在所有适应度达到最高。他们便可以组成一对。
(3)交叉操作:交叉操作交换父染色体的基因来产生两个后代,在此只考虑单点交叉。
(4)变异操作:为了避免陷入局部最优,对每一个子代都进行变异操作,具体为随机选择一个一个基因进行变异。
(5)选择下一代:从父染色体和子染色体中选择适应度最高的N个进行下一轮。
(6)迭代终止,输出最优秀的染色体即最适合数据库分组的密钥KS:如果至少满足了一个设置的终止条件,将终止循环并返回当前种群中最优秀的染色体,否则转向第二步。
这里我们将不能嵌入水印的行数作为容量成本,将水印嵌入前后的属性值的绝对差值的总和作为元组失真,将总耗费作为适应度,其中总耗费低适应度就高。这里的总耗费按下式计算:
总耗费=容量成本*容量成本所占权重+元组失真*元组失真所占权重
这里的总耗费计算式作为适应度函数。
步骤2:选择数据库中的多个文本型数据属性列(必须非空),根据选择的文本型数据生成主键PK。
根据所述秘钥、所述主键利用哈希算法对不同的数据类型分别计算添加或存在水印的位置,并在该位置添加或删除水印,具体包括:
步骤3:利用步骤1得到的密钥,使用公式nu=H(Ks|H(Ks|tu.PK))mod Ng对数据库的数据进行分组。使用公式将数据库数据分为Ng组数据,为预设的值,nu是分组后某组的序号,为[0,Ng-1]间一个整数,H()为加密哈希函数即Secure Hash Algorithm(SHA),Ks即FFGA算法获取的最适合数据库分组的密钥,tu.PK为元组tu主键。其中,Ng组数据,与nu是分组后某组的序号。
步骤4:采用HSW直方图移位法对数值型数据加水印,其具体算法如下。
2006年直方图移位首次被用于数据库水印,之后直方图移位方法得到改进,使得该方法能更好解决水印嵌入失真问题。HS需要一些辅助空间存储必要的信息以进行水印的无损还原,并使用预测变量来创建要素元素以进行扩展嵌入。
(1)从水印信息ω的第一个bit位开始,在水印嵌入属性列位置依次增加一个bit位,直到迭代至最后一位,在水印嵌入属性列位置增加水印信息ω的一个bit位;
(2)对每一行,确认其水印嵌入的属性列位置j:
(2.1)当该属性并非该属性列中最大或最小的数则满足嵌入要求,否则j向后移一位,并将其主键记录到mp;
(3)若所有元组均已完成直方图构造则进入(4),否则回到(2);
(4)构建具有低失真的直方图
(4.1)通过be确定具有非零频率的峰值bi及其位置o,放入峰值数组ba;
(4.3)计算出峰值bi与左右两侧第一个为0的频率位置的差值,即左侧差值dil=|bi-bl|,右侧差值dir=|bi-br|,将其放入附加信息数组mb中;
(4.4)如果Hsl≥Hsr,那么:
b′h为b′e的绝对值,即预测误差的绝对值。
否则,有:
(4.5)因为bh=|be|,按照(4.4)中公式,则有新的计算预测误差b′e为:
Hsl≥Hsr并且be≥0:
Hsl≥Hsr并且be<0:
Hsl<Hsr并且be≥0:
Hsl<Hsr并且be<0:
(6)当所有元组均已完成水印嵌入则进入(7),否则回到(5);
(7)当所有水印位均已嵌入完成则结束,得到带水印数据库Dw,信息存储数组pa及mp,否则回到(1)。
对于S3具体步骤如下:
步骤5:信息嵌入过程完成后生成水印文本,并将压缩后的同义词序列与水印信息一起嵌入,SSAC文本水印的增加和提取流程如下:
Lingyun Xiang提出了的同义词替换和算术编码SSAC,也是本发明选择的文本型数据水印方法,该方法需求部分辅助空间以确保水印可以无损还原。其同义词量化规则为:同义词集中频率最高的同义词为MFS;频率第二高的同义词为SMFS;其他为没有编码值的普通单词。由MFS和SMFS的编码值组成的二进制序列应具有可压缩的空间,以有效地压缩为较短的二进制序列。通过自适应二进制算术编码SSAC,可以对封面文本中同义词的编码值进行压缩,然后可以无损地对其进行解压缩以恢复原始同义词。
(1)遍历未作为主键的文本型数据并检索准备好的同义词数据库,如果单词是MFS或SMFS,则将其识别为同义词;当不存在未作为主键的文本型数据时,放弃对文本型数据添加水印,或者使用从1逐级增加的自增序列作为主键,然后基于预先设置的同义词数据库对数据库中的文本型数据中的同义词进行识别。
(2)将识别出的同义词量化为二进制序列,获得n位同义词序列Q。
(3)通过采用自适应二进制算术编码将Q压缩为较短的m位二进制序列Q′。由此获得一些冗余空间来容纳附加水印信息。
(4)水印信息根据其字符的ASCII值转换为二进制序列。
(5)为了将压缩的同义词序列Q′与水印信息M区分开来,将它们串联在一起嵌入到文本中时将其长度记录并发送给接收者。
(6)附加信息与Q′和水印信息M串联,形成一个完整的嵌入式信息S。
(7)将嵌入信息S与原始同义词序列Q相比较,找到某些对应位置的不匹配值。
(8)对于不匹配的位置,原始同义词将被其同义词替换,该同义词的编码值等于嵌入的信息位。而对于匹配位置不会进行替换,当所有嵌入的信息位都嵌入后,带水印的文本生成完成。
步骤6:数据库水印的提取和数据恢复是上述过程的逆过程。我们的方法在添加水印过程中并未对最大值和最小值进行变换,所以水印增加前后,的大小是不变的,在增加了水印的数据库中存放的值为y′,由此,根据公式我们可以计算得到p′e。
将p′e与pa数组中存储的p相比较,我们可以通过下面公式来恢复原始数据,特殊情况存储在mp中,遇到时属性列为后一个:
如果p′e=p,水印位ω为0,如果p′e=p+1或是p′e=-(p+1),则水印位ω为1。至此,水印数据被提取出来,原始数据库也恢复完成了。
带水印的文本将被发送到接收方后,接收方可以提取水印信息并恢复原始封面文本而不会产生任何失真。由于同义词数据库共享,所以接收方可以很容易完成同义词的统计并进行二进制量化。在得到同义词序列Q′与水印信息M的长度后,接收方可以轻易完成水印提取和数据恢复,该过程即为水印添加的逆过程。
本发明提出的技术方案在数值与文本并存的数据库上均可使用,水印还原后不会损害数据并且具有高鲁棒性。该方案的主要思想是利用萤火虫遗传算法为分组数据库选择最佳密钥,直方图预测误差以便进行移位嵌入水印。同义词替换和算数编码则可以有效地在文本中加入水印。通过对现有的数值型水印方法进行优化,同时结合文本水印方法,有效增强了数据库安全,同时做到了减少数据质量损失。
1.我们改进了现有的数值型数据水印方法,采用FFGA萤火虫遗传算法进行密钥选取,提高鲁棒性。
2.我们采用文本生成主键方法,节省了存储空间,提高了传输效率,并可以降低主键攻击的风险。
3.将数值型数据库水印方法与文本型数据库水印方法结合,提高其安全性能并使其更加适用于实际生产生活。
根据步骤6中的技术方案,我们可以得知:
1、本方案的水印是可逆的,不会对数据库原始数据产生任何损害,保证了数据质量与数据库的可用性。
2、在数值型数据方面,我们采用的FFGA萤火虫遗传算法设置密钥比起已有的GA遗传算法解决了GA遗传算法局部搜索效率不高的问题。
实施例2:
我们采用表1,表2,表3的实验参数设置对FFGA萤火虫遗传算法,FFA萤火虫算法,GA遗传算法进行实验,并对每一个参数设置运行10次,取其结果的平均值进行对比。
表1 FFGA算法的参数设置
参数 | 值 |
种群规模N | 20,40 |
闪光吸收系数 | 2 |
交叉概率 | 1 |
变异概率 | 0.2 |
进化代数 | 1000 |
表2 FFA算法的参数设置
表3 GA算法的参数设置
参数 | 值 |
种群规模N | 20,40 |
交叉概率 | 1 |
变异概率 | 0.2 |
进化代数 | 1000 |
为了验证算法性能,我们使用这三种算法来寻找四个标准函数的最优解,四个函数分别为Sphere function,Rastrigen function,Levy function和Sum squarefunction,四种函数在此不做过多介绍。实验结果在表4、表5和表6中列出,其中平均迭代指达到最优解的迭代次数的均值,成功率指算法成功收敛到全局最优解的次数百分比,平均时间是收敛到全局最优解所用时间的均值。由结果表格我们可以看出,FFGA算法在求解Rastrigen,Levy和Sum square函数时时间性能均优于萤火虫FFA算法,且在四个函数求解时均优于遗传GA算法。同时,当函数没有局部最优解或者局部最优解很少时,遗传算法才能达到很好的性能,当局部最优解较多时如Rastrigen函数,遗传算法不如FFGA算法的性能出众。
表4 FFGA算法实验结果
表5 FFA算法实验结果
表6 GA算法实验结果
在抗攻击方面,我们的水印方法也比现有的方法更加优秀。我们采用通用的数据库增加,删除,修改三个攻击方式进行测试遗传算法和直方图位移法GAHSW,文本水印嵌入法SSAC及我们提出的综合水印法FHSA三者的鲁棒性。我们将被破坏的水印位数与水印总体位数比值ω作为错误率来估计三种方法的鲁棒性,如表7、表8和表9,分别在数据变动情况为20%,40%,60%,80%时进行10次实验并取平均值进行对比,可以发现我们提出的FHSA方法鲁棒性更强。
表7三种方法在数据增加情况下的错误率对比
20% | 40% | 60% | 80% | |
FHSA | 0 | 0 | 0 | 0 |
SAAC | 0.051 | 0.099 | 0.165 | 0.232 |
GAHSW | 0 | 0 | 0 | 0 |
表8三种方法在删除数据情况下的错误率比较
20% | 40% | 60% | 80% | |
FHSA | 0.102 | 0.301 | 0.357 | 0.410 |
SAAC | 0.303 | 0.496 | 0.587 | 0.804 |
GAHSW | 0.298 | 0.356 | 0.405 | 0.413 |
表9三种方法在修改数据情况下的错误率比较
20% | 40% | 60% | 80% | |
FHSA | 0.032 | 0.097 | 0.257 | 0.356 |
SAAC | 0.199 | 0.507 | 0.703 | 0.897 |
GAHSW | 0.051 | 0.205 | 0.299 | 0.398 |
本发明的技术方案不会产生大量的辅助数据,所有的数据都是精简且必要的。同时我们采用数据库内文本生成主键,比起现有数据库水印方法节省了存储空间,提高了效率,降低了主键攻击的风险。
本发明将数值型数据水印方法与文本型数据水印方法相结合,可以用于实际生产生活中数值型数据和文本型数据混合的数据库,贴合实际应用。
本技术方案产生的效果:
1.我们改进了现有的数值型数据水印方法,采用FFGA萤火虫遗传算法进行密钥选取,提高鲁棒性,改进了直方图移位法,使其冗余减少。
2.我们采用文本生成主键方法,节省了存储空间,提高了传输效率,并可以降低主键攻击的风险。
3.将数值型数据库水印方法与文本型数据库水印方法结合,提高其安全性能并使其更加适用于实际生产生活。
实施例3:
基于同一发明构思,本发明还提供了一种可逆的数据库水印系统,包括:
参数生成模块,用于利用遗传算法生成秘钥,并利用数据库中非空文本型数据生成主键;
水印处理模块,用于根据所述秘钥、所述主键利用哈希算法对数据库中数值型计算添加或存在水印的位置,并在该位置添加或删除水印;同时根据所述主键利用同义词对数据库中文本型数据确定添加或存在水印的位置,并采用同义词替换和算术编码法在该位置嵌入或删除文本型水印。
水印处理模块包括:
判断子模块,用于判断数据库中属性列属于数值型数据还是文本型数据;
分组子模块,用于当数据类型为数值型数据时,根据所述秘钥、所述主键利用哈希算法对数据库中数值型的属性列进行分组;
数值处理子模块,用于根据每组内的各属性所在列的位置确定添加或存在水印的位置;
数值水印处理子模块,用于采用直方图移位法在该位置添加或删除水印;
文本处理子模块,用于当数据类型为文本型数据时,利用同义词确定添加或存在水印的位置;
文本水印子模块,用于采用同义词替换和算术编码法在该位置嵌入或删除文本型水印。
数值处理子模块,包括:
比较单元,用于判断每组中的属性是否为所在列的最大或最小值;
位置确定单元,用于当不为最大或最小值时,将所述属性所在位置作为添加或存在水印的位置;当为最大或最小值时,该属性所在位置不作为添加或存在水印的位置,并跳转到下一列的属性继续进行判断,直到找到所有可作为添加或存在水印的位置。
数值水印处理子模块,包括:
直方图构建单元,用于基于每组的属性列中最大值、最小值以及原始值计算所述属性列的预测变量和预测误差值,并以预测误差为横坐标,以预测误差出现的次数作为纵坐标构建每个元组的直方图;
水印添加单元,用于将预先设置的水印信息从第一个bit位开始,依次添加至数值型数据添加或存在水印的位置处,每个位置上添加一个水印信息的bit位,循环执行,直到所有添加或存在水印的位置处均添加了水印信息;
低失真直方图构建单元,用于基于所有元组的直方图、添加或存在水印的位置以及水印信息构建低失真的直方图,得到加入水印信息后的新属性值;
数据恢复单元,用于基于新属性值、添加或存在水印的位置以及水印信息结合低失真的直方图删除水印信息,恢复原始数据。
分组子模块根据所述秘钥、所述主键和哈希算法按下式得到分组后各组的序号:
nu=H(Ks|H(Ks|tu.PK))mod Ng
式中,nu是分组后某组的序号,H()为加密哈希函数,tu.PK为元组tu主键,tu为元组,Ks为数据库分组的密钥,Ng为组数。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (13)
1.一种可逆的数据库水印方法,其特征在于,包括:
利用数据库中非空文本型数据生成主键;
利用萤火虫遗传算法生成秘钥,并根据所述秘钥、所述主键利用哈希算法对数据库中数值型数据计算添加或存在水印的位置,并在该位置添加或删除水印;
根据所述主键利用同义词对数据库中文本型数据确定添加或存在水印的位置,并采用同义词替换和算术编码法在该位置嵌入或删除文本型水印。
2.如权利要求1所述的可逆的数据库水印方法,其特征在于,所述利用萤火虫遗传算法生成秘钥,并根据所述秘钥、所述主键利用哈希算法对数据库中数值型数据计算添加或存在水印的位置,并在该位置添加或删除水印,包括:
根据所述秘钥、所述主键利用哈希算法对数据库中数值型的属性列进行分组;根据每组内的各属性所在列的位置确定添加或存在水印的位置,并采用直方图移位法在该位置添加或删除水印。
3.如权利要求2所述的可逆的数据库水印方法,其特征在于,所述根据每组内的各属性所在列的位置确定添加或存在水印的位置,包括:
判断每组中的属性是否为所在列的最大或最小值;
当不为最大或最小值时,将所述属性所在位置作为添加或存在水印的位置;
当为最大或最小值时,该属性所在位置不作为添加或存在水印的位置,并跳转到下一列的属性继续进行判断,直到找到所有可作为添加或存在水印的位置。
4.如权利要求3所述的可逆的数据库水印方法,其特征在于,所述采用直方图移位法在该位置添加或删除水印,包括:
基于每组的属性列中最大值、最小值以及原始值计算所述属性列的预测变量和预测误差值,并以预测误差为横坐标,以预测误差出现的次数作为纵坐标构建每个元组的直方图;
将预先设置的水印信息从第一个bit位开始,依次添加至数值型数据添加或存在水印的位置处,每个位置上添加一个水印信息的bit位,循环执行,直到所有添加或存在水印的位置处均添加了水印信息;
基于所有元组的直方图、添加或存在水印的位置以及水印信息构建低失真的直方图,得到加入水印信息后的新属性值;
基于新属性值、添加或存在水印的位置以及水印信息结合低失真的直方图删除水印信息,恢复原始数据。
5.如权利要求4所述的可逆的数据库水印方法,其特征在于,所述基于所有元组的直方图、添加或存在水印的位置以及水印信息构建低失真的直方图,得到加入水印信息后的新属性值,包括:
基于所述每个元组的直方图确定具有非零频率的峰值及所述峰值的位置,放入峰值数组,并计算所述峰值左侧频率和、右侧频率和,并将所述左侧频率和以及右侧频率和放入附加信息数组中;
计算所述峰值与左侧和右侧第一个为零的频率位置的左侧差值和右侧差值,并将所述左侧差值和右侧差值放入附加信息数组中;
基于所述左侧频率和、右侧频率和的大小关系以及预测误差是否大于零,确定新的预测误差计算式,并结合所述预测误差分别与峰值、峰值和所述左侧差值的差、峰值和右侧差值的和的大小关系,以及水印信息计算新的预测误差;
以所述新的预测误差为横坐标,以所述新的预测误差出现的次数为纵坐标构建每个元组的低失真直方图;
基于所述新的预测误差和预测变量结合属性值计算式计算添加了水印的新的属性值。
7.如权利要求4所述的可逆的数据库水印方法,其特征在于,所述基于新属性值、添加或存在水印的位置以及水印信息结合低失真的直方图删除水印信息,恢复原始数据,包括:
基于所述新属性值和预测变量结合预测误差计算式,得到新的预测误差及新的预测误差的绝对值;
以所述新的预测误差为横坐标,以新的预测误差出现的次数作为纵坐标构建每个元组的低失真直方图;
基于所述低失真直方图确定具有非零频率的峰值及所述峰值的位置,并计算所述峰值左侧频率和、右侧频率和;
计算所述峰值与左侧和右侧第一个为零的频率位置的左侧差值和右侧差值;
将所述新的预测误差与峰值数组中存储的峰值相比较,基于左侧频率和、右侧频率和,所述新的预测误差与零的关系,结合原始数据计算式还原原始数据。
9.如权利要求1所述的可逆的数据库水印方法,其特征在于,所述根据所述主键利用同义词对数据库中文本型数据确定添加或存在水印的位置,包括:
当存在未作为主键的文本型数据时,基于预先设置的同义词数据库检索数据库中未作为主键的文本型数据,识别出同义词;
将所述同义词所在位置确定为添加或存在水印的位置。
10.如权利要求1所述的可逆的数据库水印方法,其特征在于,所述采用同义词替换和算术编码法在该位置嵌入或删除文本型水印,包括:
将识别出的同义词量化为二进制序列,得到同义词序列;
采用自适应二进制算术编码将所述同义词序列进行压缩得到压缩后的同义词序列;
预先设定的水印信息根据其字符的ASCII值转换为二进制序列;
将附加信息与所述压缩后的同义词序列和二进制序列的水印信息串联,形成嵌入式信息;
将所述嵌入式信息与所述同义词序列进行比较,找到不匹配的位置;
在所有不匹配的位置,用所述嵌入式信息替换同义词序列,生成带水印的数据库;或在所有不匹配的位置,用同义词序列替换嵌入式信息,恢复原始数据。
11.如权利要求1所述的可逆的数据库水印方法,其特征在于,所述利用萤火虫遗传算法生成秘钥,包括:
将容量成本、元组失真、容量成本所占权重与元组失真所占权重作为种群中个体的染色体,以容量成本与容量成本所占权重乘积和元组失真与元组失真所占权重的乘积之和得到的总耗费作为适应度,采用萤火虫遗传算法得到总耗费最低对应的适应度最高时的染色体串,并将所述染色体串中容量成本、元组失真、容量成本所占权重与元组失真所占权重作为分组的密钥;
其中,所述容量成本为不能嵌入水印的行数,元组失真为将水印嵌入前后的属性值的绝对差值的总和。
12.如权利要求2所述的可逆的数据库水印方法,其特征在于,所述根据所述秘钥、所述主键利用哈希算法对数据库中数值型的属性列进行分组,包括:
根据所述秘钥、所述主键和哈希算法按下式得到分组后各组的序号:
nu=H(Ks|H(Ks|tu.PK))mod Ng
式中,nu是分组后某组的序号,H()为加密哈希函数,tu.PK为元组tu主键,tu为元组,Ks为数据库分组的密钥,Ng为组数。
13.一种可逆的数据库水印系统,其特征在于,包括:
参数生成模块,用于利用萤火虫遗传算法生成秘钥,并利用数据库中非空文本型数据生成主键;
水印处理模块,用于根据所述秘钥、所述主键利用哈希算法对数据库中数值型数据计算添加或存在水印的位置,并在该位置添加或删除水印,同时根据所述主键利用同义词对数据库中文本型数据确定添加或存在水印的位置,并采用同义词替换和算术编码法在该位置嵌入或删除文本型水印。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110733866.3A CN113626774A (zh) | 2021-06-30 | 2021-06-30 | 一种可逆的数据库水印方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110733866.3A CN113626774A (zh) | 2021-06-30 | 2021-06-30 | 一种可逆的数据库水印方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113626774A true CN113626774A (zh) | 2021-11-09 |
Family
ID=78378615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110733866.3A Pending CN113626774A (zh) | 2021-06-30 | 2021-06-30 | 一种可逆的数据库水印方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626774A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114785484A (zh) * | 2022-04-06 | 2022-07-22 | 河南省怡之发电子科技有限公司 | 一种大数据安全传输方法及系统 |
CN116861380A (zh) * | 2023-09-04 | 2023-10-10 | 信智慧通科技(北京)有限公司 | 一种基于数据库的水印处理方法及装置 |
CN118153007A (zh) * | 2024-05-10 | 2024-06-07 | 杭州世平信息科技有限公司 | 面向文本型数据的数据库水印嵌入方法、系统及存储介质 |
-
2021
- 2021-06-30 CN CN202110733866.3A patent/CN113626774A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114785484A (zh) * | 2022-04-06 | 2022-07-22 | 河南省怡之发电子科技有限公司 | 一种大数据安全传输方法及系统 |
CN114785484B (zh) * | 2022-04-06 | 2023-05-09 | 重庆葵林信息科技有限公司 | 一种大数据安全传输方法及系统 |
CN116861380A (zh) * | 2023-09-04 | 2023-10-10 | 信智慧通科技(北京)有限公司 | 一种基于数据库的水印处理方法及装置 |
CN116861380B (zh) * | 2023-09-04 | 2023-11-03 | 信智慧通科技(北京)有限公司 | 一种基于数据库的水印处理方法及装置 |
CN118153007A (zh) * | 2024-05-10 | 2024-06-07 | 杭州世平信息科技有限公司 | 面向文本型数据的数据库水印嵌入方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113626774A (zh) | 一种可逆的数据库水印方法及系统 | |
Jo et al. | A digital image watermarking scheme based on vector quantisation | |
EP3509018B1 (en) | Method for biologically storing and restoring data | |
Qin et al. | Reversible data hiding in VQ index table with lossless coding and adaptive switching mechanism | |
Yang et al. | Reversible data hiding of a VQ index table based on referred counts | |
CN103929642B (zh) | 一种hevc变换系数的熵编码上下文模型偏移值快速计算方法 | |
CN108366181A (zh) | 一种基于超混沌系统和多级置乱的图像加密方法 | |
Xie et al. | CoGI: Towards compressing genomes as an image | |
CN113222165A (zh) | 一种基于遗传算法的量子线路优化方法 | |
CN107240100A (zh) | 一种基于遗传算法的图像分割方法和系统 | |
CN113076319B (zh) | 基于离群值检测技术和位图索引的动态数据库填充方法 | |
CN108305298B (zh) | 一种基于数独矩阵索引的图像可恢复信息隐藏方法 | |
CN110957003B (zh) | 一种面向用户隐私保护的高效基因比对方法 | |
CN112887509A (zh) | 一种基于多混沌系统的融合加密方法 | |
Shah et al. | Query preserving relational database watermarking | |
CN114866657B (zh) | 选择明文安全且密文图像文件大小减小的jpeg图像加密方法 | |
CN110362580B (zh) | 一种bim建筑工程数据检索优化归类方法及其系统 | |
CN115222575A (zh) | 利用频率域系数比值的矢量数据水印嵌入和提取方法 | |
CN114398375A (zh) | 一种水印嵌入方法、装置、设备及存储介质 | |
CN114329365A (zh) | 基于鲁棒水印的深度学习模型保护方法 | |
CN115088038A (zh) | 基于新上下文的经比对的测序数据中的改进质量值压缩框架 | |
CN110909027A (zh) | 一种哈希检索方法 | |
CN115134142B (zh) | 一种基于文件分割的信息隐藏方法及系统 | |
CN115795419B (zh) | 一种无损的数据库鲁棒数字水印方法及系统 | |
CN116861380B (zh) | 一种基于数据库的水印处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |