CN111797369B

CN111797369B - 一种关系数据库的数字水印方法

Info

Publication number: CN111797369B
Application number: CN202010648828.3A
Authority: CN
Inventors: 李文玲; 闫健恩; 许海燕; 张兆心; 谷杰铭; 张奕欣
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2022-05-06
Anticipated expiration: 2040-07-08
Also published as: CN111797369A

Abstract

本发明涉及一种关系数据库的数字水印算法，其解决了现有数据库安全面临的版权保护，内容的机密性和隐私性以及数据的真实性和完整性的威胁问题，其步骤包括进行数据的预处理；利用数据库版权所有者的私有密钥，将水印明文转换为二进制序列；以每一个属性值为自然语言的非数值属性列为单位分别执行水印嵌入程序；将嵌入水印后的数据库表发布；发生版权纠纷时，需要对有版权争议的数据库表进行水印提取工作，并以此作为版权归属的有效证明；根据步骤三中涉及到的数据库所有者个人私有密钥、属性列对应密钥、是否存在虚拟拆分列以及嵌入过程操作记录完成水印提取。本发明可广泛应于文字数据库安全的版权保护。

Description

一种关系数据库的数字水印方法

技术领域

本发明涉及数据库领域，特别是涉及一种关系数据库的数字水印方法。

背景技术

版权保护已经成为知识产权领域的重点。网络的发展给文化的发展带来了更快捷的渠道、更广阔的空间，与此同时，在网络中知识产权更易于受到侵犯也成了一个难以避免的问题。在知识产权保护中，文学作品由于其仅仅为文字构成的特殊性，使其难以加载产权信息，给其知识产权保护带来了一定困难。

申请号201010232710.9的中国发明专利申请：“作品版权保护法”，公开了一种中文作品版权保护方案，该方案基于同义词替换的中文信息隐藏方法，通过对版权信息进行编码，并将该编码以同义词替换的形式体现在文字作品中，使得非授权者很难发觉并破解版权信息，从而盗版作品中隐藏的版权信息基本无法被抹除，可使版权所有者易于查找盗版方，维护了消费者和版权人的利益；申请号201210148620.0的中国发明专利申请：“一种中文超短文本的水印嵌入和提取方法”，公开了一种中文超短文本的水印嵌入和提取方法，该方法包括嵌入和提取两个过程，嵌入过程包括嵌入单元的识别和秘密信息的嵌入两个阶段，提取过程包括嵌入单元的识别、和秘密信息的提取和水印验证三个阶段；申请号201510079012.2的中国发明专利申请：“一种基于数字指纹的文件安全管控和溯源的方法及系统”，将数字指纹信息加入文件中，使得DLP系统管控的文件具备数字指纹的特性，可以对文件进行准确的溯源跟踪管理，这可以显著的提升文档安全管控水平，尤其是可以实现文档精确的溯源。

但是以上三个方案均应用于文本文件的版权保护中。随着数据和信息技术的发展，物联网、数据挖掘和分析已经成为人们关注的焦点。物联网、军事和医疗数据大多存储在关系数据库中，数据丢失、盗窃和篡改可能对国家经济、个人隐私甚至国家安全造成不可估量的危害。针对这一现状，数据库的版权保护成为我们迫切要解决的问题。数字水印技术可以解决数据库在处理以及共享的过程中出现的盗版和篡改问题，但现行方案大部分针对数据库中的数值型属性，少数的针对非数值型属性方案或针对分类数据或针对有明显结构特征的数据。除了这些有规可循的非数值型数据外，数据表中往往还存在一些自然语言类的数据，例如描述性信息。另外，大部分算法均针对英文数据起作用，由于汉字的结构整体性特点，这类算法不能适用。对非数值型属性而言，其二进制编码的微小变动就有可能导致其意义发生较大变化，这使得非数值型属性值置换的失真度最小化成为非数值型数据库水印技术的难点。

发明内容

本发明为了解决现有数据库安全面临的版权保护，内容的机密性和隐私性以及数据的真实性和完整性的威胁问题，提出了一种针对关系数据库非数值型的自然语言类属性的基于中文分词和词嵌入的数字水印方法。

本发明提供了一种针对关系数据库非数值型的自然语言类属性的数字水印方法，包括以下步骤：

一、数据的预处理，所述数据的预处理包括最优置换词生成和属性列虚拟拆分；

三、以每一个属性值为自然语言的非数值属性列为单位分别执行水印嵌入程序；根据数据库所有者个人私有密钥以及嵌入比例确定被嵌入水印元组，根据水印长度确定该次嵌入过程选用的水印信息二进制序列中的水印比特值，以及随机选择要被置换的词组；

四、将嵌入水印后的数据库表发布；

五、发生版权纠纷时，对有版权争议的数据库表进行水印提取，作为版权归属的有效证明；根据步骤三中涉及到的数据库所有者个人私有密钥、属性列对应密钥、是否存在虚拟拆分列以及嵌入过程操作记录完成水印提取。

优选地，步骤一中的最优置换词生成，针对每一列属性下的所有元组做操作，包括以下步骤：

A.取每一个元组该属性值，执行中文分词程序，得到所有可被置换的词组，并将这些词组按照出现顺序从0开始编号；在中文分词过程中查看是否存在同义词，若存在同义词将分词中得到的同义词作为相似词候选值，将可置换词及其所在元组、属性、编号、相似候选置换词进行保存，并记录该属性可替换词总数；

B.用该属性列下所有元组执行分词之后的结果训练word2vec模型，从而可以得到在该属性语言场景下词向量模型；

C.对之前得到的可置换词及其相似候选词用训练好的词向量模型求得相似度，取相似度最高且相似度大于0.8的词语，即为在此属性域下的最优置换词；

D.将得到的可置换词及其对应的最优置换词进行保存，用以进行水印嵌入工作；

E.需要对水印嵌入过程中的操作做记录并进行保留，用以进行水印提取工作。

优选地，步骤一中的属性列虚拟拆分，包括以下步骤：

a.选择可进行拆分的列，由数据库所有者确定要拆分成新列的数量；

b.扫描该列每一个属性值，按照“。”>“？”>“//”>“；”>“，”的优先级搜索；

c.以扫描到的第一个优先级最高的标点符号为界，将属性值进行拆分，并判断新列数量是否已达到期待值；如达到停止拆分，否则按同样方式继续拆分，直到满足期待的新列数量为止；

d.若扫描结束后发现该属性值不存在满足条件的标点符号，则将新列值设为空。

优选地，步骤二中的修改最小原则，具体规则如下：

(1).为实现操作区分，对照操作中应存在不对数据库作修改的操作，称不对数据库作修改的操作为零操作；

(2).应选择出现次数多的位对应零操作。

优选地，步骤三对于选定的属性列中的单个属性列的嵌入算法如下：

1).需要对每一个元组根据求得元组属性标识码C；

2).确定被嵌入水印元组，根据水印长度确定该次嵌入过程选用的水印信息二进制序列中的水印比特值，以及随机选择要被置换的词组；

3).根据修改最小原则第一条进行比特值的嵌入，当选中的水印比特位是1的时候，查询找到选定词组的最优置换词x，并修改数据库，同时将值对<H(t.P||k_i),H(x||k_i)>保存到嵌入过程操作记录中；由于最优置换词的选择要求相似度大于0.8，若不存在则认为无最优置换词，此时不对数据库作修改，同时将值对<H(t.P||k_i),H(0||k_i)>保存到嵌入过程操作记录中；当选中的水印比特位是0时，执行零操作，将值对<H(t.P||k_i),H(A_i||k_i)>插入到嵌入过程操作记录中；

4).遍历数据表做以上操作，直到所有的元组扫描结束后水印嵌入完毕。

优选地，步骤1)中根据C(t.P,K,k_i)＝H(K||H(t.P||k_i))获得元组属性标识码，其中||表示连接操作，t.P为元组主键，K表示唯有数据库拥有者可知的私有密钥，ki为对应于不同属性列的密钥。

优选地，步骤五从有版权争议的数据库表中提取水印信息，包括以下步骤：

A).与步骤三以同样的方式求得元组属性标识码C；

B).根据水印嵌入间距确定被嵌入水印的元组，根据水印长度确定被嵌入的水印比特值，以及确定可能发生置换的词组，即最优置换词x；

C).查询嵌入操作记录找到<H(t.P||k_i),H(A_i||k_i)>值对记录，则说明该处被嵌入的水印比特位为0；否则，对于选定词组的最优置换词x，如果查询嵌入操作记录找到<H(t.P||k_i),H(x||k_i)>或者<H(t.P||k_i),H(0||k_i)>值对记录，则说明该处被嵌入的水印比特位为1；

D).遍历数据库表做以上操作，直到所有的元组扫描结束；

E).采用多数选举机制得到水印二进制比特序列每一位的最终取值。

本发明的有益效果是：应用于关系数据库的无明显结构特征的自然语言类汉字文本属性，使得在水印嵌入过程中数据表属性得到充分利用。在属性值置换以及相似函数的思想下，采用中文分词技术提取可置换词，通过词嵌入来求得相似度量化失真。根据修改最小原则，进一步降低失真度；同时利用属性列虚拟拆分操作，使得水印容量充分大。同时具有鲁棒性强，安全性高的特点，能有效抵抗数据库应用过程中的多种常见攻击。

附图说明

图1是本发明的整体功能结构示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明，以使本发明所属技术领域的技术人员能够容易实施本发明。

实施例：如图1所示，是本发明实施的整体功能结构示意图，本发明的步骤包括：

步骤一、原始数据库的数据进行预处理，数据的预处理包括最优置换词生成和属性列虚拟拆分。

其中，最优置换词生成，针对每一列属性下的所有元组做操作，包括以下步骤：

属性列虚拟拆分，包括以下步骤：

(2).应选择出现次数多的位对应零操作。

步骤三、以每一个属性值为自然语言的非数值属性列为单位分别执行水印嵌入程序；根据数据库所有者个人私有密钥以及嵌入比例确定被嵌入水印元组，根据水印长度确定该次嵌入过程选用的水印信息二进制序列中的水印比特值，以及随机选择要被置换的词组。

对于选定的属性列中的单个属性列的嵌入算法如下：

1).需要对每一个元组根据求得元组属性标识码C；根据C(t.P,K,k_i)＝H(K||H(t.P||k_i))获得元组属性标识码，其中||表示连接操作，t.P为元组主键，K表示唯有数据库拥有者可知的私有密钥，ki为对应于不同属性列的密钥。

步骤四、将嵌入水印后的数据库表发布，提供给需要的各方使用。

步骤五、发生版权纠纷时，需要对有版权争议的数据库表进行水印提取工作，并以此作为版权归属的有效证明。根据步骤三中涉及到的数据库所有者个人私有密钥、属性列对应密钥、是否存在虚拟拆分列以及嵌入过程操作记录完成水印提取。

从有版权争议的数据库表中提取水印信息，包括以下步骤：

A).与步骤三以同样的方式求得元组属性标识码C；

D).遍历数据库表做以上操作，直到所有的元组扫描结束；

以微博相关数据库为例进行本实例。数据库部分数据示例如表1所示。

表1

步骤1：以属性值“就是这片海，第二次跳啦！此刻，全身浸泡在海中，心里也是暖的。因为有你在！”为例，执行中文分词，并去掉停用词后得到结果“就是/片/海/第二次/跳/此刻/全身/浸泡/海中/心里/也是/暖的/因为/有”。

步骤2：得到可置换词“此刻”“浑身”“浸泡”“因为”，及其所在元组主键、属性、编号、相似候选置换词进行保存，如表2所示，为可置换词及关联信息示例。

表2

步骤3：用“微博内容”属性列下所有元组执行步骤2之后的结果训练word2vec模型，从而可以得到在该属性语言场景下词向量模型。

步骤4：对步骤2得到的可置换词及其相似候选词用步骤3得到的模型求得相似度，取相似度最高且相似度大于0.8的词语，即为在此属性域下的最优置换词。以“此刻”为例，与其相似候选词求得的相似度如下表，取相似度最高的“现在”作为最优置换词。相似度示例，如表3所示。

表3

相似候选词	相似度
		现在	0.986201133
而今	0.897832903
		今朝	0.793072144
当前	0.893744434
		方今	0.829403944
如今	0.985289025
		目前	0.973409324

步骤5：由于可用属性列仅“微博内容”一个，为扩大水印容量，对其进行虚拟拆分。目标列数量为4。以属性值“就是这片海，第二次跳啦！此刻，全身浸泡在海中，心里也是暖的。因为有你在！”为例，可拆分为“就是这片海”“第二次跳啦！此刻”“全身浸泡在海中，心里也是暖的”“因为有你在”。

步骤6：要嵌入的水印信息为“水印”二字，转换为二进制“111001101011010010110100 111001011000110110110000”；统计得到“1”的数目为25，“0”的数目为23。进行位翻转得到最终要嵌入的水印二进制序列“000110010100101101001011 000110100111001001001111”。

步骤7：确定被嵌入水印元组，确定该次嵌入过程选用的水印信息二进制序列中的水印比特值，以及随机选择要被置换的词组；例如选定被嵌入水印元组主键为20110041414226447，选用的水印比特值为1，要被置换的词组为“此刻”。

步骤8：将“此刻”替换为“现在”。设“此刻“所在的虚拟拆分后的属性列对应的密钥为“列2”，将值对

<H(20110041414226447||“列2”)，H(“现在”||“列2”)>保存到操作记录表中。

步骤9：其余元组按以上步骤同样操作，直到数据表遍历结束。

步骤10：发生版权纠纷时，按步骤7同样方法确定被嵌入水印的元组，被嵌入的水印比特值所在位，以及确定可能发生置换的词组，即最优置换词。

步骤11：查询操作记录表，得到值对

<H(20110041414226447||“列2”)，H(“现在”||“列2”)>存在，则断定被嵌入的水印比特值为“1”。

步骤12：以步骤10、11同样操作遍历数据表，得到水印二进制序列每一位可能的值，采用多数选举机制得到水印二进制比特序列每一位的最终取值，从而进一步可得到嵌入的水印明文“水印”二字。

以上所述仅对本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡是在本发明的权利要求限定范围内，所做的任何修改、等同替换、改进等，均应在本发明的保护范围之内。

Claims

1.一种关系数据库的数字水印方法，其特征是，包括以下步骤：

所述步骤一中的最优置换词生成，针对每一列属性下的所有元组做操作，包括以下步骤：

E.需要对水印嵌入过程中的操作做记录并进行保留，用以进行水印提取工作；

所述步骤一中的属性列虚拟拆分，包括以下步骤：

d.若扫描结束后发现该属性值不存在满足条件的标点符号，则将新列值设为空；

修改最小原则：(1).为实现操作区分，对照操作中应存在不对数据库作修改的操作，称不对数据库作修改的操作为零操作；

(2).应选择出现次数多的位对应零操作；

四、将嵌入水印后的数据库表发布；

2.根据权利要求1所述关系数据库的数字水印方法，其特征在于，所述步骤三对于选定的属性列中的单个属性列的嵌入算法如下：

1).需要对每一个元组根据求得元组属性标识码C；所述步骤1)中根据C(t.P,K,k_i)＝H(K||H(t.P||k_i))获得元组属性标识码，其中||表示连接操作，t.P为元组主键，K表示唯有数据库拥有者可知的私有密钥，ki为对应于不同属性列的密钥；

3.根据权利要求2所述关系数据库的数字水印方法，其特征在于，所述步骤五从有版权争议的数据库表中提取水印信息，包括以下步骤：

A).与步骤三以同样的方式求得元组属性标识码C；

D).遍历数据库表做以上操作，直到所有的元组扫描结束；