CN107992726B - 一种基于伪行伪列的水印处理和数据溯源方法 - Google Patents
一种基于伪行伪列的水印处理和数据溯源方法 Download PDFInfo
- Publication number
- CN107992726B CN107992726B CN201711222555.0A CN201711222555A CN107992726B CN 107992726 B CN107992726 B CN 107992726B CN 201711222555 A CN201711222555 A CN 201711222555A CN 107992726 B CN107992726 B CN 107992726B
- Authority
- CN
- China
- Prior art keywords
- data
- pseudo
- watermark
- field
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Technology Law (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于伪行伪列的水印处理和数据溯源方法,其技术特点是包括以下步骤:数据库初始化步骤:根据发现规则对数据进行自动发现,抽取指定的数据集合,生成数据子集;对生成的数据子集进行水印处理步骤:添加伪行数据、伪列数据并根据字段规则特征实现数据水印的嵌入,生成带有水印标记的数据。本发明设计合理,能够提高数据共享过程中的安全防护能力,实现数据水印的嵌入和泄露数据的溯源,具有安全性能高、数据损失小且不容易被破坏等特点,因此在数据库安全领域具有广泛的应用场景。
Description
技术领域
本发明属于数据库安全技术领域,尤其是一种基于伪行伪列的水印处理和数据溯源方法。
背景技术
数字水印技术是信息隐藏技术中的一种,它是将水印信息直接嵌入数字载体中,不影响原载体的使用,也不易被人察觉到。通过这些嵌入的信息能达到确认版权所有者、证明载体是否被篡改、追踪泄密用户的目的。数字水印技术主要研究集中在图像和音频等多媒体水印方面。随着关系型数据库的广泛应用,人们越来越关注数据库的版权保护,数据库水印技术的研究和发展具有较大的理论价值。
数据库水印技术是数字水印技术中的一个重要的研究方向,它是将水印信息嵌入到数据库中,不影响数据库的正常使用,其在实现要求的层面上要高于多媒体中的水印技术,除了在嵌入数据库的过程中尽可能不修改原始数据或者较少的修改,从而不影响原始数据的使用价值,确保信息可以被用户正常使用,还需要在提取阶段可以基本上不受损的被发布者提取出来。目前基于数据库水印技术存在安全性较差、数据损失精度、容易受到破坏等问题。
发明内容
本发明的目地在于克服现有技术的不足,提出一种安全性能高、数据损失小且不容易被破坏的基于伪行伪列的水印处理和数据溯源方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于伪行伪列的水印处理和数据溯源方法,包括以下步骤:
步骤1、数据库初始化步骤:根据发现规则对数据进行自动发现,抽取指定的数据集合,生成数据子集;
步骤2、根据生成的数据子集定义伪字段规则,选择嵌入水印的数据表生成带有水印数据的伪行和/或者伪列进行水印处理;
所述步骤2的具体实现方法包括以下步骤:
步骤2-1、定义伪行伪列字段规则:从所述数据子集中分离出用于嵌入水印数据的候选字段的特征抽象出对应的字段规则作为所述伪字段规则,数据值型字段的特征通过正则表达式方式抽取字段规则,字符型字段的特征通过正则表达式方式或进行值域范围分解抽取字段特征;
步骤2-2、选择嵌入水印的数据表并根据其中己有字段属性分布情况,选择采用伪行和/或伪列方式嵌入水印信息;
在选择伪行时,定义该数据表中所有字段的属性,根据选择嵌入水印数据的字段的属性配置对应的伪字段规则;在选择伪列时,直接配置选择嵌入水印数据的字段的属性对应的伪字段规则;
步骤2-3、根据选择嵌入水印数据的字段的伪字段规则,进行水印数据的生成:伪行水印处理根据选择嵌入水印数据的字段的伪字段规则生成伪数据行、所述伪数据行与所述表中的己有数据行的长度一致,对生成的伪数据行嵌入水印标记;伪列水印处理根据选择嵌入水印数据的字段的伪字段规则生成伪数据列,在所述伪数据列存在增加新伪数据列的情况下,根据所述新伪数据列的字段属性确定所述新伪数据列的长度,对生成的伪数据列嵌入水印标记;
步骤2-4、对于伪行水印处理:将所述嵌入水印的伪数据行根据离散分布的方式插入到所述表中;对于伪列水印处理,在所述表中添加生成的新列,然后将嵌入水印的伪数据列插入到所述新列中。
在步骤2后还包括数据溯源处理步骤:根据所述带有水印标记的数据确定输入样本数据,对所述样本数据进行水印提取,并根据水印标记进行数据溯源。
所述步骤1生成的数据子集为:定义C为数据库中包含敏感属性的表的集合,对C进行数据抽取形成数据子集S,S中含有一个或多个表。
所述数据溯源处理步骤的具体实现方法包括如下步骤:
步骤3-1、按抽样比例读取数据表中的数据,对抽样数据进行自动特征识别,将符合特征数据进行缓存;
步骤3-2、将缓存的数据进行水印标记的提取,提取结果与记录的水印标记数据进行比对,比对结果一致性达到一定比例时,确定数据水印的提取完成;
步骤3-3、根据水印标记,查询数据溯源信息。
本发明的优点和积极效果是:
本发明对原始数据进行无损水印数据生成,不影响数据的正常使用;通过伪行伪列数据水印方法有效解决了结构化数据的水印嵌入;数据溯源具有更好的抗攻击能力,在数据遭到局部破坏时不影响数据的整体溯源能力;本发明能够提高数据共享过程中的安全防护能力,实现数据水印的嵌入和泄露数据的溯源,具有安全性能高、数据损失小且不容易被破坏等特点,因此在数据库安全领域具有广泛的应用场景。
附图说明
图1是本发明的处理流程图;
图2是本发明中定义伪行伪列规则的示意图;
图3是本发明中伪行伪列水印处理方法的示意图;
图4是本发明中数据溯源方法的示意图。
具体实施方式
以下结合附图对本发明实施例做进一步详述。
一种基于伪行伪列的水印处理和数据溯源方法,如图1所示,包括以下步骤:
步骤1、数据库初始化:根据发现规则对数据进行自动发现,抽取指定的数据集合,生成数据子集。
数据库表包含有多个元组,每个元组的数据模式可以用R=(Pk,F1,F2…Fn,Fk),其中R代表元组,Pk代表主键,Fk为外键,F1,F2…Fn为属性;在属性中会包含有部分敏感信息,定义C为数据库中包含敏感属性的表的集合,对C进行数据抽取形成数据子集S,S中含有一个或多个表,S中表的属性含有敏感信息,S中表之间具有一定的关系,比如主外键表。
以人员身份信息数据库为例进行说明,其数据结构如下表:
在对上述数据库进行初始化时,通过规则发现表中的数据类型和数据特征,将NAME、PERSONID、TELPHOHE等作为敏感数据。
步骤2、对步骤1生成的数据子集进行水印处理:添加伪行数据、伪列数据并根据字段规则特征实现数据水印的嵌入,生成带有水印标记的数据。具体方法如下:
步骤2-1、定义伪行伪列字段规则。
如图2所示,字段规则根据敏感数据属性含义和数据类型进行定义;敏感数据属性定义会根据数据属性含义和数据类型结合,敏感数据属性往往具有明显的数据特征和数据类型;首先分离出敏感数据属性,根据敏感数据属性的类型、值域范围及限定规则,抽象出敏感数据属性的特征,数据值型数据将通过正则表达式方式抽取数据属性规则,字符型属性可通过正则表达式方式或进行值域范围分解抽取数据属性规则。
数据属性规则抽取完成后形成两类属性规则,一类是通过正则表达式定义的属性规则,一类是通过值域分解得到的数据字典属性规则;伪行伪列字段规则定义根据抽象出来的正则表达式属性规则和数据字典属性规则。
在本实施例中,依据表的字段属性类型,列出伪行水印规则进行伪行字段规则配置,分别对应NAME、PERSONID、TELPHOHE三个字段配置伪行字段规则,伪行字段规则与表中的字段属性类型和含义要一一对应。
步骤2-2、选择数据子集S中一个或多个表的属性,进行伪行字段或者伪列字段规则配置。
首先选择指定的表,根据表中的已有字段属性分布情况,选择采用伪行或伪列方式嵌入水印信息;选择伪行时,对表中已有字段属性进行规则定义,选择字段属性配置对应的伪行字段规则,由于表中字段属性会很多,限制至少两个字段属性需要配置,其余字段属性按默认值,配置生成的数据行比例,如按按%1比例配置;选择伪列时,直接配置对应的伪列字段规则,生成的数据行比例与原始数据一致。
步骤2-3、根据选择的字段规则,进行水印数据的生成。
伪行或伪列水印处理根据字段规则配置生成数据行或数据列,生成的数据中对应规则配置的数值型数据按正则表达式构建数据值,并通过随机数值组合生成水印标记信息并嵌入到数据值中;字符型数据按值域范围获取数据字典数据构建数据值,并通过值域数据字典对应的数值编码生成水印标记信息并嵌入到数据值中。
在本步骤中,本实施例根据NAME属性值域特征按照NAME数据字典方式嵌入水印标记;根据PERSONID、TELPHOHE属性类别特征,按照正则表达式和随机数组合方式嵌入水印标记。
步骤2-4、水印数据的插入处理。
如图3所示,在伪行水印处理时,按照配置的数据行比例,在原始数据中按照一定的行间隔将水印数据分散的插入到原始数据中;在伪列水印处理时,对原始数据增加新的字段属性并根据配置生成字段名称,然后将伪列数据插入到对应的字段属性中,从而生成数据水印文件。
步骤3、针对步骤1至步骤2所述方法实现水印处理后输出的数据进行数据溯源。如图4所示,具体方法如下:
步骤3-1、设定数据表中的数据由外部数据导入形成,抽样比例可以根据数据量大小进行设定;对抽样数据进行数据抽取,数据抽取后进行自动数据特征识别,识别依据水印处理时嵌入数据的类型和数据值特征;将符合特征的数据进行缓存;
步骤3-2、将缓存的数据进行水印标记的提取,根据数据类型和数据特征进行规则化,按照生成水印的方式对数据进行水印标记信息的逐个提取,然后将提取结果与记录的水印数据进行比对,比对结果一致时再进行下一组数据的提取和比对,所有的比对结果一致性达到一定比例时(例如30%),确定数据水印的提取完成;如果比对结果不能满足最低的一致性比例,数据水印的提取结果将根据已经提取出的结果进行验证提取,即增加更多的数据进行特征识别和水印标记的提取,从而完成水印标记的提取;
步骤3-3、根据提取的水印标记,查询数据溯源信息;数据溯源信息中含有数据所有者及相关信息。从而完成人员身份信息的数据溯源。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (4)
1.一种基于伪行伪列的水印处理和数据溯源方法,其特征在于:包括以下步骤:
步骤1、数据库初始化步骤:根据发现规则对数据进行自动发现,抽取指定的数据集合,生成数据子集;
步骤2、根据生成的数据子集定义伪字段规则,选择嵌入水印的数据表生成带有水印数据的伪行和/或者伪列进行水印处理;
所述步骤2的具体实现方法包括以下步骤:
步骤2-1、定义伪行伪列字段规则:从所述数据子集中分离出用于嵌入水印数据的候选字段的特征抽象出对应的字段规则作为所述伪字段规则,数据值型字段的特征通过正则表达式方式抽取字段规则,字符型字段的特征通过正则表达式方式或进行值域范围分解抽取字段特征;
步骤2-2、选择嵌入水印的数据表并根据其中己有字段属性分布情况,选择采用伪行和/或伪列方式嵌入水印信息;
在选择伪行时,定义该数据表中所有字段的属性,根据选择嵌入水印数据的字段的属性配置对应的伪字段规则;在选择伪列时,直接配置选择嵌入水印数据的字段的属性对应的伪字段规则;
步骤2-3、根据选择嵌入水印数据的字段的伪字段规则,进行水印数据的生成:伪行水印处理根据选择嵌入水印数据的字段的伪字段规则生成伪数据行、所述伪数据行与所述表中的己有数据行的长度一致,对生成的伪数据行嵌入水印标记;伪列水印处理根据选择嵌入水印数据的字段的伪字段规则生成伪数据列,在所述伪数据列存在增加新伪数据列的情况下,根据所述新伪数据列的字段属性确定所述新伪数据列的长度,对生成的伪数据列嵌入水印标记;
步骤2-4、对于伪行水印处理:将所述嵌入水印的伪数据行根据离散分布的方式插入到所述表中;对于伪列水印处理,在所述表中添加生成的新列,然后将嵌入水印的伪数据列插入到所述新列中。
2.根据权利要求1所述的一种基于伪行伪列的水印处理和数据溯源方法,其特征在于:在步骤2后还包括数据溯源处理步骤:根据所述带有水印标记的数据确定输入样本数据,对所述样本数据进行水印提取,并根据水印标记进行数据溯源。
3.根据权利要求1所述的一种基于伪行伪列的水印处理和数据溯源方法,其特征在于:所述步骤1生成的数据子集为:定义C为数据库中包含敏感属性的表的集合,对C进行数据抽取形成数据子集S,S中含有一个或多个表。
4.根据权利要求2所述的一种基于伪行伪列的水印处理和数据溯源方法,其特征在于:所述数据溯源处理步骤的具体实现方法包括如下步骤:
步骤3-1、按抽样比例读取数据表中的数据,对抽样数据进行自动特征识别,将符合特征数据进行缓存;
步骤3-2、将缓存的数据进行水印标记的提取,提取结果与记录的水印标记数据进行比对,比对结果一致性达到一定比例时,确定数据水印的提取完成;
步骤3-3、根据水印标记,查询数据溯源信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711222555.0A CN107992726B (zh) | 2017-11-29 | 2017-11-29 | 一种基于伪行伪列的水印处理和数据溯源方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711222555.0A CN107992726B (zh) | 2017-11-29 | 2017-11-29 | 一种基于伪行伪列的水印处理和数据溯源方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107992726A CN107992726A (zh) | 2018-05-04 |
CN107992726B true CN107992726B (zh) | 2021-04-30 |
Family
ID=62034039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711222555.0A Active CN107992726B (zh) | 2017-11-29 | 2017-11-29 | 一种基于伪行伪列的水印处理和数据溯源方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107992726B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866858B (zh) * | 2018-08-27 | 2022-05-10 | 浙江大学 | 水印嵌入和查询数据提供方法、装置和数据处理方法 |
CN109657723A (zh) * | 2018-12-20 | 2019-04-19 | 四川新网银行股份有限公司 | 一种增强高维类别特征表达能力的方法 |
CN110084046A (zh) * | 2019-03-15 | 2019-08-02 | 全球能源互联网研究院有限公司 | 结构化数据水印的标注方法、检测方法及装置、电子设备 |
CN110414195A (zh) * | 2019-07-09 | 2019-11-05 | 恩亿科(北京)数据科技有限公司 | 一种数据防伪和溯源方法、系统、介质和计算机设备 |
CN110688675B (zh) * | 2019-09-25 | 2021-07-13 | 卓尔智联(武汉)研究院有限公司 | 基于隐私保护的数据泄露溯源装置、方法及可读存储介质 |
WO2021115589A1 (en) * | 2019-12-11 | 2021-06-17 | Huawei Technologies Co., Ltd. | Devices and methods for applying and extracting a digital watermark to a database |
CN111651736B (zh) * | 2020-06-16 | 2021-08-13 | 杭州美创科技有限公司 | 一种身份证数据脱敏的水印溯源方法 |
CN113032742B (zh) * | 2021-01-26 | 2022-02-22 | 北京安华金和科技有限公司 | 数据脱敏方法和装置、存储介质及电子装置 |
CN113934991B (zh) * | 2021-12-17 | 2022-03-11 | 山东青揽电子有限公司 | 一种文字混淆标记算法 |
CN117668786B (zh) * | 2023-11-29 | 2024-06-25 | 国网智能电网研究院有限公司 | 一种数据库水印嵌入方法、装置、计算机设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9465922B2 (en) * | 2009-01-22 | 2016-10-11 | Hewlett Packard Enterprise Development Lp | Methods for secure data distribution |
-
2017
- 2017-11-29 CN CN201711222555.0A patent/CN107992726B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107992726A (zh) | 2018-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992726B (zh) | 一种基于伪行伪列的水印处理和数据溯源方法 | |
CN107992727B (zh) | 一种基于原有数据变形实现的水印处理和数据溯源方法 | |
CN100369039C (zh) | 一种用数字水印技术保护数据库数据版权的方法及其应用 | |
CN109785222B (zh) | 一种用于网页的信息快速嵌入和提取的方法 | |
CN104850765A (zh) | 一种水印处理方法、装置及系统 | |
CN114356919A (zh) | 一种结构化数据库的水印嵌入方法、溯源方法及装置 | |
CN118296575A (zh) | 一种数据库水印嵌入方法、装置、设备及介质 | |
CN110874456B (zh) | 水印嵌入和水印提取方法、装置及数据处理方法 | |
Hu et al. | An image based algorithm for watermarking relational databases | |
Bedi et al. | A unique approach for watermarking non-numeric relational database | |
Shah et al. | Query preserving relational database watermarking | |
Yang et al. | BDCP: a framework for big data copyright protection based on digital watermarking | |
CN114491427A (zh) | 一种将单个数据水印嵌入多个数据库表的方法 | |
Waheeb Yaqub et al. | Distortion-free watermarking scheme for compressed data in columnar database | |
Lohegaon | A robust, distortion minimization fingerprinting technique for relational database | |
JP3554529B2 (ja) | コンテンツ管理方法、その装置およびそのプログラム記録媒体 | |
Mohanpurkar et al. | Applying watermarking for copyright protection, traitor identification and joint ownership: A review | |
CN114298882A (zh) | Cad数据的水印的嵌入方法、追溯方法以及电子设备 | |
CN110909323B (zh) | 一种基于xml多标签水印的遥感影像流转追溯方法 | |
Xiu-Jian et al. | Deep Learning Based Image Forgery Detection Methods | |
CN117034220B (zh) | 一种数字水印处理方法和系统 | |
Newbould et al. | Mixed signal design watermarking for IP protection | |
Thanh et al. | Key-value based data hiding method for NoSQL database | |
CN113704709B (zh) | 基于属性重要性指数的数字水印数据溯源方法 | |
CN117725565B (zh) | 一种基于数字水印的数据溯源方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |