CN113934991B - 一种文字混淆标记算法 - Google Patents

一种文字混淆标记算法 Download PDF

Info

Publication number
CN113934991B
CN113934991B CN202111545560.1A CN202111545560A CN113934991B CN 113934991 B CN113934991 B CN 113934991B CN 202111545560 A CN202111545560 A CN 202111545560A CN 113934991 B CN113934991 B CN 113934991B
Authority
CN
China
Prior art keywords
data
confusion
digital watermark
character
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111545560.1A
Other languages
English (en)
Other versions
CN113934991A (zh
Inventor
巨文思
杜欣泽
丛晓丹
路致鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Qinglan Electronics Co ltd
Original Assignee
Shandong Qinglan Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Qinglan Electronics Co ltd filed Critical Shandong Qinglan Electronics Co ltd
Priority to CN202111545560.1A priority Critical patent/CN113934991B/zh
Publication of CN113934991A publication Critical patent/CN113934991A/zh
Application granted granted Critical
Publication of CN113934991B publication Critical patent/CN113934991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Technology Law (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文字混淆标记算法,属于数据防泄密技术领域。所述文字混淆标记算法提取数据交付、流转、操作的信息,经类结构变换、控制混淆、使用SM4分组运算和静态数据转换后生成混淆的非图像化数字水印,并将其拆分按选取的数据库中的文字字段串插写入数据库中,在发生数据泄密时,对泄密的数据提取数字水印,通过反向运算可进行数据溯源,找出数据泄密点。本发明设计的文字混淆算法应用于跨部门、跨单位进行数据共享时的数据防泄密系统,能够在发生泄密后进行有效的溯源追踪,生成泄密证据链。

Description

一种文字混淆标记算法
技术领域
本发明涉及文字数据防泄密技术领域,具体涉及一种文字混淆标记算法。
背景技术
近年来,全国各省、市都批准成立了大数据局,大数据局的主要功能是用于各级政府、企事业单位等多个部门之间的数据共享和数据挖掘,为管理决策提供依据。跨部门数据共享是一种新生事物,这种新形式的数据共享在共享过程中一旦发生数据泄露行为时,由于流转的部门较多,无法直接界定数据的泄露节点,对后续的追责和之后数据的防泄密造成困扰,急需发明一种用于数据防泄密、数据溯源的方式方法。
现有的数据防泄密手段还是主要依赖于传统的网络层、硬件层的防火墙产品。除硬件产品外,没有基于数据库底层的软件或算法层面的技术手段用于防止数据泄密。假如发生数据泄露事件,能应用于数据溯源追踪的技术手段是空白或稀少,市场上找不到同类产品信息。
发明内容
为解决现有技术中的问题,本发明专利设计了一种文字混淆标记算法,基于数据库底层,对数据库中存储的数据本身进行混淆标记,生成非图像化数字水印,一旦数据发生外泄,能够依据泄密数据进行泄密节点溯源,及时止损。
本发明所采用的技术方案是:所述文字混淆标记算法的具体步骤为:
步骤一:在数据库中选中文字字段;
步骤二:从系统数据库中提取记录的数据共享过程中的交付、流转、操作的全部各项信息;
步骤三:将步骤二的各项数据进行类结构变换,统一数据类型;
步骤四:将步骤三的多组项目数据进行数组重构变换,合并多项数据;
步骤五:对步骤四的多项数据进行控制混淆,增加程序及数据的复杂性;
步骤六:使用对称算法将步骤五的多项数据进行混淆计算;
步骤七:使用词法变换原理将步骤六混淆运算的结果进行转换;
步骤八:将词法变换后的结果生成数字水印数组;
步骤九:将数字水印数组拆分,按步骤一所选文字字段串插写入数据库中;
步骤十:如发生数据泄密事件,提取泄密数据中的数字水印进行反向计算,反推泄密节点。
所述步骤八生成的数字水印数组为非图像化数字水印。
进一步的,所述步骤一中选中的文字字段的数量为2的倍数。
进一步的,所述步骤六中使用SM4分组运算对数据进行混淆计算。
进一步的,所述步骤十的具体过程为发生数据泄密事件,提取泄密数据中的数字水印,使用混淆标记过程的算法进行反向计算,将反向计算得出的数据共享过程信息结果与数据库中记录的过程信息进行核对验证,核对无误后生成泄密证据链。
进一步的,所述记录的数据共享过程信息包括数据交付、流转、操作过程中所涉及的所有的时间、人员、部门等信息。
相对于现有技术,本发明专利设计的一种文字混淆标记算法的进步之处在于:本算法应用在跨部门、跨单位进行数据共享的防泄密系统中,在进行混淆标记时不仅涉及数据库中的文字数据本身,还包括将部门或业务单位间的数据交付、流转、操作等全部过程信息由系统算法记录并按选取的文字字段串插写入最终的数据库中,且数据库操作全过程使用零信任机制严格验证系统操作权限和身份信息,最大程度防止数据泄密;全部的过程信息数据在进行类型统一、重构变换后先进性控制混淆,增加程序及数据的复杂性,之后使用SM4分组运算对数据进行混淆计算,再使用词法变换原理进行二次混淆计算形成数字水印数组,将数字水印数组拆分后按选取的文字数据的字段串插写入数据库,进行多道混淆处理;本申请中所提的数字水印区别于传统的版权保护用的图像化数字水印,是一种完全非图像化的数字水印,加密后的数据库中的数字水印与文字数据结合出现,不会因为数据的复制、拷贝、分割等操作消失,一旦发生泄密,即可对泄密的文字数据提取数字水印,并通过混淆计算过程的反向算法进行反向计算,由于数据库中记录了数据共享全过程的信息,核对后便能够反推出泄密节点,形成泄密证据链。
附图说明
图1是文字混淆标记算法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的说明。对本发明实施例中的技术方案进行清楚、完整的描述,所描述的实施例仅仅是本发明创造一部分的实施例,而不是全部。基于本发明创造中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明创造保护的范围。
如图1所示,本发明专利设计了一种文字混淆标记算法,本实施例中文字混淆标记算法的具体步骤为:
步骤一:在数据库中选中文字字段;
步骤二:从系统数据库中提取记录的数据共享过程中的交付、流转、操作的全部各项信息;
步骤三:将步骤二的各项数据进行类结构变换,统一数据类型;
步骤四:将步骤三的多组项目数据进行数组重构变换,合并多项数据;
步骤五:对步骤四的多项数据进行控制混淆,增加程序及数据的复杂性;
步骤六:使用SM4分组运算对称算法将步骤五的多项数据进行混淆计算;
步骤七:使用词法变换原理将步骤六混淆运算的结果进行转换;
步骤八:将词法变换后的结果生成数字水印数组;
步骤九:将数字水印数组拆分,按步骤一所选文字字段串插写入数据库中;
步骤十:如发生数据泄密事件,提取泄密数据中的数字水印进行反向计算,反推泄密节点。
本发明专利的数据库中记录的数据共享过程信息包括数据交付、流转、操作过程中所涉及的所有的时间、人员、部门等的全部信息。
在发生数据泄密事件时,提取泄密数据中的数字水印,使用设计者制定的特定进制转换方法及椭圆曲线对称算法进行反向计算,将反向计算的结果与数据库中记录的数据共享过程中的交付、流转、操作等全过程的信息进行核对验证,最后生成泄密证据链。
实施例1
如表1所示,为某市辖区内企业单位用电量的统计数据,该统计数据有当地供电部门定期进行统计汇总:
表1
Figure 24221DEST_PATH_IMAGE001
为便于当地各职能部门对各企业单位进行及时的管理,需要将统计完成的数据在多个职能部门之间进行共享,该数据在进行共享的过程共在A局、B局、C局等多个职能单位之间进行了共享,在这共享过程中,数据库会自动记录过程信息如表2所示:
表2
Figure 216168DEST_PATH_IMAGE002
通过本申请的文字混淆标记算法对上述电量统计数据共享过程的处理过程为:
步骤一:在电量统计数据库(表1)中选取文字字段,选取的文字字段为用户类别和行业分类两项;
步骤二:从系统数据库中提取表2所示的数据共享过程中的在单位部门之间交付、流转、操作的部门信息、操作人员信息和操作时间信息,如:提取交付部门A局数据19,提取操作人员王某某数据3,提取操作日期数据2021年05月08日,提取操作时间数据11时16分;
步骤三:将步骤二的各项数据进行类结构变换,统一数据类型,将交付部门A局信息转化为19,操作人员王某某信息转化为3,操作日期2021年05月08日转化为210508,操作时间信息11时16分转化为11.16;
步骤四:将步骤三的多组项目数据进行数组重构变换,合并多项数据,交付部门与操作人员数据合并为193,操作日期与操作时间数据合并为21050811.16;
步骤五:对步骤四的数据进行控制混淆,增加程序及数据的复杂性,可建立多种混淆规则,随机使用,如对步骤四193数据的第2位与第3位之间加85,得到19853,在步骤四21050811.16的个位末尾加39,即得到2105081139.16;
步骤六:使用SM4分组运算对称算法将步骤五的数据进行混淆计算,将步骤五的两组数据19853、2105081139.16进行SM4分组运算得出二进制值,即表3第一行标识转化值:3C93AE4F009C5F381;
步骤七:使用词法变换原理将步骤六混淆运算的结果进行转换,词法变换即使用预先设定好的词表对数值进行替代,如将表3第一行标识转化数组前4位3C93设定为B,AE4F设定为R,009C设定为A,5F38设定为E,即表4第一行BRAE;
步骤八:将词法变换后的结果生成数字水印数组,结果如表3所示:
表3
Figure 827278DEST_PATH_IMAGE003
步骤九:将如表3形成的数字水印数组拆分,按步骤一所选文字字段串插写入数据库中。结果如表4所示:
表4
Figure 476171DEST_PATH_IMAGE004
该数字水印串插回写完毕后会与数据本身结合,在数据泄露后,可以提取泄露的数据中的数字水印,经过数据处理过程中应用的反向算法进行反向计算,便可推导出数据泄露是出现在哪个环节。
上述内容仅为本发明创造的一个简单的实施例而已,不能以此限定本发明创造的实施范围,即凡是依本发明创造权利要求及发明创造说明内容所做出的简单的等效变化与修饰,皆仍属于本发明创造涵盖的范围。

Claims (6)

1.一种文字混淆标记算法,其特征在于,所述文字混淆标记算法的具体步骤为:
步骤一:在数据库中选中文字字段;
步骤二:从系统数据库中提取记录的数据共享过程中的交付、流转、操作的全部各项信息;
步骤三:将步骤二的各项数据进行类结构变换,统一数据类型;
步骤四:将步骤三的多组项目数据进行数组重构变换,合并多项数据;
步骤五:对步骤四的多项数据进行控制混淆,增加程序及数据的复杂性;
步骤六:使用对称算法将步骤五的多项数据进行混淆计算;
步骤七:使用词法变换原理将步骤六混淆运算的结果进行转换;
步骤八:将词法变换后的结果生成数字水印数组,所述数字水印数组为非图像化数字水印;
步骤九:将数字水印数组拆分,按步骤一所选文字字段串插写入数据库中,所述数字水印数组与文字数据结合出现在数据库中;
步骤十:如发生数据泄密事件,提取泄密数据中的数字水印进行反向计算,反推泄密节点。
2.根据权利要求1所述的一种文字混淆标记算法,其特征在于,所述步骤一中选中的文字字段的数量为2的倍数。
3.根据权利要求2所述的一种文字混淆标记算法,其特征在于,所述步骤六中使用SM4分组运算对数据进行混淆计算。
4.根据权利要求3所述的一种文字混淆标记算法,其特征在于,所述步骤十的具体过程为发生数据泄密事件,提取泄密数据中的数字水印,使用混淆标记过程的算法进行反向计算,将反向计算得出的数据共享过程信息结果与数据库中记录的过程信息进行核对验证,核对无误后生成泄密证据链。
5.根据权利要求4所述的一种文字混淆标记算法,其特征在于,所述记录的数据共享过程信息包括数据交付、流转、操作过程中所涉及的所有的时间、人员、部门信息。
6.根据权利要求5所述的一种文字混淆标记算法,其特征在于,应用于数据防泄密系统中。
CN202111545560.1A 2021-12-17 2021-12-17 一种文字混淆标记算法 Active CN113934991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111545560.1A CN113934991B (zh) 2021-12-17 2021-12-17 一种文字混淆标记算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111545560.1A CN113934991B (zh) 2021-12-17 2021-12-17 一种文字混淆标记算法

Publications (2)

Publication Number Publication Date
CN113934991A CN113934991A (zh) 2022-01-14
CN113934991B true CN113934991B (zh) 2022-03-11

Family

ID=79289356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111545560.1A Active CN113934991B (zh) 2021-12-17 2021-12-17 一种文字混淆标记算法

Country Status (1)

Country Link
CN (1) CN113934991B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486309A (zh) * 2021-07-20 2021-10-08 阳光电源股份有限公司 技术文档的处理方法、数字水印服务器及处理系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070021196A1 (en) * 2005-07-19 2007-01-25 Campbell Steven M Watermarking downloadable game content in a gaming system
CN106803047A (zh) * 2017-01-13 2017-06-06 中国电建集团成都勘测设计研究院有限公司 数据库水印标记方法
CN107992726B (zh) * 2017-11-29 2021-04-30 北京安华金和科技有限公司 一种基于伪行伪列的水印处理和数据溯源方法
CN109992936B (zh) * 2017-12-31 2021-06-08 中国移动通信集团河北有限公司 基于数据水印的数据溯源方法、装置、设备及介质
CN109614776B (zh) * 2018-12-27 2020-09-22 北京三未信安科技发展有限公司 一种基于数字水印技术的数据溯源方法及系统
CN110222479A (zh) * 2019-05-24 2019-09-10 杭州世平信息科技有限公司 一种对文本型数据进行溯源的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486309A (zh) * 2021-07-20 2021-10-08 阳光电源股份有限公司 技术文档的处理方法、数字水印服务器及处理系统

Also Published As

Publication number Publication date
CN113934991A (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
US9514330B2 (en) Meta-complete data storage
CN108629564B (zh) 一种基于区块链技术的大型工程管理系统及方法
CN105512523B (zh) 一种匿名化的数字水印嵌入和提取方法
CN113158233B (zh) 数据预处理方法、装置及计算机存储介质
CN108829899B (zh) 数据表储存、修改、查询和统计方法
CN109840401A (zh) 针对数据文本的水印嵌入方法
CN112541196A (zh) 一种动态数据脱敏方法和系统
CN113934991B (zh) 一种文字混淆标记算法
CN114625764A (zh) 基于混合引擎的大数据处理系统与方法
Dasu et al. Empirical glitch explanations
Kamel et al. Toward protecting the integrity of relational databases
Tiwari et al. A novel watermarking scheme for secure relational databases
CN115270162B (zh) 基于多方计算的审计审价异构数据在线整合方法及系统
Su et al. Analysis on the Impact of Blockchain Technology on the Accounting Profession
CN113934992B (zh) 一种数字混淆标记算法
Vaidya et al. Data Leakage Detection and Security in Cloud Computing
Vershinin et al. Associative steganography of text messages
CN110909375B (zh) 一种保留分布特征的地址脱敏方法
CN102436599A (zh) 基于级联式定密信息同步处理系统的定密信息核算方法
CN113935060B (zh) 一种抗碰撞混淆标记算法
AT&T
Qingbin et al. Research on Application of Blockchain Technology in Airport Aviation Security
El Hamzaoui et al. CRUSCom model: a new theoretical model to trace the evolution line of information within the enterprise environment
CN102495881A (zh) 基于基因字的文档处理方法及装置
Aleksieva-Petrova et al. Three-Layer Model for Learner Data Anonymization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant