CN113609506B - 基于nlp技术的文本数字水印篡改监测方法 - Google Patents

基于nlp技术的文本数字水印篡改监测方法 Download PDF

Info

Publication number
CN113609506B
CN113609506B CN202110941024.7A CN202110941024A CN113609506B CN 113609506 B CN113609506 B CN 113609506B CN 202110941024 A CN202110941024 A CN 202110941024A CN 113609506 B CN113609506 B CN 113609506B
Authority
CN
China
Prior art keywords
binary
digital watermark
sequence
text
watermark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110941024.7A
Other languages
English (en)
Other versions
CN113609506A (zh
Inventor
郭丽娜
请求不公布姓名
车文彬
李晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shurui Data Technology Co ltd
Original Assignee
Nanjing Shurui Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shurui Data Technology Co ltd filed Critical Nanjing Shurui Data Technology Co ltd
Priority to CN202110941024.7A priority Critical patent/CN113609506B/zh
Publication of CN113609506A publication Critical patent/CN113609506A/zh
Application granted granted Critical
Publication of CN113609506B publication Critical patent/CN113609506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明主要涉及通信加密的技术领域,具体提供了基于NLP技术的文本数字水印篡改监测方法,包括数字水印嵌入方法和数字水印解码方法,数字水印嵌入方法包括:利用编码器将数字水印转为二进制水印序列,利用NLP分词技术获取可嵌入位置,对可嵌入位置进行编码操作,异或运算得到二进制嵌入序列以及对原始文本进行遍历操作,数字水印解码方法包括:利用NLP分词技术获取新可嵌入位置,对新可嵌入位置进行编码操作,得到加密二进制水印以及对比每组加密二进制水印是否一致,本发明对于网络传输后的文件,可以提取水印信息并完成自动解码,无需人工参与且无需原始文本,还可以实现非法篡改人员信息提取。

Description

基于NLP技术的文本数字水印篡改监测方法
技术领域
本发明主要涉及通信加密的技术领域,具体涉及基于NLP技术的文本数字水印篡改监测方法。
背景技术
现今互联网已经成为人们信息获取和信息交流不可或缺的工具,人们能通过互联网发布自己的作品,传递重要信息等。
然而,它在给人们带来便利的同时也暴露出越来越严重的安全问题,重要文本(如合同)在传输过程中容易被有意或无意篡改,现有技术中,往往通过比对的方式,检测是否发生篡改,该方式简单,但比对需要人工参与,人力成本较大,同时需要已知并保留原始文本,占用内存资源,因此现在亟需一种方法能自动监测本文是否被篡改,同时无需原始文本。
发明内容
本发明主要提供了基于NLP技术的文本数字水印篡改监测方法,用以解决上述背景技术中提出的技术问题。
本发明解决上述技术问题采用的技术方案为:
基于NLP技术的文本数字水印篡改监测方法,包括数字水印嵌入方法和数字水印解码方法;其中,所述数字水印嵌入方法包括:利用NLP分词技术对原始文本进行切词及词性分析,结合高频字及其隐现规则获取可嵌入位置;对所述可嵌入位置进行编码操作,得到二进制文本序列;对所述二进制文本序列和所述二进制水印序列进行异或运算得到二进制嵌入序列;以及根据所述二进制嵌入序列对所述原始文本进行遍历操作,即修改所述高频字或保持所述原始文本不变;所述数字水印解码方法包括:利用NLP分词技术对水印文本进行切词及词性分析,结合所述高频字及所述隐现规则获取新可嵌入位置;对所述新可嵌入位置进行编码操作,得到新二进制文本序列;对所述新二进制文本序列采用多数选举机制得到加密二进制水印;以及对比每组所述加密二进制水印是否一致。
优选的,所述二进制水印序列由数字水印利用编码器转化而成。
优选的,还包括对数字水印的加密步骤,所述加密步骤包括:将作为秘钥加入混沌序列生成器生成混沌序列;通过量化运算将所述混沌序列转换为二进制加密序列;以及将所述二进制加密序列和利用编码器转化数字水印得到的结果进行异或运算得到所述二进制水印序列。
优选的,所述混沌序列生成器为Logistic混沌序列生成器,定义为:
优选的,所述量化运算定义为:
优选的,所述NLP分词技术采用最短路分词算法。
优选的,所述高频字为汉字“的”字;所述隐现规则包括:形容词+“的”+名词,“的”字可删除;形容词+名词,中间可添加“的”字;形容词+形容词+“的”+名词,“的”字不可删除;代词+“的”+名词,“的”字可删除;以及代词+名词,中间可添加“的”字。
优选的,所述编码操作包括:在可嵌水印位置分别统计前后字数;以及根据字数的奇偶性进行二进制编码。
优选的,所述数字水印解码方法还包括:对所述二进制加密序列和所述加密二进制水印进行异或运算得到新二进制水印序列;以及利用解码器将所述新二进制水印序列转为新数字水印。
优选的,所述遍历操作为根据所述二进制嵌入序列是否为“1”,增删“的”字或是保持所述原始文本不变。
与现有技术相比,本发明的有益效果为:本发明提供的基于NLP技术的文本数字水印篡改监测方法对于网络传输后的文件,可以提取水印信息并完成自动解码,无需人工参与且无需原始文本,同时,还可以实现非法篡改人员信息提取,本发明的数字水印隐蔽性达100%,文本完整性达100%。
以下将结合附图与具体的实施例对本发明进行详细的解释说明。
附图说明
图1为本发明的数字水印嵌入方法流程图;
图2为本发明的数字水印解码方法流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更加全面的描述,附图中给出了本发明的若干实施例,但是本发明可以通过不同的形式来实现,并不限于文本所描述的实施例,相反的,提供这些实施例是为了使对本发明公开的内容更加透彻全面。
请参照附图1和2,本发明提供了基于NLP技术的文本数字水印篡改监测方法,包括数字水印嵌入方法和数字水印解码方法,具体的数字水印嵌入方法包括:利用NLP分词技术对原始文本进行切词及词性分析,结合高频字及其隐现规则获取可嵌入位置,然后对可嵌入位置进行编码操作,得到二进制文本序列,然后对二进制文本序列和二进制水印序列进行异或运算得到二进制嵌入序列,最后根据二进制嵌入序列对原始文本进行遍历操作,即修改高频字或保持原始文本不变;其中,选择高频字是为了保证有更多可嵌入位置以供选择,从而便于在可嵌入位置加密及后续操作,具体高频字的选择及其隐现规则本领域技术人员可以根据实际情况自行选择,能实现上述提到的功能即可,另外,遍历操作中,根据二进制嵌入序列中的每个“1”或“0”对高频字进行修改或保持原始文本不变,而修改指的是对高频字的增删操作,同样的本领域技术人员可以根据实际情况自行选择,能实现上述提到的功能即可。
数字水印解码方法包括:利用NLP分词技术对水印文本进行切词及词性分析,结合高频字及隐现规则获取新可嵌入位置,同时对新可嵌入位置进行编码操作,得到新二进制文本序列,最后对新二进制文本序列采用多数选举机制得到加密二进制水印并对比每组加密二进制水印是否一致,其中,高频字及其隐现规则需事先约定并提供,对新二进制文本序列采用多数选举机制时,具体的,是根据水印多次嵌入及最大长度限制而采用,而对比每组加密二进制水印是否一致时,若每个二进制编码序列均一致,则说明文档未被篡改,否则,说明文档已发生篡改。
本发明提供的基于NLP技术的文本数字水印篡改监测方法,文本传输前,先利用数字水印嵌入方法对待传输文本进行数字水印嵌入,文本传输后,利用数字水印解码方法对接收到的文本进行数字水印解码,整个解码过程自动,无需人工参与且无需原始文本,同时,数字水印隐蔽性及文本完整性极高,适于实用,值得推广。
考虑到二进制水印序列的具体实现,在上述实施例的基础上,本发明再提供一个优选的技术方案,二进制水印序列由数字水印利用编码器转化而成,其中,数字水印可以是文字,也可以是数字,或者是其排列组合。
考虑到提高数字水印的破解难度,在上述实施例的基础上,本发明再提供一个优选的技术方案,还包括对数字水印的加密步骤,加密步骤包括:将作为秘钥加入混沌序列生成器生成混沌序列,然后通过量化运算将混沌序列转换为二进制加密序列,最后将二进制加密序列和利用编码器转化数字水印得到的结果进行异或运算得到二进制水印序列,该二进制水印序列将参与后续的步骤,需要说明的是,上述提到的加密步骤在数字水印嵌入和数字水印解码中各需要使用一次,鉴于数字水印解码中的使用,/>及混沌序列生成器需事先约定并提供,加密步骤及其中混沌序列的选择是因为混沌序列为非周期序列,对初始值微小变化具有极高敏感依赖性,可大大增加水印破解难度。
考虑到混沌序列生成器的具体实现,在上述实施例的基础上,本发明再提供一个优选的技术方案,混沌序列生成器为Logistic混沌序列生成器,定义为:
,该混沌序列生成器产生的混沌序列均在0至1之间,便于后续的量化运算。
考虑到量化运算的具体实现,在上述实施例的基础上,本发明再提供一个优选的技术方案,量化运算定义为:,量化运算后的结果即为二进制加密序列。
考虑到NLP分词技术的具体实现,在上述实施例的基础上,本发明再提供一个优选的技术方案,NLP分词技术采用最短路分词算法,首先生成词网和词图得到粗分词网,经viterbi分词器找最短路径和人工干预分词后即可得到分词结果。
考虑到高频字及其隐现规则的具体实现,在上述实施例的基础上,本发明再提供一个优选的技术方案,高频字为汉字“的”字,由于“的”字在文本中出现与否有时会直接影响文本的含义,需要在嵌入水印前对文本词性进行判别,通过预先设定的“的”字隐现规则嵌入水印,隐现规则包括:形容词+“的”+名词,“的”字可删除;形容词+名词,中间可添加“的”字;形容词+形容词+“的”+名词,“的”字不可删除;代词+“的”+名词,“的”字可删除以及代词+名词,中间可添加“的”字,一篇文档中常用字使用频率很高,覆盖率约占整篇文档的99%,出现最多的是“的”字,出现比例高达5%,且使用灵活,因此通过使用“的”字隐现规律,删减或增加“的”字可以实现数字水印的嵌入。
考虑到编码操作的具体实现,在上述实施例的基础上,本发明再提供一个优选的技术方案,编码操作包括:在可嵌水印位置分别统计前后字数以及根据字数的奇偶性进行二进制编码,示例如下,设定奇数编码为“1”,偶数编码为“0”,对于“我们的家在河北”,高频字为“的”字时,“的”字前后字数分别3和4(其中“的”参与前面计数),则二进制编码为“10”,当然了,对于奇偶数编码的选择及高频字的参与规则本领域技术人员可以根据实际情况自行选择,能实现上述提到的功能即可。
考虑到在文本遭到篡改时可以提取非法篡改人员信息,在上述实施例的基础上,本发明再提供一个优选的技术方案,数字水印解码方法还包括:对二进制加密序列和加密二进制水印进行异或运算得到新二进制水印序列以及利用解码器将新二进制水印序列转为新数字水印,最后根据新数字水印即可提取非法篡改人员信息。
考虑到高频字为“的”字时,遍历操作的具体实现,在上述实施例的基础上,本发明再提供一个优选的技术方案,遍历操作为根据二进制嵌入序列是否为“1”,增删“的”字或是保持原始文本不变,具体的,若生成的二进制序列为“1”,则修改原文本内容,即若原文本中无“的”,在该位置添加,若存在则删除,当然了,对于增删或是修改规则本领域技术人员可以根据实际情况自行选择,能实现上述提到的功能即可。
本发明可用于众多通用或专用的计算系统环境或配置中,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块,一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素,在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常连接的含义相同,本文中在本发明的说明书中所使用的术语知识为了描述具体的实施例的目的,不是旨在于限制本发明,本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.基于NLP技术的文本数字水印篡改监测方法,其特征在于,包括数字水印嵌入方法和数字水印解码方法;
其中,所述数字水印嵌入方法包括:
利用NLP分词技术对原始文本进行切词及词性分析,结合高频字及其隐现规则获取可嵌入位置;
对所述可嵌入位置进行编码操作,得到二进制文本序列;
还包括对数字水印的加密步骤,所述加密步骤包括:
将作为秘钥加入混沌序列生成器生成混沌序列;
通过量化运算将所述混沌序列转换为二进制加密序列;以及
将所述二进制加密序列和利用编码器转化数字水印得到的结果进行异或运算得到所述二进制水印序列;
对所述二进制文本序列和二进制水印序列进行异或运算得到二进制嵌入序列;以及
根据所述二进制嵌入序列对所述原始文本进行遍历操作,即修改所述高频字或保持所述原始文本不变;
所述遍历操作为根据所述二进制嵌入序列是否为“1”,进而判断是否增删“高频词”字或是保持所述原始文本不变;
所述数字水印解码方法包括:
利用NLP分词技术对水印文本进行切词及词性分析,结合所述高频字及所述隐现规则获取新可嵌入位置;
对所述新可嵌入位置进行编码操作,得到新二进制文本序列;
对所述新二进制文本序列采用多数选举机制得到加密二进制水印;以及
对比每组所述加密二进制水印与二进制水印序列是否一致。
2.根据权利要求1所述的基于NLP技术的文本数字水印篡改监测方法,其特征在于,所述二进制水印序列由数字水印利用编码器转化而成。
3.根据权利要求1所述的基于NLP技术的文本数字水印篡改监测方法,其特征在于,所述混沌序列生成器为Logistic混沌序列生成器,定义为:
4.根据权利要求3所述的基于NLP技术的文本数字水印篡改监测方法,其特征在于,所述量化运算定义为:
5.根据权利要求1至4中任一项所述的基于NLP技术的文本数字水印篡改监测方法,其特征在于,所述NLP分词技术采用最短路分词算法。
6.根据权利要求5所述的基于NLP技术的文本数字水印篡改监测方法,其特征在于,所述高频字为汉字“的”字;
所述隐现规则包括:
形容词+“的”+名词,“的”字可删除;
形容词+名词,中间可添加“的”字;
形容词+形容词+“的”+名词,“的”字不可删除;
代词+“的”+名词,“的”字可删除;以及
代词+名词,中间可添加“的”字。
7.根据权利要求1所述的基于NLP技术的文本数字水印篡改监测方法,其特征在于,所述编码操作包括:
在可嵌水印位置分别统计前后字数;以及
根据字数的奇偶性进行二进制编码。
8.根据权利要求3所述的基于NLP技术的文本数字水印篡改监测方法,其特征在于,所述数字水印解码方法还包括:
对所述二进制加密序列和所述加密二进制水印进行异或运算得到新二进制水印序列;以及
利用解码器将所述新二进制水印序列转为新数字水印。
CN202110941024.7A 2021-08-17 2021-08-17 基于nlp技术的文本数字水印篡改监测方法 Active CN113609506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110941024.7A CN113609506B (zh) 2021-08-17 2021-08-17 基于nlp技术的文本数字水印篡改监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110941024.7A CN113609506B (zh) 2021-08-17 2021-08-17 基于nlp技术的文本数字水印篡改监测方法

Publications (2)

Publication Number Publication Date
CN113609506A CN113609506A (zh) 2021-11-05
CN113609506B true CN113609506B (zh) 2023-12-08

Family

ID=78308785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110941024.7A Active CN113609506B (zh) 2021-08-17 2021-08-17 基于nlp技术的文本数字水印篡改监测方法

Country Status (1)

Country Link
CN (1) CN113609506B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077165B (zh) * 2023-08-11 2024-04-12 湖南启承信息科技有限公司 一种知识产权信息加密管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101389009A (zh) * 2007-09-14 2009-03-18 华为技术有限公司 一种水印信息的嵌入、检测方法及装置
CN105303075A (zh) * 2015-06-18 2016-02-03 上海出版印刷高等专科学校 基于pdf格式的自适应文本水印方法
CN107578366A (zh) * 2017-09-18 2018-01-12 南京师范大学 一种水印信息的嵌入、检测方法及装置
CN111935547A (zh) * 2020-08-18 2020-11-13 湖南快乐阳光互动娱乐传媒有限公司 一种可追踪的加密直播方法及系统
CN113190866A (zh) * 2021-05-26 2021-07-30 江苏方天电力技术有限公司 一种增强数字水印技术的电厂数据安全可信传输方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2605536A1 (en) * 2011-12-13 2013-06-19 Thomson Licensing Device for generating watermark metadata, associated device for embedding watermark

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101389009A (zh) * 2007-09-14 2009-03-18 华为技术有限公司 一种水印信息的嵌入、检测方法及装置
CN105303075A (zh) * 2015-06-18 2016-02-03 上海出版印刷高等专科学校 基于pdf格式的自适应文本水印方法
CN107578366A (zh) * 2017-09-18 2018-01-12 南京师范大学 一种水印信息的嵌入、检测方法及装置
CN111935547A (zh) * 2020-08-18 2020-11-13 湖南快乐阳光互动娱乐传媒有限公司 一种可追踪的加密直播方法及系统
CN113190866A (zh) * 2021-05-26 2021-07-30 江苏方天电力技术有限公司 一种增强数字水印技术的电厂数据安全可信传输方法

Also Published As

Publication number Publication date
CN113609506A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
Ahvanooey et al. ANiTW: A novel intelligent text watermarking technique for forensic identification of spurious information on social media
Satir et al. A Huffman compression based text steganography method
Yang et al. Automatically generate steganographic text based on Markov model and Huffman coding
CN101957810A (zh) 利用计算机系统在文档中嵌入及检测水印的方法和装置
CN108683491B (zh) 一种基于加密和自然语言生成的信息隐藏方法
Changder et al. Linguistic approach for text steganography through Indian text
Hamdan et al. AH4S: an algorithm of text in text steganography using the structure of omega network
Yari et al. An overview and computer forensic challenges in image steganography
Kumar et al. A space based reversible high capacity text steganography scheme using font type and style
Wang et al. A novel text steganography by context-based equivalent substitution
Xin et al. An adaptive audio steganography for covert wireless communication
CN113609506B (zh) 基于nlp技术的文本数字水印篡改监测方法
Yi et al. ALiSa: Acrostic linguistic steganography based on BERT and Gibbs sampling
Zheng et al. Autoregressive linguistic steganography based on BERT and consistency coding
Changder et al. LCS based text steganography through Indian languages
Alsaadi et al. Text steganography in font color of MS excel sheet
KR20140140928A (ko) 워터마크 삽입 방법, 장치 및 시스템, 워터마크 검출 방법 및 장치, 및 디지털 문서 보호 시스템
Kaushik et al. Zero-width text steganography in cybercrime attacks
Ghilan et al. Combined Markov model and zero watermarking techniques to enhance content authentication of english text documents
Changder et al. Text steganography through Indian languages using feature coding method
Yin et al. MDE‐based image steganography with large embedding capacity
Wu et al. Authentication of LINE chat history files by information hiding
Saniei et al. The Security of Arithmetic Compression Based Text Steganography Method
Saniei et al. The capacity of arithmetic compression based text steganography method
Dai et al. BinText steganography based on Markov state transferring probability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant