CN113609506B

CN113609506B - 基于nlp技术的文本数字水印篡改监测方法

Info

Publication number: CN113609506B
Application number: CN202110941024.7A
Authority: CN
Inventors: 郭丽娜; 请求不公布姓名; 车文彬; 李晓明
Original assignee: Nanjing Shurui Data Technology Co ltd
Current assignee: Nanjing Shurui Data Technology Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-12-08
Anticipated expiration: 2041-08-17
Also published as: CN113609506A

Abstract

本发明主要涉及通信加密的技术领域，具体提供了基于NLP技术的文本数字水印篡改监测方法，包括数字水印嵌入方法和数字水印解码方法，数字水印嵌入方法包括：利用编码器将数字水印转为二进制水印序列，利用NLP分词技术获取可嵌入位置，对可嵌入位置进行编码操作，异或运算得到二进制嵌入序列以及对原始文本进行遍历操作，数字水印解码方法包括：利用NLP分词技术获取新可嵌入位置，对新可嵌入位置进行编码操作，得到加密二进制水印以及对比每组加密二进制水印是否一致，本发明对于网络传输后的文件，可以提取水印信息并完成自动解码，无需人工参与且无需原始文本，还可以实现非法篡改人员信息提取。

Description

基于NLP技术的文本数字水印篡改监测方法

技术领域

本发明主要涉及通信加密的技术领域，具体涉及基于NLP技术的文本数字水印篡改监测方法。

背景技术

现今互联网已经成为人们信息获取和信息交流不可或缺的工具，人们能通过互联网发布自己的作品，传递重要信息等。

然而，它在给人们带来便利的同时也暴露出越来越严重的安全问题，重要文本（如合同）在传输过程中容易被有意或无意篡改，现有技术中，往往通过比对的方式，检测是否发生篡改，该方式简单，但比对需要人工参与，人力成本较大，同时需要已知并保留原始文本，占用内存资源，因此现在亟需一种方法能自动监测本文是否被篡改，同时无需原始文本。

发明内容

本发明主要提供了基于NLP技术的文本数字水印篡改监测方法，用以解决上述背景技术中提出的技术问题。

本发明解决上述技术问题采用的技术方案为：

基于NLP技术的文本数字水印篡改监测方法，包括数字水印嵌入方法和数字水印解码方法；其中，所述数字水印嵌入方法包括：利用NLP分词技术对原始文本进行切词及词性分析，结合高频字及其隐现规则获取可嵌入位置；对所述可嵌入位置进行编码操作，得到二进制文本序列；对所述二进制文本序列和所述二进制水印序列进行异或运算得到二进制嵌入序列；以及根据所述二进制嵌入序列对所述原始文本进行遍历操作，即修改所述高频字或保持所述原始文本不变；所述数字水印解码方法包括：利用NLP分词技术对水印文本进行切词及词性分析，结合所述高频字及所述隐现规则获取新可嵌入位置；对所述新可嵌入位置进行编码操作，得到新二进制文本序列；对所述新二进制文本序列采用多数选举机制得到加密二进制水印；以及对比每组所述加密二进制水印是否一致。

优选的，所述二进制水印序列由数字水印利用编码器转化而成。

优选的，还包括对数字水印的加密步骤，所述加密步骤包括：将作为秘钥加入混沌序列生成器生成混沌序列；通过量化运算将所述混沌序列转换为二进制加密序列；以及将所述二进制加密序列和利用编码器转化数字水印得到的结果进行异或运算得到所述二进制水印序列。

优选的，所述混沌序列生成器为Logistic混沌序列生成器，定义为：

。

优选的，所述量化运算定义为：。

优选的，所述NLP分词技术采用最短路分词算法。

优选的，所述高频字为汉字“的”字；所述隐现规则包括：形容词+“的”+名词，“的”字可删除；形容词+名词，中间可添加“的”字；形容词+形容词+“的”+名词，“的”字不可删除；代词+“的”+名词，“的”字可删除；以及代词+名词，中间可添加“的”字。

优选的，所述编码操作包括：在可嵌水印位置分别统计前后字数；以及根据字数的奇偶性进行二进制编码。

优选的，所述数字水印解码方法还包括：对所述二进制加密序列和所述加密二进制水印进行异或运算得到新二进制水印序列；以及利用解码器将所述新二进制水印序列转为新数字水印。

优选的，所述遍历操作为根据所述二进制嵌入序列是否为“1”，增删“的”字或是保持所述原始文本不变。

与现有技术相比，本发明的有益效果为：本发明提供的基于NLP技术的文本数字水印篡改监测方法对于网络传输后的文件，可以提取水印信息并完成自动解码，无需人工参与且无需原始文本，同时，还可以实现非法篡改人员信息提取，本发明的数字水印隐蔽性达100%，文本完整性达100%。

以下将结合附图与具体的实施例对本发明进行详细的解释说明。

附图说明

图1为本发明的数字水印嵌入方法流程图；

图2为本发明的数字水印解码方法流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更加全面的描述，附图中给出了本发明的若干实施例，但是本发明可以通过不同的形式来实现，并不限于文本所描述的实施例，相反的，提供这些实施例是为了使对本发明公开的内容更加透彻全面。

请参照附图1和2，本发明提供了基于NLP技术的文本数字水印篡改监测方法，包括数字水印嵌入方法和数字水印解码方法，具体的数字水印嵌入方法包括：利用NLP分词技术对原始文本进行切词及词性分析，结合高频字及其隐现规则获取可嵌入位置，然后对可嵌入位置进行编码操作，得到二进制文本序列，然后对二进制文本序列和二进制水印序列进行异或运算得到二进制嵌入序列，最后根据二进制嵌入序列对原始文本进行遍历操作，即修改高频字或保持原始文本不变；其中，选择高频字是为了保证有更多可嵌入位置以供选择，从而便于在可嵌入位置加密及后续操作，具体高频字的选择及其隐现规则本领域技术人员可以根据实际情况自行选择，能实现上述提到的功能即可，另外，遍历操作中，根据二进制嵌入序列中的每个“1”或“0”对高频字进行修改或保持原始文本不变，而修改指的是对高频字的增删操作，同样的本领域技术人员可以根据实际情况自行选择，能实现上述提到的功能即可。

数字水印解码方法包括：利用NLP分词技术对水印文本进行切词及词性分析，结合高频字及隐现规则获取新可嵌入位置，同时对新可嵌入位置进行编码操作，得到新二进制文本序列，最后对新二进制文本序列采用多数选举机制得到加密二进制水印并对比每组加密二进制水印是否一致，其中，高频字及其隐现规则需事先约定并提供，对新二进制文本序列采用多数选举机制时，具体的，是根据水印多次嵌入及最大长度限制而采用，而对比每组加密二进制水印是否一致时，若每个二进制编码序列均一致，则说明文档未被篡改，否则，说明文档已发生篡改。

本发明提供的基于NLP技术的文本数字水印篡改监测方法，文本传输前，先利用数字水印嵌入方法对待传输文本进行数字水印嵌入，文本传输后，利用数字水印解码方法对接收到的文本进行数字水印解码，整个解码过程自动，无需人工参与且无需原始文本，同时，数字水印隐蔽性及文本完整性极高，适于实用，值得推广。

考虑到二进制水印序列的具体实现，在上述实施例的基础上，本发明再提供一个优选的技术方案，二进制水印序列由数字水印利用编码器转化而成，其中，数字水印可以是文字，也可以是数字，或者是其排列组合。

考虑到提高数字水印的破解难度，在上述实施例的基础上，本发明再提供一个优选的技术方案，还包括对数字水印的加密步骤，加密步骤包括：将作为秘钥加入混沌序列生成器生成混沌序列，然后通过量化运算将混沌序列转换为二进制加密序列，最后将二进制加密序列和利用编码器转化数字水印得到的结果进行异或运算得到二进制水印序列，该二进制水印序列将参与后续的步骤，需要说明的是，上述提到的加密步骤在数字水印嵌入和数字水印解码中各需要使用一次，鉴于数字水印解码中的使用，/>及混沌序列生成器需事先约定并提供，加密步骤及其中混沌序列的选择是因为混沌序列为非周期序列，对初始值微小变化具有极高敏感依赖性，可大大增加水印破解难度。

考虑到混沌序列生成器的具体实现，在上述实施例的基础上，本发明再提供一个优选的技术方案，混沌序列生成器为Logistic混沌序列生成器，定义为：

，该混沌序列生成器产生的混沌序列均在0至1之间，便于后续的量化运算。

考虑到量化运算的具体实现，在上述实施例的基础上，本发明再提供一个优选的技术方案，量化运算定义为：，量化运算后的结果即为二进制加密序列。

考虑到NLP分词技术的具体实现，在上述实施例的基础上，本发明再提供一个优选的技术方案，NLP分词技术采用最短路分词算法，首先生成词网和词图得到粗分词网，经viterbi分词器找最短路径和人工干预分词后即可得到分词结果。

考虑到高频字及其隐现规则的具体实现，在上述实施例的基础上，本发明再提供一个优选的技术方案，高频字为汉字“的”字，由于“的”字在文本中出现与否有时会直接影响文本的含义，需要在嵌入水印前对文本词性进行判别，通过预先设定的“的”字隐现规则嵌入水印，隐现规则包括：形容词+“的”+名词，“的”字可删除；形容词+名词，中间可添加“的”字；形容词+形容词+“的”+名词，“的”字不可删除；代词+“的”+名词，“的”字可删除以及代词+名词，中间可添加“的”字，一篇文档中常用字使用频率很高，覆盖率约占整篇文档的99%，出现最多的是“的”字，出现比例高达5%，且使用灵活，因此通过使用“的”字隐现规律，删减或增加“的”字可以实现数字水印的嵌入。

考虑到编码操作的具体实现，在上述实施例的基础上，本发明再提供一个优选的技术方案，编码操作包括：在可嵌水印位置分别统计前后字数以及根据字数的奇偶性进行二进制编码，示例如下，设定奇数编码为“1”，偶数编码为“0”，对于“我们的家在河北”，高频字为“的”字时，“的”字前后字数分别3和4（其中“的”参与前面计数），则二进制编码为“10”，当然了，对于奇偶数编码的选择及高频字的参与规则本领域技术人员可以根据实际情况自行选择，能实现上述提到的功能即可。

考虑到在文本遭到篡改时可以提取非法篡改人员信息，在上述实施例的基础上，本发明再提供一个优选的技术方案，数字水印解码方法还包括：对二进制加密序列和加密二进制水印进行异或运算得到新二进制水印序列以及利用解码器将新二进制水印序列转为新数字水印，最后根据新数字水印即可提取非法篡改人员信息。

考虑到高频字为“的”字时，遍历操作的具体实现，在上述实施例的基础上，本发明再提供一个优选的技术方案，遍历操作为根据二进制嵌入序列是否为“1”，增删“的”字或是保持原始文本不变，具体的，若生成的二进制序列为“1”，则修改原文本内容，即若原文本中无“的”，在该位置添加，若存在则删除，当然了，对于增删或是修改规则本领域技术人员可以根据实际情况自行选择，能实现上述提到的功能即可。

本发明可用于众多通用或专用的计算系统环境或配置中，例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块，一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素，在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常连接的含义相同，本文中在本发明的说明书中所使用的术语知识为了描述具体的实施例的目的，不是旨在于限制本发明，本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.基于NLP技术的文本数字水印篡改监测方法，其特征在于，包括数字水印嵌入方法和数字水印解码方法；

其中，所述数字水印嵌入方法包括：

利用NLP分词技术对原始文本进行切词及词性分析，结合高频字及其隐现规则获取可嵌入位置；

对所述可嵌入位置进行编码操作，得到二进制文本序列；

还包括对数字水印的加密步骤，所述加密步骤包括：

将作为秘钥加入混沌序列生成器生成混沌序列；

通过量化运算将所述混沌序列转换为二进制加密序列；以及

将所述二进制加密序列和利用编码器转化数字水印得到的结果进行异或运算得到所述二进制水印序列；

对所述二进制文本序列和二进制水印序列进行异或运算得到二进制嵌入序列；以及

根据所述二进制嵌入序列对所述原始文本进行遍历操作，即修改所述高频字或保持所述原始文本不变；

所述遍历操作为根据所述二进制嵌入序列是否为“1”，进而判断是否增删“高频词”字或是保持所述原始文本不变；

所述数字水印解码方法包括：

利用NLP分词技术对水印文本进行切词及词性分析，结合所述高频字及所述隐现规则获取新可嵌入位置；

对所述新可嵌入位置进行编码操作，得到新二进制文本序列；

对所述新二进制文本序列采用多数选举机制得到加密二进制水印；以及

对比每组所述加密二进制水印与二进制水印序列是否一致。

2.根据权利要求1所述的基于NLP技术的文本数字水印篡改监测方法，其特征在于，所述二进制水印序列由数字水印利用编码器转化而成。

3.根据权利要求1所述的基于NLP技术的文本数字水印篡改监测方法，其特征在于，所述混沌序列生成器为Logistic混沌序列生成器，定义为：

。

4.根据权利要求3所述的基于NLP技术的文本数字水印篡改监测方法，其特征在于，所述量化运算定义为：。

5.根据权利要求1至4中任一项所述的基于NLP技术的文本数字水印篡改监测方法，其特征在于，所述NLP分词技术采用最短路分词算法。

6.根据权利要求5所述的基于NLP技术的文本数字水印篡改监测方法，其特征在于，所述高频字为汉字“的”字；

所述隐现规则包括：

形容词+“的”+名词，“的”字可删除；

形容词+名词，中间可添加“的”字；

形容词+形容词+“的”+名词，“的”字不可删除；

代词+“的”+名词，“的”字可删除；以及

代词+名词，中间可添加“的”字。

7.根据权利要求1所述的基于NLP技术的文本数字水印篡改监测方法，其特征在于，所述编码操作包括：

在可嵌水印位置分别统计前后字数；以及

根据字数的奇偶性进行二进制编码。

8.根据权利要求3所述的基于NLP技术的文本数字水印篡改监测方法，其特征在于，所述数字水印解码方法还包括：

对所述二进制加密序列和所述加密二进制水印进行异或运算得到新二进制水印序列；以及

利用解码器将所述新二进制水印序列转为新数字水印。