CN109800547A

CN109800547A - 一种用于word文档保护和分发跟踪的信息快速嵌入和提取的方法

Info

Publication number: CN109800547A
Application number: CN201910019286.0A
Authority: CN
Inventors: 陆哲明; 归加琪; 郁发新; 罗雪雪
Original assignee: Hangzhou Kilby Blockchain Technology Ltd
Current assignee: Hangzhou Kiel Technology Co.,Ltd.
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2019-05-24
Anticipated expiration: 2039-01-09
Also published as: CN109800547B

Abstract

本发明公开了一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，包括第一WORD文档、第一重嵌入信息和分发跟踪嵌入信息，第一重嵌入信息对第一WORD文档处理后形成版权保护文档；分发跟踪嵌入信息包括多重嵌入信息，其对版权保护文档进行信息嵌入，形成多重嵌入，确认分发跟踪发送者和购买者；通过嵌入方法和提取方法分别对第一WORD文档进行正向和反向处理处理，即提取方法是嵌入方法的逆处理；本发明提供一种简单快速有效的多重信息隐藏的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法。

Description

一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法

技术领域

本发明涉及信息隐藏技术领域，更具体的说，它涉及一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法。

背景技术

Microsoft Office Word是微软公司的一个文字处理器应用程序，主要用于编排文档、编辑和发送电子邮件、编辑和处理网页等等。Word文档的主要特点有如下几个：1）所见即所得。用户用Word软件编排文档，使得打印效果在屏幕上一目了然；2）直观的操作界面。Word软件界面友好，提供了丰富多彩的工具，利用鼠标就可以完成选择、排版等操作；3）多媒体混排。用Word软件可以编辑文字图形、图像、声音、动画，还可以插入其它软件制作的信息，也可以用Word软件提供的绘图工具进行图形制作、编辑艺术字、插入数学公式，能够满足用户的各种文档处理要求。此外还有自动功能、模板与向导功能、超强的兼容性等特点。

随着多媒体技术与互联网的快速发展，多媒体作品的版权问题已经成为关注的焦点。依据载体的不同，数字水印可分为图像数字水印、视频数字水印、音频数字水印、文本数字水印等。目前，关于图像、视频、音频数字水印方面的研究很多，取得了很好的研究成果。文本文档作为主要的多媒体形式，其内容的原始性更应该受到关注，以防止该作品在传播时受到攻击。文本数字水印技术作为解决文本文档版权问题的有效手段应运而生。文本水印技术能提供一种追踪文档被非法复制、发行或伪造的方法。文本数字水印的研究与图像数字水印、视频数字水印、音频数字水印的研究相比独具特点：研究时间不长、研究成果不多、研究难度很大。主要原因是文本文件没有太多的冗余信息，且在文档文件中嵌入信息极易被阅读者发现。另一方面，用于图像、视频等方面的水印大部分不适用于文档的结构特殊性。而实际上，一些文本文档比图像、视频等更需要得到保护，文本数字水印在保护可公开传播信息的版权及保证秘密和隐私信息的安全等方面具有广泛的应用前景，对互联网时代的政府工作和电子商务等的数字文本的保护也具有重要意义。

最原始的ASCII文本文件和计算机源码文件是不能被插入水印的，因为这类文档中不存在允许插入标记的可辨认空间。对于格式化的文本（如：PDF、DOC、HTML等）能够嵌入一些信息。可将水印藏入版面布局信息或格式化编排中。根据各种常用文本数字水印技术嵌入方法的不同，可将文本数字水印大致分为以下几类：

（1）基于格式编码的文本水印。主要有三种：行移编码、字移编码、特征编码。行移编码是针对文本文件的行间距均匀的特点，通过将文本的某一整行垂直移动来嵌入水印，鲁棒性较好，但编码密度很小、标记信息方法简单、安全性差。字移编码是通过将文本某一行的某些单词进行水平移位来嵌入水印。特征编码是通过改变某个字母的某一特殊特征来嵌入水印的，比如改变个别字母的高度、字体等来加入水印。

（2）基于文本内容的文本水印。一种是基于同义词替换：通过改变单词的词义来嵌入水印信息，通过对文本中特定单词进行同义词替换达到加入水印的目的。这种方法要求载体文本应当含有一定数量的已经定义好的同义词。替换的词用在特定的语境下，意义可能会改变，从而降低了文本的质量。而且在提取信息时需要同义词替换表作为参考。另一种是基于标点符号。比如在对标点符号的使用并不是很严格的情况下，删除某些影响不大的标点符号来嵌入水印。又比如利用中、西文共有的标点符号替换。例如中文逗号用英文逗号代替，中文问号用英文问号代替，用两个中文单尖括号代替书名号等等。更具有隐蔽性的方法是在西文字母之间进行替换。如英文字母用希腊字母代替、英文字母用俄文字母代替等。

（3）基于自然语言的文本水印。第一种典型方式是基于句子结构的：通过对句子的结构进行转换来加入水印，如移动附加语的位置，加入形式主语，主动式变被动式，在句子中插入不会影响语义的“透明短语”等。第二种典型方式是基于语义的：在对句子进行深层理解的基础上对句子进行变换，从而嵌入水印。这种方法改变了载体文本的内容，它不适用于要求在文本中嵌入水印的前提是最好不要修改文本的任何内容的情况。

（4）基于汉字表达式的文本水印。该方法的理论基础是由孙星明、陈火旺等提出的一种汉字数学表达式理论。该理论的核心思想是汉字可表示成由部件作为操作数、部件间的结构关系作为运算符号的数学表达式。通过汉字的拆分与不拆分来嵌入水印。然而，这种技术还没有一个较成熟的完整系统。

前三种文本数字水印技术在英文的条件下效果不错，可是对于汉字不一定好。因而，适用于各种文字的水印嵌入方法，是我们急需的。总的来看，目前缺乏容量、鲁棒性、隐蔽性三者达到较好平衡的Word文档水印算法，并且算法速度不够快，都没有考虑多重嵌入来同时达到版权保护和分发跟踪的目的。

发明内容

本发明克服了现有技术的不足，提供一种简单快速有效的多重信息隐藏的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法。

本发明的技术方案如下：

一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，包括原始WORD文档、第一重嵌入信息和分发跟踪嵌入信息，第一重嵌入信息对第一WORD文档处理后形成版权保护文档；分发跟踪嵌入信息包括多重嵌入信息，其对版权保护文档进行信息嵌入，形成多重嵌入，确认分发跟踪发送者和购买者；通过嵌入方法和提取方法分别对第一WORD文档进行正向和反向处理处理，即提取方法是嵌入方法的逆处理；其中嵌入方法具体步骤如下：

101）输入步骤：输入嵌入参数、时间戳、第一WORD文档和第一字符串；其中嵌入参数包括置乱密钥、第一字符串长度、嵌入第几重、嵌入方案、嵌入页码选择方式、嵌入位置、字符间隔信息；第一WORD文档即为原始WORD文档；第一字符串为待嵌入的秘密信息；

102）时间戳步骤：在第一字符串后面加上时间戳得到第二字符串；

103）加密步骤：根据嵌入参数中的置乱密钥，对第二字符串进行加密处理得到第三字符串；

104）标识步骤：根据嵌入参数中的嵌入第几重，对第三字符串前缀标识得到第四字符串；

105）嵌入步骤：根据嵌入参数中的嵌入方案将第四字符串嵌入到第一WORD文档中，得到第二WORD文档；

106）输出步骤：输出第二WORD文档，并安全地输出和保存嵌入参数，即水印提取码，以便提供准确信息给水印信息提取端。

进一步的，嵌入方案具体如下：根据第四字符串生成二值图像作为第一水印图像，保存第一水印图像的长和宽；读取嵌入参数中的嵌入位置的横坐标位置和纵坐标位置；根据嵌入参数中的嵌入页码选择方式确定在哪些页码进行嵌入；在各嵌入页的位置处插入矩形框；每个矩形框里均插入第一水印图像,并设置各矩形框为不可见；完成嵌入，保存WORD文档得到第二WORD文档，输出第一水印图像的长和宽。

进一步的，嵌入方案的逆处理中的水印图像提取，输入第二WORD文档，判断第二WORD文档是doc格式还是docx格式，若为doc格式，则要将其转换为docx格式；修改第二Word文档的扩展名docx为zip，经过zip解压，生成多媒体文件夹，对多媒体文件夹下的图像进行遍历，根据水印提取码中的第一水印图像的长和宽筛选出大小匹配的图像；将符合要求的任意一幅图像，转成二进制BMP图像作为第二水印图像；利用文字识别算法识别出第二水印图像中的字符串，得到第四字符串。

进一步的，嵌入方案具体如下：将第四字符串转化为二进制形式的比特序列作为第一比特序列，保存第一比特序列的长度L；遍历第一WORD文档，只统计出里面的文字、字符、标点的字符数n，形成嵌入水印信息的第一字符序列；

得到的字符数n除以第一比特序列长度L取整得到d，若d<1，则说明字符数不够，该嵌入方案失效，退出该方案而改用其他方案；若d>=1，则把第一字符序列以间距d分割成L组；读取嵌入参数中的字符间隔来选择字符位置进行水印嵌入，得到第二字符序列；

将第一比特序列和第二字符序列的元素一一对应，进行水印嵌入：完成嵌入，保存WORD文档得到第二WORD文档，输出第一比特序列的长度L和更新的字符间隔。

进一步的，由二进制方式读取第一WORD文档，并定位到文件末尾；在文件末尾写入第四字符串；存储修改后的第一WORD文档得到第二WORD文档。

进一步的，置乱密钥为第二字符串进行加密处理得到第三字符串，具体包括：首先根据置乱密钥生成混沌序列，由混沌序列对第二字符串进行置乱处理，得到第三字符串。

进一步的，包括秘密信息嵌入装置，其包括输入单元、字符串置乱单元、水印字符串生成单元、水印信息嵌入单元、输出单元、嵌入模块；

输入单元用于输入嵌入参数、第一WORD文档、第一字符串；嵌入参数包括置乱密钥、第一字符串长度、嵌入第几重、嵌入方案、嵌入页码选择方式、嵌入位置、字符间隔信息；

字符串置乱单元用于在第一字符串后面加上时间戳得到第二字符串，然后根据嵌入参数中的置乱密钥对第二字符串进行加密处理得到第三字符串；

水印字符串生成单元根据嵌入参数中的嵌入第几重在第三字符串前面加上前缀标识，得到第四字符串；

水印信息嵌入单元，根据嵌入参数中的嵌入方案选择相应的嵌入模块将第四字符串嵌入到第一WORD文档中，得到第二WORD文档；

输出单元，用于输出第二WORD文档以及安全地输出和保存嵌入参数，即水印提取码，提供给水印信息提取端。

进一步的，秘密信息嵌入装置还包括嵌入电子设备，其包括处理器和存储器；存储器用于存储嵌入方法的程序，处理器用于运行存储于存储器中的嵌入方法的程序。

进一步的，包括秘密信息提取装置，其包括输入单元、字符串提取单元、字符串剥离单元、字符串反置乱单元、秘密信息重构单元；

输入单元用于输入水印提取码和第二WORD文档，其中水印提取码包括置乱密钥、第一字符串长度、嵌入第几重、嵌入方案、嵌入页码选择方式、嵌入位置、字符间隔、第一水印图像的长和宽、第一比特序列的长度L；

字符串提取单元根据水印提取码中的嵌入方案选择相应的提取模块从第二WORD文档提取出第四字符串和第一WORD文档；

字符串剥离单元，根据水印提取码中的嵌入第几重把第四字符串中的前缀标识剥离，得到指定长度的第三字符串；

字符串反置乱单元，根据水印提取码中的置乱密钥对第三字符串进行反置乱处理，得到第二字符串；

秘密信息重构单元，从第二字符串中根据水印提取码中的第一字符串长度，剥离时间戳，得到第一字符串和时间戳，第一字符串作为提取的秘密信息，时间戳作为时间证明。

进一步的，秘密信息提取装置还包括提取电子设备，其包括处理器和存储器；存储器用于存储提取方法的程序，处理器用于运行存储于存储器中的提取方法的程序。

本发明相比现有技术优点在于：本发明通过在不可见矩形框中嵌入水印图片或修改字符红色分量值的奇偶性或定位Word文档末尾来嵌入字符串。经实验验证，这些改动对Word文件没有视觉影响，满足不可见性和隐蔽性。本发明算法速度非常快；方案一嵌入容量无限制、抵抗格式刷攻击、对于复制粘贴的Word内容依然有效、抗击另存为（doc转docx，docx转doc）攻击；方案二可以抗全文复制粘贴、部分删除、部分格式刷和另存为操作；方案三可以抵抗全文复制粘贴、部分删除、部分格式刷和另存为操作。

附图说明

图1是本发明以四重嵌入为例的总体功能示意图。

图2是本发明的一种秘密信息嵌入方法的流程图。

图3是本发明的一种秘密信息提取方法的流程图。

图4是本发明的一种秘密信息嵌入装置的示意图。

图5是本发明的一种嵌入电子设备的示意图。

图6是本发明的一种秘密信息提取装置的示意图。

图7是本发明的一种提取电子设备的示意图。

具体实施方式

下面详细描述本发明的实施方式，其中自始至终相同或类似的标号表示相同或类似的元件或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明而不能作为对本发明的限制。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语（包括技术术语和科技术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样的定义，不会用理想化或过于正式的含义来解释。

下面结合附图和具体实施方式对本发明进一步说明。

如图1至图7所示，一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，包括第一WORD文档即原始WORD文档、第一重嵌入信息和分发跟踪嵌入信息，第一重嵌入信息对第一WORD文档处理后形成版权保护文档；分发跟踪嵌入信息包括多重嵌入信息，其对版权保护文档进行信息嵌入，形成多重嵌入，确认分发跟踪发送者和购买者；通过嵌入方法和提取方法分别对第一WORD文档进行正向和反向处理处理，即提取方法是嵌入方法的逆处理。

具体以嵌入四重秘密信息为例，其中每一重都在嵌入参数的作用下，选择嵌入相应的信息：如版权水印、第一级指纹、第二级指纹或第三级指纹。版权水印即第一重用于版权保护，用CP000前缀来标识；第一级指纹即第二重是用于跟踪第一级分发，通常针对第一级分销商，用FP100前缀来标识；第二级指纹即第三重是用于跟踪第二级分发，通常针对第二级分销商，用FP200前缀来标识；第三级指纹即第四重是用于跟踪第三级分发，通常针对最终用户，用FP300前缀来标识。当然，根据需要，可选的，最终获得的含水印PDF文档可以经历如下四种可能：第一种可能，只嵌入了版权水印；第二种可能，嵌入了版权水印和第一级数字指纹（尤其针对第一级就直接分发到最终用户的情况）；第三种可能，嵌入了版权水印、第一级数字指纹和第二级数字指纹（尤其针对通过第一级分销就到达最终用户的情况）；第四种可能，嵌入了版权水印和三级数字指纹。

其中嵌入方法具体步骤如下：

101）输入步骤：输入嵌入参数、时间戳、第一WORD文档和第一字符串；其中嵌入参数包括置乱密钥、第一字符串长度、嵌入第几重、嵌入方案、嵌入页码选择方式、嵌入位置、字符间隔等参数信息。第一WORD文档即为原始WORD文档。第一字符串为待嵌入的秘密信息。

嵌入参数中的置乱密钥用于对后面产生的第二字符串进行加密。

第一字符串根据嵌入第几重而含义不一样，若为0，表示第一重，代表版权水印；若为1，表示第二重，代表第一级数字指纹；若为2，表示第三重，代表第二级数字指纹；若为3，表示第四重，代表第三级数字指纹。

第一字符串长度和嵌入方案可以作为控制嵌入的第一层密钥。嵌入方案分为三种，0表示嵌入方案一；1表示嵌入方案二；2表示嵌入方案三。若选择嵌入方案一，则后面的嵌入页码选择方式和嵌入位置相当于控制嵌入的第二层密钥，字符间隔为-1，即字符间隔无意义。这里，若嵌入页码选择方式为0，代表每一页都嵌，若选择方式为m（m大于0），则表示隔m页嵌入一页。若选择嵌入方案二，则后面的字符间隔w相当于控制嵌入的第二层密钥，嵌入页码选择方式为-1，嵌入位置也设为(-1，-1)，即嵌入页码和嵌入位置无意义。这里，w表示隔多少字符嵌入1比特水印。若选择嵌入方案三，则字符间隔为-1，嵌入页码选择方式为-1，嵌入位置也设为(-1，-1)，即字符间隔、嵌入页码和嵌入位置均无意义。

102）时间戳步骤：在第一字符串后面加上时间戳得到第二字符串；所述第一字符串，指待嵌入到第一Word文档中的原始版权信息或指纹信息，如某个公司的公司名、某个员工的员工编号或其他标识信息。对第一字符串加时间戳的生成第二字符串的目的是证明文档创建或分发的时间。

为了提高水印嵌入的安全性，将第二字符串转换成第三字符串的一种实现方式如下：基于置乱密钥利用logistics映射后生成一个混沌序列；基于生成的混沌序列对第二字符串进行置乱，就可得到第三字符串。

104）标识步骤：根据嵌入参数中的嵌入第几重，对第三字符串前缀标识得到第四字符串。前缀标识和嵌入第几重的关系如下：第一重对应CP000、第二重对应第一级数字指纹FP100、第三重对应第二级数字指纹FP200、第四重对应第三级数字指纹FP300。加上前缀的目的是区分不同的嵌入过程，便于提取时可以根据前缀判断嵌入的信息代表何意义。

105）嵌入步骤：根据嵌入参数中的嵌入方案将第四字符串嵌入到第一WORD文档中，得到第二WORD文档。这个过程涉及到三种可选的嵌入方法。

嵌入方法一：在第一WORD文档中嵌入不可见的图片，具体如下：首先根据第四字符串生成一幅二值的第一水印图像，并保存第一水印图像的长a和宽b。读取嵌入参数中的嵌入位置的横坐标位置X和纵坐标位置Y，根据嵌入参数中的嵌入页码选择方式确定在哪些页码（嵌入页）进行嵌入，在各嵌入页的位置（X，Y）处各插入一个矩形框。在各矩形框里均插入第一水印图像，设置各矩形框为不可见。完成嵌入，保存WORD文档得到第二Word文档；输出第一水印图像的长a和宽b。这里输出的a和b就是在嵌入过程中产生的额外参数，需要妥善保存以便提供给水印提取端。

嵌入方法二：通过修改字符的红色分量值来嵌入水印，具体如下：将第四字符串转化为二进制形式的第一比特序列，保存第一比特序列的长度L。遍历一遍第一WORD文档，只统计出里面文字、字符、标点的字符数n（排除图片等特殊符号），相应的字符构成可以嵌入水印信息的第一字符序列。

得到的字符数n除以第一比特序列长度L取整得到d，若d<1，则说明字符数不够，该嵌入方案失效，退出该方案而改用其他方案。若d>=1，则把第一字符序列以间距d分割成L组，然后读取嵌入参数中的字符间隔w（w<d）来选择字符位置进行水印嵌入（若w>=d，则修改成w=0），从而得到第二字符序列；

将第一比特序列和第二字符序列的元素一一对应，进行水印嵌入：若比特为0而对应字符的红色分量值为偶数，或者比特为1而对应字符的红色分量值为奇数，则保持不变；若比特为0而对应字符的红色分量值为奇数，或者比特为1而对应字符的红色分量值为偶数，则字符红色分量加1或减1以改变字符红色分量值的奇偶性。完成嵌入，保存WORD文档得到第二WORD文档，输出第一比特序列的长度L和更新的字符间隔w（因为它可能被修改为0）。这里输出的L就是在嵌入过程中产生的额外参数，需要妥善保存以便提供给水印提取端。

嵌入方法三：在Word文档末尾嵌入信息，具体如下：定位到第一WORD文档的文件末尾，在文件末尾隐藏写入第四字符串；存储修改后的Word文档得到第二Word文档。

106）输出步骤：输出第二WORD文档，并安全地输出和保存嵌入参数，即水印提取码，以便提供准确信息给水印信息提取端。嵌入参数包括嵌入过程中产生的额外参数。

由于嵌入参数中的字符间隔在嵌入过程中可能被修改，所以需要更新。而嵌入方法一和嵌入方法二在嵌入过程中会产生的额外参数，方法一将产生第一水印图像的长a和宽b，而方法二将产生第一比特序列的长度L。所有这些一起构成水印提取码，以便提供给水印信息提取端。

为了让水印信息提取端能够获得嵌入参数和额外参数，可以将这些信息提供给水印信息提取端。将所述嵌入参数和额外参数提供给水印信息提取端，可以采用两种方式：一种方式是将嵌入参数和额外参数以单独消息的形式发送至水印提取端；另一种方式是以水印信息提取端和水印信息嵌入端预先约定的方式将嵌入参数和额外参数提供给水印信息提取端。主要通过存储水印提取码的方式来单独提供。

如图3所示，提取方法与嵌入方法反向具体过程如下：

在步骤S301中，输入水印提取码（里面包括置乱密钥、第一字符串长度、嵌入第几重、嵌入方案、嵌入页码选择方式、嵌入位置、字符间隔、第一水印图像的长a和宽b、第一比特序列的长度L等参数）、输入第三WORD文档即嵌入方法中生成的第二WORD文档。

第三WORD文档指的是可以待提取水印的WORD文档。水印提取码中的置乱密钥用于对第六字符串进行解密，即对应嵌入方法中的第三字符串的解密。第六字符串根据嵌入第几重而含义不一样，若为0，表示第一重，代表版权水印；若为1，表示第二重，代表第一级数字指纹；若为2，表示第三重，代表第二级数字指纹；若为3，表示第四重，代表第三级数字指纹。第一字符串长度和嵌入方案可以作为控制提取的第一层密钥。提取无误时，第一字符串长度指的就是第八字符串的长度。

提取方案与嵌入方法对应同样分为三种，0表示应采用提取方案一；1表示应采用提取方案二；2表示应采用提取方案三。若提取方案为0，则水印提取码中的嵌入页码选择方式和嵌入位置相当于控制提取的第二层密钥，忽略字符间隔。嵌入页码选择方式为0，代表每一页都可以提取，选择方式为m（m大于0），则表示隔m页可以提取。若嵌入方案为1，则字符间隔w为控制提取的第二层密钥，而忽略嵌入页码选择方式和嵌入位置。若嵌入方案为2，则字符间隔、嵌入页码和嵌入位置均忽略。

在步骤S302中，根据水印提取码中的嵌入方案选择相应的提取方案从第三WORD文档提取出第五字符串，即对应嵌入方法中的第四字符串。具体的提取方法如下：

提取方法一：输入第三WORD文档，判断第三WORD文档是doc格式还是docx格式，若为doc格式，则要将其转换为docx格式，否则，保持不变直接复制。修改WORD文档的扩展名docx为zip，经过zip解压，生成多媒体文件夹。对多媒体文件夹下的图像进行遍历，根据水印提取码中的第一水印图像的长a和宽b筛选出大小匹配的图像。将符合要求的任意一幅图像，转成二进制BMP图像。利用文字识别算法识别出BMP图像中的字符串，得到第五字符串。这里筛选过程是通过判断media文件夹下的图像的大小进行的。

提取方法二：遍历一遍第二WORD文档，统计出里面只包含文字、字符、标点的字符数n（排除图片等特殊符号），相应的字符构成待提取水印信息的第三字符序列即嵌入方法二中的第二字符序列。

得到的字符数n除以水印提取码中的第一比特序列长度L取整得到d，若d<1，则说明字符数不够，该提取方案失效，退出该方案返回提取出错的信息。若d>=1，则把第三字符序列以间距d分割成L组，然后读取水印提取码中的字符间隔w，若w>=d，则该提取方案失效，退出该方案返回提取出错的信息。若w<d，则选择字符位置进行水印提取（若字符间隔为0，则表示选择每组的第1字符进行提取；若字符间隔为1，则表示选择每组的第2字符进行提取…），从而得到待提取水印的字符序列即对应嵌入方法二中的第一字符序列。

对第四字符序列进行逐字符水印提取：若当前字符的红色分量值为偶数，则提取水印比特0；若字符的红色分量值为奇数，则提取水印比特1。提取完毕后得到第二比特序列；将二进制形式的第二比特序列转化为第五字符串。

提取方法三：读取第三WORD文档，定位到文件末尾；在文件末尾搜索并提取含有指定前缀标志（与水印提取码中的嵌入第几重有关，四重分别对应版权水印CP000、第一级数字指纹FP100、第二级数字指纹FP200、第三级数字指纹FP300）的第五字符串。

在步骤S303中，根据水印提取码中的嵌入第几重把第五字符串中的前缀标识剥离得到指定长度（等于水印提取码中的字符串长度加上时间戳长度）的第六字符串，即对应嵌入方法中的第三字符串。

这里，前缀标识和嵌入第几重的关系如下：第一重对应CP000、第二重对应第一级数字指纹FP100、第三重对应第二级数字指纹FP200、第四重对应第三级数字指纹FP300。

在步骤S304中，根据水印提取码中的置乱密钥对第六字符串进行反置乱处理，得到第七字符串，即嵌入方法中的第二字符串；从第七字符串中根据水印提取码中的第一字符串长度剥离掉时间戳，得到第八字符串即对应的第一字符串；输出第八字符串作为提取的秘密信息，输出时间戳作为时间证明。

这里可以首先使用水印提取码中的置乱密钥产生混沌序列。然后基于生成的混沌序列，对所述第六字符串进行反置乱处理得到第七字符串。综上信息提取方法，处理速度很快，满足快速检测水印的需要。

上述信息隐藏系统的方案一嵌入容量无限制、抵抗格式刷攻击、对于复制粘贴的Word内容依然有效、抗击另存为（doc转docx，docx转doc）攻击；方案二可以抗全文复制粘贴、部分删除、部分格式刷和另存为操作；方案三可以抵抗全文复制粘贴、部分删除、部分格式刷和另存为操作。

本方案还包括秘密信息嵌入装置，其包括输入单元、字符串置乱单元、水印字符串生成单元、水印信息嵌入单元、输出单元、嵌入模块。

输入单元用于输入嵌入参数、第一WORD文档、第一字符串。

字符串置乱单元用于在第一字符串后面加上时间戳得到第二字符串，根据嵌入参数中的置乱密钥对第二字符串进行加密处理得到第三字符串。具体的基于嵌入参数中的置乱密钥生成一个混沌序列；基于生成的混沌序列对所述第二字符串进行置乱处理，得到第三字符串。

水印字符串生成单元根据嵌入参数中的嵌入第几重在第三字符串前面加上前缀标识（四重分别对应版权水印CP000、第一级数字指纹FP100、第二级数字指纹FP200、第三级数字指纹FP300），得到第四字符串。

水印信息嵌入单元，根据嵌入参数中的嵌入方案（嵌入方案一、嵌入方案二和嵌入方案三）选择相应的嵌入模块将第三字符串嵌入到第一WORD文档中，得到第二WORD文档。

输出单元，用于输出第二WORD文档以及安全地输出和保存嵌入参数，即水印提取码，以便提供给水印信息提取端。

嵌入方法一，对应的嵌入模块具体执行如下：首先根据第四字符串生成一幅二值的第一水印图像，并保存第一水印图像的长a和宽b。读取嵌入参数中的嵌入位置的横坐标位置X和纵坐标位置Y，根据嵌入参数中的嵌入页码选择方式确定在哪些页码（嵌入页）进行嵌入，在各嵌入页的位置（X，Y）处各插入一个矩形框。在各矩形框里均插入第一水印图像，设置各矩形框为不可见。完成嵌入，保存WORD文档得到第二Word文档；输出第一水印图像的长a和宽b。

嵌入方法二，对应的嵌入模块具体执行如下：将第四字符串转化为二进制形式的第一比特序列，保存第一比特序列的长度L。遍历一遍第一WORD文档，只统计出里面文字、字符、标点的字符数n（排除图片等特殊符号），相应的字符构成可以嵌入水印信息的第一字符序列。

将第一比特序列和第二字符序列的元素一一对应，进行水印嵌入：若比特为0而对应字符的红色分量值为偶数，或者比特为1而对应字符的红色分量值为奇数，则保持不变；若比特为0而对应字符的红色分量值为奇数，或者比特为1而对应字符的红色分量值为偶数，则字符红色分量加1或减1以改变字符红色分量值的奇偶性。完成嵌入，保存WORD文档得到第二WORD文档，输出第一比特序列的长度L和更新的字符间隔w（因为它可能被修改为0）。

嵌入方法三，对应的嵌入模块具体执行如下：在Word文档末尾嵌入信息，具体如下：定位到第一WORD文档的文件末尾，在文件末尾隐藏写入第四字符串；存储修改后的Word文档得到第二Word文档。

秘密信息嵌入装置还包括嵌入电子设备，其包括处理器和存储器。存储器用于存储嵌入方法的程序，处理器用于运行存储于存储器中的嵌入方法的程序。

秘密信息提取装置，其包括输入单元、字符串提取单元、字符串剥离单元、字符串反置乱单元、秘密信息重构单元。

字符串提取单元根据水印提取码中的嵌入方案选择相应的提取模块从第二WORD文档提取出嵌入方法中的第四字符串和第一WORD文档；

字符串剥离单元，根据水印提取码中的嵌入第几重把第四字符串中的前缀标识剥离，得到指定长度的嵌入方法中的第三字符串；

字符串反置乱单元，根据水印提取码中的置乱密钥对第三字符串进行反置乱处理，得到嵌入方法中的第二字符串；

秘密信息重构单元，从第二字符串中根据水印提取码中的嵌入方法中的第一字符串长度，剥离时间戳，得到第一字符串和时间戳，第一字符串作为提取的秘密信息，时间戳作为时间证明。

秘密信息提取装置还包括提取电子设备，其包括处理器和存储器；存储器用于存储提取方法的程序，处理器用于运行存储于存储器中的提取方法的程序。

其中具体实现过程与提取方法相同不在赘述。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

Claims

1.一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，其特征在于，包括原始WORD文档、第一重嵌入信息和分发跟踪嵌入信息，第一重嵌入信息对第一WORD文档处理后形成版权保护文档；分发跟踪嵌入信息包括多重嵌入信息，其对版权保护文档进行信息嵌入，形成多重嵌入，确认分发跟踪发送者和购买者；通过嵌入方法和提取方法分别对第一WORD文档进行正向和反向处理处理，即提取方法是嵌入方法的逆处理；其中嵌入方法具体步骤如下：

2.根据权利要求1所述的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，其特征在于：嵌入方案具体如下：根据第四字符串生成二值图像作为第一水印图像，保存第一水印图像的长和宽；读取嵌入参数中的嵌入位置的横坐标位置和纵坐标位置；根据嵌入参数中的嵌入页码选择方式确定在哪些页码进行嵌入；在各嵌入页的位置处插入矩形框；每个矩形框里均插入第一水印图像,并设置各矩形框为不可见；完成嵌入，保存WORD文档得到第二WORD文档，输出第一水印图像的长和宽。

3.根据权利要求2所述的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，其特征在于：嵌入方案的逆处理中的水印图像提取，输入第二WORD文档，判断第二WORD文档是doc格式还是docx格式，若为doc格式，则要将其转换为docx格式；修改第二Word文档的扩展名docx为zip，经过zip解压，生成多媒体文件夹，对多媒体文件夹下的图像进行遍历，根据水印提取码中的第一水印图像的长和宽筛选出大小匹配的图像；将符合要求的任意一幅图像，转成二进制BMP图像作为第二水印图像；利用文字识别算法识别出第二水印图像中的字符串，得到第四字符串。

4. 根据权利要求 1 所述的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，其特征在于：嵌入方案具体如下：将第四字符串转化为二进制形式的比特序列作为第一比特序列，保存第一比特序列的长度L；遍历第一WORD文档，只统计出里面的文字、字符、标点的字符数n，形成嵌入水印信息的第一字符序列；

将第一比特序列和第二字符序列的元素一一对应，进行水印嵌入：若第一比特序列的比特为0而对应字符的红色分量值为偶数，或者比特为1而对应字符的红色分量值为奇数，则保持不变；若比特为0而对应字符的红色分量值为奇数，或者比特为1而对应字符的红色分量值为偶数，则字符红色分量加1或减1以改变字符红色分量值的奇偶性；完成嵌入，保存WORD文档得到第二WORD文档，输出第一比特序列的长度L和更新的字符间隔。

5. 根据权利要求 1 所述的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，其特征在于：由二进制方式读取第一WORD文档，并定位到文件末尾；在文件末尾写入第四字符串；存储修改后的第一WORD文档得到第二WORD文档。

6. 根据权利要求 1所述的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，其特征在于：置乱密钥为第二字符串进行加密处理得到第三字符串，具体包括：首先根据置乱密钥生成混沌序列，由混沌序列对第二字符串进行置乱处理，得到第三字符串。

7. 根据权利要求 1所述的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，其特征在于：包括秘密信息嵌入装置，其包括输入单元、字符串置乱单元、水印字符串生成单元、水印信息嵌入单元、输出单元、嵌入模块；

8.根据权利要求7所述的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，其特征在于：秘密信息嵌入装置还包括嵌入电子设备，其包括处理器和存储器；存储器用于存储嵌入方法的程序，处理器用于运行存储于存储器中的嵌入方法的程序。

9. 根据权利要求 1 所述的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，其特征在于：包括秘密信息提取装置，其包括输入单元、字符串提取单元、字符串剥离单元、字符串反置乱单元、秘密信息重构单元；

10.根据权利要求9所述的一种用于WORD文档保护和分发跟踪的信息快速嵌入和提取的方法，其特征在于，秘密信息提取装置还包括提取电子设备，其包括处理器和存储器；存储器用于存储提取方法的程序，处理器用于运行存储于存储器中的提取方法的程序。