CN101169779A

CN101169779A - 在英文文本中嵌入和提取频域水印的方法

Info

Publication number: CN101169779A
Application number: CNA2007101784228A
Authority: CN
Inventors: 王建民; 王朝坤; 李德毅; 杨建龙
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2007-11-30
Filing date: 2007-11-30
Publication date: 2008-04-30

Abstract

本发明涉及在英文文本中嵌入和提取频域水印的方法，属于计算机文本保护技术领域。包括：从英文文本T中获取下一个形容词或副词w；找出w中的同义词集合S_w，作为T中的矢量vc中的一个维度；找出w的代理词w_d；与该文本版权人的私钥信息k进行单向哈希运算，得到一个长整数R；用R除以预先设置的分组数目n，n为正整数，得到当前S_w的分组号i；将S_w中的每个单词w_s与k进行单向哈希运算，判断得到的余数的奇偶性，分别添入集合A_i和集合B_i；使用A_i的词的个数c_i作为该英文文本T的矢量vc；设定与上述文本矢量vc对应的水印矢量vw，作为待嵌入(提取)的水印信息。还包括嵌入和检测水印步骤。以对原始文本的保护。

Description

在英文文本中嵌入和提取频域水印的方法

技术领域

本发明属于计算机文本保护技术领域，特别涉及在英文文本中嵌入和提取频域水印的方法。

背景技术

作为计算机文本保护的一种有效手段，数字水印日益成为人们研究的焦点。然而，目前数字水印技术的研究大多集中在图像、音频、视频数据，对于文本水印的研究相对较少。这主要是由于文本有其特殊性，对文本实施水印较为困难：

(1)文本是由内容和格式构成的，由于对文档内容的表现方式不同，因而文本文档的格式也不尽相同。文本文件的类型很多，文件格式也多种多样，如WORD文档(^*doc)、Web页、纯文本、PDF等。人们可以针对任何一种文件格式设计水印方案，但是却很难找出一种水印技术适合所有的文件格式。

(2)各种格式的文件通常可以互相转换，甚至可以直接抽取文件中的纯文本内容，比如Word中的选择性粘贴，只复制粘贴无格式文本，就会使基于格式的文本水印信息完全丢失。更为极端的一点，可以对文本进行重新录入，这样原来嵌入在格式中的水印信息便荡然无存了。

(3)多媒体对象由大量的位组成，并且许多都是不重要的，水印可以隐藏在里面。而文本由字符组成，每个字符都有固定的编码，没有可以嵌入水印信息的多余空间。

(4)多媒体对象某些部分在不引起知觉变化的条件可以删除掉或者随意的替换掉。而对于文本，那怕是仅仅改变其中的一个字符，就可以使整篇文章变得晦涩难懂，甚至所表达的意义完全相反。

由于上述原因，在多媒体水印技术已经开始进入到实际应用阶段的今天，文本水印仍处在理论和实验阶段。现有的文本水印技术大多是基于对文本格式作适量调整，通过赋予文本特定的格式来嵌入水印信息，主要有行移编码、字移编码和特征编码。基于文件格式的文本水印从本质上讲，其保护的并不是人类智慧结晶的文本内容，而是一种出版格式。当文件格式改变时，水印信息也随之消失了。

Jensen第一次提出一种基于同义词替换的文本水印方法。Chiang等人也提出了针对中文文本的基于同义词替换的水印方法。Jensen和Chiang在文章中都提到，实现同义词替换的关键在于建立一个庞大的同义词库；但遗憾的是，他们都只是提出了单薄的理论框架，并没有给出算法的具体实现细节，原因在于难以给出同义词库的具体实现。因此，前人的研究仅停留在理论和探索阶段。

本申请人在向英文文本中嵌入和提取水印的方法这一方向上取得进展，于2005年6月24日申请并获取了一项名为“一种在英文文本中嵌入和提取水印的方法”的中国专利(申请号为200510077471.3)。该专利记载的方法的主要步骤是将一句英文文本滤去特殊字符和空格，得到一个英文字符串后与该文本的版权人的私钥做哈希运算，得到的整数Z如果能被预设的水印嵌入比例整除，则该句的下一句作为水印信息的嵌入句。再用Z对版权信息的比特串取余，得到待嵌入的水印比特信息；用Z对水印信息句字符数取余，确实嵌入水印比特信息的位置，使得位置相邻的两字母编码大小关系代表的0或1与待嵌入的水印信息相同。上述过程不断循环，直至文本结束。水印信息提取过程是嵌入过程的逆过程。该方法的不足之处是难以抵御同语义变换的攻击，有时向文本中增加或删去一个词，都有可能使水印信息受到影响。

发明内容

本发明的目的是提出一种在英文文本中嵌入和提取频域水印的方法，以对文本进行水印信息的嵌入、提取和检测，最终达到对原始文本保护的目的。

本发明提出的在文本中嵌入和提取频域水印的方法，包括水印嵌入和水印提取两部分，其特征在于，所述水印嵌入包括以下步骤：

(1)读入英文文本T，

(2)从左到右扫描该英文文本T、识别并获取该英文文本T中的下一个形容词或副词w；如果遇到该英文文本T的结束符号，那么转步骤(7)，否则转步骤(3)；

(3)利用WordNet工具找出w在WordNet中的同义词集合S_w，如果该S_w还没有被标识为已处理，则标识该S_w为已处理，同时将S_w作为该英文文本T中的矢量vc中的一个维度，然后转步骤(4)，否则转步骤(2)；

(4)利用代理词汇表(word-book)工具找出w的代理词w_d；

(5)将w_d与该英文文本版权人的私钥信息k进行单向哈希运算，得到一个长整数R；用R除以预先设置的分组数目n，n为正整数，得到的余数作为当前S_w的分组号i；

(6)将S_w中的每个单词w_s与版权人的私钥信息k进行单向哈希运算，得到一个长整数Z，用Z除以该分组数目n，判断得到的余数的奇偶性，若为奇数，则将w_s添入集合A_i；若为偶数，则将w_s添入集合B_i；转步骤(2)；

(7)计算英文文本T中属于集合A_i的词的个数c_i(含重复项)，其中i＝1，2，...，n；

(8)使用该个数c_i作为该英文文本T的矢量vc＝c₁，c₂，...，c_n；

(9)设定与上述文本矢量vc对应的水印矢量vw＝vw₁，vw₂，...，vw_n，作为待嵌入的水印信息(水印矢量vw是版权人根据版权信息设定的，以矢量的形式表现受保护的版权信息，水印矢量vw的维数与英文文本T的矢量vc的维数相等)，水印矢量vw的每一维vw_i是一个整数，且当vw_i为负时，vw_i的绝对值不大于该英文文本T中属于A_i的词的个数，vw_i为正时，vw_i的值不大于该英文文本T中属于B_i的词的个数，其中i＝1，2，...，n；

(10)复制文本T得到一个新文本T_w；

(11)判断水印矢量vw中的一个分量vw_i的正负，如果vw_i为负，那么在文本T_w中找到vw_i的绝对值个数属于集合A_i的词，并将这些词分别替换为集合B_i中的词；如果vw_i为正，那么在文本T_w中找到vw_i个属于集合B_i的词，并将这些词分别替换为集合A_i中的词，即将水印矢量分量vw_i中的信息嵌入到文本T_w中；

(12)判断水印矢量vw中的所有分量是否都已嵌入完毕，如果不是，选中一个未嵌入的分量，重复步骤(11)；如果是，则此时的文本T_w为嵌入了频域水印信息的新文本，并且新文本T_w的矢量vc’等于原文本T的矢量vc和水印矢量vw的和。

所述水印提取包括以下步骤：

(13)读入英文文本T_w’；

(14)从左到右扫描、识别并获取T_w’中的下一个形容词或副词w；如果遇到英文文本T_w’的结束符号，那么转步骤(19)，否则转步骤(15)；

(15)利用WordNet工具找出w的同义词集合S_w，如果该S_w还没有被标识为已处理，那么标识该S_w为已处理，同时转步骤(16)，否则转步骤(14)；

(16)利用wod-book工具找出w的代理词w_d；

(17)将w_d与版权人的私钥信息k进行单向哈希运算，得到一个长整数R；用R除以预先设置的分组数目n，得到的余数作为当前S_w的分组号i；

(18)将S_w中的每个单词w_s与版权人的私钥信息k进行单向哈希运算，得到一个长整数Z。用Z除以该分组数目n，判断其得到的余数的奇偶性。若为奇数，则将w_s添入集合A_i；若为偶数，则将w_s添入集合B_i；

(19)计算T_w’中属于集合A_i的词的个数c_i”(含重复项)，其中i＝1，2，...，n；

(20)使用该个数c_i”作为该文本T_w’的矢量vc”＝c₁”，c₂”，...，c_n”。

本发明的水印提取步骤还可包括对水印的检测，具体步骤为：

(21)用vc”减去英文文本T的矢量vc，得到的差vw’为提取出的水印矢量；

(22)计算vw’与vw的余弦相似度，判断相似度是否大于设定的阈值(阈值由所述英文文本T的版权人给定，取值范围在0和1之间；计算出来的相似度的值介于0和1之间，相似度的值越大，表明所述英文文本Tw’与所述英文文本T越相似)，如果余弦相似度大于设定的阈值，则认为所述英文文本T的版权人对于所述英文文本T_w’拥有版权。

本发明的特点及效果：

(1)本发明提出的文本水印方法是基于同义词替换的，通过用同义词或近义词替换文章中某些不太重要的词，以达到隐藏信息的目的。通过这种方法嵌入的水印与文章内容密切相关，可以完全抵御格式转换攻击。

(2)本发明选择替换的对象是对语义影响较小的形容词与副词，对文章的原意几乎没有影响。对同义词集合中待替换的词语进行筛选后，可以保证不会降低文章的阅读性。

(3)本发明首次在文本嵌入的水印具有频域的特征，即将水印分散地隐藏在整个载体中，因此，对单个水印信息的随机破坏很难影响整个水印的表现效果，也增强了水印的鲁棒性，经实验证明，使用本方法嵌入水印后的文本，经受添加攻击、变形攻击等攻击方式后，提出的水印信息仍然能与原水印信息有较好的相似度。

附图说明

图1是本发明方法中水印嵌入过程的步骤框图。

图2是图1、4中的提取文本矢量过程的步骤框图。

图3是图1中嵌入单维水印矢量过程的步骤框图。

图4是本发明方法中水印提取过程的步骤框图。

具体实施方式

本发明提出的一种在英文文本中嵌入和提取频域水印的方法结合附图及举例说明如下：

本发明提出的在文本中嵌入和提取频域水印的方法，包括水印嵌入和水印提取两部分，其中嵌入水印的步骤如图1、2、3所示，包括：首先读入英文文本T，然后对T进行矢量提取，该具体流程如图2所示，第一步将文本T从左向右扫描，识别出并获得它的第一个形容词或副词w，利用WordNet工具找出w的同义词集合S_w。判断S_w是否已经做过标记，如果已经做过标记，则跳过这一词，继续向后识别，并重复这一步骤；如果S_w还没有做过标记，则首先将S_w标记为已处理，即说明该同义词集合S_w已成为文本T中的矢量vc中的一个维度，之后再利用word-book找出w的代理词w_d，计算分组号(作为矢量维度的下标)。具体计算方法是将w_d与版权人的私钥信息k进行单向哈希运算，得到一个长整数Z后，再除以矢量的总维数n，得到的余数即为分组号，记为i。算出分组号之后，把S_w分成两个成员个数相近的两个集合A_i和B_i，作为水印嵌入的预处理。具体做法是：对于S_w中的每个单词w_s，将w_s与版权人的私钥信息k进行单向哈希运算，得到一个长整数Z。用Z除以预先设置的分组数目n，n为正整数，判断余数的奇偶性。若为奇数，则将w_s添入集合A_i；若为偶数，则将w_s添入集合B_i。反复以上步骤直到文件结束，得到所有的A_i和B_i，再依次统计T中属于A_i的词的个数，记为矢量vc中维度i的频率c_i，其中i＝1，2，...，n。最后得到文本T的矢量vc＝c₁，c₂，...，c_n，矢量提取流程结束。

提取文本T的矢量vc后，与设定好的水印矢量vw逐维相加，以嵌入水印信息，本发明嵌入水印信息的步骤如图3所示，包括：水印矢量vw是版权人根据版权信息设定的水印信息，以矢量的形式表现。水印矢量vw的维数与英文文本T的矢量vc的维数相等，vw的每一维vw_i是一个整数，且有vw_i为负时，vw_i的绝对值不大于T中属于集合A_i的词的个数，vw_i为正时，vw_i的值不大于T中属于集合B_i的词的个数，其中i＝1，2，...，n。复制文本T，得到一个新的文本T_w，设新文本T_w的文本矢量为vc’＝c₁’，c₂’，...，c_n’，则初始时有vc’＝vc。判断水印矢量vw的每个分量是否为正，如果vw_i＜0，即c_i+vw_i＜c_i’，那么找到文本T_w中一个属于集合A_i的词，将其替换成集合B_i中的词，因此，c_i’的值也就减小了1，反复这一替换过程，直到得到c_i’＝c_i+vw_i；如果vw_i＞0，即c_i+vw_i＞c_i’，那么找到文本T_w中一个属于集合B_i的词，将其替换成集合A_i中的词，因此，c_i’的值也就增大了1，反复这一替换过程，直到得到c_i’＝c_i+vw_i；如果vw_i＝0，则不做改变。其中，i＝1，2，...，n。通过这一过程，水印矢量分量vw_i被嵌入到新文本矢量分量c_i’中去。嵌入所有的水印矢量分量后，生成的新的文本T_w即成为嵌入水印后的文本，其矢量vc’＝vc+vw。也就是说新的文本T_w中已经嵌入了水印信息。

上述水印的嵌入过程结合图1，图2，图3进一步举例说明如下；首先读入英文文本T，接语句行进顺序识别并获得一个形容词/副词w(例：tremendous)，通过WordNet工具找到该词的同义词集合S_w(例：wondrous，enormous等)。如果S_w已做过标记，则跳过该词继续识别下一形容词/副词；如果S_w未做标记，则先标记S_w，利用word-book工具找到w的代理词w_d，用w_d和版权人的私钥信息k一起做单向哈希，得到的整数Z除以总的矢量维数，余数(例如余数为5)即作为分组号i(即词tremendous其同义词集合的分组号为5)。同时对S_w中的每个词w_s分别与版权人的私钥信息一起做单向哈希，得到的整数Z除以预先设置的分组数目n，余数若为奇数则将词w_s归入集合A_i，否则归入集合B_i(例，tremendous归入A₅，而wondrous则归入B₅)。重复上述过程，直到文本T中所有形容词/副词都被找到为止。之后，依次统计A_i中含有的T中词的个数(重复的也计算在内)，计为c_i，综合所有的c_i(i＝1，2，...，n)，得到文本T的矢量vc＝c₁，c₂，...，c_n。

得到矢量vc后，与设定好的水印矢量vw逐维相加。复制文本T，从而得到一个新的文本T_w。设新文本T_w的文本矢量为vc’＝c₁’，c₂’，...，c_n’，则一开始时有vc’＝vc。首先判断水印矢量第i维频率vw_i的值是否大于0。如果vw_i＜0(例，vw₅＝-2)，那么将文本T_w中一个属于集合A_i的词替换成集合B_i中的词(例，将tremendous换为wondrous，则c₅’＝c₅-1)，借此将c_i’的数值减1，反复这个步骤直到c_i’＝c_i+vw_i；如果vw_i＞0，那么将文本T_w中一个属于集合B_i的词替换成集合A_i中的词(例，将wondrous换为tremendous，则c₅’＝c₅+1)，借此将c_i’的数值加1，反复这个步骤直到c_i’＝c_i+vw_i；如果w_i＝0，则不做修改，最终使得c_i’＝c_i+vw_i。其中，i＝1，2，...，n。按照上述过程，将矢量vc的所有维度都与对应维度的vw相加之后，得到新的文本T_w和新的文本矢量vc’，即作为嵌入水印后的文本及其文本矢量。水印嵌入过程结束。

本发明的水印提取包括：读入嵌入水印的文本T_w’，对T_w’进行矢量提取，其过程和嵌入水印时相同(如图2所示)，在此不再重述，得到文本T_w’的矢量vc”＝c₁”，c₂”，...，c_n”。该步骤还可包括对水印的检测，具体步骤如图4所示，将新的矢量vc”和原先的文本T的矢量vc进行减法计算：vc”-vc＝vw’，得到的vw’就是提取出来的水印矢量。计算出vw’与原先的水印矢量vw的余弦相似度Q，再与给定的阈值σ进行比较，如果Q＞σ，则成功检测出水印，则认为所述英文文本T的版权人对于所述英文文本T_w’拥有版权；如果Q＜σ，则认为没有检测到水印，则认为所述英文文本T的版权人对于所述英文文本T_w’不拥有版权。

本发明中提到的WordNet工具是由美国Princetion大学认知实验室Miller等人开发研制成功的基于心理语言学原则的机器词典，其对同义词的定义为“如果两种表达方式在语言文本中相互替代而不改变其真值，则这两种表达就是同义的”。利用WordNet建立同义词库，可以有效地降低替换同义词时对原文文意的改变。

本发明中提到的代理词汇表word-book工具是在矢量提取之前，预先定义好的，其中每个单词代表一个同义/近义词集合，称为代理词，是将大量同义词分组的依据。定义该表的过程中，必须保证所有相关联的同义/近义词能且仅能被一个代理词代表，由此确保所有相关联的同义/近义词被分在同一组。

Claims

1.一种在文本中嵌入和提取频域水印的方法，其特征在于，所述水印嵌入包括以下步骤：

(1)读入英文文本T，

(4)利用代理词汇表word-book工具找出w的代理词w_d；

(9)设定与上述文本矢量vc对应的水印矢量vw＝vw₁，vw₂，...，vw_n，作为待嵌入的水印信息，水印矢量vw的每一维vw_i是一个整数，且当vw_i为负时，vw_i的绝对值不大于该英文文本T中属于A_i的词的个数，vw_i为正时，vw_i的值不大于该英文文本T中属于B_i的词的个数，其中i＝1，2，...，n；

(10)复制文本T得到一个新文本T_w；

所述水印提取包括以下步骤：

(13)读入英文文本T_w’；

(16)利用word-book工具找出w的代理词w_d；

2.如权利要求1所述的方法，其特征在于，所述的水印提取步骤还包括对水印的检测，具体步骤为：

(22)计算vw’与vw的余弦相似度，判断相似度是否大于设定的阈值，如果余弦相似度大于设定的阈值，则认为所述英文文本T的版权人对于所述英文文本T_w’拥有版权。