CN104637026A

CN104637026A - 一种基于连续多页文本图像水印嵌入与提取方法

Info

Publication number: CN104637026A
Application number: CN201510069878.5A
Authority: CN
Inventors: 王泉; 万波; 潘蓉; 李建平; 陈瑞林; 艾平
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-02-10
Filing date: 2015-02-10
Publication date: 2015-05-20
Anticipated expiration: 2035-02-10
Also published as: CN104637026B

Abstract

本发明公开了一种基于连续多页文本图像水印嵌入与提取方法，具体步骤包括：水印置乱；单页文本图像二值化；划分区域；计算文本覆盖率和连通面积；在DCT域嵌入水印；提取水印。从而在一定程度上解决文本水印算法容量低的问题。本发明能够根据实际水印容量需求和具体的文本图像完成水印的嵌入和提取过程，并且提取效果较好，文本图像在经过打印和扫描过程后，提取到的水印数据与原始水印图像的相似度都在90％以上。此外，通过在连续多页文本图像中嵌入并成功提取水印数据，本发明整体上提高了水印的嵌入容量，从而能够提供足够的水印容量来对连续多页文本文档的版权进行鉴定和保护，进而提高文本水印技术的实用性。

Description

一种基于连续多页文本图像水印嵌入与提取方法

技术领域

本发明涉及一种基于连续多页文本图像水印嵌入与提取方法，属于文本图像版权保护技术领域。

背景技术

随着网络与数字产品的快速发展，版权意识与版权保护越来越被人们所关注。数字水印技术作为数字产品身份认证和版权保护的重要方法，也因此受到越来越多的重视与研究。大多数数字产品(文件、书籍、合同等)都是以打印后的文本形式保存和传递，文本文档包含着丰富的内容与信息，是人们沟通和交流信息必不可少的一部分，对文本文档的版权进行保护显得尤为重要。

据统计结果显示，世界上高达80％的信息量都是通过文本信息来传递的，相比其他媒介，文本信息的信息传达量相当高。随着打印机、扫描仪等高质量输入输出设备的广泛应用，许多数字文本作品被任意地复制和传播，以致出现大量的假冒盗版文本作品，使得文本作品的版权受到严重威胁。因此，如何保护文本作品的版权成为了研究人员日益关注的问题。在图像和视频等数字载体中，都包含了足够多的冗余数据，使得对载体做的少量更改对人类知觉系统不会产生较大的影响，从而水印容量较大。而对于文本信息，由于包含的冗余信息过少，嵌入少量的信息就会对文本信息产生很大的影响，使得文本水印容量较小，这种特性给文本水印技术带来了巨大的难题和挑战。

从文本水印的传统实现方式上分析，文本水印方法主要可以分为基于文本结构的方法、基于句法结构的方法、基于文本语义的方法和基于图像的方法。基于文本结构的方法只适合一些可以改变结构的文本，而不能应用于文档结构不允许改变的文本。基于句法结构和基于文本语义的方法中，由于句法结构与文本语义的表示比较复杂，使得水印的嵌入过程需要花费较大的代价，时间复杂度高，不利于水印的使用。现阶段，越来越多的方法都把文本文档转化为普通图像来进行处理，因为基于图像的方法不仅不具有其他方法的不足，而且在水印容量上明显高于其他方法。

大多数的文本水印算法都是以文本图像中的行或字作为水印嵌入的基本单位，如陈瑞琳提出，以行为基本单位，算法的不变量为打印扫描前后每行中黑色像素点的个数与整个文本图像中每行的黑色像素点个数的平均值，根据具体的水印信号，对文本图像中的像素进行一定数量的翻转，从而对该不变量进行某种意义上的约束，算法中使用的约束为控制该不变量为一个预先设定的常数的偶数倍或奇数倍，从而嵌入水印信息。李姗姗提出通过对行空间和字空间的控制在文本图像中嵌入水印信息，在水印提取过程中，把行空间和字空间的规律解析成具体的水印信号。在这些文本水印算法中，都存在一个共同的缺陷：水印容量较小，并且都是基于单张文本图像。现有的文本水印算法只能以少量的二进制序列作为水印信息进行嵌入。在数字图像水印技术中，常用的水印信息为具有标识信息的图像。文本水印算法的容量低使得这种标识图像不能作为水印信息嵌入在文本载体中，这大大限制了文本水印算法的实用性。

现有的文本图像水印算法的水印容量较低，通常只能以少数二进制序列值作为水印数据，单张文本图像的水印容量满足不了实际应用对水印容量的需求。

发明内容

本发明的目的在于提供一种基于连续多页文本图像水印嵌入与提取方法，旨在解决现有的抗打印扫描文本水印算法中嵌入水印容量较低，满足不了实际的水印容量需求，不能够对文本文档版权进行保护的问题。

本发明是这样实现的，一种基于连续多页文本图像水印嵌入与提取方法包括：连续多页文本图像水印嵌入方法和连续多页文本图像水印提取方法。

本发明水印嵌入过程的具体步骤为：

(1)将水印数据W进行Arnold变换后，分割成长度为z的子序列，W_i(i＝1,2,3,…,M_max)表示水印信息子序列集合；

(2)从文本文档图像集合中取出一页文本图像X，并二值化处理；

(3)将二值文本图像X分成M1*N1的区域，X_i(i＝1,2,3,…,N_max)表示分区后的图像的某个区域，N_max表示原始图像子区域的最大个数，N_max由下式计算得到：

N_{\max} = \frac{M * N}{M 1 * N 1}

(4)针对分区后图像的每一个区域，计算该区域的文本覆盖率k；文本覆盖率指的是该区域中黑色像素点的个数占像素点总个数的比例，k由下式计算得到：

k = \frac{black}{M 1 * N 1}

其中，black表示黑色像素点的个数，M1*N1表示该区域总像素点的个数。若某个区域的文本覆盖率k小于预先设定的阈值t，则认为该块文本字符个数较少，纹理复杂度较低，不适合在该区域中嵌入水印信息，对该块不进行任何的处理；若k大于预先设定的阈值t，则该区域作为一个嵌入水印的有效区域，并将该区域加入到有效区域集合WX中。令WX_i(i＝1,2,3,…,M_max)表示某个有效区域，M_max表示文本图像中有效区域的总数量；

(5)令Z表示该文本图像中能够嵌入的最大的水印容量，则Z通过下式计算得到：

Z＝M_max*z

其中，z表示每个区域能够嵌入的水印容量，M_max表示有效区域的个数；水印数据的容量为Z'＝m*n,更新剩余需要嵌入的水印容量dz，dz＝dz-Z，dz初值为Z′；

(6)依次从有效区域集合中取出一个区域WX_i进行分块操作，分块的个数为64；令B_i(i＝1,2,3,…,64)表示该区域的分块的集合；分别计算每一分块的连通面积；令NB_i表示某一块中黑色像素点的个数，NA_i表示该块中像素点的总个数；则该块的连通面积S_i通过下式计算得到：

S_{i} = \frac{{NB}_{i}}{{NA}_{i}} \times L

其中L为一常数，用于调整计算过程中的精确度，减少计算过程中产生的误差；WXi中一共有64个分块，每一个分块对应一个连通面积S_i，这64个连通面积值组成了该区域的连通面积矩阵M，M为8×8的矩阵；

(7)对连通面积矩阵进行DCT变换，得到变换后的系数矩阵C，根据实际需要嵌入的水印容量修改变换后的高频系数。首先，Zig-Zag遍历系数矩阵C，得到一维向量C_i(i＝1,2,3,…,64)，w_j表示嵌入的水印序列，则修改方式如下式所示：

C_{i}^{'} = \{\begin{matrix} K & w_{j} = 1 \\ - K & w_{j} = 0 \end{matrix}, j &Element; {1,2, . . . z}, i = 64 - j + 1

把修改后的系数矩阵C'通过逆DCT变换，得到修改后的连通面积矩阵M'。其中K为临界值，在这个范围内修改高频系数，M和M'的变化量最小；通过比较M和M'，得到矩阵中每个元素的变化量，即该区域中每一个分块B_i的连通面积的改变量，从而计算每一个分块中黑色像素个数的变化量。黑色像素个数的变化量N_i通过下式计算得到：

N_{i} = \frac{{NA}_{i} \times (M^{'} (j, k) - M (j, k))}{L}, i &Element; {1,2 . . . 64}, j &Element; {0,1 . . . 7}, k &Element; {0,1 . . . 7}

(8)根据Ni计算每个像素分块中翻转的像素点。若N_i＝0，不需要对该像素块进行像素翻转操作；若N_i>0，需要把像素块中N_i个白色像素点翻转为黑色像素点，像素块中黑色像素点增加N_i；若N_i<0，需要把像素块中N_i个黑色像素点翻转为白色像素点，像素块中黑色像素点减少N_i。翻转方法如下式所示：

(9)判断剩余需要嵌入的水印容量dz是否为0，若dz不为0，则说明水印未全部嵌入，需要更多的文本图像作为载体，转至步骤(2)继续执行水印的嵌入过程；若dz＝0，则说明水印全部嵌入，结束水印的嵌入过程。

所述水印提取过程的具体步骤如下：

(10)从文本载体图像集合中取出一页文本图像X，并二值化处理；

(11)把X划分为大小为M1*N1的区域，得到图像区域集合X_i(i＝1,2,3,…,N_max),N_max表示分区后图像区域的个数；

(12)计算区域集合X_i中每个区域的文本覆盖率k。如果某个区域的文本覆盖率k大于预定的阈值t，则认为该区域中包含有水印信息，将该区域加入到包含水印信息的区域集合WX_i(i＝1,2,3,…,M_max)中，M_max表示二值文本图像中有效区域的个数；如果该区域的文本覆盖率k小于阈值t，则认为该区域不包含水印信息，不对该区域进行任何处理。文本覆盖率k的计算方式与水印嵌入时的计算方式相同；

(13)从包含水印信息的区域集合WX_i(i＝1,2,3,…,M_max)中取出一个，该区域分成大小相同的64个子块，计算每个分块的连通面积，最终得到该区域的连通面积矩阵M；

(14)对连通面积矩阵M进行DCT变换，矩阵C表示变换后得到的系数矩阵。按照与Zig-Zag相反的顺序遍历系数矩阵C得到一维向量C_i(i＝1,2,3,…,64)。通过比较高频系数与临界值K的符号是否相同，来判断在该系数上嵌入的水印信号。如果高频系数Ci与K符号相同，则水印信号为1；如果符号不同，则水印信号为0。K的值与嵌入水印时候K的值相同。水印信号判断方法如下式所示：

\{\begin{matrix} C_{i} \times K > 0 & w_{j} = 1 \\ C_{i} \times K < 0 & w_{j} = 0 \end{matrix}, j &Element; {1,2, . . . z}, i = 64 - j + 1

通过这种比较，最终得到该区域中长度为z的水印信息的子序列；

(15)包含在该文本图像中的水印信息容量为Z＝z*M_max，根据公式sz＝sz+Z更新已提取到的水印信息容量sz,。比较sz与原始水印容量的大小，若sz<m*n，则说明水印信息未提取完全，需要更多的文本载体图像，转至步骤(10)，继续执行水印提取过程；否则说明水印信息全部提取，则将提取到的水印信息进行Arnold逆变换，得到最终的水印图像，结束完整的水印提取过程。

本发明提供的基于连续多页文本图像水印嵌入与提取方法，通过将全部的水印信息分别嵌入在连续多页文本图像上，并且又能够从连续多页文本图像上提取到完整的水印信息，可以避免由于单张文本图像水印容量低而不能嵌入大量水印的情况，从而解决文本水印算法容量低的问题。本发明通过在连续多页文本图像中成功嵌入并提取水印数据，整体上提高了水印的嵌入容量，从而能够提供足够的水印容量来对文本文档的版权进行鉴定和保护。此外，本发明能够根据实际需求完成水印的嵌入和提取过程，并且提取效果较好，在打印和扫描条件下提取到的水印数据与原始水印图像的相似度都在90％以上，因此，基于连续多页文本图像嵌入水印的方法能够很好地解决文本水印算法容量不足的问题，从而间接地提高了水印容量和文本水印技术的实用性，达到对文本文档版权保护的目的。

附图说明

图1是本发明实施例提供的基于连续多页文本图像水印嵌入方法流程图；

图2是本发明实施例提供的基于连续多页文本图像水印提取方法流程图；

图3和图4是本发明实施例提供的文本图像集合中的连续两页文本图像；

图5是本发明实施例提供的原始水印图像示意图；

图6和图7是本发明实施例提供的图3和图4的载体图像示意图；

图8是本发明实施例提供的提取到的水印图像示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

为了便于描述，令P表示文本图像集合；令X表示经二值处理后的某一页文本图像，大小为M*N；令W表示需要嵌入的水印信息，W是一幅大小为m*n的二值图像；设图像分区大小为M1*N1，每个区域中嵌入的水印序列的最大容量为z，剩余需要嵌入的水印容量大小为dz；定义有效区域覆盖率的阈值为t；令WX表示文本图像中有效区域集合。

如图1所示，本发明实施例的基于连续多页文本图像水印嵌入方法包括以下步骤：

(1)将水印数据W进行Arnold变换后，分割成长度为z的子序列，W_i(i＝1,2,3，…,M_max)表示水印信息子序列集合；

(2)从集合P中取出一页文本图像X，并二值化处理；

(3)将二值文本图像X分成M1*N1的区域，X_i(i＝1,2,3,…,N_max)表示分区后的图像的某个区域，N_max表示原始图像子区域的最大个数，N_max可由下式计算得到：

N_{\max} = \frac{M * N}{M 1 * N 1}

(4)针对分区后图像的每一个区域，计算该区域的文本覆盖率k；文本覆盖率指的是该区域中黑色像素点的个数占像素点总个数的比例，k可由下式计算得到：

k = \frac{black}{M 1 * N 1}

其中，black表示黑色像素点的个数，M1*N1表示该区域总像素点的个数；如果某个区域的文本覆盖率k小于预先设定的阈值t，则认为该块文本字符个数较少，纹理复杂度较低，不适合在该区域中嵌入水印信息，对该块不进行任何的处理；如果k大于预先设定的阈值t，则该区域可以作为一个嵌入水印的有效区域，并将该区域加入到有效区域集合WX中；令WX_i(i＝1,2,3,…,M_max)表示某个有效区域，M_max表示文本图像中有效区域的总数量；

(5)令Z表示该文本图像中能够嵌入的最大的水印容量，则Z可以通过下式计算得到：

Z＝M_max*z

其中，z表示每个区域能够嵌入的水印容量，M_max表示有效区域的个数；水印数据的容量为Z'＝m*n,更新剩余需要嵌入的水印容量dz，dz＝dz-Z，dz的初值为Z′；

(6)从有效区域集合中取出一个区域WX_i进行分块操作，分块的个数一般为64；令B_i(i＝1,2,3,…,64)表示该区域的分块的集合；分别计算每一分块的连通面积；连通面积指的是像素块中黑色像素点的个数占总像素点个数的比例；令NB_i表示某一块中黑色像素点的个数，NA_i表示该块中像素点的总个数；则该块的连通面积S_i可以通过下式计算得到：

S_{i} = \frac{{NB}_{i}}{{NA}_{i}} \times L

其中L为一常数，用于调整计算过程中的精确度，减少计算过程中产生的误差；本发明实验中L取为1000；WX_i中一共有64个分块，每一个分块对应一个连通面积S_i，这64个连通面积值组成了该区域的连通面积矩阵M，M为8×8的矩阵；

(7)对连通面积矩阵进行DCT变换，得到变换后的系数矩阵C，根据实际需要嵌入的水印的容量修改DCT变换后的高频系数。首先，Zig-Zag遍历系数矩阵C，得到一维向量C_i(i＝1,2,3,…,64)，w表示嵌入的水印序列，则修改方式如下式所示：

C_{i}^{'} = \{\begin{matrix} K & w_{j} = 1 \\ - K & w_{j} = 0 \end{matrix}, j &Element; {1,2, . . . z}, i = 64 - j + 1

把修改后的系数矩阵C'通过逆DCT变换，得到修改后的连通面积矩阵M'；其中K为临界值，在这个范围内修改高频系数，M和M'的变化量最小。通过比较M和M'，可以得到矩阵中每个元素的变化量，即该区域中每一个分块B_i的连通面积的改变量，从而可以通过下式计算每一个分块中黑色像素个数的变化量N_i：

N_{i} = \frac{{NA}_{i} \times (M^{'} (j, k) - M (j, k))}{L}, i &Element; {1,2 . . . 64}, j &Element; {0,1 . . . 7}, k &Element; {0,1 . . . 7}

(8)根据Ni计算得到每个像素分块中适合翻转的像素点。若N_i＝0，不需要对该像素块进行像素翻转操作；若N_i>0，需要把像素块中N_i个白色像素点翻转为黑色像素点，像素块中黑色像素点增加N_i；若N_i<0，需要把像素块中N_i个黑色像素点翻转为白色像素点，像素块中黑色像素点减少N_i。像素翻转采用翻转性分数高者优先翻转原则，翻转方法如下式所示：

如图2所示，本发明实施例提供的基于连续多页文本图像水印提取方法包括以下步骤：

(12)计算区域集合X_i中每个区域的文本覆盖率k，如果某个区域的文本覆盖率k大于预定的阈值t，则认为该区域中包含有水印信息，将该区域加入到包含水印信息的区域集合WX_i(i＝1,2,3,…,M_max)中，M_max表示二值文本图像中有效区域的个数；如果该区域的文本覆盖率k小于阈值t，则认为该区域不包含水印信息，不对该区域进行任何处理。文本覆盖率k的计算方式与水印嵌入时的计算方式相同；

(13)从包含水印信息的区域集合WX_i(i＝1,2,3,…,M_max)中取出一个区域，把该区域分成大小相同的64个子块，计算每个分块的连通面积，最终得到该区域的连通面积矩阵M；

\{\begin{matrix} C_{i} \times K > 0 & w_{j} = 1 \\ C_{i} \times K < 0 & w_{j} = 0 \end{matrix}, j &Element; {1,2, . . . z}, i = 64 - j + 1

通过这种比较，最终可以得到该区域中长度为z的水印信息的子序列；

(15)包含在该文本图像中的水印信息容量为Z＝z*M_max,更新已提取到的水印信息容量sz,sz＝sz+Z,比较sz与原始水印容量的大小，如果sz<m*n,则说明水印信息未提取完全，需要更多的文本载体图像，转至步骤(10)，继续执行水印提取过程；否则说明水印信息全部提取，则将提取到的水印信息进行Arnold逆变换，得到最终的水印图像，结束完整的水印提取过程。

下面结合仿真图对本发明效果做进一步的描述。

在水印嵌入实验中，采用的打印机型号为Color LaserJet CP2025，假设需要打印的文本图像为图3、图4以及更多的文本图像，图5表示需要嵌入的水印数据。文本覆盖率的阈值设置为0.08，每个图像子区域大小设置为256×256，将图3进行区域划分、覆盖率筛选后的有效载体区域的数量为16，每个有效区域的水印容量设置为10bit，所以图3最终能够嵌入的水印容量为160bit。由于图3的水印嵌入容量小于原始水印容量256bit，在图3中嵌入水印后，需要读入下一张文本图像，即图4。通过这种连续读入图像的方法，使得水印数据能够全部嵌入到文本图像中。实验中，将图4进行区域划分、覆盖率筛选后的有效区域的数量为20，根据每一个有效区域的容量计算该文本图像的最终水印容量为200bit。该容量大于剩余需要嵌入的水印容量，因此当读取到图4时，在图4中嵌入剩余需要嵌入的水印数据，即可完成一次水印数据的完整嵌入过程。

图6和图7分别为图3和图4在嵌入水印后经打印扫描得到的文本图像。实验过程中扫描仪型号为EPSON Perfection 1200U，扫描分辨率设置为600dpi。在水印提取时，每个图像子区域大小设置为256×256，将图6进行区域划分、覆盖率筛选后的有效载体区域的数量为16，由于每个子区域嵌入的水印容量为10bit，所以在图6中最终能够提取到的水印数据为160bit，而需要提取的水印图像的容量为256bit，因此可以判定水印数据是基于多页文本图像嵌入，需要继续对后续的文本图像进行读取以提取剩余的水印数据。将图7进行区域划分、覆盖率筛选后的有效区域数量为20，因此嵌入在该文本图像中的水印数据容量为200bit，可以判断剩余需要提取的水印数据全部包含在该文本图像中。因此，对该文本图像中的水印数据进行提取后，和前面已提取到的水印数据合并起来，再经过Arnold逆变换后，得到最终的水印图像，即可完成一次完整的水印数据的提取过程。

图8表示本次实验过程中最终提取到的水印数据，与原始水印图像的相似度为91.8％。从提取效果来看，与基于单张图像的提取效果基本没有差别，水印算法抵抗打印扫描攻击的能力并没有被削弱。表1表示实验过程中的各项数据和参数。

表1连续多页文本图像实验数据及参数

本发明通过多次的随机实验说明，基于连续多页文本图像水印嵌入与提取方法都能够根据实际需求完成水印的嵌入和提取过程，并且提取效果较好。文本图像在经过打印和扫描过程后，提取到的水印数据与原始水印图像的相似度都在90％以上。因此，基于连续多页文本图像嵌入水印的方法能够很好地解决文本水印算法容量不足的问题，在外界看来，这种方法与基于单页图像的嵌入方法没有区别，间接地提高了水印容量，从而可以提高文本水印技术的实用性，达到对文本文档版权保护的目的。

由于文本图像的特点使得文本水印容量较低，单页文本图像提供的水印容量往往小于实际的水印容量需求。因此，为了能够完整嵌入水印数据，必须基于多页文本图像。在水印嵌入过程中，动态地确定所需文本图像的页数，然后在这些文本图像中嵌入水印数据。在水印提取过程中也是基于连续多页文本图像进行提取。通过基于连续多页文本图像作为水印数据的载体，可以进一步地提高水印容量，从而提高文本水印的实用性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于连续多页文本图像水印嵌入与提取方法，其特征在于，包括水印嵌入和水印提取两个过程；

所述水印嵌入过程的具体步骤为：

步骤一，将大小为m×n的二值图像作为水印数据W进行Arnold变换后，分割成长度为z的子序列，W_i(i＝1,2,3,…,M_max)表示水印信息子序列集合；

步骤二，从文本图像集合P中取出其中一页文本图像，大小为M*N，进行二值化处理，记为X；

步骤三，将二值文本图像X分成M1*N1的区域，X_i(i＝1,2,3,…,N_max)表示分区后的图像的某个区域，N_max表示原始图像子区域的最大个数，N_max由下式计算得到：

N_{\max} = \frac{M * N}{M 1 * N 1};

步骤四，针对图像分区后的每一个区域，计算文本覆盖率k；

步骤五，令Z表示该文本图像中能够嵌入的最大的水印容量，则Z通过下式计算得到：

Z＝M_max*z；

步骤六，依次从有效区域集合中取出一个区域WX_i，将WX_i进行分块操作；

步骤七，分别计算每一分块的连通面积，对连通面积矩阵进行DCT变换，得到变换后的系数矩阵C，根据实际需要嵌入的水印容量修改DCT变换后的高频系数；

步骤八，根据N_i的值计算得到每个像素分块中翻转的像素点。若N_i＝0，不需要对该像素块进行像素翻转操作；若N_i>0，需要把像素块中N_i个白色像素点翻转为黑色像素点，像素块中黑色像素点增加N_i；若N_i<0，需要把像素块中N_i个黑色像素点翻转为白色像素点，像素块中黑色像素点减少N_i；

步骤九，判断剩余需要嵌入的水印容量dz是否为0，若dz不为0，则说明水印未全部嵌入，需要更多的文本图像作为载体，转至步骤二继续执行水印的嵌入过程；若dz＝0，则说明水印全部嵌入，结束水印的嵌入过程；

所述水印提取过程的具体步骤如下：

步骤一，从文本载体图像集合中取出一页文本图像X，并二值化处理；

步骤二，把X划分为大小为M1*N1的区域，得到图像区域集合X_i(i＝1,2,3,…,N_max),N_max表示分区后图像区域的个数；

步骤三，计算区域集合X_i中每个区域的文本覆盖率k，某个区域的文本覆盖率k大于预定的阈值t，则认为该区域中包含有水印信息，将该区域加入到包含水印信息的区域集合WX_i(i＝1,2,3,…,M_max)中，M_max表示二值文本图像中有效区域的个数；该区域的文本覆盖率k小于阈值t，则认为该区域不包含水印信息，不对该区域进行任何处理；文本覆盖率k的计算方式与水印嵌入时的计算方式相同；

步骤四，得到包含水印信息的区域集合WX_i(i＝1,2,3,…,M_max)，对集合WX_i中的一个区域分成大小相同的64个子块，计算每个分块的连通面积，最终得到该区域的连通面积矩阵M；

步骤五，对连通面积矩阵M进行DCT变换，矩阵C表示变换后得到的系数矩阵；按照与Zig-Zag相反的顺序遍历系数矩阵C得到一维向量C_i(i＝1,2,3,…,64)；通过比较高频系数与临界值K的符号是否相同，来判断在该系数上嵌入的水印信号。高频系数Ci与K符号相同，则水印信号为1；符号不同，则水印信号为0。K的值与嵌入水印时候K的值相同；

步骤六，包含在该文本图像中的水印信息容量Z＝z*M_max，更新已提取到的水印信息容量sz,sz＝sz+Z，比较sz与原始水印容量的大小。如果sz<m*n，则说明水印信息未提取完全，需要更多的文本载体图像，转至步骤一，继续执行水印提取过程；否则说明水印信息全部提取，则将提取到的水印信息进行Arnold逆变换，得到最终的水印图像，结束完整的水印提取过程。

2.如权利要求1所述的基于连续多页文本图像水印嵌入与提取方法，其特征在于，文本覆盖率指的是该区域中黑色像素点的个数占像素点总个数的比例，某个区域的文本覆盖率k小于预先根据实验设定的阈值t，则认为该块文本字符个数较少，纹理复杂度较低，不适合在该区域中嵌入水印信息，对该块不进行任何的处理；k大于预先设定的阈值t，则该区域作为一个嵌入水印的有效区域，并将该区域加入到有效区域集合WX中；令WX_i(i＝1,2,3,…,M_max)表示某个有效区域，M_max表示文本图像中有效区域的总数量。

3.如权利要求1所述的基于连续多页文本图像水印嵌入与提取方法，其特征在于，依次从有效区域集合中取出一个区域WX_i，将WX_i进行分块操作，分块的个数为64；令B_i(i＝1,2,3,…,64)表示该区域的分块的集合；分别计算每一分块的连通面积；令NB_i表示某一块中黑色像素点的个数，NA_i表示该块中像素点的总个数；则该块的连通面积S_i通过下式计算得到：

S_{i} = \frac{{NB}_{i}}{{NA}_{i}} \times L;

其中L为一常数，用于调整计算过程中的精确度，减少计算过程中产生的误差；WXi中一共有64个分块，每一个分块对应一个连通面积S_i，这64个连通面积值组成了该区域的连通面积矩阵M，M为8×8的矩阵，这里的连通面积指的是像素块中黑色像素点的个数占总像素点个数的比例。

4.如权利要求1所述的基于连续多页文本图像水印嵌入与提取方法，其特征在于，所述对连通面积矩阵进行DCT变换，得到变换后的系数矩阵C，根据实际需要嵌入的水印容量修改DCT变换后的高频系数。进一步包括以下步骤：

Zig-Zag遍历系数矩阵C，得到一维向量，w_j表示嵌入的水印序列，则修改方式如下式所示：

C_{i}^{'} = \{\begin{matrix} K & w_{j} = 1 \\ - K & w_{j} = 0 \end{matrix}, j &Element; {1,2, . . . z}, i = 64 - j + 1;

把修改后的系数矩阵C'通过逆DCT变换，得到修改后的连通面积矩阵M'；其中K为临界值，此时M和M'的变化量最小；通过比较M和M'，得到矩阵中每个元素的变化量，即该区域中每一个分块B_i的连通面积的改变量，从而计算每一个分块中黑色像素个数的变化量；黑色像素个数的变化量N_i通过下式计算得到：

N_{i} = \frac{{NA}_{i} \times (M^{'} (j, k) - M (j, k))}{L} i &Element; {1,2, . . . 64}, j &Element; {0,1, . . . 7}, k &Element; {0,1 . . . 7} .

5.如权利要求1所述的基于连续多页文本图像水印嵌入与提取方法，其特征在于，翻转方法由下式所示：

6.如权利要求1所述的基于连续多页文本图像水印嵌入与提取方法，其特征在于，水印信号判断方法如下式所示：

\{\begin{matrix} C_{i} \times K > 0 & w_{j} = 1 \\ C_{i} \times K < 0 & w_{j} = 0 \end{matrix}, j &Element; {1,2 . . . z}, i = 64 - j + 1;

通过这种比较，最终得到该区域中长度为z的水印信息的子序列。