CN101930587A

CN101930587A - 水印信息扩展编码、嵌入、评估、检测提取方法和装置

Info

Publication number: CN101930587A
Application number: CN2009101477816A
Authority: CN
Inventors: 熊怀欣
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-06-19
Filing date: 2009-06-19
Publication date: 2010-12-29

Abstract

本发明提出了一种水印信息的扩展编码方法，一种水印信息嵌入、检测提取方法及装置。该在信息载体中嵌入水印信息的方法，包括：对待嵌入的水印信息进行扩展编码，使得该扩展编码后的水印信息中包含隐式模式，所述隐式模式是指扩展编码后的水印信息具有独立于扩展编码前的水印信息的、预定的分布规律和统计特性；以及将所述扩展编码后的水印信息嵌入所述信息载体中。其对应的检测提取方法则是利用所述隐式模式的统计及分布特征自适应地进行水印信息的提取和自纠正提取错误，同时根据隐式模式特征的量化结果得出水印信息提取可信度。根据本发明的嵌入扩展模式水印信息的方法和装置具有可视性好、抗打印扫描、自适应强、稳定性高的特点。

Description

水印信息扩展编码、嵌入、评估、检测提取方法和装置

技术领域

本发明一般地涉及信息工程和文档保护，具体涉及到数字水印的嵌入、评估与检测提取的方法和装置。

背景技术

数字水印技术是信息隐藏技术领域中的一个重要组成部分，它是将特定意义的信息利用数字处理方法以不易感知的方式隐藏在图像，音视频，文本等数字产品中并可通过一定的技术手段检测出被隐藏的信息。该技术可用于数字产品的版权保护、内容验证与防伪、操作跟踪及秘密通信等。根据信息载体的不同，数字水印可分为图像数字水印，音视频水印和文本数字水印等几个主要的类别。例如，文本数字水印领域的特点是水印信息隐蔽在由字符为主要元素的二值文本图像文件中。

现有的二值文本图像水印技术可分为与内容无关的技术和内容相关技术，前者又称为背景技术，是在文本图像之上产生由细小网点构成的一层灰底图像，利用网点空间分布的变化来隐藏水印信息，显然该技术视觉感较差并且会消耗过多的油墨。

与内容相关的水印技术则是利用文档中的字符图像的位置信息或象素点信息或与象素关联的高层信息(比如语义)进行水印的嵌入与检测。常见的方法有行移/字间距移，字结构微调以及字符边界象素的局部特征修改，上述方法大都在空域中完成水印的嵌入与检测，通常在检测前需对扫描得到的灰度图像作二值化处理。

美国专利US 6983056提供了一种利用分块象素特征在二值图像中嵌入水印的技术，在该专利中每一分割后的子块图像内部分做2部分，根据被嵌入信息的不同，令一部分黑色象素增加另一部分则减少来实现水印的嵌入；提取水印时候则令这两部分象素相减，通过与一定的阈值比较来最终确定水印信息。显然该阈值大小不仅与视觉效果紧密关联，也和其抗打印扫描能力紧密绑定，这两者是互为矛盾的，而文中并没给出平衡这个矛盾的技术手段。

国内公开号为CN 101119429A专利提供了一种按一定步长的奇偶数翻转字符轮廓线的方法来嵌入水印，该步长所代表的冗余和US6983056专利中阈值一样是其抗打印扫描攻击的关键所在，但其实际取值受打印及扫描深浅和二值化影响较大，文中只是简单给出步长的一个经验值，既没给出该步长适合的打印扫描条件，更没涉及到该步长的自适应提取的问题，这恰是该专利无法解决缩放检测及进一步提高视觉效果的关键所在，也是其抗打印扫描能力不足的一个因素(体现在对使用环境正常变化下的检测的不稳定，并没有效地规避不确定性因素)。类似使用步长概念的一系列专利大都存在同样不足，如CN1996381。

国内公开号为CN 1684115A提出一种基于字符拓扑结构的文本数字水印技术，其核心是通过改变字符字形的拓扑结构，设计出语义上相同字符的多种字形，对这些字形的拓扑结构进行编码。该技术没引进对不确定性因素(如二值化带来笔画的粘连)的处理，仅以拓扑结构的理论不变性作为抗打印扫描的前提，因而不可避免给视觉带来较大修改的痕迹，而且为不同的字符不同的字体设计出不同的拓扑结构，其工作量相当可观，同时在其技术中无论是水印的嵌入还是检测都需要先完成语义字符的识别即OCR处理，这无疑加大了实现的难度和复杂度。

文章A Text Watermarking Algorithm based on Word Classification andInter-word Space Statistics(Proceedings of the Seventh International Conferenceon Document Analysis and Recognition(ICDAR 2003 IEEE)提供了一种研究词的分类及在每一分类中利用词间距统计特征来嵌入水印的方法。具体说来通过同左右近邻词间距的大小比较来定义一个词的类型，两邻的几个词构成一个片段并依据词的类型自然获得一标识号，同标识号的片段构成一个类，通过研究并修改该类中所有词间距的统计特性比如均值和方差来实现水印的嵌入。该方法通过构建样本群，采用统计学的技术手段来消除打印扫描中的随机因素影响，但其能实现的水印容量过小。

以上现有技术在平衡视觉效果和抗打印扫描攻击能力方面存在或技术手段欠缺，或水印容量过小等不足。此外一个普遍的技术特点是这些技术在检测和提取水印信息时都以假定水印存在为前提，回避或少有提及如何科学地判断水印信息是否存在的问题(也有部分系统依靠有限的标记信息来判断水印存在与否，但该标记信息易与正常的编码信息混淆，导致其可信度同样受到质疑)。这个问题等价于，即使水印信息存在但因其所受破坏较大提取出数据已经不可信的时候如何对其可信度作出正确的评估和判定。

发明内容

本发明的目的之一是解决现有技术中难以做到水印信息容量，其隐藏的视觉效果和稳定检测能力三者同时兼顾的问题，特别是解决载体形式为印刷品情况下水印信息以高可信度自适应地正确检测和提取的问题。

不过需要注意的是，即使本发明的某一方面不能解决上述全部问题，也不能据此否定本发明该方面的技术方案。

根据本发明的一个方面，提供了一种水印信息在嵌入前编码的方法，包括：对该水印信息进行纠错编码；对纠错编码后的数据进行扩展编码，使得该扩展编码后的数据中包含隐式模式，所述隐式模式是指扩展编码后的数据具有独立于扩展编码前的预定的分布规律和统计特性；其中所述扩展编码是指采用新的编码码元集和新的变换规则改写原水印信息。

根据本发明的另一方面，提供了一种评估从信息载体中提取出的数字数据是否为预定水印信息的方法，包括：从信息载体中恢复出作为潜在水印信息的编码数据流；根据预定的隐式模式的特征，计算该恢复出的编码数据流具有该预定的隐式模式的特征中任一特征的概率；基于所计算出的各个特征概率来计算该编码数据流中存在预定的隐式模式的整体概率；通过把该计算出的整体概率与一定的阈值比较，来判断该恢复出的编码数据流中是否存在预定的隐式模式，从而判断该信息载体是否存在该预定水印信息，所述预定的隐式模式是指在预定水印信息中存在预定的可测量的分布规律和统计特性。

根据本发明的另一方面，提供了一种在二值文本图像中嵌入水印信息的方法，包括：对待嵌入的水印信息进行扩展编码，使得该扩展编码后的水印数据中包含隐式模式，所述隐式模式是指扩展编码后的水印数据具有独立于扩展编码前的水印信息的、预定的分布规律和统计特性，其中所述扩展编码是指采用新的编码码元或变换规律改写原水印信息；从二值文本图像中提取出高频出现的字符图像序列用于水印的嵌入，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成；为提取出的字符图像序列中每类字符设计变异并对变异后的字符图像和原字符图像赋予不同的编码；以及根据扩展编码之后的水印数据的编码流，参照字符的差异编码，修改该提取出的字符图像序列中的字符，从而实现水印信息的嵌入。

根据本发明的另一方面，提供了一种相应的二值文本图像中预定水印信息的检测提取方法，包括：从二值文本图像中提取出高频出现的字符图像序列，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成；根据同一高频字符序列内部变异特征属性的统计规律，及预定的字符变异和编码之间的对应关系，从高频出现的字符图像序列中恢复出编码数据流；根据预定的隐式模式的特征，判断该恢复出的编码数据流中是否存在该预定的隐式模式，从而判断该二值文本图像中是否存在该预定水印信息，所述预定的隐式模式是指在编码流中存在预定的分布规律和统计特性，其中该预定的隐式模式是通过对原始水印信息在嵌入到信息载体前进行扩展编码来构建的；在判断存在该预定水印信息的情况下，根据对原始水印信息进行扩展以构建该预定的隐式模式的扩展规则，反向从所述恢复出的编码数据流获得原始水印信息。

根据本发明的另一方面，提供了一种水印信息在嵌入信息载体前编码的装置，包括：纠错部分，用于对该水印信息进行纠错编码；水印改写部分，用于对纠错编码后的数据进行扩展编码，使得该扩展编码后的数据中包含隐式模式，所述隐式模式是指扩展编码后的数据具有独立于扩展编码前的预定的分布规律和统计特性；其中所述扩展编码是指采用新的编码码元集和新的变换规则改写原水印信息。

根据本发明的另一方面，提供了一种评估从信息载体中提取出的数字数据是否为预定水印信息的装置，包括：编码数据流恢复部分，用于从信息载体中恢复出作为潜在水印信息的编码数据流；隐式模式各特征概率计算部分，用于根据预定的隐式模式的特征，计算该恢复出的编码数据流具有该预定的隐式模式的特征中的任一特征的概率；隐式模式存在概率计算部分，用于基于所计算出的各个特征概率来计算该编码数据流中存在预定的隐式模式的整体概率；以及水印存在判断部分，用于通过把该计算出的整体概率与一定的阈值比较，来判断该恢复出的编码数据流中是否存在预定的隐式模式，从而判断该信息载体是否存在该预定水印信息，所述预定的隐式模式是指在预定水印信息中存在预定的可测量的分布规律和统计特性。

根据本发明的另一方面，提供了一种在二值文本图像中嵌入水印信息的装置，包括：水印扩展编码部分，用于对待嵌入的水印信息进行扩展编码，使得该扩展编码后的水印数据中包含隐式模式，所述隐式模式是指扩展编码后的水印数据具有独立于扩展编码前的水印信息的、预定的分布规律和统计特性，其中所述扩展编码是指采用新的编码码元或变换规律改写原水印信息；高频字符序列提取部分，用于从二值文本图像中提取出高频出现的字符图像序列用于水印的嵌入，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成；字符变异设计和编码赋予部分，用于为提取出的字符图像序列中每类字符设计变异并对变异后的字符图像和原字符图像赋予不同的编码；以及水印嵌入部分，用于根据扩展编码之后的水印信息的编码流，参照字符的差异编码，修改该提取出的字符图像序列中的字符，从而实现水印信息的嵌入。

根据本发明的另一方面，提供了一种二值文本图像中预定水印信息的检测提取装置，包括：高频字符序列提取部分，用于从二值文本图像中提取出高频出现的字符图像序列，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成；编码数据流恢复部分，用于根据同一高频字符序列内部变异特征属性的统计规律，及预定的字符变异和编码之间的对应关系，从高频出现的字符图像序列中恢复出编码数据流；以及水印存在判断部分，用于根据预定的隐式模式的特征，计算该恢复出的编码数据流中存在该预定的隐式模式的概率，从而判断该二值文本图像中是否存在该预定水印信息，所述预定的隐式模式是指在编码流中存在预定的分布规律和统计特性，该预定的隐式模式是通过对原始水印信息在嵌入到信息载体前进行扩展编码来构建的；水印数据自纠正部分，用于根据预定的隐式模式特征，对恢复出编码数据流进行局部错误自纠正处理。以及水印数据还原部分，用于在判断存在该预定水印信息的情况下，根据对原始水印信息进行扩展以构建该预定的隐式模式的扩展规则，反向从所述恢复出的编码数据流获得原始水印信息。

本发明的上述方面具有下述有益效果中的一项或多项：

1.水印信息并不独立附加在单个字符上，而是同一字符不同位置的组合，并受一定的隐式模式制约，具有信息隐蔽性好不易被察觉的特点。

2.对水印信息作模式扩展编码之后，其所呈现出的规律与原水印信息无关，即无论被隐蔽的信息是全0还是全1还是特定的01组合，其呈现出的模式特征不变，该特点可有效的抵制选择明文攻击。

3.本发明中对水印信息进行的隐式模式扩展编码，利用隐式模式独特的出现方式为小概率事件的特点，有效地解决了水印信息是否存在于信息载体的判断问题，且利用本发明提取出的水印信息其可信度可被量化。本发明是关于盲水印的设计和提取而不是盲目的去提取一个本不存在的水印信息。

4.选择重复概率较高的字符进行水印嵌入，并构建出带有明显统计特性的隐式模式，可利用统计学有关理论和方法，也可利用模式分析的反馈结果来指导水印信息的提取，有效的解决类似打印扫描过程存在诸多随机因素干扰的问题，确保水印检测与提取的稳定性。

5.可获得较好的视觉效果，这主要缘于字符的细微变异对于不同的字符是难以被观测和感知的，却容易在同一字符序列内部通过统计分析手段来获得其差异的区别，并且同一字符序列中的字符分散在文档的不同地方，人的视觉系统无法集中感知到其差别。

6.本发明中对字符底层变异的修改灵活，可根据实际情况比如文挡的语言字符大小特征以及对攻击的抵抗力的要求状况，灵活选择适当的修改地方和修改力度，不需要改变上层的检测的方法和相关程序，其扩展性高适应性强。

7.本发明提供的对水印信息的评估(检测)方法具有自适应性，即检测中所使用到的参数信息可从统计数据中自动获取，有力的解决了固定参数无法解决的缩放问题。

附图说明

通过结合附图对本发明各个实施例的详细描述，本领域的技术人员可以更好地理解本发明的上述和其它方面、特点和优点，其中在所有附图中使用相同或相似的附图标记来表示相同或者相似的部件，在附图中：

图1示出按照本发明实施例的水印信息扩展编码的流程图；

图2示出一种具体的隐式模式的实现方案和实现过程；

图3示出按照本发明实施例的评估信息载体中是否存在预定水印信息的方法流程图；

图4示出根据隐式模式特征来计算隐蔽模式出现概率的示意图；

图5示出按照本发明实施例的在二值文本图像中嵌入水印信息于高频字符序列的方法的流程图；

图6示出从二值文本图像中获取高频字符序列的方法；

图7示意性地示出同一字符两种字符变异样式效果；

图8示出按照本发明实施例的从二值文本图像中检测和提取预定水印信息的方法流程图；

图9示意性地示出字符加粗与未加粗在打印扫描后的字符象素点分布图；

图10示出一个根据隐式模式特征来修复水印编码信息的实施例；

图11示意性地示出水印信息扩展编码装置的框图；

图12示意性地示出评估水印信息是否存在的装置框图

图13示意性地示出在二值文本图象中嵌入水印信息的装置框图；以及

图14示意性地示出从二值文本图象中检测提取水印信息装置的框图。

具体实施方式

下面将结合附图详细描述本发明的具体实施例。如果考虑到对某些相关现有技术的详细描述可能会混淆本发明的要点，则不会在这里提供其详细描述。

在具体描述本发明的各个实施例之前，概述一下本发明，本发明提出了一种对水印信息进行扩展编码构建隐式模式的方法、一种评估从信息载体中提取出的数字数据是否为预定水印信息的方法、一种二值文本图象中利用隐式模式和高频字符序列的水印信息嵌入方法、相应的水印信息提取方法、和相应的装置。下面分别加以说明。

一、水印信息在嵌入信息载体前进行扩展编码构建隐式模式的方法

所述信息载体是指可以进行水印信息嵌入的任何数字信息承载形式，包括但不限于，数字图像、音频、视频、文本数字图像。

该方法对原始水印信息进行扩展编码来构建隐式模式，即扩展编码后的水印编码流中存在独立于原始水印信息的预定的分布规律和统计特征，下面将对此进行详细说明。

图1示出了按照本发明实施例的水印信息的扩展编码方法100的流程图。

如图1所示，在步骤110，对原始水印数据进行纠错编码或者加密处理，使得水印数据获得一定的纠错能力并增强安全系数，该纠错编码方法可选用公知的BCH5。

在步骤120，对纠错编码后的数据进行扩展编码，使得该扩展编码后的数据中包含隐式模式，所述隐式模式是指扩展编码后的数据具有独立于扩展编码前的预定的分布规律和统计特性，其中所述扩展编码是指采用新的编码码元集和新的变换规则改写原水印信息。此处新编码码元集指二进制中的数字集合{0，1}，或其它进制中的基本单元构成的集合。

步骤130，在扩展编码后的水印数据中插入同步信息编码，该同步信息编码是安插在水印数据中的特殊编码，旨在表明真正水印数据编码的开始和结束，并防止误差的扩散。

上述步骤110的纠错编码或加密操作和步骤130的同步信息编码插入操作相对于本发明方法而言是优选的，而不是必需的。

通过上述扩展编码后，新的码流数据中不仅包含原始水印信息，同时也包含了一种隐式模式信息。这里的隐式模式是指稳定且特别有别于常态下的一组分布特征和统计特征，因它们分散于码流数据中故命名为隐式模式。该隐式模式的一个显著特征是与原始的水印数据独立，即无论原始水印数据如何不同，该隐式模式依然存在且特征不变。

作为新的编码码元集合的一个示例，例如为二进制中的数字集合{0，1}，该码元集只包含2个编码的码元0和1。此处的码元只代表一种编码的符号，无具体的实指意义，因此该码元集也可等同表达为{U，M}(UM是英文Unmodified和Modified首字母的大写)。替代地，所述新编码码元集也可为其它进制中的基本单元构成的集合。

一种利用新的编码码元集{0，1}去改写原水印信息的变换规则是将原始信号中的比特“0”对应新码元的组合“01”，而比特“1”则对应新码元的组合“10”，即将原始水印编码流中的“0”用“01”替换，而将原始水印编码流中的“1”用“10”替换，从而得到扩展编码后的水印编码流。

另一种利用新的编码码元集{0，1}去改写原水印信息的变换规则是将原水印数据按比特位逐个取反后追加到原水印数据尾部中去形成新的水印编码流。特别指出的是新编码流中所呈现出的0和1不再是原水印信息中比特位的概念，而是转换为新码元对应的0和1符号。

本发明中有关利用新的编码码元集去改写原水印信息的方法不局限于上述两个具体变换规则，比如用新的码元组合“001”“100”分别对应原水印比特位0和1。一个限制是水印信息在采用新的编码码元经过变换改写后形成的码元符号序列(不区分地我们也称之为编码数据流)中其码元的出现具有一定独立于原水印信息的稳定的分布特征和统计特征，即包含了一种隐式模式信息。

图2示意性的给出了一种具体的水印信息的编码方案和编码过程的示例说明。

图2的(a)给出了一种具体的水印信息扩展编码方案，即采用新编码码元集{0，1}，按码元组01和10分别去替代原水印信息中的比特位数据0和1。同时分别将码元组0000和1111分别作为同步的开始和结束信号，并周期性地即按等间距的方式插入到上述重新编码后的水印码元符号序列中以表示真正水印信号编码的开始和结束。上述同步信号的具体码元组在本方案中只是个优选设计，表现在该同步信号的码元组与用于水印数据编码的码元组的极大不同，从而在最终的混合两者的码元序列中能够把该同步信息和水印信息无误地区分开去。显然表征同步信息的码元的组合方式和长度不限于此。

图2的(b)是一种利用上述扩展编码方案来构建隐蔽模式的具体实现样例。该样例里，最原始的水印数据比特流为“10101111100”，它对应的BCH(15，11)纠错编码后的比特数据为“011010101111100”，该水印数据应用图2(a)的所示的变换规则(用新码元组01和10分别去替代原水印信息中的比特位数据0和1)后得到码元序列为“011010011001100110101010100101”，该码元序列再均分为3个等长的片段并在每个片段的开始和结尾插入同步信号0000和1111，得到的最终码元序列为“000001101001101111000001100110101111000010101001011111”。

显然在采用图2所示的水印信息编码方案改写原水印信息后得到的码元序列中具有了如下特征表达的隐式模式：

1.码元组对{“0000”，“1111”}周期性出现在最终的码流中，示例中出现的次数是3；

2.每一码元组对{“0000”，“1111”}其出现的间隔长度是固定的，示例中出现的间隔是13(其中同步编码长度为8，中间实际水印数据的长度为5)；

3.在整个码元序列中码元“0”和“1”数量相等，该统计特性在本发明中另一发明内容“一种二值文本图像中基于隐式模式和高频字符序列的水印信息提取方法”里对编码数据的原始提取非常重要；

4.位于同步信号“0000”和“1111”之间的码元序列片段，从不出现连续3个及3个以上的码元“0”或“1”；

5.位于“0000”和“1111”之间的码元序列片段，若以相邻的2个码元为一码元对，则该码元对只可能是“01”或“10”，从不出现“00”或“11”该特征在水印数据提取时可用作码元自修复的依据。同时该特性连同特性4确保了同步信号编码与水印信号编码具有较大的辨识差异，即使它们混合在一起。

在没有特别说明的情况下，在对下面有关方法进行描述中，将采用图2所示的扩展编码方法作为示例加以解释。

根据本发明构造的隐式模式的特征稳定且与具体原始水印信号内容无关，既可抵制选择性明文攻击，也能作为有力的依据用于判断信息载体里是否承载着预定的水印信息，并可依据其特征的相似程度来确定提取出的水印信息的可信度。

在上述隐式模式的思想下尚有其它可选的模式设计方案可被应用，比如上面列举的采取不同的编码码元集和同步信息编码，或采用不同的变换规则，如多个原始数据中一个比特或者多个比特数据对应一个新的码元组，等等。

该扩展编码后的信息可作为输入数据经任何已知或将来的水印嵌入系统可最终嵌入到信息载体中去。

关于在信息载体中嵌入上述通过扩展编码构建了隐式模式的水印信息的方法，各种公知方法都可以采用，例如本发明背景技术中美国专利6983056、中国专利公开CN101119429A、中国专利公开CN1684115A、以及ICDAR 2003IEEE会议上所述文章中的水印信息嵌入方法。

二、一种评估从信息载体中提取出的数字数据是否为预定水印信息的方法

本发明中的评估不仅是给出是否存在预定水印信息的答案，同时也是指水印信息存在但因其受到破坏或检测环境不够理想情况下对其检测结果可信度的一种科学量化。

本发明方案的出发点是在评估水印信息提取结果时有效地利用对应于发明内容一中隐式模式的特征，即水印信息经重新编码后形成的码元序列中稳定地存在独立于扩展编码前的预定的分布规律和统计特性。本发明点的基本思想在于，如果信息载体中嵌入了包含隐式模式的水印信息，那么反向地，可以通过判断从信息载体中恢复出的潜在水印信息编码流中是否包含必然的隐式模式特征，又因隐式模式独特的出现方式为小概率事件的特点，进而据此来判断信息载体中是否嵌入了预定水印信息或判断提取出的水印信息是否可信。

如前所述，所述信息载体可以是数字图像、音频、视频、二值文本图像等等。

图3示出了本发明的实施总体流程图。

如图3所示，该评估方法200包括：步骤210，从信息载体恢复出作为潜在水印信息的编码数据流；步骤220，根据预定的隐式模式的特征，计算该恢复出的编码数据流具有该预定的隐式模式的特征整体概率；步骤230判断该计算出的整体概率是否大于预定阈值；如果步骤230的判断结果是肯定的，即大于给定的阈值，则在步骤240输出存在水印信息，反之则在步骤350判断不存在水印信息。所述预定的隐式模式是指在预定水印信息中存在预定的分布规律和统计特性。

在步骤210中，如本领域公知的，从信息载体中恢复出作为潜在水印信息的编码数据流的方法是与在嵌入水印信息时采取的方法的逆方法。例如，背景技术中所述的美国专利US6983056中公开的对应检测提取方法。

在步骤220中预定的隐式模式的特征是水印信息在嵌入前经重新编码后形成的码元序列中稳定地存在的不仅独立于扩展编码前而且别于常态的预定的分布规律和统计特性，特别指那些可被量化的特征。比如在图2已述的一种扩展方案中最终的码元序列里码元0和1的数量相同的特性。

图4来示意性地给出一种计算隐式模式出现概率的方法。其对于恢复出的编码流221，计算222各个特征出现的概率，最后汇集各个子特征的概率数据来计算223隐式模式整体的出现概率。

以图2所示的扩展编码方案为例，相应的在其水印经编码后最终形成的码元序列里码元0和1的数量相同，该特征在步骤210所获取到的编码流中出现的概率(或相似度)可定量表示为P₁＝1-abs(N₀-N₁)/(N₀+N₁)或

这里的“No”和“N1”指码元“0”和“1”的数量，显然P1是大于0小于1的，只有当No”等于“N1”是P1才等于1。相似地其它特征也能给出量化的计算，而整体的隐式模式出现概率可以如下计算

或此处的

P_i是各自的特征相似度或出现概率，a_i＞0是各个特征的加权值，显然这个整体的隐式模式发生概率(或称之为相似度)也是大于0小于1的。在获得隐式模式整体出现概率后，可通过比较该出现概率与一个预置的阈值来判断当前的编码流中是否存在水印信息。根据有关统计学理论，当该隐蔽模式出现概率大说明当前编码流中存在水印信息的可能性大，反之则可能性小。显然上述的计算公式只是一种易实现的实现隐式模式整体出现概率的计算方法，此外还有其它基于各自特征相似度的评判方法，比如采用机器学习分类的方式来进行的判别。

在完成预定水印信息是否存在于提取出的数字数据中的评估后，可根据评估的结果和其所关联的水印系统的需求继续下一步处理，比如在确认水印信息存在的前提下根据水印信息在嵌入前的扩展规则反向得到原始的水印数据等

三、一种在二值文本图像中嵌入水印信息于高频字符序列中的方法

本发明的核心思想是修改文本图像中高频字符序列的字符，使整个高频字符序列在其修改点上呈现出的整体特征与水印信息扩展之后隐含的模式统计特征一致。

图5给出了该二值文本图像中嵌入水印信息于高频字符序列的方法300的流程图。

如图5所示，在步骤310，按照本发明第一部分中所述的方法对水印进行扩展编码，使得该扩展编码后的水印数据中包含隐式模式，所述隐式模式是指扩展编码后的水印数据具有独立于扩展编码前的水印信息的、预定的分布规律和统计特性，其中所述扩展编码是指采用新的编码码元或变换规律改写原水印信息。作为本发明方法的一个优选实例，可按图2给出的一种具体的水印信息的编码方案来扩展水印信息以构建其对应的隐式模式信息。简言之，即以新码元集{0，1}为编码符号，结合变换规则将原水印中比特位为0和1分别替换为新码元的组合01和10，以之来编码原水印信息，并等间隔的插入同步信号0000和1111以表明真正水印数据的开始和结束，防止误差的扩散传播。

在步骤320，从二值文本图像中提取出高频出现的字符图像序列用于水印的嵌入，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成。后面将示例性地参考图6对获取高频字符序列进行详细说明。

在步骤330，为提取出的字符图像序列中每类字符设计变异并对变异后的字符图像和原字符图像赋予不同的编码。该变异不影响原字符图像所代表的字符的语义特征且能在经历打印扫描后从统计角度稳定地与原图区别出来。施加变异方法可与字符语义无关，比如加粗或变细，连通断开，加噪，高度变化等，也可与字符语义相关，比如对特定字符特定部位进行的特定变异设计。后面将参考图7示意性说明两种字符变异样式的效果。

在步骤340，根据水印信息的编码流，参照字符的差异编码，依次修改该提取出的字符图像序列中的字符，从而实现水印信息的嵌入。

上述方法的一个特点是将信息优先隐藏于在文档中重复频率较高的字符图像序列中，从而既使得水印信息分散隐藏在整个文档不同地方，又因同一字符在同一文档中反复出现所拥有的统计特性，进而可以在水印信息能被检测的情况下以最小化的修改实现数据的隐蔽，确保了视觉效果的不受损。

图6给出了如何从二值文本图像中提取高频字符序列的步骤说明。

在步骤321，从文本图像中分割出所有字符。此处的字符并不一定遵循严格意义上的完整字符的概念，而更多的是一个可稳定分割出的单元图像的概念，比如字符”j”在此视需要可折分为2个“字符”“.”和“J”。

在步骤322，把相同形状及大小的字符图像聚集成一类，并按扫描检测到的顺序组成一个字符序列。序列中的字符既包括图像自身的象素属性，也包括在它文档图像中的位置属性。多个字符序列形成序列组，通过字符序列组可重构出整个文档图像。字符分类的一个准则是同类中的字符具有相同的外形和尺寸。另外，由于文档在打印扫描后字符图像都会受到随机因素的影响而有一些差别，故在分类中得考虑误差的影响以确保分类的正确。

在步骤323，根据每个字符序列中包含的字符数量来排序不同的字符序列，按照字符数量从多到少顺序选取高频出现的字符图像序列。作为一种具体实现方式，可以对全部字符序列按序列内字符的个数进行降序排列，处于序列组前的字符序列必为文档中出现频率高的字符。然后在预定规则下选出部分字符序列用于水印信息的隐藏或检测。该预定规则的一种方案是取前面n个序列，或者选择序列长度大于某个值的序列。

采用高频字符序列用于嵌入水印信息能获得较好的统计性能，该性能能在水印检测中有效凸现出来。

在图5步骤330中所述的字符变异是指对字符图像依据一定的特性对其作出的微小修改，该改变在其视觉上不会导致其变异后的字符改变其语义特征，同时即使在打印扫描之后该改变能以量化的方式被检测到。该修改的样式即所依据的修改方法是灵活的，可根据实际情况(比如打印的材质，鲁棒性的要求等)来选择合适的修改样式(如加粗或变细，连通断开，加噪，高度变化等)及修改的力度，以达到既能保持抗打印扫描能力又能获得最好的视觉效果。作为一种具体实现，对应于{0，1}的编码码元集，一种实施变异的方法是对字符沿内轮廓线加粗，另一种则是压缩字符的字高或字宽。在这两种实施方法中可对未变异的字符赋予编码“0”，对变异后的字符赋予编码“1”，或者将字符变异相反方向(比如加粗和细化字符是变异方向相反的一对)的一方编码为0，另一方编码为1。图6给出了两种变异方法对字母“A”的修改效果，其中左边的一对字母“A”中，对于编码“1”对应的是加粗字符；而右边的一对字母“A”中，对于编码“1”对应的是压缩字符高度。显见当这些被修改后的字符分布在文档的不同的地方后，仅靠人眼是难以辨识的，然而计算机却可以在同一字符多个样本统计分析之后发现其区别，从而可以在进行水印信息检测和提取时正确提取出被隐藏的水印信息。

有了字符的变异和对变异的编码，步骤340的一种简单实施方式是对应于扩展编码后的水印码元序列和高频字符序列，同步依次逐个取出码元和字符，当码元序列所在码元为1时，则修改对应的高频字符，即用变异后的字符图像去取代在原文档图像上对应位置的字符，而当码元为0时，则不修改对应着的高频字符，即保持原字符图像不动。

需要注意的是，本发明上述实施例中，假设在进行信息嵌入时，对于最终水印编码流中的真实水印数据和同步信息编码采用同样的字符变异方式，比如均采用字符内轮廓加粗的方式以标明字符发生改变从而嵌入对应的码元1。但是，本发明不限于此，也可在同一水印系统中混合使用多种字符的变异方法，一个限制是不同的变异方法宜对应不同的高频字符序列。例如可以对于真实水印数据采用加粗字符的变异方式，而对于同步信息编码采用加高字符的变异方式，这种混合使用均可在发生改变的时候嵌入对应的码元1，未改变字符的情况下嵌入码元0。

上述的在二值文本图像中嵌入水印信息的方法，通过对文档字符的分类来提取高频字符序列，为每类高频字符指定变异并参照水印扩展编码后的码元序列来逐个选择性的修改文档字符图像，使得对通篇高频字符序列在其修改点上呈现出的整体特征与水印信息扩展之后隐含的模式统计特征一致。既由此完成了水印信息的嵌入，也为利用该隐式的模式所呈现出的分布规律和统计特性来实现水印信息的自适应检测奠定了基础。在上述技术中字符的变异设计只是最底层的修改环节，对其的检测并不完全依赖于其修改的力度，而是在隐式模式统计特性的指导下进行，因而能在视觉效果和抗攻击能力方面获得一定的平衡，这是和以往技术显著区别之处。

四、从二值文本图像中检测并提取出预定水印信息的方法

下面参考图8来说明二值文本图像中预定水印信息的检测提取方法400。

如图8所示，在步骤410，从二值文本图像中提取出高频出现的字符图像序列，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成。此步骤可以采用图6所示的方法，不过，提请注意的是，在检测过程，由于水印化后的文档在打印扫描后字符图像都会受到随机因素的影响加上部分字符自身存在变异设计因而有一些差别，故在分类中得考虑误差的影响以确保分类的正确。

在步骤420，根据同一高频字符序列内部变异特征属性的统计规律及在嵌入水印信息过程中预定的字符变异和编码之间的对应关系，从高频出现的字符图像序列中恢复出编码数据流。下面将对此进一步加以解释说明。

在步骤430，根据预定的隐式模式的特征，计算隐式模式出现概率，并基于计算得到的隐式模式出现的概率值来判断该恢复出的编码数据流中是否存在该预定的隐式模式，从而判断该二值文本图像中是否存在该预定水印信息。所述预定的隐式模式是指在编码流中存在预定的分布规律和统计特性，其中该预定水印信息是通过对原始水印信息进行扩展编码来构建该预定的隐式模式而获得的。有关本步骤的计算方法的实施例可参阅本发明内容中第2部分(一种评估从信息载体中提取出的数字数据是否为预定水印信息的方法)给出的阐述。

如果判断存在水印，则在步骤450，根据对原始水印信息进行扩展以构建该预定的隐式模式的扩展规则，反向从所述恢复出的编码数据流获得原始水印信息。然后，结束处理。

如果判断不存在水印，则直接结束处理。

关于步骤420中的恢复潜在水印信息编码流的实现方法，一个相应于前面水印嵌入过程中所述方案的实施例是通过辩识字符是否被修改来实现。通过对某一高频字符属性的统计分析，在假定存在预定的隐式模式特征下根据个体与整体属性的对比来判断出某一字符图象是否被修改。若该字符确认被修改，则其所代表的水印信息码元为1，否则为0。

下面参考图9说明如何根据高频字符个体与整体属性的对比来判断字符是否存在修改的原理。图9所示是实施字符内轮廓线加粗变异字符和未变异字符经过打印扫描后统计其象素特征得到的分布图。可见其双峰特征分布明显。类似地对字符高度施加压缩也存在类似的分布特征。考虑到图2所示的隐式模式构成中，码元“0”“1”数量相等，因此经历打印扫描之后对同一字符序列进行的统计分布图应具有同等的双峰结构，即理论上各自分布曲线具有相同的面积，该规律随字符序列越长越稳定。因此，可取两分布相交点处的黑点数(图9中竖虚线对应的横坐标)作为阈值，或者更通用地计算出所有同一字符序列中象素均值以之为阈值。通过与阈值相比可初步判断出单个字符是属于未修改的(小于阈值)还是修改之后的(大于阈值)，由此可简单地恢复出嵌入的编码流数据。

可见本发明依托于隐式模式的统计特征，根据高频字符序列内部字符的整体属性(黑点数，字高等等)可自适应地得到提取被嵌入水印信息过程中所需的关键阈值。该阈值又因基于多字符的统计结果得出，既从统计的角度消除了打印扫描中随机因素相互作用的影响，同时也避免了经验值指定时过多自然人主观因素参与的缺陷，使结果在更客观的同时，其适用的限制条件也得到了弱化(比如由此可解决那些在单一阈值下不能解决的缩放状态下水印的提取问题)。

需要说明的是，不同的隐式模式特征将对应不同的高频字符分布特征，由此导致的具体计算阈值的方法会有所差别。比如若使用码元组011和110分别替代原水印信息比特位0和1，则码元1的数量将是0的2倍，由此在高频字符属性的分布图上，可沿着属性值递增的方向，依次累加该属性值对应的字符个数，当字符个数达到整体字符总数的1/3时，取该对应的属性值为阈值。

顺便说一下，上述方法是在假定高频字符序列中已经嵌入了含有隐式模式的水印信息的情况下所实施的操作，倘若假定不成立，即水印原本不存在，则这种方式获取的编码流将呈现出随机状态，即01相间的分布规律将不复存在，这正是随后评估水印是否存在的一个统计依据。

有关利用隐式模式特征信息评估从信息载体中提取出的数字数据是否为预定水印信息的方法及具体的实施例已经在前面进行了阐述。在此值得重申的是本发明虽然是关于盲水印的提取，但不等于盲目的去提取一个原本不存在的或早已被损坏殆尽的水印信息，而是在判断水印信息存在的前提下才进行提取。同时相应地利用本发明提取出的水印信息的可信度可被具体量化，该量化值等于隐式模式特征出现的总体概率。

此外，优选地，在步骤440判断存在水印信息的情况下，在步骤450还原原水印数据之前，可以根据隐式模式的特征，对所述恢复出的编码数据流进行纠错校正。图10给出了一个例子，在这个例子中(a)是直接通过高频字符序列字符属性分布特征直接恢复出的编码流数据。根据图2所示扩展编码方式的隐式模式特征，两个相邻的字符所表达的编码理论上应为“01”或“10”，因此突出显示的两个码元符号其中一个必然是“0”，因此我们可通过直接将这2个码元所对应的字符进行比较来决定哪一个该为“0”哪一个为“1”。例如，原始中的“0”“1”是通过与同一序列中的黑点阈值比较得出的，则可能因打印扫描及二值化影响下其象素俱偏低被初步判断误识为“00”，则此时可以将这两个字符的黑点数直接比较，多者则修正为1，小的那一个则为0。(b)是经过自修复后得到的编码流。该根据隐式模式特征修复水印编码信息的特性不等同于纠错编码中利用冗余数据进行的纠错，乃是为本发明自适应阈值获取之外，又一自适应纠错的特有能力，由此可以进一步提高水印信息提取的准确率。

从码元序列恢复出原水印信息，该过程正是水印信息扩展编码的逆过程，技术人员可参照图2(b)所给出的扩展编码实施方法过程反向从最终的码元序列里获得原始的水印信息。

五、采用各方法的水印信息扩展编码装置、水印信息存在与否的评估装置、在二值文本图像中嵌入扩展编码水印信息的装置、水印信息提取装置

下面说明用于实现本发明各个方法的对应装置。

图11示出了根据本发明一个实施例的水印信息扩展装置500，包括：纠错编码部分510，用于对待嵌入的水印信息进行纠错编码；水印改写部分520，用于对待嵌入的水印信息进行扩展编码，使得该扩展编码后的数据中包含隐式模式，所述隐式模式是指扩展编码后的水印信息具有独立于扩展编码前的水印信息的、预定的分布规律和统计特性，其中所述扩展编码是指采用新的编码码元集和变换规则改写原水印信息；以及同步信息插入部分530，用于在扩展编码后的水印信息中周期性地插入同步信息编码。需要注意的是，本实施例的水印信息扩展编码装置500优选地包括该纠错编码部分510和同步信息插入部分530，但是也可以不包含此两部分。

图12示出了根据本发明一个实施例的水印信息评估装置600，包括：编码数据流恢复部分610，从信息载体恢复出作为潜在水印信息的编码数据流；隐式模式各特征概率计算部分620，用于根据预定的隐式模式的特征，计算该恢复出的编码数据流具有该预定的隐式模式的特征中的任一特征的概率；隐式模式存在概率计算部分630，基于所计算出的各个特征概率来计算该编码数据流中存在预定的隐式模式的概率；以及水印存在判断部分640，通过把该计算出的整体概率与一定的阈值比较，来判断该恢复出的编码数据流中是否存在预定的隐式模式，从而判断该信息载体是否存在该预定水印信息，所述预定的隐式模式是指在预定水印信息中存在预定的可测量的分布规律和统计特性。

图13示出了根据本发明另一实施例的在二值文本图像中嵌入水印信息的装置700，包括：水印扩展编码部分710，用于对待嵌入的水印信息进行扩展编码，使得该扩展编码后的水印数据中包含隐式模式，所述隐式模式是指扩展编码后的水印数据具有独立于扩展编码前的水印信息的、预定的分布规律和统计特性，其中所述扩展编码是指采用新的编码码元或变换规律改写原水印信息；高频字符序列提取部分720，用于从二值文本图像中提取出高频出现的字符图像序列用于水印的嵌入，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成；字符变异设计和编码赋予部分730，用于为提取出的字符图像序列中每类字符设计变异并对变异后的字符图像和原字符图像赋予不同的编码；以及水印嵌入部分740，用于根据扩展编码之后的水印信息的编码流，参照字符的差异编码，修改该提取出的字符图像序列中的字符，从而实现水印信息的嵌入。

图14示出了根据本发明另一实施例的二值文本图像中水印信息的检测提取装置800，包括：高频字符图像序列提取部分810，用于从二值文本图像中提取出高频出现的字符图像序列，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成；编码数据流恢复部分820，用于根据同一高频字符序列内部变异特征属性的统计规律，及预定的字符变异和编码之间的对应关系，从高频出现的字符图像序列中恢复出编码数据流；水印信息存在判断部分830，用于根据预定的隐式模式的特征，计算该恢复出的编码数据流中存在该预定的隐式模式的概率，从而判断该二值文本图像中是否存在该预定水印信息，所述预定的隐式模式是指在编码流中存在预定的分布规律和统计特性，该预定的隐式模式是通过对原始水印信息在嵌入到信息载体前进行扩展编码来构建的；以及水印数据还原部分840，用于在判断存在水印信息的情况下，根据对原始水印信息进行扩展以构建该预定的隐式模式的扩展规则，反向从所述恢复出的编码数据流获得水印信息。优选地，该检测提取装置800还包括水印数据自纠正部分，用于根据预定的隐式模式特征，对恢复出编码数据流进行局部错误自纠正处理。

需要说明的是，本发明的实施例可以通过硬件、软件、固件或它们的结合的方式来实现，其实现方式不对本发明的范围构成限制。

虽然上面已经结合附图示出并描述了本发明的一些实施例，但是本领域的技术人员应当理解，在不偏离本发明的原则和精神的情况下，可以对这些实施例做出变化和改变，所做的变化和改变仍然落在本发明及其等价物的保护范围之内。

Claims

1.一种水印信息在嵌入信息载体前编码的方法，包括：

对该水印信息进行纠错编码；以及

对纠错编码后的数据进行扩展编码，使得该扩展编码后的数据中包含隐式模式，所述隐式模式是指扩展编码后的数据具有独立于扩展编码前的预定的分布规律和统计特性；

其中所述扩展编码是指采用新的编码码元集和新的变换规则改写原水印信息。

2.根据权利要求1的方法，其中，所述新编码码元集指二进制中的数字集合{0，1}，或其它进制中的基本单元构成的集合。

3.根据权利要求1的方法，其中，在编码码元为{0，1}情况下，其所述扩展编码的变换规则为

将原来水印信息中的比特“0”用新码元的组合“01”替换，同时把原水印信息中的比特“1”用新码元的组合“10”替换，或

将原水印数据按比特位逐个取反后追加到原水印数据尾部。

4.如根据权利要求1的方法，其中：

该扩展编码后的水印信息作为输入数据通过水印嵌入系统嵌入到信息载体中。

5.根据权利要求1的方法，还包括：

在扩展编码后的水印信息中周期性地插入同步信息编码。

6.根据权利要求5的方法，其中：

所述同步信息编码与该扩展编码后的水印信息不同，从而在最终的水印信息中能够把该同步信息编码和该扩展编码后的水印信息区分开。

7.根据权利要求6的方法，其中所述同步信息编码在权利要求3所述的变换规则下为码元的组合对{“0000”，“1111”}，其中“0000”表示水印数据的开始，而1111”表示数据的结束

8.一种评估从信息载体中提取出的数字数据是否为预定水印信息的方法，包括：

从信息载体中恢复出作为潜在水印信息的编码数据流；

根据预定的隐式模式的特征，计算该恢复出的编码数据流具有该预定的隐式模式的特征中的任一特征的概率；

基于所计算出的各个特征概率来计算该编码数据流中存在预定的隐式模式的整体概率；以及

通过把该计算出的整体概率与一定的阈值比较，来判断该恢复出的编码数据流中是否存在预定的隐式模式，从而判断该信息载体是否存在该预定水印信息，所述预定的隐式模式是指在预定水印信息中存在预定的可测量的分布规律和统计特性。

9.一种在二值文本图像中嵌入水印信息的方法，包括：

对待嵌入的水印信息进行扩展编码，使得该扩展编码后的水印数据中包含隐式模式，所述隐式模式是指扩展编码后的水印数据具有独立于扩展编码前的水印信息的、预定的分布规律和统计特性，其中所述扩展编码是指采用新的编码码元和变换规律改写原水印信息；

从二值文本图像中提取出高频出现的字符图像序列用于水印的嵌入，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成；

为提取出的字符图像序列中每类字符设计变异并对变异后的字符图像和原字符图像赋予不同的编码；以及

根据扩展编码之后的水印信息的编码流，参照字符的差异编码，修改该提取出的字符图像序列中的字符，从而实现水印信息的嵌入。

10.根据权利要求9的方法，其中，所述水印信息扩展编码中采用的新编码码元集指二进制中的数字集合{0，1}，或其它进制中的基本单元构成的集合。

11.根据权利要求9的方法，其中，所述水印信息扩展编码在编码码元为{0，1}情况下，所使用的变换规则为

将原水印数据按比特位逐个取反后追加到原水印数据尾部。

12.根据权利要求11的方法，在扩展编码后的水印信息中周期性地插入同步信息编码{“0000”，“1111”}。

13.根据权利要求9的方法，还包括：

在扩展编码之前，对待嵌入的水印信息进行纠错编码。

14.根据权利要求9的方法，所述从二值文本图像中提取出高频出现的字符图像序列的步骤包括：

从文本图像中分割出所有字符；

把相同形状及大小的字符按照位置的先后顺序排列来组成一个字符序列；以及

根据每个字符序列中包含的字符数量来排序不同的字符序列，按照字符数量从多到少顺序选取高频出现的字符图像序列。

15.根据权利要求9的方法，其中，所述变异为从下述各项中的至少一种：字符的加粗、变细、连通、断开、加噪、高度变化、特定部位的特定变异。

16根据权利要求9，11，11中任一项的方法，其中将未修改的字符编码为0，已修改过的字符编码为1，或将字符变异相反方向的一方编码为0，另一方编码为1。

17.一种二值文本图像中预定水印信息的检测提取方法，包括：

从二值文本图像中提取出高频出现的字符图像序列，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成；

根据同一高频字符序列内部变异特征属性的统计规律，及预定的字符变异和编码之间的对应关系，从高频出现的字符图像序列中恢复出编码数据流；

根据预定的隐式模式的特征，计算该恢复出的编码数据流中存在该预定的隐式模式的概率，从而判断该二值文本图像中是否存在该预定水印信息，所述预定的隐式模式是指在编码流中存在预定的分布规律和统计特性，该预定的隐式模式是通过对原始水印信息在嵌入到信息载体前进行扩展编码来构建的；以及

在判断存在该预定水印信息的情况下，根据对原始水印信息进行扩展以构建该预定的隐式模式的扩展规则，反向从所述恢复出的编码数据流获得原始水印信息。

18.根据权利要求17的方法，还包括：

在判断存在水印信息的情况下，根据隐式模式的特征，对所述恢复出的编码数据流进行局部纠错校正。

19.根据权利要求17的方法，还包括：

对所获得的水印信息进行纠错解码。

20.根据权利要求17的方法，其中：

在所述提取高频出现的字符图像序列的步骤中，以一定的容忍误差将同类字符中经过变异的字符和未经变异的字符归入同一字符图像序列中。

21.根据权利要求17的方法，所述从高频出现的字符图像序列中恢复出编码数据流的步骤包括：

根据预定的字符变异的样式，来统计该字符图像序列中与该字符变异的样式对应的特征，以获得该特征的统计分布；

根据所获得的统计分布及隐式模式的统计特征，自动获得用于判断字符图像序列中字符是否经过预定的字符变异的阈值；

根据所获得的阈值，判断字符图像序列中的字符是否经过变异；以及

基于所述对字符图像序列中的字符是否经过变异的判断，根据字符变异与编码之间的对应关系，从该字符图像序列中恢复出编码数据流，该编码数据流为新编码码元组成的符号序列。

22.根据权利要求21，其中，所述预定的字符变异的样式是加粗或变细，所统计的特征是各个字符的黑点总数。

23.根据权利要求21，其中，所述预定的字符变异的样式是变高或变矮，所统计的特征是各个字符的高度。

24.根据权利要求17，其中，所述计算该恢复出的编码数据流中存在该预定的隐式模式的概率的步骤包括：

计算该恢复出的编码数据流具有该预定的隐式模式的特征中的任一特征的概率，基于所计算出的各个概率计算得到该编码数据流中存在该预定的隐式模式的概率。

25.根据权利要求17，其中，该扩展规则为以新编码码元的组合“01”和“10”分别替换原水印信息的比特“0”和“1”以及在经替换后得到的水印信息比特率中周期性地加入同步信息编码，同步信息编码为码字对{“0000”，“1111”}，

以及所述从所述恢复出的编码数据流获得水印信息的步骤包括：

从编码数据流中去除同步信息编码，以原编码比特位的值“0”和“1”分别依次替换新编码的码元组合“01”和“10”。

26.一种水印信息在嵌入信息载体前编码的装置，包括：

纠错部分，用于对该水印信息进行纠错编码；以及

水印改写部分，用于对纠错编码后的数据进行扩展编码，使得该扩展编码后的数据中包含隐式模式，所述隐式模式是指扩展编码后的数据具有独立于扩展编码前的预定的分布规律和统计特性；

27.一种评估从信息载体中提取出的数字数据是否为预定水印信息的装置，包括：

编码数据流恢复部分，用于从信息载体中恢复出作为潜在水印信息的编码数据流；

隐式模式各特征概率计算部分，用于根据预定的隐式模式的特征，计算该恢复出的编码数据流具有该预定的隐式模式的特征中的任一特征的概率；

隐式模式存在概率计算部分，用于基于所计算出的各个特征概率来计算该编码数据流中存在预定的隐式模式的整体概率；以及

水印存在判断部分，用于通过把该计算出的整体概率与一定的阈值比较，来判断该恢复出的编码数据流中是否存在预定的隐式模式，从而判断该信息载体是否存在该预定水印信息，所述预定的隐式模式是指在预定水印信息中存在预定的可测量的分布规律和统计特性。

28.一种在二值文本图像中嵌入水印信息的装置，包括：

水印扩展编码部分，用于对待嵌入的水印信息进行扩展编码，使得该扩展编码后的水印数据中包含隐式模式，所述隐式模式是指扩展编码后的水印数据具有独立于扩展编码前的水印信息的、预定的分布规律和统计特性，其中所述扩展编码是指采用新的编码码元或变换规律改写原水印信息；

高频字符序列提取部分，用于从二值文本图像中提取出高频出现的字符图像序列用于水印的嵌入，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成；

字符变异设计和编码赋予部分，用于为提取出的字符图像序列中每类字符设计变异并对变异后的字符图像和原字符图像赋予不同的编码；以及

水印嵌入部分，用于根据扩展编码之后的水印信息的编码流，参照字符的差异编码，修改该提取出的字符图像序列中的字符，从而实现水印信息的嵌入。

29.一种二值文本图像中预定水印信息的检测提取装置，包括：

高频字符序列提取部分，用于从二值文本图像中提取出高频出现的字符图像序列，每个字符图像序列由相同形状及相同大小但是位于二值文本图像中不同位置的字符图像组成；

编码数据流恢复部分，用于根据同一高频字符序列内部变异特征属性的统计规律，及预定的字符变异和编码之间的对应关系，从高频出现的字符图像序列中恢复出编码数据流；

水印存在判断部分，用于根据预定的隐式模式的特征，计算该恢复出的编码数据流中存在该预定的隐式模式的概率，从而判断该二值文本图像中是否存在该预定水印信息，所述预定的隐式模式是指在编码流中存在预定的分布规律和统计特性，该预定的隐式模式是通过对原始水印信息在嵌入到信息载体前进行扩展编码来构建的；以及

水印数据还原部分，用于在判断存在该预定水印信息的情况下，根据对原始水印信息进行扩展以构建该预定的隐式模式的扩展规则，反向从所述恢复出的编码数据流获得原始水印信息。

30.根据权利要求29的检测提取装置，还包括水印数据自纠正部分，用于根据预定的隐式模式特征，对恢复出编码数据流进行局部错误自纠正处理。