CN101639826B

CN101639826B - 一种基于中文句式模板变换的文本隐藏方法

Info

Publication number: CN101639826B
Application number: CN200910023743XA
Authority: CN
Inventors: 何路; 房鼎益; 陈晓江; 马广平
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2009-09-01
Filing date: 2009-09-01
Publication date: 2012-07-04
Anticipated expiration: 2029-09-01
Also published as: CN101639826A

Abstract

本发明公开了一种基于中文句式模板变换的文本隐藏方法，该方法利用计算机系统对文本信息进行水印的嵌入与提取，从而实现对文本信息的隐藏，该方法包括如下步骤：(1)对电子文档进行预处理；(2)生成水印信息记，并给定密钥；(3)词性标注模块对步骤(1)生成的无格式文档进行词性标注，输出句子的词性标记串；(4)组块标注模块对步骤(3)输出的词性标记串进行化简；(5)加载模板模块选择句式模板；(6)水印嵌入模块嵌入水印信息；(7)输出嵌入水印后的隐藏文本；(8)水印提取模块利用密钥提取隐藏文本中的水印信息。本方法通过模板改写句子，避开对语法、语义的复杂理解和处理，使得载体文本更加符合语法、语义习惯，避免盲目的改写。

Description

一种基于中文句式模板变换的文本隐藏方法

技术领域

本发明属于信息隐藏和数字水印技术领域，具体涉及一种基于中文句式模板变换的文本隐藏方法。

背景技术

信息隐藏是信息安全领域一个新兴的、也是非常重要的研究领域。自从20世纪90年代各国开始研究数字媒体信息隐藏技术以来，已有相当数量的研究成果问世。所谓信息隐藏即将秘密信息隐藏到一般的非秘密的数字媒体文件(如图像、声音、文档)中，从而不让对手发觉的一种方法。由于含有隐藏信息的媒体发布是公开的，而可能的检测者难以从公开信息中判断隐藏信息是否存在，更加难以截获隐藏信息，从而达到保证信息的安全的目的。

从技术应用领域上，信息隐藏技术可以分为数字密写、数字水印、数字指纹等技术。密写术或隐写术是利用掩盖载体携带秘密信息，以达到秘密通信的目的，载体携带的信息量和抗检测能力是衡量该技术的主要标准。数字水印是指用信号处理的方法在数字化的多媒体数据中嵌入标记，以证实作者的版权或者确认信息未被篡改。根据实际应用的不同，这些标记可以是可见的或不可见的，可以是鲁棒的或是脆弱的。数字指纹是在数字内容中嵌入与用户有关的信息，当发现数字内容泄密后，就可根据嵌入在数字内容中的数字指纹来跟踪泄密者。

当前用于图像、视频方面的水印嵌入方法有很多，且多数都比较有效，但这些方法大部分不适用于文档的结构和特性，同时也没有利用文档的结构和特性来进行检测。所以相比之下，文本数字水印技术还不是很成熟。然而，实际生活中许多文字类文档(如契约、遗嘱、文件、合同、单据等)比音频、视频、图像等多媒体信息更有价值，并且数字图书馆也以电子形式保存了大量受版权保护的文章、杂志及书籍。若文本数字水印技术能解决版权问题，传媒业中几乎所有的报刊、杂志、书籍、文件等均可通过网络传播，可节省大量人力、物力和时间，降低成本。

另外，大力推行的电子政务方面，也有大量电子文件在网上流动，如果这类文件被篡改，将会产生严重的后果。文本数字水印和指纹技术能提供一种追踪文本被非法复制、发行或伪造的方法。因而研究文本数字水印技术迫在眉睫。

而在文本数字水印领域，基于自然语言的文本水印又占有重要的一席之地。所谓基于自然语言的文本水印就是把秘密信息嵌入到文字的语义、语法结构当中，具有抗格式修改以及格式转换的能力。通过将文档内容粘贴到无格式的txt文档、光学字符识别(OCR)，甚至手工重新录入的方法，都不能破坏嵌入的秘密信息。但是，现有的基于自然语言处理技术的信息隐藏方法都高度依赖自然语言深层处理技术。一般通过深层分析把载体文本解析成句法、语义树或语义网络，然后在这些结构上运用乔姆斯基的变换理论进行改写。目前深层分析技术还有一些基本问题没有突破，解析的正确率有限，如对于汉语句法分析，正确率平均只能达到75％-80％左右，解析的错误必然导致改写的句子不符合语义或语用习惯；另外，乔姆斯基的变换理论只是抽象的宏观原则，不加限制的运用这些原则改写句子也必然导致改写后的句子不符合语法、语用习惯，甚至语义不同，破坏了载体文本的使用价值，违背了信息隐藏最基本的隐蔽性要求。因此使得基于自然语言处理的信息隐藏技术很难具体实现。

其实基于自然语言的文本水印的目的只是希望通过语法、语义结构的变换提高信息隐藏系统的鲁棒性，在保证文本内容意思不变的情况下做相应的变换，并不一定非要做深层分析。在自然语言处理技术中，我们注意到中文分词和词性标注这样基础的分析工具正确率分别可以达到97.58％和95％，已经进入实用阶段。另外一方面，自然语言语句是词的序列，处于序列中的词具有特定的词性，借助于中文分词和词性标注的研究成果，自然语言的语句可以变换为词性标记串，而词性标记串本质上就是句型或句式，就是句子语法结构的抽象。

因此，在文本水印领域，提出一种基于中文句型词性标记串，进行变换隐藏信息方法，具有可行性和研究价值。

发明内容

本发明的目的是在避免依赖自然语言深层处理技术的前提下，提供一种基于中文句式模板变换的文本隐藏方法，该方法可以利用中文句型模板的变换来进行文本信息隐藏。

为了实现上述技术任务，本发明采取如下技术方案：

一种基于中文句式模板变换的文本隐藏方法，该方法利用计算机系统对文本信息进行水印的嵌入与提取，从而实现对文本信息的隐藏，所述的计算机系统至少包括：

改写模板库，用来存储所有的中文句式，以词性标注串来表示中文句型或句式，而词性标注是用现有的中文分词工具标注出中文的汉字、词语，或者短语的词性；

约束库，把字词按概念、范畴等的粗细等归类，再把实际的语言包含着许多语用习惯、因词而异的特例和分类作为针对具体语境应用模板时的约束，形成约束库；通过约束可以把可能不合乎汉语语法、语用习惯的变换过滤掉；

电子文档预处理模块，用以向系统提交待保护的电子文档，并对电子文档中的内容进行句子切分预处理操作；

词性标注模块，利用现有的中文分词工具，对文档文本中的句子进行词性标注，提取出句子中的词性串；

组块标注模块，用以将句子的词性串进行化简，找出句子中的短语，从而合并词性串；

水印生成模块，用以将秘密信息，或版权信息等需要隐藏的信息量化为一组数字；

加载模板模块，用以加载改写模板库和约束库中全部句式模板或其子集；

水印嵌入模块，用以向待保护的电子文档中嵌入水印信息；

水印提取模块，用以提取已经嵌入水印的文本中的水印信息；

其中所述的电子文档预处理模块、词性标注模块、组块标注模块和水印嵌入模块依次相连，改写模板库、约束库、加载模板模块和水印提取模块依次相连，其中，加载模板模块与组块标注模块相连后与水印生成模块分别与水印嵌入模块相连；其基于中文句式模板变换的文本隐藏方法，包括以下步骤：

步骤一，将待保护的电子文档原始文本输入至电子文档预处理模块，由电子文档预处理模块对电子文档原始文本进行预处理，将电子文档原始文本切分成句子，并转换为无格式的txt格式文档；

步骤二，利用水印生成模块对待保护的电子文档原始文本生成要嵌入的秘密信息，即水印信息，并将该水印信息记为w，并给定密钥记为k，随机生成大素数记为p；

步骤三，词性标注模块对步骤一生成的无格式txt格式文档进行词性标注，输出句子的词性标记串；

步骤四，组块标注模块对步骤三输出的词性标记串进行化简；

步骤五，加载模板模块首先对改写模板库进行解密，然后根据大素数P，利用二次剩余理论给改写模板库节点随机编码，选取其中全为0或1的节点作为嵌入秘密信息时使用的改写模板库，记为TP’；最后利用大素数P给TP’中节点即改写变换后的词性序列串进行编码，完成模板的加载过程；

步骤六，水印嵌入模块利用步骤五选择的改写变换后的词性序列串来匹配步骤三输出的模板集合，并根据匹配约束条件来判断是否进行句式变换来嵌入步骤二生成的水印信息；

步骤七，输出嵌入水印后的隐藏文本；

步骤八，水印提取模块利用密钥k提取隐藏文本中的水印信息w。

所述的改写模板库其提取包括以下步骤：

(1)借鉴汉语言语法研究成果，根据句式变换分析结果对相关句子进行匹配改写，并人工验证其正确性，当改写后的句子同时满足语法与语义要求时，抽取出模板及约束条件，重新再回到语料库进行匹配及改写，验证模板的改写效果及覆盖率，直至错误的概率在可接受的范围之内；

(2)将步骤(1)中经验证的模板添加到改写模版库。

上述步骤六所述的水印嵌入方法包括如下步骤：

(1)将水印生成模块生成水印信息利用密钥k加密并转换为二进制串记为B，水印信息的长度记为L；

(2)加载模板，首先将以密文形式存储的改写模板库记为TP进行解密；然后根据大素数P，利用二次剩余理论给TP节点即改写模板对进行随机编码0或1；选取其中全为0(或1)的节点作为嵌入秘密信息时使用的改写模板库，记为TP’；最后利用大素数P给TP’中节点即改写变换后的词性序列串进行编码，完成模板的加载过程；

(3)词性标注和组块化简，首先利用ICTCLAS分词工具对文本T分词及词性标注，然后利用自动机对其进行组块化简，并将结果存入链表List中；

(4)匹配模板，将List链表中每个句子简化后的词性序列S’与改写模板库TP’进行匹配，当找到匹配的改写模板，同时满足约束条件时，将当前句子及匹配的改写模板信息添加到sentenceList列表中，依次处理链表List中所有句子，直到所有匹配的句子均添加到sentenceList中为止；

(5)改写句子，根据秘密信息B的长度L，将sentenceList列表分成L个子集，根据秘密信息B中的比特值，按照规则依次选取sentenceList列表的子集当中的一个句子，利用对应的改写模板对其只最多进行一次句子变换，实现秘密信息的嵌入；

(6)依次对秘密信息B按照步骤(5)进行处理，直到所有秘密信息嵌完为止，得到嵌入隐藏信息后的文本T’。

上述步骤八所述的水印提取方法具体包括如下步骤：

(a)利用密钥K，对以密文形式存储的改写模板库TP进行解密；

(b)加载模板，根据大素数P和二次剩余理论获得嵌入隐藏信息时的改写模板库TP’；

(c)对嵌入隐藏信息后的文本T’做词法分析及组块化简处理，将结果存入链表List中；

(d)将List链表中句子List与改写模板库TP’进行匹配，当找到匹配节点，同时满足约束条件时，获取该节点对应的编码，即得到该句所承载的比特信息，将该比特信息添加到数组中，记为数组A；

(e)依次对List链表中所有句子进行步骤(d)处理，直到得到嵌入的加密信息B；

(f)利用密钥K对B进行解密，即得到嵌入的秘密信息W。

本发明的基于中文句式模板变换的文本隐藏方法，其主要的有益效果主要表现在以下几个方面：

1.通过模板改写句子，避开对语法、语义的复杂理解和处理。

2.利用句子模板改写句子使得载体文本更加符合语法、语义习惯，避免盲目的改写。

3.通过选择适当的模板，可以使隐藏信息的文本范围更广，包括小说、口语等。

4.通过改写模板可以将词法、语法、语义变换统一到一个理论框架，提高混乱度，达到更高的容量和安全性；

5.扩展性好，随着汉语语言学不断地深入研究，我们只需要添加或修改相应的改写模板和约束规则。

附图说明

图1为本发明所涉及的计算机系统结构图。

图2本发明水印嵌入的实施流程图。

图3本发明提取改写模板的基本过程。

图4本发明加载模板流程图。

图5本发明改写模板的匹配流程图及例证说明。

图6本发明水印嵌入流程图。

图7本发明水印提取流程图。

图8为本发明具体实施例原始文本内容。

图9为本发明具体实施例原始文本内容嵌入水印后的文本内容。

图10为发明具体实施例原始文本内容同义词替换后文本内容。

图11为发明具体实施例原始文本内容同义词替换后词性标注结果。

图12为发明具体实施例原始文本内容词性标注结果。

图13为发明具体实施例原始文本内容同义词替换后提取的水印信息。

图14为发明具体实施例原始文本内容删除原文中第四句提取的水印信息。

图15为发明具体实施例选择素数59093嵌入的水印效果。

图16为发明具体实施例选择素数55631嵌入的水印效果。

图17为发明具体实施例选择素数59093嵌入的水印承载句。

图18为发明具体实施例选择素数55631嵌入的水印承载句。

以下结合附图和实施例对本发明做进一步说明。

具体实施方式

本发明的基于中文句式模板变换的文本隐藏方法，其基本思路是：以句型系统为参照系，根据汉语语法的研究成果直接编写模板，避开对自然语言的深层分析，建立一个仅使用词性标注串描述的中文句型——句式层次系统，在该句型系统上建立以改写模板为基础的词法、句法和语义变换系统。把改写模板作为汉语语法的语言原则，即“形式语法系统”。把因词而异的不规则语言现象从语法运算系统送进“扩展词库”作为约束库，按概念、范畴等的粗细对字词归类，把这些规则和分类作为针对具体语境应用模板时的约束。因为“形式语法系统”是最抽象的一般变换原则，实际的语言包含着许多语用习惯、特例等。通过约束可以把可能不合乎汉语语法习惯的变换过滤掉。

在现有句法变换算法的基础上，本文借鉴机器翻译中模板的思想，结合汉语结构及语义表达的特点，把句法变换用改写模板的形式表示出来。利用约束，通过模板改写句子，避免句子改写的盲目性，使得改写后的载体文本更加符合语法、语义习惯，保证算法的隐蔽性。由于自然语言结构复杂多样，语义表达千变万化，例如在一个句子中，宾语成分可能简单到一个名词，也能复杂到一个带有多种修饰成份的名词短语，或者宾语本身又是一个句子，因此需要结合汉语组块识别技术来化简、规范句子，以此提高模板的覆盖度及正确率。利用句式表达的多样性进行编码以保证算法的鲁棒性和安全性；根据模板的覆盖度和多样性保证隐藏算法的容量、鲁棒性。

本文方法选取Windows XP操作系统为工作平台，.NET为开发平台，.NET平台由公共语言运行库CLR(Common Language Runtime)，Visual Studio.NET开发语言和类库三部分组成。.NET Framework提供的强大类库及基于面向对象设计的C#语言，大大方便了系统的开发。本文原型系统中使用MicrosoftVisual Studio 2005为开发环境，开发语言为C#。以下结合附图对本发明进行详细论述。

参见图1，本发明的基于中文句式模板变换的文本隐藏方法，该方法利用计算机系统对文本信息进行水印的嵌入与提取，从而实现对文本信息的隐藏，所述的计算机系统至少包括：

电子文档预处理模块，用以向系统提交待保护的电子文档，并对电子文档中的内容进行句子切分，字符格式转换等预处理操作；

加载模板模块，用以加载改写模板库中全部句式模板或其子集；

水印嵌入模块，用以向待保护的电子文档中嵌入水印信息；

其中所述的电子文档预处理模块、词性标注模块、组块标注模块和水印嵌入模块依次相连，改写模板库、约束库、加载模板模块和水印提取模块依次相连，其中，加载模板模块与组块标注模块相连后与水印生成模块分别与水印嵌入模块相连。

以下结合附图对本发明的相关内容做进一步详细分析。

1、词法与组块分析

自然语言处理过程包括词法分析、语法分析、语义分析和语用分析。目前，词法分析技术已经比较成熟，而语法分析、语义分析等是自然语言处理中的瓶颈和难点。基于这种现状，有人提出组块分析的概念，以一种“分而治之”的方法来降低完全句法分析的难度，通过组块(Chunk)的概念，一方面将整个句子分解后进行分析，同时也不排斥使用完全句法分析中的各种技术；另一方面，它加大了信息处理的粒度，可以使得其他的自然语言处理基本单位上升到组块级来降低复杂度。它相当于自然语言处理研究领域中句法分析的一个分支，它的任务是在不需要深层次语言知识的前提下，识别出句子的组块结构，如名词组块、动词组块、形容词组块等。组块分析将句法分析分解为两个子任务：(1)组块的识别和分析；(2)组块之间的依附关系分析。就组块分析来说，其主要任务是组块的识别和分析。组块识别技术同其它自然语言处理技术类似，主要分为两种方法：基于统计的方法和基于规则的方法。在规则方法方面，组块识别一般依赖有限自动机和模式匹配的方法，通过语言所必须遵守的一系列原则来描述语言。目前，组块分析的研究已经很多，从所发表论文公布的结果看，英文组块分析的测试结果(F值)可达93％以上。中文组块分析的测试结果也能达到这个值^[1，2，3]1

词法分析与组块分析是自然语言处理技术中两个相对成熟的技术，本发明利用这两个技术，提出基于模板变换的信息隐藏算法，首先通过分词工具将一个自然语言句子表示为词性序列，然后利用组块识别技术化简句子，将规范后的句子词性序列与改写模板进行匹配，最后改写句子以嵌入秘密信息。

本发明选用由中科院计算所研制出的基于多层隐马尔科夫模型(HHMM)的____________________________

¹李素建.汉语组块计算的若干研究[D].北京：中国科学院计算技术研究所，2002

2周强.汉语基本短语标注规范[S].清华大学智能技术与系统国家重点实验室，2001

3李优.汉语句子的组块识别[D].大连：大连理工大学，2005

汉语词法分析系统ICTCLAS。ICTCLAS是目前最好的汉语词法分析系统，它是一种基于规则与统计等多种方法相结合的分词算法，分词正确率高达97.58％。ICTCLAS词性标记集共计99个(22个一类，66个二类，11个三类)，表1为一类词性标注对应表。组块识别本发明采用基于规则的分析方法，利用有限自动机识别出基本的组块，如名词组块(NC)、副词组块(DC)、数量组块(MC)、方位组块(LC)等，如表2所示。

表1词性标注对应表(一类)

词性

标注

词性

标注

词性

标注

词性

标注

名词

n

区别词

b

介词

p

前缀

h

时间词

t

状态词

z

连词

c

后缀

k

处所词

s

代词

r

助词

u

字符串

x

方位词

f

数词

m

叹词

e

标点符号

w

动词

v

量词

q

语气词

y

形容词

a

副词

d

拟声词

o

表2汉语句子组块标记

基本组块	组块描述	具体实例
			名词组块	NC	{铅笔/n橡皮/n}<NC>
动词组块	VC	{改革/v开放/v}<VC>
			形容词组块	AC	{不/d正当/a }<AC>
副词组块	DC	{最终/d还/d将/d}<DC>
			数量组块	MC	{一/m只/q}<MC>
方位组块	LC	{树林/n里/f}<LC>

2、改写模板库

2.1典型的句式变换

基于句法变换的信息隐藏技术是利用改变措辞和句子结构而不显著改变句子意思和语气来嵌入秘密信息的。典型的句法变换主要有以下几种：

1)简单的主谓句变换

一般的主谓句主要有以下几种变换形式：

比如主谓句：敌人刚才偷袭过。

可以进行倒装变换：刚才偷袭过，敌人。

也可以进行状语前置变换：刚才敌人偷袭过。

2)单宾句的变换

单宾句可以进行好几种变换：

比如单宾句：巴特抱着小羊羔。

可以进行倒装变换：小羊羔，巴特抱着。

也可以进行将其变换为把字句：巴特把小羊羔抱着。

或者将其变换为被字句：小羊羔被巴特抱着。

3)存现句的变换

举一个存现句的例子：衣服上绣着一只蝴蝶。

可以变换为以下几个句子，但是却基本不改变原句的意义：

一只蝴蝶衣服上绣着。

衣服上一只蝴蝶绣着。

一只蝴蝶绣在衣服上。

4)双宾句的变换

举一个存现句的例子：小王送给妈妈一本书。

可以变换为以下几个句子，但是却基本不改变原句的意义：

将其变换为把字句：小王把一本书送给妈妈。

将其变换为被字句：一本书被小王把送给妈妈。

对原句进行宾语前置变换：一本书小王送给妈妈。

5)施事名词作了受事名词的定语的句子的变换

比如有这样的句子：我的任务刚刚完成了。

施事名词“我”做了受事名词“任务”的定语，这种句子可以进行如下的变换：

将其变换为把字句：我把任务刚刚完成。

其变换为被字句：任务被我刚刚完成。

基于句式变换的文本信息隐藏方法，相关英文研究比较多，因为中文比英文结构要复杂的多，语义表达千变万化，句法分析难度较大，而且汉语句式变换方式相当丰富，并不局限于上述几种。现有的句式变换算法盲目的运用乔姆斯基的变换理论对句子进行改写，改写后的句子虽然满足汉语句子的语法要求，但是忽略了语义的正确性，句子逻辑上可能不通。

本发明提出的基于句型模板变换的隐藏算法可以作为一种新的句法转换算法，在原有句型变换算法的基础上，针对汉语结构及语义表达的特点，将上述典型变换具体化，并提取出更多的汉语句式变换，把这些变换规则用改写模板的形式组织起来。针对特定的句式匹配特定的改写模板，进行针对性的具体的改写，并不是笼统的应用上述句式变换方式。

2.2改写模板的提取

语言作为一个符号系统，可以看作是某个有限集上的符号串的无限集合。符号(词)的集合是作为基础的一个有限集，句子则是这个有限集上的元素构成的合乎语法的符号串，句子的集合是一个无限集。词类N、V等即为词的集合；句式N+V、V+N、N1+V+N2等则为词类的笛卡尔积集合。同时，语言集合并不是一个离散的集合，它通过形式和意义的对立、组合和聚合的运转形成系统，体现结构。那么，词类是词的集合的子集，句式既是词子集的积集，又是句子集合的子集。变换则是相同的词子集构成的相关的句子子集之间的依存关系。变换关系是指存在于相同词类构成的相关句式之间的对应法则。利用相关句式或句子集合之间可能存在的变换关系对有关句式进行分析，这种分析法称作变换分析法。

变换分析是利用某一句式同相关句式之间可能存在的变换关系对该句式进行语法分析的一种方法。如“在黑板上写字”可以变换为“把字写在黑板上”，“把字写在黑板上”也可以变换为“在黑板上写字”，这说明两者之间有可变换关系，意义相同，构成各句结构的实词相同，但句法结构不同。变换是句式的变换，不是个别具体句子的变换，具体句子的变换只是句式变换的实例，因此原句式和变换式都应该集合许多实例。

利用变换分析法要充分认识句型和句式之间的变换关系，特别是找出其中的规律性，一方面需要收集大量的语料，也就是例子；另一方面需要系统地考察汉语句型、句式相关的语法知识。汉语句子按照结构来划分，可以分为单句和复句。单句一般只有一个主谓结构，复句则有两个或两个以上主谓结构。任何语句都是由一定材料按一定规则构成的，但多个构成成分不是在一个平面上同时组织起来的，而是由小单位组成大一些的单位，逐层逐级构成的。层次性是语言结构的本质特点，因而归纳句型就可以把句子的各个成分放到不同层面上，句型系统应体现出句子组成的自然层次来。

针对不同的句型、句式，分析其内部结构，提取出句式词性序列，利用变换分析法进行分析总结，获取相关的句式变换，对因词而异的不规则句式变换以词库约束的形式表示。

例如“把”字句是现代汉语所特有的，而且是运用最频繁，作用最显著的句式之一。根据“把”字句内部结构特征，将现代汉语“把”字句，概括为10种句式。但从主语、谓语和宾语的构成来分析，“把”字句的主语多数是体词性词语，包括名词、代词、名词性短语等，也有少数复杂的谓词性主语“把”字句，例如：喝凉开水把他的肚子喝疼了。“把”字的宾语，除了名词、代词、名词性的短语，还有非名词性的，例如：同学们都把为班级争光看作自己的事。“把”字对谓语部分有特殊的要求，首先有些动词是不能进入“把”字句的，例如：“是，有，像，姓，好像，标志着，意味着”等表示关系的动词，“爱，喜欢，记忆，感觉，感到，觉得，认识，知道”等表示心里，认知活动的动词。这些不能进行“把”字句变换的特殊动词将构成“把”字句的一个约束条件。“把”字句一般与主谓(动宾)句、“被”字句之间有变换关系。

例如：NC1+“把”+NC2+V+(了/着)

变换为：NC1+V+(了/着)+NC2

或变换为：NC2+“被”+NC1+V+(了/着)

再如，存现句是指表示某处(或某时)存在、出现、消失某名物(人或事物)的一种句子。从结构上来分析，存现句由三个部分组成，句首是表示处所的词语，中间是动词结构，句末是名词结构，表示存在、出现或消失的人或事物。即由“处所(或时间)词语+动词+名词”构成的表达。根据动词具有静态语义还是动态语义，可以分为静态存现句和动态存现句。静态存现句表达的句子具有静态性，动态存现句表达的句子具有动态性。静态存现句和动态存现句都有其相应的多种变换。例如静态存现句有以下变换：

原句：LC+V+“着”+NC

变换为：NC+V+“在”+LC

通过总结汉语语法的研究成果，我们可以总结大量汉语相关句式变换，但是并不是将所有的这些句式变换直接作为改写模板，而是需要大量的反复的验证过程。因为改写模板的难点在于既要提高模板的覆盖率，又要保证改写模板应用的正确率。改写模板的通用性难以把握，模板设计的过于死板，难以处理复杂的句子结构，而且，能够处理的语言现象受到一定的约束；模板设计的过于灵活，往往产生错误的匹配。

图3为本发明提取改写模板的基本流程：首先对未标记的语料进行词性标注与组块化简，对这阶段的错误进行人工矫正；然后根据句式变换分析结果对相关句子进行匹配改写，人工验证其正确性，当改写后的句子同时满足语法与语义等要求时，抽取出模板及约束条件，再回到语料库对语料进行匹配及改写，验证模板的改写效果及覆盖率，分析改写错误的原因，针对分析结果对模板进行相应的修改(或细化其约束)，重新进行验证，直到错误的概率在可接受的范围内；最后将该模板添加到改写模板库。

2.3改写模板库的结构

在本发明提出的基于句型模板变换的隐藏算法中，如何存储中文句式-句型的改写模板，直接影响着算法的鲁棒性、安全性、效率等方面。本方法充分利用XML文件简单、灵活的特点，将改写模板以XML文件形式表示如下：

<Target code＝″″operation＝″″add＝″″del＝″″condition＝″″

>……</Target>

<Target code＝″″operation＝″″add＝″″del＝″″condition＝

″″>……</Target>

……

</Template>

其中Template节点表示一个改写模板对；Source节点表示原句组块化简后的词性序列串；Target节点表示改写变换后的词性序列串，当一个句型有多种句式变换时，对应改写模板库中多个Target节点；属性值code表示应用该改写模板进行变换时，改写模板承载的比特信息0或1，该值根据密钥随机生成；属性值operation表示改写句子时选用的变换运算，其值可为移位(EXC)、添加(ADD)、删除(DEL)、替换(REPLACE)等；属性add表示改写句子时需要添加的词语，如果不需要添加，该值为空；属性del表示改写句子时需要删除的词语，如果不需要删除，该值为空；属性condition表示应用模板改写句子时，需要满足的约束条件。只有当该约束条件同时满足时，才能应用对应的改写模板对句子进行改写。

对于“约束词库”的存储，因为结构比较简单，本文直接以文本形式保存。

2.4改写模板的匹配

改写模板的匹配过程简单来说分为两个部分：“匹配模板”和“匹配约束”。本发明以一个具体例子来说明改写模板匹配的基本过程。例如句子“桌子上放着一个苹果”，经ICTCLAS词性标注后结果为：桌子/n上/f放/v着/uzhe一个/mq苹果/n。/wj。组块化简后标注的结果为：桌子上/lc放/v着/uzhe一个苹果/nc。/wj。化简后的词性序列为“lc/v/uzhe/nc”，针对词性序列“lc/v/uzhe/nc”，我们在改写模板库中进行字符串匹配，当找到与之匹配的Source节点时，匹配对应的约束条件。如图5所示：改写模板NC+V+“在”+LC中对应的约束StaticVerb表示动词是否具有静态语义；改写模板LC+V+“了”+NC除需要满足StaticVerb约束外，还要满足MqNC约束，其中MqNC约束表示“着”后是否出现数量词。

对于例句“桌子上放着一个苹果”中动词“放”属于静态动词，满足StaticVerb约束条件，原句可改写为“一个苹果放在桌子上”；同时例句也满足MqNC约束，因此原句又可改写为“桌子上放了一个苹果”。

3、二次剩余

为保证算法的安全性，本发明没有使用全部的改写模板来匹配，进而改写句子，而是根据密钥选取改写模板库的一个子集，在子集合的基础上进行匹配，实现句子的改写；同时利用密钥对选取的子集合节点随机编码保证算法的鲁棒性、安全性。为达到这个要求，本发明使用二次剩余理论来实现。

二次剩余的定义如下：

定义1：设素数p＞2，d是整数，且p不整除d，如果x2≡d(mod p)有解，则称d是模p的二次剩余；若无解，则称d是模p的二次非剩余。

例如，当p＝5时，求模p的二次剩余和非二次剩余：当x＝1时，x2(mod p)≡1，所以1是模p的二次剩余；当x＝2时，x2(mod p)≡-1，所以2是模p二次非剩余……。

二次剩余有如下定理：

定理：在模p的一个既约剩余系中，恰有(p-1)/2个模p的二次剩余，(p-1)/2个模p的二次非剩余。由定理1可知，模p的二次剩余和二次非剩余的数目是相等的。例如模29的二次剩余是：±1，±4，±5，±6，±7，±9，±13；二次非剩余是：±2，±3，±8，±10，±11，±12，±14。因此本文采用二次剩余理论可以选取模板库的一个子集，并将子集合中的节点平均编码为0或1。

二次剩余的Euler判别法：设素数p＞2，p不能整除d，那么d是模p的二次剩余的充要条件是d(p-1)/2≡1(mod p)；d是模p的二次非剩余的充要条件是d(p-1)/2≡-1(mod p)。

根据二次剩余的Euler判别法，我们采用Montgomery快速幂模算法来求二次余数：

ulong Montgomery(ulong d，ulong t，ulong m)

{

ulong r＝d％m；

ulong k＝1；

while(t＞1)//一直分解到幂指数等于1

{

if(0！＝(t&1))//判断幂指数是否为奇数

{

k＝(k*r)％m；//可能的溢出点，最大值不会超过d*d

}

r＝(r*r)％m；//可能的溢出点，最大值不会超过d*d

t/＝2；//幂指数减半

}

return(r*k)％m；//可能的溢出点，最大值不超过m*m

}

4、水印嵌入过程

本发明借鉴了一种基于同义词替换的方法，首先建立一个无向带权图，图中的节点是(单词，意义/义项)对，如果两个节点有边相连说明这两个单词是同义词，边上的权说明这两个单词的相似程度；然后选择一个子图，利用密钥K在同义词集合中选择那些具有同形异义的单词，同时利用密钥K给这些单词着色。这些同形异义词中那些邻接非同形异义单词的单词中，大约一半着蓝色，代表1；另一半着绿色，代表0；而所有的非同形异义词着黑色，代表不编码即不使用；最后在嵌入过程中，当满足一定的约束条件时，选取对应编码的同义词进行替换，达到嵌入信息的目的。借鉴这种同义词替换算法，我们提出适合改写模板变换的信息隐藏嵌入算法如下：

设T为待保护的电子文档原始文本，W为水印信息，K为密钥，P为大素数，TP为改写模板库。

参见图2和图6为本发明的水印嵌入方法及水印生成模块的实现过程：

步骤一：利用水印生成模块生成水印信息，利用密钥k加密并转换为二进制串记为B，水印信息的长度记为L；

步骤二：加载模板，参见图4，首先将以密文形式存储的改写模板库TP进行解密；然后根据大素数P，利用二次剩余理论给TP节点Template(改写模板对)进行随机编码0或1；选取其中全为0(或1)的节点作为嵌入秘密信息时使用的句式模板，记为TP’；最后利用大素数P给TP’Target(中节点)即改写变换后的词性序列串进行编码，完成模板的加载过程；

步骤三：词性标注和组块化简，首先利用ICTCLAS分词工具对文本T分词及词性标注，然后利用自动机对其进行组块化简，并将结果存入链表List中；

步骤四：匹配模板，将List链表中每个句子简化后的词性序列S’与改写模板库TP’进行匹配，当找到匹配的改写模板，同时满足约束条件时，将当前句子及匹配的改写模板信息添加到sentenceList列表中，依次处理链表List中所有句子，直到所有匹配的句子均添加到sentenceList中为止；

步骤五：改写句子，根据秘密信息B的长度L，将sentenceList列表分成L个子集，根据秘密信息B中的比特值，按照规则依次选取sentenceList列表的子集当中的一个句子，利用对应的改写模板对其只最多进行一次句子变换，实现秘密信息的嵌入；

步骤六：依次对秘密信息B按照步骤五进行处理，直到所有秘密信息嵌完为止，得到嵌入隐藏信息后的文本T’。

遵从上述技术步骤，水印嵌入模块实现的基本流程为：

首先判断水印信息是否为空，如果为空，提示输入水印信息；接着判断改写模板是否加载成功，如果不成功，提示请先加载模板信息；然后将组块化简后的词性标记序列S’与改写模板库中Source节点的值进行匹配，如果匹配成功且满足约束条件，则将该句添加到sentenceList链表中，当所有句子匹配完成后，判断sentenceList链表的长度是否大于水印信息长度，如果小于水印长度，提示无法完全嵌入水印信息；最后根据waterInfo[i]中的比特值，选择对应的改写模板，对句子进行相应的改写操作，获得嵌入水印后的载体文本。在匹配算法中，我们采用最大匹配原则，相关的字符串匹配算法有KMP算法等。

5、水印提取过程

参见图7为本发明水印提取方法及其模块的实现过程：

步骤一：利用密钥K，对以密文形式存储的改写模板库TP进行解密；

步骤二：加载模板，根据大素数P和二次剩余理论获得嵌入隐藏信息时的改写模板库TP’；

步骤三：对嵌入隐藏信息后的文本T’做词法分析及组块化简处理，将结果存入链表List中；

步骤四：将List链表中句子List与改写模板库TP’进行匹配，当找到匹配节点，同时满足约束条件时，获取该节点对应的编码，即得到该句所承载的比特信息，将该比特信息添加到数组A中；

步骤五：依次对List链表中所有句子进行步骤四处理，直到得到嵌入的加密信息B；

步骤六：利用密钥K对B进行解密，即得到嵌入的秘密信息W。

遵从上述技术步骤，水印提取模块实现的基本流程为：

首先判断改写模板是否加载成功，如果不成功，提示请先加载改写模板；然后通过词法和组块分析，获得所有句子的词性序列，结果存入List链表中，将List链表中每个句子与模板库进行匹配，如果匹配成功，获得该水印句承载的水印信息，添加到数组中；最后当所有句子匹配完成后，重组并解密，即得到嵌入的水印信息。

以下是发明人给出的较佳实施例，并结合此实施例对本发明的性能进行具体分析说明，需要说明的是本发明不限此次实施例。

以乌鸦喝水一文为例对本发明的方法进行分析。

本方法利用模板改写句子，避免句子改写的盲目性。针对特定的句式匹配特定的改写模板，进行针对性的具体的改写，并不是笼统的运用乔姆斯基的变换理论变换句子。这样有针对性地改写句子使得句子符合语法、语义、语用习惯，因此，视觉上很难引起检测者的怀疑，具有良好的不可见性。相比其他基于自然语言处理的隐藏算法，隐蔽性要好。

(1)不可见性

如图所示：图8为原始文本内容，图9为嵌入水印后的文本内容(其中选取素数为59093，嵌入水印为1001)。

从图8和图9的对比可以看出：

原句：乌鸦看见一个瓶子，瓶子里有水。

嵌入水印后的句子：乌鸦看见一个瓶子，在瓶子里有水。

原句：乌鸦把小石子一个一个地衔来，放到瓶子里，瓶子里的水渐渐升高了，乌鸦就喝着水了。

嵌入水印后的句子：小石子被乌鸦一个一个地衔来，放到瓶子里，瓶子里的水渐渐升高了，乌鸦就喝着水了。

嵌入水印后的句子符合语法规范，语义上与原句一致，没有破坏载体文本的可读性，很难引起攻击者的怀疑。因此具有很好的不可见性。

(2)鲁棒性

本文提出的算法将秘密信息嵌入到文本的内容中，鲁棒性方面有以下几个特点：

1.同现有的基于自然语言处理的信息隐藏算法一样，可以抵抗所有针对格式的攻击，如对文本文字进行格式修改，格式修改包括格式重排、PDF到Word到TXT的变换以及其逆转换、文本内容复制或重新读取等攻击。

2.能较好的抵抗同义词替换攻击。针对本文的算法，同义词替换并不影响句子的词性序列，因此并不影响水印的正确提取。针对例文，本发明利用哈工大同义词词林对其进行同义词替换后的结果如图10所示；同义词替换后的词性标注结果如图11所示；原文词性标记的结果如图12所示；通过对比图11和图12，同义词替换后的文本词性标记结果与原文本的词性标记结果相同，因此提取的水印信息仍为1001，如图13所示。

3.在一定程度上能够抵抗部分针对内容的攻击。如通过删除或增加部分词语、句子或段落等手段的攻击。因为在信息嵌入过程中，并没有将所有句子作为水印的承载句，而是选取与改写模板匹配的部分句子，因此可以抵抗局部的段落或句子的删除与添加攻击。例如删除原文本内容中的第四句后，提取的水印信息仍为1001，如图14所示。

(3)安全性

信息隐藏的安全性一直是信息隐藏技术的重要目标之一。本发明主要依赖于加密密钥K及大素数P，首先算法中的水印信息及改写模板库都是以密文的形式存在，只要没有正确的密钥K，就无法获取改写模板库，因此也就不能获得嵌入的隐藏信息。假设攻击者获得密钥K，拥有同样的改写模板库，然而在不知道素数P的情况下，同样无法知道我们加载了哪些模板，编码形式怎样。素数选取的不同，嵌入水印后的结果也会不同。

图15为选取素数59093嵌入水印1001后的结果，图16为选取素数55631嵌入水印1001后的结果，图17为选取素数59093嵌入水印1001时水印承载句的情况，图18为选取素数55631嵌入水印1001时水印承载句的情况(注：*号为水印承载句)。从以上试验结果可以看出，不同的素数，选取的改写模板不同，水印承载句也不同。例如句子“它想出办法来了”，在素数为59093时，不是水印承载句，而在素数为55631时为水印承载句；从结果还可以看出有些句子在嵌入水印位的时候产生了变化，有些句子嵌入水印位的过程中没有产生任何变化。例如在图中17中句子“乌鸦看见旁边有许多小石子”是水印承载句，但是该句没有进行改写。这样即便攻击方得到了原文，看到了哪些句子产生了变化，也没有办法知道里面真正隐含的信息是什么，因为某些水印位可能嵌入在没有发生变化的句子中。

因此，利用密钥K及素数P保证了本发明的安全性，只要攻击方得不到密钥K及素数P，就没有办法得到文本中嵌入的隐藏信息。因此本发明具有较高的安全性。

(4)容量分析

隐藏容量，是指载体可以承载隐藏信息的多少。本文提出的基于句型模板变换的信息隐藏算法，改写模块库的覆盖率直接影响着算法的容量。模板的覆盖率越大、数量越多，隐藏容量就越大。本发明目前所使用的模板库可以达到：单句73％的覆盖率，平均每句可以做1.2个变换；复句的覆盖率约为45％，平均每句可以做1.8个变换。隐藏容量还可以通过划分更细致的变换模板和添加更多的模板进一步提高隐藏容量。

(5)复杂性

本方法不依赖于自然语言处理中复杂的技术，如TRM树的生成及变换方法，仅使用比较成熟的词法与块识别技术，因此算法的嵌入和提取过程相对简单、执行效率较高。在奔腾IIII 2.4GCPU，512MB内存的个人计算机上，处理速度可达1万字/分钟。本文实现的原型系统具有高效、易于实现、易于扩充等优点。

Claims

1.一种基于中文句式模板变换的文本隐藏方法，该方法利用计算机系统对文本信息进行水印的嵌入与提取，从而实现对文本信息的隐藏，所述的计算机系统至少包括：

改写模板库，用来存储所有的中文句式，以词性标注串来表示中文句式，而词性标注是用现有的中文分词工具标注出中文的汉字、词语、或者短语的词性；

约束库，把字词按概念、范畴的粗细归类，再把实际的语言包含着许多语用习惯、因词而异的特例和分类作为针对具体语境应用模板时的约束，形成约束库；通过约束把可能不合乎汉语语法、语用习惯的变换过滤掉；

电子文档预处理模块，用以向系统提交待保护的电子文档，并对电子文档中的内容进行句子切分、字符格式转换预处理操作；

词性标注模块，利用现有的中文分词工具，对文档文本中的句子进行词性标注，提取出句子中的词性标注串；

组块标注模块，用以将句子的词性标注串进行化简，找出句子中的短语，从而合并词性标注串；

水印生成模块，用以将包括秘密信息的需要隐藏的信息量化为一组数字；

水印嵌入模块，用以向待保护的电子文档中嵌入水印信息；

步骤二，利用水印生成模块对待保护的电子文档原始文本生成要嵌入的秘密信息，即水印信息，并将该水印信息记为w，并用给定密钥k加密，随机生成大素数记为p；

步骤三，词性标注模块对步骤一生成的无格式txt格式文档进行词性标注，输出句子的词性标注串；

步骤四，组块标注模块对步骤三输出的词性标注串进行化简；

步骤五，加载模板模块首先对以xml文件形式表示的并以密文形式存储的改写模板库TP进行解密，然后根据大素数P，利用二次剩余理论给TP节点即改写模板对进行0或1的随机编码，选取其中全为0或1的节点作为嵌入秘密信息时使用的改写模板库，记为TP’；最后利用大素数P给TP’中的节点即改写变换后的词性标注串进行编码，完成模板的加载过程；

步骤六，水印嵌入模块利用步骤五选择的改写变换后的词性标注串来匹配步骤三输出的词性标注串，并根据匹配约束条件来判断是否进行句式变换来嵌入步骤二生成的水印信息；

步骤七，输出嵌入水印后的隐藏文本；

2.如权利要求1所述的基于中文句式模板变换的文本隐藏方法，其特征在于：所述的改写模板库其提取过程包括以下步骤：

（1）借鉴汉语言语法研究成果，根据句式变换分析结果对相关句子进行匹配改写，并人工验证其正确性，当改写后的句子同时满足语法与语义要求时，抽取出模板及约束条件，重新再回到语料库进行匹配及改写，验证模板的改写效果及覆盖率，直至错误的概率在可接受的范围之内；

（2）将步骤（1）中经验证的模板添加到改写模板库。

3.如权利要求1所述的基于中文句式模板变换的文本隐藏方法，其特征在于：将水印生成模块生成的水印信息转换为二进制串记为B，水印信息的长度记为L，并将步骤四化简的结果存入链表List中；

上述步骤六所述的水印嵌入方法包括如下步骤：

（1）匹配模板，将 List链表中每个句子简化后的词性标注串与改写模板库TP’进行匹配，当找到匹配的改写模板，同时满足约束条件时，将当前句子及匹配的改写模板信息添加到sentenceList列表中，依次处理链表List中所有句子，直到所有匹配的句子均添加到sentenceList中为止；

（2）改写句子，根据秘密信息B的长度L，将sentenceList列表分成L个子集，根据秘密信息B中的比特值，按照规则依次选取sentenceList列表的子集当中的一个句子，利用对应的改写模板对其最多只进行一次句子变换，实现秘密信息的嵌入；

（3）依次对秘密信息B按照步骤（2）进行处理，直到所有秘密信息嵌完为止，得到嵌入隐藏信息后的文本T’。

4.如权利要求1所述的基于中文句式模板变换的文本隐藏方法，其特征在于：上述步骤八所述的水印提取方法具体包括如下步骤：

（a）利用密钥K，对以密文形式存储的改写模板库TP进行解密；

（b）加载模板，根据大素数P和二次剩余理论获得嵌入隐藏信息时的改写模板库 TP’；

（c）对嵌入隐藏信息后的文本T’做词法分析及组块化简处理，将结果存入链表List中；

（d）将List链表中句子List与改写模板库TP’进行匹配，当找到匹配节点，同时满足约束条件时，获取该节点对应的编码，即得到该句所承载的比特信息，将该比特信息添加到数组中，记为数组A；

（e）依次对List链表中所有句子进行步骤（d）处理，直到得到嵌入的加密信息B；

（f）利用密钥K对B进行解密，即得到嵌入的秘密信息W。