CN105205355B

CN105205355B - 一种基于语义角色位置映射的文本水印嵌入及提取方法

Info

Publication number: CN105205355B
Application number: CN201510746611.5A
Authority: CN
Inventors: 陈建平; 杨方兴; 朱浩; 王杰华; 王进; 文万志
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2015-11-05
Filing date: 2015-11-05
Publication date: 2018-04-10
Anticipated expiration: 2035-11-05
Also published as: CN105205355A

Abstract

本发明涉及基于语义角色位置映射的文本水印嵌入及提取方法，嵌入方法包括如下步骤：1）对水印信息进行预处理，将水印字符转换成由码元构成的信息串；2）通过自然语言处理技术找出文本中语义角色，得到语义角色的位置信息，且将语义角色类型与表示水印信息的码元一一对应；3）逐个取出水印信息串中的码字，将该码字与所对应类型语义角色的一个位置相映射，完成水印的嵌入。提取方法包括：根据嵌入水印时得到语义角色的位置信息，找到文本中该位置的语义角色，再反向映射得到由所述码元表示的水印信息串，最终将其转换成原始水印信息。上述方法对文本格式与内容不做任何改变，具有良好的隐蔽性和鲁棒性，能有效抵抗各种常见的格式变换和攻击。

Description

一种基于语义角色位置映射的文本水印嵌入及提取方法

技术领域

本发明涉及水印的嵌入与提取技术，尤其涉及一种基于语义角色位置映射的文本水印嵌入及提取方法。

背景技术

随着互联网和信息技术的普及应用，文本信息越来越多的以数字的方式发布、传播和使用，它在给人们的学习、工作和生活带来便利的同时，也产生了文本容易被非法复制和盗用等问题，数字文本的知识产权保护受到业界的广泛关注。文本水印是近年来出现的保护数字文本知识产权的一项技术，它通过某种方式在数字文本中嵌入版权标识信息或身份认证信息(水印)，当发现文本遭到非法复制或盗用时，可以提取这些信息来证明文本的版权归属，确认非法复制和盗用行为，保护文本著作权人或拥有人的权益。除此之外，文本水印技术还可用于在文本中隐藏和传递秘密信息、文本内容的认证、文本信息的追踪等方面。

文本水印目前主要有两类方法——基于文本格式的文本水印和基于自然语言的文本水印。基于文本格式的水印技术利用轻微改变文本格式不易被察觉的特点来嵌入水印信息，如改变行间距、字间距、字符大小等等。这类基于文本格式的水印技术构造简单，易于实现，但对文本进行格式变换就有可能使嵌入的水印遭到破坏，鲁棒性不强。基于自然语言的文本水印技术利用文本内容的语法语义进行编码来嵌入水印信息，目前实现的较多的是通过同义词替换和句法变换对水印信息进行编码。与基于文本格式的水印相比，自然语言文本水印具有更好的隐蔽性和鲁棒性，格式变换不会对水印产生影响。但由于中文语言的复杂性，同义词替换和句法变换有可能会产生歧义或改变语义，同时它也不适用于文本内容不宜改变的情形。

发明内容

本发明目的在于克服以上现有技术之不足，提供一种基于语义角色位置映射的文本水印嵌入方法，它通过将水印信息与文本中语义角色的位置信息进行映射来实现水印的嵌入，对文本的格式和内容不做任何改变，原文本的使用不受任何影响，嵌入的水印具有很好的隐蔽性和鲁棒性，能有效抵抗各种常见的格式变换和攻击，具体由以下技术方案实现：

所述基于语义角色位置映射的文本水印嵌入方法，包括如下步骤：

1)对水印信息进行预处理，将水印字符转换成由码元构成的信息串；

2)通过自然语言处理技术找出文本中语义角色，得到语义角色的位置信息，且将语义角色类型与表示水印信息的码元一一对应；

3)逐个取出水印信息串中的码字，将该码字与所对应类型语义角色的一个位置相映射，对所有码字进行映射，完成水印的嵌入。

所述基于语义角色位置映射的文本水印嵌入方法，其特征在于所述语义角色包括表示动作的施事的角色A0，表示动作的影响的角色A1以及关系相对模糊的角色ADV。

所述基于语义角色位置映射的文本水印嵌入方法的进一步设计在于，所述步骤1)中的水印信息进行预处理包括如下步骤：

1-1)采用Unicode编码，将水印字符转换成十六进制信息；

1-2)运用Huffman编码对十六进制信息中的码元数量进行压缩，将十六进制的Unicode码串转换成由0、1、2三种码元表示的Huffman编码，与A0、A1、ADV三种语义角色相匹配。

所述基于语义角色位置映射的文本水印嵌入方法的进一步设计在于，所述步骤2)中，通过语言技术平台LTP处理确定和标记文本中的语义角色，LTP的处理结果为一个包含文本中句子成分语义角色关系的XML格式的文件，所述文件包含若干用于标明各种句段关系、句法关系、语义角色的结点标签，所述结点标签包括para、sent、word、arg，每个类别的结点标签均包含用于标明序号的id属性。

所述基于语义角色位置映射的文本水印嵌入方法的进一步设计在于，查找选定的语义角色并标记其位置的方法具体包括如下步骤：

2-1)对所述XML文件进行解析遍历，定位到relate＝“HED”的word结点；

2-2)接着遍历此word结点下的arg结点内的type属性，判断其是否为指定查找的类型(即A0、A1、ADV)，如果是，则标记出该语义角色的位置，标记语义角色位置的表达式如下：

L＝p+para.id+s+sent.id+a+arg.id

其中，p表示para属性，s表示sent，a表示arg；

2-3)重复上述步骤2-1)、2-2)，标记出文本中所有的三种语义角色A0、A1、ADV的位置信息，分别对应地存入三个不同的集合L1、L2、L3中。

所述基于语义角色位置映射的文本水印嵌入方法的进一步设计在于，所述步骤3)具体包括如下步骤：

3-1)让水印信息中的三种码元与三种语义角色类型一一对应，即A0对应0，A1对应1，ADV对应2；

3-2)逐个取出水印信息串中的码字，将该码字与所对应类型语义角色的的一个位置相映射，即码字0映射为L1集合中的一个位置，码字1映射为L2集合中的一个位置，码字2映射为L3集合中的一个位置。将每个码字映射的位置信息读出，依次存放于一位置文件中；

3-3)重复上述过程，将水印信息串中的所有码字均映射为L1、L2、L3集合中的一个位置，映射完成即实现了水印的嵌入，最终得到一个存放了三种语义角色位置信息的位置文件。

如上述基于语义角色位置映射的文本水印嵌入方法，提供一种基于语义角色位置映射的文本水印提取方法，包括：

根据嵌入水印时得到的语义角色的位置信息，找到文本中该位置的语义角色，再根据语义角色与水印信息码元的对应关系，反向映射得到由所述码元表示的水印信息串，最终将其转换成原始水印信息。

所述基于语义角色位置映射的文本水印提取方法的进一步设计在于，具体包括如下步骤：

a)将需要检测水印的文档提交LTP平台进行语义角色标注处理，得到包含文本中句子成分语义角色关系的XML文件；

b)打开嵌入水印时形成的所述位置文件，依次取出一个位置信息，根据该位置信息，在所述XML文件中找到对应的位置，判断此位置的语义角色的类型，根据语义角色类型进行反向映射或译码。如果语义角色类型为A0，则译码为0；如果语义角色类型为A1，则译码为1；如果语义角色类型为ADV，则译码为2。直到所有的位置信息全部反向映射完毕，即得到嵌入的水印信息串。

本发明的优点如下：

本发明提出的方法以文本中的语义角色为载体来嵌入水印信息，语义角色是根据语义关系抽象出来的角色类型，这种角色类型是稳定不变的，并且不在文档中显式出现，文档阅读者不会注意到，具有很强的隐蔽性。水印的嵌入与提取是通过将水印信息与文本中语义角色的位置进行映射来实现的，不对载体文本做任何修改，水印没有任何痕迹，不会被察觉和发现，具有良好的隐蔽性，同时对原文本的含义和使用不会产生任何影响。对文本进行格式变换(包括改变行间距、字间距，改变字符大小、字体、颜色等等)不会改变语义角色，因而不会影响水印的正确提取，对文本进行同义词替换也不会改变语义角色，故也不会对水印的提取产生影响，水印具有良好的鲁棒性和抗攻击性。

具体实施方式

下面对本发明方案进行详细说明。

本实施例提供的基于语义角色位置映射的文本水印嵌入方法，包括如下步骤：1)对水印信息进行预处理，将水印字符转换成由码元构成的信息串；2)通过自然语言处理技术找出文本中语义角色，得到语义角色的位置信息，且将语义角色类型与表示水印信息的码元一一对应；3)逐个取出水印信息串中的码字，将该码字与所对应的语义角色类型的位置信息相映射，对所有码字进行映射，完成水印的嵌入。

本实施例中，语义角色包括表示动作的施事的角色A0，表示动作的影响的角色A1，和关系相对模糊的角色ADV等三种主要语义角色类型。

进一步的，步骤1)中的水印信息预处理，现有文本水印算法通常是将水印字符转换为二进制信息来按位嵌入，此时每个嵌入点只能嵌入1位信息，水印容量受到较大限制。同时，当水印信息为中文时，提取水印不能将二进制直接转换为中文，需要先将二进制转换为十六进制，再转换为中文。本实施例采用Unicode编码，将水印字符转换成十六进制信息嵌入。Unicode编码与中文之间可直接转换，并且可以兼顾水印信息含有中文、英文以及其它语言和符号，具有通用性。以字符“南通大学”为例，转换成Unicode码后得到的十六进制编码为:

\u5357\u901a\u5927\u5b66

本发明提出的方法是将文本中的语义角色作为水印的载体，如果直接将表示水印信息的十六进制Unicode编码嵌入的话，需要16种不同的语义角色，不便实现。为此，本实施例运用Huffman编码对十六进制水印信息中的码元数量进行压缩。与上述选定的A0、A1、ADV三种语义角色相匹配，采用三元Huffman编码将十六进制的Unicode码串转换成由0、1、2表示的Huffman编码。

Huffman编码是一种常用的压缩编码方法。它的基本原理是按照概率大小的顺序排列信源符号，并设法按逆顺序分配码字字长，使编码的码子为可辨识的。D元Huffman编码过程是每次把r个符号(概率最小)合并成一个新的信源符号，并分别用0,1，…，r-1等码元表示。首次合并的符号个数由如下公式描述：

r＝R_D-1(K-2)+2

K为信源消息个数，r为D元编码首次合并个数。

Huffman编码压缩的本质是将频繁使用的数据用较短的码来表示，较少使用的用较长的码表示，使得到的平均码长为最短。本实施例采用三元Huffman编码对表示水印信息的十六进制Unicode码串进行压缩处理，即根据Unicode码中字母和数字的出现频率来编码，压缩到平均码长最短。以字符“南通大学”为例，其Unicode码串经Huffman编码处理后得到的结果为:

20212211122022021011121201212021220112202202122001010

对比二进制按位嵌入的方式，1个字符用16位二进制表示，4个字符为16*4＝64位。上述对其Unicode码进行Huffman编码处理之后得到的码串长度为53位，减少了11位，水印容量可提高17％。

水印信息预处理的实现如下：

将用中文等字符表示的水印信息转换成十六进制的Unicode编码，用Java语言实现的程序代码为：

result中所含即为水印信息的Unicode编码。

对水印信息的Unicode编码进行Huffman编码压缩处理，得到由0、1、2构成的Huffman编码。Huffman编码实现过程如下：

将信源按照概率分布大小依次排列，计算所需的实际信源符号数，相关程序代码如下：

建立Huffman节点，对Huffman结点数组进行排序，给出每个符号的码符号。实现程序如下：

通过排序，合并符号以及递归调用，即可得出各信源符号所对应的码符号序列，即相应的码字，至此，Huffman编码完成。实现程序如下:

hf中所含即为得到的Huffman编码后的结果。

步骤2)中，通过语言技术平台LTP处理，确定和标记文本中的语义角色，LTP的处理结果为一个包含文本中句子成分语义角色关系的XML格式的文件，文件包含若干用于标明各种句段关系、句法关系、语义角色的结点标签，结点标签包括para、sent、word、arg。每个类别的结点标签均包含用于标明序号的id属性。其中，para为段落结点，包含id属性。sent为句子结点，包含属性id、cont，id为段落句子序号，cont为句子内容。word为分词结点，包含属性id、cont，id为句子中词的序号，cont为分词内容，可选属性有pos、ne、parent、relate，其中parent为依存句法分析的父亲结点id号。relate为相对应的关系，如HED表示核心关系。arg为语义角色信息结点，任何一个谓词都会有若干个该结点，其属性有id、type等，id为对应的arg结点序号，type代表角色类型。

查找选定的语义角色并标记其位置的方法具体包括如下步骤：

2-1)对XML文件进行解析遍历，定位到relate＝“HED”的word结点。

2-2)接着遍历此word结点下的arg结点内的type属性，判断其是否为指定查找的类型，如果是，则标记出该语义角色的位置，标记语义角色位置的表达式如下：

L＝p+para.id+s+sent.id+a+arg.id

其中，p表示para属性，s表示sent，a表示arg。即用每个结点属性的首字母加上其对应的id值来标记一个语义角色。比如某语义角色属性arg的id为2，对应的para属性的id为9，sent属性的id为3，其位置表示为：

L＝9p 3s 2a

2-3)重复上述步骤2-1)、2-2)，标记出文本中所有的三种语义角色的位置信息，分别存入三个不同的集合L1、L2、L3中。

语义角色位置标记的具体实现如下：

按照LTP系统应用程序接口API的要求，将需要提交处理的文本转换为字符串的形式，可以用Java语言的输入输出流的相关函数来实现，相应的程序代码为：

其中，filepath为待处理的文本文件的路径，text即为包含文本内容的字符串。

设置API参数，包括访问LTP Web服务的地址url、使用API的钥匙api_key(用户注册时获得)、分析模式pattern(选择ALL)、结果格式类型format(选择XML格式)等，将包含文本内容的字符串(text)提交给LTP平台进行语义角色标注处理，得到包含文本中句子成分语义角色关系的XML文件。实现这一过程的核心程序代码如下：

line1中存放的即为处理后的结果。

对XML结果进行解析遍历，定位到relate＝“HED”的word结点，遍历此word结点下的arg结点内的type属性，判断其是否为三种语义角色类型A0、A1、ADV之一，如果是，则取出此arg结点的id和该word结点父节点sent的id和sent结点父节点para的id，构成位置信息，放入一集合中。实现这一过程的核心代码如下：

集合l1、l2、l3中存放的即为三种语义角色A0、A1、ADV的位置信息。

水印的嵌入通过将水印信息映射为语义角色的位置信息来进行。文本中的三种语义角色A0、A1、ADV的位置信息已提取存储在三个集合中。水印信息经过预处理后为由0、1、2构成的码元串。让水印信息中的三种码元与三种语义角色类型一一对应，即A0对应0，A1对应1，ADV对应2。逐个取出水印信息串中的码字，将该码字与所对应类型语义角色的一个位置相映射。

水印信息映射的具体实现如下：

逐个取出由0、1、2表示的水印信息Huffman编码中的码字，将该码字映射为三种语义角色A0、A1、ADV的一个位置。即0映射为L1集合中的一个位置，1映射为L2集合中的一个位置，2映射为L3集合中的一个位置。将每个码字映射的位置信息读出，存放于一文件中。重复上述过程，将水印信息串中的所有码字映射完毕即实现了水印的嵌入，最终得到一个存储了三种语义角色位置信息的文件。实现这一过程的核心程序代码如下：

data中所含即为水印映射后的位置信息，将其保存到一个文件中，用于提取水印时使用。

根据嵌入水印时得到的语义角色的位置信息，找到文本中该位置的语义角色，再根据语义角色与水印信息码元的对应关系，反向映射得到由码元表示的水印信息串，最终将其转换成原始水印信息。具体包括如下步骤：

a)将需要检测水印的文档提交LTP平台进行语义角色标注处理，得到包含文本中句子成分语义角色关系的XML文件。

b)打开嵌入水印时形成的位置文件，依次取出一个位置信息，根据该位置信息，在XML文件中找到对应的位置，判断此位置的语义角色的类型，根据语义角色类型进行反向映射或译码，如果语义角色类型为A0，则译码为0；如果语义角色类型为A1，则译码为1；如果语义角色类型为ADV，则译码为2，直到所有的位置信息全部反向映射完毕，即得到嵌入的水印信息串。

实现上述水印提取过程的主要操作及其程序代码如下：

导入位置信息文件：

提取位置信息：

反向映射过程：

data中所含即为由0、1、2表示的水印信息的Huffman编码。

对上述由0、1、2表示的水印信息进行Huffman解码，还原为十六进制的Unicode编码。实现Huffman解码核心操作的程序如下：

thf中所含即为水印信息的Unicode编码。

对水印信息的Unicode编码进行Unicode解码，还原为用字符表示的原始水印信息。实现Unicode解码的核心程序如下：

outBuffer中即为提取出的原始水印信息。

Claims

1.一种基于语义角色位置映射的文本水印嵌入方法，其特征在于包括如下步骤：

1）对水印信息进行预处理，将水印字符转换成由码元构成的信息串；

2）通过自然语言处理技术找出文本中语义角色，得到语义角色的位置信息，且将语义角色类型与表示水印信息的码元一一对应；

3）逐个取出水印信息串中的码字，将该码字与所对应类型语义角色的一个位置相映射，对所有码字进行映射，完成水印的嵌入。

2.根据权利要求1所述的基于语义角色位置映射的文本水印嵌入方法，其特征在于所述语义角色包括表示动作的施事的角色A0，表示动作的影响的角色A1以及关系相对模糊的角色ADV。

3.根据权利要求2所述的基于语义角色位置映射的文本水印嵌入方法，其特征在于所述步骤1）中的水印信息进行预处理包括如下步骤：

1-1）采用Unicode编码，将水印字符转换成十六进制信息；

1-2）运用Huffman编码对十六进制信息中的码元数量进行压缩，将十六进制的Unicode码串转换成由0、1、2三种码元表示的Huffman编码，与A0、A1、ADV三种语义角色相匹配。

4.根据权利要求3所述的基于语义角色位置映射的文本水印嵌入方法，其特征在于所述步骤2）中，通过语言技术平台LTP处理确定和标记文本中的语义角色，LTP的处理结果为一个包含文本中句子成分语义角色关系的XML格式的文件，所述文件包含若干用于标明各种句段关系、句法关系、语义角色的结点标签，所述结点标签包括para、sent、word、arg，每个类别的结点标签均包含用于标明序号的id属性。

5.根据权利要求4所述的基于语义角色位置映射的文本水印嵌入方法，其特征在于查找选定的语义角色并标记其位置的方法具体包括如下步骤：

2-1）对所述XML文件进行解析遍历，定位word结点；

2-2）接着遍历此word结点下的arg结点内的type属性，判断其是否为指定查找的类型所述类型即为A0、A1、ADV，如果是，则标记出该语义角色的位置，标记语义角色位置的表达式如下：

其中，p表示para属性，s表示sent，a表示arg；

2-3）重复上述步骤2-1）、2-2），标记出文本中所有的三种语义角色A0、A1、ADV的位置信息，分别对应地存入三个不同的集合L1、L2、L3中。

6.根据权利要求5所述的基于语义角色位置映射的文本水印嵌入方法，其特征在于所述步骤3）具体包括如下步骤：

3-1）让水印信息中的三种码元与三种语义角色类型一一对应，即A0对应0，A1对应1，ADV对应2；

3-2）逐个取出水印信息串中的码字，将该码字与所对应类型语义角色的的一个位置相映射，即码字0映射为L1集合中的一个位置，码字1映射为L2集合中的一个位置，码字2映射为L3集合中的一个位置，将每个码字映射的位置信息读出，依次存放于一位置文件中；

3-3）重复上述过程，将水印信息串中的所有码字均映射为L1、L2、L3集合中的一个位置，映射完成即实现了水印的嵌入，最终得到一个存放了三种语义角色位置信息的位置文件。

7.根据权利要求6所述的基于语义角色位置映射的文本水印嵌入方法，提供一种基于语义角色位置映射的文本水印提取方法，其特征在于包括：

8.根据权利要求7所述的基于语义角色位置映射的文本水印提取方法，其特征在于具体包括如下步骤：

a）将需要检测水印的文档提交LTP平台进行语义角色标注处理，得到包含文本中句子成分语义角色关系的XML文件；

b）打开嵌入水印时形成的所述位置文件，依次取出一个位置信息，根据该位置信息，在所述XML文件中找到对应的位置，判断此位置的语义角色的类型，根据语义角色类型进行反向映射或译码，如果语义角色类型为A0，则译码为0；如果语义角色类型为A1，则译码为1；如果语义角色类型为ADV，则译码为2，直到所有的位置信息全部反向映射完毕，即得到嵌入的水印信息串。