CN108681536B

CN108681536B - 一种基于汉语拼音多重映射的无载体隐写方法

Info

Publication number: CN108681536B
Application number: CN201810392047.5A
Authority: CN
Inventors: 王开西; 孙志文
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2021-11-26
Anticipated expiration: 2038-04-27
Also published as: CN108681536A

Abstract

本发明公开了一种基于汉语拼音多重映射的文本无载体隐写方法，涉及信息隐藏技术领域中基于文本载体处理技术的隐写术，主要实现了一种新型的文本无载体隐写方案。本发明重在寻找文本隐性空间以及构建映射关系实现秘密消息的隐写，实现了将秘密消息映射到文本载体隐性拼音空间，拼音空间到文本载体音节声调表，再到文本载体的多重映射。无论是隐写过程还是提取过程，关键在于构建与解析汉字和拼音具有一一映射关系的汉字拼音共享字典、文本载体的汉字拼音空间、秘密消息的音节标识值序列和声调标识值序列、以及和这两个序列对应的密钥。本发明基于映射关系的构造不易被检测，而且实现难度小、容量相对较大。

Description

一种基于汉语拼音多重映射的无载体隐写方法

技术领域

本发明涉及信息隐藏技术领域，特别是一种基于汉语拼音多重映射的文本无载体隐写方法。

背景技术

秘密通信、版权保护、数字取证等需求促进了信息隐藏技术的发展。文本仍是信息化时代信息交流的最主要载体形式。通过文本实现隐藏秘密消息进行通信是当前秘密通信的亟需方式和方法。隐写术的目的是构造一个安全、隐蔽的通信通道，隐藏秘密消息的存在。隐写术被广泛的应用于秘密通信领域，完善当前信息安全领域的通信安全问题。

现有的隐写术方法根据载体类型的不同常分为以下五类：文本隐写术、图像隐写术、音频隐写术、视频隐写术、协议隐写术。根据是否修改文本可将文本隐写术分为载体文本隐写术和无载体文本隐写术。载体文本隐写术基于不可见字符、词汇、句式和文本格式等特征的修改进行隐写；无载体文本隐写术为基于搜索或生成等方法，既不对文本载体做任何不可见字符、字符特征、文本特征的修改操作，而且不对文本载体进行语言学的替换操作。通过原始文本与伪装文本的对比或特征分析，现有载体文本隐写方法很容易被检测发现，同时由于冗余度小而存在容量小、实现难度大等问题；另外，文本载体特征的有限性导致难以在原有方法的基础上进行容量的扩充。而当前的无载体文本隐写普遍存在隐写容量小的问题。

发明内容

为解决上述问题，本发明提供一种基于汉语拼音多重映射的无载体文本隐写方法，通过文本载体空间到文本载体拼音空间的映射完成发送方和接收方的秘密通信。本发明借助自然语言处理技术实现文本载体空间到文本载体拼音空间的映射，在选择载体时基于文本相似性选择和秘密消息相似度低的文本载体，有效抵抗现有的修改法检测、统计特征检测等。

本发明解决技术问题所采用的技术方法是：一种基于汉语拼音多重映射的无载体隐写方法，发送方与接收方拥有共同的密钥、文本载体库和汉字拼音共享字典。该方法主要分为三个过程：建立汉字拼音共享字典、隐写过程、提取过程。

一、建立汉字拼音共享字典，由发送方和接收方共享。

为消除汉语拼音中同音字、多音字对本发明中隐写方法的影响，本方法把拼音分成音节和声调两部分，并将它们的组合与汉字实现一一映射；可以通过增加音节或声调扩展这种一一映射关系。以2000常用字为例，可与400个音节和5种声调的2000种组合方式形成一一映射关系；在需要建立4000常用字的汉字拼音共享字典时，可以通过增加5种声调或400个音节来实现。

二、一种基于汉语拼音多重映射的无载体隐写方法的隐写过程。隐写过程分为三个步骤：构建文本载体和文本载体拼音空间的映射关系，选择文本载体；构建秘密消息的音节标识值序列和声调标识值序列；构建秘密消息的音节标识值与声调标识值序列的对应密钥。

步骤一：构建文本载体和文本载体拼音空间的映射关系，选择文本载体

1.基于汉字拼音共享字典将文本载体库中的所有文本处理成英式拼音文本，然后对每个英式拼音文本中的音节分别统计其使用频率，并按降序的方式排成音节使用频率表；若音节使用频率相同，按照音节在英式拼音文本中的首次出现顺序进行排序，得到各个文本的音节使用频率表，包含<序号、音节、频率>三列。

2.对秘密消息进行拼音处理得到英式拼音，将秘密消息英式拼音中的音节和声调数值分别构成有序序列S₁和S₂，并记录秘密消息中的最大重复音节数G。

S₁=<X_i> (X_i为秘密消息中第i个汉字的音节) (1)

S₂=<X_j> (X_j为秘密消息中第j个汉字的声调) (2)

3.计算音节哈希值。音节哈希值用来表示秘密消息的音节序列中的音节在某文本的音节使用频率表中是否存在，其定义如下：

HK(t) = <H₁,…,H_i,…,H_Lsecret>(i=1,2,…,Lsecret) (3)

其中，Lsecret表示秘密消息长度，t是指文本载体库中某个文本，H_i是一个布尔类型的数值，由下面的函数定义：

(4)

4.计算音节文本距离(STD)，其定义如下：

STD(t) = HD(HK(t),<b₁,b₂,…,b_Lsecret>)b_i=0,i=1,2,…,Lsecret (5)

HD()函数代表汉明距离计算操作，<b₁，b₂，…，b_Lsecret>是一个全为0的序列。当STD(t) =Lsecret时，表示秘密消息的所有音节都出现在文本t中，文本t即可作为秘密消息的候选载体，将所有候选载体组成候选载体组。

5.将候选组中的文本与秘密消息进行相似性度量，选择一个与秘密消息的相似性最低的文本作为载体。

步骤二：构建秘密消息的音节标识值序列S₃和声调标识值序列S₄

1.基于音节使用频率表，增加音节标识值和声调标识值两列，构建音节声调表。

（1）音节标识值列的值确定方式是：设音节使用频率表中序号为1的音节标识值为1，序号为n的行对应的音节标识值为1+(n-1)*k。这里，k需要满足以下两个条件：

（I）k>G，以保证当秘密消息有重复音节时构造的音节标识值不重复；

（II）k大于Lsecret的所有质因数。

设Lsecret的最大质因数为P _max，则综合上述两个条件，k为：

k= min{p|p是一个质数且p>max{G，P _max}} （6）

（2）声调标识值列的值确定方式是：设音节使用频率表中序号为1的声调标识值为1，序号为n的行对应的声调标识值为1+(n-1)*d。这里，d为声调的种类数量，缺省使用五种声调，故d缺省取值为5。

2.构建秘密消息音节标识值序列S₃。

依次在音节声调表中搜索秘密消息音节序列S₁中音节所对应的音节标识值，并基于该音节在秘密消息中出现的次数构建秘密消息音节标识值序列S₃。该序列的通项表达式为：

S₃中第i项音节标识值=S₁中第i项音节在音节声调表对应的音节标识值+该音节在S₁中重复出现的次序 -1；（7）

即完整的秘密消息音节标识值序列S₃为：

S₃= <S₃中第i项音节标识值>，i∈[1，Lsecret] （8）

3．构建秘密消息的声调标识值序列S₄。

秘密消息的声调标识值序列S₄由秘密消息的声调值序列S₂结合对应音节的声调标识值组成，该序列的通项表达式为：

S₄中第j项音节声调标识值=X_j+该音节在音节声调表中的音节声调标识值 (9)

S₄=<S₄中第j项音节声调标识值>，j∈[1，Lsecret] （10）

步骤三：构建秘密消息的音节标识值与声调标识值序列的对应密钥

1.给定序列：SEQ = <1，2，…，N>，这里N为秘密消息的音节标识值和声调标识值中的最大值。

2.从SEQ中取长度为Lsecret的子序列的排列总数为P(N,Lsecret)，将这P(N,Lsecret)个序列映射到相应的种子数，其中必有两个子序列分别为秘密消息的音节标识值序列S₃和声调标识值序列S₄，记它们相对应的种子数x₁和x₂。

3.以x₁和x₂作为密钥，接收方要顺利提取秘密消息还需要知道k的取值和秘密消息的长度Lsecret。记密钥x₃为k与Lsecret的乘积。此时只需要将无任何修改的正常文本作为文本载体传输给接收方，接收方通过密钥x₁、x₂和x₃可实现对秘密消息的提取。

三、一种基于汉语拼音多重映射的无载体隐写方法的提取过程。提取过程分为三个步骤：解析密钥，得到音节标识值序列S₃和声调标识值序列S₄；解析解析得到秘密消息的音节序列S₁和声调序列S₂；基于汉字拼音共享字典，求得秘密消息。具体说明如下：

步骤一：解析密钥，得到音节标识值序列S₃和声调标识值序列S₄

1.接收端将收到的密钥作为种子数求得相应的序列。首先将x₃分解成质数的乘积，得到的所有质数中最大的质数即为k，除去这个最大质数，其他质数的乘积为秘密消息的长度Lsecret。

2.根据接收到的文本载体和k值按照前述的隐写过程步骤构建音节声调表。

3.根据音节声调表以及k和Lsecret，将所求得的两个序列区分为音节标识值序列S₃和声调标识值序列S₄。

步骤二：解析得到秘密消息的音节序列S₁和声调序列S₂

根据上面步骤一构建的音节声调表和k值将音节标识值序列S₃和声调标识值序列S₄转换成音节序列S₁和声调序列S₂。

1.将音节标识值序列与音节声调表中的音节标识值进行比较，若音节标识值序列中元素在[1+(n-1)k,1+nk)集合中，则该音节标识值对应的音节是音节声调表中音节标识值1+(n-1)k对应的音节，提取所有音节构成音节序列S₁。

2.利用音节声调表中声调标识值的计算公式反向求解声调的值，构成声调序列S₂。

步骤三：基于汉字拼音共享字典，求得秘密消息

根据步骤二所求得的S₁和S₂组合的英式拼音，在汉字拼音共享字典找到对应汉字，得到的汉字序列即为秘密消息。

本发明的有益效果为：基于汉语拼音构造了一种秘密消息到汉语拼音，汉语拼音到文本载体的音节声调表、再到文本载体的多重间接映射关系，实现文本无载体隐写。本发明基于映射关系的构造不易被检测，而且实现难度小、容量相对较大。

附图说明

图1为本发明的隐写过程示意图；

图2为本发明的提取过程示意图；

图3为本发明构建的音节声调表实例图。

具体实施方式

本发明一种基于汉语拼音多重映射的无载体隐写方法，发送方与接收方拥有共同的密钥、文本载体库和汉字拼音共享字典，所以该方法主要分为三个过程：建立汉字拼音共享字典、隐写过程、提取过程。

下面结合图1、图2，对本发明的方法进一步详细说明。本发明一种基于汉语拼音多重映射的无载体隐写方法的具体操作过程如下：

一、建立汉字拼音共享字典：

1.构建汉字拼音共享字典，实现汉字和拼音的一一映射关系。本发明中将拼音分成音节和声调两部分进行处理，可通过增加音节和声调来实现汉字与音节和声调组合之间的一一映射关系。

2.以2000常用字为例。其可与400个音节和5种声调的2000种组合形成一一映射关系。具体的汉字拼音共享字典构造步骤如下：

（1）输入2000个常用字表与中文的400个音节和五种声调的2000种组合表；

（2）将常用字处理成英式拼音，按照出现顺序将后出现的重复英式拼音对应的汉字组合成重复英式拼音汉字表，剩下的常用字表即为不重复英式拼音汉字表，不重复英式拼音汉字和其英式拼音组合成不重复英式拼音表；

（3）删除2000种拼音组合表中出现在不重复拼音表中的拼音组合，剩下的拼音组合构成未使用英式拼音组合表；

（4）将重复英式拼音汉字表与未使用英式拼音组合表形成一一映射关系，再加上不重复英式拼音表，构建成汉字拼音共享字典。

3.需要表示更多汉字的汉字拼音共享字典时，可通过增加声调或音节个数实现。中国有着众多方言，可以融合这些方言中的音节和声调来增加声调和音节，建立更大容量的汉字拼音共享字典。

二、隐写过程：

隐写过程分为三个步骤：构建文本载体和文本载体拼音空间的映射关系，选择文本载体；构建秘密消息的音节标识值序列和声调标识值序列；构建密钥秘密消息的音节标识值与声调标识值序列的对应密钥。

S₁=<X_i> (X_i为秘密消息中第i个汉字的音节) (1)

S₂=<X_j> (X_j为秘密消息中第j个汉字的声调) (2)

HK(t) = <H₁,…,H_i,…,H_Lsecret>(i=1,2,…,Lsecret) (3)

(4)

4.计算音节文本距离(STD)，其定义如下：

STD(t) = HD(HK(t),<b₁,b₂,…,b_Lsecret>)b_i=0,i=1,2,…,Lsecret (5)

5.将候选组中的文本与秘密消息进行相似性度量，如采用基于Jaccard相似系数来计算文本载体和秘密消息的相似度。具体操作步骤如下：

（1）使用中文分词将秘密消息和文本载体进行分词得到两个分词后的集合M₁和T₁；

（2）根据中文常用虚词表，从集合M₁和T₁中选出虚词，组合成集合M₂和T₂；

（3）经过M=M₁-M₂和T=T₁-T₂运算得秘密消息和文本载体的实词集合为M和T；

（4）求取集合M英式拼音和集合T英式拼音的交集ME∩TE以及并集ME∪TE；

（5）利用公式Jaccard = (ME∩TE)/(ME∪TE)求得Jaccard相似系数。

6.对文本载体与秘密消息进行Jaccard相似系数计算，比较所有的相似系数值。当选择的文本和秘密消息的相似系数较大时，表明文本载体安全性较差；当选择的文本和秘密消息的相似系数较小时，表明文本载体安全性较好；选择一个与秘密消息的相似性最低的候选文本作为载体。

（I）k>G，以保证当秘密消息有重复音节时构造的音节标识值不重复。

（II）k大于Lsecret的所有质因数。

设Lsecret的最大质因数为P _max，则综合上述两个条件，k为：

k= min{p|p是一个质数且p>max{G，MAX}} （6）

2.构建秘密消息音节标识值序列S₃。

即完整的秘密消息音节标识值序列S₃为：

S₃=<S₃中第i项音节标识值>，i∈[1，Lsecret] （8）

3．构建秘密消息的声调标识值序列S₄。

S₄=<S₄中第j项音节声调标识值>，j∈[1，Lsecret] (10)

步骤三：构建密钥和序列的映射关系

三、提取过程：

提取过程也分为三个步骤：解析密钥，得到音节标识值序列S₃和声调标识值序列S₄；解析解析得到秘密消息的音节序列S₁和声调序列S₂；基于汉字拼音共享字典，求得秘密消息。具体说明如下：

步骤二：解析得到秘密消息的音节序列S₁和声调序列S₂

步骤三：基于汉字拼音共享字典，求得秘密消息

以上为本发明的具体实施过程，仅作为对本发明的详尽说明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进，均应在本发明的保护范围之内。并且该说明不用于限制本发明的实现过程。

为更形象的表述实验结果及发明创造的有益效果，本发明以秘密消息“中国的文化”为例，文本载体选取搜狗实验室全网新闻数据集作为文本载体库。汉字拼音共享字典以及文本载体的选择在实例中不予详细说明，实例主要表明本发明隐写过程和提取过程的有益效果，并不用以限制本发明。结合图3，实例具体说明如下：

1.基于汉字拼音共享字典映射关系将秘密消息处理成英式拼音，并得到音节序列和声调序列：英式拼音<zhong1,guo2,de0,wen2,hua4>，音节序列S₁=<zhong,guo,de,wen,hua>以及声调序列S₂=<1,2,0,2,4>。

2.基于汉字拼音共享字典映射关系将选取的载体处理成英式拼音文本，统计文本的音节声调构建音节声调表实例图3。

3.根据音节声调表实例图构建音节、声调序列与音节标识值、声调标识值序列的映射关系，根据这种映射关系得到音节标识值序列S₃=<43，106，22,113,302>和声调标识值序列S₄=<32,78,16,83,220>。

4.构建和音节标识值和音调标识值序列的对应密钥分别为x₁和x₂，并且S₃和x₁、S₄和x₂的映射关系具有唯一性，能够实现独立并易于区分。即将x₁和x₂作为发送端和接收端共同拥有的密钥。

5.接收端同样拥有的有汉字拼音共享字典，文本载体以及密钥，利用密钥和序列的唯一映射关系，接收端能够得到与密钥x₁和x₂相对应的音节标识值和声调标识值序列S₃和S₄。

6.接收端将文本载体处理成英式拼音文本，统计文本的音节声调构建音节声调表实例图，根据实例图、音节标识值序列S₃以及声调标识值序列S₄，可得到音节和声调序列S₁和S₂。

7.将音节和声调组合成英式拼音，并将英式拼音作为Key值在汉字拼音共享字典中搜索其相对应的汉字，将所有汉字组合成汉字序列实现秘密消息的通信。

Claims

1.一种基于汉语拼音多重映射的无载体隐写方法，其特征在于，包括：

步骤1、建立汉字拼音共享字典，把拼音分成音节和声调两部分，并将它们的组合与汉字实现一一映射；通过增加音节或声调扩展这种一一映射关系；

步骤2、发送方进行的隐写过程；

步骤3、接收方进行的提取过程；

发送方和接收方拥有共同的密钥、文本载体库和所述的汉字拼音共享字典；

所述的步骤2分为以下三个步骤：

步骤(2-1)构建文本载体和文本载体拼音空间的映射关系，选择文本载体；

步骤(2-2)构建秘密消息的音节标识值序列和声调标识值序列；

步骤(2-3)构建秘密消息的音节标识值与声调标识值序列的对应密钥；

所述的步骤(2-1)包括以下步骤：

A.基于所述的汉字拼音共享字典将文本载体库中的所有文本处理成英式拼音文本，然后分别统计每个英式拼音文本中音节的使用频率，并按降序的方式排成音节使用频率表；若音节使用频率相同，按照音节在英式拼音文本中的首次出现顺序进行排序，得到各个文本的音节使用频率表，包含<序号、音节、频率>三列；

B.对秘密消息进行拼音处理得到英式拼音，将秘密消息英式拼音中的音节和声调数值分别构成有序序列S₁和S₂，并记录秘密消息中的最大重复音节数G，即：

S₁＝<X_i>(X_i为秘密消息中第i个汉字的音节) (1)

S₂＝<X_j>(X_j为秘密消息中第j个汉字的声调) (2)

C.计算音节哈希值：音节哈希值用来表示秘密消息的音节序列中的音节在某文本的音节使用频率表中是否存在，其定义如下：

HK(t)＝<H₁,…,H_i,…,H_Lsecret>(i＝1,2,…,Lsecret) (3)

D.计算音节文本距离(STD)，其定义如下：

STD(t)＝HD(HK(t),<b₁,b₂,…,b_Lsecret>)b_i＝0,i＝1,2,…,Lsecret (5)

HD()函数代表汉明距离计算操作，<b₁，b₂，…，b_Lsecret>是一个全为0的序列；当STD(t)＝Lsecret时，表示秘密消息的所有音节都出现在文本t中，文本t即可作为秘密消息的候选载体，将所有候选载体组成候选载体组；

E.将候选载体组中的文本与秘密消息进行相似性度量，选择一个与秘密消息的相似性最低的文本作为载体；

所述的步骤(2-2)包括：

A.基于所述的音节使用频率表，增加音节标识值和声调标识值两列，构建音节声调表，具体方法如下：

(1)音节标识值列的值确定方式是：设音节使用频率表中序号为1的音节标识值为1，序号为n的行对应的音节标识值为1+(n-1)*k；这里，k需要满足以下两个条件：

(I)k>G，以保证当秘密消息有重复音节时构造的音节标识值不重复；

(II)k大于Lsecret的所有质因数；

设Lsecret的最大质因数为P_max，则综合上述两个条件，k为：

k＝min{p|p是一个质数且p>max{G，P_max}} (6)

(2)声调标识值列的值确定方式是：设音节使用频率表中序号为1的声调标识值为1，序号为n的行对应的声调标识值为1+(n-1)*d，这里，d为声调的种类数量，缺省使用五种声调，故d缺省取值为5；

B.构建秘密消息音节标识值序列S₃：

依次在音节声调表中搜索秘密消息音节序列S₁中音节所对应的音节标识值，并基于该音节在秘密消息中出现的次数构建秘密消息音节标识值序列S₃；该序列的通项表达式为：

S₃中第i项音节标识值＝S₁中第i项音节在音节声调表对应的音节标识值+该音节在S₁中重复出现的次序-1； (7)

即完整的秘密消息音节标识值序列S₃为：

S₃＝<S₃中第i项音节标识值>，i∈[1，Lsecret] (8)

C.构建秘密消息的声调标识值序列S₄：

S₄中第j项音节声调标识值＝X_j+该音节在音节声调表中的音节声调标识值(9)

S₄＝<S₄中第j项音节声调标识值>，j∈[1，Lsecret] (10)；

所述的步骤(2-3)包括：

A.给定序列：SEQ＝<1，2，…，N>，这里N为秘密消息的音节标识值和声调标识值中的最大值；

B.从SEQ中取长度为Lsecret的子序列的排列总数为P(N,Lsecret)，将这P(N,Lsecret)个序列映射到相应的种子数，其中必有两个子序列分别为秘密消息的音节标识值序列S₃和声调标识值序列S₄，记它们相对应的种子数x₁和x₂；

C.以x₁和x₂作为密钥，接收方要顺利提取秘密消息还需要知道k的取值和秘密消息的长度Lsecret；记密钥x₃为k与Lsecret的乘积；此时只需要将无任何修改的正常文本作为文本载体传输给接收方，接收方通过密钥x₁、x₂和x₃可实现对秘密消息的提取。

2.根据权利要求1所述的基于汉语拼音多重映射的无载体隐写方法，其特征在于，所述的步骤3分为三个步骤：

步骤(3-1)：解析密钥，得到音节标识值序列S₃和声调标识值序列S₄；

步骤(3-2)：解析得到秘密消息的音节序列S₁和声调序列S₂；

步骤(3-3)：基于汉字拼音共享字典，求得秘密消息。

3.根据权利要求2所述的基于汉语拼音多重映射的无载体隐写方法，其特征在于，所述的步骤(3-1)包括以下步骤：

A.接收端将收到的密钥作为种子数求得相应的序列：首先将x₃分解成质数的乘积，得到的所有质数中最大的质数即为k，除去这个最大质数，其他质数的乘积为秘密消息的长度Lsecret；

B.根据接收到的文本载体和k值按照前述的隐写过程的步骤构建音节声调表；

C.根据音节声调表以及k和Lsecret，将所求得的两个序列区分为音节标识值序列S₃和声调标识值序列S₄。

4.根据权利要求2所述的基于汉语拼音多重映射的无载体隐写方法，其特征在于，所述的步骤(3-2)根据所述的步骤(3-1)构建的音节声调表和k值将音节标识值序列S₃和声调标识值序列S₄转换成音节序列S₁和声调序列S₂，具体方法如下：

A.将音节标识值序列与音节声调表中的音节标识值进行比较，若音节标识值序列中元素在[1+(n-1)k,1+nk]集合中，则该音节标识值对应的音节是音节声调表中音节标识值1+(n-1)k对应的音节，提取所有音节构成音节序列S₁；

B.利用音节声调表中声调标识值的计算公式反向求解声调的值，构成声调序列S₂。

5.根据权利要求2所述的基于汉语拼音多重映射的无载体隐写方法，其特征在于，所述的步骤(3-3)是根据步骤(3-2)所求得的S₁和S₂组合的英式拼音，在汉字拼音共享字典找到对应汉字，得到的汉字序列即为秘密消息。