CN112989809A

CN112989809A - 基于同义词扩展和标签传递的文本无载体信息隐藏方法

Info

Publication number: CN112989809A
Application number: CN202110403886.4A
Authority: CN
Inventors: 张祯; 倪嘉铭; 姚晔; 吴国华; 王玉娟; 袁理锋; 任一支
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-06-18
Anticipated expiration: 2041-04-15
Also published as: CN112989809B

Abstract

本发明公开基于同义词扩展和标签传递的文本无载体信息隐藏方法：遍历文本库路径，对于每篇文本，将所定位标签及对应关键词存储在索引文本中；用RNN模型提取文本特征，得到满足样本特征的语言模型；对秘密信息进行切分得到关键词集合，将单个关键词扩展为同义词集合，将不同的关键词或同义词嵌入同篇自然文本中，记录每篇载体文本中包含的所有关键词信息；将所有关键词信息按固定格式转换为二进制序列；将所有自然载体文本和生成文本发送给接收端完成秘密通信。接收端按顺序接受所有文本，使用与发送端的RNN模型从最后一个文本中提取二进制序列，按固定格式解析出关键词信息，从自然文本中提取关键词组成秘密信息。

Description

基于同义词扩展和标签传递的文本无载体信息隐藏方法

技术领域

本发明属于信息安全技术领域，具体涉及一种基于同义词扩展和标签传递机制的文本无载体信息隐藏方法。

背景技术

信息技术和移动通信的应用普及，使得人们越来越依赖各种数字媒体来完成日常的通信和交流任务。然而，信息的数字化也使其面临恶意攻击、非授权访问、窃听和伪造等风险。保障信息安全的主要技术有信息隐藏和信息加密。区别于信息加密技术，信息隐藏技术通过将秘密信息嵌入公开载体中，以此来实现秘密信息的安全通信，保证了传输过程的隐蔽性。

传统的信息隐藏技术大多通过对载体（数字文本、数字图像、视音频）内容进行细微改动，嵌入秘密信息并生成含密载体。其中，文本作为日常生活中使用最频繁的媒体之一，已成为信息隐藏的重要载体之一。但是，与其他载体相比，文本的数据量较小，包含的冗余信息量也较少，导致秘密信息嵌入相对困难。同时，针对文本信息隐藏的检测算法也日渐成熟。因此，如何在实现高容量的文本信息隐藏的同时提高秘密信息的抗检测性已成为当前的研究热点。

在上述背景下，无载体信息隐藏的概念被提出。无载体信息隐藏不是不需要载体，而是不采用修改的方式直接传递自然文本或直接生成载体文本。传统的无载体信息隐藏方法需要通信双方提前协商定位标签，维护相同的文本数据集，发送方使用标签搜索数据集中满足条件的文本发送给接收方，接收方使用同样的标签从文本中提取秘密信息。2017年后，基于深度学习的生成式无载体信息隐藏方法引起了学者的关注。与上述依赖定位标签隐藏和提取秘密信息的方法相比，生成式方法直接以秘密信息生成含密载体，无需构建、维护大型的文本数据库。

上述方法中，基于定位标签的搜索式隐藏方法虽然具有很好的隐蔽性，但隐藏容量较低，无法实现高效的秘密信息通信；基于深度学习语言模型的生成式方法可以实现高容量的秘密信息嵌入，但是当秘密信息的长度较大时，生成的文本大概率会出现上下文语义不连贯、语义错误等情况，因此很难抵抗隐写检测。

发明内容

针对现有技术文本信息隐藏方法隐藏容量低、抗检测性弱等问题，本发明提出了一种基于同义词扩展和标签传递的文本无载体信息隐藏方法，有效地提升了隐藏容量和抗检测性，使用小型载体文本数据库即可实现完整的信息隐藏和提取，减少了建立、维护、索引数据库的开销。

为了实现上述目的，本发明所采用以下技术方案：

基于同义词扩展和标签传递的文本无载体信息隐藏方法，具体步骤包括：

步骤1，遍历文本库路径，对于每一篇文本，将所有定位标签以及对应的关键词存储在索引文本中；

步骤2，使用多层RNN模型提取文本库中的文本特征，得到满足文本库样本特征的语言模型；

步骤3，发送端对秘密信息进行切分，得到关键词集合，将单个关键词扩展为同义词集合，将不同的关键词或其同义词嵌入同一篇自然文本中，同时记录每篇载体文本中包含的所有关键词信息；将所有关键词信息按固定格式转换为二进制序列，作为秘密信息生成载体文本；最后将所有自然载体文本和生成文本发送给接收端完成秘密通信；

步骤4，接收端按顺序接受所有文本，使用与发送端相同的RNN模型从最后一个文本中提取二进制序列，按固定格式解析出关键词信息，从自然文本中提取关键词组成秘密信息。

进一步地，步骤1具体如下：

步骤1.1，遍历文本库中的每一个文本t，从文本的起始位置IP开始，取出n个汉字根据GBK的奇偶性转换成二进制序列作为标签label；

步骤1.2，选取定位标签后的4个汉字，进行分词操作，选取分词结果的第一个词或字作为关键词k；

步骤1.3，创建以标签label命名的索引文件并存储步骤1.2得到的关键词k和文本t的文本路径；起始位置IP=IP+1，重复上述步骤1.2，直到IP+n等于文本长度为止。

进一步的，步骤3具体包括：

步骤3.1，对秘密信息I进行分词、去停用词，得到关键词集合K；

步骤3.2，对于关键词集合K中每个关键词，使用同义词林将每个关键词扩充成同义词集合，接着采用词汇语义相似度方法筛选同义词集合中相似度与原关键词在0.5以上的词，其计算公式如下：

其中，

是4个调节参数，满足

且

；四个调节参数取值如下

；

表示语义描述式中特定描述之间的相似度，公式如下：

其中，

表示义原，d是

在义原层次体系中的最短路径长度，y的取值为1.6；得到最终同义词扩展集合S；

步骤3.3，对于S中的每个关键词集合s，遍历s中每个关键词w，在所有索引文件中检索关键词w，获得所有满足条件的文本集合T，并记录索引文件名中的标签L，以及定位标签的位置信息构成位置信息集合D；

步骤3.4，当上述过程中出现同一个关键词扩展集合s中不同关键词在同一篇的文本中存在的情况时，只记录第一次出现的关键词相关信息；最终得到每个s对应文本集的集合

、对应标签集的集合

、对应关键词位置集的集合

；若在遍历完s后，文本集的集合

为空，则将原秘密关键词切分成单个汉字继续隐藏；

步骤3.5，对于文本集的集合

，构建词袋模型，选出频率最高的文本txt，记录其中包含的所有关键词在秘密信息中的位置M、标签集合

和标签位置

，将txt作为载体文本发送给接收方，M、

和

按固定格式转化成二进制参数序列e存储；

步骤3.6，剔除T中在步骤3.5中已经隐藏的关键词扩展集合，再次执行步骤3.5，直到所有关键词都隐藏完成；

步骤3.7，使用RNN模型计算候选池中单词的概率分布，使用Huffman编码按条件概率对候选词进行编码，根据二进制参数e选择合适的候选词作为下一轮输入，直到参数e完全被嵌入，最终生成文本

。

进一步的，步骤4具体包括：

步骤4.1，对于收到的最后一个文本

，使用与发送端相同地RNN模型计算每个单词在每个时刻的概率分布，根据计算出来的条件概率使用Huffman编码方法对文本中的词语进行编码，解出二进制参数e；

步骤4.2，对于参数e，按固定格式解析，得到各篇文本中包含的关键词个数，以及每个关键词对应的标签集合

、标签位置集合

和秘密信息位置集合M；

步骤4.3，根据标签集合

和标签位置集合

在对应的文本中提取关键词，最后根据秘密信息位置集合M将关键词进行排序组句，得到最终完整秘密信息。

与现有技术相比，本发明具有的有益效果：

本发明通过将关键词扩展为同义词集合，使得更多地关键词或其同义词能够被嵌入到同一篇载体文本中，同时借助自定义标签机制的方法，将秘密参数嵌入新的生成文本中，在保证隐蔽性的同时也增加了可传递参数的数量，有效地提升了自然文本载体的隐藏容量和信息传递的安全性。而现有的无载体隐藏方法普遍需要构建、维护一个大型文本数据库，以提供较高的隐藏成功率。本发明极大减少了数据库对隐藏成功率的限制，在使用小型文本库的前提下，依然可以正常实现秘密信息嵌入和提取。

附图说明

图1为本发明实施例基于同义词扩展和标签传递的文本无载体信息隐藏方法的框架图；

图2为本发明实施例所提供的秘密信息隐藏过程图；

图3为本发明实施例所提供的二进制参数固定格式；

图4为本发明实施例所提供视秘密信息提取过程图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明优选实施例给出了一种基于同义词扩展和标签传递的文本无载体信息隐藏方法。图1为本发明实施例所提供的基于同义词扩展和标签传递机制的无载体信息隐藏方法的框架图。如图1所示，该方法包括以下步骤：

步骤1，遍历文本库路径，对于每一篇文本，记录其中包含的所有定位标签以及对应的关键词，存储在索引文本中，详细流程如下。

步骤1.1，输入定位标签的长度n。

步骤1.2，取出一篇文本t，剔除t中非汉字符，起始位置IP置0。选取从IP开始的5个汉字，根据GBK编码的奇偶性转换5个汉字为二进制序列作为标签label。对标签后的4个汉字分词，取分词后的第一个词作为关键词k，创建一张哈希表并以label命名，将关键词k和文本路径存入以标签名label命名的哈希表中。若名为label的哈希表已经存在，则直接存储。

步骤1.3，IP=IP+1，重复步骤1.2，直到IP+n等于文本长度为止。

步骤1.4，取出下一篇文本，重复步骤1.2，步骤1.3，直到文本库中所有文本都被遍历完。输出以各标签命名的哈希表作为索引文件。

步骤2，使用多层RNN模型提取文本库中的文本特征，得到满足文本库样本特征的语言模型。

步骤3，发送端对秘密信息进行切分，得到关键词集合，将单个关键词扩展为同义词集合，尽可能将不同的关键词或其同义词嵌入同一篇自然文本中，同时记录每篇载体文本中包含的所有关键词信息。将所有关键词信息按固定格式转换为二进制序列，作为秘密信息生成载体文本。最后将所有自然载体文本和生成文本发送给接收端完成秘密通信，如图2所示，详细流程如下。

步骤3.1，输入定位标签长度n，秘密信息I。对秘密信息I进行分词、去停用词，得到关键词集合K；

步骤3.2，根据n生成

种01组合作为标签的集合，对K中每个关键词使用同义词林将每个关键词扩充成同义词集合，接着采用词汇语义相似度方法筛选同义词集合中相似度与原关键词在0.5以上的词，其计算公式如下：

其中，

是4个调节参数，满足

且

；四个调节参数取值如下

；

表示语义描述式中特定描述之间的相似度，公式如下：

其中，

表示义原，d是

在义原层次体系中的最短路径长度，y的取值为1.6；筛选出同义词集合中相似度与原关键词在0.5以上的词，得到最终同义词扩展集合 S。

步骤3.3，对于S中的每个关键词集合s，遍历s中每个关键词w，在所有索引文件中检索关键词w，将检索到的文本集合中的文本存入文本集合T，并记录索引文件名中的标签 L，以及定位标签的位置信息构成位置信息集合D。遍历完成后，对文本集合T中的文本进行去重。若T为空集，则将s对应的关键词切分成单个汉字进行检索，最终结果存入T中。将所有的文本集合T存储到文本集集合

中。

步骤3.4，当上述过程中出现同一个关键词扩展集合s中不同关键词在同一篇的文本中存在的情况时，只记录第一次出现的关键词相关信息，比如在一篇文本txt中同时包含 w、

， w、

都是同一个s中的关键词，只记录w对应的标签和标签位置；最终得到每个s对应文本集的集合

、对应标签集的集合

、对应关键词位置集的集合

；若在遍历完s后，文本集的集合

为空，则将原秘密关键词切分成单个汉字继续隐藏。

步骤3.5，对

构建词袋模型，取出出现频率最高的文本txt，记录该文本中所有隐藏的关键词对应的标签集合

、关键词在秘密信息中的位置集合M。根据标签集合，在文本中根据关键词扩展集合检索标签位置集合

。将M、

和

按固定格式转化为二进制比特e并存储。

步骤3.6，将文本txt发送给接收方，在

中剔除上述文本中已经隐藏的关键词扩展子集，直到

为空集为止。上述固定格式如图3所示。

进一步地，对图3中各项参数的解释如下。

分词数：根据秘密信息被切分成关键词的个数

，计算分词数a的值满足

，用固定6bit记录分词数a的值。

分词数a具体为：若句子“无载体信息隐藏是信息隐藏新方向”切分后为“无载体/信息/隐藏/是/信息/隐藏/新方向”，切分后的关键词个数为7个，因为7介于2²和2³之间，因此a的值取3，即将7转化为2进制数111后的位数；由于本实验默认秘密信息分词后的长度不超过64，因此使用6bit记录a的值。

最大隐藏数：选择隐藏最多的文本，记录隐藏的关键词个数

，计算最大隐藏数c 的值满足

，用固定5bit记录最大隐藏数c的值。

最大隐藏数c具体为：比如上述秘密信息中“无载体/隐藏/新方向”3个关键词都被隐藏在文本txt1中，3介于2¹和2²之间，那么c的值为2，即将3转化为2进制数11后的位数；本实验中经过实验发现一篇文本中最多能隐藏的关键词数量不会超过32个，因此用5bit记录c的值。在本实施例中，a和c本质上表示记录上述两个参数所需要的最大比特数。

表示第i篇文本中隐藏的关键词个数，每个关键词需要“标签、标签位置、秘密信息位置“三个参数才能解密，因此每一篇文本载体，需要c+k_i*（5+6+a）长度的参数来提取其中的关键词，而a和c作为两个变量，分别用固定的6bit和5bit保存。

关键词个数：表示第i篇文本中关键词的个数，用cbit表示。

标签：定位标签，用5bit表示。

标签位置：与标签搭配使用，表示在该文本中取某标签下的第几个关键词。用6bit表示。

秘密信息位置：对应关键词在原秘密信息中的位置，用abit表示。

并发送给接收端。

步骤4，接收端按顺序接受所有文本，使用与发送端相同的RNN模型从最后一个文本中提取二进制序列，按固定格式解析出关键词信息，从自然文本中提取关键词组成秘密信息，如图4所示，详细过程如下。

步骤4.1，使用与发送端相同的参数训练RNN模型；使用RNN模型计算收到的最后一个文本

中每个单词在每个时刻的概率分布，根据计算出来的条件概率使用Huffman编码方法对文本中的词语进行编码，解出二进制参数e。

步骤4.2，按照固定格式解析e，得到每篇文本txt中对应的标签集合

、标签位置集合

和关键词在秘密信息中的位置集合M；

步骤4.3，根据

从载体文本txt中解出关键词，根据M将关键词还原成秘密信息。

为了形象表示本发明实验结果，本发明以秘密消息“无载体信息隐藏”为例，文本数据库大小为100MB，包含56160篇文本。这些文本分别来自不同的领域，包括古典文学、简书文章、新闻、小说，按照1:1:1:1的比例从网络中随机抽取。本具体实施例旨在说明本方法的一般流程，对生成文本、相似度判决等步骤不予演示。

步骤1.构建索引文件：

步骤1.1、取出一篇文本t，剔除t中非汉字符，将t的起始位置 IP置0。

步骤1.2、输入n的值为5，选取从IP开始的5个汉字，根据GBK编码的奇偶性转换5个汉字为二进制序列作为标签label。例如文本t的内容为“无载体信息隐藏是信息隐藏新方向”，取出前五个汉字“无载体信息”，按GBK编码的奇偶性转换为“01010”作为标签，取标签后的四个汉字“隐藏是信”进行分词，得到分词结果“隐藏\是\信”，选取结果的第一个词“隐藏”作为关键词，将“隐藏”和文本t的路径存储在名为“01010”的哈希表中作为索引文件。

步骤1.3、IP=IP+1，重复步骤1.1，直到IP+n等于文本长度为止。

具体为：取出下一篇文本，重复步骤1.1，步骤1.2，直到文本库中所有文本都被遍历完。返回以各标签命名的哈希表作为索引文件

。

步骤2.使用多层RNN模型提取文本库中的文本特征，得到满足文本库样本特征的语言模型。

步骤3.信息隐藏：

步骤3.1、生成标签集合

；对秘密信息分词、去停用词后得到关键词集合

。

步骤3.2、对关键词集合K进行同义词扩展，得到扩展后的集合

。

步骤3.3、对于集合S中的每个关键词集合s，在索引文件中检索其中所有的关键词，并记录文本路径和对应标签。

步骤3.4、当出现同一个关键词扩展集合s中不同关键词在同一篇的文本中存在的情况时，只记录第一次出现的关键词相关信息，例如

，其“隐藏”和“掩藏”同时出现在文本txt中，只记录“隐藏”在txt中对应的定位标签。最终得到s₁对应的文本路径集合

，对应标签集合为

，对应关键词位置集的集合

。

对应的文本路径集合

，对应标签集合为

，对应关键词位置集的集合

。

对应的文本路径集合

，对应标签集合

，对应关键词位置集的集合

。将

存储在文本集的集合

中，即

。

步骤3.5、对

构建词袋模型，取出频率最高的文本

，记录其中隐藏的关键词对应的标签集合

、关键词在秘密信息中的位置集合

。根据标签集合

，在文本

中分别寻找关键词“无载体”“信息\消息\ 讯息”“隐藏\掩藏\隐蔽\掩蔽”，记录关键词第一次出现的位置

。

步骤3.6、将标签集合

、关键词在秘密信息中的位置集合M和标签位置

按图3 格式转化为二进制比特e=“0001100001111110010010100011000001101101100011110”。

步骤3.7、使用RNN模型计算候选池中单词的概率分布，使用Huffman编码按条件概率对候选词进行编码，根据二进制参数e选择合适的候选词作为下一轮输入，直到参数e完全被嵌入，最终生成文本

。将

和

发送给接收端完成秘密通信。

步骤4.信息提取：

步骤4.1、接收端按顺序收到文本

和

；

使用与发送方相同参数训练RNN模型；

使用RNN模型计算最后收到的文本

中每个单词在每个时刻的概率分布，根据计算出来的条件概率使用Huffman编码方法对文本中的词语进行编码，解出二进制参数 e= “0001100001111110010010100011000001101101100011110”。

步骤4.2、根据图3所示的结构解析e，得到标签集合

、关键词在秘密信息中的位置集合

、标签位置集合

。

步骤4.3、接收方根据标签集合

和标签位置集合

从文本

提取出关键词 “无载体”、“信息”、“掩藏”，根据关键词在秘密信息中的位置集合M对三个词进行排序组句，得到秘密信息“无载体信息掩藏”。由于引入了同义词扩展，最终提取的秘密信息可能与原秘密信息存在一些差异。经过实验的验证，这些差异并不影响原始信息的语义表达。

本发明基于同义词扩展和标签传递机制的文本无载体信息隐藏方法，将秘密信息切分成若干个关键词，对每个关键词进行同义词扩展，尽可能将不同的关键词或其同义词嵌入同一文本中，以此来提升隐藏容量。同时，记录每篇文本中所有被隐藏关键词的标签参数，将其按固定格式转换为二进制序列，作为秘密信息生成载体文本。最后，将自然载体文本和生成载体文本一起发送给接收方完成秘密通信。与传统的无载体信息隐藏方法相比，本发明方法在隐藏容量方面有了较大的提升，同时减少了数据库对隐藏成功率的限制，在使用小型文本库的情况下，依然可以正常实现秘密信息嵌入和提取。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。