CN115758415A

CN115758415A - 一种基于汉字部件组合的文本无载体信息隐藏方法

Info

Publication number: CN115758415A
Application number: CN202211467880.4A
Authority: CN
Inventors: 吴国华; 倪嘉铭; 王秋华; 张祯; 任一支; 王玉娟; 姚晔
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-01-25
Filing date: 2022-11-22
Publication date: 2023-03-07
Also published as: CN114491597A

Abstract

本发明公开了一种基于汉字部件组合的文本无载体信息隐藏方法，首先确定搜索式无载体信息隐藏方法，对索引生成算法进行改进，引入汉字部件组合机制，同时改进标签形式，以区分关键词与生成汉字。发送方对秘密信息进行切分，得到关键词集合，使用选定的信息隐藏方法并结合改进后的标签，将关键词嵌入到多个载体文本并发送给接收方完成秘密通信。接收方按顺序接收所有文本，使用提取算法结合改进标签从多个载体中提取关键词，最后将关键词按顺序组成原始秘密信息。本发明方法有效地提升了非常用汉字的隐藏成功率，在使用小型文本库的前提下依然可以保证高隐藏成功率和高隐藏容量。

Description

一种基于汉字部件组合的文本无载体信息隐藏方法

技术领域

本发明涉及一种基于汉字部件组合的文本无载体信息隐藏方法，属于信息安全技术领域。

背景技术

为了保障通信过程的安全，信息隐藏作为最常用的安全技术之一被广泛应用。它把信息通过特定的方式嵌入公开载体中，载体形式可以是文本、图像、视音频这些网络中常见的数字媒介。基于修改的信息隐藏技术已经达到了相对成熟的阶段。与此同时，深度学习的发展推动了隐写检测算法走向成熟，传统的修改式隐藏方法很难抵抗这类检测。其次，文本作为信息隐藏的主流载体之一，由于其文件容量较小导致了秘密信息嵌入的效率较低。因此，在保证秘密信息抗检测性的前提下提高文本载体的信息嵌入率已成为当下研究者关注的重点。在这样的背景下，无载体信息隐藏技术被提出并迅速引起广泛的关注。

无载体信息隐藏技术并不是不需要载体，而是采用不修改载体或直接生成含密载体的方法传递秘密信息。这种信息隐藏技术在隐藏原理上就不同于传统的信息隐藏方法，由于其传递的都是自然文本，因此可以抵抗各类隐写分析算法，具有较强的隐蔽性。当前，无载体细信息隐藏方法主要包括搜索式和生成式两种，也有研究人员将这两种方法相结合，有效提升了单篇载体文本的隐藏容量，但是当秘密信息中包含一些非常用字时，该方法依然无法实现完整的秘密信息传递。

发明内容

本发明针对文本无载体信息隐藏方法中无法隐藏一些非常用字的问题，提出一种基于汉字部件组合的文本无载体信息隐藏方法，改进了传统的“定位标签+关键词”的搜索式无载体信息隐藏模式，将关键词中的每个汉字拆分成“偏旁部首+独立汉字”并将这些汉字部件保存在一个集合中，对集合中的部件进行两两组合以产生新的汉字。本发明方法有效地提升了非常用汉字的隐藏成功率，在使用小型文本库的前提下依然可以保证高隐藏成功率和高隐藏容量。

为了实现上述目的，本发明所采用以下技术方案：

一种基于汉字部件组合的文本无载体信息隐藏方法，包括如下步骤：

步骤1.确定搜索式无载体信息隐藏方法，根据选用的方法构建对应的载体文本库并确定定位标签形式和信息隐藏提取算法，对搜索式无载体信息隐藏方法的索引生成算法进行改进，引入汉字部件组合机制，同时改进标签形式，以区分关键词与生成汉字。

步骤2.发送方对秘密信息进行切分，得到关键词集合，使用步骤1选定的信息隐藏方法并结合改进后的标签，将关键词嵌入到多个载体文本并发送给接收方完成秘密通信。

步骤3.接收方按顺序接收所有文本，使用步骤1选用的提取算法结合改进标签从多个载体中提取关键词，最后将关键词按顺序组成原始秘密信息。

本发明方法在无载体信息隐藏技术固有的强隐蔽性技术上进一步提升了通信的安全性。首先，通过引入汉字部件组合机制后，原先的定位标签指向的可能是一个关键词，也可能是关键词拆分重组后的重组汉字。因此在定位标签中需要额外的标志位和编码位来表明这种情况，这就使得攻击者对编码的暴力猜解更为困难。其次，通信双方可以自定义汉字拆解方式，即使在攻击者解析出编码格式，还需要对原始关键词进行拆解并重组才能得到被嵌入的重组汉字。而对单个汉字拆解重组后的编码结果由构建的汉字部件库、拆解算法、重组顺序以及重组汉字的编码方式所决定，所以攻击者破解了编码文件后，还需要构建与发送方相同的部件库，使用完全一致的拆解算法和编码才能还原出嵌入信息。

本发明方法有一定概率可以生成原始文本中不存在的汉字，以此来增加秘密信息被嵌入的成功率，同时也提升了在单篇文本中嵌入多个关键词的概率。同时，本发明对载体文本库的要求较低，在使用小型文本库的前提下依然可以保证高隐藏成功率和高隐藏容量。

附图说明

图1为本发明实施例所提供的引入汉字部件组合机制的信息隐藏框架图；

图2为本发明实施例所提供的关键词拆分重组实例图；

图3为本发明实施例所提供的汉字拆分重组后编码实例图；

图4为本发明实施例所提供的二进制参数格式图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例在现有的一种搜索式无载体信息隐藏方法的基础上引入汉字部件机制。图1为本发明实施例所提供的引入汉字部件组合机制的信息隐藏框架图。如图1所示，该方法包括以下步骤：

步骤1，确定现有的搜索式无载体信息隐藏方法，根据选用的方法构建对应的载体文本库并确定定位标签形式和信息隐藏提取算法(不同的搜索式无载体信息隐藏方法有不同的标签形式，因此生成索引的方法、信息隐藏过程和提取过程都不相同)，对搜索式无载体信息隐藏方法的索引生成算法进行改进，引入汉字部件组合机制，同时改进标签形式，以区分关键词与生成汉字，详细流程如下：

步骤1.1，确定定位标签的长度n。从载体文本库中取出一篇文本T，剔除T中非汉字符，统计汉字的总数W，将T的起始位置IP置0。

步骤1.2，选取文本T中从IP开始的n个汉字，根据GBK编码的奇偶性将n个汉字转换为二进制序列作为标签L。对标签后的四个汉字分词，取分词后的第一个词作为关键词K，创建一张哈希表并以L命名，将关键词和文本路径存入以L为名的哈希表中。若名为L的文件已经存在，则直接存储。

步骤1.3，对关键词K，执行汉字部件组合算法，生成重组汉字集合H。

步骤1.3.1，对关键词K中的每个汉字进行拆分，分别得到偏旁部首集合P＝{p₁，p₂，…，p_i}和独立汉字集合C＝{c₁，c₂，…，c_j}。

步骤1.3.2，若i+j≤8，对独立汉字集合C中的汉字继续拆分，得到偏旁部首集合P′＝{p′₁，p′₂，…}和独立汉字集合C’＝{c′₁，c′₂，…}，将P集合与P′集合做并集运算，最终结果赋予P，将C集合与C′集合做并集运算，最终结果赋予C。否则，直接执行步骤1.3.3。

步骤1.3.3，将偏旁部首集合P中的偏旁按顺序进行两两组合，若成功组合成汉字且关键词K中不包含该汉字，则将该汉字添加到生成汉字集合H中，将偏旁部首集合P中的偏旁按顺序与集合C中的独立汉字进行两两组合，若成功组合成汉字且关键词K中不包含该汉字，则将该汉字添加到重组汉字集合H中，具体示例如图2所示。

步骤1.3.4，若重组汉字集合H的长度大于8，则只随机保留8个，得到最终的重组汉字集合H。将集合H中的每个汉字存入以L为名的哈希表中。

步骤1.4，IP＝IP+1，重复步骤1.2，直到IP+n+4＞W为止。

步骤1.5，从载体文本库中取出另一篇文本，重复步骤1.2至步骤1.4，直到文本库中所有文本都被遍历完。返回以各标签命名的哈希表作为索引文件。

步骤1.6，使用多层RNN模型提取载体文本库的文本特征，得到满足载体文本库样本特征的语言模型。

步骤2，发送端对秘密信息进行切分，得到关键词集合，使用步骤1选定的信息隐藏方法并结合改进后的标签，将关键词嵌入到多个载体文本并发送给接收方完成秘密通信，详细流程如下。

步骤2.1，确定秘密信息M。

步骤2.2，对秘密信息M分词、去停用词，得到关键词集合KeywordSet，对关键词集合KeywordSet中的每个关键词使用同义词林将每个关键词扩充成同义词集合，接着使用如下计算公式计算相似度：

其中β_v(1≤v≤4且v∈N)是调节参数，四个调节参数如下β₁＝0.5，β₂＝0.2，β₃＝0.17，β₄＝0.13。Sim_o(1≤o≤v且o∈N)表示语义描述式中特定描述之间的相似度，公式如下：

其中p₁，p₂为两个义原，d是p₁，p₂在义原层次体系中的最短路径长度，a是一个可调节参数。筛选出同义词集合中相似度与原关键词在0.5以上的词，得到最终同义词扩展集合S′＝{s₁，s₂，…，s_n}(s_k＝{w₁，w₂，…}，s_k为最终扩展的同义词集合)。

步骤2.3，对于S′中的每个同义词集合s_k，遍历s_k中每个同义词w，根据同义词w在步骤1.2得到的所有哈希表中查询满足条件的文本，将检索得到的所有文本存入同义词集合s_k对应的载体文本集合t_k。遍历完成后，对集合t_k中的文本进行去重。若t_k为空集，则将s_k对应的关键词(s_k为原始关键词扩展后的同义词集合，对应的关键词即未做同义词扩展前的关键词)切分成单个汉字，将每个汉字作为关键词w在步骤1.2得到的所有哈希表中查询满足条件的文本，最终结果存入t_k中，并将载体文本集合t_k存储到文本集集合T中。

步骤2.4，对T构建词袋模型，取出出现频率最高的文本txt，记录该文本中所有隐藏的关键词组成关键词集合K′＝{k′₁，k′₂，…}、对应的标签集合L′＝{l′₁，l′₂，…}和关键词在秘密信息中的位置集合U′＝{u′₁，u′₂，…}，并判断该关键词是原始关键词还是重组汉字。若关键词为原始关键词，，在文本txt中根据关键词k′_x和标签l′_x检索标签位置d′_x，将标签l′_x、关键词在秘密信息中的位置集合m′_x和标签位置d′_x按固定格式转化为二进制比特e并存储。若关键词为重组汉字，除了在文本中根据关键词k′_x和标签l′_x检索标签位置d′_x，还需要对关键词使用步骤1.3.1至步骤1.3.4定义的汉字部件组合算法对关键词中的每个汉字进行拆分重组并编码，具体实例如图3所示。将标签l′_x、关键词在秘密信息中的位置集合u′_x和标签位置d′_x以及重组汉字的编码按固定格式转化为二进制参数e并存储。上述固定格式包含如下参数：

分词数：根据秘密信息被切分成关键词的个数n_kws，计算分词数a的值满足2^a-1≤n_kws≤2^a，用固定6bit记录分词数a的值；

最大隐藏数：选择隐藏最多的文本，记录隐藏的关键词个数max_kws，计算最大隐藏数c的值满足2^c-1≤max_kws≤2^c，用固定5bit记录最大隐藏数c的值；

关键词个数：表示某一篇文本中关键词的个数，用cbit表示；

标签：定位标签，用5bit表示；

标签位置：与标签搭配使用，表示在该文本中取某标签下的第几个关键词。用6bit表示；

标志：表示该定位标签对应的是关键词还是重组汉字，用1bit表示。其中，“0”表示关键词，“1”表示重组汉字；

编码：与标志搭配使用。当标志位为“0”时，编码位为0bit，当标志位为“1”时，编码位为3bit，用来记录重组汉字的编码；

秘密信息位置：对应关键词在原秘密信息中的位置，用abit表示。

具体格式如图4所示。

步骤2.5，将文本txt发送给接收方，在T中剔除上述文本中已经隐藏的载体文本集合，重复步骤2.4，直到T为空集为止。

步骤2.6，随机挑选若干词语组成侯选池，使用步骤1.6得到的语言模型计算侯选池中词语的转移概率，使用Huffman编码按条件概率对这些词语进行编码，根据二进制参数e选择合适的词语作为下一轮输入，直到二进制参数e完全被嵌入，最终生成文本txt'并发送给接收方。

步骤3，接收方按顺序接收所有文本，使用步骤1选用的提取算法结合改进标签从多个载体中提取关键词，最后将关键词按顺序组成原始秘密信息，详细步骤如下：

步骤3.1，使用与发送方相同的载体文本库和多层RNN模型提取文本库特征，得到满足载体文本库样本特征的语言模型。

步骤3.2，使用步骤3.1得到的语言模型模型计算txt'中每个单词在每个时刻的概率分布，根据计算出来的条件概率使用Huffman编码方法对文本中的词语进行编码，解出二进制参数e。

步骤3.3，按照固定格式解析二进制参数e，根据解析出的每一组标签l′_x和标签位置d′_x从载体中提取关键词k′_x。若标志位为0，直接记录关键词k′_x以及其在秘密信息中的位置u′_x；若标志位为1，使用步骤1.3.1至步骤1.3.4定义的汉字部件组合算法拆分关键词中的汉字，得到重组汉字集合并对其中每个汉字编码，根据e中的编码位得到重组汉字作为关键词k′_x并记录其在秘密信息中的位置u′_x。

步骤3.4，根据u′_x将对应关键词k′_x放入秘密信息M′的对应位置，当参数e全部被解析完成后，得到完整的秘密信息M′。秘密信息M′会存在与原始秘密信息M不完全相同的情况，主要原因是由于在信息隐藏的过程中，原始秘密信息M被切分成一个个关键词，在信息隐藏的过程中有一定概率会使用某个关键词的同义词来代替该关键词被嵌入到载体文本中，因此最后在提取秘密信息时会出现原始秘密信息M中的某一个词语被替换成了该词的同义词的现象，经过实验证明该操作并不会影响句子的语义。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于汉字部件组合的文本无载体信息隐藏方法，其特征在于，包括如下步骤：

步骤1.确定搜索式无载体信息隐藏方法，根据选用的方法构建对应的载体文本库并确定定位标签形式和信息隐藏提取算法，对搜索式无载体信息隐藏方法的索引生成算法进行改进，引入汉字部件组合机制，同时改进标签形式，以区分关键词与生成汉字；

步骤2.发送方对秘密信息进行切分，得到关键词集合，使用步骤1选定的信息隐藏方法并结合改进后的标签，将关键词嵌入到多个载体文本并发送给接收方完成秘密通信；

2.根据权利要求1所述的一种基于汉字部件组合的文本无载体信息隐藏方法，其特征在于，步骤1方法具体如下：

确定现有的搜索式无载体信息隐藏方法，根据选用的方法构建对应的载体文本库并确定定位标签形式和信息隐藏提取算法，对搜索式无载体信息隐藏方法的索引生成算法进行改进，引入汉字部件组合机制，同时改进标签形式，以区分关键词与生成汉字，详细流程如下：

步骤1.1，确定定位标签的长度n；从载体文本库中取出一篇文本T，剔除T中非汉字符，统计汉字的总数W，将T的起始位置IP置0；

步骤1.2，选取文本T中从IP开始的n个汉字，根据GBK编码的奇偶性将n个汉字转换为二进制序列作为标签L；对标签后的四个汉字分词，取分词后的第一个词作为关键词K，创建一张哈希表并以L命名，将关键词和文本路径存入以L为名的哈希表中；若名为L的文件已经存在，则直接存储；

步骤1.3，对关键词K，执行汉字部件组合算法，生成重组汉字集合H；

步骤1.4，IP＝IP+1，重复步骤1.2，直到IP+n+4>W为止；

步骤1.5，从载体文本库中取出另一篇文本，重复步骤1.2至步骤1.4，直到文本库中所有文本都被遍历完；返回以各标签命名的哈希表作为索引文件；

3.根据权利要求2所述的一种基于汉字部件组合的文本无载体信息隐藏方法，其特征在于，步骤1.3所述的汉字部件组合算法步骤如下：

步骤1.3.1，对关键词K中的每个汉字进行拆分，分别得到偏旁部首集合P＝{p₁,p₂,…,p_i}和独立汉字集合C＝{c₁,c₂,…,c_j}；

步骤1.3.2，若i+j≤8，对独立汉字集合C中的汉字继续拆分，得到偏旁部首集合P'＝{p’₁,p'₂,…}和独立汉字集合C'＝{c’₁,c'₂,…}，将P集合与P'集合做并集运算，最终结果赋予P，将C集合与C'集合做并集运算，最终结果赋予C；否则，直接执行步骤1.3.3；

步骤1.3.3，将偏旁部首集合P中的偏旁按顺序进行两两组合，若成功组合成汉字且关键词K中不包含该汉字，则将该汉字添加到生成汉字集合H中,将偏旁部首集合P中的偏旁按顺序与集合C中的独立汉字进行两两组合，若成功组合成汉字且关键词K中不包含该汉字，则将该汉字添加到重组汉字集合H中；

步骤1.3.4，若重组汉字集合H的长度大于8，则只随机保留8个，得到最终的重组汉字集合H；将集合H中的每个汉字存入以L为名的哈希表中。

4.根据权利要求2或3所述的一种基于汉字部件组合的文本无载体信息隐藏方法，其特征在于，步骤2具体方法如下：

发送端对秘密信息进行切分，得到关键词集合，使用步骤1选定的信息隐藏方法并结合改进后的标签，将关键词嵌入到多个载体文本并发送给接收方完成秘密通信，详细流程如下；

步骤2.1，确定秘密信息M；

其中β_v，1≤v≤4且v∈N，是调节参数，四个调节参数如下β₁＝0.5,β₂＝0.2,β₃＝0.17,β₄＝0.13；Sim_o，1≤o≤v且o∈N，表示语义描述式中特定描述之间的相似度，公式如下：

其中p₁,p₂为两个义原，d是p₁,p₂在义原层次体系中的最短路径长度，a是一个可调节参数；筛选出同义词集合中相似度与原关键词在0.5以上的词，得到最终同义词扩展集合S′＝{s₁,s₂,…,s_n}，s_k＝{w₁,w₂,…},s_k为最终扩展的同义词集合；

步骤2.3，对于S′中的每个同义词集合s_k，遍历s_k中每个同义词w，根据同义词w在步骤1.2得到的所有哈希表中查询满足条件的文本，将检索得到的所有文本存入同义词集合s_k对应的载体文本集合t_k；遍历完成后，对集合t_k中的文本进行去重；若t_k为空集，则将s_k对应的关键词切分成单个汉字，将每个汉字作为关键词w在步骤1.2得到的所有哈希表中查询满足条件的文本，最终结果存入t_k中，并将载体文本集合t_k存储到文本集集合T中；

步骤2.4，对T构建词袋模型，取出出现频率最高的文本txt，记录该文本中所有隐藏的关键词组成关键词集合K'＝{k'₁,k'₂,…}、对应的标签集合L'＝{l'₁,l'₂,…}和关键词在秘密信息中的位置集合U'＝{u'₁,u'₂,…}，并判断该关键词是原始关键词还是重组汉字；若关键词为原始关键词，，在文本txt中根据关键词k'_x和标签l'_x检索标签位置d'_x，将标签l'_x、关键词在秘密信息中的位置集合m'_x和标签位置d'_x按固定格式转化为二进制比特e并存储；若关键词为重组汉字，除了在文本中根据关键词k'_x和标签l'_x检索标签位置d'_x，还需要对关键词使用汉字部件组合算法对关键词中的每个汉字进行拆分重组并编码；将标签l'_x、关键词在秘密信息中的位置集合u'_x和标签位置d'_x以及重组汉字的编码按固定格式转化为二进制参数e并存储；

步骤2.5，将文本txt发送给接收方，在T中剔除上述文本中已经隐藏的载体文本集合，重复步骤2.4，直到T为空集为止；

5.根据权利要求4所述的一种基于汉字部件组合的文本无载体信息隐藏方法，其特征在于，所述的固定格式包含如下参数：

关键词个数：表示某一篇文本中关键词的个数，用cbit表示；

标签：定位标签，用5bit表示；

标签位置：与标签搭配使用，表示在该文本中取某标签下的第几个关键词；用6bit表示；

标志：表示该定位标签对应的是关键词还是重组汉字，用1bit表示；其中，“0”表示关键词，“1”表示重组汉字；

编码：与标志搭配使用；当标志位为“0”时，编码位为0bit，当标志位为“1”时，编码位为3bit，用来记录重组汉字的编码；

6.根据权利要求4所述的一种基于汉字部件组合的文本无载体信息隐藏方法，其特征在于，步骤3具体方法如下：

接收方按顺序接收所有文本，使用步骤1选用的提取算法结合改进标签从多个载体中提取关键词，最后将关键词按顺序组成原始秘密信息，详细步骤如下：

步骤3.1，使用与发送方相同的载体文本库和多层RNN模型提取文本库特征，得到满足载体文本库样本特征的语言模型；

步骤3.2，使用步骤3.1得到的语言模型模型计算txt'中每个单词在每个时刻的概率分布，根据计算出来的条件概率使用Huffman编码方法对文本中的词语进行编码，解出二进制参数e；

步骤3.3，按照固定格式解析二进制参数e,根据解析出的每一组标签l'_x和标签位置d'_x从载体中提取关键词k'_x；若标志位为0，直接记录关键词l'_x以及其在秘密信息中的位置u'_x；若标志位为1，使用步骤1.3.1至步骤1.3.4定义的汉字部件组合算法拆分关键词中的汉字，得到重组汉字集合并对其中每个汉字编码，根据e中的编码位得到重组汉字作为关键词k'_x并记录其在秘密信息中的位置u'_x；

步骤3.4，根据u'_x将对应关键词l'_x放入秘密信息M'的对应位置，当参数e全部被解析完成后，得到完整的秘密信息M'；

所述的秘密信息M'会存在与原始秘密信息M不完全相同的情况，原因是由于在信息隐藏的过程中，原始秘密信息M被切分成一个个关键词，在信息隐藏的过程中有一定概率会使用某个关键词的同义词来代替该关键词被嵌入到载体文本中，因此最后在提取秘密信息时会出现原始秘密信息M中的某一个词语被替换成了该词的同义词的现象，该操作并不会影响句子的语义。