CN113343250B

CN113343250B - 一种基于主题引导的生成式文本隐蔽通信方法

Info

Publication number: CN113343250B
Application number: CN202110498755.9A
Authority: CN
Inventors: 康慧娴; 吴汉舟; 冯国瑞; 张新鹏
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2022-07-12
Anticipated expiration: 2041-05-08
Also published as: CN113343250A

Abstract

本发明提出了一种基于主题引导的生成式文本隐蔽通信方法，通过将对主题词的注意力引入到GPT2自注意力模型中，使模型生成文本的过程中时刻受到主题词的控制，从而使得生成的长文本语义上统计上都贴合真实文本，提高了信息隐藏的容量；对主题词组的扩展，生成多段落的文本，使得隐藏秘密信息的冗余位变少，提高了文本质量；除此之外，采用游程编码在保证了文本质量的前提之下提升了信息隐藏的效率。本发明提升了信息隐藏容量，提高了信息隐藏效率，增强了文本载体的抗攻击性。

Description

一种基于主题引导的生成式文本隐蔽通信方法

技术领域

本发明涉及秘密数据传输领域，具体涉及一种基于主题引导的生成式文本隐蔽通信方法。基于主题词引导自动生成文本载体，并在生成的同时应用游程编码将秘密数据隐藏到文本载体中，通信双方仅需要传输生成的含密文本即可实现隐蔽通信。

背景技术

隐写是指在不引起第三方怀疑的前提下，发送方将秘密信息通过载体传送给接收方。随着互联网的发展，传送秘密信息的载体从早期的数字图像逐渐扩展到文本、音频和网络社交行为等，其中，文本由于其应用的广泛性和高流动性成为了隐写载体的优秀选择。早期的文本隐写方法主要通过对文本特征或者文本内容进行改动来隐藏信息。但由于文本特征在传输过程中的容易被攻击修改，以及文本内容改动后与真实文本的统计特性差异较大，易被攻击者发现，上述方法没有取得令人满意的性能。Fang团队于2017年提出的构造式文本隐写方法打破了这种局面，构造式文本隐写的出现使得文本隐写的重点从根据文本特征或文本内容修改载体转为自动生成载体。在此方法中，需要设计一个语言模型用于生成文本载体，一个编码方法将隐藏秘密信息。

近年来网络上大量传播的文本为隐写提供了极大的便利，而神经网络的迅速发展，使得越来越多的语言模型可以用于自动生成文本。现阶段的构造式文本隐写方法主要通过语言模型生成如评论、对话等短文本，再利用霍夫曼编码，算术编码等熵编码方法，在生成的同时将秘密信息加以隐藏。但由于目前的语言模型不受到主题词的控制，随机性较强，使得生成的文本语义上易被攻击者发现，信息隐藏容量也受到限制。为了提高信息隐藏容量，应使用主题词对语言模型加以引导来生成长文本。另一方面，霍夫曼编码、算术编码由于计算复杂度较高，使得信息隐藏效率较低。

发明内容

本发明的目的在于针对已有技术的不足，提供一种基于主题引导的生成式文本隐蔽通信方法，通过使用综合注意力机制，即在语言模型GPT2的自注意力模块加入外注意力主题词，使得模型生成被主题词引导的长文本，同时使用游程编码在保证信息量不丢失的前提下提升隐写效率和容量。

为达到上述目的，本发明采用如下技术方案：

一种基于主题引导的生成式文本隐蔽通信方法，具体操作步骤如下：

步骤1：将数据集中每段文本T按照整句分割，对每个句子构建候选主题词图，计算图中每个节点的权重，提取出每段文本的主题词[K₁,K₂,...,K_k]；

步骤2：构建语言模型：

步骤2.1：按照公式(1)，对输入单词x_i进行编码，其中，wte和wpe分别是词嵌入矩阵和位置编码矩阵，pos是单词在句子中的位置，d是词向量维度；

步骤2.2：计算每个词的综合注意力向量z_i；按公式(2)，计算每个输入单词Emb(x_i)的查询向量q_i，被查询信息与其他信息的相关性向量k_i，被查询信息向量v_i；

对于每个单词，计算其他信息和其的相关性程度得分[s₁,s₂,...,s_n]＝q_i[k₁,k₂,...,k_n]，对于每个q_i，除了主题词所对应位置的得分之外，将其从第i+1到句子结尾n的得分置为负无穷大，再对得分进行归一化，最后得到每个词的综合注意力向量

步骤2.3：计算损失，训练模型：

将每个输入单词x_i按照步骤2.2计算综合注意力向量z_i，并经过层归一化和前馈网络，得到预测值，比对预测值和真实值计算出损失，迭代训练降低损失至收敛，得到构建好的语言模型；

步骤3：根据构建好的模型，生成含密文本；

首先，发送方将秘密信息b_i∈{0,1},i＝1,2,...,N，用游程编码编码成m＝N₀0N₁1...,N₀,N₁∈[1,9]格式，再将k个主题词[K₁,K₂,...,K_k]编码成词向量，根据余弦相似度对主题词进行扩展，采用k-means方法对主题词进行聚类，获得三个主题词组G₁、G₂和G₃其中，G₁生成的文本用于隐藏信息“0”，G₂生成的文本用于隐藏信息“1”，G₃生成的文本用于隐藏“0”和“1”顺序；具体操作如下：

分别将三组主题词编码，并求得平均词向量作为模型输入，经过模型计算，G₁和G₂组取出概率最高的10个词作为候选单词，G₃组取出概率最高的3个词作为候选单词，并按概率从大到小排序，按两位读取m的数据，若第二位的值为0，则将第一位的值N₀取出，从根据G₁得到的10个候选词中的第N₀+1个替代第一个，从根据G₃得到的3个候选词中的第二个替代第一个，再将第一个词作为模型的输入计算下一步的候选单词；

若第二位的值为1，则将第一位的值N₁取出，从根据G₂得到的10个候选词中的第N₁+1个替代第一个，从根据G₃得到的3个候选词中的第三个替代第一个，直到隐藏完m，模型继续生成文本，每次选取概率最大词作为预测词直到遇到停止标识符；

步骤4：发送方将生成的含密文本和训练好的模型参数发送给接收方；

步骤5：接收方根据主题词组按照步骤3得到三类主题词组G₁、G₂和G₃，并根据模型参数搭建好语言模型，根据步骤3计算出模型输入，根据G₁得到的文本与含密文本对比解码出N₀0，根据G₂得到的文本与含密文本对比解码出N₁1，根据G₃得到的文本与含密文本对比解码出它们的顺序，并拼接成消息序列m，再将m解码成秘密信息b，实现基于主题引导的生成式文本隐蔽通信。

本发明基于主题引导的生成式文本隐蔽通信方法，通过使用综合注意力机制，即在语言模型GPT2的自注意力模块加入外注意力主题词，使得模型生成被主题词引导的长文本，提升信息隐藏容量和生成文本质量，同时使用游程编码在保证信息量不丢失的前提下提升信息隐藏效率和容量。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著的技术进步：

1.本发明将外注意力机制引入到了自注意力模型中，使得该生成模型在生成文本时被主题词所引导，能够生成统计上语义上都能够以假乱真的长文本，提高了信息隐藏容量；

2.本发明使用游程编码对秘密信息加以压缩，在保证生成文本质量的基础上提高了隐写效率和容量。

附图说明

图1是本发明方法的流程框图。

图2是语言模型的结构图。

具体实施方案

以下就优选实施例结合附图对本发明进行详细描述：

实施例一：

如图1所示，一种基于主题引导的生成式文本隐蔽通信方法，具体操作步骤如下：其中，发送方的具体操作步骤如下：

步骤1：根据公有数据集提取每个文本段的主题词组；

步骤2：根据图2，搭建语言模型，并使用步骤1得到的主题词组和数据集对模型进行训练；

步骤3：采用游程编码将秘密信息编码成m＝N₀0N₁1...,N₀,N₁∈[1,9]；

步骤4：将公有主题词进行主题扩展和聚类，得到三组主题词组，根据主题词组分别生成3个文本段，分别编码步骤3信息m中的“0”、“1”以及“0”和“1”的顺序；

步骤5：发送方将生成的含密文本，模型参数发送给接收方。

接收方的具体操作步骤如下：

步骤1：根据模型参数搭建语言模型；

步骤2：将公有主题词进行主题扩展和聚类，得到三组主题词组，根据主题词组分别生成3个文本段，通过比较第一个文本段和含密文本解码出N₀0，比较第二个文本段和含密文本解码出N₁1，比较第三个文本和含密文本段解码出两者的顺序，最终解码出信息m；

步骤3：将信息m解码成秘密信息b_i∈{0,1},i＝1,2,...,N。

以如下生成的含密文本为例：

文本段1：有什么办法可以解决吗？许愿江湖里的人，不知道是什么原因，遂问："渐渐艰难，渐渐艰难，总说来不及。”我也感同身受于柴米油盐，期待离别。我想知道到大家的看法，我该相信算命，我该相信命运，我想知道。

文本段2：我想知道我的想法，我该如何抉择呢，我该怎么办呢，事业有成的人，我也很喜欢的，是不是很可笑，我是一名大学生，不是独子，未来的生活，我想去澳洲的城市，我不想去北京，如果不是我想要的生活，我会很害怕，我该怎么办？我该怎么做？

文本段3：我想知道大家都是如何处理人际交往的人，不会有什么问题？但我不知道怎么应对自己不想要的人。题主女生，在某普通的二本学校，学校里有个同学，我很喜欢她，但是她的同学们不是我想要的，她也很喜欢我，我想要了解她的，但是她还是想要我去用力。我该怎么办呢？

本实施例生成的含密文本与真实文本类似，在感知不可察和统计不可察均达到了较好的效果，证明了本发明的可行性。本实施例通过使用综合注意力机制，即在语言模型GPT2的自注意力模块加入外注意力主题词，使得模型生成被主题词引导的长文本，同时使用游程编码在保证信息量不丢失的前提下提升隐写效率和容量。

上述实施例主题引导的生成式文本隐蔽通信方法，通过使用综合注意力机制，即在语言模型GPT2的自注意力模块加入外注意力主题词，使得模型生成被主题词引导的长文本，该长文本在语义上统计上都贴合真实文本，提高了信息隐藏的容量和文本载体的质量；对主题词组的扩展，生成多段落的文本，使隐藏秘密信息的冗余位变少，提高了文本质量；除此之外，采用游程编码在保证了文本质量的前提之下提升了信息隐藏的效率和容量。本发明提升了信息隐藏容量，提高了信息隐藏效率，增强了含密文本的质量。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。

Claims

1.一种基于主题引导的生成式文本隐蔽通信方法，其特征在于，具体操作步骤如下：

步骤2：构建语言模型：

步骤2.3：计算损失，训练模型：

步骤3：根据构建好的模型，生成含密文本；