CN113343250B - 一种基于主题引导的生成式文本隐蔽通信方法 - Google Patents
一种基于主题引导的生成式文本隐蔽通信方法 Download PDFInfo
- Publication number
- CN113343250B CN113343250B CN202110498755.9A CN202110498755A CN113343250B CN 113343250 B CN113343250 B CN 113343250B CN 202110498755 A CN202110498755 A CN 202110498755A CN 113343250 B CN113343250 B CN 113343250B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- subject
- model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出了一种基于主题引导的生成式文本隐蔽通信方法,通过将对主题词的注意力引入到GPT2自注意力模型中,使模型生成文本的过程中时刻受到主题词的控制,从而使得生成的长文本语义上统计上都贴合真实文本,提高了信息隐藏的容量;对主题词组的扩展,生成多段落的文本,使得隐藏秘密信息的冗余位变少,提高了文本质量;除此之外,采用游程编码在保证了文本质量的前提之下提升了信息隐藏的效率。本发明提升了信息隐藏容量,提高了信息隐藏效率,增强了文本载体的抗攻击性。
Description
技术领域
本发明涉及秘密数据传输领域,具体涉及一种基于主题引导的生成式文本隐蔽通信方法。基于主题词引导自动生成文本载体,并在生成的同时应用游程编码将秘密数据隐藏到文本载体中,通信双方仅需要传输生成的含密文本即可实现隐蔽通信。
背景技术
隐写是指在不引起第三方怀疑的前提下,发送方将秘密信息通过载体传送给接收方。随着互联网的发展,传送秘密信息的载体从早期的数字图像逐渐扩展到文本、音频和网络社交行为等,其中,文本由于其应用的广泛性和高流动性成为了隐写载体的优秀选择。早期的文本隐写方法主要通过对文本特征或者文本内容进行改动来隐藏信息。但由于文本特征在传输过程中的容易被攻击修改,以及文本内容改动后与真实文本的统计特性差异较大,易被攻击者发现,上述方法没有取得令人满意的性能。Fang团队于2017年提出的构造式文本隐写方法打破了这种局面,构造式文本隐写的出现使得文本隐写的重点从根据文本特征或文本内容修改载体转为自动生成载体。在此方法中,需要设计一个语言模型用于生成文本载体,一个编码方法将隐藏秘密信息。
近年来网络上大量传播的文本为隐写提供了极大的便利,而神经网络的迅速发展,使得越来越多的语言模型可以用于自动生成文本。现阶段的构造式文本隐写方法主要通过语言模型生成如评论、对话等短文本,再利用霍夫曼编码,算术编码等熵编码方法,在生成的同时将秘密信息加以隐藏。但由于目前的语言模型不受到主题词的控制,随机性较强,使得生成的文本语义上易被攻击者发现,信息隐藏容量也受到限制。为了提高信息隐藏容量,应使用主题词对语言模型加以引导来生成长文本。另一方面,霍夫曼编码、算术编码由于计算复杂度较高,使得信息隐藏效率较低。
发明内容
本发明的目的在于针对已有技术的不足,提供一种基于主题引导的生成式文本隐蔽通信方法,通过使用综合注意力机制,即在语言模型GPT2的自注意力模块加入外注意力主题词,使得模型生成被主题词引导的长文本,同时使用游程编码在保证信息量不丢失的前提下提升隐写效率和容量。
为达到上述目的,本发明采用如下技术方案:
一种基于主题引导的生成式文本隐蔽通信方法,具体操作步骤如下:
步骤1:将数据集中每段文本T按照整句分割,对每个句子构建候选主题词图,计算图中每个节点的权重,提取出每段文本的主题词[K1,K2,...,Kk];
步骤2:构建语言模型:
步骤2.1:按照公式(1),对输入单词xi进行编码,其中,wte和wpe分别是词嵌入矩阵和位置编码矩阵,pos是单词在句子中的位置,d是词向量维度;
步骤2.2:计算每个词的综合注意力向量zi;按公式(2),计算每个输入单词Emb(xi)的查询向量qi,被查询信息与其他信息的相关性向量ki,被查询信息向量vi;
对于每个单词,计算其他信息和其的相关性程度得分[s1,s2,...,sn]=qi[k1,k2,...,kn],对于每个qi,除了主题词所对应位置的得分之外,将其从第i+1到句子结尾n的得分置为负无穷大,再对得分进行归一化,最后得到每个词的综合注意力向量
步骤2.3:计算损失,训练模型:
将每个输入单词xi按照步骤2.2计算综合注意力向量zi,并经过层归一化和前馈网络,得到预测值,比对预测值和真实值计算出损失,迭代训练降低损失至收敛,得到构建好的语言模型;
步骤3:根据构建好的模型,生成含密文本;
首先,发送方将秘密信息bi∈{0,1},i=1,2,...,N,用游程编码编码成m=N00N11...,N0,N1∈[1,9]格式,再将k个主题词[K1,K2,...,Kk]编码成词向量,根据余弦相似度对主题词进行扩展,采用k-means方法对主题词进行聚类,获得三个主题词组G1、G2和G3其中,G1生成的文本用于隐藏信息“0”,G2生成的文本用于隐藏信息“1”,G3生成的文本用于隐藏“0”和“1”顺序;具体操作如下:
分别将三组主题词编码,并求得平均词向量作为模型输入,经过模型计算,G1和G2组取出概率最高的10个词作为候选单词,G3组取出概率最高的3个词作为候选单词,并按概率从大到小排序,按两位读取m的数据,若第二位的值为0,则将第一位的值N0取出,从根据G1得到的10个候选词中的第N0+1个替代第一个,从根据G3得到的3个候选词中的第二个替代第一个,再将第一个词作为模型的输入计算下一步的候选单词;
若第二位的值为1,则将第一位的值N1取出,从根据G2得到的10个候选词中的第N1+1个替代第一个,从根据G3得到的3个候选词中的第三个替代第一个,直到隐藏完m,模型继续生成文本,每次选取概率最大词作为预测词直到遇到停止标识符;
步骤4:发送方将生成的含密文本和训练好的模型参数发送给接收方;
步骤5:接收方根据主题词组按照步骤3得到三类主题词组G1、G2和G3,并根据模型参数搭建好语言模型,根据步骤3计算出模型输入,根据G1得到的文本与含密文本对比解码出N00,根据G2得到的文本与含密文本对比解码出N11,根据G3得到的文本与含密文本对比解码出它们的顺序,并拼接成消息序列m,再将m解码成秘密信息b,实现基于主题引导的生成式文本隐蔽通信。
本发明基于主题引导的生成式文本隐蔽通信方法,通过使用综合注意力机制,即在语言模型GPT2的自注意力模块加入外注意力主题词,使得模型生成被主题词引导的长文本,提升信息隐藏容量和生成文本质量,同时使用游程编码在保证信息量不丢失的前提下提升信息隐藏效率和容量。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著的技术进步:
1.本发明将外注意力机制引入到了自注意力模型中,使得该生成模型在生成文本时被主题词所引导,能够生成统计上语义上都能够以假乱真的长文本,提高了信息隐藏容量;
2.本发明使用游程编码对秘密信息加以压缩,在保证生成文本质量的基础上提高了隐写效率和容量。
附图说明
图1是本发明方法的流程框图。
图2是语言模型的结构图。
具体实施方案
以下就优选实施例结合附图对本发明进行详细描述:
实施例一:
如图1所示,一种基于主题引导的生成式文本隐蔽通信方法,具体操作步骤如下:其中,发送方的具体操作步骤如下:
步骤1:根据公有数据集提取每个文本段的主题词组;
步骤2:根据图2,搭建语言模型,并使用步骤1得到的主题词组和数据集对模型进行训练;
步骤3:采用游程编码将秘密信息编码成m=N00N11...,N0,N1∈[1,9];
步骤4:将公有主题词进行主题扩展和聚类,得到三组主题词组,根据主题词组分别生成3个文本段,分别编码步骤3信息m中的“0”、“1”以及“0”和“1”的顺序;
步骤5:发送方将生成的含密文本,模型参数发送给接收方。
接收方的具体操作步骤如下:
步骤1:根据模型参数搭建语言模型;
步骤2:将公有主题词进行主题扩展和聚类,得到三组主题词组,根据主题词组分别生成3个文本段,通过比较第一个文本段和含密文本解码出N00,比较第二个文本段和含密文本解码出N11,比较第三个文本和含密文本段解码出两者的顺序,最终解码出信息m;
步骤3:将信息m解码成秘密信息bi∈{0,1},i=1,2,...,N。
以如下生成的含密文本为例:
文本段1:有什么办法可以解决吗?许愿江湖里的人,不知道是什么原因,遂问:"渐渐艰难,渐渐艰难,总说来不及。”我也感同身受于柴米油盐,期待离别。我想知道到大家的看法,我该相信算命,我该相信命运,我想知道。
文本段2:我想知道我的想法,我该如何抉择呢,我该怎么办呢,事业有成的人,我也很喜欢的,是不是很可笑,我是一名大学生,不是独子,未来的生活,我想去澳洲的城市,我不想去北京,如果不是我想要的生活,我会很害怕,我该怎么办?我该怎么做?
文本段3:我想知道大家都是如何处理人际交往的人,不会有什么问题?但我不知道怎么应对自己不想要的人。题主女生,在某普通的二本学校,学校里有个同学,我很喜欢她,但是她的同学们不是我想要的,她也很喜欢我,我想要了解她的,但是她还是想要我去用力。我该怎么办呢?
本实施例生成的含密文本与真实文本类似,在感知不可察和统计不可察均达到了较好的效果,证明了本发明的可行性。本实施例通过使用综合注意力机制,即在语言模型GPT2的自注意力模块加入外注意力主题词,使得模型生成被主题词引导的长文本,同时使用游程编码在保证信息量不丢失的前提下提升隐写效率和容量。
上述实施例主题引导的生成式文本隐蔽通信方法,通过使用综合注意力机制,即在语言模型GPT2的自注意力模块加入外注意力主题词,使得模型生成被主题词引导的长文本,该长文本在语义上统计上都贴合真实文本,提高了信息隐藏的容量和文本载体的质量;对主题词组的扩展,生成多段落的文本,使隐藏秘密信息的冗余位变少,提高了文本质量;除此之外,采用游程编码在保证了文本质量的前提之下提升了信息隐藏的效率和容量。本发明提升了信息隐藏容量,提高了信息隐藏效率,增强了含密文本的质量。
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。
Claims (1)
1.一种基于主题引导的生成式文本隐蔽通信方法,其特征在于,具体操作步骤如下:
步骤1:将数据集中每段文本T按照整句分割,对每个句子构建候选主题词图,计算图中每个节点的权重,提取出每段文本的主题词[K1,K2,...,Kk];
步骤2:构建语言模型:
步骤2.1:按照公式(1),对输入单词xi进行编码,其中,wte和wpe分别是词嵌入矩阵和位置编码矩阵,pos是单词在句子中的位置,d是词向量维度;
步骤2.2:计算每个词的综合注意力向量zi;按公式(2),计算每个输入单词Emb(xi)的查询向量qi,被查询信息与其他信息的相关性向量ki,被查询信息向量vi;
对于每个单词,计算其他信息和其的相关性程度得分[s1,s2,...,sn]=qi[k1,k2,...,kn],对于每个qi,除了主题词所对应位置的得分之外,将其从第i+1到句子结尾n的得分置为负无穷大,再对得分进行归一化,最后得到每个词的综合注意力向量
步骤2.3:计算损失,训练模型:
将每个输入单词xi按照步骤2.2计算综合注意力向量zi,并经过层归一化和前馈网络,得到预测值,比对预测值和真实值计算出损失,迭代训练降低损失至收敛,得到构建好的语言模型;
步骤3:根据构建好的模型,生成含密文本;
首先,发送方将秘密信息bi∈{0,1},i=1,2,...,N,用游程编码编码成m=N00N11...,N0,N1∈[1,9]格式,再将k个主题词[K1,K2,...,Kk]编码成词向量,根据余弦相似度对主题词进行扩展,采用k-means方法对主题词进行聚类,获得三个主题词组G1、G2和G3其中,G1生成的文本用于隐藏信息“0”,G2生成的文本用于隐藏信息“1”,G3生成的文本用于隐藏“0”和“1”顺序;具体操作如下:
分别将三组主题词编码,并求得平均词向量作为模型输入,经过模型计算,G1和G2组取出概率最高的10个词作为候选单词,G3组取出概率最高的3个词作为候选单词,并按概率从大到小排序,按两位读取m的数据,若第二位的值为0,则将第一位的值N0取出,从根据G1得到的10个候选词中的第N0+1个替代第一个,从根据G3得到的3个候选词中的第二个替代第一个,再将第一个词作为模型的输入计算下一步的候选单词;
若第二位的值为1,则将第一位的值N1取出,从根据G2得到的10个候选词中的第N1+1个替代第一个,从根据G3得到的3个候选词中的第三个替代第一个,直到隐藏完m,模型继续生成文本,每次选取概率最大词作为预测词直到遇到停止标识符;
步骤4:发送方将生成的含密文本和训练好的模型参数发送给接收方;
步骤5:接收方根据主题词组按照步骤3得到三类主题词组G1、G2和G3,并根据模型参数搭建好语言模型,根据步骤3计算出模型输入,根据G1得到的文本与含密文本对比解码出N00,根据G2得到的文本与含密文本对比解码出N11,根据G3得到的文本与含密文本对比解码出它们的顺序,并拼接成消息序列m,再将m解码成秘密信息b,实现基于主题引导的生成式文本隐蔽通信。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498755.9A CN113343250B (zh) | 2021-05-08 | 2021-05-08 | 一种基于主题引导的生成式文本隐蔽通信方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498755.9A CN113343250B (zh) | 2021-05-08 | 2021-05-08 | 一种基于主题引导的生成式文本隐蔽通信方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343250A CN113343250A (zh) | 2021-09-03 |
CN113343250B true CN113343250B (zh) | 2022-07-12 |
Family
ID=77469892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110498755.9A Active CN113343250B (zh) | 2021-05-08 | 2021-05-08 | 一种基于主题引导的生成式文本隐蔽通信方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343250B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114257697B (zh) * | 2021-12-21 | 2022-09-23 | 四川大学 | 一种高容量通用图像信息隐藏方法 |
CN117332082B (zh) * | 2023-09-19 | 2024-06-11 | 北京邮电大学 | 基于聚类和集成学习的不平衡语言隐写分析方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815496A (zh) * | 2019-01-22 | 2019-05-28 | 清华大学 | 基于容量自适应收缩机制载体生成式文本隐写方法及装置 |
CN111859911A (zh) * | 2020-07-28 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 图像描述文本生成方法、装置、计算机设备及存储介质 |
-
2021
- 2021-05-08 CN CN202110498755.9A patent/CN113343250B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815496A (zh) * | 2019-01-22 | 2019-05-28 | 清华大学 | 基于容量自适应收缩机制载体生成式文本隐写方法及装置 |
CN111859911A (zh) * | 2020-07-28 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 图像描述文本生成方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
METEOR_Measurable_Energy_Map_Toward_the_Estimation_of_Resampling_Rate_via_a_Convolutional_Neural_Network;Ding Feng;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20201231;第4715-4727页 * |
多媒体信息隐藏技术;张新鹏等;《自然杂志》;20161219;第87-95页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113343250A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343250B (zh) | 一种基于主题引导的生成式文本隐蔽通信方法 | |
CN109711121B (zh) | 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置 | |
Besser et al. | Wiretap code design by neural network autoencoders | |
CN107947918A (zh) | 一种基于字符特征的无载体文本隐写方法 | |
CN108418683B (zh) | 一种基于汉字结构特征的无载体文本隐写方法 | |
Chen et al. | Distribution-preserving steganography based on text-to-speech generative models | |
CN111666575B (zh) | 基于词元编码的文本无载体信息隐藏方法 | |
Bhattacharyya | Data hiding through multi level steganography and ssce | |
Yang et al. | Graph-Stega: Semantic controllable steganographic text generation guided by knowledge graph | |
Xiao et al. | Reasoning over the air: A reasoning-based implicit semantic-aware communication framework | |
Ding et al. | Discop: Provably secure steganography in practice based on" distribution copies" | |
Chen et al. | Cover reproducible steganography via deep generative models | |
Zhao et al. | Semantic information extraction for text data with probability graph | |
US7356463B1 (en) | System and method for detecting and decoding semantically encoded natural language messages | |
CN112052471B (zh) | 一种基于社交网络空间的信息隐藏方法 | |
Singh | Analysis of different types of steganography | |
Malik et al. | A high capacity text steganography scheme based on huffman compression and color coding | |
Mattern | Linear and geometric mixtures-analysis | |
Peng et al. | Cross-modal text steganography against synonym substitution-based text attack | |
CN114065269B (zh) | 无绑定型非同质化代币的生成方法和解析方法和存储介质 | |
Chen et al. | When provably secure steganography meets generative models | |
CN114491597A (zh) | 一种基于汉字部件组合的文本无载体信息隐藏方法 | |
Zhang et al. | Efficient data hiding with histogram-preserving property | |
Banerjee | Text steganography using article mapping technique (AMT) and SSCE | |
Wu et al. | Generative Text Steganography with Large Language Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |