CN113343250B - 一种基于主题引导的生成式文本隐蔽通信方法 - Google Patents

一种基于主题引导的生成式文本隐蔽通信方法 Download PDF

Info

Publication number
CN113343250B
CN113343250B CN202110498755.9A CN202110498755A CN113343250B CN 113343250 B CN113343250 B CN 113343250B CN 202110498755 A CN202110498755 A CN 202110498755A CN 113343250 B CN113343250 B CN 113343250B
Authority
CN
China
Prior art keywords
text
word
subject
model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110498755.9A
Other languages
English (en)
Other versions
CN113343250A (zh
Inventor
康慧娴
吴汉舟
冯国瑞
张新鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110498755.9A priority Critical patent/CN113343250B/zh
Publication of CN113343250A publication Critical patent/CN113343250A/zh
Application granted granted Critical
Publication of CN113343250B publication Critical patent/CN113343250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出了一种基于主题引导的生成式文本隐蔽通信方法,通过将对主题词的注意力引入到GPT2自注意力模型中,使模型生成文本的过程中时刻受到主题词的控制,从而使得生成的长文本语义上统计上都贴合真实文本,提高了信息隐藏的容量;对主题词组的扩展,生成多段落的文本,使得隐藏秘密信息的冗余位变少,提高了文本质量;除此之外,采用游程编码在保证了文本质量的前提之下提升了信息隐藏的效率。本发明提升了信息隐藏容量,提高了信息隐藏效率,增强了文本载体的抗攻击性。

Description

一种基于主题引导的生成式文本隐蔽通信方法
技术领域
本发明涉及秘密数据传输领域,具体涉及一种基于主题引导的生成式文本隐蔽通信方法。基于主题词引导自动生成文本载体,并在生成的同时应用游程编码将秘密数据隐藏到文本载体中,通信双方仅需要传输生成的含密文本即可实现隐蔽通信。
背景技术
隐写是指在不引起第三方怀疑的前提下,发送方将秘密信息通过载体传送给接收方。随着互联网的发展,传送秘密信息的载体从早期的数字图像逐渐扩展到文本、音频和网络社交行为等,其中,文本由于其应用的广泛性和高流动性成为了隐写载体的优秀选择。早期的文本隐写方法主要通过对文本特征或者文本内容进行改动来隐藏信息。但由于文本特征在传输过程中的容易被攻击修改,以及文本内容改动后与真实文本的统计特性差异较大,易被攻击者发现,上述方法没有取得令人满意的性能。Fang团队于2017年提出的构造式文本隐写方法打破了这种局面,构造式文本隐写的出现使得文本隐写的重点从根据文本特征或文本内容修改载体转为自动生成载体。在此方法中,需要设计一个语言模型用于生成文本载体,一个编码方法将隐藏秘密信息。
近年来网络上大量传播的文本为隐写提供了极大的便利,而神经网络的迅速发展,使得越来越多的语言模型可以用于自动生成文本。现阶段的构造式文本隐写方法主要通过语言模型生成如评论、对话等短文本,再利用霍夫曼编码,算术编码等熵编码方法,在生成的同时将秘密信息加以隐藏。但由于目前的语言模型不受到主题词的控制,随机性较强,使得生成的文本语义上易被攻击者发现,信息隐藏容量也受到限制。为了提高信息隐藏容量,应使用主题词对语言模型加以引导来生成长文本。另一方面,霍夫曼编码、算术编码由于计算复杂度较高,使得信息隐藏效率较低。
发明内容
本发明的目的在于针对已有技术的不足,提供一种基于主题引导的生成式文本隐蔽通信方法,通过使用综合注意力机制,即在语言模型GPT2的自注意力模块加入外注意力主题词,使得模型生成被主题词引导的长文本,同时使用游程编码在保证信息量不丢失的前提下提升隐写效率和容量。
为达到上述目的,本发明采用如下技术方案:
一种基于主题引导的生成式文本隐蔽通信方法,具体操作步骤如下:
步骤1:将数据集中每段文本T按照整句分割,对每个句子构建候选主题词图,计算图中每个节点的权重,提取出每段文本的主题词[K1,K2,...,Kk];
步骤2:构建语言模型:
步骤2.1:按照公式(1),对输入单词xi进行编码,其中,wte和wpe分别是词嵌入矩阵和位置编码矩阵,pos是单词在句子中的位置,d是词向量维度;
Figure BDA0003055567750000021
步骤2.2:计算每个词的综合注意力向量zi;按公式(2),计算每个输入单词Emb(xi)的查询向量qi,被查询信息与其他信息的相关性向量ki,被查询信息向量vi
Figure BDA0003055567750000022
对于每个单词,计算其他信息和其的相关性程度得分[s1,s2,...,sn]=qi[k1,k2,...,kn],对于每个qi,除了主题词所对应位置的得分之外,将其从第i+1到句子结尾n的得分置为负无穷大,再对得分进行归一化,最后得到每个词的综合注意力向量
Figure BDA0003055567750000023
步骤2.3:计算损失,训练模型:
将每个输入单词xi按照步骤2.2计算综合注意力向量zi,并经过层归一化和前馈网络,得到预测值,比对预测值和真实值计算出损失,迭代训练降低损失至收敛,得到构建好的语言模型;
步骤3:根据构建好的模型,生成含密文本;
首先,发送方将秘密信息bi∈{0,1},i=1,2,...,N,用游程编码编码成m=N00N11...,N0,N1∈[1,9]格式,再将k个主题词[K1,K2,...,Kk]编码成词向量,根据余弦相似度对主题词进行扩展,采用k-means方法对主题词进行聚类,获得三个主题词组G1、G2和G3其中,G1生成的文本用于隐藏信息“0”,G2生成的文本用于隐藏信息“1”,G3生成的文本用于隐藏“0”和“1”顺序;具体操作如下:
分别将三组主题词编码,并求得平均词向量作为模型输入,经过模型计算,G1和G2组取出概率最高的10个词作为候选单词,G3组取出概率最高的3个词作为候选单词,并按概率从大到小排序,按两位读取m的数据,若第二位的值为0,则将第一位的值N0取出,从根据G1得到的10个候选词中的第N0+1个替代第一个,从根据G3得到的3个候选词中的第二个替代第一个,再将第一个词作为模型的输入计算下一步的候选单词;
若第二位的值为1,则将第一位的值N1取出,从根据G2得到的10个候选词中的第N1+1个替代第一个,从根据G3得到的3个候选词中的第三个替代第一个,直到隐藏完m,模型继续生成文本,每次选取概率最大词作为预测词直到遇到停止标识符;
步骤4:发送方将生成的含密文本和训练好的模型参数发送给接收方;
步骤5:接收方根据主题词组按照步骤3得到三类主题词组G1、G2和G3,并根据模型参数搭建好语言模型,根据步骤3计算出模型输入,根据G1得到的文本与含密文本对比解码出N00,根据G2得到的文本与含密文本对比解码出N11,根据G3得到的文本与含密文本对比解码出它们的顺序,并拼接成消息序列m,再将m解码成秘密信息b,实现基于主题引导的生成式文本隐蔽通信。
本发明基于主题引导的生成式文本隐蔽通信方法,通过使用综合注意力机制,即在语言模型GPT2的自注意力模块加入外注意力主题词,使得模型生成被主题词引导的长文本,提升信息隐藏容量和生成文本质量,同时使用游程编码在保证信息量不丢失的前提下提升信息隐藏效率和容量。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著的技术进步:
1.本发明将外注意力机制引入到了自注意力模型中,使得该生成模型在生成文本时被主题词所引导,能够生成统计上语义上都能够以假乱真的长文本,提高了信息隐藏容量;
2.本发明使用游程编码对秘密信息加以压缩,在保证生成文本质量的基础上提高了隐写效率和容量。
附图说明
图1是本发明方法的流程框图。
图2是语言模型的结构图。
具体实施方案
以下就优选实施例结合附图对本发明进行详细描述:
实施例一:
如图1所示,一种基于主题引导的生成式文本隐蔽通信方法,具体操作步骤如下:其中,发送方的具体操作步骤如下:
步骤1:根据公有数据集提取每个文本段的主题词组;
步骤2:根据图2,搭建语言模型,并使用步骤1得到的主题词组和数据集对模型进行训练;
步骤3:采用游程编码将秘密信息编码成m=N00N11...,N0,N1∈[1,9];
步骤4:将公有主题词进行主题扩展和聚类,得到三组主题词组,根据主题词组分别生成3个文本段,分别编码步骤3信息m中的“0”、“1”以及“0”和“1”的顺序;
步骤5:发送方将生成的含密文本,模型参数发送给接收方。
接收方的具体操作步骤如下:
步骤1:根据模型参数搭建语言模型;
步骤2:将公有主题词进行主题扩展和聚类,得到三组主题词组,根据主题词组分别生成3个文本段,通过比较第一个文本段和含密文本解码出N00,比较第二个文本段和含密文本解码出N11,比较第三个文本和含密文本段解码出两者的顺序,最终解码出信息m;
步骤3:将信息m解码成秘密信息bi∈{0,1},i=1,2,...,N。
以如下生成的含密文本为例:
文本段1:有什么办法可以解决吗?许愿江湖里的人,不知道是什么原因,遂问:"渐渐艰难,渐渐艰难,总说来不及。”我也感同身受于柴米油盐,期待离别。我想知道到大家的看法,我该相信算命,我该相信命运,我想知道。
文本段2:我想知道我的想法,我该如何抉择呢,我该怎么办呢,事业有成的人,我也很喜欢的,是不是很可笑,我是一名大学生,不是独子,未来的生活,我想去澳洲的城市,我不想去北京,如果不是我想要的生活,我会很害怕,我该怎么办?我该怎么做?
文本段3:我想知道大家都是如何处理人际交往的人,不会有什么问题?但我不知道怎么应对自己不想要的人。题主女生,在某普通的二本学校,学校里有个同学,我很喜欢她,但是她的同学们不是我想要的,她也很喜欢我,我想要了解她的,但是她还是想要我去用力。我该怎么办呢?
本实施例生成的含密文本与真实文本类似,在感知不可察和统计不可察均达到了较好的效果,证明了本发明的可行性。本实施例通过使用综合注意力机制,即在语言模型GPT2的自注意力模块加入外注意力主题词,使得模型生成被主题词引导的长文本,同时使用游程编码在保证信息量不丢失的前提下提升隐写效率和容量。
上述实施例主题引导的生成式文本隐蔽通信方法,通过使用综合注意力机制,即在语言模型GPT2的自注意力模块加入外注意力主题词,使得模型生成被主题词引导的长文本,该长文本在语义上统计上都贴合真实文本,提高了信息隐藏的容量和文本载体的质量;对主题词组的扩展,生成多段落的文本,使隐藏秘密信息的冗余位变少,提高了文本质量;除此之外,采用游程编码在保证了文本质量的前提之下提升了信息隐藏的效率和容量。本发明提升了信息隐藏容量,提高了信息隐藏效率,增强了含密文本的质量。
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。

Claims (1)

1.一种基于主题引导的生成式文本隐蔽通信方法,其特征在于,具体操作步骤如下:
步骤1:将数据集中每段文本T按照整句分割,对每个句子构建候选主题词图,计算图中每个节点的权重,提取出每段文本的主题词[K1,K2,...,Kk];
步骤2:构建语言模型:
步骤2.1:按照公式(1),对输入单词xi进行编码,其中,wte和wpe分别是词嵌入矩阵和位置编码矩阵,pos是单词在句子中的位置,d是词向量维度;
Figure FDA0003055567740000011
步骤2.2:计算每个词的综合注意力向量zi;按公式(2),计算每个输入单词Emb(xi)的查询向量qi,被查询信息与其他信息的相关性向量ki,被查询信息向量vi
Figure FDA0003055567740000012
对于每个单词,计算其他信息和其的相关性程度得分[s1,s2,...,sn]=qi[k1,k2,...,kn],对于每个qi,除了主题词所对应位置的得分之外,将其从第i+1到句子结尾n的得分置为负无穷大,再对得分进行归一化,最后得到每个词的综合注意力向量
Figure FDA0003055567740000013
步骤2.3:计算损失,训练模型:
将每个输入单词xi按照步骤2.2计算综合注意力向量zi,并经过层归一化和前馈网络,得到预测值,比对预测值和真实值计算出损失,迭代训练降低损失至收敛,得到构建好的语言模型;
步骤3:根据构建好的模型,生成含密文本;
首先,发送方将秘密信息bi∈{0,1},i=1,2,...,N,用游程编码编码成m=N00N11...,N0,N1∈[1,9]格式,再将k个主题词[K1,K2,...,Kk]编码成词向量,根据余弦相似度对主题词进行扩展,采用k-means方法对主题词进行聚类,获得三个主题词组G1、G2和G3其中,G1生成的文本用于隐藏信息“0”,G2生成的文本用于隐藏信息“1”,G3生成的文本用于隐藏“0”和“1”顺序;具体操作如下:
分别将三组主题词编码,并求得平均词向量作为模型输入,经过模型计算,G1和G2组取出概率最高的10个词作为候选单词,G3组取出概率最高的3个词作为候选单词,并按概率从大到小排序,按两位读取m的数据,若第二位的值为0,则将第一位的值N0取出,从根据G1得到的10个候选词中的第N0+1个替代第一个,从根据G3得到的3个候选词中的第二个替代第一个,再将第一个词作为模型的输入计算下一步的候选单词;
若第二位的值为1,则将第一位的值N1取出,从根据G2得到的10个候选词中的第N1+1个替代第一个,从根据G3得到的3个候选词中的第三个替代第一个,直到隐藏完m,模型继续生成文本,每次选取概率最大词作为预测词直到遇到停止标识符;
步骤4:发送方将生成的含密文本和训练好的模型参数发送给接收方;
步骤5:接收方根据主题词组按照步骤3得到三类主题词组G1、G2和G3,并根据模型参数搭建好语言模型,根据步骤3计算出模型输入,根据G1得到的文本与含密文本对比解码出N00,根据G2得到的文本与含密文本对比解码出N11,根据G3得到的文本与含密文本对比解码出它们的顺序,并拼接成消息序列m,再将m解码成秘密信息b,实现基于主题引导的生成式文本隐蔽通信。
CN202110498755.9A 2021-05-08 2021-05-08 一种基于主题引导的生成式文本隐蔽通信方法 Active CN113343250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110498755.9A CN113343250B (zh) 2021-05-08 2021-05-08 一种基于主题引导的生成式文本隐蔽通信方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110498755.9A CN113343250B (zh) 2021-05-08 2021-05-08 一种基于主题引导的生成式文本隐蔽通信方法

Publications (2)

Publication Number Publication Date
CN113343250A CN113343250A (zh) 2021-09-03
CN113343250B true CN113343250B (zh) 2022-07-12

Family

ID=77469892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110498755.9A Active CN113343250B (zh) 2021-05-08 2021-05-08 一种基于主题引导的生成式文本隐蔽通信方法

Country Status (1)

Country Link
CN (1) CN113343250B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257697B (zh) * 2021-12-21 2022-09-23 四川大学 一种高容量通用图像信息隐藏方法
CN117332082B (zh) * 2023-09-19 2024-06-11 北京邮电大学 基于聚类和集成学习的不平衡语言隐写分析方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815496A (zh) * 2019-01-22 2019-05-28 清华大学 基于容量自适应收缩机制载体生成式文本隐写方法及装置
CN111859911A (zh) * 2020-07-28 2020-10-30 中国平安人寿保险股份有限公司 图像描述文本生成方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815496A (zh) * 2019-01-22 2019-05-28 清华大学 基于容量自适应收缩机制载体生成式文本隐写方法及装置
CN111859911A (zh) * 2020-07-28 2020-10-30 中国平安人寿保险股份有限公司 图像描述文本生成方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
METEOR_Measurable_Energy_Map_Toward_the_Estimation_of_Resampling_Rate_via_a_Convolutional_Neural_Network;Ding Feng;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20201231;第4715-4727页 *
多媒体信息隐藏技术;张新鹏等;《自然杂志》;20161219;第87-95页 *

Also Published As

Publication number Publication date
CN113343250A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113343250B (zh) 一种基于主题引导的生成式文本隐蔽通信方法
CN109711121B (zh) 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
Besser et al. Wiretap code design by neural network autoencoders
CN107947918A (zh) 一种基于字符特征的无载体文本隐写方法
CN108418683B (zh) 一种基于汉字结构特征的无载体文本隐写方法
Chen et al. Distribution-preserving steganography based on text-to-speech generative models
CN111666575B (zh) 基于词元编码的文本无载体信息隐藏方法
Bhattacharyya Data hiding through multi level steganography and ssce
Yang et al. Graph-Stega: Semantic controllable steganographic text generation guided by knowledge graph
Xiao et al. Reasoning over the air: A reasoning-based implicit semantic-aware communication framework
Ding et al. Discop: Provably secure steganography in practice based on" distribution copies"
Chen et al. Cover reproducible steganography via deep generative models
Zhao et al. Semantic information extraction for text data with probability graph
US7356463B1 (en) System and method for detecting and decoding semantically encoded natural language messages
CN112052471B (zh) 一种基于社交网络空间的信息隐藏方法
Singh Analysis of different types of steganography
Malik et al. A high capacity text steganography scheme based on huffman compression and color coding
Mattern Linear and geometric mixtures-analysis
Peng et al. Cross-modal text steganography against synonym substitution-based text attack
CN114065269B (zh) 无绑定型非同质化代币的生成方法和解析方法和存储介质
Chen et al. When provably secure steganography meets generative models
CN114491597A (zh) 一种基于汉字部件组合的文本无载体信息隐藏方法
Zhang et al. Efficient data hiding with histogram-preserving property
Banerjee Text steganography using article mapping technique (AMT) and SSCE
Wu et al. Generative Text Steganography with Large Language Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant