CN116468005A - 基于文本改写模型的隐写文本生成方法 - Google Patents
基于文本改写模型的隐写文本生成方法 Download PDFInfo
- Publication number
- CN116468005A CN116468005A CN202310319597.5A CN202310319597A CN116468005A CN 116468005 A CN116468005 A CN 116468005A CN 202310319597 A CN202310319597 A CN 202310319597A CN 116468005 A CN116468005 A CN 116468005A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- steganographic
- generating
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000009467 reduction Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000009966 trimming Methods 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于文本改写模型的隐写文本生成方法,采用预训练降噪自编码模型BART完成文本改写任务,对数据集进行数据增强构建了微调数据集对模型进行微调,利用条件限制编码进行二次微调来控制输出文本的长度。在信息嵌入阶段,设计了掩码策略进行秘密信息的嵌入,并采用重排序方式来选择最优隐写文本。相较于现有技术,本发明所提出的方法能够保证隐写文本的可控性以及自然性,较现存方法能够生成更自然流畅的语句。
Description
技术领域
本发明属于信息安全技术领域,特别是涉及一种基于文本改写模型的隐写文本生成方法。
背景技术
随着互联网的快速发展,人们能够通过网络实现高效的信息传输,但在信息的传输过程中,其很容易受到恶意攻击者的监听和拦截,导致信息外泄。这一影响轻则会泄漏个人信息,影响个人隐私;重则会导致重大信息被窃取,严重影响社会安全。因此,数据传输的安全问题引起了社会各界的广泛关注,人们已经投入了大量的研究工作来保证数据传输的安全以及隐私。数据隐写是一种可逆的数据嵌入技术,即数据的发送方可以通过深度学习模型将需要传输的秘密数据嵌入到图像、文本等载体,当中并发送该携带秘密信息的载体,接收方则可以根据事先商定好的解码策略从隐写数据中提取出秘密信息。
目前基于语言模型的隐写方法大致可以分为:基于编辑的语言隐写和基于生成的语言隐写。基于编辑的语言隐写方法通过替换一段话中的某些词来嵌入秘密信息,对于待替换的词,首先构造出该词的同义词组,其中的每个同义词都用一个二进制对其进行编码。基于生成的语言隐写方法是通过在自然语言模型生成文本的过程中限制生成过程来嵌入秘密信息。这类方式属于一种文本续写的方式,他们首先利用载体文本来初始化一个语言模型,并基于待加密的秘密信息来生成后续的隐写文本。目前对于隐写方法仍存在下列不足:
1.由于同义词组的构造是一个极其复杂且繁琐的过程,现有技术提出利用掩码语言模型作为工具来完成同义词替换;对待替换的词进行掩码操作,并利用降噪自编码模型输出该位置的同义词组;为了保证生成的隐写文本的自然性,edit-based方式一般根据阈值来选取top-K个单词作为同义词组,然而,这也导致了其承载秘密信息的能力,该方法能够加密的秘密信息取决于选取的载体文本的长度。当需要加密的秘密信息过长时,edit-based方法需要选择足够长的文本作为载体文本,若此时选取的载体文本过短,则无法对秘密信息进行完全加密。
2.现有的基于生成的语言隐写方法虽然大幅度提升了隐写文本对秘密信息的嵌入能力,但其生成方式是不可控的,完全根据语言模型的当前状态及秘密信息来生成文本,很容易导致生成的隐写文本不自然。
发明内容
本发明实施例的目的在于提供一种基于文本改写得自然可控的隐写文本生成方式,以克服现有技术手段的不足,通过改变单词的使用来嵌入秘密信息同时保证语义相似性,能够在保证信息承载能力的同时提升文本的自然性和可控性。
为解决上述技术问题,本发明所采用的技术方案是:
本发明提供一种基于文本改写模型的隐写文本生成方法,其特征在于,包括以下步骤:
S1、采集文本训练数据和测试数据,并将待加密的文本数据转换为比特流;
S2、构建预训练降噪自编码模型;
S3、微调模型,使用数据增强方式生成微调数据集;
S4、基于条件限制性编码进行二次微调,在输入文本后拼接一个模板,模板内容为期望输出的文本长度;
S5、秘密信息嵌入,在文本生成的解码阶段,使用特定的分组掩码操作根据S1生成的比特流来约束当前时间步的生成;
S6、文本重排序,同时生成多个候选文本,计算其困惑度并选择最优解;
S7、秘密信息提取,接收方收到携带秘密信息的隐写文本后,通过事先确定的解码策略从隐写文本中恢复秘密信息。
进一步的,S1将文本训练数据和测试数据转化为比特流的具体方式为通过异或操作将字符串转换为对应的utf-8编码的比特序列。
进一步的,S2中所述降噪自编码模型具备编解码结构,其编码器首先会将输入映射成隐空间向量,解码器再将该隐空间向量融合上下文信息生成对应的输出文本Y't,具体形式如下式:
H=Encoder(Y)
Y′t=Decoder(Y′1:t-1,H)
其中,t为第t个时刻,Encoder()表示编码过程,Decoder()表示解码过程,Y表示输入文本,H表示隐空间向量,Y`表示Y对应的输出文本,Y'1:t-1表示第1时刻到t-1时刻Y对应的输出文本。
具体的,S3微调模型的具体过程如下:
在降噪自编码模型的预训练阶段,对于给定的原始文本Xoriginal,通过在Xoriginal添加手动定义的噪声来合成一个噪声文本Xcorrupt,再利用降噪自编码模型将损坏后的文本恢复为Xoriginal:
PBART(Xoriginal|Xcorrupt)
其中,PBART()表示Xcorrupt被恢复为Xoriginal的概率;
从原始数据集中采样出了困惑度大于20且小于200的高质量文本,然后使用数据增强工具合成扰动数据,包括8个扰动操作:随机单词插入、随机单词替换、同义词替换、反义词替换、单词分解、单词删除、单词换位以及上述方法的随机组合,最后,选择100万条数据样本作为模型的输入,并选择这些扰动数据对应的原始数据作为标签来微调模型。
进一步的,在所述微调过程中,Xcorrupt作为解码器的输入并得到隐空间向量H,编码器在Xcorrupt的限制下生成与其语义相关并去噪的文本Xoriginal。
具体的,所述S4中模板为“Generate a sentence oflength Lbyparaphrasingthecontentonthe left”,其中,L为本发明想要生成的文本的长度。
具体的,所述S5的具体过程为,降噪自编码模型首先输出一个维度与词表大小相同的向量,在经过softmax之后,对词表进行分组,保留对应当前待加密比特序列的分组内的单词的概率,其他概率则全置为0,并基于分组掩码的方式从期望的组内选择概率最高的单词作为当前时刻的输出。
进一步的,所述S5中分组具体为,将词表划分为2n个组,每一个组用一个唯一的长度为n的比特序列来表示。
进一步的,文本重排序的过程中,选择贪心搜索或beam-Search任一方式进行输出。
具体的,S6计算困惑度并选择最优解的计算步骤如下:
利用beam-search方式得到K个候选集,然后计算候选集中所有文本的困惑度,最终选择困惑度perplexity最低的文本作为最终的隐写文本;困惑度计算方式如下:
其中,exp为指数函数,wi为第i个单词的条件概率,N为文本长度。
本发明的有益效果是
(1)本发明利用文本改写模型进行隐写文本生成,生成的隐写文本与给定的载体文本具有高度语义相似性,更自然更可控的文本保证了隐写文本更容易躲避恶意监控系统的监视。
(2)本发明设计的分组掩码方式即插即用,不需要修改模型内部结构即可完成信息的嵌入。
(3)经试验表示,本发明较现存方法能够生成更自然流畅的语句。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于改写的隐写文本生成方式的结构图;
图2是分组掩码结构图;
图3是模型实验结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明基于文本改写模型的隐写文本生成方法的具体步骤包括:
S1、采集训练数据和测试数据
隐写文本重要特征之一为不会引起第三方检测系统的察觉,因此本发明选取了三个契合日常的文本数据集,分别为电影评论、新闻、推文。首先对数据进行了分词,并将其全部转换为小写,最后过滤出了长度为5-200的句子。对于秘密信息,由于在该任务中,其是以比特流的形式存在的,本发明选择了数据集中5000条样本并通过异或操作将字符串转换为了对应的utf-8编码的比特序列。
S2、构建预训练降噪自编码模型
本发明将隐写任务定义为了一个文本改写任务,属于序列到序列的问题,降噪自编码模型具备编解码结构,非常适合该任务。模型的编码器首先会将输入映射成隐空间向量,解码器再将该隐空间向量融合上下文信息生成对应的输出,可以将其形式化为:
H=Encoder(Y)
Y′t=Decoder(Y′1:t-1,H)
其中,t为第t个时刻,Encoder()表示编码过程,Decoder()表示解码过程,Y表示输入文本,H表示隐空间向量,Y`表示Y对应的输出文本,Y'1:t-1表示第1时刻到t-1时刻Y对应的输出文本。
S3、模型微调
在降噪自编码模型的预训练阶段,对于给定的原始文本Xoriginal,通过在原始文本添加手动定义的噪声来合成一个噪声文本Xcorrupt,降噪自编码模型的训练目标是将损坏后的文本恢复为原始文本:
PBART(Xoriginal|Xcorrupt)
其中,PBART()为噪声文本Xcorrupt被恢复为原始文本Xoriginal的概率。
为了使模型能够生成与所选数据更加语义契合的文本,本发明通过数据增强微调数据集。首先本发明从原始数据集中采样出了困惑度大于20且小于200的高质量文本,其次,本发明使用数据增强工具合成扰动数据,包括8个扰动操作:1)随机单词插入2)随机单词替换3)同义词替换4)反义词替换5)单词分解6)单词删除7)单词换位8)上述方法的随机组合,最后,本发明随机选择了100万条数据样本作为模型的输入,并选择这些扰动数据对应的原始数据作为标签来微调模型。
在微调过程中,Xcorrupt作为解码器的输入并得到隐空间向量H,编码器则负责在Xcorrupt的限制下生成与其语义相关并去噪的文本Xoriginal。
S4:基于条件限制性编码进行二次微调
在S3对模型进行微调后,模型输出的文本可以与选择的输入保持高度相似,但当前输出的文本的长度是依赖于输入文本的,而在隐写任务中,输出文本的长度应该依赖于待加密的比特序列的长度,因此需要进行二次微调,在输入端给定一个长度信号,让模型尽可能地输出指定长度的文本。在本发明中,本发明采取了条件限制编码,即在解码器对输入进行编码之前添加一个限制条件,告诉模型应该生成多长的文本。由于Prompting策略在预训练语言模型中有较大潜力,故在微调过程中添加一个prompttext,来帮助达到训练目的。本发明在原始文本输入模型之前,本发明在其之后拼接了以下模板:"Generate asentence oflength Lby paraphrasingthe content onthe left",其中,L为本发明想要生成的文本的长度。
S5、秘密信息嵌入
在S1~S4中,本发明已经保证了的输出文本在语义和长度上都与目标接近,在此步骤中,可以完成秘密信息的嵌入。在S1中,本发明已经将待加密的文本转换成了比特序列,为了使生成的文本能够嵌入比特序列,本发明设计了一个即插即用的分组掩码策略。在降噪自编码模型的生成过程中,文本是按照时间步来生成的,即在每一个时间步只生成一个单词,降噪自编码模型首先输出一个维度与词表大小相同的向量,在经过softmax之后,选择概率最高的单词作为当前时刻的输出。为了使得当前时刻输出的单词能够承载秘密信息,本发明对词表进行了分组并采取了分组掩码来选择当前时刻的输出。基于词表的分组方式如图2所示,本发明将词表划分为了2n个组,每一个组都可以用一个唯一的长度为n的比特序列来表示,假设n为2,则词表可以被划分为4个组,分别用00,01,10,11来表示每一个组的ID,在此,单词所属的组是根据单词ID进行取模运算得到的。
在文本生成的解码阶段,上文提到每个时间步模型会选择概率最高的单词作为当前时间步的输出,为了嵌入秘密信息,在得到softmax之后的概率向量后,本发明只保留对应当前待加密比特序列的分组内的单词的概率,其他概率则全置为0。假设当前待加密的比特序列为11,则本发明只保留组ID为11的单词对应的概率,组ID为00,01,10的单词的概率则被全部置为0,因此,模型只会从ID属于11的分组内选择单词作为当前时刻的输出。
S6、文本重排序
在降噪自编码模型的解码过程中,可以自由选择贪心搜索、beam-Search等方式。贪心搜索会在当前时间步选择最优解作为输出,这可以保证局部最优,但无法保证全局最优,而beam-search方式会在每个时间步保留前K个输出,并最终生成K条候选文本。生成的隐写文本的自然性可以用困惑度perplexity来评估,其计算方式如下:
其中,N为文本的长度;较低的困惑度表示生成的文本具有更高的自然性,因此,在本发明中,本发明首先采用beam-search方式得到了K个候选集,然后利用一个GPT-2模型来计算候选集中所有文本的困惑度,最终选择困惑度最低的文本作为最终的隐写文本。
S107:秘密信息提取
在接收方收到隐写文本后,需要进行秘密信息的提取。基于S105步骤中设计的分组掩码方式,接收方只需要根据词典查找到每一个单词原始的ID,并按照事前商定好的规则(每一个单词能够承载的比特数量)进行取模运算,即可还原出单词对应的比特序列。
本发明提出了一种基于文本改写模型的隐写文本生成方法;利用文本改写策略来保证生成的隐写文本的可控性以及自然性。本发明解决了隐写文本受比特流影响容易导致本文截断的问题;并在BART的解码过程中利用BeamSearch技术来进一步保证生成的隐写文本的流畅性。
实施例1
本实施例中选择了4种现有的文本隐写方式进行了对比,分别是Masked-Stega、Bins、Huffman以及Saac,从BPT(每个单词携带的比特数量,值越大性能越好)、PPL(文本的自然性,值越小性能越好)、Acc(被检测出携带秘密信息的概率,值越小性能越好)、Mean(隐写文本中所有隐写单词在经过掩码模型输出后的位置均值,值越小性能越好)、Variance(隐写文本中所有隐写单词在经过掩码模型输出后的位置方差,值越小性能越好)等方面进行了实验,表1是本发明与其他现存方法在不同数据集上以及不同的评价指标上的比较结果。
表1
如表1所示,其中Masked-Stega是基于编辑的方法,其为了保证生成的隐写文本的自然性,只选择了一部分单词进行同义词替换,因此在各项指标上具有优越性,但其承载的秘密信息的数量依赖于选取的载体文本的长度,当载体文本长度较短时,无法嵌入完整的秘密信息;本发明主要与基于生成的方式进行比较,Bins、Huffman、Saac为基于生成的方式,此类方式具有较高的信息承载能力,但其属于文本续写的方式,生成的文本内容不可控且不自然,本发明与此类方法相比较,具有相似的信息承载能力,同时能够生成更自然的文本,本发明在各项指标上都具有相对较好的性能。
实施例2
为了验证本发明在S103、S104、S106中提及的模型微调、基于条件编码的二次微调、重排序等方法的有效性,本发明进行了实验。实验结果如图3所示,相较于预训练模型,本发明提出的方式在不同的指标上都取得了效果的提升。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.基于文本改写模型的隐写文本生成方法,其特征在于,包括以下步骤:
S1、采集文本训练数据和测试数据,并将待加密的文本数据转换为比特流;
S2、构建预训练降噪自编码模型;
S3、微调模型,使用数据增强方式生成微调数据集;
S4、基于条件限制性编码进行二次微调,在输入文本后拼接一个模板,模板内容为期望输出的文本长度;
S5、秘密信息嵌入,在文本生成的解码阶段,使用特定的分组掩码操作根据S1生成的比特流来约束当前时间步的生成;
S6、文本重排序,同时生成多个候选文本,计算其困惑度并选择最优解;
S7、秘密信息提取,接收方收到携带秘密信息的隐写文本后,通过事先确定的解码策略从隐写文本中恢复秘密信息。
2.根据权利要求1所述的基于文本改写模型的隐写文本生成方法,其特征在于,S1将文本训练数据和测试数据转化为比特流的具体方式为通过异或操作将字符串转换为对应的utf-8编码的比特序列。
3.根据权利要求1所述的基于文本改写模型的隐写文本生成方法,其特征在于,S2中所述降噪自编码模型具备编解码结构,其编码器首先会将输入映射成隐空间向量,解码器再将该隐空间向量融合上下文信息生成对应的输出文本Y't,具体形式如下式:
H=Encoder(Y)
Y′t=Decoder(Y′1:t-1,H)
其中,t为第t个时刻,Encoder()表示编码过程,Decoder()表示解码过程,Y表示输入文本,H表示隐空间向量,Y`表示Y对应的输出文本,Y'1:t-1表示第1时刻到t-1时刻Y对应的输出文本。
4.根据权利要求1所述的基于文本改写模型的隐写文本生成方法,其特征在于,微调模型的具体过程如下:
在降噪自编码模型的预训练阶段,对于给定的原始文本Xoriginal,通过在Xoriginal添加手动定义的噪声来合成一个噪声文本Xcorrupt,再利用降噪自编码模型将损坏后的文本恢复为Xoriginal:
PBART(Xoriginal|Xcorrupt)
其中,PBART()表示Xcorrupt被恢复为Xoriginal的概率;
从原始数据集中采样出了困惑度大于20且小于200的高质量文本,然后使用数据增强工具合成扰动数据,包括8个扰动操作:随机单词插入、随机单词替换、同义词替换、反义词替换、单词分解、单词删除、单词换位以及上述方法的随机组合,最后,选择100万条数据样本作为模型的输入,并选择这些扰动数据对应的原始数据作为标签来微调模型。
5.根据权利要求4所述的基于文本改写模型的隐写文本生成方法,其特征在于,在所述微调过程中,Xcorrupt作为解码器的输入并得到隐空间向量H,编码器在Xcorrupt的限制下生成与其语义相关并去噪的文本Xoriginal。
6.根据权利要求1所述的基于文本改写模型的隐写文本生成方法,其特征在于,所述S4中模板为“Generate a sentence oflength Lbyparaphrasingthe content onthe left”,其中,L为本发明想要生成的文本的长度。
7.根据权利要求1所述的基于文本改写模型的隐写文本生成方法,其特征在于,所述S5的具体过程为,降噪自编码模型首先输出一个维度与词表大小相同的向量,在经过softmax之后,对词表进行分组,保留对应当前待加密比特序列的分组内的单词的概率,其他概率则全置为0,并基于分组掩码的方式从期望的组内选择概率最高的单词作为当前时刻的输出。
8.根据权利要求7所述的基于文本改写模型的隐写文本生成方法,其特征在于,所述S5中分组具体为,将词表划分为2n个组,每一个组用一个唯一的长度为n的比特序列来表示。
9.根据权利要求1所述的基于文本改写模型的隐写文本生成方法,其特征在于,文本重排序的过程中,选择贪心搜索或beam-Search任一方式进行输出。
10.根据权利要求1所述的基于文本改写模型的隐写文本生成方法,其特征在于,计算困惑度并选择最优解的计算步骤如下:
利用beam-search方式得到K个候选集,然后计算候选集中所有文本的困惑度,最终选择困惑度perplexity最低的文本作为最终的隐写文本;困惑度计算方式如下:
其中,exp为指数函数,wi为第i个单词的条件概率,N为文本长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310319597.5A CN116468005B (zh) | 2023-03-29 | 2023-03-29 | 基于文本改写模型的隐写文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310319597.5A CN116468005B (zh) | 2023-03-29 | 2023-03-29 | 基于文本改写模型的隐写文本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116468005A true CN116468005A (zh) | 2023-07-21 |
CN116468005B CN116468005B (zh) | 2024-01-30 |
Family
ID=87183443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310319597.5A Active CN116468005B (zh) | 2023-03-29 | 2023-03-29 | 基于文本改写模型的隐写文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468005B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711121A (zh) * | 2018-12-27 | 2019-05-03 | 清华大学 | 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置 |
US10380236B1 (en) * | 2017-09-22 | 2019-08-13 | Amazon Technologies, Inc. | Machine learning system for annotating unstructured text |
CN110968759A (zh) * | 2018-09-30 | 2020-04-07 | 北京奇虎科技有限公司 | 一种改写模型的训练方法及装置 |
CN111950237A (zh) * | 2019-04-29 | 2020-11-17 | 深圳市优必选科技有限公司 | 一种句子改写方法、句子改写装置及电子设备 |
-
2023
- 2023-03-29 CN CN202310319597.5A patent/CN116468005B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10380236B1 (en) * | 2017-09-22 | 2019-08-13 | Amazon Technologies, Inc. | Machine learning system for annotating unstructured text |
CN110968759A (zh) * | 2018-09-30 | 2020-04-07 | 北京奇虎科技有限公司 | 一种改写模型的训练方法及装置 |
CN109711121A (zh) * | 2018-12-27 | 2019-05-03 | 清华大学 | 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置 |
CN111950237A (zh) * | 2019-04-29 | 2020-11-17 | 深圳市优必选科技有限公司 | 一种句子改写方法、句子改写装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
宋冰冰 等: "自动化张量分解加速卷积神经网络", 软件学报, vol. 32, no. 11, pages 3468 * |
张亚 等: "基于自动编码器的深度伪造图像检测方法", 计算机应用, vol. 41, no. 10, pages 2985 - 2990 * |
Also Published As
Publication number | Publication date |
---|---|
CN116468005B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711121B (zh) | 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置 | |
CN110795556B (zh) | 一种基于细粒度插入式解码的摘要生成方法 | |
Zhang et al. | Provably secure generative linguistic steganography | |
Yang et al. | Automatically generate steganographic text based on markov model and huffman coding | |
Kang et al. | Generative text steganography based on LSTM network and attention mechanism with keywords | |
Tayyeh et al. | Novel steganography scheme using Arabic text features in Holy Quran | |
CN111666575B (zh) | 基于词元编码的文本无载体信息隐藏方法 | |
Yang et al. | Semantic-preserving linguistic steganography by pivot translation and semantic-aware bins coding | |
CN113657107A (zh) | 一种基于序列到隐写序列的自然语言信息隐藏方法 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN115759062A (zh) | 基于知识注入的文图预训练模型处理方法和文图检索系统 | |
CN115906815A (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
Zheng et al. | Autoregressive linguistic steganography based on BERT and consistency coding | |
Changder et al. | LCS based text steganography through Indian Languages | |
Alghamdi et al. | Capacity investigation of Markov chain-based statistical text steganography: Arabic language case | |
CN116468005B (zh) | 基于文本改写模型的隐写文本生成方法 | |
Yang et al. | Linguistic steganography by sampling-based language generation | |
Safaka et al. | Matryoshka: Hiding secret communication in plain sight | |
CN115470799B (zh) | 一种用于网络边缘设备的文本传输和语义理解一体化方法 | |
Arısoy | LZW-CIE: a high-capacity linguistic steganography based on LZW char index encoding | |
CN115758415A (zh) | 一种基于汉字部件组合的文本无载体信息隐藏方法 | |
CN113343250B (zh) | 一种基于主题引导的生成式文本隐蔽通信方法 | |
Zheng et al. | General Framework for Reversible Data Hiding in Texts Based on Masked Language Modeling | |
CN115223549A (zh) | 一种越南语语音识别语料构建方法 | |
Wu et al. | AMR Steganalysis based on Adversarial Bi-GRU and Data Distillation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |