CN116468005A

CN116468005A - 基于文本改写模型的隐写文本生成方法

Info

Publication number: CN116468005A
Application number: CN202310319597.5A
Authority: CN
Inventors: 董云云; 李钒效; 巫思杏; 周维
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-21
Anticipated expiration: 2043-03-29
Also published as: CN116468005B

Abstract

本发明公开了一种基于文本改写模型的隐写文本生成方法，采用预训练降噪自编码模型BART完成文本改写任务，对数据集进行数据增强构建了微调数据集对模型进行微调，利用条件限制编码进行二次微调来控制输出文本的长度。在信息嵌入阶段，设计了掩码策略进行秘密信息的嵌入，并采用重排序方式来选择最优隐写文本。相较于现有技术，本发明所提出的方法能够保证隐写文本的可控性以及自然性，较现存方法能够生成更自然流畅的语句。

Description

基于文本改写模型的隐写文本生成方法

技术领域

本发明属于信息安全技术领域，特别是涉及一种基于文本改写模型的隐写文本生成方法。

背景技术

随着互联网的快速发展，人们能够通过网络实现高效的信息传输，但在信息的传输过程中，其很容易受到恶意攻击者的监听和拦截，导致信息外泄。这一影响轻则会泄漏个人信息，影响个人隐私；重则会导致重大信息被窃取，严重影响社会安全。因此，数据传输的安全问题引起了社会各界的广泛关注，人们已经投入了大量的研究工作来保证数据传输的安全以及隐私。数据隐写是一种可逆的数据嵌入技术，即数据的发送方可以通过深度学习模型将需要传输的秘密数据嵌入到图像、文本等载体，当中并发送该携带秘密信息的载体，接收方则可以根据事先商定好的解码策略从隐写数据中提取出秘密信息。

目前基于语言模型的隐写方法大致可以分为：基于编辑的语言隐写和基于生成的语言隐写。基于编辑的语言隐写方法通过替换一段话中的某些词来嵌入秘密信息，对于待替换的词，首先构造出该词的同义词组，其中的每个同义词都用一个二进制对其进行编码。基于生成的语言隐写方法是通过在自然语言模型生成文本的过程中限制生成过程来嵌入秘密信息。这类方式属于一种文本续写的方式，他们首先利用载体文本来初始化一个语言模型，并基于待加密的秘密信息来生成后续的隐写文本。目前对于隐写方法仍存在下列不足：

1.由于同义词组的构造是一个极其复杂且繁琐的过程，现有技术提出利用掩码语言模型作为工具来完成同义词替换；对待替换的词进行掩码操作，并利用降噪自编码模型输出该位置的同义词组；为了保证生成的隐写文本的自然性，edit-based方式一般根据阈值来选取top-K个单词作为同义词组，然而，这也导致了其承载秘密信息的能力，该方法能够加密的秘密信息取决于选取的载体文本的长度。当需要加密的秘密信息过长时，edit-based方法需要选择足够长的文本作为载体文本，若此时选取的载体文本过短，则无法对秘密信息进行完全加密。

2.现有的基于生成的语言隐写方法虽然大幅度提升了隐写文本对秘密信息的嵌入能力，但其生成方式是不可控的，完全根据语言模型的当前状态及秘密信息来生成文本，很容易导致生成的隐写文本不自然。

发明内容

本发明实施例的目的在于提供一种基于文本改写得自然可控的隐写文本生成方式，以克服现有技术手段的不足，通过改变单词的使用来嵌入秘密信息同时保证语义相似性，能够在保证信息承载能力的同时提升文本的自然性和可控性。

为解决上述技术问题，本发明所采用的技术方案是：

本发明提供一种基于文本改写模型的隐写文本生成方法，其特征在于，包括以下步骤：

S1、采集文本训练数据和测试数据，并将待加密的文本数据转换为比特流；

S2、构建预训练降噪自编码模型；

S3、微调模型，使用数据增强方式生成微调数据集；

S4、基于条件限制性编码进行二次微调，在输入文本后拼接一个模板，模板内容为期望输出的文本长度；

S5、秘密信息嵌入，在文本生成的解码阶段，使用特定的分组掩码操作根据S1生成的比特流来约束当前时间步的生成；

S6、文本重排序，同时生成多个候选文本，计算其困惑度并选择最优解；

S7、秘密信息提取，接收方收到携带秘密信息的隐写文本后，通过事先确定的解码策略从隐写文本中恢复秘密信息。

进一步的，S1将文本训练数据和测试数据转化为比特流的具体方式为通过异或操作将字符串转换为对应的utf-8编码的比特序列。

进一步的，S2中所述降噪自编码模型具备编解码结构，其编码器首先会将输入映射成隐空间向量，解码器再将该隐空间向量融合上下文信息生成对应的输出文本Y'_t，具体形式如下式：

H＝Encoder(Y)

Y′_t＝Decoder(Y′_1:t-1,H)

其中，t为第t个时刻，Encoder()表示编码过程，Decoder()表示解码过程，Y表示输入文本，H表示隐空间向量，Y`表示Y对应的输出文本，Y'_1:t-1表示第1时刻到t-1时刻Y对应的输出文本。

具体的，S3微调模型的具体过程如下：

在降噪自编码模型的预训练阶段，对于给定的原始文本X_original，通过在X_original添加手动定义的噪声来合成一个噪声文本X_corrupt，再利用降噪自编码模型将损坏后的文本恢复为X_original：

P_BART(X_original|X_corrupt)

其中，P_BART()表示X_corrupt被恢复为X_original的概率；

从原始数据集中采样出了困惑度大于20且小于200的高质量文本，然后使用数据增强工具合成扰动数据，包括8个扰动操作：随机单词插入、随机单词替换、同义词替换、反义词替换、单词分解、单词删除、单词换位以及上述方法的随机组合，最后，选择100万条数据样本作为模型的输入，并选择这些扰动数据对应的原始数据作为标签来微调模型。

进一步的，在所述微调过程中，X_corrupt作为解码器的输入并得到隐空间向量H，编码器在X_corrupt的限制下生成与其语义相关并去噪的文本X_original。

具体的，所述S4中模板为“Generate a sentence oflength Lbyparaphrasingthecontentonthe left”，其中，L为本发明想要生成的文本的长度。

具体的，所述S5的具体过程为，降噪自编码模型首先输出一个维度与词表大小相同的向量，在经过softmax之后，对词表进行分组，保留对应当前待加密比特序列的分组内的单词的概率，其他概率则全置为0，并基于分组掩码的方式从期望的组内选择概率最高的单词作为当前时刻的输出。

进一步的，所述S5中分组具体为，将词表划分为2ⁿ个组，每一个组用一个唯一的长度为n的比特序列来表示。

进一步的，文本重排序的过程中，选择贪心搜索或beam-Search任一方式进行输出。

具体的，S6计算困惑度并选择最优解的计算步骤如下：

利用beam-search方式得到K个候选集，然后计算候选集中所有文本的困惑度，最终选择困惑度perplexity最低的文本作为最终的隐写文本；困惑度计算方式如下：

其中，exp为指数函数，w_i为第i个单词的条件概率，N为文本长度。

本发明的有益效果是

(1)本发明利用文本改写模型进行隐写文本生成，生成的隐写文本与给定的载体文本具有高度语义相似性，更自然更可控的文本保证了隐写文本更容易躲避恶意监控系统的监视。

(2)本发明设计的分组掩码方式即插即用，不需要修改模型内部结构即可完成信息的嵌入。

(3)经试验表示，本发明较现存方法能够生成更自然流畅的语句。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于改写的隐写文本生成方式的结构图；

图2是分组掩码结构图；

图3是模型实验结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明基于文本改写模型的隐写文本生成方法的具体步骤包括：

S1、采集训练数据和测试数据

隐写文本重要特征之一为不会引起第三方检测系统的察觉，因此本发明选取了三个契合日常的文本数据集，分别为电影评论、新闻、推文。首先对数据进行了分词，并将其全部转换为小写，最后过滤出了长度为5-200的句子。对于秘密信息，由于在该任务中，其是以比特流的形式存在的，本发明选择了数据集中5000条样本并通过异或操作将字符串转换为了对应的utf-8编码的比特序列。

S2、构建预训练降噪自编码模型

本发明将隐写任务定义为了一个文本改写任务，属于序列到序列的问题，降噪自编码模型具备编解码结构，非常适合该任务。模型的编码器首先会将输入映射成隐空间向量，解码器再将该隐空间向量融合上下文信息生成对应的输出，可以将其形式化为：

H＝Encoder(Y)

Y′_t＝Decoder(Y′_1:t-1,H)

S3、模型微调

在降噪自编码模型的预训练阶段，对于给定的原始文本X_original，通过在原始文本添加手动定义的噪声来合成一个噪声文本X_corrupt，降噪自编码模型的训练目标是将损坏后的文本恢复为原始文本：

P_BART(X_original|X_corrupt)

其中，P_BART()为噪声文本X_corrupt被恢复为原始文本X_original的概率。

为了使模型能够生成与所选数据更加语义契合的文本，本发明通过数据增强微调数据集。首先本发明从原始数据集中采样出了困惑度大于20且小于200的高质量文本，其次，本发明使用数据增强工具合成扰动数据，包括8个扰动操作：1)随机单词插入2)随机单词替换3)同义词替换4)反义词替换5)单词分解6)单词删除7)单词换位8)上述方法的随机组合，最后，本发明随机选择了100万条数据样本作为模型的输入，并选择这些扰动数据对应的原始数据作为标签来微调模型。

在微调过程中，X_corrupt作为解码器的输入并得到隐空间向量H，编码器则负责在X_corrupt的限制下生成与其语义相关并去噪的文本X_original。

S4：基于条件限制性编码进行二次微调

在S3对模型进行微调后，模型输出的文本可以与选择的输入保持高度相似，但当前输出的文本的长度是依赖于输入文本的，而在隐写任务中，输出文本的长度应该依赖于待加密的比特序列的长度，因此需要进行二次微调，在输入端给定一个长度信号，让模型尽可能地输出指定长度的文本。在本发明中，本发明采取了条件限制编码，即在解码器对输入进行编码之前添加一个限制条件，告诉模型应该生成多长的文本。由于Prompting策略在预训练语言模型中有较大潜力，故在微调过程中添加一个prompttext，来帮助达到训练目的。本发明在原始文本输入模型之前，本发明在其之后拼接了以下模板："Generate asentence oflength Lby paraphrasingthe content onthe left"，其中，L为本发明想要生成的文本的长度。

S5、秘密信息嵌入

在S1～S4中，本发明已经保证了的输出文本在语义和长度上都与目标接近，在此步骤中，可以完成秘密信息的嵌入。在S1中，本发明已经将待加密的文本转换成了比特序列，为了使生成的文本能够嵌入比特序列，本发明设计了一个即插即用的分组掩码策略。在降噪自编码模型的生成过程中，文本是按照时间步来生成的，即在每一个时间步只生成一个单词，降噪自编码模型首先输出一个维度与词表大小相同的向量，在经过softmax之后，选择概率最高的单词作为当前时刻的输出。为了使得当前时刻输出的单词能够承载秘密信息，本发明对词表进行了分组并采取了分组掩码来选择当前时刻的输出。基于词表的分组方式如图2所示，本发明将词表划分为了2ⁿ个组，每一个组都可以用一个唯一的长度为n的比特序列来表示，假设n为2，则词表可以被划分为4个组，分别用00,01,10,11来表示每一个组的ID，在此，单词所属的组是根据单词ID进行取模运算得到的。

在文本生成的解码阶段，上文提到每个时间步模型会选择概率最高的单词作为当前时间步的输出，为了嵌入秘密信息，在得到softmax之后的概率向量后，本发明只保留对应当前待加密比特序列的分组内的单词的概率，其他概率则全置为0。假设当前待加密的比特序列为11，则本发明只保留组ID为11的单词对应的概率，组ID为00，01，10的单词的概率则被全部置为0，因此，模型只会从ID属于11的分组内选择单词作为当前时刻的输出。

S6、文本重排序

在降噪自编码模型的解码过程中，可以自由选择贪心搜索、beam-Search等方式。贪心搜索会在当前时间步选择最优解作为输出，这可以保证局部最优，但无法保证全局最优，而beam-search方式会在每个时间步保留前K个输出，并最终生成K条候选文本。生成的隐写文本的自然性可以用困惑度perplexity来评估，其计算方式如下：

其中，N为文本的长度；较低的困惑度表示生成的文本具有更高的自然性，因此，在本发明中，本发明首先采用beam-search方式得到了K个候选集，然后利用一个GPT-2模型来计算候选集中所有文本的困惑度，最终选择困惑度最低的文本作为最终的隐写文本。

S107：秘密信息提取

在接收方收到隐写文本后，需要进行秘密信息的提取。基于S105步骤中设计的分组掩码方式，接收方只需要根据词典查找到每一个单词原始的ID，并按照事前商定好的规则(每一个单词能够承载的比特数量)进行取模运算，即可还原出单词对应的比特序列。

本发明提出了一种基于文本改写模型的隐写文本生成方法；利用文本改写策略来保证生成的隐写文本的可控性以及自然性。本发明解决了隐写文本受比特流影响容易导致本文截断的问题；并在BART的解码过程中利用BeamSearch技术来进一步保证生成的隐写文本的流畅性。

实施例1

本实施例中选择了4种现有的文本隐写方式进行了对比，分别是Masked-Stega、Bins、Huffman以及Saac，从BPT(每个单词携带的比特数量，值越大性能越好)、PPL(文本的自然性，值越小性能越好)、Acc(被检测出携带秘密信息的概率，值越小性能越好)、Mean(隐写文本中所有隐写单词在经过掩码模型输出后的位置均值，值越小性能越好)、Variance(隐写文本中所有隐写单词在经过掩码模型输出后的位置方差，值越小性能越好)等方面进行了实验，表1是本发明与其他现存方法在不同数据集上以及不同的评价指标上的比较结果。

表1

如表1所示，其中Masked-Stega是基于编辑的方法，其为了保证生成的隐写文本的自然性，只选择了一部分单词进行同义词替换，因此在各项指标上具有优越性，但其承载的秘密信息的数量依赖于选取的载体文本的长度，当载体文本长度较短时，无法嵌入完整的秘密信息；本发明主要与基于生成的方式进行比较，Bins、Huffman、Saac为基于生成的方式，此类方式具有较高的信息承载能力，但其属于文本续写的方式，生成的文本内容不可控且不自然，本发明与此类方法相比较，具有相似的信息承载能力，同时能够生成更自然的文本，本发明在各项指标上都具有相对较好的性能。

实施例2

为了验证本发明在S103、S104、S106中提及的模型微调、基于条件编码的二次微调、重排序等方法的有效性，本发明进行了实验。实验结果如图3所示，相较于预训练模型，本发明提出的方式在不同的指标上都取得了效果的提升。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于文本改写模型的隐写文本生成方法，其特征在于，包括以下步骤：

S2、构建预训练降噪自编码模型；

S3、微调模型，使用数据增强方式生成微调数据集；

2.根据权利要求1所述的基于文本改写模型的隐写文本生成方法，其特征在于，S1将文本训练数据和测试数据转化为比特流的具体方式为通过异或操作将字符串转换为对应的utf-8编码的比特序列。

3.根据权利要求1所述的基于文本改写模型的隐写文本生成方法，其特征在于，S2中所述降噪自编码模型具备编解码结构，其编码器首先会将输入映射成隐空间向量，解码器再将该隐空间向量融合上下文信息生成对应的输出文本Y'_t，具体形式如下式：

H＝Encoder(Y)

Y′_t＝Decoder(Y′_1:t-1,H)

4.根据权利要求1所述的基于文本改写模型的隐写文本生成方法，其特征在于，微调模型的具体过程如下：

P_BART(X_original|X_corrupt)

其中，P_BART()表示X_corrupt被恢复为X_original的概率；

5.根据权利要求4所述的基于文本改写模型的隐写文本生成方法，其特征在于，在所述微调过程中，X_corrupt作为解码器的输入并得到隐空间向量H，编码器在X_corrupt的限制下生成与其语义相关并去噪的文本X_original。

6.根据权利要求1所述的基于文本改写模型的隐写文本生成方法，其特征在于，所述S4中模板为“Generate a sentence oflength Lbyparaphrasingthe content onthe left”，其中，L为本发明想要生成的文本的长度。

7.根据权利要求1所述的基于文本改写模型的隐写文本生成方法，其特征在于，所述S5的具体过程为，降噪自编码模型首先输出一个维度与词表大小相同的向量，在经过softmax之后，对词表进行分组，保留对应当前待加密比特序列的分组内的单词的概率，其他概率则全置为0，并基于分组掩码的方式从期望的组内选择概率最高的单词作为当前时刻的输出。

8.根据权利要求7所述的基于文本改写模型的隐写文本生成方法，其特征在于，所述S5中分组具体为，将词表划分为2ⁿ个组，每一个组用一个唯一的长度为n的比特序列来表示。

9.根据权利要求1所述的基于文本改写模型的隐写文本生成方法，其特征在于，文本重排序的过程中，选择贪心搜索或beam-Search任一方式进行输出。

10.根据权利要求1所述的基于文本改写模型的隐写文本生成方法，其特征在于，计算困惑度并选择最优解的计算步骤如下：