CN109815496A

CN109815496A - 基于容量自适应收缩机制载体生成式文本隐写方法及装置

Info

Publication number: CN109815496A
Application number: CN201910059159.3A
Authority: CN
Inventors: 黄永峰; 杨忠良; 胡雨婷; 杨震; 陈放; 吴思行; 黄琬婷
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2019-05-28

Abstract

本发明公开了一种基于容量自适应收缩机制载体生成式文本隐写方法及装置，其中，方法包括以下步骤：步骤S1，对目标文本进行建模，并利用循环神经网络模型从目标文本中训练得到统计语言模型，以根据统计语言模型统计目标文本中每个词在每个时刻的条件概率分布；步骤S2，通过对条件概率分布进行基于容量自适应收缩的可变长度编码，以隐藏每个词的秘密比特流；步骤S3，根据每个词的隐藏秘密比特流生成目标文本的隐写文本。该方法基于载体生成的隐写术，它可以根据需要隐藏的秘密比特流，利用容量自适应收缩机制，自动生成高质量的隐写文本。

Description

基于容量自适应收缩机制载体生成式文本隐写方法及装置

技术领域

本发明涉及自动文本生成技术领域，特别涉及一种基于容量自适应收缩机制载体生成式文本隐写方法及装置。

背景技术

信息安全系统包括：加密系统，隐私系统和隐藏系统。加密系统以特殊方式对信息进行加密，只有授权方能够对其进行解码。它通过提高信息的破译难度来确保信息的安全性。隐私系统主要限制用户对信息的访问，只有授权用户才能访问重要信息，而未经授权的用户无法以任何方式访问该信息。虽然这两个系统确保了信息安全，但同时也暴露了信息的存在和重要性，使其更容易受到如拦截和破解等的攻击。而隐藏系统与这两种保密系统有很大不同。它通过在常见载体中嵌入机密信息，利用公共信道传输来隐藏机密信息的存在，从而不容易被怀疑和攻击。隐藏系统由于其极强的信息隐藏能力，在保护商业机密、军事安全甚至国防安全方面发挥着重要作用。

隐写术是隐藏系统中的关键技术。隐写术与数字水印技术具有许多共同特征，但也有很大的区别。首先，虽然隐写术和数字水印都用于隐藏载体中的信息，但隐写术的主要目标是隐藏信息的存在，而数字水印的主要目标是抵制修改。第二，隐写术可以嵌入尽可能大的信息量，而数字水印中的嵌入信息量通常较小。第三，隐藏系统中的隐藏信息通常是不规律的，但是数字水印系统中的嵌入的信息通常是有规律的。

信息隐藏可以使用图像、音频、文本等媒体形式作为载体。其中，文本是人们日常生活中使用最广泛的信息载体。使用文本作为信息隐藏载体具有很大的研究价值和现实意义。与图像和音频相比，文本具有更高程度的信息编码，可以产生更少的冗余信息，但是同时这使得利用文本隐藏信息非常具有挑战性。由于以上原因，文本隐写术在近些年吸引了大量研究人员的兴趣，并且出现了越来越多的基于文本的信息隐藏方法。

一般来说，隐写算法可以利用三种不同的基本架构来确定嵌入和提取算法的内部机制，三种架构分别是：载体检索，载体修改和载体生成。在基于载体检索的隐写术中，发送方首先需要编码载体集中的所有载体，然后选择不同的载体进行传输以实现信息秘密传递。这种方法的优点是含密载体总是“100％自然”，但缺点是传递信息量非常少。目前研究最多的隐写方法是基于载体修改的隐写术，即通过修改给定的载体来实现机密信息的嵌入。这种方法在图像，语音和文本等多种载体上具有广泛的应用。但通常来说，由于图像和语音载体的冗余信息空间相对较大，适量的修改不会造成很大的视觉效果或听觉变化。而对于文本来说，由于它具有更高的信息编码度，较低的信息冗余量，这样一来限制了可修改空间的大小，从而难以实现足够高的隐藏容量。第三种方法是基于载体生成的隐写方法，即根据需要传递的机密消息自动生成载体，并在生成过程中嵌入隐蔽信息。这种方法具有较高的隐藏容量，因此通常被认为是文本隐写领域非常有前途的研究方向。但是利用以往模型生成高质量的可读文本难度较高，因此如何设计更好的模型并生成更高质量的文本载体已成为该领域的迫切问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于容量自适应收缩机制载体生成式文本隐写方法，该方法有效提升了生成的隐写文本的质量，从而提升了系统整体的隐蔽性。

本发明的另一个目的在于提出一种基于容量自适应收缩机制载体生成式文本隐写装置。

为达到上述目的，本发明一方面实施例提出了一种基于容量自适应收缩机制载体生成式文本隐写方法，包括以下步骤：步骤S1，对目标文本进行建模，并利用循环神经网络模型从所述目标文本中训练得到统计语言模型，以根据所述统计语言模型统计所述目标文本中每个词在每个时刻的条件概率分布；步骤S2，通过对所述条件概率分布进行基于容量自适应收缩的可变长度编码，以隐藏每个词的秘密比特流；步骤S3，根据每个词的隐藏秘密比特流生成所述目标文本的隐写文本。

本发明实施例的基于容量自适应收缩机制载体生成式文本隐写方法，基于载体生成的隐写术，根据需要隐藏的秘密比特流，在隐写文本自动生成过程中，考虑了不同词的敏感度，引入容量自适应收缩机制，提升了生成的隐写文本的质量，从而提升了系统整体的隐蔽性。

另外，根据本发明上述实施例的基于容量自适应收缩机制载体生成式文本隐写方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：步骤S4，在接收到所述隐写文本之后，对所述隐写文本进行解码并获取所述隐写文本的机密消息。

进一步地，在本发明的一个实施例中，对目标文本进行建模之前，还包括：搜集多个自然文本构建文本数据集；对所述文本数据集进行预处理，以将所述文本数据集中的中文进行分词、英文的所有单词转换为小写、删除特殊符号、表情符号和网络连接且过滤低频词之后得到所述目标文本。

进一步地，在本发明的一个实施例中，所述步骤S1，进一步包括：步骤S11，对所述目标文本进行建模，并构建相应的所述循环神经网络模型；步骤S12，通过所述目标文本训练所述循环神经网络模型，并利用反向传播算法不断优化循环神经网络模型的参数和性能；步骤S13，每个预设时间测试所述循环神经网络模型的loss值，在所述loss值满足调整条件时，根据所述loss值调整所述循环神经网络模型的训练策略；步骤S14，重复执行所述步骤S12和所述步骤S13，直到所述循环神经网络模型的参数和性能达到预设稳定条件，以得到训练好的循环神经网络模型；步骤S15，统计所述目标文本中每个句子的第一个词的词频分布，并按照词频降序的顺序从词频最高的词开始依次选择预设数量的词构成first_word_list；步骤S16，每次生成一句隐写文本时，随机从所述first_word_list中选择一个词作为所述训练好的循环神经网络模型的输入；步骤S17，利用所述训练好的循环神经网络模型学习得到所述统计语言模型，根据所述统计语言模型和随机选择的词迭代式计算得到所述目标文本中每个词在每个时刻的条件概率分布。

进一步地，在本发明的一个实施例中，所述步骤S2，进一步包括：步骤S21，在每个迭代步骤T，按照每个词的条件概率降序排列，并根据所述统计语言模型计算得到每个词结合前T-1个词时整个句子的得分；步骤S22，在所述整个句子的得分达到预设阈值时停止迭代，并确定迭代过程中候选词的数量；步骤S23，确定候选池的大小后，根据候选池中各个词的条件概率构建哈夫曼树并进行哈夫曼编码；步骤S24，根据需要嵌入的码流从构建的哈夫曼树的根结点开始搜索，直到搜索到相应的叶子结点对应的词作为当前时刻的输出，以实现隐藏秘密比特流的能力；步骤S25，重复执行所述步骤S16、所述步骤S17、所述步骤S21至所述步骤S24，直到生成一个完整的隐写句子，完成根据秘密信息自动生成文本载体的过程。

为达到上述目的，本发明另一方面实施例提出了一种基于容量自适应收缩机制载体生成式文本隐写装置，包括：文本自动生成模块，用于对目标文本进行建模，并利用循环神经网络模型从所述目标文本中训练得到统计语言模型，以根据所述统计语言模型统计所述目标文本中每个词在每个时刻的条件概率分布；信息隐藏模块，用于通过对所述条件概率分布进行基于容量自适应收缩的可变长度编码，以隐藏每个词的秘密比特流；隐写文本生成模块，用于根据每个词的隐藏秘密比特流生成所述目标文本的隐写文本。

本发明实施例的基于容量自适应收缩机制载体生成式文本隐写装置，基于载体生成的隐写术，根据需要隐藏的秘密比特流，在隐写文本自动生成过程中，考虑了不同词的敏感度，引入容量自适应收缩机制，提升了生成的隐写文本的质量，从而提升了系统整体的隐蔽性。

另外，根据本发明上述实施例的基于容量自适应收缩机制载体生成式文本隐写装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：信息提取模块，用于在接收到所述隐写文本之后，对所述隐写文本进行解码并获取所述隐写文本的机密消息。

进一步地，在本发明的一个实施例中，还包括：预处理模块，用于搜集多个自然文本构建文本数据集，并对所述文本数据集进行预处理，以将所述文本数据集中的中文进行分词、英文的所有单词转换为小写、删除特殊符号、表情符号和网络连接且过滤低频词之后得到所述目标文本。

进一步地，在本发明的一个实施例中，所述文本自动生成模块，进一步包括：建模单元，用于对所述目标文本进行建模，并构建相应的所述循环神经网络模型；训练单元，通过所述目标文本训练所述循环神经网络模型，并利用反向传播算法不断优化循环神经网络模型的参数和性能；调整单元，用于每个预设时间测试所述循环神经网络模型的loss值，在所述loss值满足调整条件时，根据所述loss值调整所述循环神经网络模型的训练策略；第一重复单元，用于重复执行所述训练单元和所述调整单元，直到所述循环神经网络模型的参数和性能达到预设稳定条件，以得到训练好的循环神经网络模型；统计单元，用于统计所述目标文本中每个句子的第一个词的词频分布，并按照词频降序的顺序从词频最高的词开始依次选择预设数量的词构成first_word_list；随机选择单元，用于每次生成一句隐写文本时，随机从所述first_word_list中选择一个词作为所述训练好的循环神经网络模型的输入；迭代单元，用于利用所述训练好的循环神经网络模型学习得到所述统计语言模型，根据所述统计语言模型和随机选择的词迭代式计算得到所述目标文本中每个词在每个时刻的条件概率分布。

进一步地，在本发明的一个实施例中，所述信息隐藏模块，进一步包括：计算单元，用于在每个迭代步骤T，按照每个词的条件概率降序排列，并根据所述统计语言模型计算得到每个词结合前T-1个词时整个句子的得分；确定单元，用于在所述整个句子的得分达到预设阈值时停止迭代，并确定迭代过程中候选词的数量；构建单元，用于在确定候选池的大小后，根据候选池中各个词的条件概率构建哈夫曼树并进行哈夫曼编码；搜索单元，用于根据需要嵌入的码流从构建的哈夫曼树的根结点开始搜索，直到搜索到相应的叶子结点对应的词作为当前时刻的输出，以实现隐藏秘密比特流的能力；第二重复单元，重复依次执行所述随机选择单元、所述迭代单元、所述计算单元、所述确定单元、所述构建单元和所述搜索单元，直到生成一个完整的隐写句子，完成根据秘密信息自动生成文本载体的过程。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据相关技术的循环神经网络的结构示意图；

图2为根据本发明一个实施例的基于容量自适应收缩机制载体生成式文本隐写方法的流程图；

图3为根据本发明一个具体实施例基于容量自适应收缩机制载体生成式文本隐写方法的流程图；

图4为根据本发明一个实施例可变长度编码示意图；

图5为根据本发明一个实施例基于容量自适应收缩机制载体生成式文本隐写装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本申请是基于发明人对以下问题的认识和发现作出的：

深度学习(deep learning)是机器学习的一个分支，是机器学习中一种基于对数据进行表征学习的方法，它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。表征学习的目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法。表达方式类似神经科学的进步，并松散地创建在类似神经系统中的信息处理和通信模式的理解上，如神经编码，试图定义拉动神经元的反应之间的关系以及大脑中的神经元的电活动之间的关系。至今已有数种深度学习框架，如深度神经网络、卷积神经网络和深度置信网络和循环神经网络已被应用计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

RNN(Recurrent Neural Network，循环神经网络)是一种深度学习框架，如图1所示，它是一类用于处理序列数据的神经网络，由输入层、隐藏层和输出层组成。基本特征是网络在每一步都包含反馈连接，因此它可以在时间维度上扩展并在时间维度上形成“深度”神经网络。这一结构使得循环神经网络能够处理序列数据。相比较其他深度、前馈神经网络，循环神经网络通过使用带自反馈的神经单元，能够处理任意长度的序列数据，是一种颇具吸引力的深度学习结构。

对于只有一个隐藏层的循环神经网络，可以使用以下公式描述：

其中x_t和y_t分别表示第t步的输入和输出向量，h_t表示隐藏层的向量，W.,U.和b是训练得到的权重矩阵和偏差，f_n和f_o是非线性函数，通常使用tanh或softmax函数。

理论上，如上等式最简单的RNN模型可以处理任意长度的序列信号。然而，由于梯度消失问题，它无法有效地处理长期依赖的问题。其改进的算法，LSTM(Long Short-TermMemory，长短期记忆模型)，可以通过精心设计的单位节点有效地解决这个问题。LSTM的主要改进是隐藏层单元，它由四个部分组成：Cell单元，输入门，输出门和忘记门。它可以将过去时间的输入信息存储到单元中，以克服长距离依赖的问题，实现长时间序列的建模。可以使用以下公式描述LSTM单元：

其中I_t表示输入门，可以控制存储器单元输入的新信息量。遗忘门，即F_t，可以使存储器单元丢弃一部分先前存储的信息。存储器单元C_t是由输入门调制的输入信息和由忘记门F_t调制的先前存储器的总和。输出门O_t允许存储器单元对当前隐藏状态产生影响并输出或阻止其影响。为简单起见，用f_LSTM(*)表示LSTM单位的转移函数。需要注意的是，当在时间步t处计算输出时，在时间步t处基于输入矢量使用的信息还包括存储在先前t-1时刻的单元中的信息。因此，时间步t的输出可写为

y_t＝f_LSTM(x_t|x₁，x₂，...，x_t-1).

循环神经网络广泛应用在语音识别、语言模型以及语言生成等任务上，具有非常强的特征抽取、表达、语义理解能力，它不需要人为设计特征，而是从大量数据中自我学习到各种特征。然后根据学习到的特征分布，RNN能够重构出高质量的自然文本载体。然而，现有的基于循环神经网络的隐写文本自动生成方法中，需要事先设定各个词的嵌入容量，并且使得生成的隐写文本中每个词的嵌入比特数都相同，忽视了文本中各个词的敏感度。本发明提出一种容量自适应收缩机制，充分考虑隐写文本自动生成过程中各个词敏感度的不同，在文本生成过程中自适应调整每个词的嵌入容量，因此相比之前的方法能进一步优化生成隐写文本的质量。

由以上可以知道，利用循环神经网络进行文本生成式隐写具有现有方法所不可比拟的优势，能有效克服现有方法中存在的问题，各方面性能都优于现有方法。

正是基于上述原因，本发明实施例提出了一种基于容量自适应收缩机制载体生成式文本隐写方法及装置。

下面参照附图描述根据本发明实施例提出的基于容量自适应收缩机制载体生成式文本隐写方法及装置，首先将参照附图描述根据本发明实施例提出的基于容量自适应收缩机制载体生成式文本隐写方法。

图2是本发明一个实施例的基于容量自适应收缩机制载体生成式文本隐写方法的流程图。

如图2所示，该基于容量自适应收缩机制载体生成式文本隐写方法包括以下步骤：

步骤S1，对目标文本进行建模，并利用循环神经网络模型从目标文本中训练得到统计语言模型，以根据统计语言模型统计目标文本中每个词在每个时刻的条件概率分布。

可以理解的是，本发明实施例可以对对自然文本进行建模，利用神经网络的自学习能力从大量样本中训练统计语言模型，并估计每个时刻的条件概率分布。

进一步地，在本发明的一个实施例中，对目标文本进行建模之前，还包括：搜集多个自然文本构建文本数据集；对文本数据集进行预处理，以将文本数据集中的中文进行分词、英文的所有单词转换为小写、删除特殊符号、表情符号和网络连接且过滤低频词之后得到目标文本。

可以理解的是，(1)通过网上搜集获得大量常见自然文本构建大型文本数据集作为训练集；(2)对数据进行预处理，中文需要分词，英文需要将所有单词转换为小写，删除特殊符号、表情符号和网络链接，过滤低频词。

进一步地，在本发明的一个实施例中，步骤S1，进一步包括：步骤S11，对目标文本进行建模，并构建相应的循环神经网络模型；步骤S12，通过目标文本训练循环神经网络模型，并利用反向传播算法不断优化循环神经网络模型的参数和性能；步骤S13，每个预设时间测试循环神经网络模型的loss值，在loss值满足调整条件时，根据loss值调整循环神经网络模型的训练策略；步骤S14，重复执行步骤S12和步骤S13，直到循环神经网络模型的参数和性能达到预设稳定条件，以得到训练好的循环神经网络模型；步骤S15，统计目标文本中每个句子的第一个词的词频分布，并按照词频降序的顺序从词频最高的词开始依次选择预设数量的词构成first_word_list；步骤S16，每次生成一句隐写文本时，随机从first_word_list中选择一个词作为训练好的循环神经网络模型的输入；步骤S17，利用训练好的循环神经网络模型学习得到统计语言模型，根据统计语言模型和随机选择的词迭代式计算得到目标文本中每个词在每个时刻的条件概率分布。

需要说明的是，预设时间、预设稳定条件和预设数量，本领域技术人员均可以根据实际情况进行设置，在此不做具体限定。

可以理解的是，(3)对自然文本进行建模，并构建相应的循环神经网络模型。

(4)通过利用大量的训练文本训练神经网络模型，利用反向传播算法不断优化模型参数和性能。

(5)每间隔一段时间测试模型的loss值，根据loss值调整模型训练策略如学习率等。

(6)重复步骤(4)～(5)，直到神经网络模型参数和性能达到稳定。

(7)统计训练样本中每个句子第一个词的词频分布，并选择词频最高的前100个词构成first_word_list。

(8)每次生成一句隐写文本时，随机从first_word_list中选择一个词作为训练好的循环神经网络模型的输入。

(9)利用神经网络学习到的语言模型，以及给定第一个词，迭代式计算各个时刻动态条件概率分布。

具体而言，如图3所示，基于RNN的文本自动生成

在文本自动生成过程中，本方法主要利用RNN在序列信号特征提取和表达方面的强大能力，结合前t-1个时间的信号，计算在时刻t时信号的概率分布，如下面公式所示：

y_t＝f_LSTM(x_t|x₁，x₂，…，x_t-1).

如前，每个句子S可以被视为序列信号，第i个单词可以被视为第i个时间的信号。当使用LSTM生成句子时，在第i个时间点需要输入句子S的第i个单词。所使用的神经网络的第一层是嵌入层，它将每个单词映射到一个维度为d的密集语义空间，即对于每个句子S，可以使用矩阵S∈R^L×d表示，其中第i行表示句子S中的第i个单词，L是它的长度，即

通常，循环神经网络由多层组成，每层具有多个LSTM单元。本方法中使用n_j来表示第j个隐藏层U_j的LSTM单元数，第j层的单元可以表示为：

对于第一个隐藏层，单元在第t个时间的输入是Word_St中元素的加权和，即

其中和是已知的权重和偏差。在第t个时间，的输出值是：

可以使用向量来表示在第t个时间的第j个隐藏层的输出，中的每个元素表示在第t个时间的第j个隐藏层中的单元的输出值，即：

之前工作表明，在一定范围内，空间中神经网络层数越多，模型提取和表达特征的能力就越强。因此，本方法利用多层LSTM单元搭建网络模型。相邻的隐藏层可以通过传递矩阵连接。例如，第l层和第(l+1)层之间的转移矩阵可以表示为矩阵

第t个时间的第l个隐藏层中的每个单元的输入是前一层中单元的输出值的加权和，即：

在第t个时间的第l层的输出是：

如前，第t个时间的输出不仅取决于当前时间x_t的输入向量，而且取决于先前(t-1)个时刻的单元中的向量。因此，第t个时间的第l个隐藏层的输出可以被视为前t个时刻的总结，即，先前的t个单词{Word1,Word2,...,Wordt}的信息融合。基于这些特征，本方法在模型所有隐藏层之后添加softmax层来计算第(t+1)个词的概率分布。准确地说，是将预测权重(PW)定义为矩阵即：

其中N表示字典D中的单词数。本方法使用该已知矩阵W_P来计算字典D中每个单词的分数，即：

其中W_P和b^p是已知的权重矩阵和偏差，权重矩阵W_P中的值反映了o^l中每个特征的重要性，输出向量y的维数为N。为了计算每个时刻下一个单词的概率，本方法参考前人的工作，将softmax分类器添加到输出层来计算每个单词的可能概率：

神经网络的所有参数，包括每个词向量，都需要通过训练获得。为了获得与训练样本一致的统计语言模型，本方法将整个网络的损失函数定义为每个句子的统计概率的负对数：

在训练过程中，本方法使用反向传播算法更新网络参数，通过网络的迭代优化从而最小化损失函数。最后将得到最大程度符合训练样本的统计特征的语言模型。

步骤S2，通过对条件概率分布进行基于容量自适应收缩的可变长度编码，以隐藏每个词的秘密比特流。

可以理解的是，本发明实施例可以对条件概率分布进行基于容量自适应收缩的可变长度编码来实现秘密比特流的隐藏。

进一步地，在本发明的一个实施例中，步骤S2，进一步包括：步骤S21，在每个迭代步骤T，按照每个词的条件概率降序排列，并根据统计语言模型计算得到每个词结合前T-1个词时整个句子的得分；步骤S22，在整个句子的得分达到预设阈值时停止迭代，并确定迭代过程中候选词的数量；步骤S23，确定候选池的大小后，根据候选池中各个词的条件概率构建哈夫曼树并进行哈夫曼编码；步骤S24，根据需要嵌入的码流从构建的哈夫曼树的根结点开始搜索，直到搜索到相应的叶子结点对应的词作为当前时刻的输出，以实现隐藏秘密比特流的能力；步骤S25，重复执行步骤S16、步骤S17、步骤S21至步骤S24，直到生成一个完整的隐写句子，完成根据秘密信息自动生成文本载体的过程。

可以理解的是，根据上述可得步骤(8)和步骤(9)，在上述步骤的基础上进一步包括：

(10)在每个迭代步骤T，根据各个词的条件概率依降序排列，并根据训练好的统计语言模型计算每个词结合前T-1个词时整个句子的得分。

(11)经过多次实验，对句子的得分设定一定的阈值，因此每步迭代过程中候选词的数量是不固定，具有自适应收缩的性质。

(12)确定候选池的大小后，根据候选池中各个词的条件概率构建哈夫曼树并进行哈夫曼编码。

(13)根据需要嵌入的码流从构建的哈夫曼树的根结点开始搜索，直到搜索到相应的叶子结点对应的词作为当前时刻的输出，以实现隐藏秘密比特流的能力。

(14)重复步骤(8)～(13)，直到生成一个完整的隐写句子，完成根据秘密信息自动生成文本载体的过程。

(15)接收方在接收到模型生成的隐写文本后，对其进行解码并获取机密消息。

具体而言，如图3所示，信息隐藏算法，本方法主要基于单词的条件概率分布对其进行编码，即p(w_n|w₁,w₂,...,w_n-1)，以形成从二进制比特流到字空间的映射关系。本方法主要基于以下事实：当模型训练结果良好时，每个时间点都有多于一个可行的解决方案。在降序排序字典D中所有单词的预测概率之后，可以根据语言模型的得分阈值选择单词来构建候选池(CP)。句子得分的公式为：

当得分低于阈值时，候选词在候选池中；高于阈值，则不在候选池中,即：

如果对于当前时刻生成的词，符合条件的候选词个数为m，那么CP可以写为：

CP＝[c₁，c₂，...，c_m].

根据LSTM输出表达式，在每个时刻选择不同的单词，在下一时间单词的概率分布也会不同。构建完候选池之后，需要找到一种有效的编码方法来对其中的单词进行编码。本方法基于哈夫曼树的对单词进行VLC(variable length coder，可变长度编码)。哈夫曼树在构造过程中会考虑每个符号的概率分布，并且可以使得具有更高概率的符号所需的编码长度更短。本方法用树的每个叶节点表示候选池中的每个字，边连接每个非叶子节点(包括根节点)，然后它们的两个子节点分别用0和1编码，左边为0，右边为1，如图4所示。

VLC的优点在于充分考虑了每个单词的条件概率分布的差异，这使得具有更高概率的单词更容易被选择，从而使得生成的文本的质量更好。但缺点是VLC需要在生成过程的每一次迭代都需要构建一个哈夫曼树，这将极大地影响生成效率。

在候选池中的单词全部编码完成之后，根据需要隐藏的二进制码流，选择对应的叶节点作为当前时间的输出。值得注意的是，在隐藏信息之前，必须首先确定每个时刻的候选池的大小(CPS)，这个大小用m表示。候选池可以根据语言模型得分阈值实现自适应收缩。在每个迭代步骤T中，根据各个词的条件概率降序排列，根据训练好的统计语言模型计算每个词结合前T-1个词时整个句子的得分。经过多次实验确定得分的阈值，根据阈值确定候选池，从而实现候选池容量自适应收缩。之后进行可变长度编码，根据候选池中单词的概率分布构造一个哈夫曼树。在VLC的信息隐藏过程中，依次读取每个时刻需要隐藏的比特流，然后按顺序从哈夫曼树的根节点搜索直到搜索到叶节点。结点对应的词即为当前时刻的输出。在所有机密信息嵌入完毕之后，模型将在后续的每次迭代中选择并输出具有最高概率的单词以保证所生成的句子的质量。

为了避免两个相同的比特序列产生相同的句子文本，本方法构造了一个关键字列表，计算了文本数据集中每个句子第一个单词的频率。在按降序排序之后，选择100个最常用的单词来形成关键字列表first_word_list。在生成过程中，随机选择first_word_list中的单词作为生成的隐写句子的开头。这样一来，即使输入相同的比特流，由于第一个单词是随机选择的，后续每一个单词的条件概率分布不一致，得到的句子也会完全不同。

信息隐藏方法的算法细节在算法1中展示。利用该方法，可以根据输入的秘密比特流生成大量自然的语句。这些生成的文本可以通过开放渠道发送，以达到隐藏和发送机密信息的目的。

算法1信息隐藏算法

输入：

秘密比特流：B＝{0,0,1,0,1,...,0,1,0}

候选池(CPS)：m

关键词列表：A＝{key₁,key₂,...,key_F}

输出：

多个生成的隐写文本：

Text＝{S₁,S₂,...,S_N}

1、准备数据，训练RNN模型；

2、当B未结束时：

3、如果非当前句子的末尾：

4、根据已生成的单词，使用训练好的RNN来计算下一个单词的概率分布；

5、降序排序所有单词的预测概率并且根据训练好的统计语言模型计算该词结合前T-1个词时整个句子的得分；

6、对句子得分设定一定的阈值，确定m，构造可自适应收缩的候选池；

7、根据每一个单词在候选池中的条件概率构建哈夫曼树并进行变长编码；

8、读取二进制比特流，根据编码规则从树的根节点开始搜索，找到相应的叶节点后输出其对应的单词；

9、否则：

10、在关键词列表A中随机选择一个关键词Key_i作为下一个句子的起始；

11、如果非当前句子的末尾：

12、选择候选池外概率最高的单词作为当前时刻的输出；

13、选择每个时刻概率最高的单词作为输出直到句子结尾；

14、返回生成的句子。

步骤S3，根据每个词的隐藏秘密比特流生成目标文本的隐写文本。

步骤S4，在接收到隐写文本之后，对隐写文本进行解码并获取隐写文本的机密消息。

可以理解的是，本发明实施例在接收到嵌入了隐蔽信息的自然文本后，对其进行解码并获取机密消息。

具体而言，如图3所示，信息提取算法，信息隐藏和提取是两个相反的操作。在接收到发送的句子之后，接受方需要正确地解码其包含的机密信息。信息隐藏和提取的过程基本相同。需要使用相同的RNN模型来计算每个时刻每个单词的条件概率分布，构造相同的候选池并使用相同的编码方法对候选池中的单词进行编码。

在接收到文本之后，接收方将每个句子的第一个单词作为关键字输入到RNN中，RNN将依次计算后续每个时间点的单词的分布概率。在每个时间点，在获得当前单词的概率分布后，接收方首先按概率降序排序字典中的所有的单词，基于相同的语言模型得分阈值选择前m个单词以形成候选池。然后，根据相同的规则构建哈夫曼树，对候选池中的单词进行编码。最后，根据当前时刻实际发送的单词，确定相应叶节点到根节点的路径，从而成功并准确地解码隐藏在当前字中的比特。通过这种方式，可以非常快速且无误地提取隐藏在原始文本中的比特流。

算法2信息提取算法

输入：

多个生成的句子：Text＝{S₁,S₂,...,S_N}

候选池的大小(CPS)：m

输出：

秘密比特流：B＝{0,0,1,0,1,...,0,1,0}

1、对于文本中的每一个句子S，进行：

2、在训练好的RNN模型中输入句子S的第一个单词作为密钥；

3、对于Word_i句子S中的每个单词S进行：

4、根据前面的单词，使用训练好的RNN来计算下一个单词的概率分布；

5、降序排序所有单词的预测概率，并选择前m个单词来构造候选池(CP)；

6、使用可变长度编码对候选池中的单词进行编码；

7、如果Wordi在CP中，那么：

8、根据在每一时刻实际接受的单词Wordi，确定从根节点到叶子节点的路径；

9、根据树编码规则，即子节点的左侧为0，右侧为1，提取相应的比特流并附加到B；

10、否则：

11、信息提取过程结束；

12、返回提取的秘密比特流B。

根据本发明实施例提出的基于容量自适应收缩机制载体生成式文本隐写方法，利用大量样本构建模型，对统计语言模型进行了很好的估计。根据训练好的统计语言模型，能够自动生成高质量的文本。在文本生成过程中，基于其条件概率分布合理地对每个单词进行编码，根据语言模型的概率值阈值实现候选池自适应收缩，然后根据比特流控制文本生成，从而可以有效提高生成隐写文本的质量，提升系统隐蔽性。

其次参照附图描述根据本发明实施例提出的基于容量自适应收缩机制载体生成式文本隐写装置。

图5是本发明一个实施例的基于容量自适应收缩机制载体生成式文本隐写装置的结构示意图。

如图5所示，该基于容量自适应收缩机制载体生成式文本隐写装置10包括：文本自动生成模块100、信息隐藏模块200和隐写文本生成模块300。

其中，文本自动生成模块100用于对目标文本进行建模，并利用循环神经网络模型从目标文本中训练得到统计语言模型，以根据统计语言模型统计目标文本中每个词在每个时刻的条件概率分布。信息隐藏模块200用于通过对条件概率分布进行基于容量自适应收缩的可变长度编码，以隐藏每个词的秘密比特流。隐写文本生成模块300用于根据每个词的隐藏秘密比特流生成目标文本的隐写文本。本发明实施例的装置10基于载体生成的隐写术，它可以根据需要隐藏的秘密比特流，利用容量自适应收缩机制，自动生成高质量的隐写文本。

进一步地，在本发明的一个实施例中，本发明实施例的装置10还包括：信息提取模块。其中，信息提取模块用于在接收到隐写文本之后，对隐写文本进行解码并获取隐写文本的机密消息。

进一步地，在本发明的一个实施例中，本发明实施例的装置10还包括：预处理模块。其中，预处理模块用于搜集多个自然文本构建文本数据集，并对文本数据集进行预处理，以将文本数据集中的中文进行分词、英文的所有单词转换为小写、删除特殊符号、表情符号和网络连接且过滤低频词之后得到目标文本。

进一步地，在本发明的一个实施例中，文本自动生成模块100进一步包括：建模单元、训练单元、调整单元、第一重复单元、统计单元、随机选择单元和迭代单元。

其中，建模单元，用于对目标文本进行建模，并构建相应的循环神经网络模型；训练单元，通过目标文本训练循环神经网络模型，并利用反向传播算法不断优化循环神经网络模型的参数和性能；调整单元，用于每个预设时间测试循环神经网络模型的loss值，在loss值满足调整条件时，根据loss值调整循环神经网络模型的训练策略；第一重复单元，用于重复执行训练单元和调整单元，直到循环神经网络模型的参数和性能达到预设稳定条件，以得到训练好的循环神经网络模型；统计单元，用于统计目标文本中每个句子的第一个词的词频分布，并按照词频降序的顺序从词频最高的词开始依次选择预设数量的词构成first_word_list；随机选择单元，用于每次生成一句隐写文本时，随机从first_word_list中选择一个词作为训练好的循环神经网络模型的输入；迭代单元，用于利用训练好的循环神经网络模型学习得到统计语言模型，根据统计语言模型和随机选择的词迭代式计算得到目标文本中每个词在每个时刻的条件概率分布。

进一步地，在本发明的一个实施例中，信息隐藏模块200进一步包括计算单元、确定单元、构建单元、搜索单元、第二重复单元。

其中，计算单元，用于在每个迭代步骤T，按照每个词的条件概率降序排列，并根据统计语言模型计算得到每个词结合前T-1个词时整个句子的得分。确定单元，用于在整个句子的得分达到预设阈值时停止迭代，并确定迭代过程中候选词的数量。构建单元，用于在确定候选池的大小后，根据候选池中各个词的条件概率构建哈夫曼树并进行哈夫曼编码。搜索单元，用于根据需要嵌入的码流从构建的哈夫曼树的根结点开始搜索，直到搜索到相应的叶子结点对应的词作为当前时刻的输出，以实现隐藏秘密比特流的能力。第二重复单元，重复依次执行随机选择单元、迭代单元、计算单元、确定单元、构建单元和搜索单元，直到生成一个完整的隐写句子，完成根据秘密信息自动生成文本载体的过程。

需要说明的是，前述对基于容量自适应收缩机制载体生成式文本隐写方法实施例的解释说明也适用于该实施例的基于容量自适应收缩机制载体生成式文本隐写装置，此处不再赘述。

根据本发明实施例提出的基于容量自适应收缩机制载体生成式文本隐写装置，利用大量样本构建模型，对统计语言模型进行了很好的估计。根据训练好的统计语言模型，能够自动生成高质量的文本。在文本生成过程中，基于其条件概率分布合理地对每个单词进行编码，根据语言模型的概率值阈值实现候选池自适应收缩，然后根据比特流控制文本生成，从而可以有效提高生成隐写文本的质量，提升系统隐蔽性。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于容量自适应收缩机制载体生成式文本隐写方法，其特征在于，包括以下步骤：

步骤S1，对目标文本进行建模，并利用循环神经网络模型从所述目标文本中训练得到统计语言模型，以根据所述统计语言模型统计所述目标文本中每个词在每个时刻的条件概率分布；

步骤S2，通过对所述条件概率分布进行基于容量自适应收缩的可变长度编码，以隐藏每个词的秘密比特流；以及

步骤S3，根据每个词的隐藏秘密比特流生成所述目标文本的隐写文本。

2.根据权利要求1所述的基于容量自适应收缩机制载体生成式文本隐写方法，其特征在于，还包括：

步骤S4，在接收到所述隐写文本之后，对所述隐写文本进行解码并获取所述隐写文本的机密消息。

3.根据权利要求1所述的基于容量自适应收缩机制载体生成式文本隐写方法，其特征在于，对目标文本进行建模之前，还包括：

搜集多个自然文本构建文本数据集；

对所述文本数据集进行预处理，以将所述文本数据集中的中文进行分词、英文的所有单词转换为小写、删除特殊符号、表情符号和网络连接且过滤低频词之后得到所述目标文本。

4.根据权利要求1所述的基于容量自适应收缩机制载体生成式文本隐写方法，其特征在于，所述步骤S1，进一步包括：

步骤S11，对所述目标文本进行建模，并构建相应的所述循环神经网络模型；

步骤S12，通过所述目标文本训练所述循环神经网络模型，并利用反向传播算法不断优化循环神经网络模型的参数和性能；

步骤S13，每个预设时间测试所述循环神经网络模型的loss值，在所述loss值满足调整条件时，根据所述loss值调整所述循环神经网络模型的训练策略；

步骤S14，重复执行所述步骤S12和所述步骤S13，直到所述循环神经网络模型的参数和性能达到预设稳定条件，以得到训练好的循环神经网络模型；

步骤S15，统计所述目标文本中每个句子的第一个词的词频分布，并按照词频降序的顺序从词频最高的词开始依次选择预设数量的词构成first_word_list；

步骤S16，每次生成一句隐写文本时，随机从所述first_word_list中选择一个词作为所述训练好的循环神经网络模型的输入；

步骤S17，利用所述训练好的循环神经网络模型学习得到所述统计语言模型，根据所述统计语言模型和随机选择的词迭代式计算得到所述目标文本中每个词在每个时刻的条件概率分布。

5.根据权利要求4所述的基于容量自适应收缩机制载体生成式文本隐写方法，其特征在于，所述步骤S2，进一步包括：

步骤S21，在每个迭代步骤T，按照每个词的条件概率降序排列，并根据所述统计语言模型计算得到每个词结合前T-1个词时整个句子的得分；

步骤S22，在所述整个句子的得分达到预设阈值时停止迭代，并确定迭代过程中候选词的数量；

步骤S23，确定候选池的大小后，根据候选池中各个词的条件概率构建哈夫曼树并进行哈夫曼编码；

步骤S24，根据需要嵌入的码流从构建的哈夫曼树的根结点开始搜索，直到搜索到相应的叶子结点对应的词作为当前时刻的输出，以实现隐藏秘密比特流的能力；

步骤S25，重复执行所述步骤S16、所述步骤S17、所述步骤S21至所述步骤S24，直到生成一个完整的隐写句子，完成根据秘密信息自动生成文本载体的过程。

6.一种基于容量自适应收缩机制载体生成式文本隐写装置，其特征在于，包括：

文本自动生成模块，用于对目标文本进行建模，并利用循环神经网络模型从所述目标文本中训练得到统计语言模型，以根据所述统计语言模型统计所述目标文本中每个词在每个时刻的条件概率分布；

信息隐藏模块，用于通过对所述条件概率分布进行基于容量自适应收缩的可变长度编码，以隐藏每个词的秘密比特流；以及

隐写文本生成模块，用于根据每个词的隐藏秘密比特流生成所述目标文本的隐写文本。

7.根据权利要求1所述的基于容量自适应收缩机制载体生成式文本隐写装置，其特征在于，还包括：

信息提取模块，用于在接收到所述隐写文本之后，对所述隐写文本进行解码并获取所述隐写文本的机密消息。

8.根据权利要求6所述的基于容量自适应收缩机制载体生成式文本隐写装置，其特征在于，还包括：

预处理模块，用于搜集多个自然文本构建文本数据集，并对所述文本数据集进行预处理，以将所述文本数据集中的中文进行分词、英文的所有单词转换为小写、删除特殊符号、表情符号和网络连接且过滤低频词之后得到所述目标文本。

9.根据权利要求1所述的基于容量自适应收缩机制载体生成式文本隐写装置，其特征在于，所述文本自动生成模块，进一步包括：

建模单元，用于对所述目标文本进行建模，并构建相应的所述循环神经网络模型；

训练单元，通过所述目标文本训练所述循环神经网络模型，并利用反向传播算法不断优化循环神经网络模型的参数和性能；

调整单元，用于每个预设时间测试所述循环神经网络模型的loss值，在所述loss值满足调整条件时，根据所述loss值调整所述循环神经网络模型的训练策略；

第一重复单元，用于重复执行所述训练单元和所述调整单元，直到所述循环神经网络模型的参数和性能达到预设稳定条件，以得到训练好的循环神经网络模型；

统计单元，用于统计所述目标文本中每个句子的第一个词的词频分布，并按照词频降序的顺序从词频最高的词开始依次选择预设数量的词构成first_word_list；

随机选择单元，用于每次生成一句隐写文本时，随机从所述first_word_list中选择一个词作为所述训练好的循环神经网络模型的输入；

迭代单元，用于利用所述训练好的循环神经网络模型学习得到所述统计语言模型，根据所述统计语言模型和随机选择的词迭代式计算得到所述目标文本中每个词在每个时刻的条件概率分布。

10.根据权利要求9所述的基于容量自适应收缩机制载体生成式文本隐写装置，其特征在于，所述信息隐藏模块，进一步包括：

计算单元，用于在每个迭代步骤T，按照每个词的条件概率降序排列，并根据所述统计语言模型计算得到每个词结合前T-1个词时整个句子的得分；

确定单元，用于在所述整个句子的得分达到预设阈值时停止迭代，并确定迭代过程中候选词的数量；

构建单元，用于在确定候选池的大小后，根据候选池中各个词的条件概率构建哈夫曼树并进行哈夫曼编码；

搜索单元，用于根据需要嵌入的码流从构建的哈夫曼树的根结点开始搜索，直到搜索到相应的叶子结点对应的词作为当前时刻的输出，以实现隐藏秘密比特流的能力；

第二重复单元，重复依次执行所述随机选择单元、所述迭代单元、所述计算单元、所述确定单元、所述构建单元和所述搜索单元，直到生成一个完整的隐写句子，完成根据秘密信息自动生成文本载体的过程。