CN110543771A

CN110543771A - 基于困惑度计算的高隐蔽性自动生成文本的隐写方法

Info

Publication number: CN110543771A
Application number: CN201910301979.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-12-06
Anticipated expiration: 2039-04-08
Also published as: CN110543771B

Abstract

本发明公开了基于困惑度计算的高隐蔽性自动生成文本的隐写方法，该方法可以根据需要隐藏的秘密比特流生成高隐蔽性的文本载体。区别于以往的文本隐写方法，本方法的创新点在于充分利用候选池中文本的出现频率，使生成的隐写文本具有更高的隐蔽性。该方法在隐写文本自动生成过程中，考虑了隐写文本中单词的灵敏度不同，引入困惑度计算，对候选池进行二次筛选，提升了生成的隐写文本的自然度，从而大幅度提升了系统整体的隐蔽性。

Description

基于困惑度计算的高隐蔽性自动生成文本的隐写方法

技术领域

本发明涉及信息隐藏、自动文本生成、大数据、自然语言处理等领域，特别涉及一种高隐蔽性自动生成隐写文本的方法。

背景技术

最早提出“大数据时代到来”的，是全球顶级管理咨询公司麦肯锡。这些海量的数据来源于世界各地随时产生的数据。在大数据时代，任何微小的数据都可能产生巨大的价值。大数据有四个特点，分别为Volume(大量)、Variety (多样)、Velocity(高速)、Value(价值)。

在大数据时代，信息的安全性是研究学者研究的热点。隐写术是网络和信息安全领域一项重要的研究课题，也是信息隐藏中的关键技术之一。它起源于古希腊，是一种降低攻击者发现秘密信息存在性的信息安全技术。隐写术将秘密信息嵌入到常见的载体，并利用公共信道传输，以此来降低秘密信息的可感知性，从而不容易被怀疑和攻击。隐写术由于其极强的信息隐藏能力，在执法和情报机关、保护商业机密国防安全方面发挥着重要作用。

加密技术是一种第三方不可获知发送方与接收方之间传输数据意义的信息安全技术。与加密技术相比，首先，虽然隐写术和加密技术都在载体中隐藏信息，但隐写术的主要目标是隐藏信息的存在，而加密技术主要目标是使通过对信息加密，使信息变得无意义；其次，尽管现如今的哈希算法可以通过哈希算法对明文进行安全传输，但是原文通过hash后的值几乎无法推到原文。隐写术不但能够将秘密信息完整的嵌入，也可将秘密信息进行完整的提取。并且可以嵌入尽可能大的信息量；最后，隐藏系统中的隐藏信息通常是不规律的，但是加密系统中的的加密过程通常是有规律的。

文本数据是大数据时代的核心数据种类之一，在各个领域不同涌现。实际问题中产生的文本数据常常遵循一种特殊的语言模式，对这类文本数据的处理有着重大的意义。文本信息隐藏是指将秘密信息隐藏到公开传递的文本文件中，以实现秘密信息的隐蔽传递，是多媒体信息隐藏研究的一个重要领域。文本信息隐藏技术框架如图1所示。早期的文本信息隐藏依赖于文体格式和书写方式的多样性。这些方法易受到重新排列攻击和针对文本格式的异常检测。随即出现了基于载体文本语义替换技术的文本信息隐藏方法。此类方法利用文本的语法特性和语义信息等开放的模型，在保持文本自然语言形式的同时，嵌入秘密信息。通过该方法产生的隐写文本可读性受损且隐藏容量低。

目前，自然语言处理技术越来越趋于成熟，有大量的研究成果将自然语言处理技术与信息隐藏相结合。此类方法多是通过既定规则产生文本，但是忽略了生成文本的连贯性和自然度。与图像和语音相比，文本这种载体任何微小的扰动都能产生可感知的变化。它的信息冗余性较低，不容易实现高隐藏容量的要求。自动生成隐写文本的信息隐藏方法，根据需要传递的秘密信息生成隐写文本。这种方法实现了高隐藏容量的目标，吸引了大量研究人员的兴趣。但由于信息隐藏本身需要不断降低传输目标的可感知性，设计生成大量符合自然语言形式的文本，已成为该领域极具挑战性的问题。

自然语言处理是计算机科学领域以及人工智能领域的一个重要的方向，用于研究通过计算机来处理、理解以及运用人类语言，达到人机间的有效通讯。在人类社会中，语言扮演了重要的角色。一般情况下，用户无法理解机器语言，自然语言处理技术可以帮助用于使用自然语言与机器交流。机器学习近年来被大规模应用在各种领域，特别是自然语言处理领域。该技术主要通过对自然语言建模，寻找一个函数，输出期望的结果。在建模的过程中，自然语言可以被定义为一组规则或符号的集合，通过组合集合中的符号来哦传递各种信息。近些年，自然语言技术取得了长足的进步，逐渐发展为一门独立的学科。

在文本建模的过程中，通常将一个独立的句子看作一串单词序列，使用语言模型建模。马尔可夫过程是具有无后效性的随机过程。该过程的主要思想为：当过程在时刻t_m的状态为已知时，过程在t_m时刻之后所处状态的概率特性只与过程在t_m时刻所处的状态有关，而与过程在t_m时刻之前的状态无关。用公式表示为：

P(X_t+1＝s_k|X₁，X₂，...，X_t)＝P(X_t+1＝s_k|X_t)

其中，X＝{X₁，X₂，...，X_T}是一组随机序列，角标t代表该状态所对应的时刻。

在公式中，t+1时刻的状态仅与t时刻的状态有关。在文本中，一句话中的每一个单词都有前文有着密切的关系，基于训练集进行函数的查找时不能仅用前一个单词的状态。因此，我们采用Tri-Gram模型，即第n个词出现的概率与前两个词相关，而与其他任何词不相关。将单词出现的频率作为马尔可夫模型中的转移概率。Tri-Gram模型如图2所示，用公式表示如下：

P(X_t+1＝s_k|X₁，X₂，...，X_t)＝P(X_t+1＝s_k|X_t，X_t-1)

Perplexity是用在自然语言处理领域中，衡量语言模型好坏的指标。一个语言概率模型可以看成是在整过句子或者文段上的概率分布。它主要是根据每个词的概率估计一句话出现的概率，并通过该句子的长度作为标准。 Perplexity的计算公式如下：

S代表句子，N是句子长度，P(w_i)是第i个单词出现的概率。在计算Tri-Gram 的perplexity时，通常采用Perplexity的另一种计算方式：

从公式可知，PPL的值越小，P(w_i)则越大，一句我们期望的句子出现的概率越高，该生成文本的自然程度越高。

由于马尔可夫模型适用于建模时间序列信号的特性，该模型被广泛应用中词性自动标注、语音识别、文本生成等自然语言处理领域。它只需认为设定滑动窗口大小，即与该时刻之前几个状态相关，便可以从海量文本数据中自动学习，重构出高质量的自然文本。在现有的基于马尔可夫模型进行文本生成的过程中，对生成文本与前文之间的自然程度上不够重视。尽管相关研究可以通过预设候选池的大小对相关时刻生成的单词进行初步的筛选，但仅依靠此不足以实现候选池中单词与前文的相关性。本发明通过马尔可夫模型，在生成隐写文本的过程中加入perplexity的计算，充分考虑生成的隐写文本与前文的自然程度。在文本生成的过程中，通过预设perplexity的阈值，对候选池进行二次筛选，精细控制每个单词的隐藏能力。因此，与之前的方法相比，能进一步优化生成的隐写文本的自然程度，提高了隐写文本的不可感知性。

由以上可以知道，利用马尔可夫模型、perplexity计算和哈夫曼编码进行的自动生成隐写文本的方法，具有现有方法所不可比拟的优势，能有效克服现有方法中存在的问题，各方面性能都优于现有方法。

发明内容

本发明提出了基于困惑度计算的高隐蔽性自动生成文本的隐写方法，它属于基于文本自动生成的隐写术。它可以根据需要隐藏的秘密比特流，通过 perplexity计算的筛选机制，自动生成高质量的隐写文本。本发明通过对海量文本数据的模型构建，对统计语言模型进行了很好的估计。在文本生成过程中，基于其条件概率分布进行初步筛选，再根据预设的ppl阈值对候选池进行二次筛选，然后根据比特流控制文本生成。通过这种方式，与其他方法相比，本模型可以提高隐写文本的自然程度，提升隐写文本的不可感知性。为实现上述目的，本方法包含以下步骤：

(1)通过网上搜集的大量常用媒体形式的文本构建数据集；

(2)对数据进行预处理，删除文本中的特殊符号、表情符号等，过滤低频词，并将英文中的所有单词转换为小写；

(3)对自然文本进行建模，并构建相应的马尔可夫模型；

(4)按照三元模型对构建的文本数据集进行训练，并按照词语出现的次数降序排序为一个字典T；

(5)统计数据集中的第一个词的词频分布，按照词频降序排序后，选取前200个作为起始词列表；

(6)在生成一句话之前，先从起始词列表中随机抽取一个单词作为马尔可夫模型的输入；

(7)基于马尔可夫模型计算各个时刻单词的条件概率分布，根据给定候选池大小embedding_rate对字典T进行第一次筛选，筛选后的字典为T1；

(8)在每个迭代时刻t，依据字典T1中各单词的条件概率计算T1中单词与t时刻之前产生的单词共同的困惑度；

(9)根据预设的困惑度阈值thr_ppl对字典T1进行二次筛选，筛选过后的字典为T2；

(10)若筛选后的字典T2为空，即视作该字典不具备隐藏秘密信息的能力，在选词的过程中，直接选取字典T1中出现频率最多的单词作为当前时刻的输出；

(11)若筛选后的字典T2非空，则依据字典T2中各单词的条件概率分布构建哈夫曼树并进行哈夫曼编码；

(12)根据需要嵌入的码流从哈夫曼树的根节点开始搜索，到相应的叶子结点为止，该叶子结点对应的单词即为当前时刻的输出，基于此实现在自动生成文本的过程中隐藏秘密信息；

(13)重复步骤(7)～(12)，直到生成一个完整的隐写句子，完成根据秘密信息自动生成文本载体的过程；

(14)接收方在接收到模型生成的隐写文本后，对其进行解码并获取机密消息。

为了保证在实现大容量文本信息隐藏的同时提高生成隐写本的隐蔽性，本实验通过perpexity计算对马尔可夫模型产生的候选池进行二次筛选，同时采用哈夫曼进行编码。该实验可以根据需要嵌入的秘密信息自动生成高隐蔽性的自然文本。下面将描述模型的细节，主要包括三个模块：自动生成文本模块，秘密信息嵌入模块和秘密信息提取模块。自动生成文本模块通过对数据集中海量文本数据进行序列化建模，利用马尔可夫模型提取特征的能力训练语言模型，估计每个时刻的条件概率分布。秘密信息嵌入模块通过对条件概率分布的二次筛选，并利用哈夫曼编码实现秘密信息的隐藏。秘密信息提取模块通过模拟接收端，对嵌入秘密信息的隐写文本进行解码，获取秘密信息。

一、基于马尔可夫的文本自动生成

本发明主要利用了马尔可夫模型在序列信号建模时对信号的特征提取和表达方面的强大能力。在建模的过程中，实际上我们期望通过马尔可夫模型获得单词的良好语言模型估计。对于网上搜集的包含多个句子海量文本数据集，首先依据条件概率分布构建文本中出现的所有单词的字典T。字典T是通过 Tri-Gram模型进行构建。其中每个句子S可被视作序列信号，S中的第i个单词为时刻i的信号。

S＝{w₁，w₂，...，w_l}，w_i∈T

其中，w_i表示句子S中的第i个单词，l代表句子含有多少个单词。由于可将单词的条件概率分布近似作为马尔可夫的转移概率，为此我们需要计算每个单词的条件概率分布。对于Tri-Gram模型，我们使用数据集中每个单词出现的次数作为该单词的条件概率分布，根据Tri-Gram模型计算t时刻信号出现的概率。

其中，count(w_t-1，w_t-2，w_t)为短语(w_t-1，w_t-2，w_t)在数据集中出现的次数。理论上，该单词出现的次数越高，说明与前文联系关系越密切。在生成文本的过程中，通过对马尔可夫生成的条件概率分布进行筛选，得到相应时刻的输出。

二、秘密信息隐藏算法

在信息隐藏模块中，本方法主要基于对马尔可夫生成的字典T进行二次筛选，并对筛选过后的候选池进行编码。根据秘密信息比特流按照编码进行该时刻的输出，以达到信息隐藏的目的。理论上，当我们的数据集足够大的时，每个时间节点t存在多个待选单词。通过马尔可夫模型，我们可以依据降序排序对字典T中的单词进行排序，并根据需要嵌入的比特率对字典T进行一次筛选，得到筛选后的字典为T1。如我们使用3bit对T进行筛选，并使用cn表示T1中的第n个单词，那么得到的T1可写为：

T1＝[c1，c2，...，c8]

粗略的对候选池进行筛选之后，首先通过计算该时刻的输出与该时刻之前所生成所有单词的perplexity；其次通过预设的perplexity的阈值对T1进行精细的筛选，得到精细的候选池T2。此时t+1时刻的perplexity计算见公式。该过程如图3所示。

其中，{p₁，...，p_j}代表前t个时刻所有生成单词所出现的概率，p_t+1，j代表t+1 时刻预设候选池中，第j个单词所出现的概率，N代表前t+1时刻的总单词数。 ppl_t+1，j即为t+1时刻若选取第j个单词，该句子的前t+1时刻的perplexity 大小。通过得到的t+1时刻的perplexity大小与预设的阈值进行比较，就能得到筛选过后的字典T2。若T2的大小为0，表明根据t+1时刻的候选池单词计算得到的perpelexity全部大于预设值。此时，选取原候选池中出现次数最多的单词作为t+1时刻的输出，视作在t+1时刻并没有进行秘密信息的嵌入。

哈夫曼编码是一种最优的可变长度的编码。它的好处是在编码过程中充分考虑到了每个单词的条件概率分布，保证了出现次数多的单词编码的码长较短，出现次数少的单词编码的码长较长，并且使短码得到了充分利用。它的另一个特征是，在二元编码中，每次缩减信源的最后两个码字总是最后一位码元不同，前面各位码元相同。这两个主要特征保证了所得的哈夫曼码一定是最佳码。因此，本实验采用可适应的哈夫曼编码对筛选过后的T2进行编码。在对新的候选池进行哈夫曼编码时，如果对t+1时刻的单词编码，则将t时刻的单词视为哈夫曼树的根节点，t+1时刻新的候选池中的每个单词作为哈夫曼树的叶节点，将每个字节点用0和1进行编码，左边为0，右边为1。根据哈夫曼编码的规则，对 T2中的单词进行编码。当T2中的单词全部被编码之后，通过需要嵌入的秘密信息的二进制比特流选择相应的单词作为当前时刻的输出。由于文本的特殊性，不是每个单词都适合作为一句话的起始词。通过统计训练样本中的起始词出现频率，得到了起始词列表。在生成隐写文本的时候，随机选取起始词列表中的单词作为隐写文本的开头。图4展示了整个秘密信息嵌入的过程。

信息隐藏的算法细节在算法1中示出。通过该方法生成的隐写文本，在极大程度上保证了文本的自然程度和秘密信息的不可感知性。即便通过公共信道对文本进行传输，也不易被攻击者察觉，具有很高的隐蔽性。

三、秘密信息提取算法

秘密信息的嵌入和提取是两个相反的操作。当接收方接收到含有秘密信息的隐写文本之后，需要通过正确的解码方式提取秘密信息。值得注意的是，由于马尔可夫获取条件概率分布的特殊性，发送和接收双方需要同样的文本数据集进行条件概率分布的构建。信息提取时，首先通过马尔可夫模型计算每个时刻单词的条件概率分布，降序排列后，构建相同的字典T，并且通过统计训练样本中的起始词出现频率，降序排列取前200个词作为起始词列表。隐写文本的起始词即为解码的开始。其次，再通过嵌入的比特率n选取前2ⁿ个单词作为初步筛选后的字典T1。同时，对字典T1中的所有单词与该时刻之前生成的所有单词共同进行perplexity的计算，根据预设的perplexity阈值得到筛选过后的字典T2，并对字典T2中的单词进行哈夫曼树的构建。通过当前时刻的实际发送单词，确定相应的叶节点到根结点的路径，以便能够正确的提取当前时刻单词中嵌入的比特。若T2中不能找到该时刻的实际发送单词，即说明该单词没有嵌入秘密信息。所提出的信息提取方法的算法细节如算法2所示。通过这种方式，可以准确无误地提取出嵌入在隐写文本中的秘密信息。

算法1秘密信息隐藏算法

输入：

秘密比特流：B＝{0，0，1，0，1，...，0，1，0}

嵌入率：n

起始词列表：start_word＝{word₁，word₂，…，word₂₀₀}

Perplexity阈值：m

输出：

多个生成的隐写文本：

Text＝{S₁，S₂，…，S_N}

1、准备数据，训练马尔可夫模型；

2、当B未结束时：

3、如果非当前句子的末尾：

4、根据已生成的单词，使用训练好的马尔可夫来计算下一个单词的概率分布，构建字典T；

5、降序排序所有单词的预测概率选择前2ⁿ个构建字典T1；

6、对T1中的候选词与该句话当前时刻之前的所有输出进行perplexity 计算，得到ppl_t+1，j；

7、如果ppl_t+1，i小于m：

8、选择该单词构建字典T2；

9、如果字典T2：

10、根据字典T2中每个单词的条件概率分布构建哈夫曼树；

11、读取B中的为比特流并搜索哈夫曼树，直到找到叶节点并输出当前时刻对应的单词；

12、否则：

13、选取字典T1中的第一个单词作为当前的输出；

14、从起始词列表中随机选择一个单词word_i作为下一句话的起始；

15、返回生成的句子

算法2秘密信息提取算法

输入：

多个生成的句子：Text＝{S₁，S₂，…，S_N}

嵌入率：n

Perplexity阈值：m

输出：

秘密比特流：B＝{0，0，1，0，1，…，0，1，0}

1、准备数据，训练马尔可夫模型；

2、当B未结束时：

3、如果非当前句子的末尾：

5、降序排序所有单词的预测概率选择前2ⁿ个构建字典T1；

7、如果ppl_t+1，i小于m：

8、选择该单词构建字典T2；

9、如果字典T2：

10、根据字典T2中每个单词的条件概率分布构建哈夫曼树；

11、读取句子的单词并找到对应于霍夫曼树中的单词，此时记录路径；

12、输出单词的对应编码是秘密信息比特流；

13、否则：

14、这个词没有编码；

15、提取相应的比特流并附加到B；

16、否则：

17、信息提取过程结束；

18、返回提取的秘密信息比特流B

附图说明

图1为文本信息隐藏结构框图；

图2为本发明使用的Tri-Gram结构图；

图3为本发明基于困惑度计算的t+1时刻字典T2的构建过程图示；

图4为本发明基于困惑度计算秘密信息嵌入过程图示。

Claims

1.一种基于困惑度计算的高隐蔽性自动生成文本的隐写方法，包括以下步骤：

(1)通过网上搜集的大量常用媒体形式的文本构建数据集；

(3)对自然文本进行建模，并构建相应的马尔可夫模型；

(7)基于马尔可夫模型计算各个时刻单词的条件概率分布，根据给定候选池大小embedding rate对字典T进行第一次筛选，筛选后的字典为T1；

2.如权利要求1所述的基于困惑度计算的高隐蔽性自动生成文本的隐写方法，其特征在于，如步骤(7)～(10)所述，通过预设困惑度阈值，对候选池进行了二次筛选，提高了隐写文本的自然度，从而提升了系统隐蔽性。