CN111797409B

CN111797409B - 一种大数据中文文本无载体信息隐藏方法

Info

Publication number: CN111797409B
Application number: CN202010226686.1A
Authority: CN
Inventors: 秦姣华; 周卓; 向旭宇; 谭云
Original assignee: Central South University of Forestry and Technology
Current assignee: Central South University of Forestry and Technology
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2024-03-26
Anticipated expiration: 2040-03-26
Also published as: CN111797409A

Abstract

本发明公开了一种大数据中文文本无载体信息隐藏方法，首先，对大数据中文文本进行预处理，主要包括对文本的分词、计算分词后词语的词频及TF‑IDF特征信息、对文本进行LDA主题模型聚类。然后，发送方对秘密信息进行切分，然后通过词语索引表转换为关键词ID，并在大数据文本中搜索包含秘密信息关键词的文本。其次，将搜索到的文本根据对应文本的主题分布和对应文本中的关键词的TF‑IDF特征作为索引标签，同时引入随机数控制秘密信息关键词顺序，最后将随机数与索引一起作为标签加密发送给接收方。实验表明，该方法在提升隐藏容量的同时，提高了秘密信息的隐蔽性与安全性。

Description

一种大数据中文文本无载体信息隐藏方法

技术领域

本发明涉及一种大数据中文文本无载体信息隐藏方法。

背景技术

信息隐藏技术作为信息安全领域的一个重要分支，主要是利用人类感官器官对数字信息的冗余，将一个信息隐藏在另一个信息载体中，使之隐藏后的载体信息在外部特征上仍表现出原特征。这种信息载体可以是各种类型的数据，如文本、图像、视频或音频等。虽然隐藏后的载体的外部特征仍被保留，但它仍然需要更改载体的部分信息，这使得它无法有效地抵抗重放攻击、OCR技术、统计分析等各种隐写检测工具。

针对现有需要更改载体信息的信息隐藏技术，近年来学者们提出了无载体的信息隐藏概念。该方法主要思想是不需要修改载体信息，利用现有的公开的载体中某些特定的特征信息达到隐藏秘密信息的目的。由于其没有对载体做任何修改，它对各种隐写工具的检测具有较好的抵抗性。目前，无载体信息隐藏的研究主要集中在基于图像的无载体信息隐藏与基于文本的无载体信息隐藏两个方面。图像方面，周志立等提出一种基于图像词袋模型的无载体信息隐藏，该方法使用词袋模型提取每一张图像中的视觉关键词，通过构建文本信息的关键词和视觉关键词的映射关系库来隐藏信息。Liu等结合生成对抗网络，将对抗网络中的类别标签替换为秘密信息作为驱动生成含密图像进行传递，通过对抗生成网络中判别器将含密图像中的秘密信息提取出来，并借助生成对抗网络实现无载体的信息隐藏。文本方面，张建军等提出一种英文单词词频排序映射和单词词频距离的无载体信息隐藏技术,该方法使用词阶图和词语词频作为距离计算从文本数据库中检索包含秘密信息的普通文本实现无载体信息隐藏。但该方法隐藏容量较低，一个汉字只能隐藏在一个自然文本中。Chen与Zhou等在2015年提出基于汉字数学表达式的无载体信息隐藏技术。该方法首先从秘密信息中提取秘密信息向量，然后基于大数据文本检索出一个包含该秘密信息向量的文本，从而达到不需要对文本进行任何修改就能隐藏该秘密信息的目的。周志立等[11]提出一种基于多关键字的无载体信息隐藏方法来提高隐藏信息的容量,其主要思想是将关键词的数量也隐藏在关键词所隐藏的文本中。该方法虽然在一定程度上提高了信息隐藏的容量，但在对文本数据库做索引时对文本的利用率并不高。Liu和吴姣的方法是将所有汉字的部件中进行抽取而来，通过利用词性来隐藏关键字的数量来提高信息隐藏的容量。Long等提出基于word2vec的文本无载体信息隐藏方法。该方法利用word2vec获取相似的关键字，即当文本检索失败时，可以用关键字替换相似的关键字，这样可以使隐藏成功率达到100％，隐藏容量稍有提高。陆海等[15]提出的一种结合非直接传输和随机码本的无载体信息隐藏方法一定程度上解决了无载体信息隐藏方法存在信息隐藏容量小、需要构建大样本数据库的问题。在上述文献中，虽然研究者们提出的各种方法在隐藏容量方面均有所提高，但隐藏容量提升空间并不大，仍然难满足实际需求。

因此，有必要设计一种新的中文文本无载体信息隐藏方法。

发明内容

本发明所要解决的技术问题是提供一种大数据中文文本无载体信息隐藏方法，该大数据中文文本无载体信息隐藏方法能有效保障信息的安全性，且易于实施。

发明的技术解决方案如下：

一种大数据中文文本无载体信息隐藏方法，包括以下步骤：

步骤1：对大数据中文文本进行预处理；

预处理是载体的码本构建，码本包括词语索引、文本-主题分布索引和文本-词语TF-IDF码本，发送方和接收方均需要进行预处理，采用同一方法对同一公开文本库处理，双方各有一份码本；

词语索引由文本库中包含的所有词语、对应词频及词频排序序号构成，用于在信息隐藏过程中将秘密信息转换为易于表达的数字编号；

文本索引由文本标签号和文本的主题聚类分布构成；

文本-词语TF-IDF码本由文本标签号，文本内词语ID及对应词语在该文本中的TF-IDF特征值构成，它用于定位秘密信息所在的文本及秘密信息所在该文本中的所属词语；

步骤1是双方得到了相同的码本库，实际也是秘密信息的索引库。发送方的秘密信息依靠码本转换为秘密索引，接收方依靠码本解密索引。

预处理包括对文本的分词、计算分词后词语的词频及TF-IDF特征信息、对文本进行LDA主题模型聚类；

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。]

步骤2：发送方对秘密信息进行切分处理，然后通过词语索引表将秘密信息转换为关键词ID，并在大数据文本中搜索包含秘密信息关键词的文本；

秘密信息指发送方需要给接收方传送的原始信息；

步骤2的秘密信息切分后的词需要到步骤1的结果中检索。

大数据文本是公开载体，秘密信息最终是需要依靠公开载体达到传输秘密信息目的，所以需要搜索。

步骤3：形成索引标签和随机数，实现对秘密信息的加密处理；

将搜索到的文本根据对应文本的主题分布和对应文本中的关键词的TF-IDF特征形成索引标签，同时引入随机数控制秘密信息关键词顺序；

文本主题分布不等于“文本-主题分布索引”，“文本-主题分布索引”是通过文本处理方法得到的整个文本库的文本编号及对应的主题文本主题分布两部分构成，而主题分布只是“文本-主题分布索引”中的一部分。同理TF-IDF特征也不是“文本-词语TF-IDF码本”，它只是“文本-词语TF-IDF码本”中某文本内的一个词的TF-IDF特征。

步骤3即为隐藏步骤，文本主题分布，TF-IDF特征即为隐藏标签，随机数用于还原秘密信息顺序。

步骤4：将随机数与索引标签一起作为加密信息发送给接收方；

接收方基于随机数和索引标签能解码出原始的秘密信息。

词语索引构建方法如下：

步骤11：使用分词工具对文本库中每个文本进行分词，然后在Spark平台上对所有词语进行词频统计；

步骤12：对词语的词频按降序排名，其排名作为词语的ID号，并基于词语、对应词频及ID号构建词语索引码本；

文本-主题分布索引构建方法如下：

步骤21：使用分词工具对文本库中每一个文本进行分词，为保证每篇文本能唯一表示，每篇文本分词之后对文本对象生成哈希值作为文本的标签；每一篇文本在计算机中需要被唯一表示，生成的哈希值可以作为文本标签；

步骤22：在Spark平台上使用大数据文本下的LDA主题模型算法对每一个分词后的文本进行主题聚类，得出每篇文本的主题聚类分布；

步骤23：将每个文本的标签和文本主题分布一一对应构成文本索引；

文本-词语TF-IDF码本构建方法如下：

步骤31：计算每篇文本分词后的词语TF-IDF特征，将文本以及词语TF-IDF特征作为输入给LDA主题模型；

步骤32：LDA模型计算时会得到每篇文本的内的词语ID序列和对应TF-IDF特征；

步骤33：以文本为单位，将每篇文本下的词语及对应TF-IDF特征构建为文本-词语TF-IDF码本。

步骤2中，对隐秘信息的切分的过程为：采用Hanlp分词工具对秘密信息切分，将整个秘密信息M分割为多个关键词,如下式所示:

W＝Hanlp(M)＝{w₁,w₂,…,w_k}；

其中w_i(1≤i≤k)称为关键词；

切分后的关键词通过全局词语索引WCR转换为关键词ID即w_id-i，即有

w_id-i＝WCR(w_i)。

即，对于每个关键词w_i，使用词语索引码本检索，将关键词转换为对应的关键词id即word_id＝WCR(M′)＝{wid₁,wid₂,…,wid_k}；

步骤2中，在大数据文本中搜索包含秘密信息关键词的文本时，为保证各个秘密关键词能够被接收方还原，设计了一个递增随机因子机制控制秘密关键词传递的顺序，算法步骤为：

1)、为保证关键词能够有序地被接收方还原，对每个关键词在隐藏过程中都加入递增随机因子random；即每查询一个关键词后生成一个随机整数，后续关键词的查询中依次在前一个随机整数基础上随机增加一个正整数，以此保证递增；

2)、对k个关键词建立k个文本集合依次检索包含wid_i(1≤i≤k)的文本label，将其加入对应/>中,同时生成并记录该关键词id和随机因子，即/>中包含wid_i,random_i，LABELS_i，LABELS_i指的是包含wid_i的所有文本label的集合。

对索引的加密是指构建一种基于LDA主题分布和词语TF-IDF特征的混合索引；步骤为：

第1步：确定最终含密文本，根据文本索引表将含密文本label转换为文本主题分布，记作Distribution；

第2步：确定含密文本中秘密关键词的TF-IDF特征，为避免同一个文本中出现相同TF-IDF特征的词，额外增加秘密关键词在整个文本库中的词频作为辅助参考因子，故使用含密文本中秘密关键词的TF-IDF特征、该词的全局词频及对应生成的随机数共同作为TF-IDF索引，用于检索文本内的词语，记作TFIndex；

第3步：合成混合索引并加密，将Distribution和TFIndex合并，为保证传输安全，采用RC4加密算法对其加密生成最后发送的索引。

接收方收到随机数和索引标签后，对加密索引解密及按索引构建协议拆分即可还原秘密信息；协议拆分的含义：这里的协议是指索引构建的方法，协议拆分即指采用构建索引的逆过程拆分索引。

具体解密过程：

步骤1：解密索引，接收方提取解密混合索引并获得Distribution与TFIndex；

步骤2：获取隐藏文本，根据主题分布索引在文本索引码本中获得隐藏文本的label；

步骤3：获取关键词ID，在获得的文本中根据TFIndex内的word_tf,word_count，在文本-词语码本中获得关键词ID；word_tf指词的TF-IDF特征，word_count指词的词频；

步骤4：信息重组及还原，由于信息隐藏中每次隐藏关键词时均会产生随机因子，且随机因子整体单调递增，故对步骤3中提取的关键词id的随机因子升序排序即可重组信息，然后根据词语索引码本将关键词id还原为文本信息，最总得到原始的秘密信息文本。

有益效果：

由于文本是人们日常生活中使用最广泛的信息载体，尤其在大数据时代背景下，互联网每天可以产生数以亿计的文本量，这让大数量的文本收集并集成文本大数据也已经成为可能。因此，基于文本的无载体信息隐藏是一个具有巨大潜力的研究方向。本发明提出一种基于大数据环境下的文本LDA主题分布和关键词TF-IDF特征的混合索引方法。该方法通过大数据平台对文本库进行LDA主题聚类，同时计算每个文本中的词语的TF-IDF特征，并将其结果构建成码本。发送方通过对秘密信息切分变成关键词后在码本中检索，最后将搜索到满足条件的隐藏文本后根据对应文本的LDA主题分布及隐藏文本中的关键词的TF-IDF特征作为索引标签加密传送给接收方。由于秘密信息经过切分和转换，不同文本的主题分布必不相同，因此秘密标签使用文本主题分布与词的TF-IDF特征作为混合索引方式能够有效保证秘密信息的安全性。

本发明提供了一种基于大数据的中文文本无载体信息隐藏方法，首先，对大数据中文文本进行预处理，主要包括对文本的分词、计算分词后词语的词频及TF-IDF特征信息、对文本进行LDA主题模型聚类。然后，发送方对秘密信息进行切分，然后通过词语索引表转换为关键词ID，并在大数据文本中搜索包含秘密信息关键词的文本。其次，将搜索到的文本根据对应文本的主题分布和对应文本中的关键词的TF-IDF特征作为索引标签，同时引入随机数控制秘密信息关键词顺序，最后将随机数与索引一起作为标签加密发送给接收方。实验表明，该方法在提升隐藏容量的同时，提高了秘密信息的隐蔽性与安全性。

附图说明

图1为Spark EM LDA主题模型示意图；

图2为系统框架示意图；

图3为词语索引构建示意图；

图4为文本索引示意图；

图5为文本-词语TF-IDF码本示意图；

图6为混合索引的构建示意图；

图7为信息隐藏流程图；

图8为信息提取流程图；

图9为实验每次隐藏成功的汉字数量对比曲线；

图10为平均隐藏成功率对比曲线；

图11为隐藏容量对比曲线；

图12为移除最高点后的隐藏容量对比图。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：

文本分词与词频特征

中文文本中的语句进行分析需要将语句切分为词语，如何准确地将文本句子切分为词语一直是自然语言处理技术中的研究热点。Hanlp是一个开源的、由一系列模型与算法组成的Java分词工具包。它不仅仅能提供分词，在词法分析、句法分析、语义理解等方面也具备完备的功能。在极速模式下，Hanlp的分词速率可达到2000万字每秒。

文本分词后往往需要对文本中的词语进行分析，在自然语言处理中，对词语的词频统计和词语TF-IDF特征提取是最常用的方法。词频法认为，文本中的主题词往往会在文本中反复出现，故文本中的词语词频可以作为文本分析的参考依据。而TF-IDF特征法认为，文本中可能存在很多无意义的虚词，这些无意义的词语会干扰文本的主题词，故单纯统计文本中的词频往往得不到所要的主题词语。TF-IDF方法引入了词频-逆文本频率概念,即只有某词语出现在某文本中的频次高，但在整个文本库中出现的频率低时，该词语才有较大概率属于主题词。其公式如公式1所示，其中TF-IDF_ij表示词语i在文本j中的TF-IDF特征，tf_ij表示词语i在文本j出现的频率，Num(T)表示整个文本库T中文本数量，Num(w_i∈D)表示文本库中包含词语i的数量。

大数据文本的主题模型聚类

LDA主题聚类模型是一种三层贝叶斯模型，通过对文本集层、主题层及特征词层引入控制模型参数的超参数，在文本主题挖掘与聚类中取得了巨大成功。随着大数据时代的到来，学者们开始将LDA主题模型应用于大数据平台上。Spark作为主流的大数据平台之一，其于内存的分布式设计的架构使得运行速度比传统Hadoop平台提升了10至100倍。Spark平台提供基于EM和Online的两种实现方式的LDA主题模型聚类方法，其中EM方法的LDA主题聚类方法依靠Spark中的图计算模块(GraphX)实现，适用于集群并行计算。如图1所示是基于Spark平台的EMLDA主题聚类示意图。主要流程是在Spark平台上通过对文本分词、清洗及计算文本中词语的TF-IDF特征，然后将该特征输入LDA主题模型进行训练，最后得到文本主题分布。

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过"以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语"这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

大数据文本无载体隐写系统框架

无载体信息隐藏的核心思想是不用修改载体数据就能达到隐藏秘密信息的目的。因此，查找包含秘密信息的公开数据载体是无载体信息隐藏技术的重要工作之一。直接在公开数据载体中很难查找到包含整个秘密信息的文本，如果将秘密信息进行切分为若干关键词后再通过查找包含关键词的公共数据载体将找查变得简单。为了更快、更有效率地查询数据载体中的关键词，有必要将公开数据载体进行处理后构建成能直接查询的数据码本，这样可以避免每次查询都需要遍历查询整个公开数据载体库。虽然发送方将秘密信息切分为若干关键词后减少了信息的隐藏难度，但切分后的关键词隐藏到公共数据载体中对接收方的信息提取增加了困难。为此，双方需要制定一个索引规则，即用索引信息用于传递秘密信息的位置及关键词的顺序。

本发明提出一种基于主题分布与TF-IDF特征混合索引的文本无载体信息隐藏方法。发送方和接收方通过对约定的公开文本数据载体，使用相同的方法对载体构建码本。然后发送方通过传送加密后的文本主题分布和词语TF-IDF特征构建的混合索引来传递秘密信息。接收方使用预共享密钥对接收到的加密索引进行解密后，通过解析还原秘密信息。如图2是本发明提出的文本的无载体信息隐藏系统框架图图。系统由4部分构成：大数据文本预处理、秘密信息切分并根据词语索引表转换为关键词ID、关键词ID的在码本中的查询和含密文本的最大贪心选择方法实现信息隐藏。总体流程是：发送方与接收方通过对大数据文本预处理构建码本，发送方为保证秘密信息的安全性，将秘密信息切分，然后检索包含关键词的文本。得到包含关键词的文本后，通过码本获得含密文本及秘密关键词的索引标签，最后将索引标签加密后传送给接收者实现信息隐藏。

索引/码本构建

发送方和接收方在信息传递之前，必须使用相同的方法对同一个文本库建立码本。本发明方法共需要建立全局词语索引、文本-主题分布索引和文本-词语TF-IDF码本。词语索引由文本库中包含的所有词语、对应词频及词频排序序号构成，主要用于在信息隐藏过程中将秘密信息转换为易于表达的数字编号。文本索引由文本标签号和文本的主题聚类分布构成，该码本与词语索引码本类似，用于将包含秘密信息的文本标签化表示。文本-词语TF-IDF码本由文本标签号，文本内词语ID及对应词语在该文本中的TF-IDF特征值构成，它用于定位秘密信息所在的文本及秘密信息所在该文本中的所属词语。

词语索引构建方法如下：

1、使用分词工具对文本库中每个文本进行分词，然后在Spark平台上对所有词语进行词频统计；

2、对词语的词频按降序排名，其排名作为词语的ID号，并将词语、对应词频及ID号构建词语索引码本，如图3所示。

文本索引构建方法如下：

1、使用分词工具对文本库中每一个文本进行分词，为保证每篇文本能唯一表示，每篇文本分词之后对文本对象生成哈希值作为文本的标签；每一篇文本在计算机中需要被唯一表示，生成的哈希值可以作为文本标签。

哈希值，又称:散列函数(或散列算法，又称哈希函数，英语:Hash Function)是一种从任何一种数据中创建小的数字"指纹"的方法。散列函数把消息或数据压缩成摘要，使得数据量变小，将数据的格式固定下来。

该函数将数据打乱混合，重新创建一个叫做散列值(hash values，hash codes，hash sums，或hashes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。好的散列函数在输入域中很少出现散列冲突。在散列表和数据处理中，不抑制冲突来区别数据，会使得数据库记录更难找到。

2、在Spark平台上使用大数据文本下的LDA主题模型算法对每一个分词后的文本进行主题聚类，得出每篇文本的主题聚类分布；

3、将每个文本的标签和其文本主题分布一一对应构成文本索引，如图4所示。

文本-词语TF-IDF码本构建方法如下：

1、计算每篇文本分词后的词语TF-IDF特征，将其作为输入给LDA主题模型；

2、LDA模型计算时会得到每篇文本的内的词语ID序列、对应TF-IDF特征；

3、以文本为单位，将每篇文本下的词语及对应TF-IDF特征构建为文本-词语TF-IDF码本，如图5所示。

秘密信息的切分

为了描述方便，我们先对相关的符号进行说明。符号定义见表1

Table 1符号定义

本发明采用Hanlp分词工具对秘密信息切分，对于整个秘密信息M，将其分割为若干关键词。如公式所示:

W＝Hanlp(M)＝{w₁,w₂,…,w_k} (2)

其中w_i(1≤i≤k)称为关键词。

切分后的关键词通过全局词语索引(WCR)转换为关键词ID，如公式3所示

w_id-i＝WCR(w_i) (3)

关键词隐藏与文本查找

查询包含秘密关键词的所有文本，同时为保证各个秘密关键词能够被接收方还原，本发明设计了一个递增随机因子机制控制秘密关键词传递的顺序，其算法如算法1所示。

算法1：

1)、对于每个关键词w_i，使用词语索引码本检索，将其关键词转换为对应的关键词id即word_id＝WCR(M′)＝{wid₁,wid₂,…,wid_k}。

2)、为保证关键词能够有序地被接收方还原，对每个关键词在隐藏过程中都加入递增随机因子random。即每查询一个关键词后生成一个随机整数，后续关键词的查询中依次在前一个随机整数基础上随机增加一个非负整数，以此保证递增。

3)、对k个关键词建立k个文本集合依次检索包含wid_i(1≤i≤k)的文本label，将其加入对应/>中,同时生成并记录该关键词id和随机因子。即/>中包含wid_i,random_i，LABELS_i。

保证具有更好的随机性，为本发明对递增随机控制机制算法采用了双层随机

控制，具体算法如算法2所示：

算法2：

1)初始化一个大于或等于0的随机初始值R，设定分支参数N

2)对于N个分支内定义一个递增的分段函数

3)第一次随机数为：R.

4)后续迭代中产生的随机数为上次迭代结果的随机数与上次迭代的随机数除以N取整后对应的分段函数产生的结果之和。

最大贪心的文本找查算法

最大贪心文本查找是对查找到的所有含密文本的优化过程，本发明提出的思想是以最少的隐藏文本数量选择最佳隐藏文本，其算法如下：

算法3:

1)从3.4节可知，Text_list存放的是包含隐藏词语的文本集合，故由Text_list可计算出该文本集合中的每一个文本包含的关键词情况，可记作TEXT_WORDS.

2)设要隐藏的关键词为W＝{w₁,w₂,...,w_k}，words_covered用于临时记录计算过的关键词，best_texts存放临时最佳隐藏文本，初始值均为空。当W非空时执行步骤3、4、5

3)依次取出TEXT_WORDS内的文本标签和包含的关键词，计算W和该文本包含的关键词的交集，记作covered

4)判断covered中的关键词数量是否比words_covered中的关键词数量多，若是，则将包含包含covered内关键词对应的文本记录为临时最佳文本(best_texts)。

5)从W中删除上次迭代中记录过的关键词，并将上次迭代中记录的临时最佳文本加入最佳文本集合中，记作Final_best_texts。

6)重复步骤3、4、5，直到W内的关键词全部计算完。

索引加密

码本中的索引实质是定位秘密信息存在的位置，因此索引必须能够准确无误地提供秘密信息隐藏的信息。本发明中将采用一种基于LDA主题分布和词语TF-IDF特征的混合索引构建方法，其示意图如图7，具体构建方法如下所示：第1步：确定最终含密文本，根据文本索引表将含密文本label转换为文本主题分布，记作Distribution。

第2步：确定含密文本中秘密关键词的TF-IDF特征，为避免同一个文本中出现相同TF-IDF特征的词，额外增加秘密关键词在整个文本库中的词频作为辅助参考因子，故使用含密文本中秘密关键词的TF-IDF特征、该词的全局词频及对应生成的随机数共同作为TF-IDF索引，用于检索文本内的词语。记作TFIndex。

第3步：合成混合索引并加密，将Distribution和TFIndex合并，为保证传输安全，采用RC6加密算法对其加密生成最后发送的索引，如公式4所示。

Index＝RC6(Distribution,TFIndex) (4)

信息隐藏

图7是本发明提出的信息隐藏方法的具体流程图。其步骤如下：

1)首先使用公式1对要隐藏的秘密信息M切分为关键词w_i

2)对于每个关键词w_i，使用词语索引码本检索，使用公式3将其关键词转换为对应的关键词id，同时为保证关键词能够有序地被接收方还原，对每个关键词在隐藏过程中都加入递增随机因子random。即每查询一个关键词后生成一个随机正整数，后续关键词的查询中依次在前一个随机整数基础上随机增加一个随机正整数，以此保证递增。具体算法如算法1和算法2所示。

3)根据算法3得到最大贪心查找最佳隐藏文本，也即获得最佳隐藏文本的label。

4)构建加密混合索引，步骤3)中获取到最佳隐藏文本后，根据文本索引码本将最佳隐藏文本label转换为文本主题分布索引Distribution，即

Distribution＝TD(text_label) (5)

将最佳文本集中每个文本包含的秘密关键词ID根据文本-词语TF-IDF码本查找到对应的TF-IDF特征及词频，即

(word_tf,word_count)＝TW(word_id) (6)

将word_tf,word_count及每个关键词对应的随机数共同构成TF-IDF特征索引，记作TFIndex。最后根据公式4对Distribution和TFIndex加密，并发送给接收方。

信息提取

发送方只需将构建好的加密索引发送给接收方就达到了传递秘密信息的目的，接收方只需对加密索引解密及按索引构建协议拆分即可还原秘密信息。其步骤如图8所示。

1)解密索引，接收方提取解密混合索引并获得Distribution与TFIndex；

2)获取隐藏文本，根据主题分布索引在文本索引码本中获得隐藏文本的label。

3)获取关键词ID，在获得的文本中根据TFIndex内的word_tf,word_count，在文本-词语码本中获得关键词ID

4)信息重组及还原，由于信息隐藏中每次隐藏关键词时均会产生随机因子，且随机因子整体单调递增，故对3)中提取的关键词id的随机因子升序排序即可重组信息。然后根据词语索引码本将关键词id还原为文本信息。

安全性分析

由于本发明无载体信息隐藏方法基于大数据文本，其载体文本数量足够大使得该方法即使缺失部分载体文本的情况下也能具有较好的鲁棒性。另外，该方法对秘密信息片段采用递增随机因子控制顺序，即使对相同秘密信息隐藏，每次生成的随机序列均会不同，因此在一定程度上也保证了秘密索引的安全性。

实验结果与分析

实验环境

本发明实验使用中南林业科技大学4台曙光高性能计算机，基于Spark分布式架构。系统及软硬件配置如下：

表2实验系统及软硬件配置

由于实验采用分布式结构，实验开发环境在个人PC上，使用Eclipse完成。码本放置在Spark的两台计算节点上，个人PC上的工作可通过局域网直接提交到Spark集群上运行。

评价指标

本实验在参考并重新实现了基于网页文本的无载体信息隐藏方法的算法，文本载体使用搜狗实验室新闻数据集，秘密信息测试数据来自基于网页文本的无载体信息隐藏方法提供的120个文本，这些文本被分为1KB至6KB各20个。隐藏容量采用文献16中的定义：设隐藏的关键词数量为k,隐藏秘密信息共需要的文本数量为Number，则隐藏容量为

经过50次实验，用所有V_i的平均值作为平均隐藏容量：

信息隐藏的成功率是度量信息隐藏性能的另一个指标，其定义如下：

其中X表示实验需要隐藏的秘密信息的汉字数量，x表示实际隐藏的汉字数量。在上节的120次实验中，分别统计每次实验的隐藏成功率。类似于平均隐藏容量，本发明定义平均隐藏容量公式如下：

实验结果分析

如图9是每次实验秘密信息长度和实际隐藏的秘密信息长度对比图，由图可知，本发明方法的隐藏成功率并不会因秘密信息长度改变而发生较大改变。图10是本发明与基于网页文本的无载体信息隐藏方法在隐藏成功率方面的对比，根据公式10和11，基于网页文本的无载体信息隐藏方法的平均隐藏成功率为94.8％，而本发明平均隐藏成功率达到了98.24％。图11是本发明与基于网页文本的无载体信息隐藏方法在隐藏容量方面的对比，根据公式8和9，本发明的平均隐藏容量为64.36，而文献《基于网页的文本无载体信息隐藏方法》(文献信息为：Yi Long,Yuling Liu,Yuquan Zhang,et al.Coverless InformationHIDing Method Based on Web Text.IEEE Access,2019,7,31926-31933.)的平均隐藏容量为20.74。图10-11中实线表示对比文献《基于网页的文本无载体信息隐藏方法》的隐藏容量；

在图11中，本发明实验有个极高点，这是由于基于网页文本的无载体信息隐藏方法给定的秘密信息测试数据中，有一个数据可以在本发明所采用的文本库数据集中可以找到一个完全一样的。为了排除这种特殊情况，本发明对移除了该极高点，如图12所示，文本平均隐藏成功率仍然有60.40，相对基于网页文本的无载体信息隐藏方法，仍有提升。

结论

本发明提出了一种基于大数据文本的LDA主题分布与TF-IDF特征的混合索引的无载体信息隐藏方法。该方法基于互联网中的大数据文本，发送方通过将文本的主题模型分布和文本中词语的TF-IDF特征作为混合索引加密传递给接收方达到隐藏秘密信息的目的。由于该方法并未修改原文本载体，故可以抵抗各种隐写工具的攻击。另外，该方法是用海量文数据作为载体，隐蔽性更强；该方法发送的加密后的混合特征索引，安全性更高；该方法基于大数据并行处理，秘密信息隐藏采用了一种贪心策略，一定程度上提升了秘密信息隐藏容量。

Claims

1.一种大数据中文文本无载体信息隐藏方法，其特征在于，包括以下步骤：

步骤1：对大数据中文文本进行预处理；

文本索引由文本标签号和文本的主题聚类分布构成；

秘密信息指发送方需要给接收方传送的原始信息；

接收方基于随机数和索引标签能解码出原始的秘密信息；

词语索引构建方法如下：

文本-主题分布索引构建方法如下：

文本-词语TF-IDF码本构建方法如下：

步骤33：以文本为单位，将每篇文本下的词语及对应TF-IDF特征构建为文本-词语TF-IDF码本；

W＝Hanlp(M)＝{w₁,w₂,…,w_k}；

其中w_i(1≤i≤k)称为关键词；

w_id-i＝WCR(w_i)；

2)、对k个关键词建立k个文本集合依次检索包含wid_i(1≤i≤k)的文本label，将其加入对应/>中,同时生成并记录该关键词id和随机因子，即/>中包含wid_i,random_i，LABELS_i，LABELS_i指的是包含wid_i的所有文本label的集合；

第2步：确定含密文本中秘密关键词的TF-IDF特征，增加秘密关键词在整个文本库中的词频作为辅助参考因子，故使用含密文本中秘密关键词的TF-IDF特征、秘密关键词的全局词频及对应生成的随机数共同作为TF-IDF索引，用于检索文本内的词语，记作TFIndex；

第3步：合成混合索引并加密，将Distribution和TFIndex合并，采用RC4加密算法对其加密生成最后发送的索引；

接收方收到随机数和索引标签后，对加密索引解密及按索引构建协议拆分即可还原秘密信息；

具体解密过程：

步骤4：信息重组及还原，对步骤3中提取的关键词id的随机因子升序排序即可重组信息，然后根据词语索引码本将关键词id还原为文本信息，最终得到原始的秘密信息文本。