CN112989809A - 基于同义词扩展和标签传递的文本无载体信息隐藏方法 - Google Patents

基于同义词扩展和标签传递的文本无载体信息隐藏方法 Download PDF

Info

Publication number
CN112989809A
CN112989809A CN202110403886.4A CN202110403886A CN112989809A CN 112989809 A CN112989809 A CN 112989809A CN 202110403886 A CN202110403886 A CN 202110403886A CN 112989809 A CN112989809 A CN 112989809A
Authority
CN
China
Prior art keywords
text
keyword
information
keywords
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110403886.4A
Other languages
English (en)
Other versions
CN112989809B (zh
Inventor
张祯
倪嘉铭
姚晔
吴国华
王玉娟
袁理锋
任一支
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110403886.4A priority Critical patent/CN112989809B/zh
Publication of CN112989809A publication Critical patent/CN112989809A/zh
Application granted granted Critical
Publication of CN112989809B publication Critical patent/CN112989809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开基于同义词扩展和标签传递的文本无载体信息隐藏方法:遍历文本库路径,对于每篇文本,将所定位标签及对应关键词存储在索引文本中;用RNN模型提取文本特征,得到满足样本特征的语言模型;对秘密信息进行切分得到关键词集合,将单个关键词扩展为同义词集合,将不同的关键词或同义词嵌入同篇自然文本中,记录每篇载体文本中包含的所有关键词信息;将所有关键词信息按固定格式转换为二进制序列;将所有自然载体文本和生成文本发送给接收端完成秘密通信。接收端按顺序接受所有文本,使用与发送端的RNN模型从最后一个文本中提取二进制序列,按固定格式解析出关键词信息,从自然文本中提取关键词组成秘密信息。

Description

基于同义词扩展和标签传递的文本无载体信息隐藏方法
技术领域
本发明属于信息安全技术领域,具体涉及一种基于同义词扩展和标签传递机制的文本无载体信息隐藏方法。
背景技术
信息技术和移动通信的应用普及,使得人们越来越依赖各种数字媒体来完成日常的通信和交流任务。然而,信息的数字化也使其面临恶意攻击、非授权访问、窃听和伪造等风险。保障信息安全的主要技术有信息隐藏和信息加密。区别于信息加密技术,信息隐藏技术通过将秘密信息嵌入公开载体中,以此来实现秘密信息的安全通信,保证了传输过程的隐蔽性。
传统的信息隐藏技术大多通过对载体(数字文本、数字图像、视音频)内容进行细微改动,嵌入秘密信息并生成含密载体。其中,文本作为日常生活中使用最频繁的媒体之一,已成为信息隐藏的重要载体之一。但是,与其他载体相比,文本的数据量较小,包含的冗余信息量也较少,导致秘密信息嵌入相对困难。同时,针对文本信息隐藏的检测算法也日渐成熟。因此,如何在实现高容量的文本信息隐藏的同时提高秘密信息的抗检测性已成为当前的研究热点。
在上述背景下,无载体信息隐藏的概念被提出。无载体信息隐藏不是不需要载体,而是不采用修改的方式直接传递自然文本或直接生成载体文本。传统的无载体信息隐藏方法需要通信双方提前协商定位标签,维护相同的文本数据集,发送方使用标签搜索数据集中满足条件的文本发送给接收方,接收方使用同样的标签从文本中提取秘密信息。2017年后,基于深度学习的生成式无载体信息隐藏方法引起了学者的关注。与上述依赖定位标签隐藏和提取秘密信息的方法相比,生成式方法直接以秘密信息生成含密载体,无需构建、维护大型的文本数据库。
上述方法中,基于定位标签的搜索式隐藏方法虽然具有很好的隐蔽性,但隐藏容量较低,无法实现高效的秘密信息通信;基于深度学习语言模型的生成式方法可以实现高容量的秘密信息嵌入,但是当秘密信息的长度较大时,生成的文本大概率会出现上下文语义不连贯、语义错误等情况,因此很难抵抗隐写检测。
发明内容
针对现有技术文本信息隐藏方法隐藏容量低、抗检测性弱等问题,本发明提出了一种基于同义词扩展和标签传递的文本无载体信息隐藏方法,有效地提升了隐藏容量和抗检测性,使用小型载体文本数据库即可实现完整的信息隐藏和提取,减少了建立、维护、索引数据库的开销。
为了实现上述目的,本发明所采用以下技术方案:
基于同义词扩展和标签传递的文本无载体信息隐藏方法,具体步骤包括:
步骤1,遍历文本库路径,对于每一篇文本,将所有定位标签以及对应的关键词存储在索引文本中;
步骤2,使用多层RNN模型提取文本库中的文本特征,得到满足文本库样本特征的语言模型;
步骤3,发送端对秘密信息进行切分,得到关键词集合,将单个关键词扩展为同义词集合,将不同的关键词或其同义词嵌入同一篇自然文本中,同时记录每篇载体文本中包含的所有关键词信息;将所有关键词信息按固定格式转换为二进制序列,作为秘密信息生成载体文本;最后将所有自然载体文本和生成文本发送给接收端完成秘密通信;
步骤4,接收端按顺序接受所有文本,使用与发送端相同的RNN模型从最后一个文本中提取二进制序列,按固定格式解析出关键词信息,从自然文本中提取关键词组成秘密信息。
进一步地,步骤1具体如下:
步骤1.1,遍历文本库中的每一个文本t,从文本的起始位置IP开始,取出n个汉字根据GBK的奇偶性转换成二进制序列作为标签label;
步骤1.2,选取定位标签后的4个汉字,进行分词操作,选取分词结果的第一个词或字作为关键词k;
步骤1.3,创建以标签label命名的索引文件并存储步骤1.2得到的关键词k和文本t的文本路径;起始位置IP=IP+1,重复上述步骤1.2,直到IP+n等于文本长度为止。
进一步的,步骤3具体包括:
步骤3.1,对秘密信息I进行分词、去停用词,得到关键词集合K;
步骤3.2,对于关键词集合K中每个关键词,使用同义词林将每个关键词扩充成同义词集合,接着采用词汇语义相似度方法筛选同义词集合中相似度与原关键词在0.5以上的词,其计算公式如下:
Figure RE-423779DEST_PATH_IMAGE001
其中,
Figure RE-809761DEST_PATH_IMAGE002
是4个调节参数,满足
Figure RE-855077DEST_PATH_IMAGE003
Figure RE-719128DEST_PATH_IMAGE004
;四个调节参数取值如下
Figure RE-736762DEST_PATH_IMAGE005
Figure RE-277334DEST_PATH_IMAGE006
Figure RE-809947DEST_PATH_IMAGE007
表示语义描述式中特定描述之间的 相似度,公式如下:
Figure RE-477688DEST_PATH_IMAGE008
其中,
Figure RE-349829DEST_PATH_IMAGE009
表示义原,d是
Figure RE-812035DEST_PATH_IMAGE009
在义原层次体系中的最短路径长度,y的取值 为1.6;得到最终同义词扩展集合S;
步骤3.3,对于S中的每个关键词集合s,遍历s中每个关键词w,在所有索引文件中检索关键词w,获得所有满足条件的文本集合T,并记录索引文件名中的标签L,以及定位标签的位置信息构成位置信息集合D;
步骤3.4,当上述过程中出现同一个关键词扩展集合s中不同关键词在同一篇的文 本中存在的情况时,只记录第一次出现的关键词相关信息;最终得到每个s对应文本集的集 合
Figure RE-831943DEST_PATH_IMAGE010
、对应标签集的集合
Figure RE-289994DEST_PATH_IMAGE011
、对应关键词位置集的集合
Figure RE-282221DEST_PATH_IMAGE012
;若在遍历完s后,文本集的集合
Figure RE-915327DEST_PATH_IMAGE010
为空,则将原秘密关键词切分成单个汉字继续隐藏;
步骤3.5,对于文本集的集合
Figure RE-625794DEST_PATH_IMAGE010
,构建词袋模型,选出频率最高的文本txt,记录其 中包含的所有关键词在秘密信息中的位置M、标签集合
Figure RE-166497DEST_PATH_IMAGE013
和标签位置
Figure RE-528077DEST_PATH_IMAGE014
,将txt作为载体 文本发送给接收方,M、
Figure RE-66506DEST_PATH_IMAGE013
Figure RE-264269DEST_PATH_IMAGE014
按固定格式转化成二进制参数序列e存储;
步骤3.6,剔除T中在步骤3.5中已经隐藏的关键词扩展集合,再次执行步骤3.5,直到所有关键词都隐藏完成;
步骤3.7,使用RNN模型计算候选池中单词的概率分布,使用Huffman编码按条件概 率对候选词进行编码,根据二进制参数e选择合适的候选词作为下一轮输入,直到参数e完 全被嵌入,最终生成文本
Figure RE-608663DEST_PATH_IMAGE015
进一步的,步骤4具体包括:
步骤4.1,对于收到的最后一个文本
Figure RE-575482DEST_PATH_IMAGE015
,使用与发送端相同地RNN模型计算每个 单词在每个时刻的概率分布,根据计算出来的条件概率使用Huffman编码方法对文本中的 词语进行编码,解出二进制参数e;
步骤4.2,对于参数e,按固定格式解析,得到各篇文本中包含的关键词个数,以及 每个关键词对应的标签集合
Figure RE-799659DEST_PATH_IMAGE013
、标签位置集合
Figure RE-219139DEST_PATH_IMAGE014
和秘密信息位置集合M;
步骤4.3,根据标签集合
Figure RE-367223DEST_PATH_IMAGE013
和标签位置集合
Figure RE-188549DEST_PATH_IMAGE014
在对应的文本中提取关键词,最 后根据秘密信息位置集合M将关键词进行排序组句,得到最终完整秘密信息。
与现有技术相比,本发明具有的有益效果:
本发明通过将关键词扩展为同义词集合,使得更多地关键词或其同义词能够被嵌入到同一篇载体文本中,同时借助自定义标签机制的方法,将秘密参数嵌入新的生成文本中,在保证隐蔽性的同时也增加了可传递参数的数量,有效地提升了自然文本载体的隐藏容量和信息传递的安全性。而现有的无载体隐藏方法普遍需要构建、维护一个大型文本数据库,以提供较高的隐藏成功率。本发明极大减少了数据库对隐藏成功率的限制,在使用小型文本库的前提下,依然可以正常实现秘密信息嵌入和提取。
附图说明
图1为本发明实施例基于同义词扩展和标签传递的文本无载体信息隐藏方法的框架图;
图2为本发明实施例所提供的秘密信息隐藏过程图;
图3为本发明实施例所提供的二进制参数固定格式;
图4为本发明实施例所提供视秘密信息提取过程图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。应当明确,所描述的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明优选实施例给出了一种基于同义词扩展和标签传递的文本无载体信息隐藏方法。图1为本发明实施例所提供的基于同义词扩展和标签传递机制的无载体信息隐藏方法的框架图。如图1所示,该方法包括以下步骤:
步骤1,遍历文本库路径,对于每一篇文本,记录其中包含的所有定位标签以及对应的关键词,存储在索引文本中,详细流程如下。
步骤1.1,输入定位标签的长度n。
步骤1.2,取出一篇文本t,剔除t中非汉字符,起始位置IP置0。选取从IP开始的5个汉字,根据GBK编码的奇偶性转换5个汉字为二进制序列作为标签label。对标签后的4个汉字分词,取分词后的第一个词作为关键词k,创建一张哈希表并以label命名,将关键词k和文本路径存入以标签名label命名的哈希表中。若名为label的哈希表已经存在,则直接存储。
步骤1.3,IP=IP+1,重复步骤1.2,直到IP+n等于文本长度为止。
步骤1.4,取出下一篇文本,重复步骤1.2,步骤1.3,直到文本库中所有文本都被遍历完。输出以各标签命名的哈希表作为索引文件。
步骤2,使用多层RNN模型提取文本库中的文本特征,得到满足文本库样本特征的语言模型。
步骤3,发送端对秘密信息进行切分,得到关键词集合,将单个关键词扩展为同义词集合,尽可能将不同的关键词或其同义词嵌入同一篇自然文本中,同时记录每篇载体文本中包含的所有关键词信息。将所有关键词信息按固定格式转换为二进制序列,作为秘密信息生成载体文本。最后将所有自然载体文本和生成文本发送给接收端完成秘密通信,如图2所示,详细流程如下。
步骤3.1,输入定位标签长度n,秘密信息I。对秘密信息I进行分词、去停用词,得到关键词集合K;
步骤3.2,根据n生成
Figure RE-599939DEST_PATH_IMAGE016
种01组合作为标签的集合,对K中每个关键词使用同义词 林将每个关键词扩充成同义词集合,接着采用词汇语义相似度方法筛选同义词集合中相似 度与原关键词在0.5以上的词,其计算公式如下:
Figure RE-490403DEST_PATH_IMAGE017
其中,
Figure RE-379862DEST_PATH_IMAGE002
是4个调节参数,满足
Figure RE-118010DEST_PATH_IMAGE003
Figure RE-700302DEST_PATH_IMAGE004
;四个调节参数取值如下
Figure RE-828795DEST_PATH_IMAGE005
Figure RE-785860DEST_PATH_IMAGE006
Figure RE-112936DEST_PATH_IMAGE007
表示语义描述式中特定描述之间的 相似度,公式如下:
Figure RE-866129DEST_PATH_IMAGE008
其中,
Figure RE-747497DEST_PATH_IMAGE009
表示义原,d是
Figure RE-978758DEST_PATH_IMAGE009
在义原层次体系中的最短路径长度,y的取值 为1.6;筛选出同义词集合中相似度与原关键词在0.5以上的词,得到最终同义词扩展集合 S。
步骤3.3,对于S中的每个关键词集合s,遍历s中每个关键词w,在所有索引文件中 检索关键词w,将检索到的文本集合中的文本存入文本集合T,并记录索引文件名中的标签 L,以及定位标签的位置信息构成位置信息集合D。遍历完成后,对文本集合T中的文本进行 去重。若T为空集,则将s对应的关键词切分成单个汉字进行检索,最终结果存入T中。将所有 的文本集合T存储到文本集集合
Figure RE-425920DEST_PATH_IMAGE018
中。
步骤3.4,当上述过程中出现同一个关键词扩展集合s中不同关键词在同一篇的文 本中存在的情况时,只记录第一次出现的关键词相关信息,比如在一篇文本txt中同时包含 w、
Figure RE-333702DEST_PATH_IMAGE019
, w、
Figure RE-436787DEST_PATH_IMAGE019
都是同一个s中的关键词,只记录w对应的标签和标签位置;最终得到每个s对 应文本集的集合
Figure RE-471739DEST_PATH_IMAGE018
、对应标签集的集合
Figure RE-242249DEST_PATH_IMAGE020
、对应关键词位置集的集合
Figure RE-868403DEST_PATH_IMAGE021
;若在遍历完s后,文 本集的集合
Figure RE-973631DEST_PATH_IMAGE018
为空,则将原秘密关键词切分成单个汉字继续隐藏。
步骤3.5,对
Figure RE-546695DEST_PATH_IMAGE018
构建词袋模型,取出出现频率最高的文本txt,记录该文本中所有隐 藏的关键词对应的标签集合
Figure RE-906132DEST_PATH_IMAGE022
、关键词在秘密信息中的位置集合M。根据标签集合,在文本 中根据关键词扩展集合检索标签位置集合
Figure RE-968766DEST_PATH_IMAGE023
。将M、
Figure RE-46443DEST_PATH_IMAGE022
Figure RE-672465DEST_PATH_IMAGE023
按固定格式转化为二进制比 特e并存储。
步骤3.6,将文本txt发送给接收方,在
Figure RE-151988DEST_PATH_IMAGE018
中剔除上述文本中已经隐藏的关键词扩 展子集,直到
Figure RE-385523DEST_PATH_IMAGE018
为空集为止。上述固定格式如图3所示。
进一步地,对图3中各项参数的解释如下。
分词数:根据秘密信息被切分成关键词的个数
Figure RE-950497DEST_PATH_IMAGE024
,计算分词数a的值满足
Figure RE-865363DEST_PATH_IMAGE025
,用固定6bit记录分词数a的值。
分词数a具体为:若句子“无载体信息隐藏是信息隐藏新方向”切分后为“无载体/信息/隐藏/是/信息/隐藏/新方向”,切分后的关键词个数为7个,因为7介于22和23之间,因此a的值取3,即将7转化为2进制数111后的位数;由于本实验默认秘密信息分词后的长度不超过64,因此使用6bit记录a的值。
最大隐藏数:选择隐藏最多的文本,记录隐藏的关键词个数
Figure RE-451590DEST_PATH_IMAGE026
,计算最大隐藏数c 的值满足
Figure RE-59289DEST_PATH_IMAGE027
,用固定5bit记录最大隐藏数c的值。
最大隐藏数c具体为:比如上述秘密信息中“无载体/隐藏/新方向”3个关键词都被隐藏在文本txt1中,3介于21和22之间,那么c的值为2,即将3转化为2进制数11后的位数;本实验中经过实验发现一篇文本中最多能隐藏的关键词数量不会超过32个,因此用5bit记录c的值。在本实施例中,a和c本质上表示记录上述两个参数所需要的最大比特数。
Figure RE-908296DEST_PATH_IMAGE028
表示第i篇文本中隐藏的关键词个数,每个关键词需要“标签、标签位置、秘密信 息位置“三个参数才能解密,因此每一篇文本载体,需要c+ki*(5+6+a)长度的参数来提取其 中的关键词,而a和c作为两个变量,分别用固定的6bit和5bit保存。
关键词个数:表示第i篇文本中关键词的个数,用cbit表示。
标签:定位标签,用5bit表示。
标签位置:与标签搭配使用,表示在该文本中取某标签下的第几个关键词。用6bit表示。
秘密信息位置:对应关键词在原秘密信息中的位置,用abit表示。
步骤3.7,使用RNN模型计算候选池中单词的概率分布,使用Huffman编码按条件概 率对候选词进行编码,根据二进制参数e选择合适的候选词作为下一轮输入,直到参数e完 全被嵌入,最终生成文本
Figure RE-361274DEST_PATH_IMAGE029
并发送给接收端。
步骤4,接收端按顺序接受所有文本,使用与发送端相同的RNN模型从最后一个文本中提取二进制序列,按固定格式解析出关键词信息,从自然文本中提取关键词组成秘密信息,如图4所示,详细过程如下。
步骤4.1,使用与发送端相同的参数训练RNN模型;使用RNN模型计算收到的最后一 个文本
Figure RE-815389DEST_PATH_IMAGE029
中每个单词在每个时刻的概率分布,根据计算出来的条件概率使用Huffman编 码方法对文本中的词语进行编码,解出二进制参数e。
步骤4.2,按照固定格式解析e,得到每篇文本txt中对应的标签集合
Figure RE-390727DEST_PATH_IMAGE030
、标签位置 集合
Figure RE-179560DEST_PATH_IMAGE031
和关键词在秘密信息中的位置集合M;
步骤4.3,根据
Figure RE-436229DEST_PATH_IMAGE032
从载体文本txt中解出关键词,根据M将关键词还原成秘密 信息。
为了形象表示本发明实验结果,本发明以秘密消息“无载体信息隐藏”为例,文本数据库大小为100MB,包含56160篇文本。这些文本分别来自不同的领域,包括古典文学、简书文章、新闻、小说,按照1:1:1:1的比例从网络中随机抽取。本具体实施例旨在说明本方法的一般流程,对生成文本、相似度判决等步骤不予演示。
步骤1.构建索引文件:
步骤1.1、取出一篇文本t,剔除t中非汉字符,将t的起始位置 IP置0。
步骤1.2、输入n的值为5,选取从IP开始的5个汉字,根据GBK编码的奇偶性转换5个汉字为二进制序列作为标签label。例如文本t的内容为“无载体信息隐藏是信息隐藏新方向”,取出前五个汉字“无载体信息”,按GBK编码的奇偶性转换为“01010”作为标签,取标签后的四个汉字“隐藏是信”进行分词,得到分词结果“隐藏\是\信”,选取结果的第一个词“隐藏”作为关键词,将“隐藏”和文本t的路径存储在名为“01010”的哈希表中作为索引文件。
步骤1.3、IP=IP+1,重复步骤1.1,直到IP+n等于文本长度为止。
具体为:取出下一篇文本,重复步骤1.1,步骤1.2,直到文本库中所有文本都被遍 历完。返回以各标签命名的哈希表作为索引文件
Figure RE-744851DEST_PATH_IMAGE033
步骤2.使用多层RNN模型提取文本库中的文本特征,得到满足文本库样本特征的语言模型。
步骤3.信息隐藏:
步骤3.1、生成标签集合
Figure RE-694353DEST_PATH_IMAGE034
;对 秘密信息分词、去停用词后得到关键词集合
Figure RE-252373DEST_PATH_IMAGE035
步骤3.2、对关键词集合K进行同义词扩展,得到扩展后的集合
Figure RE-827579DEST_PATH_IMAGE036
步骤3.3、对于集合S中的每个关键词集合s,在索引文件中检索其中所有的关键词,并记录文本路径和对应标签。
步骤3.4、当出现同一个关键词扩展集合s中不同关键词在同一篇的文本中存在的 情况时,只记录第一次出现的关键词相关信息,例如
Figure RE-725128DEST_PATH_IMAGE037
,其“隐藏”和“掩藏”同时出现在文本txt中, 只记录“隐藏”在txt中对应的定位标签。最终得到s1对应的文本路径集合
Figure RE-845531DEST_PATH_IMAGE038
,对应标签集合为
Figure RE-156427DEST_PATH_IMAGE039
,对应关键词位置集的集合
Figure RE-20478DEST_PATH_IMAGE040
Figure RE-21800DEST_PATH_IMAGE041
对应的文本路径集合
Figure RE-578684DEST_PATH_IMAGE042
,对应标签集合为
Figure RE-111296DEST_PATH_IMAGE043
,对应关键词位置集的集合
Figure RE-779038DEST_PATH_IMAGE044
Figure RE-385600DEST_PATH_IMAGE045
对应的文本路径集合
Figure RE-365582DEST_PATH_IMAGE046
,对应标签集合
Figure RE-385490DEST_PATH_IMAGE047
,对应关键词位置集的集合
Figure RE-591344DEST_PATH_IMAGE048
。将
Figure RE-583570DEST_PATH_IMAGE049
存储在文本集的集合
Figure RE-216677DEST_PATH_IMAGE050
中,即
Figure RE-910832DEST_PATH_IMAGE051
步骤3.5、对
Figure RE-717114DEST_PATH_IMAGE018
构建词袋模型,取出频率最高的文本
Figure RE-563848DEST_PATH_IMAGE052
,记录其中隐藏的关键词 对应的标签集合
Figure RE-367856DEST_PATH_IMAGE053
、关键词在秘密信息中的位置集合
Figure RE-565619DEST_PATH_IMAGE054
。根据标签集合
Figure RE-910012DEST_PATH_IMAGE055
,在文本
Figure RE-126099DEST_PATH_IMAGE052
中分别寻找关键词“无载体”“信息\消息\ 讯息”“隐藏\掩藏\隐蔽\掩蔽”,记录关键词第一次出现的位置
Figure RE-835429DEST_PATH_IMAGE056
步骤3.6、将标签集合
Figure RE-520488DEST_PATH_IMAGE057
、关键词在秘密信息中的位置集合M和标签位置
Figure RE-668573DEST_PATH_IMAGE058
按图3 格式转化为二进制比特e=“0001100001111110010010100011000001101101100011110”。
步骤3.7、使用RNN模型计算候选池中单词的概率分布,使用Huffman编码按条件概 率对候选词进行编码,根据二进制参数e选择合适的候选词作为下一轮输入,直到参数e完 全被嵌入,最终生成文本
Figure RE-489898DEST_PATH_IMAGE059
。将
Figure RE-884977DEST_PATH_IMAGE052
Figure RE-791753DEST_PATH_IMAGE059
发送给接收端完成秘密通信。
步骤4.信息提取:
步骤4.1、接收端按顺序收到文本
Figure RE-477949DEST_PATH_IMAGE052
Figure RE-419360DEST_PATH_IMAGE059
使用与发送方相同参数训练RNN模型;
使用RNN模型计算最后收到的文本
Figure RE-470493DEST_PATH_IMAGE059
中每个单词在每个时刻的概率分布,根据 计算出来的条件概率使用Huffman编码方法对文本中的词语进行编码,解出二进制参数 e= “0001100001111110010010100011000001101101100011110”。
步骤4.2、根据图3所示的结构解析e,得到标签集合
Figure RE-116762DEST_PATH_IMAGE060
、关键词在秘密信息中的位置集合
Figure RE-606649DEST_PATH_IMAGE061
、标签 位置集合
Figure RE-402567DEST_PATH_IMAGE062
步骤4.3、接收方根据标签集合
Figure RE-155759DEST_PATH_IMAGE063
和标签位置集合
Figure RE-771549DEST_PATH_IMAGE064
从文本
Figure RE-799547DEST_PATH_IMAGE065
提取出关键词 “无载体”、“信息”、“掩藏”,根据关键词在秘密信息中的位置集合M对三个词进行排序组句, 得到秘密信息“无载体信息掩藏”。由于引入了同义词扩展,最终提取的秘密信息可能与原 秘密信息存在一些差异。经过实验的验证,这些差异并不影响原始信息的语义表达。
本发明基于同义词扩展和标签传递机制的文本无载体信息隐藏方法,将秘密信息切分成若干个关键词,对每个关键词进行同义词扩展,尽可能将不同的关键词或其同义词嵌入同一文本中,以此来提升隐藏容量。同时,记录每篇文本中所有被隐藏关键词的标签参数,将其按固定格式转换为二进制序列,作为秘密信息生成载体文本。最后,将自然载体文本和生成载体文本一起发送给接收方完成秘密通信。与传统的无载体信息隐藏方法相比,本发明方法在隐藏容量方面有了较大的提升,同时减少了数据库对隐藏成功率的限制,在使用小型文本库的情况下,依然可以正常实现秘密信息嵌入和提取。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (4)

1.基于同义词扩展和标签传递的文本无载体信息隐藏方法,其特征在于,具体步骤包括:
步骤1,遍历文本库路径,对于每一篇文本,将所有定位标签以及对应的关键词存储在索引文本中;
步骤2,使用多层RNN模型提取文本库中的文本特征,得到满足文本库样本特征的语言模型;
步骤3,发送端对秘密信息进行切分,得到关键词集合,将单个关键词扩展为同义词集合,将不同的关键词或其同义词嵌入同一篇自然文本中,同时记录每篇载体文本中包含的所有关键词信息;将所有关键词信息按固定格式转换为二进制序列,作为秘密信息生成载体文本;最后将所有自然载体文本和生成文本发送给接收端完成秘密通信;
步骤4,接收端按顺序接受所有文本,使用与发送端相同的RNN模型从最后一个文本中提取二进制序列,按固定格式解析出关键词信息,从自然文本中提取关键词组成秘密信息。
2.根据权利要求1所述的基于同义词扩展和标签传递的文本无载体信息隐藏方法,其特征在于,步骤1具体如下:
步骤1.1,遍历文本库中的每一个文本t,从文本的起始位置IP开始,取出n个汉字根据GBK的奇偶性转换成二进制序列作为标签label;
步骤1.2,选取定位标签后的4个汉字,进行分词操作,选取分词结果的第一个词或字作为关键词k;
步骤1.3,创建以标签label命名的索引文件并存储步骤1.2得到的关键词k和文本t的文本路径;起始位置IP=IP+1,重复上述步骤1.2,直到IP+n等于文本长度为止。
3.根据权利要求2所述的基于同义词扩展和标签传递的文本无载体信息隐藏方法,其特征在于,步骤3具体包括:
步骤3.1,对秘密信息I进行分词、去停用词,得到关键词集合K;
步骤3.2,对于关键词集合K中每个关键词,使用同义词林将每个关键词扩充成同义词集合,接着采用词汇语义相似度方法筛选同义词集合中相似度与原关键词在0.5以上的词,其计算公式如下:
Figure 941853DEST_PATH_IMAGE001
其中,
Figure 4486DEST_PATH_IMAGE002
是4个调节参数,满足
Figure 144481DEST_PATH_IMAGE003
Figure 599864DEST_PATH_IMAGE004
;四个调节参数取值如下
Figure 141704DEST_PATH_IMAGE005
Figure 640818DEST_PATH_IMAGE006
Figure 2529DEST_PATH_IMAGE007
表示语义描述式中特定描述之间的 相似度,公式如下:
Figure 245292DEST_PATH_IMAGE008
其中,
Figure 890906DEST_PATH_IMAGE009
表示义原,d是
Figure 560922DEST_PATH_IMAGE009
在义原层次体系中的最短路径长度,y的取值为 1.6;得到最终同义词扩展集合S;
步骤3.3,对于S中的每个关键词集合s,遍历s中每个关键词w,在所有索引文件中检索关键词w,获得所有满足条件的文本集合T,并记录索引文件名中的标签L,以及定位标签的位置信息构成位置信息集合D;
步骤3.4,当上述过程中出现同一个关键词扩展集合s中不同关键词在同一篇的文本中 存在的情况时,只记录第一次出现的关键词相关信息;最终得到每个s对应文本集的集合
Figure 409929DEST_PATH_IMAGE010
、对应标签集的集合
Figure 190803DEST_PATH_IMAGE011
、对应关键词位置集的集合
Figure 457967DEST_PATH_IMAGE012
;若在遍历完s后,文本集的集合
Figure 298885DEST_PATH_IMAGE010
为空,则将原秘密关键词切分成单个汉字继续隐藏;
步骤3.5,对于文本集的集合
Figure 900767DEST_PATH_IMAGE010
,构建词袋模型,选出频率最高的文本txt,记录其中包 含的所有关键词在秘密信息中的位置M、标签集合
Figure 219753DEST_PATH_IMAGE013
和标签位置
Figure 590692DEST_PATH_IMAGE014
,将txt作为载体文本 发送给接收方,M、
Figure 851777DEST_PATH_IMAGE013
Figure 675377DEST_PATH_IMAGE014
按固定格式转化成二进制参数序列e存储;
步骤3.6,剔除T中在步骤3.5中已经隐藏的关键词扩展集合,再次执行步骤3.5,直到所有关键词都隐藏完成;
步骤3.7,使用RNN模型计算候选池中单词的概率分布,使用Huffman编码按条件概率对 候选词进行编码,根据二进制参数e选择合适的候选词作为下一轮输入,直到参数e完全被 嵌入,最终生成文本
Figure 63633DEST_PATH_IMAGE015
4.根据权利要求3所述的基于同义词扩展和标签传递的文本无载体信息隐藏方法,其特征在于,步骤4具体包括:
步骤4.1,对于收到的最后一个文本
Figure 289078DEST_PATH_IMAGE015
,使用与发送端相同地RNN模型计算每个单词 在每个时刻的概率分布,根据计算出来的条件概率使用Huffman编码方法对文本中的词语 进行编码,解出二进制参数e;
步骤4.2,对于参数e,按固定格式解析,得到各篇文本中包含的关键词个数,以及每个 关键词对应的标签集合
Figure 222530DEST_PATH_IMAGE013
、标签位置集合
Figure 799005DEST_PATH_IMAGE014
和秘密信息位置集合M;
步骤4.3,根据标签集合
Figure 725373DEST_PATH_IMAGE013
和标签位置集合
Figure 805324DEST_PATH_IMAGE014
在对应的文本中提取关键词,最后根据 秘密信息位置集合M将关键词进行排序组句,得到最终完整秘密信息。
CN202110403886.4A 2021-04-15 2021-04-15 基于同义词扩展和标签传递的文本无载体信息隐藏方法 Active CN112989809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110403886.4A CN112989809B (zh) 2021-04-15 2021-04-15 基于同义词扩展和标签传递的文本无载体信息隐藏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110403886.4A CN112989809B (zh) 2021-04-15 2021-04-15 基于同义词扩展和标签传递的文本无载体信息隐藏方法

Publications (2)

Publication Number Publication Date
CN112989809A true CN112989809A (zh) 2021-06-18
CN112989809B CN112989809B (zh) 2021-09-07

Family

ID=76340448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110403886.4A Active CN112989809B (zh) 2021-04-15 2021-04-15 基于同义词扩展和标签传递的文本无载体信息隐藏方法

Country Status (1)

Country Link
CN (1) CN112989809B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118410773A (zh) * 2024-07-04 2024-07-30 山东大学 一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质
CN118410773B (zh) * 2024-07-04 2024-08-27 山东大学 一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609356A (zh) * 2017-08-09 2018-01-19 南京信息工程大学 基于标签模型的文本无载体信息隐藏方法
CN107947918A (zh) * 2017-10-26 2018-04-20 青岛大学 一种基于字符特征的无载体文本隐写方法
CN108418683A (zh) * 2018-02-12 2018-08-17 青岛大学 一种基于汉字结构特征的无载体文本隐写方法
CN111027081A (zh) * 2019-11-28 2020-04-17 中国人民解放军战略支援部队信息工程大学 基于特征映射的文本无载体信息隐藏方法
CN111797409A (zh) * 2020-03-26 2020-10-20 中南林业科技大学 一种大数据中文文本无载体信息隐藏方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609356A (zh) * 2017-08-09 2018-01-19 南京信息工程大学 基于标签模型的文本无载体信息隐藏方法
CN107947918A (zh) * 2017-10-26 2018-04-20 青岛大学 一种基于字符特征的无载体文本隐写方法
CN108418683A (zh) * 2018-02-12 2018-08-17 青岛大学 一种基于汉字结构特征的无载体文本隐写方法
CN111027081A (zh) * 2019-11-28 2020-04-17 中国人民解放军战略支援部队信息工程大学 基于特征映射的文本无载体信息隐藏方法
CN111797409A (zh) * 2020-03-26 2020-10-20 中南林业科技大学 一种大数据中文文本无载体信息隐藏方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAIXI WANG 等: "A Coverless Plain Text Steganography Based on Character Features", 《IEEE》 *
吴国华等: "中文文本信息隐藏研究进展", 《通信学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118410773A (zh) * 2024-07-04 2024-07-30 山东大学 一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质
CN118410773B (zh) * 2024-07-04 2024-08-27 山东大学 一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112989809B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN107609356B (zh) 基于标签模型的文本无载体信息隐藏方法
CN109711121B (zh) 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
Yang et al. Automatically generate steganographic text based on Markov model and Huffman coding
US9355171B2 (en) Clustering of near-duplicate documents
CN111797409B (zh) 一种大数据中文文本无载体信息隐藏方法
CN107947918A (zh) 一种基于字符特征的无载体文本隐写方法
CN108681536B (zh) 一种基于汉语拼音多重映射的无载体隐写方法
CN115758415A (zh) 一种基于汉字部件组合的文本无载体信息隐藏方法
CN111666575B (zh) 基于词元编码的文本无载体信息隐藏方法
Baawi et al. A comparative study on the advancement of text steganography techniques in digital media
CN106055531A (zh) 一种利用全宋词实现文本信息隐藏的技术
Li et al. Generating steganographic image description by dynamic synonym substitution
Shi et al. An approach to text steganography based on search in internet
CN111027081B (zh) 基于特征映射的文本无载体信息隐藏方法
Wang et al. GAN-GLS: Generative Lyric Steganography Based on Generative Adversarial Networks.
Chang Reversible linguistic steganography with bayesian masked language modeling
Liu et al. Multi-keywords carrier-free text steganography method based on Chinese pinyin
CN112989809B (zh) 基于同义词扩展和标签传递的文本无载体信息隐藏方法
CN111008285B (zh) 一种基于论文关键属性网络的作者消歧方法
Zhang et al. Coverless text steganography method based on characteristics of word association
Guan et al. A novel coverless text steganographic algorithm based on polynomial encryption
CN114065269B (zh) 无绑定型非同质化代币的生成方法和解析方法和存储介质
Majumder et al. A generalized model of text steganography by summary generation using frequency analysis
Banerjee Text steganography using article mapping technique (AMT) and SSCE
Wu et al. Text coverless information hiding method based on hybrid tags

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant