CN112989809A - 基于同义词扩展和标签传递的文本无载体信息隐藏方法 - Google Patents
基于同义词扩展和标签传递的文本无载体信息隐藏方法 Download PDFInfo
- Publication number
- CN112989809A CN112989809A CN202110403886.4A CN202110403886A CN112989809A CN 112989809 A CN112989809 A CN 112989809A CN 202110403886 A CN202110403886 A CN 202110403886A CN 112989809 A CN112989809 A CN 112989809A
- Authority
- CN
- China
- Prior art keywords
- text
- keyword
- information
- keywords
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000010380 label transfer Methods 0.000 title claims description 6
- 238000004891 communication Methods 0.000 claims abstract description 10
- 230000005540 biological transmission Effects 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract 2
- 238000001514 detection method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 239000000969 carrier Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开基于同义词扩展和标签传递的文本无载体信息隐藏方法:遍历文本库路径,对于每篇文本,将所定位标签及对应关键词存储在索引文本中;用RNN模型提取文本特征,得到满足样本特征的语言模型;对秘密信息进行切分得到关键词集合,将单个关键词扩展为同义词集合,将不同的关键词或同义词嵌入同篇自然文本中,记录每篇载体文本中包含的所有关键词信息;将所有关键词信息按固定格式转换为二进制序列;将所有自然载体文本和生成文本发送给接收端完成秘密通信。接收端按顺序接受所有文本,使用与发送端的RNN模型从最后一个文本中提取二进制序列,按固定格式解析出关键词信息,从自然文本中提取关键词组成秘密信息。
Description
技术领域
本发明属于信息安全技术领域,具体涉及一种基于同义词扩展和标签传递机制的文本无载体信息隐藏方法。
背景技术
信息技术和移动通信的应用普及,使得人们越来越依赖各种数字媒体来完成日常的通信和交流任务。然而,信息的数字化也使其面临恶意攻击、非授权访问、窃听和伪造等风险。保障信息安全的主要技术有信息隐藏和信息加密。区别于信息加密技术,信息隐藏技术通过将秘密信息嵌入公开载体中,以此来实现秘密信息的安全通信,保证了传输过程的隐蔽性。
传统的信息隐藏技术大多通过对载体(数字文本、数字图像、视音频)内容进行细微改动,嵌入秘密信息并生成含密载体。其中,文本作为日常生活中使用最频繁的媒体之一,已成为信息隐藏的重要载体之一。但是,与其他载体相比,文本的数据量较小,包含的冗余信息量也较少,导致秘密信息嵌入相对困难。同时,针对文本信息隐藏的检测算法也日渐成熟。因此,如何在实现高容量的文本信息隐藏的同时提高秘密信息的抗检测性已成为当前的研究热点。
在上述背景下,无载体信息隐藏的概念被提出。无载体信息隐藏不是不需要载体,而是不采用修改的方式直接传递自然文本或直接生成载体文本。传统的无载体信息隐藏方法需要通信双方提前协商定位标签,维护相同的文本数据集,发送方使用标签搜索数据集中满足条件的文本发送给接收方,接收方使用同样的标签从文本中提取秘密信息。2017年后,基于深度学习的生成式无载体信息隐藏方法引起了学者的关注。与上述依赖定位标签隐藏和提取秘密信息的方法相比,生成式方法直接以秘密信息生成含密载体,无需构建、维护大型的文本数据库。
上述方法中,基于定位标签的搜索式隐藏方法虽然具有很好的隐蔽性,但隐藏容量较低,无法实现高效的秘密信息通信;基于深度学习语言模型的生成式方法可以实现高容量的秘密信息嵌入,但是当秘密信息的长度较大时,生成的文本大概率会出现上下文语义不连贯、语义错误等情况,因此很难抵抗隐写检测。
发明内容
针对现有技术文本信息隐藏方法隐藏容量低、抗检测性弱等问题,本发明提出了一种基于同义词扩展和标签传递的文本无载体信息隐藏方法,有效地提升了隐藏容量和抗检测性,使用小型载体文本数据库即可实现完整的信息隐藏和提取,减少了建立、维护、索引数据库的开销。
为了实现上述目的,本发明所采用以下技术方案:
基于同义词扩展和标签传递的文本无载体信息隐藏方法,具体步骤包括:
步骤1,遍历文本库路径,对于每一篇文本,将所有定位标签以及对应的关键词存储在索引文本中;
步骤2,使用多层RNN模型提取文本库中的文本特征,得到满足文本库样本特征的语言模型;
步骤3,发送端对秘密信息进行切分,得到关键词集合,将单个关键词扩展为同义词集合,将不同的关键词或其同义词嵌入同一篇自然文本中,同时记录每篇载体文本中包含的所有关键词信息;将所有关键词信息按固定格式转换为二进制序列,作为秘密信息生成载体文本;最后将所有自然载体文本和生成文本发送给接收端完成秘密通信;
步骤4,接收端按顺序接受所有文本,使用与发送端相同的RNN模型从最后一个文本中提取二进制序列,按固定格式解析出关键词信息,从自然文本中提取关键词组成秘密信息。
进一步地,步骤1具体如下:
步骤1.1,遍历文本库中的每一个文本t,从文本的起始位置IP开始,取出n个汉字根据GBK的奇偶性转换成二进制序列作为标签label;
步骤1.2,选取定位标签后的4个汉字,进行分词操作,选取分词结果的第一个词或字作为关键词k;
步骤1.3,创建以标签label命名的索引文件并存储步骤1.2得到的关键词k和文本t的文本路径;起始位置IP=IP+1,重复上述步骤1.2,直到IP+n等于文本长度为止。
进一步的,步骤3具体包括:
步骤3.1,对秘密信息I进行分词、去停用词,得到关键词集合K;
步骤3.2,对于关键词集合K中每个关键词,使用同义词林将每个关键词扩充成同义词集合,接着采用词汇语义相似度方法筛选同义词集合中相似度与原关键词在0.5以上的词,其计算公式如下:
步骤3.3,对于S中的每个关键词集合s,遍历s中每个关键词w,在所有索引文件中检索关键词w,获得所有满足条件的文本集合T,并记录索引文件名中的标签L,以及定位标签的位置信息构成位置信息集合D;
步骤3.4,当上述过程中出现同一个关键词扩展集合s中不同关键词在同一篇的文
本中存在的情况时,只记录第一次出现的关键词相关信息;最终得到每个s对应文本集的集
合、对应标签集的集合、对应关键词位置集的集合;若在遍历完s后,文本集的集合为空,则将原秘密关键词切分成单个汉字继续隐藏;
步骤3.5,对于文本集的集合,构建词袋模型,选出频率最高的文本txt,记录其
中包含的所有关键词在秘密信息中的位置M、标签集合和标签位置,将txt作为载体
文本发送给接收方,M、和按固定格式转化成二进制参数序列e存储;
步骤3.6,剔除T中在步骤3.5中已经隐藏的关键词扩展集合,再次执行步骤3.5,直到所有关键词都隐藏完成;
进一步的,步骤4具体包括:
与现有技术相比,本发明具有的有益效果:
本发明通过将关键词扩展为同义词集合,使得更多地关键词或其同义词能够被嵌入到同一篇载体文本中,同时借助自定义标签机制的方法,将秘密参数嵌入新的生成文本中,在保证隐蔽性的同时也增加了可传递参数的数量,有效地提升了自然文本载体的隐藏容量和信息传递的安全性。而现有的无载体隐藏方法普遍需要构建、维护一个大型文本数据库,以提供较高的隐藏成功率。本发明极大减少了数据库对隐藏成功率的限制,在使用小型文本库的前提下,依然可以正常实现秘密信息嵌入和提取。
附图说明
图1为本发明实施例基于同义词扩展和标签传递的文本无载体信息隐藏方法的框架图;
图2为本发明实施例所提供的秘密信息隐藏过程图;
图3为本发明实施例所提供的二进制参数固定格式;
图4为本发明实施例所提供视秘密信息提取过程图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。应当明确,所描述的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明优选实施例给出了一种基于同义词扩展和标签传递的文本无载体信息隐藏方法。图1为本发明实施例所提供的基于同义词扩展和标签传递机制的无载体信息隐藏方法的框架图。如图1所示,该方法包括以下步骤:
步骤1,遍历文本库路径,对于每一篇文本,记录其中包含的所有定位标签以及对应的关键词,存储在索引文本中,详细流程如下。
步骤1.1,输入定位标签的长度n。
步骤1.2,取出一篇文本t,剔除t中非汉字符,起始位置IP置0。选取从IP开始的5个汉字,根据GBK编码的奇偶性转换5个汉字为二进制序列作为标签label。对标签后的4个汉字分词,取分词后的第一个词作为关键词k,创建一张哈希表并以label命名,将关键词k和文本路径存入以标签名label命名的哈希表中。若名为label的哈希表已经存在,则直接存储。
步骤1.3,IP=IP+1,重复步骤1.2,直到IP+n等于文本长度为止。
步骤1.4,取出下一篇文本,重复步骤1.2,步骤1.3,直到文本库中所有文本都被遍历完。输出以各标签命名的哈希表作为索引文件。
步骤2,使用多层RNN模型提取文本库中的文本特征,得到满足文本库样本特征的语言模型。
步骤3,发送端对秘密信息进行切分,得到关键词集合,将单个关键词扩展为同义词集合,尽可能将不同的关键词或其同义词嵌入同一篇自然文本中,同时记录每篇载体文本中包含的所有关键词信息。将所有关键词信息按固定格式转换为二进制序列,作为秘密信息生成载体文本。最后将所有自然载体文本和生成文本发送给接收端完成秘密通信,如图2所示,详细流程如下。
步骤3.1,输入定位标签长度n,秘密信息I。对秘密信息I进行分词、去停用词,得到关键词集合K;
步骤3.2,根据n生成种01组合作为标签的集合,对K中每个关键词使用同义词
林将每个关键词扩充成同义词集合,接着采用词汇语义相似度方法筛选同义词集合中相似
度与原关键词在0.5以上的词,其计算公式如下:
步骤3.3,对于S中的每个关键词集合s,遍历s中每个关键词w,在所有索引文件中
检索关键词w,将检索到的文本集合中的文本存入文本集合T,并记录索引文件名中的标签
L,以及定位标签的位置信息构成位置信息集合D。遍历完成后,对文本集合T中的文本进行
去重。若T为空集,则将s对应的关键词切分成单个汉字进行检索,最终结果存入T中。将所有
的文本集合T存储到文本集集合中。
步骤3.4,当上述过程中出现同一个关键词扩展集合s中不同关键词在同一篇的文
本中存在的情况时,只记录第一次出现的关键词相关信息,比如在一篇文本txt中同时包含
w、, w、都是同一个s中的关键词,只记录w对应的标签和标签位置;最终得到每个s对
应文本集的集合、对应标签集的集合、对应关键词位置集的集合;若在遍历完s后,文
本集的集合为空,则将原秘密关键词切分成单个汉字继续隐藏。
步骤3.5,对构建词袋模型,取出出现频率最高的文本txt,记录该文本中所有隐
藏的关键词对应的标签集合、关键词在秘密信息中的位置集合M。根据标签集合,在文本
中根据关键词扩展集合检索标签位置集合。将M、和按固定格式转化为二进制比
特e并存储。
进一步地,对图3中各项参数的解释如下。
分词数a具体为:若句子“无载体信息隐藏是信息隐藏新方向”切分后为“无载体/信息/隐藏/是/信息/隐藏/新方向”,切分后的关键词个数为7个,因为7介于22和23之间,因此a的值取3,即将7转化为2进制数111后的位数;由于本实验默认秘密信息分词后的长度不超过64,因此使用6bit记录a的值。
最大隐藏数c具体为:比如上述秘密信息中“无载体/隐藏/新方向”3个关键词都被隐藏在文本txt1中,3介于21和22之间,那么c的值为2,即将3转化为2进制数11后的位数;本实验中经过实验发现一篇文本中最多能隐藏的关键词数量不会超过32个,因此用5bit记录c的值。在本实施例中,a和c本质上表示记录上述两个参数所需要的最大比特数。
表示第i篇文本中隐藏的关键词个数,每个关键词需要“标签、标签位置、秘密信
息位置“三个参数才能解密,因此每一篇文本载体,需要c+ki*(5+6+a)长度的参数来提取其
中的关键词,而a和c作为两个变量,分别用固定的6bit和5bit保存。
关键词个数:表示第i篇文本中关键词的个数,用cbit表示。
标签:定位标签,用5bit表示。
标签位置:与标签搭配使用,表示在该文本中取某标签下的第几个关键词。用6bit表示。
秘密信息位置:对应关键词在原秘密信息中的位置,用abit表示。
步骤3.7,使用RNN模型计算候选池中单词的概率分布,使用Huffman编码按条件概
率对候选词进行编码,根据二进制参数e选择合适的候选词作为下一轮输入,直到参数e完
全被嵌入,最终生成文本并发送给接收端。
步骤4,接收端按顺序接受所有文本,使用与发送端相同的RNN模型从最后一个文本中提取二进制序列,按固定格式解析出关键词信息,从自然文本中提取关键词组成秘密信息,如图4所示,详细过程如下。
步骤4.1,使用与发送端相同的参数训练RNN模型;使用RNN模型计算收到的最后一
个文本中每个单词在每个时刻的概率分布,根据计算出来的条件概率使用Huffman编
码方法对文本中的词语进行编码,解出二进制参数e。
为了形象表示本发明实验结果,本发明以秘密消息“无载体信息隐藏”为例,文本数据库大小为100MB,包含56160篇文本。这些文本分别来自不同的领域,包括古典文学、简书文章、新闻、小说,按照1:1:1:1的比例从网络中随机抽取。本具体实施例旨在说明本方法的一般流程,对生成文本、相似度判决等步骤不予演示。
步骤1.构建索引文件:
步骤1.1、取出一篇文本t,剔除t中非汉字符,将t的起始位置 IP置0。
步骤1.2、输入n的值为5,选取从IP开始的5个汉字,根据GBK编码的奇偶性转换5个汉字为二进制序列作为标签label。例如文本t的内容为“无载体信息隐藏是信息隐藏新方向”,取出前五个汉字“无载体信息”,按GBK编码的奇偶性转换为“01010”作为标签,取标签后的四个汉字“隐藏是信”进行分词,得到分词结果“隐藏\是\信”,选取结果的第一个词“隐藏”作为关键词,将“隐藏”和文本t的路径存储在名为“01010”的哈希表中作为索引文件。
步骤1.3、IP=IP+1,重复步骤1.1,直到IP+n等于文本长度为止。
步骤2.使用多层RNN模型提取文本库中的文本特征,得到满足文本库样本特征的语言模型。
步骤3.信息隐藏:
步骤3.3、对于集合S中的每个关键词集合s,在索引文件中检索其中所有的关键词,并记录文本路径和对应标签。
步骤3.4、当出现同一个关键词扩展集合s中不同关键词在同一篇的文本中存在的
情况时,只记录第一次出现的关键词相关信息,例如,其“隐藏”和“掩藏”同时出现在文本txt中,
只记录“隐藏”在txt中对应的定位标签。最终得到s1对应的文本路径集合,对应标签集合为,对应关键词位置集的集合。对应的文本路径集合,对应标签集合为,对应关键词位置集的集合。对应的文本路径集合,对应标签集合,对应关键词位置集的集合。将存储在文本集的集合中,即。
步骤3.5、对构建词袋模型,取出频率最高的文本,记录其中隐藏的关键词
对应的标签集合、关键词在秘密信息中的位置集合。根据标签集合,在文本中分别寻找关键词“无载体”“信息\消息\
讯息”“隐藏\掩藏\隐蔽\掩蔽”,记录关键词第一次出现的位置。
步骤3.6、将标签集合、关键词在秘密信息中的位置集合M和标签位置按图3
格式转化为二进制比特e=“0001100001111110010010100011000001101101100011110”。
步骤3.7、使用RNN模型计算候选池中单词的概率分布,使用Huffman编码按条件概
率对候选词进行编码,根据二进制参数e选择合适的候选词作为下一轮输入,直到参数e完
全被嵌入,最终生成文本。将和发送给接收端完成秘密通信。
步骤4.信息提取:
使用与发送方相同参数训练RNN模型;
使用RNN模型计算最后收到的文本中每个单词在每个时刻的概率分布,根据
计算出来的条件概率使用Huffman编码方法对文本中的词语进行编码,解出二进制参数 e=
“0001100001111110010010100011000001101101100011110”。
步骤4.3、接收方根据标签集合和标签位置集合从文本提取出关键词
“无载体”、“信息”、“掩藏”,根据关键词在秘密信息中的位置集合M对三个词进行排序组句,
得到秘密信息“无载体信息掩藏”。由于引入了同义词扩展,最终提取的秘密信息可能与原
秘密信息存在一些差异。经过实验的验证,这些差异并不影响原始信息的语义表达。
本发明基于同义词扩展和标签传递机制的文本无载体信息隐藏方法,将秘密信息切分成若干个关键词,对每个关键词进行同义词扩展,尽可能将不同的关键词或其同义词嵌入同一文本中,以此来提升隐藏容量。同时,记录每篇文本中所有被隐藏关键词的标签参数,将其按固定格式转换为二进制序列,作为秘密信息生成载体文本。最后,将自然载体文本和生成载体文本一起发送给接收方完成秘密通信。与传统的无载体信息隐藏方法相比,本发明方法在隐藏容量方面有了较大的提升,同时减少了数据库对隐藏成功率的限制,在使用小型文本库的情况下,依然可以正常实现秘密信息嵌入和提取。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (4)
1.基于同义词扩展和标签传递的文本无载体信息隐藏方法,其特征在于,具体步骤包括:
步骤1,遍历文本库路径,对于每一篇文本,将所有定位标签以及对应的关键词存储在索引文本中;
步骤2,使用多层RNN模型提取文本库中的文本特征,得到满足文本库样本特征的语言模型;
步骤3,发送端对秘密信息进行切分,得到关键词集合,将单个关键词扩展为同义词集合,将不同的关键词或其同义词嵌入同一篇自然文本中,同时记录每篇载体文本中包含的所有关键词信息;将所有关键词信息按固定格式转换为二进制序列,作为秘密信息生成载体文本;最后将所有自然载体文本和生成文本发送给接收端完成秘密通信;
步骤4,接收端按顺序接受所有文本,使用与发送端相同的RNN模型从最后一个文本中提取二进制序列,按固定格式解析出关键词信息,从自然文本中提取关键词组成秘密信息。
2.根据权利要求1所述的基于同义词扩展和标签传递的文本无载体信息隐藏方法,其特征在于,步骤1具体如下:
步骤1.1,遍历文本库中的每一个文本t,从文本的起始位置IP开始,取出n个汉字根据GBK的奇偶性转换成二进制序列作为标签label;
步骤1.2,选取定位标签后的4个汉字,进行分词操作,选取分词结果的第一个词或字作为关键词k;
步骤1.3,创建以标签label命名的索引文件并存储步骤1.2得到的关键词k和文本t的文本路径;起始位置IP=IP+1,重复上述步骤1.2,直到IP+n等于文本长度为止。
3.根据权利要求2所述的基于同义词扩展和标签传递的文本无载体信息隐藏方法,其特征在于,步骤3具体包括:
步骤3.1,对秘密信息I进行分词、去停用词,得到关键词集合K;
步骤3.2,对于关键词集合K中每个关键词,使用同义词林将每个关键词扩充成同义词集合,接着采用词汇语义相似度方法筛选同义词集合中相似度与原关键词在0.5以上的词,其计算公式如下:
步骤3.3,对于S中的每个关键词集合s,遍历s中每个关键词w,在所有索引文件中检索关键词w,获得所有满足条件的文本集合T,并记录索引文件名中的标签L,以及定位标签的位置信息构成位置信息集合D;
步骤3.4,当上述过程中出现同一个关键词扩展集合s中不同关键词在同一篇的文本中
存在的情况时,只记录第一次出现的关键词相关信息;最终得到每个s对应文本集的集合、对应标签集的集合、对应关键词位置集的集合;若在遍历完s后,文本集的集合为空,则将原秘密关键词切分成单个汉字继续隐藏;
步骤3.5,对于文本集的集合,构建词袋模型,选出频率最高的文本txt,记录其中包
含的所有关键词在秘密信息中的位置M、标签集合和标签位置,将txt作为载体文本
发送给接收方,M、和按固定格式转化成二进制参数序列e存储;
步骤3.6,剔除T中在步骤3.5中已经隐藏的关键词扩展集合,再次执行步骤3.5,直到所有关键词都隐藏完成;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110403886.4A CN112989809B (zh) | 2021-04-15 | 2021-04-15 | 基于同义词扩展和标签传递的文本无载体信息隐藏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110403886.4A CN112989809B (zh) | 2021-04-15 | 2021-04-15 | 基于同义词扩展和标签传递的文本无载体信息隐藏方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989809A true CN112989809A (zh) | 2021-06-18 |
CN112989809B CN112989809B (zh) | 2021-09-07 |
Family
ID=76340448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110403886.4A Active CN112989809B (zh) | 2021-04-15 | 2021-04-15 | 基于同义词扩展和标签传递的文本无载体信息隐藏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989809B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118410773A (zh) * | 2024-07-04 | 2024-07-30 | 山东大学 | 一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质 |
CN118410773B (zh) * | 2024-07-04 | 2024-08-27 | 山东大学 | 一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609356A (zh) * | 2017-08-09 | 2018-01-19 | 南京信息工程大学 | 基于标签模型的文本无载体信息隐藏方法 |
CN107947918A (zh) * | 2017-10-26 | 2018-04-20 | 青岛大学 | 一种基于字符特征的无载体文本隐写方法 |
CN108418683A (zh) * | 2018-02-12 | 2018-08-17 | 青岛大学 | 一种基于汉字结构特征的无载体文本隐写方法 |
CN111027081A (zh) * | 2019-11-28 | 2020-04-17 | 中国人民解放军战略支援部队信息工程大学 | 基于特征映射的文本无载体信息隐藏方法 |
CN111797409A (zh) * | 2020-03-26 | 2020-10-20 | 中南林业科技大学 | 一种大数据中文文本无载体信息隐藏方法 |
-
2021
- 2021-04-15 CN CN202110403886.4A patent/CN112989809B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609356A (zh) * | 2017-08-09 | 2018-01-19 | 南京信息工程大学 | 基于标签模型的文本无载体信息隐藏方法 |
CN107947918A (zh) * | 2017-10-26 | 2018-04-20 | 青岛大学 | 一种基于字符特征的无载体文本隐写方法 |
CN108418683A (zh) * | 2018-02-12 | 2018-08-17 | 青岛大学 | 一种基于汉字结构特征的无载体文本隐写方法 |
CN111027081A (zh) * | 2019-11-28 | 2020-04-17 | 中国人民解放军战略支援部队信息工程大学 | 基于特征映射的文本无载体信息隐藏方法 |
CN111797409A (zh) * | 2020-03-26 | 2020-10-20 | 中南林业科技大学 | 一种大数据中文文本无载体信息隐藏方法 |
Non-Patent Citations (2)
Title |
---|
KAIXI WANG 等: "A Coverless Plain Text Steganography Based on Character Features", 《IEEE》 * |
吴国华等: "中文文本信息隐藏研究进展", 《通信学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118410773A (zh) * | 2024-07-04 | 2024-07-30 | 山东大学 | 一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质 |
CN118410773B (zh) * | 2024-07-04 | 2024-08-27 | 山东大学 | 一种支持可扩展类别的文本语义哈希方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112989809B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609356B (zh) | 基于标签模型的文本无载体信息隐藏方法 | |
CN109711121B (zh) | 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置 | |
Yang et al. | Automatically generate steganographic text based on Markov model and Huffman coding | |
US9355171B2 (en) | Clustering of near-duplicate documents | |
CN111797409B (zh) | 一种大数据中文文本无载体信息隐藏方法 | |
CN107947918A (zh) | 一种基于字符特征的无载体文本隐写方法 | |
CN108681536B (zh) | 一种基于汉语拼音多重映射的无载体隐写方法 | |
CN115758415A (zh) | 一种基于汉字部件组合的文本无载体信息隐藏方法 | |
CN111666575B (zh) | 基于词元编码的文本无载体信息隐藏方法 | |
Baawi et al. | A comparative study on the advancement of text steganography techniques in digital media | |
CN106055531A (zh) | 一种利用全宋词实现文本信息隐藏的技术 | |
Li et al. | Generating steganographic image description by dynamic synonym substitution | |
Shi et al. | An approach to text steganography based on search in internet | |
CN111027081B (zh) | 基于特征映射的文本无载体信息隐藏方法 | |
Wang et al. | GAN-GLS: Generative Lyric Steganography Based on Generative Adversarial Networks. | |
Chang | Reversible linguistic steganography with bayesian masked language modeling | |
Liu et al. | Multi-keywords carrier-free text steganography method based on Chinese pinyin | |
CN112989809B (zh) | 基于同义词扩展和标签传递的文本无载体信息隐藏方法 | |
CN111008285B (zh) | 一种基于论文关键属性网络的作者消歧方法 | |
Zhang et al. | Coverless text steganography method based on characteristics of word association | |
Guan et al. | A novel coverless text steganographic algorithm based on polynomial encryption | |
CN114065269B (zh) | 无绑定型非同质化代币的生成方法和解析方法和存储介质 | |
Majumder et al. | A generalized model of text steganography by summary generation using frequency analysis | |
Banerjee | Text steganography using article mapping technique (AMT) and SSCE | |
Wu et al. | Text coverless information hiding method based on hybrid tags |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |