CN113657107A - 一种基于序列到隐写序列的自然语言信息隐藏方法 - Google Patents

一种基于序列到隐写序列的自然语言信息隐藏方法 Download PDF

Info

Publication number
CN113657107A
CN113657107A CN202110951492.2A CN202110951492A CN113657107A CN 113657107 A CN113657107 A CN 113657107A CN 202110951492 A CN202110951492 A CN 202110951492A CN 113657107 A CN113657107 A CN 113657107A
Authority
CN
China
Prior art keywords
steganographic
sequence
candidate
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110951492.2A
Other languages
English (en)
Inventor
向凌云
杨双辉
刘宇航
陈泽宇
章登勇
夏卓群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202110951492.2A priority Critical patent/CN113657107A/zh
Publication of CN113657107A publication Critical patent/CN113657107A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于序列到隐写序列的自然语言信息隐藏方法,包括以下步骤:步骤1.数据预处理;步骤2.语言编码;步骤3.信息隐写;其中步骤1利用语料库训练分布式词向量表示模型,获得词汇表中每个词的稠密低维词向量。步骤2利用双向LSTM网络和复制机制构建语言编码器。步骤3利用步骤2获得的语言编码器提取源文本的上下文信息,并使用基于多候选的动态隐写编码方法,根据秘密信息控制隐写器生成隐写摘要文本。

Description

一种基于序列到隐写序列的自然语言信息隐藏方法
技术领域
本发明涉及信息安全领域,尤其涉及一种基于序列到隐写序列的自然语言信息隐藏系统及方法。
背景技术
在当今社会,信息安全一直是不容忽视的一个问题,人们对秘密通信(即在通信过程中第三方无法知晓通信的存在及通信的内容)的需求越来越庞大。目前,保证秘密通信安全的技术手段主要有两种:密码技术和信息隐藏技术。其中,采用密码技术加密后的通信内容往往是杂乱无章的乱码,非授权用户不可读,从而保证通信内容的安全,但另一方面这种特殊性,也容易暴露秘密通信的事实,引起攻击者的注意和有针对性的攻击。而信息隐藏技术则克服了加密后的载体容易引起第三方攻击这一弊端,将秘密信息隐藏到某种正常的公开载体中,通过含密载体的传输实现安全的隐蔽通信。由于秘密信息的存在性被掩藏,从而不容易引起攻击者的怀疑进而进行攻击。以文本内容为载体的生成式自然语言信息隐藏方法发展较为迅速,尽管这类方法能够大大地提高生成的隐写文本的质量以及嵌入容量,但是这些方法局限在自动生成短文本,生成的隐写文本越长质量越差,且句子之间的语义相关性越来越低。为了保证隐写文本的质量,生成文本不宜过长,此时实际的可安全嵌入的秘密信息偏少。
为了解决高质量长隐写文本的生成问题以及提高隐写文本生成模型的通用性,本发明提出了基于序列到隐写序列模型的自然语言信息隐藏方法,可以适用于各种生成式自然语言信息隐藏方法,本发明自动生成的隐写摘要文本较长,可隐藏的秘密信息更多,同时隐写文本的质量更高,具有更好的隐蔽性。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种基于序列到隐写序列的自然语言信息隐藏方法,包括以下步骤:
步骤1.数据预处理;
步骤2.语言编码;
步骤3.信息隐写;
其中步骤1包括:对文本数据集所包含的文本内容进行分词,并且对词的统计学信息进行搜集统计,得出词汇表、词频,利用语料库训练分布式词向量表示模型,获得词汇表中每个词的稠密低维词向量。
所述的基于序列到隐写序列的自然语言信息隐藏方法,其中步骤2包括:
将长文本作为源文本发送给语言编码器,语言编码器将源文本通过分布式词向量模型转换成向量作为输入并进行编码,产生固定长度的语言编码器隐藏状态hi
结合隐写器的隐藏状态st,计算注意力分布:
Figure BDA0003218745080000031
其中,v,Ws,Wh,battn都为神经网络学习到的参数,at为注意力分布;
语言编码器根据注意力分布产生一个语言编码器的隐藏状态加权和,即上下文向量
Figure BDA0003218745080000032
Figure BDA0003218745080000033
语言编码器输出一个上下文向量
Figure BDA0003218745080000034
和一个注意力分布at,这里的注意力分布视为输入序列的概率分布。
所述的基于序列到隐写序列的自然语言信息隐藏方法,其中步骤2还包括:
语言编码器还计算一个概率覆盖向量ct:
Figure BDA0003218745080000035
使用概率覆盖向量更新注意力模块:
Figure BDA0003218745080000036
用公式(6)代替公式(3)中的第一步计算。
所述的基于序列到隐写序列的自然语言信息隐藏方法,其中步骤3包括:
隐写器接收语言编码器输出的上下文向量
Figure BDA0003218745080000037
将其和隐写器的隐藏状态st一起通过两个线性层,产生词汇表概率分布Pvocab
Figure BDA0003218745080000041
Pvocab是词汇表中所有单词的概率分布,b,b’都是神经网络学习到的参数。
隐写器将所得到的上下文向量
Figure BDA0003218745080000042
隐写器隐藏状态St和隐写器当前时刻t的输入xt共同计算一个生成概率Pgen∈[0,1]:
Figure BDA0003218745080000043
其中,σ是sigmoid激活函数,bptr是神经网络学习到的参数。
生成摘要中的词W的概率由词汇表概率分布和输入序列概率at分布共同获得,如果W未在源文本中出现,则注意力分布
Figure BDA0003218745080000044
词W的概率完全由生成的词汇表概率分布决定;如果W未在词汇表中出现,那么Pvocab为0,词W的概率由输入序列的概率分布决定,即词W的概率为从输入序列中复制W的概率,词W的生成概率的具体计算过程见公式(9),
Figure BDA0003218745080000045
通过上述过程,隐写器预测得到当前时刻生成词的概率分布,然后再利用预先设计好的基于多候选的动态隐写编码方法和秘密信息,对词概率分布进行选择,解码并输出所选择词概率对应的词,从而生成含秘密信息的隐写摘要文本。
所述的基于序列到隐写序列的自然语言信息隐藏方法,其中步骤3还包括基于多候选的动态隐写编码方法:1)动点判断、2)不动点优化输出、3)动点隐写编码;其中,
1)动点判断:假设t-1时刻生成的第i个候选隐写序列为
Figure BDA0003218745080000046
i表示候选隐写位置的序号,根据训练好的序列到隐写序列模型,预测t时刻的生成词概率分布,取概率最高的k个词作为候选词;设按降序排列后的候选词分别为:Wi1,Wi2,...,Wik,记候选词与候选隐写序列组成的联合序列即候选嵌入位置为
Figure BDA0003218745080000051
秘密信息嵌入条件定义如下:
Figure BDA0003218745080000052
其中P(stij)表示词序列stij的概率值,由隐写器根据词序列stij中每个词的生成概率值计算得出;α、β为阈值,如果满足上述条件的候选嵌入位置STi的数量至少有2个,则当前t时刻为动点,将用来嵌入信息;否则为不动点,不能用来嵌入信息;对每个生成时刻进行动点与不动点的判定,从而在文本生成过程中动态地选择时刻嵌入秘密信息;
2)不动点优化输出:
对于不动点时刻t,设t时刻k个候选嵌入位置为ST1,...,STi,...STk,其中
Figure BDA0003218745080000053
按照序列概率值P(stij)对k×k个联合序列stij降序排序,st'11,...,st'1k,...,st'k1,...,st'kk,最后选择概率值最高的k个序列st'11,...,st'1k作为当前时刻的输出,即
Figure BDA0003218745080000054
其中
Figure BDA0003218745080000055
3)动点隐写编码
对于动点时刻t,设t-1时刻生成的候选隐写序列为
Figure BDA0003218745080000056
候选隐写序列
Figure BDA0003218745080000057
的概率值为
Figure BDA0003218745080000058
t时刻的k个候选嵌入位置为ST1,...,STi,...STk,其中
Figure BDA0003218745080000061
计算每个满足嵌入条件的候选嵌入位置STi中所有候选项的平均概率值
Figure BDA0003218745080000062
根据候选嵌入位置的平均概率值,选择最高的两个候选嵌入位置STa和STb来编码秘密信息,其中
Figure BDA0003218745080000063
a表示平均概率值最大的候选嵌入位置,b表示平均概率值次大的候选嵌入位置;两个候选嵌入位置STa和STb分别编码为0和1,具体编码规则如下:
Figure BDA0003218745080000064
其中C(·)表示编码值。
所述的基于序列到隐写序列的自然语言信息隐藏方法,其中步骤3还包括:
嵌入步骤:
(1)确定当前t时刻是动点还是不动点;
(2)如果当前时刻是动点,则进行秘密信息嵌入。当待嵌入的秘密信息比特为m=0时,选择STa中的k个候选序列作为t时刻的输出,即
Figure BDA0003218745080000065
Figure BDA0003218745080000066
当待嵌入的秘密信息比特为m=1时,选择STb中的k个候选序列作为t时刻的输出,即
Figure BDA0003218745080000067
Figure BDA0003218745080000068
(3)如果当前时刻是不动点,在当前时间步长t,隐写器对全部的候选嵌入位置ST={ST1,...,ST1,…,STk}中的全部k×k个候选隐写序列进行排序,选择排序后前k个概率值最高的候选序列记为
Figure BDA0003218745080000071
作为t时刻的输出,
所述的基于序列到隐写序列的自然语言信息隐藏方法,其中步骤3还包括:
(4)重复进行步骤(1)到步骤(3)的操作,直到将秘密信息全部嵌入完毕,进入步骤(5);
(5)在遇到结束符或达到最大长度之前,将之后的所有时刻视为不动点来进行信息嵌入,最终得到k个候选隐写摘要文本,选择概率值最高的候选隐写摘要文本作为最终隐写摘要文本Y。
所述的基于序列到隐写序列的自然语言信息隐藏方法,其中步骤3还包括:
提取步骤:
接收方在接收到发送方通过公开渠道所发送的源文本即原始长文本和含有秘密信息的隐写摘要文本后,再根据发送方秘密提供的秘密信息长度、起始标志符等参数信息以及训练好的序列到隐写序列模型提取隐写摘要文本中秘密信息,具体的提取步骤如下:
(1)把源文本输入到训练好的语言编码器中,得到t时刻上下文向量
Figure BDA0003218745080000072
和注意力分布at,并输入隐写器,结合t时刻之前生成的候选摘要序列,预测得到词汇表和源文本中所有词作为t时刻生成词的概率分布;
(2)隐写器进行动点判断:
如果当前t时刻是动点,则隐写器根据动点隐写编码的规则对两个候选嵌入位置STa和STb进行编码,设隐写摘要文本中当前t时刻的词为Wt',则遍历STa和STb中t时刻预测生成的候选词Wa1,Wa2,...,Wak和Wb1,Wb2,...,Wbk,如果Wt'=Waj,j∈[1,k],则当前t时刻提取的秘密信息比特值m=C(STa)=0,并输出STa中的k个候选序列作为下一时刻隐写器的输入;如果Wt'=Wbj,j∈[1,k],则当前t时刻提取的秘密信息比特值m=C(STb)=1,并输出STb中的k个候选序列作为下一时刻隐写器的输入;
如果当前t时刻是不动点,则表示该位置没有嵌入信息,不进行信息提取,按照不动点优化输出的原则,输出当前时刻概率最高的k个摘要生成序列
Figure BDA0003218745080000081
(3)重复步骤(1)和(2),直到秘密信息提取完毕。
附图说明
图1为基于序列到隐写序列的自然语言信息隐藏方法的生成框架示意图;
图2(a)为序列到隐写序列模型的训练模式示意图;
图2(b)为序列到隐写序列模型的信息嵌入模式示意图;
图2(c)为序列到隐写序列模型的信息提取模式示意图;
图3为基于多候选的动态隐写编码示例图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细说明。
如图1所示,基于序列到隐写序列模型的自然语言信息隐藏方法是基于序列到隐写序列模型框架实现的,该序列到隐写序列模型框架主要包括语言编码器和隐写器。语言编码器将模型的输入编码,得到编码器的隐藏状态。隐写器根据编码器的隐藏状态进行解码,将秘密信息值编码在解码出的输出词中。如图2所示,序列到隐写序列模型有三种工作模式,隐写自由模式、隐写强制模式和隐写解码模式。给定输入语句X={x1,x2,…xl},其中xt表示输入的第t个词;语言编码器在每个时间步t,将输入语句X编码成隐藏状态ht。将语言编码器的隐藏状态输入隐写器,在秘密信息M={m1,m2,…mn}的控制下,获得目标隐写语句Y={y1,y2,…yn},其中yt表示生成的第t个隐写词。为了通过学习编码X、在解码生成Y时成功编码M,需要建模条件概率分布P(Y|(X,M))。因此需要先训练序列到隐写序列模型,如图2(a)所示,再生成目标隐写序列,如图2(b)所示,从隐写序列中提取秘密信息,则如图2(c)所示,即序列到隐写序列模型将工作在三种模式下:训练过程的隐写自由模式;信息嵌入过程的隐写强制模式;信息提取过程的隐写解码模式。
具体的,基于序列到隐写序列模型的自然语言信息隐藏方法包括以下步骤:
步骤1.数据预处理
对文本数据集(例如网络上已公开的文本数据集)所包含的文本内容进行分词,并且对词的统计学信息进行搜集统计,得出词汇表、词频。利用语料库训练分布式词向量表示模型,获得词汇表中每个词的稠密低维词向量。本发明采用word2vec模型进行词向量化操作。
根据训练好的word2vec模型,对每个单词进行编码,将每个字符编码成长度为M的向量,得到分布式词向量模型。例如对于“To whom is”中的“is”,使用word2vec模型向量化编码后,得到的向量为[0.28079075,-0.2484336,0.52032655,0.46205002,-0.50065434,…,-0.61036223,-0.48353505,0.7677468,0.5001733,0.16053177]。
步骤2.语言编码
将长文本作为源文本,经过数据预处理步骤,转换成词向量形式,输入到语言编码器,语言编码器用BI-LSTM(双向长短期记忆模型)进行编码,由此产生固定长度的语言编码器隐藏状态hi,其中长文本中的每一个词向量对应一个语言编码器隐藏状态hi。再结合隐写器的隐藏状态st,计算注意力分布:
Figure BDA0003218745080000101
其中,v,Ws,Wh,battn都为神经网络学习到的参数,
Figure BDA0003218745080000102
为摘要文本中第t个词与源文本中第i个词的相关性,注意力分布at可以看作是输入序列概率分布,可以表示长文本(源文本)中每一个词的重要程度,隐写器可据此去确定在哪里寻找产生摘要中的下一个词。
语言编码器根据注意力分布产生一个语言编码器的隐藏状态加权和,即上下文向量
Figure BDA0003218745080000103
Figure BDA0003218745080000111
上下文向量
Figure BDA0003218745080000112
可以看作是在当前步骤下从源文本中读取到的信息的一个聚合。
经过上述过程后,编码器最终输出一个上下文向量
Figure BDA0003218745080000117
和一个输入序列概率分布at(即注意力分布)。
为了解决文本摘要中存在重复性的问题,本发明还计算一个概率覆盖向量(Coverage vector):
Figure BDA0003218745080000113
概率覆盖向量是隐写器t时刻之前所有注意力分布之和,ct是代表分布在源文本中词的覆盖程度。使用概率覆盖向量去更新注意力分布计算公式(3):
Figure BDA0003218745080000114
用公式(6)代替公式(3)中的第一步计算,能够优化注意力分布at的值。这将使得注意力机制更容易避免关注重复相同的位置,从而避免产生重复的文本。
步骤3.信息隐写
隐写器接收语言编码器输出的上下文向量
Figure BDA0003218745080000115
再由其和隐写器的隐藏状态st一起通过两个线性层,产生词汇表概率分布Pvocab
Figure BDA0003218745080000116
Pvocab是词汇表中所有单词的概率分布,即词汇表中的所有单词在源文本的每个词向量位置处出现的概率,b,b’都是神经网络学习到的参数。
隐写器将所得到的上下文向量
Figure BDA0003218745080000121
隐写器隐藏状态St和隐写器当前时刻t的输入xt共同计算一个生成概率Pgen∈[0,1]:
Figure BDA0003218745080000122
xt是摘要文本向量,t=0,xt为预定义的起始词向量,t>0,xt为上一时刻隐写器输出词对应的词向量;bptr是神经网络学习到的参数。
生成概率Pgen∈[0,1]可看作一个软开关,在生成摘要时,根据Pgen可以选择是通过从Pvocab中取样以从词汇表中生成一个单词,或者,从输入序列概率分布at中取样,以从输入序列(源文本)中复制一个单词。
生成摘要文本中当前时刻的词W的概率由词汇表概率分布和输入序列概率at分布共同获得,如果W未在源文本中出现,即源文本中任意词Wi≠W,则注意力分布
Figure BDA0003218745080000123
如果W未在词汇表中出现,那么Pvocab为0。
Figure BDA0003218745080000124
P(W)表示词W作为摘要文本中t时刻生成词的预测概率值;通过公式(9)将计算词汇表和源文本中所有词的预测概率值。当Pgen=0,只从词汇表中选择单词,Pgen=1,从输入序列(源文本)复制单词。
通过上述过程,隐写器将预测得到t时刻生成词的概率分布,然后再利用设计好的基于多候选的动态隐写编码方法和秘密信息,对词概率分布进行选择,解码并输出所选择词概率对应的词,从而生成含秘密信息的隐写摘要文本。
生成的含有秘密信息的隐写文本的安全性,即隐蔽性和抗隐写分析能力,与隐写文本的质量直接相关。已有生成式自然语言信息隐藏研究通常是通过秘密信息控制下一个生成词的选择,选择不同的生成词则成功编码不同的秘密信息,这意味着生成的隐写文本将随着秘密信息的不同动态改变,从而生成的隐写文本质量存在一定程度的差异。
为了提高生成的隐写文本质量,一方面考虑到某些时刻可供选择用于嵌入信息的词概率相差过大,不适合用于嵌入信息,另一方面考虑到词之间的长距离依赖关系不能仅仅依赖当前时刻的预测概率来判断长词序列的质量,本发明提出了基于多候选的动态隐写编码方法(Multi-candidates-based dynamic steganographic coding method MCDSC)。该方法包括:1)动点判断:根据预测的概率分布的集中程度,判断候选嵌入位置是否满足隐写的要求,动态选择合适的嵌入位置;2)不动点优化输出:对于不动点,对所有候选嵌入位置的候选词,按照一定的规则进行排序,选择相对合适的多个候选词作为输出;3)动点隐写编码:对于动点,利用具有多个候选词的候选嵌入位置的编码,使多个候选词将编码相同的秘密信息以增加编码冗余,提高生成隐写文本的多样性,尽力避免陷入局部最优。
MCDSC包括三个部分操作:1)动点判断、2)不动点优化输出、3)动点隐写编码。下面从这三部分详细介绍MCDSC的原理。
1)动点判断
在隐写摘要文本生成过程中,MCDSC每个时刻将输出k个序列,作为候选嵌入位置。t=0时刻,不嵌入秘密信息,初始化k个起始序列。对于第i(0<i≤k)个候选嵌入位置,MCDSC根据t-1时刻生成的候选词作为隐写器的输入,利用隐写器预测该候选嵌入位置在t时刻词汇表和源文本中所有词作为生成词的概率分布{P(W),W∈词汇表与源文本所有词的并集},然后选择词概率分布最高的k个作为候选词概率,记为{P'(W),W∈词汇表与源文本所有词的并集}。根据候选词概率分布{P'(W),W∈词汇表与源文本所有词的并集},MCDSC将评估每个候选嵌入位置是否适合嵌入秘密信息。只有所有候选嵌入位置均满足嵌入条件的时刻才允许在文本生成过程中嵌入信息。因此,MCDSC引入动点和不动点的概念。具体定义如下:
定义1:动点指满足秘密信息嵌入要求的候选嵌入位置数大于1个的词生成时刻。
定义2:不动点指满足秘密信息嵌入要求的候选嵌入位置数小于2个的词生成时刻。
根据上述定义可知,动点适合嵌入秘密信息。可用于嵌入信息的候选嵌入位置数越多,则动点嵌入的秘密信息越多,即每一个候选嵌入位置可编码秘密信息的一种取值状态。因此,动点需要至少包括2个可用的候选嵌入位置,即编码1比特信息的两种取值状态“0”和“1”。从而可以根据候选嵌入位置的选择,可嵌入不同的秘密信息值。当可用的候选嵌入位置仅1个时,则为不动点,无法嵌入秘密信息。
MCDSC在衡量候选嵌入位置是否满足秘密信息嵌入要求时,不仅考虑了该候选嵌入位置的各候选词之间的概率差异,还考虑了与前面时刻已生成隐写文本序列的联合概率。假设t-1时刻生成的第i个候选嵌入位置的隐写序列为
Figure BDA0003218745080000151
i表示候选位置的序号,根据训练好的序列到隐写序列模型,预测t时刻的词概率分布,取概率最高的k个词作为候选词。设按降序排列后的候选词分别为:Wi1,Wi2,...,Wik,记候选词与候选隐写序列组成的联合序列即候选嵌入位置为
Figure BDA0003218745080000152
秘密信息嵌入条件定义如下:
Figure BDA0003218745080000153
其中P(stij)表示词序列stij的概率值,由隐写器根据词序列stij中每个词的生成概率值计算得出;α、β为阈值。如果满足上述条件的候选嵌入位置STi的数量至少有2个,则当前t时刻为动点,将用来嵌入信息;否则为不动点,不能用来嵌入信息。根据嵌入条件MCDSC将对每个生成时刻进行动点与不动点的判定,从而在文本生成过程中动态地选择时刻嵌入秘密信息。如图2所示,t=1时刻有k个候选嵌入位置
Figure BDA0003218745080000154
对于每一个候选嵌入位置
Figure BDA0003218745080000155
需要根据训练好的序列到隐写序列模型,预测t=1时刻的词概率分布,取概率最高的k个词作为候选词Wi1,Wi2,...,Wik来判断该嵌入位置
Figure BDA0003218745080000156
是否满足条件(10)。当k个候选嵌入位置ST1,...,ST1,…,STk中最多只有一个满足条件(10),则t=1时刻为不动点,当k个候选嵌入位置ST1,...,ST1,…,STk中至少有两个满足条件(10),则t=1时刻为动点。
2)不动点优化输出
对于不动点时刻t,设t时刻k个候选嵌入位置为ST1,...,STi,...STk,其中
Figure BDA0003218745080000161
MCDSC将按照序列概率值P(stij)对k×k个联合序列stij降序排序,st'11,...,st'1k,...,st'k1,...,st'kk,最后选择概率值最高的k个序列st'11,...,st'1k作为当前时刻的输出,即
Figure BDA0003218745080000162
其中
Figure BDA0003218745080000163
如图5所示的t=1不动点时刻。
3)动点隐写编码
对于动点时刻t,设t-1时刻生成的候选隐写序列为
Figure BDA0003218745080000164
候选隐写序列
Figure BDA0003218745080000165
的概率值为
Figure BDA0003218745080000166
t时刻的k个候选嵌入位置为ST1,...,STi,...STk,其中
Figure BDA0003218745080000167
计算每个满足嵌入条件的候选嵌入位置STi中所有候选项的平均概率值
Figure BDA0003218745080000168
根据候选嵌入位置的平均概率值,选择最高的两个候选嵌入位置STa和STb来编码秘密信息。其中
Figure BDA0003218745080000169
a表示平均概率值最大的候选嵌入位置,b表示平均概率值次大的候选嵌入位置。
两个候选嵌入位置STa和STb分别编码为0和1,具体编码规则如下:
Figure BDA00032187450800001610
其中C(·)表示编码值。
嵌入时:
(1)根据动点判断中的定义1与定义2,确定当前t时刻是动点还是不动点。
(2)如果当前时刻是动点,则进行秘密信息嵌入。当待嵌入的秘密信息比特为m=0时,MCDSC选择STa中的k个候选序列作为t时刻的输出,即
Figure BDA0003218745080000171
Figure BDA0003218745080000172
当待嵌入的秘密信息比特为m=1时,MCDSC选择STb中的k个候选序列作为t时刻的输出,即
Figure BDA0003218745080000173
Figure BDA0003218745080000174
(3)如果当前时刻是不动点,在当前时间步长t,隐写器会对全部的候选嵌入位置ST={ST1,...,ST1,…,STk}中的全部k×k个候选隐写序列进行排序,选择排序后前k个概率值最高的候选序列记为
Figure BDA0003218745080000175
作为t时刻的输出,具体细节如图2中不动点模块所示。
(4)重复进行步骤(1)到步骤(3)的操作,直到将秘密信息全部嵌入完毕,进入步骤(5)。
(5)在遇到结束符或达到最大长度之前,将之后的所有时刻视为不动点来进行信息嵌入,最终得到k个候选隐写摘要文本,选择概率值最高的候选隐写摘要文本作为最终隐写摘要文本Y。
提取时:
接收方在接收到发送方通过公开渠道所发送的源文本(原始长文本)和含有秘密信息的隐写摘要文本后,再根据发送方秘密提供的秘密信息长度、起始标志符等参数信息以及训练好的序列到隐写序列模型提取隐写摘要文本中秘密信息,具体的提取步骤如下:
(1)把源文本输入到训练好的语言编码器中,得到t时刻上下文向量
Figure BDA0003218745080000181
和注意力分布at,并输入隐写器,结合t时刻之前生成的候选摘要序列,预测得到词汇表和源文本中所有词作为t时刻生成词的概率分布。
(2)隐写器使用MCDSC方法进行动点判断:
如果当前t时刻是动点,则隐写器根据动点隐写编码对两个候选嵌入位置STa和STb进行编码,然后进行信息提取。设隐写摘要文本中当前t时刻的单词为Wt',则遍历STa和STb中t时刻预测生成的候选词Wa1,Wa2,...,Wak和Wb1,Wb2,...,Wbk。如果Wt'=Waj,j∈[1,k],则当前t时刻提取的秘密信息比特值m=C(STa)=0,并输出STa中的k个候选序列作为下一时刻隐写器的输入;如果Wt'=Wbj,j∈[1,k],则当前t时刻提取的秘密信息比特值m=C(STb)=1,并输出STb中的k个候选序列作为下一时刻隐写器的输入。
(3)重复步骤(1)和(2),直到秘密信息提取完毕。

Claims (2)

1.一种基于序列到隐写序列的自然语言信息隐藏方法,其特征在于包括以下步骤:
步骤1.数据预处理;
步骤2.语言编码;
步骤3.信息隐写;
其中步骤1包括:对文本数据集所包含的文本内容进行分词,并且对词的统计学信息进行搜集统计,得出词汇表、词频,利用语料库训练分布式词向量表示模型,获得词汇表中每个词的稠密低维词向量。
2.根据权利要求1所述的基于序列到隐写序列的自然语言信息隐藏方法,其特征在于步骤2包括:
将长文本作为源文本发送给语言编码器,语言编码器将源文本通过分布式词向量模型转换成向量作为输入并进行编码,产生固定长度的语言编码器隐藏状态hi
CN202110951492.2A 2021-08-19 2021-08-19 一种基于序列到隐写序列的自然语言信息隐藏方法 Withdrawn CN113657107A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110951492.2A CN113657107A (zh) 2021-08-19 2021-08-19 一种基于序列到隐写序列的自然语言信息隐藏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110951492.2A CN113657107A (zh) 2021-08-19 2021-08-19 一种基于序列到隐写序列的自然语言信息隐藏方法

Publications (1)

Publication Number Publication Date
CN113657107A true CN113657107A (zh) 2021-11-16

Family

ID=78481163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110951492.2A Withdrawn CN113657107A (zh) 2021-08-19 2021-08-19 一种基于序列到隐写序列的自然语言信息隐藏方法

Country Status (1)

Country Link
CN (1) CN113657107A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257697A (zh) * 2021-12-21 2022-03-29 四川大学 一种高容量通用图像信息隐藏方法
CN114462018A (zh) * 2022-01-10 2022-05-10 电子科技大学 一种基于Transformer模型和深度强化学习的密码猜测系统及方法
CN114926706A (zh) * 2022-05-23 2022-08-19 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257697A (zh) * 2021-12-21 2022-03-29 四川大学 一种高容量通用图像信息隐藏方法
CN114462018A (zh) * 2022-01-10 2022-05-10 电子科技大学 一种基于Transformer模型和深度强化学习的密码猜测系统及方法
CN114462018B (zh) * 2022-01-10 2023-05-30 电子科技大学 一种基于Transformer模型和深度强化学习的密码猜测系统及方法
CN114926706A (zh) * 2022-05-23 2022-08-19 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备
CN114926706B (zh) * 2022-05-23 2024-07-09 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN113657107A (zh) 一种基于序列到隐写序列的自然语言信息隐藏方法
Yang et al. TS-RNN: Text steganalysis based on recurrent neural networks
CN109711121B (zh) 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
CN113300813B (zh) 基于注意力的针对文本的联合信源信道方法
CN111241829B (zh) 一种基于神经网络的智能歌词修改方法及辅助系统
CN113987129A (zh) 基于变分自动编码器的数字媒体保护文本隐写方法
CN108763230B (zh) 利用外部信息的神经机器翻译方法
Wang et al. GAN-GLS: Generative Lyric Steganography Based on Generative Adversarial Networks.
Yang et al. Graph-Stega: Semantic controllable steganographic text generation guided by knowledge graph
CN113343250B (zh) 一种基于主题引导的生成式文本隐蔽通信方法
CN113360601A (zh) 一种融合主题的pgn-gan文本摘要模型
CN111859407A (zh) 基于候选池自收缩机制的文本自动生成隐写方法
CN115470799B (zh) 一种用于网络边缘设备的文本传输和语义理解一体化方法
CN115828902A (zh) 一种基于神经语言模型的保护文档版权的数字水印方法
CN114444488B (zh) 一种少样本机器阅读理解方法、系统、设备及存储介质
CN115270917A (zh) 一种两阶段处理多模态服装图像生成方法
Wu et al. AMR Steganalysis based on Adversarial Bi-GRU and Data Distillation
CN113191165B (zh) 一种规避机器翻译译文片段重复的方法
Wang et al. PNG-Stega: Progressive non-autoregressive generative linguistic steganography
Weng et al. Robust Semantic Communications for Speech-to-Text Translation
CN116468005B (zh) 基于文本改写模型的隐写文本生成方法
Xi et al. Variational neural inference enhanced text semantic communication system
CN115422912A (zh) 一种信息隐藏方法
CN110543771A (zh) 基于困惑度计算的高隐蔽性自动生成文本的隐写方法
JP3203544B2 (ja) テキスト最尤復号方法及び最尤復号装置と、データ通信ネットワーク装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211116

WW01 Invention patent application withdrawn after publication