CN108681536B - 一种基于汉语拼音多重映射的无载体隐写方法 - Google Patents

一种基于汉语拼音多重映射的无载体隐写方法 Download PDF

Info

Publication number
CN108681536B
CN108681536B CN201810392047.5A CN201810392047A CN108681536B CN 108681536 B CN108681536 B CN 108681536B CN 201810392047 A CN201810392047 A CN 201810392047A CN 108681536 B CN108681536 B CN 108681536B
Authority
CN
China
Prior art keywords
syllable
sequence
tone
identification value
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810392047.5A
Other languages
English (en)
Other versions
CN108681536A (zh
Inventor
王开西
孙志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University
Original Assignee
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University filed Critical Qingdao University
Priority to CN201810392047.5A priority Critical patent/CN108681536B/zh
Publication of CN108681536A publication Critical patent/CN108681536A/zh
Application granted granted Critical
Publication of CN108681536B publication Critical patent/CN108681536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0435Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply symmetric encryption, i.e. same key used for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于汉语拼音多重映射的文本无载体隐写方法,涉及信息隐藏技术领域中基于文本载体处理技术的隐写术,主要实现了一种新型的文本无载体隐写方案。本发明重在寻找文本隐性空间以及构建映射关系实现秘密消息的隐写,实现了将秘密消息映射到文本载体隐性拼音空间,拼音空间到文本载体音节声调表,再到文本载体的多重映射。无论是隐写过程还是提取过程,关键在于构建与解析汉字和拼音具有一一映射关系的汉字拼音共享字典、文本载体的汉字拼音空间、秘密消息的音节标识值序列和声调标识值序列、以及和这两个序列对应的密钥。本发明基于映射关系的构造不易被检测,而且实现难度小、容量相对较大。

Description

一种基于汉语拼音多重映射的无载体隐写方法
技术领域
本发明涉及信息隐藏技术领域,特别是一种基于汉语拼音多重映射的文本无载体隐写方法。
背景技术
秘密通信、版权保护、数字取证等需求促进了信息隐藏技术的发展。文本仍是信息化时代信息交流的最主要载体形式。通过文本实现隐藏秘密消息进行通信是当前秘密通信的亟需方式和方法。隐写术的目的是构造一个安全、隐蔽的通信通道,隐藏秘密消息的存在。隐写术被广泛的应用于秘密通信领域,完善当前信息安全领域的通信安全问题。
现有的隐写术方法根据载体类型的不同常分为以下五类:文本隐写术、图像隐写术、音频隐写术、视频隐写术、协议隐写术。根据是否修改文本可将文本隐写术分为载体文本隐写术和无载体文本隐写术。载体文本隐写术基于不可见字符、词汇、句式和文本格式等特征的修改进行隐写;无载体文本隐写术为基于搜索或生成等方法,既不对文本载体做任何不可见字符、字符特征、文本特征的修改操作,而且不对文本载体进行语言学的替换操作。通过原始文本与伪装文本的对比或特征分析,现有载体文本隐写方法很容易被检测发现,同时由于冗余度小而存在容量小、实现难度大等问题;另外,文本载体特征的有限性导致难以在原有方法的基础上进行容量的扩充。而当前的无载体文本隐写普遍存在隐写容量小的问题。
发明内容
为解决上述问题,本发明提供一种基于汉语拼音多重映射的无载体文本隐写方法,通过文本载体空间到文本载体拼音空间的映射完成发送方和接收方的秘密通信。本发明借助自然语言处理技术实现文本载体空间到文本载体拼音空间的映射,在选择载体时基于文本相似性选择和秘密消息相似度低的文本载体,有效抵抗现有的修改法检测、统计特征检测等。
本发明解决技术问题所采用的技术方法是:一种基于汉语拼音多重映射的无载体隐写方法,发送方与接收方拥有共同的密钥、文本载体库和汉字拼音共享字典。该方法主要分为三个过程:建立汉字拼音共享字典、隐写过程、提取过程。
一、建立汉字拼音共享字典,由发送方和接收方共享。
为消除汉语拼音中同音字、多音字对本发明中隐写方法的影响,本方法把拼音分成音节和声调两部分,并将它们的组合与汉字实现一一映射;可以通过增加音节或声调扩展这种一一映射关系。以2000常用字为例,可与400个音节和5种声调的2000种组合方式形成一一映射关系;在需要建立4000常用字的汉字拼音共享字典时,可以通过增加5种声调或400个音节来实现。
二、一种基于汉语拼音多重映射的无载体隐写方法的隐写过程。隐写过程分为三个步骤:构建文本载体和文本载体拼音空间的映射关系,选择文本载体;构建秘密消息的音节标识值序列和声调标识值序列;构建秘密消息的音节标识值与声调标识值序列的对应密钥。
步骤一:构建文本载体和文本载体拼音空间的映射关系,选择文本载体
1.基于汉字拼音共享字典将文本载体库中的所有文本处理成英式拼音文本,然后对每个英式拼音文本中的音节分别统计其使用频率,并按降序的方式排成音节使用频率表;若音节使用频率相同,按照音节在英式拼音文本中的首次出现顺序进行排序,得到各个文本的音节使用频率表,包含<序号、音节、频率>三列。
2.对秘密消息进行拼音处理得到英式拼音,将秘密消息英式拼音中的音节和声调数值分别构成有序序列S1和S2,并记录秘密消息中的最大重复音节数G。
S1=<Xi> (Xi为秘密消息中第i个汉字的音节) (1)
S2=<Xj> (Xj为秘密消息中第j个汉字的声调) (2)
3.计算音节哈希值。音节哈希值用来表示秘密消息的音节序列中的音节在某文本的音节使用频率表中是否存在,其定义如下:
HK(t) = <H1,…,Hi,…,H Lsecret>(i=1,2,…,Lsecret) (3)
其中,Lsecret表示秘密消息长度,t是指文本载体库中某个文本,Hi是一个布尔类型的数值,由下面的函数定义:
Figure DEST_PATH_IMAGE001
(4)
4.计算音节文本距离(STD),其定义如下:
STD(t) = HD(HK(t),<b1,b2,…,b Lsecret>)bi=0,i=1,2,…,Lsecret (5)
HD()函数代表汉明距离计算操作,<b1,b2,…,b Lsecret>是一个全为0的序列。当STD(t) =Lsecret时,表示秘密消息的所有音节都出现在文本t中,文本t即可作为秘密消息的候选载体,将所有候选载体组成候选载体组。
5.将候选组中的文本与秘密消息进行相似性度量,选择一个与秘密消息的相似性最低的文本作为载体。
步骤二:构建秘密消息的音节标识值序列S3和声调标识值序列S4
1.基于音节使用频率表,增加音节标识值和声调标识值两列,构建音节声调表。
(1)音节标识值列的值确定方式是:设音节使用频率表中序号为1的音节标识值为1,序号为n的行对应的音节标识值为1+(n-1)*k。这里,k需要满足以下两个条件:
(I)k>G,以保证当秘密消息有重复音节时构造的音节标识值不重复;
(II)k大于Lsecret的所有质因数。
Lsecret的最大质因数为P max,则综合上述两个条件,k为:
k= min{p|p是一个质数且p>max{G,P max}} (6)
(2)声调标识值列的值确定方式是:设音节使用频率表中序号为1的声调标识值为1,序号为n的行对应的声调标识值为1+(n-1)*d。这里,d为声调的种类数量,缺省使用五种声调,故d缺省取值为5。
2.构建秘密消息音节标识值序列S3
依次在音节声调表中搜索秘密消息音节序列S1中音节所对应的音节标识值,并基于该音节在秘密消息中出现的次数构建秘密消息音节标识值序列S3。该序列的通项表达式为:
S3中第i项音节标识值=S1中第i项音节在音节声调表对应的音节标识值+该音节在S1中重复出现的次序 -1; (7)
即完整的秘密消息音节标识值序列S3为:
S3= <S3中第i项音节标识值>,i∈[1,Lsecret] (8)
3.构建秘密消息的声调标识值序列S4
秘密消息的声调标识值序列S4由秘密消息的声调值序列S2结合对应音节的声调标识值组成,该序列的通项表达式为:
S4中第j项音节声调标识值=Xj+该音节在音节声调表中的音节声调标识值 (9)
S4=<S4中第j项音节声调标识值>,j∈[1,Lsecret] (10)
步骤三:构建秘密消息的音节标识值与声调标识值序列的对应密钥
1.给定序列:SEQ = <1,2,…,N>,这里N为秘密消息的音节标识值和声调标识值中的最大值。
2.从SEQ中取长度为Lsecret的子序列的排列总数为P(N,Lsecret),将这P(N,Lsecret)个序列映射到相应的种子数,其中必有两个子序列分别为秘密消息的音节标识值序列S3和声调标识值序列S4,记它们相对应的种子数x1和x2
3.以x1和x2作为密钥,接收方要顺利提取秘密消息还需要知道k的取值和秘密消息的长度Lsecret。记密钥x3为k与Lsecret的乘积。此时只需要将无任何修改的正常文本作为文本载体传输给接收方,接收方通过密钥x1、x2和x3可实现对秘密消息的提取。
三、一种基于汉语拼音多重映射的无载体隐写方法的提取过程。提取过程分为三个步骤:解析密钥,得到音节标识值序列S3和声调标识值序列S4;解析解析得到秘密消息的音节序列S1和声调序列S2;基于汉字拼音共享字典,求得秘密消息。具体说明如下:
步骤一:解析密钥,得到音节标识值序列S3和声调标识值序列S4
1.接收端将收到的密钥作为种子数求得相应的序列。首先将x3分解成质数的乘积,得到的所有质数中最大的质数即为k,除去这个最大质数,其他质数的乘积为秘密消息的长度Lsecret。
2.根据接收到的文本载体和k值按照前述的隐写过程步骤构建音节声调表。
3.根据音节声调表以及k和Lsecret,将所求得的两个序列区分为音节标识值序列S3和声调标识值序列S4
步骤二:解析得到秘密消息的音节序列S1和声调序列S2
根据上面步骤一构建的音节声调表和k值将音节标识值序列S3和声调标识值序列S4转换成音节序列S1和声调序列S2
1.将音节标识值序列与音节声调表中的音节标识值进行比较,若音节标识值序列中元素在[1+(n-1)k,1+nk)集合中,则该音节标识值对应的音节是音节声调表中音节标识值1+(n-1)k对应的音节,提取所有音节构成音节序列S1
2.利用音节声调表中声调标识值的计算公式反向求解声调的值,构成声调序列S2
步骤三:基于汉字拼音共享字典,求得秘密消息
根据步骤二所求得的S1和S2组合的英式拼音,在汉字拼音共享字典找到对应汉字,得到的汉字序列即为秘密消息。
本发明的有益效果为:基于汉语拼音构造了一种秘密消息到汉语拼音,汉语拼音到文本载体的音节声调表、再到文本载体的多重间接映射关系,实现文本无载体隐写。本发明基于映射关系的构造不易被检测,而且实现难度小、容量相对较大。
附图说明
图1为本发明的隐写过程示意图;
图2为本发明的提取过程示意图;
图3为本发明构建的音节声调表实例图。
具体实施方式
本发明一种基于汉语拼音多重映射的无载体隐写方法,发送方与接收方拥有共同的密钥、文本载体库和汉字拼音共享字典,所以该方法主要分为三个过程:建立汉字拼音共享字典、隐写过程、提取过程。
下面结合图1、图2,对本发明的方法进一步详细说明。本发明一种基于汉语拼音多重映射的无载体隐写方法的具体操作过程如下:
一、建立汉字拼音共享字典:
1.构建汉字拼音共享字典,实现汉字和拼音的一一映射关系。本发明中将拼音分成音节和声调两部分进行处理,可通过增加音节和声调来实现汉字与音节和声调组合之间的一一映射关系。
2.以2000常用字为例。其可与400个音节和5种声调的2000种组合形成一一映射关系。具体的汉字拼音共享字典构造步骤如下:
(1)输入2000个常用字表与中文的400个音节和五种声调的2000种组合表;
(2)将常用字处理成英式拼音,按照出现顺序将后出现的重复英式拼音对应的汉字组合成重复英式拼音汉字表,剩下的常用字表即为不重复英式拼音汉字表,不重复英式拼音汉字和其英式拼音组合成不重复英式拼音表;
(3)删除2000种拼音组合表中出现在不重复拼音表中的拼音组合,剩下的拼音组合构成未使用英式拼音组合表;
(4)将重复英式拼音汉字表与未使用英式拼音组合表形成一一映射关系,再加上不重复英式拼音表,构建成汉字拼音共享字典。
3.需要表示更多汉字的汉字拼音共享字典时,可通过增加声调或音节个数实现。中国有着众多方言,可以融合这些方言中的音节和声调来增加声调和音节,建立更大容量的汉字拼音共享字典。
二、隐写过程:
隐写过程分为三个步骤:构建文本载体和文本载体拼音空间的映射关系,选择文本载体;构建秘密消息的音节标识值序列和声调标识值序列;构建密钥秘密消息的音节标识值与声调标识值序列的对应密钥。
步骤一:构建文本载体和文本载体拼音空间的映射关系,选择文本载体
1.基于汉字拼音共享字典将文本载体库中的所有文本处理成英式拼音文本,然后对每个英式拼音文本中的音节分别统计其使用频率,并按降序的方式排成音节使用频率表;若音节使用频率相同,按照音节在英式拼音文本中的首次出现顺序进行排序,得到各个文本的音节使用频率表,包含<序号、音节、频率>三列。
2.对秘密消息进行拼音处理得到英式拼音,将秘密消息英式拼音中的音节和声调数值分别构成有序序列S1和S2,并记录秘密消息中的最大重复音节数G。
S1=<Xi> (Xi为秘密消息中第i个汉字的音节) (1)
S2=<Xj> (Xj为秘密消息中第j个汉字的声调) (2)
3.计算音节哈希值。音节哈希值用来表示秘密消息的音节序列中的音节在某文本的音节使用频率表中是否存在,其定义如下:
HK(t) = <H1,…,Hi,…,H Lsecret>(i=1,2,…,Lsecret) (3)
其中,Lsecret表示秘密消息长度,t是指文本载体库中某个文本,Hi是一个布尔类型的数值,由下面的函数定义:
Figure 879158DEST_PATH_IMAGE001
(4)
4.计算音节文本距离(STD),其定义如下:
STD(t) = HD(HK(t),<b1,b2,…,b Lsecret>)bi=0,i=1,2,…,Lsecret (5)
HD()函数代表汉明距离计算操作,<b1,b2,…,b Lsecret>是一个全为0的序列。当STD(t) =Lsecret时,表示秘密消息的所有音节都出现在文本t中,文本t即可作为秘密消息的候选载体,将所有候选载体组成候选载体组。
5.将候选组中的文本与秘密消息进行相似性度量,如采用基于Jaccard相似系数来计算文本载体和秘密消息的相似度。具体操作步骤如下:
(1)使用中文分词将秘密消息和文本载体进行分词得到两个分词后的集合M1和T1
(2)根据中文常用虚词表,从集合M1和T1中选出虚词,组合成集合M2和T2
(3)经过M=M1-M2和T=T1-T2运算得秘密消息和文本载体的实词集合为M和T;
(4) 求取集合M英式拼音和集合T英式拼音的交集ME∩TE以及并集ME∪TE;
(5)利用公式Jaccard = (ME∩TE)/(ME∪TE)求得Jaccard相似系数。
6.对文本载体与秘密消息进行Jaccard相似系数计算,比较所有的相似系数值。当选择的文本和秘密消息的相似系数较大时,表明文本载体安全性较差;当选择的文本和秘密消息的相似系数较小时,表明文本载体安全性较好;选择一个与秘密消息的相似性最低的候选文本作为载体。
步骤二:构建秘密消息的音节标识值序列S3和声调标识值序列S4
1.基于音节使用频率表,增加音节标识值和声调标识值两列,构建音节声调表。
(1)音节标识值列的值确定方式是:设音节使用频率表中序号为1的音节标识值为1,序号为n的行对应的音节标识值为1+(n-1)*k。这里,k需要满足以下两个条件:
(I)k>G,以保证当秘密消息有重复音节时构造的音节标识值不重复。
(II)k大于Lsecret的所有质因数。
Lsecret的最大质因数为P max,则综合上述两个条件,k为:
k= min{p|p是一个质数且p>max{G,MAX}} (6)
(2)声调标识值列的值确定方式是:设音节使用频率表中序号为1的声调标识值为1,序号为n的行对应的声调标识值为1+(n-1)*d。这里,d为声调的种类数量,缺省使用五种声调,故d缺省取值为5。
2.构建秘密消息音节标识值序列S3
依次在音节声调表中搜索秘密消息音节序列S1中音节所对应的音节标识值,并基于该音节在秘密消息中出现的次数构建秘密消息音节标识值序列S3。该序列的通项表达式为:
S3中第i项音节标识值=S1中第i项音节在音节声调表对应的音节标识值+该音节在S1中重复出现的次序 -1; (7)
即完整的秘密消息音节标识值序列S3为:
S3=<S3中第i项音节标识值>,i∈[1,Lsecret] (8)
3.构建秘密消息的声调标识值序列S4
秘密消息的声调标识值序列S4由秘密消息的声调值序列S2结合对应音节的声调标识值组成,该序列的通项表达式为:
S4中第j项音节声调标识值=Xj+该音节在音节声调表中的音节声调标识值 (9)
S4=<S4中第j项音节声调标识值>,j∈[1,Lsecret] (10)
步骤三:构建密钥和序列的映射关系
1.给定序列:SEQ = <1,2,…,N>,这里N为秘密消息的音节标识值和声调标识值中的最大值。
2.从SEQ中取长度为Lsecret的子序列的排列总数为P(N,Lsecret),将这P(N,Lsecret)个序列映射到相应的种子数,其中必有两个子序列分别为秘密消息的音节标识值序列S3和声调标识值序列S4,记它们相对应的种子数x1和x2
3.以x1和x2作为密钥,接收方要顺利提取秘密消息还需要知道k的取值和秘密消息的长度Lsecret。记密钥x3为k与Lsecret的乘积。此时只需要将无任何修改的正常文本作为文本载体传输给接收方,接收方通过密钥x1、x2和x3可实现对秘密消息的提取。
三、提取过程:
提取过程也分为三个步骤:解析密钥,得到音节标识值序列S3和声调标识值序列S4;解析解析得到秘密消息的音节序列S1和声调序列S2;基于汉字拼音共享字典,求得秘密消息。具体说明如下:
步骤一:解析密钥,得到音节标识值序列S3和声调标识值序列S4
1.接收端将收到的密钥作为种子数求得相应的序列。首先将x3分解成质数的乘积,得到的所有质数中最大的质数即为k,除去这个最大质数,其他质数的乘积为秘密消息的长度Lsecret。
2.根据接收到的文本载体和k值按照前述的隐写过程步骤构建音节声调表。
3.根据音节声调表以及k和Lsecret,将所求得的两个序列区分为音节标识值序列S3和声调标识值序列S4
步骤二:解析得到秘密消息的音节序列S1和声调序列S2
根据上面步骤一构建的音节声调表和k值将音节标识值序列S3和声调标识值序列S4转换成音节序列S1和声调序列S2
1.将音节标识值序列与音节声调表中的音节标识值进行比较,若音节标识值序列中元素在[1+(n-1)k,1+nk)集合中,则该音节标识值对应的音节是音节声调表中音节标识值1+(n-1)k对应的音节,提取所有音节构成音节序列S1
2.利用音节声调表中声调标识值的计算公式反向求解声调的值,构成声调序列S2
步骤三:基于汉字拼音共享字典,求得秘密消息
根据步骤二所求得的S1和S2组合的英式拼音,在汉字拼音共享字典找到对应汉字,得到的汉字序列即为秘密消息。
以上为本发明的具体实施过程,仅作为对本发明的详尽说明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进,均应在本发明的保护范围之内。并且该说明不用于限制本发明的实现过程。
为更形象的表述实验结果及发明创造的有益效果,本发明以秘密消息“中国的文化”为例,文本载体选取搜狗实验室全网新闻数据集作为文本载体库。汉字拼音共享字典以及文本载体的选择在实例中不予详细说明,实例主要表明本发明隐写过程和提取过程的有益效果,并不用以限制本发明。结合图3,实例具体说明如下:
1.基于汉字拼音共享字典映射关系将秘密消息处理成英式拼音,并得到音节序列和声调序列:英式拼音<zhong1,guo2,de0,wen2,hua4>,音节序列S1=<zhong,guo,de,wen,hua>以及声调序列S2=<1,2,0,2,4>。
2.基于汉字拼音共享字典映射关系将选取的载体处理成英式拼音文本,统计文本的音节声调构建音节声调表实例图3。
3.根据音节声调表实例图构建音节、声调序列与音节标识值、声调标识值序列的映射关系,根据这种映射关系得到音节标识值序列S3=<43,106,22,113,302>和声调标识值序列S4=<32,78,16,83,220>。
4.构建和音节标识值和音调标识值序列的对应密钥分别为x1和x2,并且S3和x1、S4和x2的映射关系具有唯一性,能够实现独立并易于区分。即将x1和x2作为发送端和接收端共同拥有的密钥。
5.接收端同样拥有的有汉字拼音共享字典,文本载体以及密钥,利用密钥和序列的唯一映射关系,接收端能够得到与密钥x1和x2相对应的音节标识值和声调标识值序列S3和S4
6.接收端将文本载体处理成英式拼音文本,统计文本的音节声调构建音节声调表实例图,根据实例图、音节标识值序列S3以及声调标识值序列S4,可得到音节和声调序列S1和S2
7.将音节和声调组合成英式拼音,并将英式拼音作为Key值在汉字拼音共享字典中搜索其相对应的汉字,将所有汉字组合成汉字序列实现秘密消息的通信。

Claims (5)

1.一种基于汉语拼音多重映射的无载体隐写方法,其特征在于,包括:
步骤1、建立汉字拼音共享字典,把拼音分成音节和声调两部分,并将它们的组合与汉字实现一一映射;通过增加音节或声调扩展这种一一映射关系;
步骤2、发送方进行的隐写过程;
步骤3、接收方进行的提取过程;
发送方和接收方拥有共同的密钥、文本载体库和所述的汉字拼音共享字典;
所述的步骤2分为以下三个步骤:
步骤(2-1)构建文本载体和文本载体拼音空间的映射关系,选择文本载体;
步骤(2-2)构建秘密消息的音节标识值序列和声调标识值序列;
步骤(2-3)构建秘密消息的音节标识值与声调标识值序列的对应密钥;
所述的步骤(2-1)包括以下步骤:
A.基于所述的汉字拼音共享字典将文本载体库中的所有文本处理成英式拼音文本,然后分别统计每个英式拼音文本中音节的使用频率,并按降序的方式排成音节使用频率表;若音节使用频率相同,按照音节在英式拼音文本中的首次出现顺序进行排序,得到各个文本的音节使用频率表,包含<序号、音节、频率>三列;
B.对秘密消息进行拼音处理得到英式拼音,将秘密消息英式拼音中的音节和声调数值分别构成有序序列S1和S2,并记录秘密消息中的最大重复音节数G,即:
S1=<Xi>(Xi为秘密消息中第i个汉字的音节) (1)
S2=<Xj>(Xj为秘密消息中第j个汉字的声调) (2)
C.计算音节哈希值:音节哈希值用来表示秘密消息的音节序列中的音节在某文本的音节使用频率表中是否存在,其定义如下:
HK(t)=<H1,…,Hi,…,HLsecret>(i=1,2,…,Lsecret) (3)
其中,Lsecret表示秘密消息长度,t是指文本载体库中某个文本,Hi是一个布尔类型的数值,由下面的函数定义:
Figure FDA0003250079760000021
D.计算音节文本距离(STD),其定义如下:
STD(t)=HD(HK(t),<b1,b2,…,bLsecret>)bi=0,i=1,2,…,Lsecret (5)
HD()函数代表汉明距离计算操作,<b1,b2,…,bLsecret>是一个全为0的序列;当STD(t)=Lsecret时,表示秘密消息的所有音节都出现在文本t中,文本t即可作为秘密消息的候选载体,将所有候选载体组成候选载体组;
E.将候选载体组中的文本与秘密消息进行相似性度量,选择一个与秘密消息的相似性最低的文本作为载体;
所述的步骤(2-2)包括:
A.基于所述的音节使用频率表,增加音节标识值和声调标识值两列,构建音节声调表,具体方法如下:
(1)音节标识值列的值确定方式是:设音节使用频率表中序号为1的音节标识值为1,序号为n的行对应的音节标识值为1+(n-1)*k;这里,k需要满足以下两个条件:
(I)k>G,以保证当秘密消息有重复音节时构造的音节标识值不重复;
(II)k大于Lsecret的所有质因数;
设Lsecret的最大质因数为Pmax,则综合上述两个条件,k为:
k=min{p|p是一个质数且p>max{G,Pmax}} (6)
(2)声调标识值列的值确定方式是:设音节使用频率表中序号为1的声调标识值为1,序号为n的行对应的声调标识值为1+(n-1)*d,这里,d为声调的种类数量,缺省使用五种声调,故d缺省取值为5;
B.构建秘密消息音节标识值序列S3
依次在音节声调表中搜索秘密消息音节序列S1中音节所对应的音节标识值,并基于该音节在秘密消息中出现的次数构建秘密消息音节标识值序列S3;该序列的通项表达式为:
S3中第i项音节标识值=S1中第i项音节在音节声调表对应的音节标识值+该音节在S1中重复出现的次序-1; (7)
即完整的秘密消息音节标识值序列S3为:
S3=<S3中第i项音节标识值>,i∈[1,Lsecret] (8)
C.构建秘密消息的声调标识值序列S4
秘密消息的声调标识值序列S4由秘密消息的声调值序列S2结合对应音节的声调标识值组成,该序列的通项表达式为:
S4中第j项音节声调标识值=Xj+该音节在音节声调表中的音节声调标识值(9)
S4=<S4中第j项音节声调标识值>,j∈[1,Lsecret] (10);
所述的步骤(2-3)包括:
A.给定序列:SEQ=<1,2,…,N>,这里N为秘密消息的音节标识值和声调标识值中的最大值;
B.从SEQ中取长度为Lsecret的子序列的排列总数为P(N,Lsecret),将这P(N,Lsecret)个序列映射到相应的种子数,其中必有两个子序列分别为秘密消息的音节标识值序列S3和声调标识值序列S4,记它们相对应的种子数x1和x2
C.以x1和x2作为密钥,接收方要顺利提取秘密消息还需要知道k的取值和秘密消息的长度Lsecret;记密钥x3为k与Lsecret的乘积;此时只需要将无任何修改的正常文本作为文本载体传输给接收方,接收方通过密钥x1、x2和x3可实现对秘密消息的提取。
2.根据权利要求1所述的基于汉语拼音多重映射的无载体隐写方法,其特征在于,所述的步骤3分为三个步骤:
步骤(3-1):解析密钥,得到音节标识值序列S3和声调标识值序列S4
步骤(3-2):解析得到秘密消息的音节序列S1和声调序列S2
步骤(3-3):基于汉字拼音共享字典,求得秘密消息。
3.根据权利要求2所述的基于汉语拼音多重映射的无载体隐写方法,其特征在于,所述的步骤(3-1)包括以下步骤:
A.接收端将收到的密钥作为种子数求得相应的序列:首先将x3分解成质数的乘积,得到的所有质数中最大的质数即为k,除去这个最大质数,其他质数的乘积为秘密消息的长度Lsecret;
B.根据接收到的文本载体和k值按照前述的隐写过程的步骤构建音节声调表;
C.根据音节声调表以及k和Lsecret,将所求得的两个序列区分为音节标识值序列S3和声调标识值序列S4
4.根据权利要求2所述的基于汉语拼音多重映射的无载体隐写方法,其特征在于,所述的步骤(3-2)根据所述的步骤(3-1)构建的音节声调表和k值将音节标识值序列S3和声调标识值序列S4转换成音节序列S1和声调序列S2,具体方法如下:
A.将音节标识值序列与音节声调表中的音节标识值进行比较,若音节标识值序列中元素在[1+(n-1)k,1+nk]集合中,则该音节标识值对应的音节是音节声调表中音节标识值1+(n-1)k对应的音节,提取所有音节构成音节序列S1
B.利用音节声调表中声调标识值的计算公式反向求解声调的值,构成声调序列S2
5.根据权利要求2所述的基于汉语拼音多重映射的无载体隐写方法,其特征在于,所述的步骤(3-3)是根据步骤(3-2)所求得的S1和S2组合的英式拼音,在汉字拼音共享字典找到对应汉字,得到的汉字序列即为秘密消息。
CN201810392047.5A 2018-04-27 2018-04-27 一种基于汉语拼音多重映射的无载体隐写方法 Active CN108681536B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810392047.5A CN108681536B (zh) 2018-04-27 2018-04-27 一种基于汉语拼音多重映射的无载体隐写方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810392047.5A CN108681536B (zh) 2018-04-27 2018-04-27 一种基于汉语拼音多重映射的无载体隐写方法

Publications (2)

Publication Number Publication Date
CN108681536A CN108681536A (zh) 2018-10-19
CN108681536B true CN108681536B (zh) 2021-11-26

Family

ID=63802645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810392047.5A Active CN108681536B (zh) 2018-04-27 2018-04-27 一种基于汉语拼音多重映射的无载体隐写方法

Country Status (1)

Country Link
CN (1) CN108681536B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027081B (zh) * 2019-11-28 2023-03-31 中国人民解放军战略支援部队信息工程大学 基于特征映射的文本无载体信息隐藏方法
CN111447188B (zh) * 2020-03-20 2022-03-18 青岛大学 基于语言隐写特征空间的无载体文本隐写方法
CN112000970B (zh) * 2020-08-20 2023-05-23 湖南财政经济学院 一种基于部件关联图的文本无载体隐写方法及系统
CN117648906B (zh) * 2024-01-30 2024-04-05 北京点聚信息技术有限公司 一种版式文件隐写打印方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954315A (zh) * 2004-03-16 2007-04-25 Google公司 用于将汉语拼音翻译成汉字的系统和方法
CN101645061A (zh) * 2009-09-03 2010-02-10 张�浩 一种以文本信息为载体的信息隐藏方法
CN102456108A (zh) * 2011-06-22 2012-05-16 中标软件有限公司 一种ibus拼音码表的加密方法
CN106055531A (zh) * 2016-05-17 2016-10-26 南京航空航天大学 一种利用全宋词实现文本信息隐藏的技术
CN107947918A (zh) * 2017-10-26 2018-04-20 青岛大学 一种基于字符特征的无载体文本隐写方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055585A1 (en) * 2008-07-25 2011-03-03 Kok-Wah Lee Methods and Systems to Create Big Memorizable Secrets and Their Applications in Information Engineering
US9876765B2 (en) * 2014-01-17 2018-01-23 International Business Machines Corporation Transmitting a hidden communication
US10360395B2 (en) * 2014-11-28 2019-07-23 Fiske Software, Llc Hiding information in noise

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954315A (zh) * 2004-03-16 2007-04-25 Google公司 用于将汉语拼音翻译成汉字的系统和方法
CN101645061A (zh) * 2009-09-03 2010-02-10 张�浩 一种以文本信息为载体的信息隐藏方法
CN102456108A (zh) * 2011-06-22 2012-05-16 中标软件有限公司 一种ibus拼音码表的加密方法
CN106055531A (zh) * 2016-05-17 2016-10-26 南京航空航天大学 一种利用全宋词实现文本信息隐藏的技术
CN107947918A (zh) * 2017-10-26 2018-04-20 青岛大学 一种基于字符特征的无载体文本隐写方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Coverless Information Hiding Method Based on the Chinese Mathematical Expression;Xianyi Chen et al.;《ICCCS 2015》;20151231;第133-143页 *
Information Hiding: A New Approach in Text Steganography;L. Y. POR et al.;《7th WSEAS Int. Conf. on APPLIED COMPUTER & APPLIED COMPUTATIONAL SCIENCE (ACACOS "08)》;20080408;第689-695页 *
基于汉字拼音声调的文本水印算法;赵理等;《计算机工程》;20090531;第35卷(第10期);第142-144页 *
基于网络文本大数据的信息隐藏方法;师尚伟等;《小型微型计算机系统》;20170228;第38卷(第2期);第227-231页 *

Also Published As

Publication number Publication date
CN108681536A (zh) 2018-10-19

Similar Documents

Publication Publication Date Title
CN108681536B (zh) 一种基于汉语拼音多重映射的无载体隐写方法
Yang et al. A fast and efficient text steganalysis method
Majeed et al. A review on text steganography techniques
Niu et al. A hybrid R-BILSTM-C neural network based text steganalysis
Shirali-Shahreza Text steganography by changing words spelling
CN109766432B (zh) 一种基于生成对抗网络的中文摘要生成方法和装置
Majumder et al. A novel approach for text steganography: generating text summary using reflection symmetry
CN109711121A (zh) 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
CN108418683A (zh) 一种基于汉字结构特征的无载体文本隐写方法
CN111797409A (zh) 一种大数据中文文本无载体信息隐藏方法
Li et al. Generating steganographic image description by dynamic synonym substitution
Wang et al. GAN-GLS: Generative Lyric Steganography Based on Generative Adversarial Networks.
CN111222329B (zh) 句向量训练方法及模型、句向量预测方法及系统
Zheng et al. Autoregressive linguistic steganography based on BERT and consistency coding
Kwon Friend-guard textfooler attack on text classification system
Khairullah et al. Steganography in bengali unicode text
Kilichev et al. Errors in SMS to hide short messages
Changder et al. A new approach to Hindi text steganography by shifting matra
Chang Reversible linguistic steganography with bayesian masked language modeling
Long et al. Text coverless information hiding based on word2vec
Liu et al. Multi-keywords carrier-free text steganography method based on Chinese pinyin
CN111555960A (zh) 信息生成的方法
Peng et al. Cross-modal text steganography against synonym substitution-based text attack
Majumder et al. A generalized model of text steganography by summary generation using frequency analysis
CN114528944A (zh) 一种医疗文本编码方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant