CN107992466A

CN107992466A - 一种基于句式控制的宋词载体文本信息隐藏方法、系统

Info

Publication number: CN107992466A
Application number: CN201710934941.6A
Authority: CN
Inventors: 刘彦辰; 孙亭; 李毅; 满青珊; 徐斌; 丁杰; 黄利
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2018-05-04

Abstract

本发明公开了一种基于句式控制的宋词载体文本信息隐藏方法、系统，包括采取句式控制算法对宋词语料库的宋词和格律模板T进行处理，结合《文学意向词典》中韵律和词性相同的词语进行补充填入，得到用于信息隐藏和提取的韵律‑词性词典D；结合韵律‑词性词典D，采用信息隐藏算法对输入的原始信息进行隐写处理，得到所述原始信息对应的隐写宋词S；通过格律模板T和韵律‑词性词典D，采用提取算法还原隐写宋词S，得到原始信息。本发明可针对任意文本输入均可以生成含有隐写信息的人造宋词，解决了信道通信的安全性的问题，可广泛应用于军民等各类信息系统和数字水印中。

Description

一种基于句式控制的宋词载体文本信息隐藏方法、系统

技术领域

本发明涉及信息安全领域，特别是一种基于句式控制的宋词载体文本信息隐藏方法、系统。

背景技术

现有的使用机器生成宋词的方案，如苏劲松等人提出基于统计学分析的宋词切分语料库生成的方法。通过结合性较强的二词或三词来建立宋词词表，进而按照宋词规律进行宋词划分和语料库生成。和何晶等人使用统计学方法利用大数据量的词汇数据库和语言模型进行格律诗词生成，二者均是利用了数据库概论学模型进行宋词生成，生成宋词的成功率很难达到100％，且无法在句式上与宋词词牌相对应。周昌乐等人提出基于遗传算法的一种宋词自动生成方法，但因其生成的宋词可嵌入信息较少，成功率低等因素无法作为信息隐藏的合适载体。故已有的一些方案无法在如何生成贴近真实宋词的技术上研究不多，且很难提供安全可靠的信息隐藏载体供安全通信使用。

发明内容

本发明的目的在于提供一种可以机器生成宋词的方法，并且以宋词为载体对带隐藏的秘密信息进行嵌入，从而在信道中进行安全通信。

本发明公开一种基于句式控制的宋词载体文本信息隐藏方法，包括：

S1：采取句式控制算法对宋词语料库的宋词和格律模板T进行处理，结合《文学意向词典》中韵律和词性相同的词语进行补充填入，得到用于信息隐藏和提取的韵律-词性词典D；

S2：结合韵律-词性词典D，采用信息隐藏算法(SPC-Steg)对输入的原始信息进行隐写处理，将原始信息转换为二进制串的形式，根据所述宋词格律模板T将所述二进制串划分位二进制划分段，对每个二进制划分段进行编码，得到所述原始信息对应的隐写宋词S；

S3：通过格律模板T和韵律-词性词典D，采用提取算法还原隐写宋词S，得到原始信息。

优选的，所述格律模板T的韵律具体包括：中仄、平平、平中仄、中平、中仄，所述宋词的词性具体包括动词，名词，形容词，动名词。

优选的，所述采取句式控制算法对宋词语料库的宋词和格律模板T进行处理.具体包括：

S11：对所述宋词语料库的宋词依照格律模板T，进行韵律拆分，得到韵律词典；

S12：对所述韵律词典的每个韵律块R_j所对应的词语通过词性提取工具进行处理，然后进行如下操作；

S13：每次读取两个单字或双字的字符串放在s1，s2中；

S14：如果s1或s2的词语长度小于约定的组合词语长度L，则执行步骤S15，反之则根据s1或s2的词语的韵律-词性关系重制原有的韵律-词性词典；

S15：判断s1和s2的词语词性，将s1和s2按照不同的词性构造成新的词语，依照不同词性输出到韵律一词性词典D。

优选的，所述约定的组合词语长度L具体包括：L＝2或L＝3。

优选的，所述采用信息隐藏算法(SPC-Steg)对输入的原始信息进行隐写处理，具体包括：

S21：获取格律模板T每个韵律位置对应的韵律-词性信息；

S22：将输入的原始信息转换为二进制编码；

S23：为格律模板T提供可嵌入信息长度L，若输入的原始信息m长度小于L，则在所述二进制编码后进行补零；

S24：获取韵律-词性词典D中词语的个数，放入所述二进制编码长度Len内；

S25：获取下一个位置可嵌入的信息量长度B，并将B转换为十进制数；

S26：将格律模板T对应位置匹配得到韵律-词性词典D；

S27：将韵律-词性词典D中编码为n的词进行匹配，得到十进制索引。同时按照索引将每个词填入宋词S的每个位置，进而输出一篇完整含有隐藏信息的隐写宋词S。

优选的，所述采用提取算法还原隐写宋词S，得到原始信息，具体包括：

S31：获取格律模板T每个位置对应的格律词性信息，将接收到的宋词S与格律模板T进行匹配；

S32：对于宋词S中每个格律划分块在韵律-词性词典D中进行二分查找；

S33：在十进制索引下的韵律-词性词典D中找到对应的词并获取该词的索引；

S34：得到格律模板T对应位置二进制编码长度Len；

S35：将十进制索引转换为对应位置的信息容量二进制编码串；

S36：迭代生成二进制串的原始信息m’；

S37：返回原始信息m’至接收方。

一种基于句式控制的宋词载体文本信息隐藏系统，包括：

宋词处理模块：用于采取句式控制算法对宋词语料库的宋词和格律模板T进行处理，结合《文学意向词典》中韵律和词性相同的词语进行补充填入，得到用于信息隐藏和提取的韵律-词性词典D；

信息隐写模块：用于结合韵律-词性词典D，采用信息隐藏算法(SPC-Steg)对输入的原始信息进行隐写处理，将原始信息转换为二进制串的形式，根据所述宋词格律模板T将所述二进制串划分位二进制划分段，对每个二进制划分段进行编码，得到所述原始信息对应的隐写宋词S；

信息还原模块：用于通过格律模板T和韵律-词性词典D，采用提取算法还原隐写宋词S，得到原始信息。

优选的，所述宋词处理模块，具体包括：

韵律拆分模块：用于将所述宋词语料库的宋词依照格律模板T进行韵律拆分，得到韵律词典；

词性对比模块：用于对比单字或双字的字符串与约定组合词语的长度，若字符串组合形成的组合词语长度大于约定组合词语的长度，将组合词语更新至韵律-词性词典；

词典生成模块：用于根据单字或双字的字符串的词性构造新词语，生成韵律-词性词典。

优选的，所述信息隐写模块，具体包括：

原始信息转化模块：用于获取格律模板T每个韵律位置对应的韵律-词性信息，并将输入的原始信息转换为二进制编码；

编码转换模块：用于将所述二进制编码，为格律模板T提供可嵌入信息长度L，若输入的原始信息m长度小于L，则在所述二进制编码后进行补零；获取韵律-词性词典D中词语的个数，放入所述二进制编码长度Len内；获取下一个位置可嵌入的信息量长度B，并将B转换为十进制数；将格律模板T对应位置匹配得到韵律-词性词典D；

文本隐写模块：用于将韵律-词性词典D中编码为n的词进行匹配，得到十进制索引。同时按照索引将每个词填入宋词S的每个位置，进而输出一篇完整含有隐藏信息的隐写宋词S。

优选的，所述信息还原模块，具体包括：

格律词性匹配模块：用于获取格律模板T每个位置对应的格律词性信息，将接收到的宋词S与格律模板T进行匹配；

词典索引模块：用于在十进制索引下的韵律-词性词典D中找到对应的词并获取该词的索引；得到格律模板T对应位置二进制编码长度Len；

信息还原模块：用于将十进制索引转换为对应位置的信息容量二进制编码串；迭代生成二进制串的原始信息m’，返回原始信息m’至接收方。

本发明的有益效果在于：1、与传统的基于语法和基于语义的文本信息隐藏方案相比，本发明利用宋词这种天然生成载体，结合人们耳熟能详的诗词，设计带有韵律和词性的生成模板，通过词性提取算法得到的带有词性分类的大容量韵律词典。2、通过设计句式控制下的信息隐藏算法，生成的隐写宋词在平仄韵律，每个划分块的词性和句子长短与原始宋词完全无区别，攻击者仅凭视觉或句法分析等检测途径是无法检测出其中的隐藏信息的。3、本发明加入了《文学意象词典》等很多使用频率较高的词语，大大避免了通过字词关联度和语义相关度等检测方案进行攻击的可能性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种基于句式控制的宋词载体文本信息隐藏方法的流程图；

图2是本发明实施例二提供的一种基于句式控制的宋词载体文本信息隐藏系统的框架图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

实施例一

参照图1，图1示出了本发明的方法的实施例流程图。

优选的，所述采取句式控制算法对宋词语料库的宋词和格律模板T进行处理，具体包括：

S13：每次读取两个单字或双字的字符串放在s1，s2中；

S15：判断s1和s2的词语词性，将s1和s2按照不同的词性构造成新的词语，依照不同词性输出到韵律-词性词典D。

所述约定的组合词语长度L具体包括：L＝2或L＝3。

所述宋词语料库的宋词依照格律模板T进行韵律拆分与韵律-词性词典D生成，采用清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包(简称：THULAC)对词库进行处理，该工具包处理得到的词性标注准确性高。例如，我们对格律模板中“平平”中部分词语使用THULAC工具进行处理，并做相应的整理，得到的结果如表所示：

由表知，其中符号“_v”表示动词，“_a”表示形容词，“_n”表示名词。为了将句式统一，更贴近现代句式的读写模式，将动词与名词的组合词归为动名词，记做“_vn”，将一切与形容词组合的词组合的归结为形容词，仍然记做“_a”。在此基础上，本发明设计了一种基于THULAC工具处理结果的词性识别提取算法merge_get()，对THULAC处理词库得到的结果进行操作得到如表所示：

S21：获取格律模板T每个韵律位置对应的韵律-词性信息；

S22：将输入的原始信息转换为二进制编码；

S26：将格律模板T对应位置匹配得到韵律-词性词典D；

所述的词典词性与韵律归类方法，即将宋词词性统一归为四类，分别为：动词，名词，形容词，动名词。为了使隐写生成的宋词在通篇作词风格和上下文衔接更加通顺，本发明分析140首脍炙人口的原始词牌宋词中每个划分块位置的词性并进行记录，对得到的140个宋词模板进行处理，加入词性标识。例如岳飞的《满江红》第一句为“怒发冲冠，凭栏处、潇潇雨歇”，对应的格律模板为“中仄/平平，/平中仄，/中平/中仄。/”。在词性识别时，将“怒发”归为名词，“冲冠”归为动词，“凭栏处”归为动名词，“潇潇”归为形容词，“雨歇”归为动名词，然后在相应的格律模板中作如下处理：在“怒发”所对应的的格律“中仄”后面加入标记“n”，表示名词，在“冲冠”所对应的格律“平平”后面加入标记“v”，表示动词，“凭栏处”所对应的格律“平中仄”后面加入标记“vn”表示动名词，“潇潇”所对应的的格律“中平”后面加入“a”表示形容词，“雨歇”所对应的格律“中仄”后面加入“vn”表示动名词，最终得到重置后的模板“中仄n平平v，平中仄vn，中平a中仄vn”。以此类推，得到宋词《满江红》的“韵律-词性”模板见表所示：

根据四种词性类别，将已经得到的格律模板进行拆分，例如：在“中仄”词库中共有5328个词，依照词性，利用词性识别与提取算法，将词库分别划分为四个不同词性集合：中仄_名(名词的集合)、中仄_动(动词的集合)、中仄_形容(形容词的集合)、中仄_动名(动名词的集合)。同时，为使生成的宋词嵌入率更高，更具迷惑性，富有文学气息，本发明将词库进行扩充，加入了一些与宋词格律模板划分中韵律相关的文学常用意象词，例如：“青鸟”，“秋水”，“哀鸿”，“烂柯”，“问鼎”，“见背”，“逐鹿”等，累计共从《文学意象词典》中筛选组合得到1952个与韵律“中仄”相关的词，将这些词语按照韵律和词性插入到对应韵律词典中。同时，利用权利要求1中的词典重置算法，我们继续利用哈希函数将韵律词典进行重置，以保证在整个隐藏算法中词典的安全性，进一步提高读取效率。

在得到“韵律-词性”词典D和格律模板T之后，就可以将待隐藏的原始信息经基于句式控制的宋词载体文本信息隐藏系统进行信息隐藏而生成一篇隐写宋词。以《满江红》为例，选取格律模板T的第一行“中仄n/平平v，/平中仄vn，/中平a/中仄vn”，共有5个划分块。为示例方便，分别取数字2的整数次幂作为词典容量，假设“韵律-词性”词典“中仄_名”共有16个词语，“平平_动”共有8个词语，“平中仄_动名”共有8个词语，“中平_形容”共有16个词语，“中仄_动名”共有8个词语。对“韵律-词性”词典进行编码，如下表所示：

假设秘密信息转化为二进制串后为“0101111110111100”，将其按照格律模板和每个位置的容量，分割为“0101”，“111”，“110”，“111”，“100”，找出中对应的词，分别为“青鸟”、“孤鸣”、“纱窗外”、“风轻”、“欲语”，填入格律模板中，即生成了隐写宋词《满江红》的第一句：“青鸟孤鸣，纱窗外，风轻欲语。”可以看到，当划分块数量为5的时候，每个位置K至少能嵌入位比特信息，在这一句话中就已经嵌入了16比特的信息，在本示例中如用完整的示例词库将可以容纳的信息量可以表示为：

经计算，共计可以嵌入信息量为29比特。而使用全宋词语料库作为词典生成库的话，“韵律-词性”词典中“平平_名”词典集合中就含有2056个词，在这个位置可以嵌入11个比特信息，如果继续增大词典规模的话，容量还会进一步增大。同样的，假如输入的需要隐藏文本长度不足以生成一篇隐写宋词，本算法将在文本段转换为二进制编码后在末尾补上足够的零，直至满足整篇生成宋词的容量。

S34：得到格律模板T对应位置二进制编码长度Len；

S36：迭代生成二进制串的原始信息m’；

S37：返回原始信息m’至接收方。

所述的隐藏信息提取方法，所述的关于接收方在收到一篇带有隐写信息的宋词S后，需要使用和传输方同样的“韵律-词性”词典D’和格律模板T才能通过提取算法还原出秘密信息。对原始信息进行信息隐藏后，当接收方收到的隐写宋词为“青鸟孤鸣，纱窗外，风轻欲语”时，根据词牌《满江红》对应位置的格律模板“中仄n/平平v，/平中仄vn，/中平a/中仄vn”，将接收到的这句诗词划分为“青鸟/孤鸣，/纱窗外，/风轻/欲语/”。对应表4.4词典编码表，可以找出“青鸟”在“韵律-词性”词典D1中对应二进制编码“0101”，“孤鸣”在词典D2中对应“111”，“纱窗外”在词典D3中对应“110”，“风轻”在词典D4对应“111”，“欲语”在词典D1中对应“100”，故最终还原得到的秘密信息为(0101111110111100)。由于词典生成中的去重操作，格律词典中的词语均唯一，不会在因重复而产生歧义。

实施例二

参照图2，图2示出了本发明的系统的实施例流程图。

一种基于句式控制的宋词载体文本信息隐藏系统，包括：

优选的，所述宋词处理模块，具体包括：

优选的，所述信息隐写模块，具体包括：

优选的，所述信息还原模块，具体包括：

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于句式控制的宋词载体文本信息隐藏方法，包括：

2.根据权利要求1所述的文本信息隐藏方法，所述格律模板T的韵律具体包括：中仄、平平、平中仄、中平、中仄，所述宋词的词性具体包括动词，名词，形容词，动名词。

3.根据权利要求1所述的文本信息隐藏方法，所述采取句式控制算法对宋词语料库的宋词和格律模板T进行处理，具体包括：

S13：每次读取两个单字或双字的字符串放在s1，s2中；

4.根据权利要求3所述的文本信息隐藏方法，所述约定的组合词语长度L具体包括：L＝2或L＝3。

5.根据权利要求1所述的文本信息隐藏方法，所述采用信息隐藏算法(SPC-Steg)对输入的原始信息进行隐写处理，具体包括：

S21：获取格律模板T每个韵律位置对应的韵律-词性信息；

S22：将输入的原始信息转换为二进制编码；

S26：将格律模板T对应位置匹配得到韵律-词性词典D；

S27：将韵律-词性词典D中编码为n的词进行匹配，得到十进制索引，同时按照索引将每个词填入宋词S的每个位置，进而输出一篇完整含有隐藏信息的隐写宋词S。

6.根据权利要求1所述的文本信息隐藏方法，所述采用提取算法还原隐写宋词S，得到原始信息，具体包括：

S34：得到格律模板T对应位置二进制编码长度Len；

S36：迭代生成二进制串的原始信息m’；

S37：返回原始信息m’至接收方。

7.一种基于句式控制的宋词载体文本信息隐藏系统，包括：

8.根据权利要求7所述的文本信息隐藏系统，所述宋词处理模块，具体包括：

9.根据权利要求7所述的文本信息隐藏系统，所述信息隐写模块，具体包括：

文本隐写模块：用于将韵律-词性词典D中编码为n的词进行匹配，得到十进制索引，同时按照索引将每个词填入宋词S的每个位置，进而输出一篇完整含有隐藏信息的隐写宋词S。

10.根据权利要求7所述的文本信息隐藏系统，所述信息还原模块，具体包括：