CN112183109B

CN112183109B - 基于mass的诗句生成信息隐写方法

Info

Publication number: CN112183109B
Application number: CN202011001149.3A
Authority: CN
Inventors: 杨婉霞; 李妙祺; 周蓓蓓; 刘燕; 王关平
Original assignee: Gansu Agricultural University
Current assignee: Gansu Agricultural University
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2021-06-22
Anticipated expiration: 2040-09-22
Also published as: CN112183109A

Abstract

本发明涉及文本生成式信息隐藏领域，具体为基于MASS的诗句生成信息隐写方法，解决了诗生成和信息嵌入的融洽结合问题。其方法为：将原诗语料库中的诗句预处理后，训练MASS序列模型，在用户输入主题词后，利用TextRank算法并调用利用诗词语料预训练的word2vec模型，进行主题词提取与扩展；将提取的主题词作为已训练的MASS序列模型的输入，利用MASS序列的Encoder‑Decoder结构生成诗句。本方案选择生成诗作为信息隐藏的载体，利用强大的MASS模型自动生成诗实现信息隐藏，将诗的创作和信息隐藏有机结合，在创作诗词的同时保障了信息的安全性。

Description

基于MASS的诗句生成信息隐写方法

技术领域

本发明涉及文本生成式信息隐写领域，具体为基于MASS的诗句生成信息隐写方法。

背景技术

在文本生成方面，国际上具有较多的研究成果。例如，利用深度学习或语言模型来生成科技论文、体育新闻报道等。但是，深入分析发现，所生成的文本根据内容基本分为阐述客观事实类的文本和表达主观意见和情感的文本。例如，产品评论，诗歌和散文等。而且，这些主观文本更适合隐藏信息。因为因隐藏信息而造成的语义改变，没有违反客观事实，只是主观态度的变化，然而主观态度是因人而异的。而且以主观文本中的信息为主体实现信息隐写，可以充分地利用主观文本中信息的“个性化”和“非客观性”的特点，其相应的隐写空间应具有很高的“冗余度”，有助于提高信息隐藏的隐蔽性和隐藏容量。诗歌是我国古典文化的璀璨明珠，不仅语言精练，结构严谨，用韵有致，很值得后人们学习和传承。随着研究成果的相继出现，普通人可以通过写诗来表达自己的思想和情感，不仅实现了诗歌的创作梦，而且促使诗歌成为大数据中的重要成员，由于诗歌所包含的情感信息量大，很适合作为信息隐写的载体。

现有诗生成模型是基于已知词或已知句子预测下一句，不能真正意义上兼顾和理解前后句间的语义和逻辑关系。而MASS序列生成模型类似于完形填空，它是在完全理解前后句的语义关系后预测输出掩蔽词，构成完整的句子。现有诗生成的信息嵌入是通过随机选词或按照韵律块选词，会使生成的诗句流畅性不足或降低隐藏容量。本文方法是基于韵律块选字，可以解决上述问题。

发明内容

本发明提供了基于MASS的诗句生成信息隐写方法，解决了诗生成和信息嵌入的融洽结合问题，本方案选择诗词作为信息隐藏的载体，利用强大的MASS模型自动生成诗词实现信息隐藏，将诗词的创作和信息隐藏有机结合，在创作诗词的同时保障了信息的安全性。

为实现上述目的，本方案采用的技术如下所述：

基于MASS的诗句生成信息隐写方法，其特征在于：将原诗语料库中的诗句预处理后，训练MASS序列模型，在用户输入主题词后，利用TextRank算法并调用利用诗词语料预训练的word2vec模型，进行主题词提取与扩展；将提取的主题词作为已训练的MASS序列模型的输入，利用MASS序列的Encoder-Decoder结构生成诗句。

所述原诗语料库中的诗句预处理包括：

去除题目和符号，整理成独立的诗句格式；

对诗句按照韵律节奏划分。

所述训练MASS序列模型方式为：将五言或七言律诗构成的语料集，随机屏蔽一句诗的一个韵律块，输入编码端对MASS序列模型进行训练。

所述MASS序列模型诗句生成中，进行私密信息的编码和嵌入，编码和嵌入方式为：

Decoder将从Encoder隐藏状态中提取出输入诗句的信息，预测并输出Encoder端掩蔽字的向量，后通过向量转换，将表示该字的向量映射到输出词表中。这里的字向量表示是一个概率分布，利用每个位置的概率值大小挑选下一个要输出的字，构成侯选词集，计算侯选字集中每个字与其韵律块中其余字的互信息，并按照计算值对候选字集中的字由高到低排序，然后对该字集采用Huffman进行编码，最后可根据机密信息的比特位在候选字集中选出诗句中的预测字段以生成诗句。

所述MASS序列模型生成中，进行私密信息的提取，私密信息的提取方式为：根据字推算出比特位，获得隐蔽信息。

所述主题词提取采用TextRank算法，所述主题词的扩展采用word2vec预训练模型完成。

本发明的有益效果为：1)针对诗的节奏鲜明，音调和谐的特点，本方案创新地提出了一种基于MASS预训练模型的诗自动生成方法。该方法将诗的韵律节奏和MASS联合编码器和译码器的连续掩蔽词预测巧妙结合，增强了诗生成的主题一致性和语义连贯性。

2、该方法充分运用诗的韵律节奏划分，将诗自动生成和私密信息嵌入完美结合，在嵌入信息的同时保证了生成诗句在结构上的押韵性，一定程度上提高了信息隐藏的隐蔽性。

附图说明

图1是本发明诗句生成的MASS序列结构；

图2是本发明诗生成及信息嵌入过程；

具体实施方式

下面结合附图并通过具体的实施例进一步的说明本发明的技术方案：

实施例一

基于MASS的诗句生成信息隐写方法，本方法的主要内容包含三个方面：1.基于MASS训练模型生成一定主题的诗；2.编码机密信息，将机密信息嵌入在诗的生成过程中；3.私密信息的提取，依据秘密信息提取的过程就是嵌入过程的一个逆过程，正确地提取出嵌入的机密信息比特位。

具体方式如下:

1：诗生成方法：

本方法诗句生成的主要模型结构是基于屏蔽序列到序列的预训练(MASS:MaskedSequence to Sequence Pre-training)技术。不同于主流的编码器-注意力-解码器结构，MASS对句子随机屏蔽一定长度的片段，然后联合预训练编码器和解码器生成该片段，其基本结构如图1所示。模型预测的是连续地掩蔽词x^\l:m，即诗句中的某一韵律块，这种预测方式不仅促进了编码器的理解能力，译码器的信息提取能力，还大大提升了语言建模能力。

本方法基于MASS的诗生成主要结构如图2所示：包括诗词语料库的收集与预处理，训练MASS序列模型，主题词的提取与扩展。

1)诗词料库的收集与预处理：将收集的原诗语料库去掉题目和符号，整理成独立的诗句格式，并对每句诗按照韵律节奏划分。据分析，律诗的韵律节奏与意义节奏有一定的匹配性，而且对诗意的表达具有促进作用，另外韵律节奏相对简单，其主要由音节构成，一个音节由两个字音组成。那么对于五言律诗，它的节奏划分为2|3形式，如“窗前|明月光”，而对七言律诗的节奏划分为2|2|3形式，如“少小|离家|老大回”。

2)训练MASS序列模型，将五言或七言律诗构成的语料集，随机屏蔽一句诗的一个韵律块，其长度为L＝2|3个字组成的词。输入编码端对MASS模型进行训练。模型训练时最关键的参数是长度L的取值，它直接影响预测任务性能的优劣程度。通过对MASS预训练的实验结果分析可知，当L取大约句子长度的一半时，即50％n，n为句子的长度5|7，下游预测任务能达到最优性能。因为屏蔽句子中一半的词可以很好地平衡编码器和解码器的预训练。如此，对于五言和七言诗，L的取值分别为2和3。

3)主题词的提取与扩展，其目的是为了通过输入1-2个主题词完成诗的创作。本专利中主题词的提取采用TextRank算法，扩展采用word2vec预训练模型完成。即当用户输入1-2个主题词时，通过调用利用诗词语料预训练的word2vec模型，获得对应的词嵌入式向量，然后计算词向量间的相似度，得到与输入主题词语义最近的系列词，将其扩展为主题词，并按照顺序提取前4个(5言诗)或8个(7言诗)主题词，即每一个或两个主题词对应一句诗。如果用户输入的是一句话，则首先采用TextRank算法提取1-2主题词，然后进行扩展。最后调用已训练好的MASS模型，生成5言或7言诗。

2：信息的编码和嵌入

私密信息的嵌入是在诗的生成过程中完成。在MASS的序列生成模型中，Decoder将从Encoder隐藏状态中提取出输入诗句的信息，预测并输出Encoder端掩蔽字，实际是Decoder端需预测的字的向量表示，然后通过向量转换，将表示该字的向量映射到输出词表中。而与此对应的向量表示是一个概率分布，每个位置的概率值表示该位置对应的字作为下一个输出字的概率大小，这为挑选备选词集，嵌入隐秘信息奠定了基础。其次，为了提高隐蔽性，挑选的词需满足诗句的格律要求，为此，本方法加入了模板的约束。即根据诗的韵律节奏，本文将所有的诗句分割成两个或三个韵律块，那么对于五言和七言诗，各获得一个韵律模板，然后利用这个模板来指导选词，进而生成完整诗句。并在选词时采用内字互信息法，以缓解在生成诗句时因隐藏信息而引起的质量下降。

下面通过一个例子说明诗词的生成及私密信息的编码与隐藏。假设当前诗句为“少小离家老大回”，将该句输入到Encoder端，掩蔽“老大回”，Decoder端在输入“老大”的隐藏状态信息时预测输出三个向量，每个向量代表一个字。然后把每个向量映射到整个词空间V，得到一个大小为|V|的概率分布向量，将这些向量中对应的不符合平仄或韵律要求的字筛除，选出符合要求的概率较大的几个作为候选字，确定候选字集的大小若为C_Size＝8；此时计算候选字集中每个字与其韵律块中其余字的互信息，并按照计算值对候选字集中的字由高到低排序，设需返回的字集大小R_Size＝4。然后对该字集采用Huffman进行编码，因为Huffman编码是依据概率大小构造的平均长度最短的码字，如表1所示。最后可根据机密信息的比特位确定诗句中的预测字段，比如，比特位若为“100111”，就会生成“老大回”。

3：私密信息的提取

秘密信息提取过程是嵌入过程的一个逆过程，嵌入过程是根据私密信息的比特位选字，而提取过程就是根据字推算出比特位，从而获得隐蔽信息。

表1秘密信息编码与嵌入

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.基于MASS的诗句生成信息隐写方法，其特征在于：将原诗语料库中的诗句预处理后，训练MASS序列模型，在用户输入主题词后，利用TextRank算法并调用利用诗词语料预训练的word2vec模型，进行主题词扩展与提取；将提取的主题词作为已训练的MASS序列模型的输入，利用MASS序列的Encoder-Decoder结构生成诗句；

所述MASS序列模型诗句生成过程中，进行私密信息的编码和嵌入，编码和嵌入方式为：

Decoder从Encoder隐藏状态中提取出输入诗句的信息，预测并输出Encoder端掩蔽字的向量，并通过向量转换，将表示该字的向量映射到输出词表中；利用每个位置的字向量概率值大小挑选下一个要输出的字，构成候选字集，计算候选字集中每个字与其韵律块中其余字的互信息，并按照计算值对候选字集中的字由高到低排序；对该字集采用Huffman进行编码，最后可根据私密信息的比特位在候选字集中选出诗句中的预测字段以生成诗句。

2.根据权利要求1所述的基于MASS的诗句生成信息隐写方法，其特征在于：所述原诗语料库中的诗句预处理包括：

去除题目和符号，整理成独立的诗句格式；

对诗句按照韵律节奏划分。

3.根据权利要求1所述的基于MASS的诗句生成信息隐写方法，其特征在于：所述训练MASS序列模型方式为：将五言或七言律诗构成的语料集，随机屏蔽一句诗的一个韵律块，输入编码端对MASS序列模型进行训练。

4.根据权利要求1所述的基于MASS的诗句生成信息隐写方法，其特征在于：所述MASS序列模型生成中，进行私密信息的提取，私密信息的提取方式为：根据字推算出比特位，获得隐蔽信息。

5.根据权利要求1所述的基于MASS的诗句生成信息隐写方法，其特征在于：所述主题词提取采用TextRank算法，所述主题词的扩展采用word2vec预训练模型完成。