CN107480132A

CN107480132A - 一种基于图像内容的古诗词生成方法

Info

Publication number: CN107480132A
Application number: CN201710610311.3A
Authority: CN
Inventors: 宣琦; 李甫宪; 张剑; 殳欣成; 陈壮志; 俞山青; 陈晋音
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2017-12-15

Abstract

一种基于图像内容的古诗词生成方法，包括以下步骤：1)基于单次多框目标检测框架对图像内容进行目标检测得到物体的名称；2)采用中文词法分析工具对设定数量首唐诗进行分词，得到词汇表，利用word2vec工具对词汇表中每一个词进行特征学习，将每一个词映射到向量空间；3)将得到的物体名称输入word2vec工具后得到物体名称映射向量，计算其与古诗词向量之间的余弦相似度，设定阈值后选择部分作为该物体对应的主题词；4)利用主题词扩展关键词，将关键词输入学习唐诗后得到的RNN模型进行古诗词生成。本发明采用目标检测算法与循环神经网络算法结合的方法生成古诗词，且古诗词与图像内容相关性较强，且具有更好的连贯性。

Description

一种基于图像内容的古诗词生成方法

技术领域

本发明涉及深度学习、计算机视觉以及自然语言处理领域，特别是涉及一种基于图像内容的古诗词生成方法。

背景技术

随着深度学习的火热发展，以卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)为代表的深度学习框架已在计算机视觉和自然语言处理领域得到广泛应用。在计算机视觉方面，基于CNN框架改良的深度残差网络(Deep Residual Networks,ResNet)、快速区域卷积神经网络(Faster Region-Based Convolutional Neural Networks,Faster R-CNN)、全卷积神经网络(FullyConnected Networks,FCN)分别在图像分类、目标检测、目标分割领域取得最好效果。在自然语言处理领域，传统古诗词生成被看作是一个机器翻译问题，将上一句诗词作为源语言，下一句诗词作为目标语言，经过统计机器翻译模型进行翻译，并加上平仄押韵等约束。通过不断重复这个过程，得到一首完整的诗词。

如今，两种代表性网络框架CNN与RNN的结合已经应用在多个研究领域。例如：Google利用CNN与RNN结合生成可以描述图片的句子(Vinyals O,Toshev A,Bengio S,etal.Show and tell:A neural image caption generator[C]//Computer Vision andPattern Recognition.IEEE,2015:3156-3164.)；Bohyung Han利用CNN与长短期记忆(LongShort Term Memory，LSTM)网络结合的方法，对基于图像内容提出的问题进行解答(Noh H,Seo P H,Han B.Image Question Answering Using Convolutional Neural Networkwith Dynamic Parameter Prediction[C]//Computer Vision and PatternRecognition.IEEE,2016:30-38.)；Trevor Darrell利用CNN与LSTM结合的方法对图像进行自然语言检索，匹配出符合语言描述的图像(Hu R,Xu H,Rohrbach M,et al.NaturalLanguage Object Retrieval[J].2015:4555-4564.)。

因此，结合图像生成符合图像内容、环境的古诗词成为一种可行性较高的方法。

发明内容

为了克服现有技术方案无法根据图像内容来生成与其相关的古诗词的不足，本发明提出一种有效实现根据图像生成古诗词的基于图像内容的古诗词生成方法，采用目标检测算法与循环神经网络算法结合的方法生成古诗词，且古诗词与图像内容相关性较强，且具有更好的连贯性。

本发明实现上述发明目的所采用的技术方案为：

一种基于图像内容的古诗词生成方法，包括以下步骤：

S1：基于单次多框目标检测(Single Shot MultiBox Detector，SSD)框架对图像内容进行目标检测，得到图像中包含物体的名称；

S2：利用中文词法分析工具(THU Lexical Analyzer for Chinese，THULAC)对设定数量(例如五万)首唐诗进行分词，得到相应词汇表；利用word2vec工具对词汇表中每一个词进行特征学习，将每一个词映射到向量空间；

S3：将S1中得到的物体名称输入word2vec工具后得到物体名称映射向量，计算其与古诗词向量之间的余弦相似度，设定阈值后选择部分作为该物体对应的主题词；

S4：利用主题词扩展关键词，将关键词输入学习唐诗后得到的RNN模型进行古诗词生成。

进一步，所述步骤S1中，SSD检测框架以经典目标检测框架为基础，辅以卷积特征层和卷积滤波器结构实现快速检测图像中的目标，给出图像中包括的物体名称。

再进一步，所述步骤S2中，利用中文词法分析工具THULAC对设定数量首唐诗进行分词，首先以标点符号作为句子之间的划分，从而对句子进行分词，进而得到词汇表，利用word2vec工具对每一个词汇转化为空间向量。

所述步骤S3中，将S1中得到的物体名称输入word2vec工具后，得到该物体名称空间向量计算该向量与S2词汇表中的各个词汇向量的余弦相似度：

其中n表示向量维度；

同时设定阈值ε，当且仅当Similarity_x≥ε时，保留对应的词作为该物体对应主题词，其余去除。

所述步骤S4中，操作过程如下：第一步，随机选取一个对应主题词，对主题词进行扩展，生成多个关键词，关键词均来自于ShiXueHanYing诗歌短语分类系统，该系统包含了1016种人工构建的短语聚类，每一个聚类都被一个关键词所标记以描述某个主题，而后在满足音韵模式等限制的基础上产生所有可能的短语结合体，即诗歌第一句。对所有的候选诗句应用基于字符的RNN语言模型进行评分，评分最高作为诗歌第一句。

第二步，基于第一句生成第二句，而后的所有下一句诗歌都基于之前所产生的所有诗句生成；给出所有已生成的诗歌S_1:i(i≥1)，计算第S_i+1句的概率：

其中S_i+1＝w₁,w₂,w₃,..,w_m，且P(w_j+1|w_1:j,S_1:i)是在给出第S_i+1句的所有已产生的第1到j个字符w_1:j和所有已产生的诗句S_1:i的基础上来生成第S_i+1句的第j+1个字符w_j+1的条件概率；

首先，当前所有行S_1:i在经过句子级卷积神经网络CSM后被转换为一系列向量v_1:i，记为：

v_i＝CSM(S_i)

然后，循环上下文模型Recurrent Context Model，RCM)将v_1:i作为模型的输入从而输出记为：

最后，和S_i+1行的前j个字符w_1:j作为循环生成模型(RecurrentGeneration Model，RGM)的输入计算其中k属于字符集合V，即为第j+1在V上所有字符的概率，记为：

CSM模型通过顺序合并相邻向量计算出句子的连续表示，在前两层中合并相邻的两个向量，其余层合并相邻的三个向量，给定一个句子S＝w₁,w₂,w₃,..,w_m,第一层表示为：

T¹＝[L·e(w₁),L·e(w₂),…,L·e(w_m)]

N¹＝m

其中，V表示字符集合，L∈R^q×|V|表示字符的嵌入矩阵，它的每一列表示每一个字符的向量，q为隐藏节点个数，e(w_i)∈R^|V|×1表示w_i的one-hot编码，T^l是第l层的句子的表示，N^l是第l层矩阵列的数量；

第l+1层表示为：

N^l+1＝N^l-n+1

1≤j≤N^l+1

其中，C^l,n表示权重矩阵，表示元素点乘，σ为softmax函数；

将前i行的向量作为输入，合并为一个向量，然后输出层把这一个向量解码为多个不同的向量，即每个向量对应第i+1行每一个位置的字符，计算过程如下：

h₀＝0

1≤j≤m-1

其中，v₁,v₂,…,v_i表示前i行的向量，h_i∈R^q×1是前i行的合并表示，通过矩阵M∈R^q ^×2q获得，矩阵U_j表示用于将h_i解码为

RGM模型通过考虑RCM模型输出的向量和当前行已产生字符的one-hot编码来得到下一个字符的概率分布，计算过程如下：

r₀＝0

y_j+1＝Y·r_j

其中，矩阵H∈R^q×q将前i行向量转换为隐藏表示，矩阵X∈R^q×|V|将字符转换为隐藏表示，矩阵R∈R^q×q完成循环转换，矩阵Y∈R^|V|×q将隐藏表示解码为字符集中所有字符的权重，r_j是RGM模型在第j步的隐藏层，y_j+1是RGM模型在第j步的输出，σ为sofmax函数；最后得到第i+1行的概率：

在训练模型过程中，损失函数是预测的字符分布和真实的字符分布的交叉熵，同时加入|L|²正则化项，RGM模型输出层的交叉熵损失反向传播到隐藏层、输入层，然后到RCM模型，最后到CSM模型。

与现有的技术相比，本发明的有益效果是：采用目标检测算法与循环神经网络算法结合的方法，通过对图像的检测得到主题词，而后根据主题词扩展关键词，根据关键词进行古诗生成，生成的古诗词与图像内容相关性较强，且具有更好的连贯性。

附图说明

图1为基于图像内容的古诗词生成方法流程图；

图2为word2vec计算与“船”的余弦相似度的词汇列表；

图3为基于RNN诗歌生成模型图；

图4为句子级卷积网络模型示意图。

具体实施方式

下面结合说明书附图对本发明做进一步说明。

参照图1～图4，一种基于图像内容的古诗词生成方法，本发明采用SSD目标检测对图像进行检测，同时用使用RNN对近五万首唐诗进行特征学习得到古诗词生成模型。

本发明包括以下步骤：

S1：基于单次多框目标检测(Single Shot MultiBox Detector，SSD)框架对图像内容进行目标检测，得到图像中包含物体的名称。

S2：利用中文词法分析工具(THU Lexical Analyzer for Chinese，THULAC)对近五万首唐诗进行分词，得到相应词汇表。利用word2vec工具对词汇表中每一个词进行特征学习，将每一个词映射到向量空间。

S3：将S1中得到的物体名称输入word2vec工具后得到物体名称映射向量，计算其与诗词向量之间的余弦相似度，设定阈值后选择部分作为该物体对应的主题词。

进一步，所述步骤S1中，SSD检测框架以经典目标检测框架为基础，辅以卷积特征层、卷积滤波器等结构实现快速检测图像中的目标，给出图像中包括的物体名称。

再进一步，所述步骤S2中，利用中文词法分析工具THULAC对近五万唐诗进行分词，首先以标点符号作为句子之间的划分，从而对句子进行分词，如对诗词怨情中句子“但见泪痕湿，不知心恨谁”分词为“但/见/泪痕/湿，不知/心恨/谁”，进而得到词汇表，利用word2vec工具对每一个词汇转化为空间向量。

更进一步，所述步骤S3中，将S1中得到的物体名称输入word2vec工具后，得到该物体名称空间向量计算该向量与S2词汇表中的各个词汇向量的余弦相似度：

其中n表示向量维度，可取100，200或500。

同时设定阈值ε＝0.75，当且仅当Similarity_x≥ε时，保留对应的词作为该物体对应主题词，其余去除。如图2所示，将“船”输入后得到一系列对应的主题词。

所述步骤S4中，具体操作过程如下：第一步，随机选取一个对应主题词，对主题词进行扩展，生成多个关键词，关键词均来自于ShiXueHanYing诗歌短语分类系统，该系统包含了1016种人工构建的短语聚类，每一个聚类都被一个关键词所标记以描述某个主题，而后在满足音韵模式等限制的基础上产生所有可能的短语结合体，即诗歌第一句。对所有的候选诗句应用基于字符的RNN语言模型进行评分，评分最高作为诗歌第一句。

第二步，基于第一句生成第二句，而后的所有下一句诗歌都基于之前所产生的所有诗句生成。给出所有已生成的诗歌S_1:i(i≥1)，计算第S_i+1句的概率：

其中S_i+1＝w₁,w₂,w₃,..,w_m，且P(w_j+1|w_1:j,S_1:i)是在给出第S_i+1句的所有已产生的第1到j个字符w_1:j和所有已产生的诗句S_1:i的基础上来生成第S_i+1句的第j+1个字符w_j+1的条件概率。

如图3所示基于RNN诗歌生成模型图。首先，当前所有行S_1:i在经过句子级卷积神经网络(Convolutional Sentence Model，CSM)后被转换为一系列向量v_1:i。记为：

v_i＝CSM(S_i)

最后，和S_i+1行的前j个字符w_1:j作为循环生成模型(RecurrentGeneration Model，RGM)的输入计算其中k属于字符集合V，即为第j+1在V上所有字符的概率。记为：

其中，如图4所示，CSM模型通过顺序合并相邻向量计算出句子的连续表示，在前两层中合并相邻的两个向量，其余层合并相邻的三个向量。给定一个句子S＝w₁,w₂,w₃,..,w_m,第一层表示为：

T¹＝[L·e(w₁),L·e(w₂),…,L·e(w_m)]

N¹＝m

其中，V表示字符集合，L∈R^q×|V|表示字符的嵌入矩阵，它的每一列表示每一个字符的向量，q为隐藏节点个数，e(w_i)∈R^|v|×1表示w_i的one-hot编码，T^l是第l层的句子的表示，N^l是第l层矩阵列的数量。

第l+1层表示为：

N^l+1＝N^l-n+1

1≤j≤N^l+1

其中，C^l,n表示权重矩阵，表示元素点乘，σ为softmax函数。

如图3所示，RCM模型的作用是将前i行的向量作为输入，合并为一个向量，然后输出层把这一个向量解码为多个不同的向量，即每个向量对应第i+1行每一个位置的字符。计算过程如下：

h₀＝0

1≤j≤m-1

其中，v₁,v₂,…,v_i表示前i行的向量，h_i∈R^q×1是前i行的合并表示，通过矩阵M∈R^q ^×2q获得。矩阵U_j表示用于将h_i解码为

如图3所示，RGM模型通过考虑RCM模型输出的向量和当前行已产生字符的one-hot编码来得到下一个字符的概率分布。计算过程如下：

r₀＝0

y_j+1＝Y·r_j

其中，矩阵H∈R^q×q将前i行向量转换为隐藏表示，矩阵X∈R^q×|V|将字符转换为隐藏表示，矩阵R∈R^q×q完成循环转换，矩阵Y∈R^|V|×q将隐藏表示解码为字符集中所有字符的权重，r_j是RGM模型在第j步的隐藏层，y_j+1是RGM模型在第j步的输出，σ为sofmax函数。最后得到第i+1行的概率：

在训练模型过程中，损失函数是预测的字符分布和真实的字符分布的交叉熵，同时加入|L|²正则化项。RGM模型输出层的交叉熵损失反向传播到隐藏层、输入层，然后到RCM模型，最后到CSM模型。整个过程中，隐藏单元的大小(即q)为200。

如上所述为本发明基于图像内的容古诗词生成实施例介绍，本发明通过采用目标检测算法与循环神经网络算法结合的方法，通过对图像的检测得到主题词，而后根据主题词扩展关键词，根据关键词进行古诗生成，生成的古诗词与图像内容相关性较强，且具有更好的连贯性。对发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于图像内容的古诗词生成方法，其特征在于：所述方法包括如下步骤：

S1：基于单次多框目标检测SSD框架对图像内容进行目标检测，得到图像中包含物体的名称；

S2：利用中文词法分析工具THULAC对现有设定数量首唐诗进行分词，得到相应词汇表，利用word2vec工具对词汇表中每一个词进行特征学习，将每一个词映射到向量空间；

2.如权利要求1所述的一种基于图像内容的古诗词生成方法，其特征在于：所述步骤S1中，SSD检测框架以经典目标检测框架为基础，辅以卷积特征层和卷积滤波器结构实现快速检测图像中的目标，给出图像中包括的物体名称。

3.如权利要求1或2所述的一种基于图像内容的古诗词生成方法，其特征在于：所述步骤S2中，利用中文词法分析工具THULAC对设定数量首唐诗进行分词，首先以标点符号作为句子之间的划分，从而对句子进行分词，进而得到词汇表，利用word2vec工具对每一个词汇转化为空间向量。

4.如权利要求1或2所述的一种基于图像内容的古诗词生成方法，其特征在于：所述步骤S3中，将S1中得到的物体名称输入word2vec工具后，得到该物体名称空间向量计算该向量与S2词汇表中的各个词汇向量的余弦相似度：

其中n表示向量维度；

5.如权利要求1或2所述的一种基于图像内容的古诗词生成方法，其特征在于：所述步骤S4中，操作过程如下：第一步，随机选取一个对应主题词，对主题词进行扩展，生成多个关键词，关键词均来自于ShiXueHanYing诗歌短语分类系统，该系统包含了1016种人工构建的短语聚类，每一个聚类都被一个关键词所标记以描述某个主题，而后在满足音韵模式等限制的基础上产生所有可能的短语结合体，即诗歌第一句。对所有的候选诗句应用基于字符的RNN语言模型进行评分，评分最高作为诗歌第一句。

第二步，基于第一句生成第二句，而后的所有下一句诗歌都基于之前所产生的所有诗句生成；给出所有已生成的诗歌S_1:i，i≥1，计算第S_i+1句的概率：

v_i＝CSM(S_i)

最后，和S_i+1行的前j个字符w_1:j作为循环生成模型(Recurrent GenerationModel，RGM)的输入计算其中k属于字符集合V，即为第j+1在V上所有字符的概率，记为：

T¹＝[L·e(w₁),L·e(w₂),…,L·e(w_m)]

N¹＝m

第l+1层表示为：

<mrow> <msubsup> <mi>T</mi> <mrow> <mo>:</mo> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mi>l</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>T</mi> <mrow> <mo>:</mo> <mo>,</mo> <mi>j</mi> <mo>+</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>l</mi> </msubsup> <mo>&CircleTimes;</mo> <msubsup> <mi>C</mi> <mrow> <mo>:</mo> <mo>,</mo> <mi>i</mi> </mrow> <mrow> <mi>l</mi> <mo>,</mo> <mi>n</mi> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow>

N^l+1＝N^l-n+1

1≤j≤N^l+1

其中，C^l,n表示权重矩阵，表示元素点乘，σ为softmax函数；

h₀＝0

<mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>&CenterDot;</mo> <mo>&lsqb;</mo> <mtable> <mtr> <mtd> <msub> <mi>v</mi> <mi>i</mi> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>h</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> <mo>&rsqb;</mo> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>u</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>U</mi> <mi>j</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

1≤j≤m-1

其中，v₁,v₂,…,v_i表示前i行的向量，h_i∈R^q×1是前i行的合并表示，通过矩阵M∈R^q×2q获得，矩阵U_j表示用于将h_i解码为

r₀＝0

<mrow> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>=</mo> <mi>&sigma;</mi> <mo>(</mo> <mi>R</mi> <mo>&CenterDot;</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <mi>X</mi> <mo>&CenterDot;</mo> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>H</mi> <mo>&CenterDot;</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mi>j</mi> </msubsup> </mrow>

y_j+1＝Y·r_j

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mi>k</mi> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>V</mi> <mo>|</mo> </mrow> </msubsup> <msup> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> </mrow> </mfrac> </mrow>