CN107832292B

CN107832292B - 一种基于神经网络模型的图像到汉语古诗的转换方法

Info

Publication number: CN107832292B
Application number: CN201711064401.3A
Authority: CN
Inventors: 刘学亮; 洪日昌; 汪萌; 郝世杰; 邢硕
Original assignee: Hefei University of Technology
Current assignee: Chengdu Shihaixintu Microelectronics Co ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2020-12-29
Anticipated expiration: 2037-11-02
Also published as: CN107832292A

Abstract

本发明公开了一种基于神经网络模型的图像到汉语古诗的转换方法。本发明包括如下步骤：1收集现有的汉语古诗作为诗集数据集；收集图片资源及与所述图片资源对应的语句描述资源作为图像数据集；2建立多模态循环神经网络并进行训练以生成图像目标描述语句；3映射目标描述语句为汉语关键词；4利用长短期记忆网络建立汉语古诗生成模型并进行训练，从而实现图像到汉语古诗的转换。本发明通过计算机自动将图片转化成能够描述图片的汉语古诗，摆脱主题词的限制，使得普通使用者通过输入一幅图片生成对应的汉语古诗，从而能在一定程度上填补我国在机器“看图写诗”领域方面的空缺。

Description

一种基于神经网络模型的图像到汉语古诗的转换方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于神经网络模型的图像到汉语古诗的转换方法。

背景技术

中国古诗是人类文学皇冠上的明珠。我国自《诗经》以后，两千年来的诗篇灿若繁星。让机器自动生成诗歌，一直是人工智能领域一个有挑战性的工作。人类能够很容易地描述一幅图像的内容，然而这个工作对计算机来说却十分困难，这需要计算机能够获取图像语义水平上的内容并且像人类一样组织并表达出这些语义信息。

近年来，深度神经网络火遍了人工智能领域的各个方向，颠覆了语音识别、图像分类、文本理解等众多领域的算法设计思路。借助于深度神经网络，机器可以越来越像人类，计算机开始能够理解更高层次的图像内容和文本序列。机器自动生成汉语古诗和图像描述取得了一些新的进展。

然而，当前依主题词指定方式为基础的古诗生成方法具有很大的局限性，这种方式对主题词的选择要求较高，只有主题词选的合理，生成的古诗才更合理，这会对很多普通使用者造成障碍；而且这种方式被一些专家制定的规则和模式严格地约束，句子之间缺乏连贯性，生成的目标诗句也过于死板，缺乏灵活性。当前在图片描述的自动生成中仅以简单的白话句式来捕捉图片内容进行描述，生成的描述语句单调，缺乏灵活性。

发明内容

本发明为解决现有技术中存在的不足之处，提供一种基于神经网络模型的图像到汉语古诗的转换方法，以期能通过计算机自动将图片转化成能够描述图片的汉语古诗，摆脱主题词的限制，使得普通使用者通过输入一幅图片生成汉语古诗，从而能在一定程度上填补我国在机器“看图写诗”领域方面的空缺。

为解决以上技术问题，本发明采用如下技术方案：

本发明一种基于神经网络模型的图像到汉语古诗的转换方法的特点包括如下步骤：

步骤1、收集现有的汉语古诗作为诗集数据集Q＝{q₁,q₂,...,q_i,...,q_n}，q_i表示第i首汉语古诗，并有

表示所述第i首汉语古诗中第v个字符，i＝1,2,…,n，v＝1,2,...,V_i；

获取图片资源以及与所述图片资源对应的语句描述资源作为图像数据集T＝{(I₁,s₁),(I₂,s₂),...,(I_j,s_j),....,(I_m,s_m)}；其中，I_j表示第j张图片，s_j表示所述第j张图片对应的语句描述，并有：

表示所述第j张图片对应的语句描述中第z个字符，j＝1,2,…,m，z＝1,2,…,Z_j；

步骤2、建立多模态循环神经网络，所述多模态循环神经网络由深度卷积神经网络CNN和长短期记忆网络LSTM组成，并对所述多模态循环神经网络进行训练，得到图片最终的目标描述语句；

步骤2.1、利用式(1)所示的深度卷积神经网络CNN将第j张图片I_j映射到向量空间W中，从而得到第j张图片I_j的向量x_j′：

x_j′＝W_c[CNN(I_j)] (1)

式(1)中，CNN(I_j)表示利用深度神经网络CNN提取出的第j张图片I_j的特征向量，W_c为所述向量空间W的图像映射矩阵；

步骤2.2、利用式(2)所示的热编码方法将所述第j张图片I_j对应的语句描述s_j映射到所述向量空间W中，从而得到语句描述s_j的向量

其中，

表示所述语句描述s_j中第z个字符

的向量，x₀表示所有语句描述的开始字符的向量，

表示所有语句描述的结束字符的向量：

式(2)中，

为所述语句描述s_j中第z个字符

的热编码向量，W_e为所述向量空间W的字符映射矩阵；

步骤2.3、将所述第j张图片I_j的向量x_j′及其对应的语句描述s_j的向量x_j输入到式(3)所示的长短期记忆网络LSTM中，得到第j张图片I_j的目标描述语句的概率分布

其中，

表示所述第j张图片I_j的目标描述语句的概率分布y_j中第z个字符的概率分布，y₀表示所有目标描述语句的开始字符的概率分布，

表示所有目标描述语句的结束字符的概率分布：

式(3)中，θ_σ为长短期记忆网络的参数；

步骤2.4、从所述第j张图片I_j的目标描述语句的概率分布y_j中第z个字符的概率分布

中选取概率最大的字符作为所述第j张图片I_j的目标描述语句的第z个字符，从而得到所述第j张图片I_j的目标描述语句；

步骤2.5、利用所述图像数据集T对所述多模态循环神经网络进行训练，得到所述第j张图片I_j最终的目标描述语句；

步骤2.5.1、选用所述目标描述语句的概率分布y_j的负对数似然和的均值作为损失函数L₁(I,s)如式(4)所示：

式(4)中，N为批大小，表示每次训练迭代时的图片数量，且N＜m；I表示每次训练迭代的N张图片集合，s表示每次训练迭代的N张图片集合I的对应的语句描述集合；

步骤2.5.2、采用最小批随机梯度下降法对所述损失函数L₁(I,s)进行最小化处理，得到所述损失函数L₁(I,s)的导数L₁′；

步骤2.5.3、令所述多模态循环神经网络的参数为θ_α＝{W_c,W_e,θ_σ}，将θ_α+η₁L₁′赋值给θ_α，从而更新θ_α，用于对所述多模态循环网络的训练，其中，η₁表示所述多模态循环神经网络的学习速率；

步骤3、将另一幅输入图片I_g输入所述多模态循环神经网络中，得到最终的目标描述语句，并去掉最终目标描述语句中所有停词，将去除停词后的目标描述语句映射为汉语关键词K＝{k₁,...,k_t,...,k_L}，k_t表示所述输入图片I_g的第t个汉语关键词，t＝1,2,…,L，L≥1；

步骤4、利用长短期记忆网络建立汉语古诗生成模型并进行训练，从而实现图像到汉语古诗的转换，并生成对应的汉语古诗；

步骤4.1、定义历史诗句H为第1到第t-1行诗句，并初始化历史诗句H为零，初始化t＝1；

步骤4.2、利用热编码方法将所述输入图片I_g的第t个汉语关键词k_t及所述历史诗句H分别映射至向量空间Ψ中，得到第t个汉语关键词k_t的向量

及所述历史诗句H的向量

其中，

表示所述输入图片I_g的第t个汉语关键词k_t的第d个字符的向量，

表示所述历史诗句H中的第λ个字符的向量；

利用长短期记忆网络分别将第t个汉语关键词k_t的向量

和所述历史诗句H的向量

编码为向量

和

步骤4.3、当t＝1且τ＝1时，均值初始化所述输入图片I_g的第t行诗句中第τ-1个字符的概率分布

和第τ-1个字符的状态向量r_τ-1；

步骤4.4、利用式(6)得到所述输入图片I_g的第t行诗句中第τ个字符的概率分布

从而得到所述输入图片I_g的第t行诗句中所有字符的概率分布作为汉语古诗生成模型：

式(6)中，θ_β为所设定的参数，r_τ为第τ个字符的状态向量，并通过式(7)获得：

式(7)中，f()表示长短期记忆网络的内部激活函数；

步骤4.5、从所述输入图片I_g的第t行诗句第τ个字符的概率分布

中选取概率最大的字符作为所述输入图片I_g的第t行诗句的第τ个字符，从而得到所述输入图片I_g的第t行诗句；

步骤4.6、将t+1赋值给t，并返回步骤4.2，直到t＞L为止，从而生成所述输入图片I_g的汉语古诗；

步骤4.7、利用如式(8)得到损失函数L₂(q)：

式(8)中，M为从所述诗集数据集Q中选取的任意一批汉语古诗的大小，表示每次训练迭代时的汉语古诗数量，且M＜n；q表示每次训练迭代的M首汉语古诗集合，

表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符输入所述汉语古诗生成模型中得到的模型概率分布，

表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符经过热编码处理后得到的期望概率分布；

步骤4.8、采用均方根传播算法对所述损失函数L₂(q)进行最小化处理，得到所述损失函数L₂(q)的导数L′₂；将θ_β+η₂L′₂赋值给θ_β，从而更新θ_β，用于对所述汉语古诗生成模型进行训练，其中，η₂表示所述汉语古诗生成模型的学习速率。

与已有技术相比，本发明的有益效果体现在：

1、本发明利用深度卷积神经网络与长短期记忆网络建立多模态循环神经网络提取图像的高层语义作为汉语关键词，基于长短期记忆网络建立汉语古诗生成模型，根据图像的汉语关键词依次生成待生成汉语古诗的每一行直至作诗完成，从而使计算机自动将图片转化成能够描述图片的汉语古诗，摆脱了主题词的限制，使得普通使用者通过输入一幅图片即可生成对应的汉语古诗，在一定程度上填补了我国在机器“看图写诗”领域方面的空缺；

2、本发明通过把计算机视觉与自然语言两大技术领域连接起来，并融入了中华文学因素，利用这种多模态的融合将图片中的内容表达成汉语古诗的表达逻辑，以形成合规且具有表义能力的汉语古诗，并利用从图片中提取高层语义作为汉语关键词对汉语古诗生成过程进行细致控制，使生成的汉语古诗具有逻辑关联性和上下文一致性。

附图说明

图1为本发明整体结构示意图；

图2为本发明实现过程示意图。

具体实施方式

下面结合附图对本发明做进一步说明。

本实施例中，一种基于神经网络模型的图像到汉语古诗的转换方法，如图1所示，主要是根据多模态循环神经网络和古诗生成模型来提取输入图像的语义信息作为汉语关键词并顺序地生成描述图像的汉语古诗，具体步骤如下：

表示第i首汉语古诗中第v个字符，i＝1,2,…,n，v＝1,2,...,V_i，诗集数据集Q收集的汉语古诗为五言诗和七言诗，共计五万首；

获取图片资源以及与图片资源对应的语句描述资源作为图像数据集T＝{(I₁,s₁),(I₂,s₂),...,(I_j,s_j),....,(I_m,s_m)}；其中，I_j表示第j张图片，s_j表示第j张图片对应的语句描述，并有：

表示第j张图片对应的语句描述中第z个字符，j＝1,2,…,m，z＝1,2,…,Z_j，图像数据集T为Flickr30k数据集，包含三万一千张图像，每张图像被五句不同的语句所描述；

步骤2、如图2上半部分所示，建立多模态循环神经网络，多模态循环神经网络由深度卷积神经网络CNN和长短期记忆网络LSTM组成，并对多模态循环神经网络进行训练，得到图片最终的目标描述语句；

步骤2.1、利用式(1)所示的深度卷积神经网络CNN将第j张图片I_j映射到向量空间W中，从而得到第j张图片I_j的向量x′_j：

x′_j＝W_c[CNN(I_j)] (1)

式(1)中，CNN(I_j)表示利用深度神经网络CNN提取出的第j张图片I_j的特征向量，维度是4096，W_c为向量空间W的图像映射矩阵，维度设为4096×256，深度卷积神经网络CNN采用在Imagenet数据集上进行预训练过的VGGnet网络结构，利用预训练过的VGGnet网络结构提取的图片特征比传统的基于尺度不变特征变换(SIFT)、词袋模型等特征提取方法具有更好的高层语义特征表示能力。

步骤2.2、利用式(2)所示的热编码方法将第j张图片I_j对应的语句描述s_j映射到向量空间W中，从而得到语句描述s_j的向量

其中，

表示语句描述s_j中第z个字符

的向量，x₀表示所有语句描述的开始字符的向量，

表示所有语句描述的结束字符的向量：

式(2)中，

为语句描述s_j中第z个字符

的热编码向量，维度设为D₁，D₁表示图像数据集T的所有语句描述中不重复字符与开始字符和结束字符的个数，W_e为向量空间W的字符映射矩阵，维度设为D₁×256；

步骤2.3、将第j张图片I_j的向量x_j′及其对应的语句描述s_j的向量x_j输入到式(3)所示的长短期记忆网络LSTM中，得到第j张图片I_j的目标描述语句的概率分布

其中，

表示第j张图片I_j的目标描述语句的概率分布y_j中第z个字符的概率分布，y₀表示所有目标描述语句的开始字符的概率分布，

表示所有目标描述语句的结束字符的概率分布：

式(3)中，θ_σ为长短期记忆网络的参数，利用均匀分布[-0.1,0.1]随机初始化参数θ_σ；

步骤2.4、从第j张图片I_j的目标描述语句的概率分布y_j中第z个字符的概率分布

中选取概率最大的字符作为第j张图片I_j的目标描述语句的第z个字符，从而得到第j张图片I_j的目标描述语句；

步骤2.5、利用图像数据集T对多模态循环神经网络进行训练，得到第j张图片I_j最终的目标描述语句；

步骤2.5.1、选用目标描述语句的概率分布y_j的负对数似然和的均值作为损失函数L₁(I,s)如式(4)所示：

式(4)中，N为批大小，本实施例中设为128，表示每次训练迭代时的图片数量，且N＜m；I表示每次训练迭代的N张图片集合，s表示每次训练迭代的N张图片集合I的对应的语句描述集合；

步骤2.5.2、为加快收敛速度，防止陷入局部最优解，本实施例采用最小批随机梯度下降法(mini-batch SGD)对损失函数L₁(I,s)进行最小化处理，得到损失函数L₁(I,s)的导数L′_t；

步骤2.5.3、令多模态循环神经网络的参数为θ_α＝{W_c,W_e,θ_σ}，将θ_α+η₁L′_t赋值给θ_α，从而更新θ_α，用于对多模态循环网络的训练，其中，η₁表示多模态循环神经网络的学习速率，初始值设为0.001，并在训练过程中对学习速率η₁进行线性衰减，使损失函数L₁(I,s)降到最小，提高模型精度；

步骤3、将另一幅输入图片I_g输入多模态循环神经网络中，得到最终的目标描述语句，并去掉最终目标描述语句中量词、连词等所有停词，将去除停词后的目标描述语句映射为汉语关键词K＝{k₁,...,k_t,...,k_L}，k_t表示输入图片I_g的第t个汉语关键词，t＝1,2,…,L，L≥1；

步骤4、如图2下半部分所示，利用长短期记忆网络建立汉语古诗生成模型并进行训练，从而实现图像到汉语古诗的转换，并生成对应的汉语古诗；

步骤4.2、利用热编码方法将输入图片I_g的第t个汉语关键词k_t及历史诗句H分别映射至向量空间Ψ中，得到第t个汉语关键词k_t的向量

及历史诗句H的向量

其中，

表示输入图片I_g的第t个汉语关键词k_t的第d个字符的向量，

表示历史诗句H中的第λ个字符的向量；

利用长短期记忆网络分别将第t个汉语关键词k_t的向量

和历史诗句H的向量

编码为向量

和

步骤4.3、当t＝1且τ＝1时，均值初始化输入图片I_g的第t行诗句中第τ-1个字符的概率分布

和第τ-1个字符的状态向量r_τ-1；

步骤4.4、利用式(6)得到输入图片I_g的第t行诗句中第τ个字符的概率分布

从而得到输入图片I_g的第t行诗句中所有字符的概率分布作为汉语古诗生成模型：

式(6)中，θ_β为所设定的参数，利用均匀分布[-0.08,0.08]随机初始化参数θ_β，r_τ为第τ个字符的状态向量，并通过式(7)获得：

式(7)中，f()表示长短期记忆网络的内部激活函数；

步骤4.5、从输入图片I_g的第t行诗句第τ个字符的概率分布

中选取概率最大的字符作为输入图片I_g的第t行诗句的第τ个字符，从而得到输入图片I_g的第t行诗句；在第t行诗句的生成过程中，依赖于之前生成的所有历史诗句H，因此可以保证上下文的一致性、整首古诗的连贯性及逻辑的关联性，并且利用输入图片I_g的汉语关键词k_t控制第t行诗句的生成，可使诗句的生成围绕着汉语关键词k_t展开，因此可以保证输入图片与生成的整首古诗的一致性。

步骤4.6、将t+1赋值给t，并返回步骤4.2，直到t＞L为止，从而生成输入图片I_g的汉语古诗；

步骤4.7、利用如式(8)得到损失函数L₂(q)：

式(8)中，M为从诗集数据集Q中选取的任意一批汉语古诗的大小，表示每次训练迭代时的汉语古诗数量，且M＜n；q表示每次训练迭代的M首汉语古诗集合，

表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符输入汉语古诗生成模型中得到的模型概率分布，

步骤4.8、为了加快训练速度，本实施例中采用均方根传播算法(RMSprop)对损失函数L₂(q)进行最小化处理，得到损失函数L₂(q)的导数L′₂；将θ_β+η₂L′₂赋值给θ_β，从而更新θ_β，用于对汉语古诗生成模型进行训练，其中，η₂表示汉语古诗生成模型的学习速率，初始值设为0.002，并使用RMSprop算法自适应调整学习速率η₂。