CN107832292B - 一种基于神经网络模型的图像到汉语古诗的转换方法 - Google Patents

一种基于神经网络模型的图像到汉语古诗的转换方法 Download PDF

Info

Publication number
CN107832292B
CN107832292B CN201711064401.3A CN201711064401A CN107832292B CN 107832292 B CN107832292 B CN 107832292B CN 201711064401 A CN201711064401 A CN 201711064401A CN 107832292 B CN107832292 B CN 107832292B
Authority
CN
China
Prior art keywords
picture
poetry
chinese
vector
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711064401.3A
Other languages
English (en)
Other versions
CN107832292A (zh
Inventor
刘学亮
洪日昌
汪萌
郝世杰
邢硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shihaixintu Microelectronics Co ltd
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201711064401.3A priority Critical patent/CN107832292B/zh
Publication of CN107832292A publication Critical patent/CN107832292A/zh
Application granted granted Critical
Publication of CN107832292B publication Critical patent/CN107832292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于神经网络模型的图像到汉语古诗的转换方法。本发明包括如下步骤:1收集现有的汉语古诗作为诗集数据集;收集图片资源及与所述图片资源对应的语句描述资源作为图像数据集;2建立多模态循环神经网络并进行训练以生成图像目标描述语句;3映射目标描述语句为汉语关键词;4利用长短期记忆网络建立汉语古诗生成模型并进行训练,从而实现图像到汉语古诗的转换。本发明通过计算机自动将图片转化成能够描述图片的汉语古诗,摆脱主题词的限制,使得普通使用者通过输入一幅图片生成对应的汉语古诗,从而能在一定程度上填补我国在机器“看图写诗”领域方面的空缺。

Description

一种基于神经网络模型的图像到汉语古诗的转换方法
技术领域
本发明涉及信息技术领域,尤其涉及一种基于神经网络模型的图像到汉语古诗的转换方法。
背景技术
中国古诗是人类文学皇冠上的明珠。我国自《诗经》以后,两千年来的诗篇灿若繁星。让机器自动生成诗歌,一直是人工智能领域一个有挑战性的工作。人类能够很容易地描述一幅图像的内容,然而这个工作对计算机来说却十分困难,这需要计算机能够获取图像语义水平上的内容并且像人类一样组织并表达出这些语义信息。
近年来,深度神经网络火遍了人工智能领域的各个方向,颠覆了语音识别、图像分类、文本理解等众多领域的算法设计思路。借助于深度神经网络,机器可以越来越像人类,计算机开始能够理解更高层次的图像内容和文本序列。机器自动生成汉语古诗和图像描述取得了一些新的进展。
然而,当前依主题词指定方式为基础的古诗生成方法具有很大的局限性,这种方式对主题词的选择要求较高,只有主题词选的合理,生成的古诗才更合理,这会对很多普通使用者造成障碍;而且这种方式被一些专家制定的规则和模式严格地约束,句子之间缺乏连贯性,生成的目标诗句也过于死板,缺乏灵活性。当前在图片描述的自动生成中仅以简单的白话句式来捕捉图片内容进行描述,生成的描述语句单调,缺乏灵活性。
发明内容
本发明为解决现有技术中存在的不足之处,提供一种基于神经网络模型的图像到汉语古诗的转换方法,以期能通过计算机自动将图片转化成能够描述图片的汉语古诗,摆脱主题词的限制,使得普通使用者通过输入一幅图片生成汉语古诗,从而能在一定程度上填补我国在机器“看图写诗”领域方面的空缺。
为解决以上技术问题,本发明采用如下技术方案:
本发明一种基于神经网络模型的图像到汉语古诗的转换方法的特点包括如下步骤:
步骤1、收集现有的汉语古诗作为诗集数据集Q={q1,q2,...,qi,...,qn},qi表示第i首汉语古诗,并有
Figure BDA0001455422980000012
Figure BDA0001455422980000011
表示所述第i首汉语古诗中第v个字符,i=1,2,…,n,v=1,2,...,Vi
获取图片资源以及与所述图片资源对应的语句描述资源作为图像数据集T={(I1,s1),(I2,s2),...,(Ij,sj),....,(Im,sm)};其中,Ij表示第j张图片,sj表示所述第j张图片对应的语句描述,并有:
Figure BDA0001455422980000021
Figure BDA0001455422980000022
表示所述第j张图片对应的语句描述中第z个字符,j=1,2,…,m,z=1,2,…,Zj
步骤2、建立多模态循环神经网络,所述多模态循环神经网络由深度卷积神经网络CNN和长短期记忆网络LSTM组成,并对所述多模态循环神经网络进行训练,得到图片最终的目标描述语句;
步骤2.1、利用式(1)所示的深度卷积神经网络CNN将第j张图片Ij映射到向量空间W中,从而得到第j张图片Ij的向量xj′:
xj′=Wc[CNN(Ij)] (1)
式(1)中,CNN(Ij)表示利用深度神经网络CNN提取出的第j张图片Ij的特征向量,Wc为所述向量空间W的图像映射矩阵;
步骤2.2、利用式(2)所示的热编码方法将所述第j张图片Ij对应的语句描述sj映射到所述向量空间W中,从而得到语句描述sj的向量
Figure BDA0001455422980000023
其中,
Figure BDA0001455422980000024
表示所述语句描述sj中第z个字符
Figure BDA0001455422980000025
的向量,x0表示所有语句描述的开始字符的向量,
Figure BDA00014554229800000212
表示所有语句描述的结束字符的向量:
Figure BDA0001455422980000026
式(2)中,
Figure BDA0001455422980000027
为所述语句描述sj中第z个字符
Figure BDA0001455422980000028
的热编码向量,We为所述向量空间W的字符映射矩阵;
步骤2.3、将所述第j张图片Ij的向量xj′及其对应的语句描述sj的向量xj输入到式(3)所示的长短期记忆网络LSTM中,得到第j张图片Ij的目标描述语句的概率分布
Figure BDA0001455422980000029
其中,
Figure BDA00014554229800000210
表示所述第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布,y0表示所有目标描述语句的开始字符的概率分布,
Figure BDA00014554229800000213
表示所有目标描述语句的结束字符的概率分布:
Figure BDA00014554229800000211
式(3)中,θσ为长短期记忆网络的参数;
步骤2.4、从所述第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布
Figure BDA0001455422980000031
中选取概率最大的字符作为所述第j张图片Ij的目标描述语句的第z个字符,从而得到所述第j张图片Ij的目标描述语句;
步骤2.5、利用所述图像数据集T对所述多模态循环神经网络进行训练,得到所述第j张图片Ij最终的目标描述语句;
步骤2.5.1、选用所述目标描述语句的概率分布yj的负对数似然和的均值作为损失函数L1(I,s)如式(4)所示:
Figure BDA0001455422980000032
式(4)中,N为批大小,表示每次训练迭代时的图片数量,且N<m;I表示每次训练迭代的N张图片集合,s表示每次训练迭代的N张图片集合I的对应的语句描述集合;
步骤2.5.2、采用最小批随机梯度下降法对所述损失函数L1(I,s)进行最小化处理,得到所述损失函数L1(I,s)的导数L1′;
步骤2.5.3、令所述多模态循环神经网络的参数为θα={Wc,Weσ},将θα1L1′赋值给θα,从而更新θα,用于对所述多模态循环网络的训练,其中,η1表示所述多模态循环神经网络的学习速率;
步骤3、将另一幅输入图片Ig输入所述多模态循环神经网络中,得到最终的目标描述语句,并去掉最终目标描述语句中所有停词,将去除停词后的目标描述语句映射为汉语关键词K={k1,...,kt,...,kL},kt表示所述输入图片Ig的第t个汉语关键词,t=1,2,…,L,L≥1;
步骤4、利用长短期记忆网络建立汉语古诗生成模型并进行训练,从而实现图像到汉语古诗的转换,并生成对应的汉语古诗;
步骤4.1、定义历史诗句H为第1到第t-1行诗句,并初始化历史诗句H为零,初始化t=1;
步骤4.2、利用热编码方法将所述输入图片Ig的第t个汉语关键词kt及所述历史诗句H分别映射至向量空间Ψ中,得到第t个汉语关键词kt的向量
Figure BDA0001455422980000041
及所述历史诗句H的向量
Figure BDA0001455422980000042
其中,
Figure BDA00014554229800000413
表示所述输入图片Ig的第t个汉语关键词kt的第d个字符的向量,
Figure BDA00014554229800000414
表示所述历史诗句H中的第λ个字符的向量;
利用长短期记忆网络分别将第t个汉语关键词kt的向量
Figure BDA0001455422980000043
和所述历史诗句H的向量
Figure BDA0001455422980000044
编码为向量
Figure BDA0001455422980000045
Figure BDA0001455422980000046
步骤4.3、当t=1且τ=1时,均值初始化所述输入图片Ig的第t行诗句中第τ-1个字符的概率分布
Figure BDA0001455422980000047
和第τ-1个字符的状态向量rτ-1
步骤4.4、利用式(6)得到所述输入图片Ig的第t行诗句中第τ个字符的概率分布
Figure BDA0001455422980000048
从而得到所述输入图片Ig的第t行诗句中所有字符的概率分布作为汉语古诗生成模型:
Figure BDA0001455422980000049
式(6)中,θβ为所设定的参数,rτ为第τ个字符的状态向量,并通过式(7)获得:
Figure BDA00014554229800000410
式(7)中,f()表示长短期记忆网络的内部激活函数;
步骤4.5、从所述输入图片Ig的第t行诗句第τ个字符的概率分布
Figure BDA00014554229800000415
中选取概率最大的字符作为所述输入图片Ig的第t行诗句的第τ个字符,从而得到所述输入图片Ig的第t行诗句;
步骤4.6、将t+1赋值给t,并返回步骤4.2,直到t>L为止,从而生成所述输入图片Ig的汉语古诗;
步骤4.7、利用如式(8)得到损失函数L2(q):
Figure BDA00014554229800000411
式(8)中,M为从所述诗集数据集Q中选取的任意一批汉语古诗的大小,表示每次训练迭代时的汉语古诗数量,且M<n;q表示每次训练迭代的M首汉语古诗集合,
Figure BDA00014554229800000412
表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符输入所述汉语古诗生成模型中得到的模型概率分布,
Figure BDA0001455422980000051
表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符经过热编码处理后得到的期望概率分布;
步骤4.8、采用均方根传播算法对所述损失函数L2(q)进行最小化处理,得到所述损失函数L2(q)的导数L′2;将θβ2L′2赋值给θβ,从而更新θβ,用于对所述汉语古诗生成模型进行训练,其中,η2表示所述汉语古诗生成模型的学习速率。
与已有技术相比,本发明的有益效果体现在:
1、本发明利用深度卷积神经网络与长短期记忆网络建立多模态循环神经网络提取图像的高层语义作为汉语关键词,基于长短期记忆网络建立汉语古诗生成模型,根据图像的汉语关键词依次生成待生成汉语古诗的每一行直至作诗完成,从而使计算机自动将图片转化成能够描述图片的汉语古诗,摆脱了主题词的限制,使得普通使用者通过输入一幅图片即可生成对应的汉语古诗,在一定程度上填补了我国在机器“看图写诗”领域方面的空缺;
2、本发明通过把计算机视觉与自然语言两大技术领域连接起来,并融入了中华文学因素,利用这种多模态的融合将图片中的内容表达成汉语古诗的表达逻辑,以形成合规且具有表义能力的汉语古诗,并利用从图片中提取高层语义作为汉语关键词对汉语古诗生成过程进行细致控制,使生成的汉语古诗具有逻辑关联性和上下文一致性。
附图说明
图1为本发明整体结构示意图;
图2为本发明实现过程示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
本实施例中,一种基于神经网络模型的图像到汉语古诗的转换方法,如图1所示,主要是根据多模态循环神经网络和古诗生成模型来提取输入图像的语义信息作为汉语关键词并顺序地生成描述图像的汉语古诗,具体步骤如下:
步骤1、收集现有的汉语古诗作为诗集数据集Q={q1,q2,...,qi,...,qn},qi表示第i首汉语古诗,并有
Figure BDA0001455422980000053
Figure BDA0001455422980000052
表示第i首汉语古诗中第v个字符,i=1,2,…,n,v=1,2,...,Vi,诗集数据集Q收集的汉语古诗为五言诗和七言诗,共计五万首;
获取图片资源以及与图片资源对应的语句描述资源作为图像数据集T={(I1,s1),(I2,s2),...,(Ij,sj),....,(Im,sm)};其中,Ij表示第j张图片,sj表示第j张图片对应的语句描述,并有:
Figure BDA0001455422980000061
Figure BDA0001455422980000062
表示第j张图片对应的语句描述中第z个字符,j=1,2,…,m,z=1,2,…,Zj,图像数据集T为Flickr30k数据集,包含三万一千张图像,每张图像被五句不同的语句所描述;
步骤2、如图2上半部分所示,建立多模态循环神经网络,多模态循环神经网络由深度卷积神经网络CNN和长短期记忆网络LSTM组成,并对多模态循环神经网络进行训练,得到图片最终的目标描述语句;
步骤2.1、利用式(1)所示的深度卷积神经网络CNN将第j张图片Ij映射到向量空间W中,从而得到第j张图片Ij的向量x′j
x′j=Wc[CNN(Ij)] (1)
式(1)中,CNN(Ij)表示利用深度神经网络CNN提取出的第j张图片Ij的特征向量,维度是4096,Wc为向量空间W的图像映射矩阵,维度设为4096×256,深度卷积神经网络CNN采用在Imagenet数据集上进行预训练过的VGGnet网络结构,利用预训练过的VGGnet网络结构提取的图片特征比传统的基于尺度不变特征变换(SIFT)、词袋模型等特征提取方法具有更好的高层语义特征表示能力。
步骤2.2、利用式(2)所示的热编码方法将第j张图片Ij对应的语句描述sj映射到向量空间W中,从而得到语句描述sj的向量
Figure BDA0001455422980000063
其中,
Figure BDA0001455422980000064
表示语句描述sj中第z个字符
Figure BDA0001455422980000065
的向量,x0表示所有语句描述的开始字符的向量,
Figure BDA0001455422980000066
表示所有语句描述的结束字符的向量:
Figure BDA0001455422980000067
式(2)中,
Figure BDA0001455422980000068
为语句描述sj中第z个字符
Figure BDA0001455422980000069
的热编码向量,维度设为D1,D1表示图像数据集T的所有语句描述中不重复字符与开始字符和结束字符的个数,We为向量空间W的字符映射矩阵,维度设为D1×256;
步骤2.3、将第j张图片Ij的向量xj′及其对应的语句描述sj的向量xj输入到式(3)所示的长短期记忆网络LSTM中,得到第j张图片Ij的目标描述语句的概率分布
Figure BDA0001455422980000071
其中,
Figure BDA0001455422980000072
表示第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布,y0表示所有目标描述语句的开始字符的概率分布,
Figure BDA0001455422980000073
表示所有目标描述语句的结束字符的概率分布:
Figure BDA0001455422980000075
式(3)中,θσ为长短期记忆网络的参数,利用均匀分布[-0.1,0.1]随机初始化参数θσ
步骤2.4、从第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布
Figure BDA0001455422980000076
中选取概率最大的字符作为第j张图片Ij的目标描述语句的第z个字符,从而得到第j张图片Ij的目标描述语句;
步骤2.5、利用图像数据集T对多模态循环神经网络进行训练,得到第j张图片Ij最终的目标描述语句;
步骤2.5.1、选用目标描述语句的概率分布yj的负对数似然和的均值作为损失函数L1(I,s)如式(4)所示:
Figure BDA0001455422980000074
式(4)中,N为批大小,本实施例中设为128,表示每次训练迭代时的图片数量,且N<m;I表示每次训练迭代的N张图片集合,s表示每次训练迭代的N张图片集合I的对应的语句描述集合;
步骤2.5.2、为加快收敛速度,防止陷入局部最优解,本实施例采用最小批随机梯度下降法(mini-batch SGD)对损失函数L1(I,s)进行最小化处理,得到损失函数L1(I,s)的导数L′t
步骤2.5.3、令多模态循环神经网络的参数为θα={Wc,Weσ},将θα1L′t赋值给θα,从而更新θα,用于对多模态循环网络的训练,其中,η1表示多模态循环神经网络的学习速率,初始值设为0.001,并在训练过程中对学习速率η1进行线性衰减,使损失函数L1(I,s)降到最小,提高模型精度;
步骤3、将另一幅输入图片Ig输入多模态循环神经网络中,得到最终的目标描述语句,并去掉最终目标描述语句中量词、连词等所有停词,将去除停词后的目标描述语句映射为汉语关键词K={k1,...,kt,...,kL},kt表示输入图片Ig的第t个汉语关键词,t=1,2,…,L,L≥1;
步骤4、如图2下半部分所示,利用长短期记忆网络建立汉语古诗生成模型并进行训练,从而实现图像到汉语古诗的转换,并生成对应的汉语古诗;
步骤4.1、定义历史诗句H为第1到第t-1行诗句,并初始化历史诗句H为零,初始化t=1;
步骤4.2、利用热编码方法将输入图片Ig的第t个汉语关键词kt及历史诗句H分别映射至向量空间Ψ中,得到第t个汉语关键词kt的向量
Figure BDA0001455422980000081
及历史诗句H的向量
Figure BDA0001455422980000082
其中,
Figure BDA0001455422980000083
表示输入图片Ig的第t个汉语关键词kt的第d个字符的向量,
Figure BDA0001455422980000084
表示历史诗句H中的第λ个字符的向量;
利用长短期记忆网络分别将第t个汉语关键词kt的向量
Figure BDA0001455422980000085
和历史诗句H的向量
Figure BDA0001455422980000086
编码为向量
Figure BDA0001455422980000087
Figure BDA0001455422980000088
步骤4.3、当t=1且τ=1时,均值初始化输入图片Ig的第t行诗句中第τ-1个字符的概率分布
Figure BDA0001455422980000089
和第τ-1个字符的状态向量rτ-1
步骤4.4、利用式(6)得到输入图片Ig的第t行诗句中第τ个字符的概率分布
Figure BDA00014554229800000810
从而得到输入图片Ig的第t行诗句中所有字符的概率分布作为汉语古诗生成模型:
Figure BDA00014554229800000811
式(6)中,θβ为所设定的参数,利用均匀分布[-0.08,0.08]随机初始化参数θβ,rτ为第τ个字符的状态向量,并通过式(7)获得:
Figure BDA00014554229800000812
式(7)中,f()表示长短期记忆网络的内部激活函数;
步骤4.5、从输入图片Ig的第t行诗句第τ个字符的概率分布
Figure BDA00014554229800000813
中选取概率最大的字符作为输入图片Ig的第t行诗句的第τ个字符,从而得到输入图片Ig的第t行诗句;在第t行诗句的生成过程中,依赖于之前生成的所有历史诗句H,因此可以保证上下文的一致性、整首古诗的连贯性及逻辑的关联性,并且利用输入图片Ig的汉语关键词kt控制第t行诗句的生成,可使诗句的生成围绕着汉语关键词kt展开,因此可以保证输入图片与生成的整首古诗的一致性。
步骤4.6、将t+1赋值给t,并返回步骤4.2,直到t>L为止,从而生成输入图片Ig的汉语古诗;
步骤4.7、利用如式(8)得到损失函数L2(q):
Figure BDA0001455422980000091
式(8)中,M为从诗集数据集Q中选取的任意一批汉语古诗的大小,表示每次训练迭代时的汉语古诗数量,且M<n;q表示每次训练迭代的M首汉语古诗集合,
Figure BDA0001455422980000092
表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符输入汉语古诗生成模型中得到的模型概率分布,
Figure BDA0001455422980000093
表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符经过热编码处理后得到的期望概率分布;
步骤4.8、为了加快训练速度,本实施例中采用均方根传播算法(RMSprop)对损失函数L2(q)进行最小化处理,得到损失函数L2(q)的导数L′2;将θβ2L′2赋值给θβ,从而更新θβ,用于对汉语古诗生成模型进行训练,其中,η2表示汉语古诗生成模型的学习速率,初始值设为0.002,并使用RMSprop算法自适应调整学习速率η2

Claims (1)

1.一种基于神经网络模型的图像到汉语古诗的转换方法,其特征包括如下步骤:
步骤1、收集现有的汉语古诗作为诗集数据集Q={q1,q2,...,qi,...,qn},qi表示第i首汉语古诗,并有
Figure FDA0002720585040000011
Figure FDA0002720585040000012
表示所述第i首汉语古诗中第v个字符,i=1,2,…,n,v=1,2,...,Vi
获取图片资源以及与所述图片资源对应的语句描述资源作为图像数据集T={(I1,s1),(I2,s2),...,(Ij,sj),....,(Im,sm)};其中,Ij表示第j张图片,sj表示所述第j张图片对应的语句描述,并有:
Figure FDA0002720585040000013
Figure FDA0002720585040000014
表示所述第j张图片对应的语句描述中第z个字符,j=1,2,…,m,z=1,2,…,Zj
步骤2、建立多模态循环神经网络,所述多模态循环神经网络由深度卷积神经网络CNN和长短期记忆网络LSTM组成,并对所述多模态循环神经网络进行训练,得到图片最终的目标描述语句;
步骤2.1、利用式(1)所示的深度卷积神经网络CNN将第j张图片Ij映射到向量空间W中,从而得到第j张图片Ij的向量x′j
x′j=Wc[CNN(Ij)] (1)
式(1)中,CNN(Ij)表示利用深度神经网络CNN提取出的第j张图片Ij的特征向量,Wc为所述向量空间W的图像映射矩阵;
步骤2.2、利用式(2)所示的热编码方法将所述第j张图片Ij对应的语句描述sj映射到所述向量空间W中,从而得到语句描述sj的向量
Figure FDA0002720585040000015
其中,
Figure FDA0002720585040000016
表示所述语句描述sj中第z个字符
Figure FDA0002720585040000017
的向量,x0表示所有语句描述的开始字符的向量,
Figure FDA0002720585040000018
表示所有语句描述的结束字符的向量:
Figure FDA0002720585040000019
式(2)中,
Figure FDA00027205850400000110
为所述语句描述sj中第z个字符
Figure FDA00027205850400000111
的热编码向量,We为所述向量空间W的字符映射矩阵;
步骤2.3、将所述第j张图片Ij的向量x′j及其对应的语句描述sj的向量xj输入到式(3)所示的长短期记忆网络LSTM中,得到第j张图片Ij的目标描述语句的概率分布
Figure FDA0002720585040000021
其中,
Figure FDA0002720585040000022
表示所述第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布,y0表示所有目标描述语句的开始字符的概率分布,
Figure FDA0002720585040000023
表示所有目标描述语句的结束字符的概率分布:
Figure FDA0002720585040000024
式(3)中,θσ为长短期记忆网络的参数;
步骤2.4、从所述第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布
Figure FDA0002720585040000025
中选取概率最大的字符作为所述第j张图片Ij的目标描述语句的第z个字符,从而得到所述第j张图片Ij的目标描述语句;
步骤2.5、利用所述图像数据集T对所述多模态循环神经网络进行训练,得到所述第j张图片Ij最终的目标描述语句;
步骤2.5.1、选用所述目标描述语句的概率分布yj的负对数似然和的均值作为损失函数L1(I,s)如式(4)所示:
Figure FDA0002720585040000026
式(4)中,N为批大小,表示每次训练迭代时的图片数量,且N<m;I表示每次训练迭代的N张图片集合,s表示每次训练迭代的N张图片集合I的对应的语句描述集合;
步骤2.5.2、采用最小批随机梯度下降法对所述损失函数L1(I,s)进行最小化处理,得到所述损失函数L1(I,s)的导数L′1
步骤2.5.3、令所述多模态循环神经网络的参数为θα={Wc,Weσ},将θα1L′1赋值给θα,从而更新θα,用于对所述多模态循环网络的训练,其中,η1表示所述多模态循环神经网络的学习速率;
步骤3、将另一幅输入图片Ig输入所述多模态循环神经网络中,得到最终的目标描述语句,并去掉最终目标描述语句中所有停词,将去除停词后的目标描述语句映射为汉语关键词K={k1,...,kt,...,kL},kt表示所述输入图片Ig的第t个汉语关键词,t=1,2,…,L,L>1;
步骤4、利用长短期记忆网络建立汉语古诗生成模型并进行训练,从而实现图像到汉语古诗的转换,并生成对应的汉语古诗;
步骤4.1、定义历史诗句H为第1到第t-1行诗句,并初始化历史诗句H为零,初始化t=1;
步骤4.2、利用热编码方法将所述输入图片Ig的第t个汉语关键词kt及所述历史诗句H分别映射至向量空间Ψ中,得到第t个汉语关键词kt的向量
Figure FDA0002720585040000031
及所述历史诗句H的向量
Figure FDA0002720585040000032
其中,
Figure FDA0002720585040000033
表示所述输入图片Ig的第t个汉语关键词kt的第d个字符的向量,
Figure FDA0002720585040000034
表示所述历史诗句H中的第λ个字符的向量;
利用长短期记忆网络分别将第t个汉语关键词kt的向量
Figure FDA0002720585040000035
和所述历史诗句H的向量
Figure FDA0002720585040000036
编码为向量
Figure FDA0002720585040000037
Figure FDA0002720585040000038
步骤4.3、当t=1且τ=1时,均值初始化所述输入图片Ig的第t行诗句中第τ-1个字符的概率分布
Figure FDA0002720585040000039
和第τ-1个字符的状态向量rτ-1;τ表示第t行诗句中字符的个数;
步骤4.4、利用式(6)得到所述输入图片Ig的第t行诗句中第τ个字符的概率分布
Figure FDA00027205850400000310
从而得到所述输入图片Ig的第t行诗句中所有字符的概率分布作为汉语古诗生成模型:
Figure FDA00027205850400000311
式(6)中,θβ为所设定的参数,rτ为第τ个字符的状态向量,并通过式(7)获得:
Figure FDA00027205850400000312
式(7)中,f()表示长短期记忆网络的内部激活函数;
步骤4.5、从所述输入图片Ig的第t行诗句第τ个字符的概率分布
Figure FDA00027205850400000313
中选取概率最大的字符作为所述输入图片Ig的第t行诗句的第τ个字符,从而得到所述输入图片Ig的第t行诗句;
步骤4.6、将t+1赋值给t,并返回步骤4.2,直到t>L为止,从而生成所述输入图片Ig的汉语古诗;
步骤4.7、利用如式(8)得到损失函数L2(q):
Figure FDA00027205850400000314
式(8)中,M为从所述诗集数据集Q中选取的任意一批汉语古诗的大小,表示每次训练迭代时的汉语古诗数量,且M<n;q表示每次训练迭代的M首汉语古诗集合,
Figure FDA0002720585040000041
表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符输入所述汉语古诗生成模型中得到的模型概率分布,
Figure FDA0002720585040000042
表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符经过热编码处理后得到的期望概率分布;
步骤4.8、采用均方根传播算法对所述损失函数L2(q)进行最小化处理,得到所述损失函数L2(q)的导数L′2;将θβ2L′2赋值给θβ,从而更新θβ,用于对所述汉语古诗生成模型进行训练,其中,η2表示所述汉语古诗生成模型的学习速率。
CN201711064401.3A 2017-11-02 2017-11-02 一种基于神经网络模型的图像到汉语古诗的转换方法 Active CN107832292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711064401.3A CN107832292B (zh) 2017-11-02 2017-11-02 一种基于神经网络模型的图像到汉语古诗的转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711064401.3A CN107832292B (zh) 2017-11-02 2017-11-02 一种基于神经网络模型的图像到汉语古诗的转换方法

Publications (2)

Publication Number Publication Date
CN107832292A CN107832292A (zh) 2018-03-23
CN107832292B true CN107832292B (zh) 2020-12-29

Family

ID=61650433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711064401.3A Active CN107832292B (zh) 2017-11-02 2017-11-02 一种基于神经网络模型的图像到汉语古诗的转换方法

Country Status (1)

Country Link
CN (1) CN107832292B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874779B (zh) * 2018-06-21 2021-09-21 东北大学 基于K8s集群建立的依图写诗系统的控制方法
CN109086270B (zh) * 2018-07-24 2022-03-01 重庆大学 基于古诗词语料向量化的自动作诗系统及其方法
CN110147806B (zh) * 2018-10-08 2023-04-07 腾讯科技(深圳)有限公司 图像描述模型的训练方法、装置及存储介质
CN109582952B (zh) * 2018-10-31 2022-09-02 腾讯科技(深圳)有限公司 诗歌生成方法、装置、计算机设备和介质
CN109784165B (zh) * 2018-12-12 2024-06-07 平安科技(深圳)有限公司 诗词内容的生成方法、装置、终端及存储介质
CN110309510B (zh) * 2019-07-02 2023-05-12 中国计量大学 一种基于c-s和gru的看画题诗方法
CN110414001B (zh) * 2019-07-18 2023-09-26 腾讯科技(深圳)有限公司 语句生成方法和装置、存储介质及电子装置
CN110738061B (zh) * 2019-10-17 2024-05-28 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
CN111243060B (zh) * 2020-01-07 2024-01-23 复旦大学 一种基于手绘图的故事性文本生成方法
CN112036192A (zh) * 2020-09-25 2020-12-04 北京小米松果电子有限公司 古诗词生成方法、装置及存储介质
CN112257775B (zh) * 2020-10-21 2022-11-15 东南大学 一种基于卷积神经网络和无监督语言模型的由图成诗方法
CN113794915B (zh) * 2021-09-13 2023-05-05 海信电子科技(武汉)有限公司 服务器、显示设备、诗词歌赋生成方法及媒资播放方法
CN115062179A (zh) * 2022-07-06 2022-09-16 吴致远 基于深度学习的面向图像的端到端中文古诗词推荐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
chinese poetry generation with recurrent neural networks;xingxing zhang,mirella lapata;《2014年自然语言处理经验方法会议会议录》;20141029;全文 *
show and tell a neural image caption generator;oriol vinyals等;《IEEE计算机视觉和模式识别会议》;20150420;全文 *

Also Published As

Publication number Publication date
CN107832292A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN107832292B (zh) 一种基于神经网络模型的图像到汉语古诗的转换方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
JP7193252B2 (ja) 画像の領域のキャプション付加
CN108009154A (zh) 一种基于深度学习模型的图像中文描述方法
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111858931A (zh) 一种基于深度学习的文本生成方法
Wu et al. Recall what you see continually using gridlstm in image captioning
CN108985370B (zh) 图像标注语句自动生成方法
WO2018203549A1 (ja) 信号変更装置、方法、及びプログラム
CN114676234A (zh) 一种模型训练方法及相关设备
CN111368118A (zh) 一种图像描述生成方法、系统、装置和存储介质
CN109740012B (zh) 基于深度神经网络对图像语义进行理解和问答的方法
CN107679225A (zh) 一种基于关键词的回复生成方法
CN109145946B (zh) 一种智能图像识别和描述方法
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN111046178A (zh) 一种文本序列生成方法及其系统
Li et al. Image describing based on bidirectional LSTM and improved sequence sampling
CN115908641A (zh) 一种基于特征的文本到图像生成方法、装置及介质
CN110472746A (zh) 一种基于人工智能的编码预测方法和系统
Radpour et al. Conditional generative adversarial networks for emoji synthesis with word embedding manipulation
CN114492462A (zh) 基于情绪分析和生成式对抗网络的对话生成方法及系统
CN114519353A (zh) 模型的训练方法、情感消息生成方法和装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220712

Address after: 610096 No. 505, floor 5, building 6, No. 599, shijicheng South Road, Chengdu hi tech Zone, Chengdu pilot Free Trade Zone, Sichuan Province

Patentee after: Chengdu shihaixintu Microelectronics Co.,Ltd.

Address before: Tunxi road in Baohe District of Hefei city of Anhui Province, No. 193 230009

Patentee before: Hefei University of Technology

TR01 Transfer of patent right