CN107832292B - 一种基于神经网络模型的图像到汉语古诗的转换方法 - Google Patents
一种基于神经网络模型的图像到汉语古诗的转换方法 Download PDFInfo
- Publication number
- CN107832292B CN107832292B CN201711064401.3A CN201711064401A CN107832292B CN 107832292 B CN107832292 B CN 107832292B CN 201711064401 A CN201711064401 A CN 201711064401A CN 107832292 B CN107832292 B CN 107832292B
- Authority
- CN
- China
- Prior art keywords
- picture
- poetry
- chinese
- vector
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于神经网络模型的图像到汉语古诗的转换方法。本发明包括如下步骤:1收集现有的汉语古诗作为诗集数据集;收集图片资源及与所述图片资源对应的语句描述资源作为图像数据集;2建立多模态循环神经网络并进行训练以生成图像目标描述语句;3映射目标描述语句为汉语关键词;4利用长短期记忆网络建立汉语古诗生成模型并进行训练,从而实现图像到汉语古诗的转换。本发明通过计算机自动将图片转化成能够描述图片的汉语古诗,摆脱主题词的限制,使得普通使用者通过输入一幅图片生成对应的汉语古诗,从而能在一定程度上填补我国在机器“看图写诗”领域方面的空缺。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于神经网络模型的图像到汉语古诗的转换方法。
背景技术
中国古诗是人类文学皇冠上的明珠。我国自《诗经》以后,两千年来的诗篇灿若繁星。让机器自动生成诗歌,一直是人工智能领域一个有挑战性的工作。人类能够很容易地描述一幅图像的内容,然而这个工作对计算机来说却十分困难,这需要计算机能够获取图像语义水平上的内容并且像人类一样组织并表达出这些语义信息。
近年来,深度神经网络火遍了人工智能领域的各个方向,颠覆了语音识别、图像分类、文本理解等众多领域的算法设计思路。借助于深度神经网络,机器可以越来越像人类,计算机开始能够理解更高层次的图像内容和文本序列。机器自动生成汉语古诗和图像描述取得了一些新的进展。
然而,当前依主题词指定方式为基础的古诗生成方法具有很大的局限性,这种方式对主题词的选择要求较高,只有主题词选的合理,生成的古诗才更合理,这会对很多普通使用者造成障碍;而且这种方式被一些专家制定的规则和模式严格地约束,句子之间缺乏连贯性,生成的目标诗句也过于死板,缺乏灵活性。当前在图片描述的自动生成中仅以简单的白话句式来捕捉图片内容进行描述,生成的描述语句单调,缺乏灵活性。
发明内容
本发明为解决现有技术中存在的不足之处,提供一种基于神经网络模型的图像到汉语古诗的转换方法,以期能通过计算机自动将图片转化成能够描述图片的汉语古诗,摆脱主题词的限制,使得普通使用者通过输入一幅图片生成汉语古诗,从而能在一定程度上填补我国在机器“看图写诗”领域方面的空缺。
为解决以上技术问题,本发明采用如下技术方案:
本发明一种基于神经网络模型的图像到汉语古诗的转换方法的特点包括如下步骤:
步骤1、收集现有的汉语古诗作为诗集数据集Q={q1,q2,...,qi,...,qn},qi表示第i首汉语古诗,并有 表示所述第i首汉语古诗中第v个字符,i=1,2,…,n,v=1,2,...,Vi;
获取图片资源以及与所述图片资源对应的语句描述资源作为图像数据集T={(I1,s1),(I2,s2),...,(Ij,sj),....,(Im,sm)};其中,Ij表示第j张图片,sj表示所述第j张图片对应的语句描述,并有: 表示所述第j张图片对应的语句描述中第z个字符,j=1,2,…,m,z=1,2,…,Zj;
步骤2、建立多模态循环神经网络,所述多模态循环神经网络由深度卷积神经网络CNN和长短期记忆网络LSTM组成,并对所述多模态循环神经网络进行训练,得到图片最终的目标描述语句;
步骤2.1、利用式(1)所示的深度卷积神经网络CNN将第j张图片Ij映射到向量空间W中,从而得到第j张图片Ij的向量xj′:
xj′=Wc[CNN(Ij)] (1)
式(1)中,CNN(Ij)表示利用深度神经网络CNN提取出的第j张图片Ij的特征向量,Wc为所述向量空间W的图像映射矩阵;
步骤2.2、利用式(2)所示的热编码方法将所述第j张图片Ij对应的语句描述sj映射到所述向量空间W中,从而得到语句描述sj的向量其中,表示所述语句描述sj中第z个字符的向量,x0表示所有语句描述的开始字符的向量,表示所有语句描述的结束字符的向量:
步骤2.3、将所述第j张图片Ij的向量xj′及其对应的语句描述sj的向量xj输入到式(3)所示的长短期记忆网络LSTM中,得到第j张图片Ij的目标描述语句的概率分布其中,表示所述第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布,y0表示所有目标描述语句的开始字符的概率分布,表示所有目标描述语句的结束字符的概率分布:
式(3)中,θσ为长短期记忆网络的参数;
步骤2.5、利用所述图像数据集T对所述多模态循环神经网络进行训练,得到所述第j张图片Ij最终的目标描述语句;
步骤2.5.1、选用所述目标描述语句的概率分布yj的负对数似然和的均值作为损失函数L1(I,s)如式(4)所示:
式(4)中,N为批大小,表示每次训练迭代时的图片数量,且N<m;I表示每次训练迭代的N张图片集合,s表示每次训练迭代的N张图片集合I的对应的语句描述集合;
步骤2.5.2、采用最小批随机梯度下降法对所述损失函数L1(I,s)进行最小化处理,得到所述损失函数L1(I,s)的导数L1′;
步骤2.5.3、令所述多模态循环神经网络的参数为θα={Wc,We,θσ},将θα+η1L1′赋值给θα,从而更新θα,用于对所述多模态循环网络的训练,其中,η1表示所述多模态循环神经网络的学习速率;
步骤3、将另一幅输入图片Ig输入所述多模态循环神经网络中,得到最终的目标描述语句,并去掉最终目标描述语句中所有停词,将去除停词后的目标描述语句映射为汉语关键词K={k1,...,kt,...,kL},kt表示所述输入图片Ig的第t个汉语关键词,t=1,2,…,L,L≥1;
步骤4、利用长短期记忆网络建立汉语古诗生成模型并进行训练,从而实现图像到汉语古诗的转换,并生成对应的汉语古诗;
步骤4.1、定义历史诗句H为第1到第t-1行诗句,并初始化历史诗句H为零,初始化t=1;
步骤4.2、利用热编码方法将所述输入图片Ig的第t个汉语关键词kt及所述历史诗句H分别映射至向量空间Ψ中,得到第t个汉语关键词kt的向量及所述历史诗句H的向量其中,表示所述输入图片Ig的第t个汉语关键词kt的第d个字符的向量,表示所述历史诗句H中的第λ个字符的向量;
式(6)中,θβ为所设定的参数,rτ为第τ个字符的状态向量,并通过式(7)获得:
式(7)中,f()表示长短期记忆网络的内部激活函数;
步骤4.6、将t+1赋值给t,并返回步骤4.2,直到t>L为止,从而生成所述输入图片Ig的汉语古诗;
步骤4.7、利用如式(8)得到损失函数L2(q):
式(8)中,M为从所述诗集数据集Q中选取的任意一批汉语古诗的大小,表示每次训练迭代时的汉语古诗数量,且M<n;q表示每次训练迭代的M首汉语古诗集合,表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符输入所述汉语古诗生成模型中得到的模型概率分布,表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符经过热编码处理后得到的期望概率分布;
步骤4.8、采用均方根传播算法对所述损失函数L2(q)进行最小化处理,得到所述损失函数L2(q)的导数L′2;将θβ+η2L′2赋值给θβ,从而更新θβ,用于对所述汉语古诗生成模型进行训练,其中,η2表示所述汉语古诗生成模型的学习速率。
与已有技术相比,本发明的有益效果体现在:
1、本发明利用深度卷积神经网络与长短期记忆网络建立多模态循环神经网络提取图像的高层语义作为汉语关键词,基于长短期记忆网络建立汉语古诗生成模型,根据图像的汉语关键词依次生成待生成汉语古诗的每一行直至作诗完成,从而使计算机自动将图片转化成能够描述图片的汉语古诗,摆脱了主题词的限制,使得普通使用者通过输入一幅图片即可生成对应的汉语古诗,在一定程度上填补了我国在机器“看图写诗”领域方面的空缺;
2、本发明通过把计算机视觉与自然语言两大技术领域连接起来,并融入了中华文学因素,利用这种多模态的融合将图片中的内容表达成汉语古诗的表达逻辑,以形成合规且具有表义能力的汉语古诗,并利用从图片中提取高层语义作为汉语关键词对汉语古诗生成过程进行细致控制,使生成的汉语古诗具有逻辑关联性和上下文一致性。
附图说明
图1为本发明整体结构示意图;
图2为本发明实现过程示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
本实施例中,一种基于神经网络模型的图像到汉语古诗的转换方法,如图1所示,主要是根据多模态循环神经网络和古诗生成模型来提取输入图像的语义信息作为汉语关键词并顺序地生成描述图像的汉语古诗,具体步骤如下:
步骤1、收集现有的汉语古诗作为诗集数据集Q={q1,q2,...,qi,...,qn},qi表示第i首汉语古诗,并有 表示第i首汉语古诗中第v个字符,i=1,2,…,n,v=1,2,...,Vi,诗集数据集Q收集的汉语古诗为五言诗和七言诗,共计五万首;
获取图片资源以及与图片资源对应的语句描述资源作为图像数据集T={(I1,s1),(I2,s2),...,(Ij,sj),....,(Im,sm)};其中,Ij表示第j张图片,sj表示第j张图片对应的语句描述,并有: 表示第j张图片对应的语句描述中第z个字符,j=1,2,…,m,z=1,2,…,Zj,图像数据集T为Flickr30k数据集,包含三万一千张图像,每张图像被五句不同的语句所描述;
步骤2、如图2上半部分所示,建立多模态循环神经网络,多模态循环神经网络由深度卷积神经网络CNN和长短期记忆网络LSTM组成,并对多模态循环神经网络进行训练,得到图片最终的目标描述语句;
步骤2.1、利用式(1)所示的深度卷积神经网络CNN将第j张图片Ij映射到向量空间W中,从而得到第j张图片Ij的向量x′j:
x′j=Wc[CNN(Ij)] (1)
式(1)中,CNN(Ij)表示利用深度神经网络CNN提取出的第j张图片Ij的特征向量,维度是4096,Wc为向量空间W的图像映射矩阵,维度设为4096×256,深度卷积神经网络CNN采用在Imagenet数据集上进行预训练过的VGGnet网络结构,利用预训练过的VGGnet网络结构提取的图片特征比传统的基于尺度不变特征变换(SIFT)、词袋模型等特征提取方法具有更好的高层语义特征表示能力。
步骤2.2、利用式(2)所示的热编码方法将第j张图片Ij对应的语句描述sj映射到向量空间W中,从而得到语句描述sj的向量其中,表示语句描述sj中第z个字符的向量,x0表示所有语句描述的开始字符的向量,表示所有语句描述的结束字符的向量:
步骤2.3、将第j张图片Ij的向量xj′及其对应的语句描述sj的向量xj输入到式(3)所示的长短期记忆网络LSTM中,得到第j张图片Ij的目标描述语句的概率分布其中,表示第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布,y0表示所有目标描述语句的开始字符的概率分布,表示所有目标描述语句的结束字符的概率分布:
式(3)中,θσ为长短期记忆网络的参数,利用均匀分布[-0.1,0.1]随机初始化参数θσ;
步骤2.5、利用图像数据集T对多模态循环神经网络进行训练,得到第j张图片Ij最终的目标描述语句;
步骤2.5.1、选用目标描述语句的概率分布yj的负对数似然和的均值作为损失函数L1(I,s)如式(4)所示:
式(4)中,N为批大小,本实施例中设为128,表示每次训练迭代时的图片数量,且N<m;I表示每次训练迭代的N张图片集合,s表示每次训练迭代的N张图片集合I的对应的语句描述集合;
步骤2.5.2、为加快收敛速度,防止陷入局部最优解,本实施例采用最小批随机梯度下降法(mini-batch SGD)对损失函数L1(I,s)进行最小化处理,得到损失函数L1(I,s)的导数L′t;
步骤2.5.3、令多模态循环神经网络的参数为θα={Wc,We,θσ},将θα+η1L′t赋值给θα,从而更新θα,用于对多模态循环网络的训练,其中,η1表示多模态循环神经网络的学习速率,初始值设为0.001,并在训练过程中对学习速率η1进行线性衰减,使损失函数L1(I,s)降到最小,提高模型精度;
步骤3、将另一幅输入图片Ig输入多模态循环神经网络中,得到最终的目标描述语句,并去掉最终目标描述语句中量词、连词等所有停词,将去除停词后的目标描述语句映射为汉语关键词K={k1,...,kt,...,kL},kt表示输入图片Ig的第t个汉语关键词,t=1,2,…,L,L≥1;
步骤4、如图2下半部分所示,利用长短期记忆网络建立汉语古诗生成模型并进行训练,从而实现图像到汉语古诗的转换,并生成对应的汉语古诗;
步骤4.1、定义历史诗句H为第1到第t-1行诗句,并初始化历史诗句H为零,初始化t=1;
步骤4.2、利用热编码方法将输入图片Ig的第t个汉语关键词kt及历史诗句H分别映射至向量空间Ψ中,得到第t个汉语关键词kt的向量及历史诗句H的向量其中,表示输入图片Ig的第t个汉语关键词kt的第d个字符的向量,表示历史诗句H中的第λ个字符的向量;
式(6)中,θβ为所设定的参数,利用均匀分布[-0.08,0.08]随机初始化参数θβ,rτ为第τ个字符的状态向量,并通过式(7)获得:
式(7)中,f()表示长短期记忆网络的内部激活函数;
步骤4.5、从输入图片Ig的第t行诗句第τ个字符的概率分布中选取概率最大的字符作为输入图片Ig的第t行诗句的第τ个字符,从而得到输入图片Ig的第t行诗句;在第t行诗句的生成过程中,依赖于之前生成的所有历史诗句H,因此可以保证上下文的一致性、整首古诗的连贯性及逻辑的关联性,并且利用输入图片Ig的汉语关键词kt控制第t行诗句的生成,可使诗句的生成围绕着汉语关键词kt展开,因此可以保证输入图片与生成的整首古诗的一致性。
步骤4.6、将t+1赋值给t,并返回步骤4.2,直到t>L为止,从而生成输入图片Ig的汉语古诗;
步骤4.7、利用如式(8)得到损失函数L2(q):
式(8)中,M为从诗集数据集Q中选取的任意一批汉语古诗的大小,表示每次训练迭代时的汉语古诗数量,且M<n;q表示每次训练迭代的M首汉语古诗集合,表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符输入汉语古诗生成模型中得到的模型概率分布,表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符经过热编码处理后得到的期望概率分布;
步骤4.8、为了加快训练速度,本实施例中采用均方根传播算法(RMSprop)对损失函数L2(q)进行最小化处理,得到损失函数L2(q)的导数L′2;将θβ+η2L′2赋值给θβ,从而更新θβ,用于对汉语古诗生成模型进行训练,其中,η2表示汉语古诗生成模型的学习速率,初始值设为0.002,并使用RMSprop算法自适应调整学习速率η2。
Claims (1)
1.一种基于神经网络模型的图像到汉语古诗的转换方法,其特征包括如下步骤:
步骤1、收集现有的汉语古诗作为诗集数据集Q={q1,q2,...,qi,...,qn},qi表示第i首汉语古诗,并有 表示所述第i首汉语古诗中第v个字符,i=1,2,…,n,v=1,2,...,Vi;
获取图片资源以及与所述图片资源对应的语句描述资源作为图像数据集T={(I1,s1),(I2,s2),...,(Ij,sj),....,(Im,sm)};其中,Ij表示第j张图片,sj表示所述第j张图片对应的语句描述,并有: 表示所述第j张图片对应的语句描述中第z个字符,j=1,2,…,m,z=1,2,…,Zj;
步骤2、建立多模态循环神经网络,所述多模态循环神经网络由深度卷积神经网络CNN和长短期记忆网络LSTM组成,并对所述多模态循环神经网络进行训练,得到图片最终的目标描述语句;
步骤2.1、利用式(1)所示的深度卷积神经网络CNN将第j张图片Ij映射到向量空间W中,从而得到第j张图片Ij的向量x′j:
x′j=Wc[CNN(Ij)] (1)
式(1)中,CNN(Ij)表示利用深度神经网络CNN提取出的第j张图片Ij的特征向量,Wc为所述向量空间W的图像映射矩阵;
步骤2.2、利用式(2)所示的热编码方法将所述第j张图片Ij对应的语句描述sj映射到所述向量空间W中,从而得到语句描述sj的向量其中,表示所述语句描述sj中第z个字符的向量,x0表示所有语句描述的开始字符的向量,表示所有语句描述的结束字符的向量:
步骤2.3、将所述第j张图片Ij的向量x′j及其对应的语句描述sj的向量xj输入到式(3)所示的长短期记忆网络LSTM中,得到第j张图片Ij的目标描述语句的概率分布其中,表示所述第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布,y0表示所有目标描述语句的开始字符的概率分布,表示所有目标描述语句的结束字符的概率分布:
式(3)中,θσ为长短期记忆网络的参数;
步骤2.5、利用所述图像数据集T对所述多模态循环神经网络进行训练,得到所述第j张图片Ij最终的目标描述语句;
步骤2.5.1、选用所述目标描述语句的概率分布yj的负对数似然和的均值作为损失函数L1(I,s)如式(4)所示:
式(4)中,N为批大小,表示每次训练迭代时的图片数量,且N<m;I表示每次训练迭代的N张图片集合,s表示每次训练迭代的N张图片集合I的对应的语句描述集合;
步骤2.5.2、采用最小批随机梯度下降法对所述损失函数L1(I,s)进行最小化处理,得到所述损失函数L1(I,s)的导数L′1;
步骤2.5.3、令所述多模态循环神经网络的参数为θα={Wc,We,θσ},将θα+η1L′1赋值给θα,从而更新θα,用于对所述多模态循环网络的训练,其中,η1表示所述多模态循环神经网络的学习速率;
步骤3、将另一幅输入图片Ig输入所述多模态循环神经网络中,得到最终的目标描述语句,并去掉最终目标描述语句中所有停词,将去除停词后的目标描述语句映射为汉语关键词K={k1,...,kt,...,kL},kt表示所述输入图片Ig的第t个汉语关键词,t=1,2,…,L,L>1;
步骤4、利用长短期记忆网络建立汉语古诗生成模型并进行训练,从而实现图像到汉语古诗的转换,并生成对应的汉语古诗;
步骤4.1、定义历史诗句H为第1到第t-1行诗句,并初始化历史诗句H为零,初始化t=1;
步骤4.2、利用热编码方法将所述输入图片Ig的第t个汉语关键词kt及所述历史诗句H分别映射至向量空间Ψ中,得到第t个汉语关键词kt的向量及所述历史诗句H的向量其中,表示所述输入图片Ig的第t个汉语关键词kt的第d个字符的向量,表示所述历史诗句H中的第λ个字符的向量;
式(6)中,θβ为所设定的参数,rτ为第τ个字符的状态向量,并通过式(7)获得:
式(7)中,f()表示长短期记忆网络的内部激活函数;
步骤4.6、将t+1赋值给t,并返回步骤4.2,直到t>L为止,从而生成所述输入图片Ig的汉语古诗;
步骤4.7、利用如式(8)得到损失函数L2(q):
式(8)中,M为从所述诗集数据集Q中选取的任意一批汉语古诗的大小,表示每次训练迭代时的汉语古诗数量,且M<n;q表示每次训练迭代的M首汉语古诗集合,表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符输入所述汉语古诗生成模型中得到的模型概率分布,表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符经过热编码处理后得到的期望概率分布;
步骤4.8、采用均方根传播算法对所述损失函数L2(q)进行最小化处理,得到所述损失函数L2(q)的导数L′2;将θβ+η2L′2赋值给θβ,从而更新θβ,用于对所述汉语古诗生成模型进行训练,其中,η2表示所述汉语古诗生成模型的学习速率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711064401.3A CN107832292B (zh) | 2017-11-02 | 2017-11-02 | 一种基于神经网络模型的图像到汉语古诗的转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711064401.3A CN107832292B (zh) | 2017-11-02 | 2017-11-02 | 一种基于神经网络模型的图像到汉语古诗的转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832292A CN107832292A (zh) | 2018-03-23 |
CN107832292B true CN107832292B (zh) | 2020-12-29 |
Family
ID=61650433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711064401.3A Active CN107832292B (zh) | 2017-11-02 | 2017-11-02 | 一种基于神经网络模型的图像到汉语古诗的转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832292B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874779B (zh) * | 2018-06-21 | 2021-09-21 | 东北大学 | 基于K8s集群建立的依图写诗系统的控制方法 |
CN109086270B (zh) * | 2018-07-24 | 2022-03-01 | 重庆大学 | 基于古诗词语料向量化的自动作诗系统及其方法 |
CN110147806B (zh) * | 2018-10-08 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 图像描述模型的训练方法、装置及存储介质 |
CN109582952B (zh) * | 2018-10-31 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 诗歌生成方法、装置、计算机设备和介质 |
CN109784165B (zh) * | 2018-12-12 | 2024-06-07 | 平安科技(深圳)有限公司 | 诗词内容的生成方法、装置、终端及存储介质 |
CN110309510B (zh) * | 2019-07-02 | 2023-05-12 | 中国计量大学 | 一种基于c-s和gru的看画题诗方法 |
CN110414001B (zh) * | 2019-07-18 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 语句生成方法和装置、存储介质及电子装置 |
CN110738061B (zh) * | 2019-10-17 | 2024-05-28 | 北京搜狐互联网信息服务有限公司 | 古诗词生成方法、装置、设备及存储介质 |
CN111243060B (zh) * | 2020-01-07 | 2024-01-23 | 复旦大学 | 一种基于手绘图的故事性文本生成方法 |
CN112036192A (zh) * | 2020-09-25 | 2020-12-04 | 北京小米松果电子有限公司 | 古诗词生成方法、装置及存储介质 |
CN112257775B (zh) * | 2020-10-21 | 2022-11-15 | 东南大学 | 一种基于卷积神经网络和无监督语言模型的由图成诗方法 |
CN113794915B (zh) * | 2021-09-13 | 2023-05-05 | 海信电子科技(武汉)有限公司 | 服务器、显示设备、诗词歌赋生成方法及媒资播放方法 |
CN115062179A (zh) * | 2022-07-06 | 2022-09-16 | 吴致远 | 基于深度学习的面向图像的端到端中文古诗词推荐方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650756A (zh) * | 2016-12-28 | 2017-05-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于知识迁移的多模态循环神经网络的图像文本描述方法 |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909329B2 (en) * | 2015-05-21 | 2021-02-02 | Baidu Usa Llc | Multilingual image question answering |
-
2017
- 2017-11-02 CN CN201711064401.3A patent/CN107832292B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN106650756A (zh) * | 2016-12-28 | 2017-05-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于知识迁移的多模态循环神经网络的图像文本描述方法 |
Non-Patent Citations (2)
Title |
---|
chinese poetry generation with recurrent neural networks;xingxing zhang,mirella lapata;《2014年自然语言处理经验方法会议会议录》;20141029;全文 * |
show and tell a neural image caption generator;oriol vinyals等;《IEEE计算机视觉和模式识别会议》;20150420;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107832292A (zh) | 2018-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832292B (zh) | 一种基于神经网络模型的图像到汉语古诗的转换方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN108416065B (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
CN108009154A (zh) | 一种基于深度学习模型的图像中文描述方法 | |
CN111160452A (zh) | 一种基于预训练语言模型的多模态网络谣言检测方法 | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
CN111858931A (zh) | 一种基于深度学习的文本生成方法 | |
Wu et al. | Recall what you see continually using gridlstm in image captioning | |
CN108985370B (zh) | 图像标注语句自动生成方法 | |
WO2018203549A1 (ja) | 信号変更装置、方法、及びプログラム | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN111368118A (zh) | 一种图像描述生成方法、系统、装置和存储介质 | |
CN109740012B (zh) | 基于深度神经网络对图像语义进行理解和问答的方法 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN109145946B (zh) | 一种智能图像识别和描述方法 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
CN111046178A (zh) | 一种文本序列生成方法及其系统 | |
Li et al. | Image describing based on bidirectional LSTM and improved sequence sampling | |
CN115908641A (zh) | 一种基于特征的文本到图像生成方法、装置及介质 | |
CN110472746A (zh) | 一种基于人工智能的编码预测方法和系统 | |
Radpour et al. | Conditional generative adversarial networks for emoji synthesis with word embedding manipulation | |
CN114492462A (zh) | 基于情绪分析和生成式对抗网络的对话生成方法及系统 | |
CN114519353A (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220712 Address after: 610096 No. 505, floor 5, building 6, No. 599, shijicheng South Road, Chengdu hi tech Zone, Chengdu pilot Free Trade Zone, Sichuan Province Patentee after: Chengdu shihaixintu Microelectronics Co.,Ltd. Address before: Tunxi road in Baohe District of Hefei city of Anhui Province, No. 193 230009 Patentee before: Hefei University of Technology |
|
TR01 | Transfer of patent right |