CN116127959A - 基于深度学习的图像意境挖掘与意境转换中国古诗的方法 - Google Patents

基于深度学习的图像意境挖掘与意境转换中国古诗的方法 Download PDF

Info

Publication number
CN116127959A
CN116127959A CN202211624123.3A CN202211624123A CN116127959A CN 116127959 A CN116127959 A CN 116127959A CN 202211624123 A CN202211624123 A CN 202211624123A CN 116127959 A CN116127959 A CN 116127959A
Authority
CN
China
Prior art keywords
ancient
poetry
poems
poem
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211624123.3A
Other languages
English (en)
Inventor
高大化
董宇波
李雨嫣
邱添
贺昱
鲁永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202211624123.3A priority Critical patent/CN116127959A/zh
Publication of CN116127959A publication Critical patent/CN116127959A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法,接收用户生成古诗的用户任务,并从用户任务中提取用户提交的目标图片;将所述目标图片输入至预训练的跨模态诗歌生成器中,为用户所提交的图像生成对应的古诗;本发明的基于CNN的图像特征提取器提取静态图像在物体、场景和情感三个方面的特征向量,并与位置编码相加,作为跨模态诗歌生成器编码器的输入,将预训练单模态语言模型的模型参数导入到跨模态诗歌生成器的解码器中学习语法信息,以提升跨模态诗歌生成器的生成质量;最后在跨模态图像‑诗歌配对数据集上对跨模态诗歌生成器进行训练,并通过生成古诗向量与真实古诗向量之间的余弦相似度对生成结果进行评价。

Description

基于深度学习的图像意境挖掘与意境转换中国古诗的方法
技术领域
本发明属于深度学习识别与生成技术领域,具体涉及一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法。
背景技术
中国古诗是中华传统文化中的瑰宝,历史悠久,可以追溯至两千余年前的《诗经》。作为古代劳动人民记录事件、抒发情感的主要载体,中国古诗在独特的历史文化背景下形成了形神兼备、情景交融的美学追求。《关于实施中华优秀传统文化传承发展工程的意见》中指出,传承中华人文精神是中华优秀传统文化传承发展工程的主要内容之一。因此,推广普及古诗文化有着重要的现实意义。随着人工智能技术的不断发展,其在各个领域的应用也如过江之鲫,但跨模态进行图像生成古诗的相关研究尚且较少,而单模态的古诗生成方法也存在着主题漂移、一致性差、灵活性差、自学习能力差以及没有自动评价体系等问题。如何从图像中提取图像意境信息,并根据意境生成质量更高的中国古诗,是当前研究中的重要难点。
现有的单模态古诗生成方法包括传统的方法与基于深度学习的方法。传统的方法包括基于模板的方法、基于模式的方法、基于实例推理的方法、基于遗传算法的方法、基于摘要生成的方法和基于统计机器翻译的方法等。基于深度学习的方法包括基于RNN等序列模型生成古诗。
现有的跨模态图像生成古诗方法包括两种,第一种是基于人工收集图像-古诗配对数据集,通过模版匹配的方法根据图像检索古诗;第二种主要是从图像中提取关键词,再以提取到的关键词作为现有的单模态古诗生成方法的输入信息,该技术方法的主要步骤如下:
1)使用现有的古诗数据集,收集与之匹配的图片资源,组成配对数据集;
2)使用CNN网络提取图像中的主要物体,作为生成古诗的关键词;
3)使用传统古诗生成方法或RNN模型及其变体LSTM模型作为古诗生成器,将上一步得到的关键词作为输入信息,使用配对数据集进行训练;
4)使用训练好的图像-古诗生成器为图像生成古诗,并在BLEU等自然语言处理中常用的指标上进行评价。
现有技术存在以下问题:
1)人工收集图像-古诗配对数据集没有统一的匹配标准,存在主观性,且耗时长,工作量大,难以形成规模较大的数据集;
2)从图片中生成古诗比从首句或关键词中生成古诗更具有挑战性,图像中包含着丰富的视觉信息,如果仅仅采用识别主要景物作为识别关键词的方式,将会丢失大量的信息;
3)传统的古诗生成方法,如基于模板的方法、基于模式的方法、基于实例推理的方法、基于遗传算法的方法、基于摘要生成的方法和基于统计机器翻译的方法等,都非常依赖于模板或数据集,没有很强的自学习能力,上下文缺乏联系性,也很难符合基本语法;基于RNN模型生成古诗,相较于传统方法更加灵活,且摆脱了对人工模板及规则的依赖。但是其也存在一定的问题,受到RNN模型的梯度消失和梯度爆炸现象的限制,随着生成古诗长度的增加,后文与前文的关联会越发不紧密,存在主题漂移的问题;
4)BLEU等指标最初是为了评价机器翻译的结果而发明的。但是,古诗生成任务并不等同于机器翻译任务,对于一副图像可能存在多种角度的不同解读,两个完全不同的词语也可能表达相同的意思,例如“翠微”和“青山”都指绿色的山,故BLEU值在古诗生成问题上作为自动评估标准并不合适;
5)缺少更具可交互性、趣味性和美观性的应用形式,让普通人直接使用训练好的模型存在一定的编程门槛。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法包括:
步骤1,接收用户生成古诗的用户任务,并从用户任务中提取用户提交的目标图片;
步骤2,将所述目标图片输入至经过训练的跨模态诗歌生成器中,为用户所提交的图像生成对应的古诗;
其中,预训练的跨模态诗歌生成器的训练过程如下:
(1)从开源数据库获取开源古诗数据集,并进行关键词预处理得到筛选后的高频关键词;其中,所述开源古诗数据集包括古诗的相关信息以及每首古诗对应的多个关键词;(2)将每首古诗对应的多个关键词与所述高频关键词进行匹配,如仅有一个关键词匹配不上,则保留古诗的相关信息以及匹配上的关键词,以获得待配对数据集;(3)将待配对数据集中同一首古诗的关键词进行串联,作为检索关键词,并根据所述检索关键词从网络获取与古诗配对的多张初始图片;(4)对所述初始匹配图片按照古诗的相关信息进行筛选,得到每一首古诗按照关联度配对的图片,并将每首古诗以及配对的图片作为一个样本数据,将所有样本数据组成图像-古诗配对数据集;(5)提取所述图像-古诗配对数据集多维度的特征向量,并重塑为特征序列,将特征序列作为跨模态诗歌生成器的输入,将预训练单模态语言模型的模型参数导入预设的跨模态诗歌生成器中,进而对所述跨模态诗歌生成器进行微调训练,完成跨模态诗歌生成器的预训练过程。
本发明具备以下至少一点有益效果:
1、使用多个CNN网络挖掘不同方面的作诗线索,由于根据图片内容写诗必须先理解图片,而本发明使用VGGNet、Place205-VGGNet、DCAN三个网络分别提取图片在物体、场景和情感等多个方面的特征向量,所保留的信息更为全面。
2、使用Transformer模型作为诗歌的文本生成器,在生成诗歌的过程中,机器不仅需要学习诗歌语言方面的诗意性,格律方面的结构特征,还需要考虑其主题上的一致性,避免发生主题漂移现象。本发明所使用的Transformer模型作为当前NLP领域多个子问题上效果最好的模型,在图像生成诗歌问题上也能取得比前人研究更好的效果。
3、本发明提出了文本相似度作为诗歌生成效果的自动评价指标。由于汉语是一种高语境语言,原义差别极大的两个词在特殊语境下也可能具有相同的引申义。因此机器翻译或自然语言处理问题中常用的评价指标,如BLEU,并不适用于中国古诗词生成。本发明使用在诗歌语料数据集上训练的BERT-CCPoem模型来生成整首诗歌的特征向量,将两个诗歌向量之间的余弦相似度作为比较诗歌生成效果的自动评价指标,更具合理性。
4、本发明提出的图像-古诗配对数据集的收集方法,能够大大节约收集数据集的时间成本,批量收集数据,扩大数据集的规模。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明提供的一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法的流程示意图;
图2是IPGCT模型结构图;
图3是基于CNN的图像特征提取器结构图;
图4是预训练单模态语言模型结构图;
图5是跨模态诗歌生成器结构图;
图6是本发明方法提取意境及生成诗歌示例图;
图7是预训练单模态语言模型示例图;
图8是本发明所提方法和两种对比方法的写诗结果图;
图9是人工评价混淆矩阵图;
图10是Grad-CAM实验结果图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
图片生成诗歌包含图像理解和自然语言生成两个子任务,首先需要理解输入图片的语义特征,再根据语义特征生成诗意化的描述语句,本发明提供的一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法的整体流程如下图1所示。
如图1所示,本发明提供的一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法包括:
步骤1,接收用户生成古诗的用户任务,并从用户任务中提取用户提交的目标图片;
步骤2,将所述目标图片输入至经过训练的跨模态诗歌生成器中,为用户所提交的图像生成对应的古诗;
其中,跨模态诗歌生成器的训练过程如下:
(1)从开源数据库获取开源古诗数据集,并进行关键词预处理得到筛选后的高频关键词;其中,所述开源古诗数据集包括古诗的相关信息以及每首古诗对应的多个关键词;(2)将每首古诗对应的多个关键词与所述高频关键词进行匹配,如仅有一个关键词匹配不上,则保留古诗的相关信息以及匹配上的关键词,以获得待配对数据集;(3)将待配对数据集中同一首古诗的关键词进行串联,作为检索关键词,并根据所述检索关键词从网络获取与古诗配对的多张初始图片;(4)对所述初始匹配图片按照古诗的相关信息进行筛选,得到每一首古诗按照关联度配对的图片,并将每首古诗以及配对的图片作为一个样本数据,将所有样本数据组成图像-古诗配对数据集;(5)提取所述图像-古诗配对数据集多维度的特征向量,并重塑为特征序列,将特征序列作为跨模态诗歌生成器的输入,将预训练单模态语言模型的模型参数导入预设的跨模态诗歌生成器中,进而对所述跨模态诗歌生成器进行微调训练,完成跨模态诗歌生成器的训练过程。
将三个特征提取网络提取到的每个样本数据的特征向量进行串联以及重塑,得到特征序列X=(X1,X2,…,Xn);
其中,
Figure BDA0004000714650000051
n为特征序列的个数,l为特征序列的长度;
真实配对古诗的向量表示如下:
Y=(Y1,Y2,…,Ym)(1)
Figure BDA0004000714650000061
其中,m为古诗的总字数,s为词表大小;
预测的古诗向量表示如下:
Figure BDA0004000714650000062
Figure BDA0004000714650000063
Figure BDA0004000714650000064
中值概率最大的字符作为输出字符,m个字符连接在一起为生成古诗。
为解决图像意境的提取、现有诗歌生成方法中存在的主题漂移等问题,完成从图像中生成诗歌的任务,本发明提出了一种使用CNN网络提取图像意境特征向量,并利用特征向量生成启发性古诗的框架(Image to Poem Generatorbased on CNN and Transformer,IPGCT)。IPGCT包含三个主要的组成部分:基于CNN的图像特征提取器、预训练单模态语言模型和基于Transformer的跨模态诗歌生成器,其整体框架如图2所示。
首先由基于CNN的图像特征提取器提取静态图像在物体、场景和情感三个方面的特征向量,并与位置编码相加,作为跨模态诗歌生成器Encoder的输入。预训练单模态语言模型在单模态诗歌数据集上训练得到,提取其Decoder的模型参数导入到跨模态诗歌生成器的Decoder中,其学习到的语法信息能够提升跨模态诗歌生成器的生成质量。最后在跨模态图像-诗歌配对数据集上对跨模态诗歌生成器进行训练,完成图像生成诗歌任务。
在一种具体的实施例中,(1)包括:
(11),从开源数据库获取开源古诗数据集;
(12),统计所述开源古诗数据集中的每个关键词的频率,并按照比例选择高频关键词;
(13),将所述开源古诗数据集中生僻的关键词替换为语义相同的关键词;
(14),删除所述开源古诗数据集中抽象的高频关键词,获得筛选后的高频关键词。
在一种具体的实施例中,(3)包括:
(31),将待配对数据集中同一首古诗的关键词进行串联,将串联后的关键词作为检索关键词;
(32),根据所述检索关键词,利用爬虫技术从网络公开的图像数据库中爬取与古诗配对的多张初始图片。
在一种具体的实施例中,(4)包括:
(41),对所述初始匹配图片按照古诗的相关信息进行人工筛选,得到每一首古诗按照关联度配对的图片;
(42),将每首古诗以及配对的图片作为一个样本数据,将所有样本数据组成图像-古诗配对数据集。
在一种具体的实施例中,(5)中的三个特征提取网络通过如下步骤实现:
a,分别获取Imagent-1k数据集、Place205数据集以及Sentibank数据集;
b,分别在Imagent-1k数据集上训练预设的VGG-16网络、在Place205数据集上训练预设的Place205-VGGNet,在Sentibank数据集上训练预设的DCAN网络,得到三个特征提取网络。
三个特征提取网络主要提取过程如图3所示,创作一首古诗往往需要具体的物体作为意象,进而结合场景和诗人的情感产生意境。在Imagent-1k数据集上训练的VGG-16网络、在Place205数据集上训练的Place205-VGGNet和在Sentibank数据集上训练的DCAN三个网络能够从物体、场景和情感等方面分别提取图像的信息,本发明使用这三个CNN网络作为图像特征提取器。
在一种具体的实施例中,(5)包括:
(51),利用三个特征提取网络分别提取每个样本数据的特征向量;
(52),同一样本数据的三个特征向量串联,将串联后的特征向量重塑为一个特征序列;
重塑形状为(1,24,512),串联重塑过程如下所示:
V=Concat{CNN1(I),CNN2(I),CNN3(I)} (5)
TE=Reshape(V) (6)
其中,I表示原始图像,V表示串联得到的特征向量,TE表示重塑后的特征;
(53),计算每个样本数据的位置编码,并将位置编码与重塑向量进行相加,将相加结果作为预设的跨模态诗歌生成器的输入;
位置编码计算公式为:
Figure BDA0004000714650000081
Figure BDA0004000714650000082
IE=PE+TE                        (9)
其中,pos代表token在整个序列中的位置,i代表位置编码的第i位,2i即所有的偶数位,2i+1即所有的奇数位,dmodel代表模型的维度,此处为512维,PE代表位置编码,IE代表跨模态诗歌生成器的编码器的输入。
(54),对所述开源古诗数据集选择七言绝句,并对选择的七言绝句进行清洗,得到单模态古诗数据集;
(55),将单模态古诗数据集中每首古诗的上一句作为预设的单模态语言模型的编码器的输入,下一句作为单模态语言模型的解码器的输入,通过训练所述单模态语言模型以使单模态语言模型学习古诗的语法信息得到预训练的单模态语言模型,保留预训练的单模态语言模型中的解码器的自注意力层和前馈神经网络层的参数;
本发明决定采用一个预训练单模态语言模型来解决收集到的多模态图像-古诗数据集的规模较小,导致跨模态诗歌生成器训练不充分的问题。其模型结构图如图4所示。
在该模型中,将经过预处理的单模态古诗数据集(含70000余首绝句)中每首古诗的上一句作为Encoder输入,下一句作为Decoder输入。该过程如下所示:
WE=σ{φ(SE)}+PE                    (10)
WD=σ{φ(SE)}+PE                    (11)
O=Trans(WE,WD)                     (12)
其中,WE是Transformer网络中Encoder的输入,WD是Transformer网络中Decoder的输入,σ(·)是汉字与id之间的双向映射函数,φ(·)是词嵌入函数,SE是原始诗句,PE是位置编码,O是Transformer网络的输出,Trans(·)是Transformer网络。
通过训练,单模态语言模型的解码器能够学习到古诗的语法信息。将其中的自注意力层和前馈神经网络层的参数进行保存,导入到多模态模型中,可以提升多模态模型生成诗歌的质量。
(56),将预训练单模态语言模型的模型参数导入预设的跨模态诗歌生成器中,进而对所述跨模态诗歌生成器进行微调训练,完成跨模态诗歌生成器的训练过程。
跨模态诗歌生成器基于Transformer网络实现,其整体结构如下图5所示。Transformer中Encoder的输入IE,Decoder的输入为经过预处理的配对诗歌,即:
PO=Trans(IE,WD)                     (13)
在一种具体的实施例中,本发明提供的一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法还包括:
(6)使用测试集输入经过训练的跨模态诗歌生成器以生成古诗,对所述古诗的质量进行自动评价。
(6)包括:
(61),获取多张图片组成的测试集;
其中,每个图片配对一首真实古诗;
(62),使用经过训练的跨模态诗歌生成器为测试集中的每张图片生成一个古诗,并调用开源的BERT-CCPoem模型将古诗转化为512维的古诗向量poem generate vectori
(63),计算生成古诗向量poem generate vectori和真实古诗向量poem realvectori的余弦相似度cos simi
Figure BDA0004000714650000091
(64),将所有测试集上每个图片计算出的余弦相似度cossimi求和取平均值,作为生成古诗的质量的自动评价标准auto evaluate;
Figure BDA0004000714650000101
(65),利用所述自动评价标准autoevaluate对古诗的生成质量进行评价。
本发明提供了一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法,接收用户生成古诗的用户任务,并从用户任务中提取用户提交的目标图片;将所述目标图片输入至预训练的跨模态诗歌生成器中,为用户所提交的图像生成对应的古诗;本发明的基于CNN的图像特征提取器提取静态图像在物体、场景和情感三个方面的特征向量,并与位置编码相加,作为跨模态诗歌生成器编码器的输入,将预训练单模态语言模型的模型参数导入到跨模态诗歌生成器的解码器中学习语法信息,以提升跨模态诗歌生成器的生成质量;最后在跨模态图像-诗歌配对数据集上对跨模态诗歌生成器进行训练,并通过生成古诗向量与真实古诗向量之间的余弦相似度对生成结果进行评价。
下面通过仿真实验说明本发明的技术效果。
本发明实验环境为Windows 10,GPU为NVIDIA GeForce GTX 1050,CPU为Intel(R)Core(TM)i5-8300H CPU@2。30GHz,使用的深度学习框架为TensorFlow 2.6.0。
实验首先收集了首个多模态图像-古诗配对数据集,该数据集包含1700余对图像-古诗数据对,再对公共数据集THU-CCPC上的古诗进行筛选,组成单模态古诗数据集。其次,本发明使用在Imagent-1k数据集上训练的VGG-16网络、在Place205数据集上训练的Place205-VGGNet和在Sentibank数据集上训练的DCAN三个网络分别提取图像在物体、场景和情感三个方面的特征。之后,在单模态古诗数据集上完成单模态语言模型的训练,在多模态图像-古诗配对数据集上完成跨模态诗歌生成器的训练。最后,本发明基于BERT-CCPoem完成本发明所提方法及两个对比方法生成诗歌的自动评估,并随机抽取真实诗歌和生成诗歌组成调查问卷,以双盲实验的形式完成本发明所提方法生成诗歌的人工评估,通过消融实验研究了三个特征CNN、Transformer层数及预训练模型对诗歌生成质量的影响。
其中一个生成示例如图6所示,当测试图片被输入到三个CNN网络时,它们能够识别出图像中的物体、场景和情感等意境信息,如这里的“梅花”、“儿童”、“庭院”、“春天”和“愉快。本发明并不直接使用标签信息,而是抽取这三个CNN的“fc7”层特征,将其与位置编码相加并输入到Transformer的encoder当中,利用训练好的跨模态诗歌生成器得到生成的古诗。
(1)实验设置
由于本发明的研究任务尚未有前人涉足,是一个极具开创性的工作,在各个平台上也未有前人发表过开源的图像-古诗配对数据集。因此,需要自行设计方案收集整理数据集。收集数据集的主要思路如下:
开源古诗数据集THU-CCPC包含了13万余首绝句的相关信息,其中每一首绝句都被给出了四个相应的关键词。对这些绝句的关键词进行词频统计,保存出现频率最高的前500个关键词。之后对其进行人工筛选,保存其中便于在搜索引擎中查找的部分关键词,例如“白云”,“青山”,“梅花”等。对较为生僻的关键词根据语义进行替换,例如“翠微”替换为“青山”等。删除一些较为抽象的关键词,例如“寂寞”,“分明”等。
将原数据集中的关键词与220个高频关键词进行匹配,若一首诗的四个关键词中有至少三个都属于高频关键词,则保留该诗歌和其关键词。对同一首诗歌的关键词进行串联,作为从“视觉中国”网站上爬虫的关键词,为每首诗歌爬取三张初步配对图片。之后对其进行人工筛选,保留其中关联度高的配对,作为图像-古诗配对数据集中的样本数据。经过人工筛选后,最终得到包含1691个图像-诗歌对的多模态数据集。
本发明方法中的Transformer网络的相关参数设置如表1所示:
表1Transformer模型参数设置
Figure BDA0004000714650000111
Figure BDA0004000714650000121
本发明使用Adam Optimizer作为模型的优化器,其参数设置如表2所示:
表2Adam Optimizer参数设置
Figure BDA0004000714650000122
learning rate是随着训练不断更新的,其定义公式如下式所示。
Figure BDA0004000714650000123
(2)定量分析
调用开源的BERT-CCPoem模型,可以为每一首诗歌生成一个512维的诗歌向量。本发明为测试集上每一张图片对应的真实诗歌和生成诗歌都生成一个512维的诗歌向量,之后计算其余弦相似度。
之后将所有测试集上的结果进行求和取平均值,作为生成诗歌质量的自动评价标准。
由于本发明研究的问题尚且未有前人涉足,因此本发明选择了如下两种对比方法。
a)基于关键词生成古诗的LSTM模型:将三个CNN从图片中识别出概率最高的结果作为关键词,输入到以LSTM为基础的写诗模型中。
b)Vision Transformer(ViT)模型:ViT模型将一张图片按照固定的大小分为若干个patch,加入位置编码后作为Transformer的Encoder端的输入,将对应的古诗作为Decoder端的输入。
本发明所提方法及两种对比方法在自动评价指标上的实验结果如表3所示。
表3自动评价实验结果
Figure BDA0004000714650000124
从表4结果可以看出,本题所提方法在自动评价指标上能够取得比两种对比方法更接近真实诗歌的结果。
(3)定性分析
3.1生成诗歌
图7为预训练单模态语言模型的写诗结果之一:在图7的示例中,生成句子中的“雨”、“溪声”等意境都和真实诗句相符,且整体感情基调都为思乡的悲伤之情。生成诗句句式对仗工整,如“一夜”对“一帘”。声调押韵,如“冷”对“声”。
由此可见,预训练单模态语言模型具备准确把握诗歌的感情基调和意境特点,输出语言优美,音律和谐的写诗结果的能力。
为比较本发明所提方法与前述对比方法的写诗效果,抽取了四个示例进行展示,如如8所示。
在图8的示例中,与两个对比方法相比,IPGCT能够捕捉到更多图像中的意境,例如第一个图片结果中,“江南”与图片背景的氛围相对应,“江湖”与图片中的湖相对应,“一棹”与图片中的船桨相对应,“晚烟”和“雨歌”与图片中湖面的烟雨相对应。同时,在连贯性与通顺性上,IPGCT方法生成的诗歌也更强。
本发明随机抽取了IPGCT模型生成的8句的诗歌和8句古人所写的诗歌进行双盲实验,在非专业人群中展开问卷调查,让参与问卷调查的人判断该句诗歌是机器生成还是古人所写。根据回收的问卷填写情况,本发明统计了混淆矩阵,其结果如图9所示。
从上图中可以看出,对于一般人而言,本发明模型写诗的结果被认作是机器的可能性甚至小于人类写的诗,反之亦然,机器写诗的结果被认作是人类的可能性甚至大于人类写的诗。这说明当前写诗的结果对非专业人士而言,已具备较为良好的水平。
3.2不同预训练CNN提取特征的可视化
为验证三个CNN网络分别关注到了图像不同方面的特征信息,本发明在图9中的示例上进行了Grad-CAM实验,实验结果如图10所示,从图10中可以看出,物体、场景和情感三个CNN所关注的区域存在差异。物体CNN将关注重点放在了局部区域上,例如图中的“船桨”所在位置;场景CNN关注图像的背景信息,例如图像中的湖面;而情感CNN则是从全局上理解图像隐含的情感色彩。
3.3消融实验
为了进一步研究本发明方法中三个CNN、Transformer层数和预训练单模态语言模型对生成结果的影响,保持在其他方面相同的实验设置,在相同的测试集上使用自动评价指标对其进行了测试。具体对比结果如表4所示。
表4消融实验结果
Figure BDA0004000714650000141
对比表4结果可以看出,采用不同CNN提取的图像意境对提升生成诗歌与图像的关联性存在积极影响。而随着Transformer网络的层数的增加,生成诗歌的质量会先提升再降低,当Transformer网络的层数为3时,能够取得最好的生成效果。最后,预训练单模态语言模型的加入也对提升诗歌生成的质量有着显著作用。
结论
从图像生成古诗是一个极具创新性与挑战性的课题,本发明提出了一种多个CNN与Transformer网络相结合的图像写诗方法。由于该课题尚未有前人涉足,本发明收集了首个图像-古诗配对数据集,并提出了平均语义相似度作为一种新的诗歌生成质量自动评估指标。实验结果表明,本发明提出的方法所生成的古诗与原配对古诗的平均语义相似度能够达到75%以上。此外,本发明通过调查问卷的形式在非专业人群中进行双盲实验,人工评估的结果显示,机器生成的古诗已能够使非专业人士无法识别分辨。
本发明的方法暂时还不能对生成诗歌的风格和体裁等进行控制。在接下来的工作中,将引入变分自编码器,以此把高维数据转换为低维流形,通过连续地改变低维流形可以实现控制诗歌生成的风格,实现更为人性化的诗歌生成效果。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,包括:
步骤1,接收用户生成古诗的用户任务,并从用户任务中提取用户提交的目标图片;
步骤2,将所述目标图片输入至经过训练的跨模态诗歌生成器中,为用户所提交的图像生成对应的古诗;
其中,预训练的跨模态诗歌生成器的训练过程如下:
(1)从开源数据库获取开源古诗数据集,并进行关键词预处理得到筛选后的高频关键词;其中,所述开源古诗数据集包括古诗的相关信息以及每首古诗对应的多个关键词;(2)将每首古诗对应的多个关键词与所述高频关键词进行匹配,如仅有一个关键词匹配不上,则保留古诗的相关信息以及匹配上的关键词,以获得待配对数据集;(3)将待配对数据集中同一首古诗的关键词进行串联,作为检索关键词,并根据所述检索关键词从网络获取与古诗配对的多张初始图片;(4)对所述初始匹配图片按照古诗的相关信息进行筛选,得到每一首古诗按照关联度配对的图片,并将每首古诗以及配对的图片作为一个样本数据,将所有样本数据组成图像-古诗配对数据集;(5)提取所述图像-古诗配对数据集多维度的特征向量,并重塑为特征序列,将特征序列作为跨模态诗歌生成器的输入,将预训练单模态语言模型的模型参数导入预设的跨模态诗歌生成器中,进而对所述跨模态诗歌生成器进行微调训练,完成跨模态诗歌生成器的预训练过程。
2.根据权利要求1所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(1)包括:
(11),从开源数据库获取开源古诗数据集;
(12),统计所述开源古诗数据集中的每个关键词的频率,并按照比例选择高频关键词;
(13),将所述开源古诗数据集中生僻的关键词替换为语义相同的关键词;
(14),删除所述开源古诗数据集中抽象的高频关键词,获得筛选后的高频关键词。
3.根据权利要求1所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(3)包括:
(31),将待配对数据集中同一首古诗的关键词进行串联,将串联后的关键词作为检索关键词;
(32),根据所述检索关键词,利用爬虫技术从网络公开的图像数据库中爬取与古诗配对的多张初始图片。
4.根据权利要求1所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(4)包括:
(41),对所述初始匹配图片按照古诗的相关信息进行人工筛选,得到每一首古诗按照关联度配对的图片;
(42),将每首古诗以及配对的图片作为一个样本数据,将所有样本数据组成图像-古诗配对数据集。
5.根据权利要求1所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(4)中的三个特征提取网络通过如下步骤实现:
a,分别获取Imagent-1k数据集、Place205数据集以及Sentibank数据集;
b,分别在Imagent-1k数据集上训练预设的VGG-16网络、在Place205数据集上训练预设的Place205-VGGNet,在Sentibank数据集上训练预设的DCAN网络,得到三个特征提取网络。
6.根据权利要求5所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(5)包括:
(51),利用三个特征提取网络分别提取每个样本数据的特征向量;
(52),同一样本数据的三个特征向量串联,将串联后的特征向量重塑为一个特征序列;
(53),计算每个样本数据的位置编码,并将位置编码与重塑向量进行相加,将相加结果作为预设的跨模态诗歌生成器的输入;
(54),对所述开源古诗数据集选择七言绝句,并对选择的七言绝句进行清洗,得到单模态古诗数据集;
(55),将单模态古诗数据集中每首古诗的上一句作为预设的单模态语言模型的编码器的输入,下一句作为单模态语言模型的解码器的输入,通过训练所述单模态语言模型以使单模态语言模型学习古诗的语法信息得到预训练的单模态语言模型,保留预训练的单模态语言模型中的解码器的自注意力层和前馈神经网络层的参数;
(56),将预训练单模态语言模型的模型参数导入预设的跨模态诗歌生成器中,进而对所述跨模态诗歌生成器进行微调训练,完成跨模态诗歌生成器的训练过程。
7.根据权利要求6所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,
将三个特征提取网络提取到的每个样本数据的特征向量进行串联以及重塑,得到特征序列X=(X1,X2,…,Xn);
其中,
Figure FDA0004000714640000031
n为特征序列的个数,l为特征序列的长度;
真实配对古诗的向量表示如下:
Y=(Y1,Y2,…,Ym) (1)
Figure FDA0004000714640000032
其中,m为古诗的总字数,s为词表大小;
预测的古诗向量表示如下:
Figure FDA0004000714640000033
Figure FDA0004000714640000034
Figure FDA0004000714640000035
中值最大的元素对应的字符作为输出字符,m个字符连接在一起为生成古诗。
8.根据权利要求7所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,
(52)中重塑形状为(1,24,512),串联重塑过程如下所示:
V=Concat{CNN1(I),CNN2(I),CNN3(I)} (5)
TE=Reshape(V) (6)
其中,I表示原始图像,V表示串联得到的特征向量,TE表示重塑后的特征;
(53)中位置编码计算公式为:
Figure FDA0004000714640000041
Figure FDA0004000714640000042
IE=PE+TE      (9)
其中,pos代表token在整个序列中的位置,i代表位置编码的第i位,2i即所有的偶数位,2i+1即所有的奇数位,dmodel代表模型的维度,此处为512维,PE代表位置编码,IE代表跨模态诗歌生成器的编码器的输入。
9.根据权利要求1所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,所述基于深度学习的图像意境挖掘与意境转换中国古诗的方法还包括:
(6)使用测试集输入经过训练的跨模态诗歌生成器以生成古诗,对所述古诗的质量进行自动评价。
10.根据权利要求9所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(6)包括:
(61),获取多张图片组成的测试集;
其中,每个图片配对一首真实古诗;
(62),使用经过训练的跨模态诗歌生成器为测试集中的每张图片生成一个古诗,并调用开源的BERT-CCPoem模型将古诗转化为512维的古诗向量poem generate vectori
(63),计算生成古诗向量poem generate vectori和真实古诗向量poem real vectori的余弦相似度cos simi
(64),将所有测试集上每个样本计算出的余弦相似度cos simi求和取平均值,作为生成古诗的质量的自动评价标准auto evaluate;
(65),利用所述自动评价标准auto evaluate对古诗的生成质量进行评价。
CN202211624123.3A 2022-12-15 2022-12-15 基于深度学习的图像意境挖掘与意境转换中国古诗的方法 Pending CN116127959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211624123.3A CN116127959A (zh) 2022-12-15 2022-12-15 基于深度学习的图像意境挖掘与意境转换中国古诗的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211624123.3A CN116127959A (zh) 2022-12-15 2022-12-15 基于深度学习的图像意境挖掘与意境转换中国古诗的方法

Publications (1)

Publication Number Publication Date
CN116127959A true CN116127959A (zh) 2023-05-16

Family

ID=86296489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211624123.3A Pending CN116127959A (zh) 2022-12-15 2022-12-15 基于深度学习的图像意境挖掘与意境转换中国古诗的方法

Country Status (1)

Country Link
CN (1) CN116127959A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575862A (zh) * 2023-12-11 2024-02-20 广州番禺职业技术学院 一个基于知识图谱的学生个性化实训指导方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575862A (zh) * 2023-12-11 2024-02-20 广州番禺职业技术学院 一个基于知识图谱的学生个性化实训指导方法及系统
CN117575862B (zh) * 2023-12-11 2024-05-24 广州番禺职业技术学院 一个基于知识图谱的学生个性化实训指导方法及系统

Similar Documents

Publication Publication Date Title
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价系统
CN108986186B (zh) 文字转化视频的方法和系统
CN108804530B (zh) 对图像的区域加字幕
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN107480132A (zh) 一种基于图像内容的古诗词生成方法
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN109635150A (zh) 文本生成方法、装置以及存储介质
CN111062451B (zh) 一种基于文本引导图模型的图像描述生成方法
CN108765383A (zh) 基于深度迁移学习的视频描述方法
CN111967533B (zh) 一种基于场景识别的草图图像翻译方法
CN115858847B (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN116542817B (zh) 一种智能数字人律师咨询方法及系统
CN117058266B (zh) 一种基于骨架和轮廓的书法字生成方法
CN113204675A (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN116127959A (zh) 基于深度学习的图像意境挖掘与意境转换中国古诗的方法
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN113158075A (zh) 融合评论的多任务联合谣言检测方法
CN112329498B (zh) 一种基于机器学习的街道空间品质量化方法
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
CN113449066B (zh) 利用知识图谱来存储文物数据的方法、处理器及存储介质
CN115617960A (zh) 一种岗位推荐方法及装置
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN116244464A (zh) 一种基于多模态数据融合的手绘图像实时检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Gao Dahua

Inventor after: Li Yuyan

Inventor after: Dong Yubo

Inventor after: Qiu Tian

Inventor after: He Yu

Inventor after: Lu Yonghong

Inventor before: Gao Dahua

Inventor before: Dong Yubo

Inventor before: Li Yuyan

Inventor before: Qiu Tian

Inventor before: He Yu

Inventor before: Lu Yonghong

CB03 Change of inventor or designer information