CN113010717B - 图像诗句描述生成方法、装置和设备 - Google Patents

图像诗句描述生成方法、装置和设备 Download PDF

Info

Publication number
CN113010717B
CN113010717B CN202110451287.XA CN202110451287A CN113010717B CN 113010717 B CN113010717 B CN 113010717B CN 202110451287 A CN202110451287 A CN 202110451287A CN 113010717 B CN113010717 B CN 113010717B
Authority
CN
China
Prior art keywords
poetry
input image
image
emotion
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110451287.XA
Other languages
English (en)
Other versions
CN113010717A (zh
Inventor
谢毓湘
闫洁
宫铨志
栾悉道
张家辉
魏迎梅
蒋杰
康来
冯素茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110451287.XA priority Critical patent/CN113010717B/zh
Publication of CN113010717A publication Critical patent/CN113010717A/zh
Application granted granted Critical
Publication of CN113010717B publication Critical patent/CN113010717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及图像诗句描述生成方法、装置和设备,方法包括:获取输入图像并采用CNN网络对输入图像进行多标签图像分类,确定输入图像的各分类标签以及标签对应的类别;根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词;关键词为被选中的标签对应的类别;利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,得到第i种感情下最后一个隐藏元的状态值statei;i=1,2,…,n;将关键词和第i种感情下最后一个隐藏元的状态值statei,提供给已在诗歌语料库上预先训练好的charRNN_2神经网络,生成描述输入图像的第i种感情下的诗歌。通过上述方法,实现了对输入图像在不同语境感情下的诗句描述的生成。

Description

图像诗句描述生成方法、装置和设备
技术领域
本申请涉及多媒体信息处理技术领域,特别是涉及一种图像诗句描述生成方法、装置和设备。
背景技术
图像描述生成技术,有时称为“图像自动注释”、“图像标记”或“图像字幕生成”技术,是指让计算机根据一幅图像自动生成一段完整而流畅的文字描述声明。图像描述生成任务将计算机视觉和自然语言处理紧密联系在一起,是人工智能领域中的一个基本问题。然而,对于计算机来说,具备这种“看图说话”的能力却是一项十分艰巨的任务。然而,在实现本发明过程中,发明人发现当前对于图像描述生成的研究大多集中在生成对图像的基本语句描述上,主要包括提高对图像进行描述的语言的准确性、通俗性和灵活性等方面,这些描述的语言风格大多枯燥乏味,并且无法表现出图像观察者内心的感受,存在着无法生成输入图像在不同语境感情下的诗句描述的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种图像诗句描述生成方法、一种图像诗句描述生成装置、一种计算机设备以及一种计算机可读存储介质,能够实现对输入图像在不同语境感情下的诗句描述的生成。
为了实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种图像诗句描述生成方法,包括步骤:
获取输入图像并采用CNN网络对输入图像进行多标签图像分类,确定输入图像的各分类标签以及标签对应的类别;
根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词;关键词为被选中的标签对应的类别;
利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,得到第i种感情下最后一个隐藏元的状态值statei;i=1,2,…,n;
将关键词和第i种感情下最后一个隐藏元的状态值statei,提供给已在诗歌语料库上预先训练好的charRNN_2神经网络,生成描述输入图像的第i种感情下的诗歌。
在其中一个实施例中,根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词的步骤,包括:
若输入图像所属的标签的个数大于4,则从所有的标签中选中预测概率最大的前四个标签;
将选中的前四个标签分别对应的类别,确定为对输入图像的待生成诗歌每一行诗句的关键词。
在其中一个实施例中,根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词的步骤,包括:
若输入图像所属的标签的个数小于4,则以输入图像所属的类别为基础,采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展,直至关键词个数扩展至四个;
将扩展后获得的四个关键词,确定为对输入图像的待生成诗歌每一行诗句的关键词。
在其中一个实施例中,n个诗歌感情训练集的构建过程,包括:
分别采集表达n种感情的诗句,分别用采集的各诗句构成n个诗歌感情训练集;其中,同一种感情的诗句共同构成一个诗歌感情训练集。
另一方面,还提供一种图像诗句描述生成装置,包括:
图像分类模块,用于获取输入图像并采用CNN网络对输入图像进行多标签图像分类,确定输入图像的各分类标签以及标签对应的类别;
关键词确定模块,用于根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词;关键词为被选中的标签对应的类别;
状态获取模块,用于利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,得到第i种感情下最后一个隐藏元的状态值statei;i=1,2,…,n;
诗歌生成模块,用于将关键词和第i种感情下最后一个隐藏元的状态值statei,提供给已在诗歌语料库上预先训练好的charRNN_2神经网络,生成描述输入图像的第i种感情下的诗歌。
在其中一个实施例中,关键词确定模块包括:
标签选取子模块,用于若输入图像所属的标签的个数大于4,则从所有的标签中选中预测概率最大的前四个标签;
词确定子模块,用于将选中的前四个标签分别对应的类别,确定为对输入图像的待生成诗歌每一行诗句的关键词。
在其中一个实施例中,关键词确定模块还包括:
词扩展子模块,用于若输入图像所属的标签的个数小于4,则以输入图像所属的类别为基础,采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展,直至关键词个数扩展至四个;
词确定子模块还用于将扩展后获得的四个关键词,确定为对输入图像的待生成诗歌每一行诗句的关键词。
在其中一个实施例中,前述装置还包括训练集构建模块,用于分别采集表达n种感情的诗句,分别用采集的各诗句构成n个诗歌感情训练集;其中,同一种感情的诗句共同构成一个诗歌感情训练集。
又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现任一项的上述图像诗句描述生成方法的步骤。
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现任一项的上述图像诗句描述生成方法的步骤。
上述技术方案中的一个技术方案具有如下优点和有益效果:
上述图像诗句描述生成方法、装置和设备,通过首先采用CNN网络对输入图像进行多标签图像分类,以确定输入图像中包含的实体,以便在后续生成诗歌的阶段中,将该实体所对应的类别作为诗歌的部分关键词。然后,根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词;利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,以得到第i种感情下最后一个隐藏元的状态值statei;最后,将前面获得的关键词和第i种感情下最后一个隐藏元的状态值statei,提供给预先训练好的charRNN_2神经网络,即可生成对输入图像在第i种感情下描述的诗歌。如此,实现了对输入图像在不同语境感情下的诗句描述的生成目的,达到了在不同感情的各种语境下,根据一幅图像生成与该语境所对应的“看图写诗”的效果。
附图说明
图1为一个实施例中图像诗句描述生成方法的流程示意图;
图2为一个实施例中利用CharRNN_2生成不同语境下的诗歌示意图;
图3为一个实施例中CharRNN_1在不同诗歌感情训练集上进行训练的示意图;
图4为另一个实施例中图像诗句描述生成方法的流程示意图;
图5为一个实施例中图像诗句描述生成方法的其中一种总体流程框架示意图;
图6为又一个实施例中图像诗句描述生成方法的流程示意图;
图7为一个实施例中图像诗句描述生成装置的模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明针对无法生成输入图像在不同语境感情下的诗句描述的技术问题,提出了有效的解决方法,能够实现对输入图像在不同语境感情下的诗句描述的生成。
请参阅图1,在一个实施例中,本发明提供一种图像诗句描述生成方法,包括如下步骤S12至S18:
S12,获取输入图像并采用CNN网络对输入图像进行多标签图像分类,确定输入图像的各分类标签以及标签对应的类别。
可以理解,输入图像可以通过人工给定并输入计算设备中而实现获得,或者可以直接从存储有多种不同输入图像的数据库服务器上请求获得,又或者还可以是通过计算设备配备的摄像头或外接摄像设备现场拍摄而获得,具体获取输入图像的方式在本说明书中不做唯一限定,只要能够获取所需的输入图像均可。可以通过利用本领域已有的多种卷积神经网络(Convolutional Neural Networks,CNN)中的任一种来进行多标签图像分类处理,确定输入图像中包含的实体,以便在后续生成诗歌的阶段中,将该实体所对应的类别作为诗歌的部分关键词。
S14,根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词;关键词为被选中的标签对应的类别。
可以理解,对输入图像的待生成诗歌可以包含多种形式,例如可以是两行四句诗句构成的诗歌,也可以是四行八句诗句构成的诗歌,还可以是其他结构形式的诗歌,其中,每一行的诗句可以包含至少一个关键词。前述步骤处理后获得的各个分类标签中,每个标签均对应着相应的分类类别,而这些类别均有可能成为某个输入图像的某行诗句的关键词。通过从标签中根据需要选中一定数量的标签,以这些选中的标签所对应的类别,作为对当前的输入图像的待生成诗歌每一行诗句的关键词。
S16,利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,得到第i种感情下最后一个隐藏元的状态值statei;i=1,2,…,n。
可以理解,charRNN_1神经网络是本领域中已有的一种charRNN神经网络,其末尾的数字1标号是为了区别于下文中利用到的另一个charRNN神经网络,也即charRNN_2神经网络。n个诗歌感情训练集是分别对应于n种语境感情的n个训练集,一个诗歌感情训练集是由表达同一种感情的多个诗句构成,每一个诗歌训练集中的诗句表达的感情均不同。
例如,假设诗歌所表达的感情一共有n种,第i种感情记为Qi,诗歌所表达的所有感情构成的集合Q为:Q={Q1,…Qi,…Qn};相应的,n个诗歌感情训练集可以但不限于记为T={T1,…Ti,…Tn}。
具体的,利用隐藏元的状态为h0的charRNN_1神经网络,分别在诗歌感情训练集Ti上进行训练,即可得到第i种感情Qi下最后一个隐藏元的状态值statei。其中,状态h0表示charRNN_1神经网络的隐藏元的初始状态。
S18,将关键词和第i种感情下最后一个隐藏元的状态值statei,提供给已在诗歌语料库上预先训练好的charRNN_2神经网络,生成描述输入图像的第i种感情下的诗歌。
可以理解,charRNN_2神经网络是一个已经预先训练好的网络,向该神经网络输入关键词即可生成诗句,从而输出由诗句构成的整首诗歌。诗歌语料库为预先收集各种诗歌语料而构建的语料库,用于charRNN_2神经网络的训练。
具体的,在生成诗歌阶段,使用的是已经在诗歌语料库上预先训练好的charRNN_2神经网络,利用charRNN_2神经网络生成在不同语境下的诗歌,如图2所示,具体步骤为:
S82、将已在诗歌语料库上预先训练好的charRNN_2神经网络的隐藏元的初始状态,设置为在第i种感情Qi下最后一个隐藏元的状态值statei
S84、将待生成诗歌每一行诗句的关键词,提供给隐藏元初始状态设置完毕后的charRNN_2神经网络,生成描述输入图像的第i种感情Qi下的诗歌。其中,上述确定的关键词可以关键词序列K的形式输入给charRNN_2神经网络;生成的诗歌具有第i种感情Qi并且保护上述步骤确定的关键词,并且上述确定的关键词序列K中的每一个关键词对应着所生成的诗歌中的某一行。
上述图像诗句描述生成方法,通过首先采用CNN网络对输入图像进行多标签图像分类,以确定输入图像中包含的实体,以便在后续生成诗歌的阶段中,将该实体所对应的类别作为诗歌的部分关键词。然后,根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词;利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,以得到第i种感情下最后一个隐藏元的状态值statei;最后,将前面获得的关键词和第i种感情下最后一个隐藏元的状态值statei,提供给预先训练好的charRNN_2神经网络,即可生成对输入图像在第i种感情下描述的诗歌。
如此,可通过为预先训练好的CharRNN_2神经网络中隐藏元的初始状态赋予不同的状态值,实现在不同语境下生成与所提供的关键词相匹配的诗歌,完成从输入图像到诗歌输出的转换,实现了对输入图像在不同语境感情下的诗句描述的生成目的,达到了在不同感情的各种语境下,根据一幅图像生成与该语境所对应的“看图写诗”的效果,从而增加了图像描述生成任务的创新性和趣味性。
请参阅图3,在一个实施例中,n个诗歌感情训练集的构建过程,包括:
分别采集表达n种感情的诗句,分别用采集的各诗句构成n个诗歌感情训练集;其中,表达同一种感情的诗句共同构成一个诗歌感情训练集。
可以理解,可以通过互联网,例如古诗文网分别收集表达这n种感情的诗句,进而构成n个训练集,记为T={T1,…Ti,…Tn},每一个诗歌感情训练集对应的诗句表达了不同诗人的某一种特定语境感情。
请参阅图4和图5,在一个实施例中,关于上述步骤S14,具体可以包括如下处理步骤S142和步骤S144:
S142,若输入图像所属的标签的个数大于4,则从所有的标签中选中预测概率最大的前四个标签;
S144,将选中的前四个标签分别对应的类别,确定为对输入图像的待生成诗歌每一行诗句的关键词。
可以理解,如图5所示的是在本实施例中上述方法的其中一种总体流程框架示意图,在本实施例中,所需生成的诗歌为四行八句形式的诗歌,例如如表1所示的其中一首诗歌例子:
表1
Figure BDA0003038768780000091
具体的,对一幅输入图像进行多标签图像分类处理后,若该输入图像所属的标签的个数大于或等于4个,则从所有标签中选择预测概率最大的前四个标签,并将其所对应的类别作为该输入图像的待生成诗歌每一行的关键词,如此,可以保证待生成诗歌的每一行对应一个子主题。
通过上述处理步骤S142和步骤S144,实现了在生成诗歌的阶段之前,输入图像所属的标签的个数大于或等于4个的情况下,各诗句所需包含的关键词的确定。
请参阅图6,在一个实施例中,关于上述步骤S14,具体还可以包括如下处理步骤S143和步骤S145:
S143,若输入图像所属的标签的个数小于4,则以输入图像所属的类别为基础,采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展,直至关键词个数扩展至四个;
S145,将扩展后获得的四个关键词,确定为对输入图像的待生成诗歌每一行诗句的关键词。
可以理解,在本实施例中,所需生成的诗歌同样为四行八句形式的诗歌,例如如上述表1所示。具体的,若该输入图像所属的标签的个数小于4个,无法提供足够数量的关键词,则需要以输入图像所属类别为基础对关键词进行扩展,直到关键词的个数满足要求(也即需扩展至4个)为止。对关键词进行扩展时,可以采用本领域已有的基于循环神经网络语言模型(RNNLM)和基于额外信息的关键词扩展方法来实现。
通过上述处理步骤S143和步骤S145,实现了在生成诗歌的阶段之前,输入图像所属的标签的个数小于4个的情况下,各诗句所需包含的关键词的确定。
本领域技术人员可以理解,对于其他行、句形式的诗歌的关键词确定方式,可以参照前述实施例的确定方式同理理解。
应该理解的是,虽然图1、图4和图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1、图4和图6的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图7,还提供了一种图像诗句描述生成装置100,包括图像分类模块13、关键词确定模块15、状态获取模块17和诗歌生成模块19。其中,图像分类模块13用于获取输入图像并采用CNN网络对输入图像进行多标签图像分类,确定输入图像的各分类标签以及标签对应的类别。关键词确定模块15用于根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词;关键词为被选中的标签对应的类别。状态获取模块17用于利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,得到第i种感情下最后一个隐藏元的状态值statei;i=1,2,…,n。诗歌生成模块19用于将关键词和第i种感情下最后一个隐藏元的状态值statei,提供给已在诗歌语料库上预先训练好的charRNN_2神经网络,生成描述输入图像的第i种感情下的诗歌。
上述图像诗句描述生成装置100,通过各模块的协作,首先采用CNN网络对输入图像进行多标签图像分类,以确定输入图像中包含的实体,以便在后续生成诗歌的阶段中,将该实体所对应的类别作为诗歌的部分关键词。然后,根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词;利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,以得到第i种感情下最后一个隐藏元的状态值statei;最后,将前面获得的关键词和第i种感情下最后一个隐藏元的状态值statei,提供给预先训练好的charRNN_2神经网络,即可生成对输入图像在第i种感情下描述的诗歌。如此,实现了对输入图像在不同语境感情下的诗句描述的生成目的,达到了在不同感情的各种语境下,根据一幅图像生成与该语境所对应的“看图写诗”的效果。
在一个实施例中,上述关键词确定模块15包括标签选取子模块和词确定子模块。标签选取子模块用于若输入图像所属的标签的个数大于4,则从所有的标签中选中预测概率最大的前四个标签。词确定子模块用于将选中的前四个标签分别对应的类别,确定为对输入图像的待生成诗歌每一行诗句的关键词。
在一个实施例中,上述关键词确定模块15还包括词扩展子模块。词扩展子模块用于若输入图像所属的标签的个数小于4,则以输入图像所属的类别为基础,采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展,直至关键词个数扩展至四个。上述词确定子模块还用于将扩展后获得的四个关键词,确定为对输入图像的待生成诗歌每一行诗句的关键词。
在一个实施例中,前述图像诗句描述生成装置100还包括训练集构建模块。训练集构建模块用于分别采集表达n种感情的诗句,分别用采集的各诗句构成n个诗歌感情训练集;其中,同一种感情的诗句共同构成一个诗歌感情训练集。
关于图像诗句描述生成装置100的具体限定,可以参见上文中图像诗句描述生成方法的相应限定,在此不再赘述。上述图像诗句描述生成装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述计算设备可以是但不限于本领域已有的各型个人计算机或者移动通信终端。
又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时可以实现以下步骤:获取输入图像并采用CNN网络对输入图像进行多标签图像分类,确定输入图像的各分类标签以及标签对应的类别;根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词;关键词为被选中的标签对应的类别;利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,得到第i种感情下最后一个隐藏元的状态值statei;i=1,2,…,n;将关键词和第i种感情下最后一个隐藏元的状态值statei,提供给已在诗歌语料库上预先训练好的charRNN_2神经网络,生成描述输入图像的第i种感情下的诗歌。
在一个实施例中,处理器执行计算机程序时还可以实现上述图像诗句描述生成方法各实施例中增加的步骤或者子步骤。
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取输入图像并采用CNN网络对输入图像进行多标签图像分类,确定输入图像的各分类标签以及标签对应的类别;根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词;关键词为被选中的标签对应的类别;利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,得到第i种感情下最后一个隐藏元的状态值statei;i=1,2,…,n;将关键词和第i种感情下最后一个隐藏元的状态值statei,提供给已在诗歌语料库上预先训练好的charRNN_2神经网络,生成描述输入图像的第i种感情下的诗歌。
在一个实施例中,计算机程序被处理器执行时,还可以实现上述图像诗句描述生成方法各实施例中增加的步骤或者子步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种图像诗句描述生成方法,其特征在于,包括步骤:
获取输入图像并采用CNN网络对所述输入图像进行多标签图像分类,确定所述输入图像的各分类标签以及标签对应的类别;
根据各所述标签确定对所述输入图像的待生成诗歌每一行诗句的关键词;所述关键词为被选中的所述标签对应的类别;
利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,得到第i种感情下最后一个隐藏元的状态值statei;i=1,2,…,n;
将所述关键词和所述第i种感情下最后一个隐藏元的状态值statei,提供给已在诗歌语料库上预先训练好的charRNN_2神经网络,生成描述所述输入图像的第i种感情下的诗歌;
所述的初始状态为h0,h0表示未通过诗歌感情训练集训练的隐藏元的状态值;
所述charRNN_1神经网络和所述charRNN_2神经网络均为charRNN神经网络,其中,数字1和2均为标号。
2.根据权利要求1所述的图像诗句描述生成方法,其特征在于,根据各所述标签确定对所述输入图像的待生成诗歌每一行诗句的关键词的步骤,包括:
若所述输入图像所属的所述标签的个数大于4,则从所有的所述标签中选中预测概率最大的前四个所述标签;
将选中的前四个所述标签分别对应的类别,确定为对所述输入图像的待生成诗歌每一行诗句的所述关键词。
3.根据权利要求1所述的图像诗句描述生成方法,其特征在于,根据各所述标签确定对所述输入图像的待生成诗歌每一行诗句的关键词的步骤,包括:
若所述输入图像所属的所述标签的个数小于4,则以所述输入图像所属的类别为基础,采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展,直至所述关键词个数扩展至四个;
将扩展后获得的四个所述关键词,确定为对所述输入图像的待生成诗歌每一行诗句的所述关键词。
4.根据权利要求1至3任一项所述的图像诗句描述生成方法,其特征在于,n个所述诗歌感情训练集的构建过程,包括:
分别采集表达n种感情的诗句,分别用采集的各所述诗句构成n个所述诗歌感情训练集;其中,同一种感情的所述诗句共同构成一个所述诗歌感情训练集。
5.一种图像诗句描述生成装置,其特征在于,包括:
图像分类模块,用于获取输入图像并采用CNN网络对所述输入图像进行多标签图像分类,确定所述输入图像的各分类标签以及标签对应的类别;
关键词确定模块,用于根据各所述标签确定对所述输入图像的待生成诗歌每一行诗句的关键词;所述关键词为被选中的所述标签对应的类别;
状态获取模块,用于利用隐藏元在初始状态的charRNN_1神经网络,分别在构建的n个诗歌感情训练集上进行训练,得到第i种感情下最后一个隐藏元的状态值statei;i=1,2,…,n;
诗歌生成模块,用于将所述关键词和所述第i种感情下最后一个隐藏元的状态值statei,提供给已在诗歌语料库上预先训练好的charRNN_2神经网络,生成描述所述输入图像的第i种感情下的诗歌;
所述的初始状态为h0,h0表示未通过诗歌感情训练集训练的隐藏元的状态值
所述charRNN_1神经网络和所述charRNN_2神经网络均为charRNN神经网络,其中,数字1和2均为标号。
6.根据权利要求5所述的图像诗句描述生成装置,其特征在于,所述关键词确定模块包括:
标签选取子模块,用于若所述输入图像所属的所述标签的个数大于4,则从所有的所述标签中选中预测概率最大的前四个所述标签;
词确定子模块,用于将选中的前四个所述标签分别对应的类别,确定为对所述输入图像的待生成诗歌每一行诗句的所述关键词。
7.根据权利要求6所述的图像诗句描述生成装置,其特征在于,所述关键词确定模块还包括:
词扩展子模块,用于若所述输入图像所属的所述标签的个数小于4,则以所述输入图像所属的类别为基础,采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展,直至所述关键词个数扩展至四个;
所述词确定子模块还用于将扩展后获得的四个所述关键词,确定为对所述输入图像的待生成诗歌每一行诗句的所述关键词。
8.根据权利要求5所述的图像诗句描述生成装置,其特征在于,还包括训练集构建模块,用于分别采集表达n种感情的诗句,分别用采集的各所述诗句构成n个所述诗歌感情训练集;其中,同一种感情的所述诗句共同构成一个所述诗歌感情训练集。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述图像诗句描述生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现权利要求1至4中任一项所述图像诗句描述生成方法的步骤。
CN202110451287.XA 2021-04-26 2021-04-26 图像诗句描述生成方法、装置和设备 Active CN113010717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110451287.XA CN113010717B (zh) 2021-04-26 2021-04-26 图像诗句描述生成方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110451287.XA CN113010717B (zh) 2021-04-26 2021-04-26 图像诗句描述生成方法、装置和设备

Publications (2)

Publication Number Publication Date
CN113010717A CN113010717A (zh) 2021-06-22
CN113010717B true CN113010717B (zh) 2022-04-22

Family

ID=76380404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110451287.XA Active CN113010717B (zh) 2021-04-26 2021-04-26 图像诗句描述生成方法、装置和设备

Country Status (1)

Country Link
CN (1) CN113010717B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358203B (zh) * 2022-01-11 2024-09-27 平安科技(深圳)有限公司 图像描述语句生成模块的训练方法及装置、电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9190109B2 (en) * 2010-03-23 2015-11-17 Disney Enterprises, Inc. System and method for video poetry using text based related media
CN106227714A (zh) * 2016-07-14 2016-12-14 北京百度网讯科技有限公司 一种基于人工智能的获取生成诗词的关键词的方法和装置
CN107480132A (zh) * 2017-07-25 2017-12-15 浙江工业大学 一种基于图像内容的古诗词生成方法
CN108563622B (zh) * 2018-05-04 2020-04-07 清华大学 一种具有风格多样性的绝句生成方法及装置
CN108874779B (zh) * 2018-06-21 2021-09-21 东北大学 基于K8s集群建立的依图写诗系统的控制方法
US20200364303A1 (en) * 2019-05-15 2020-11-19 Nvidia Corporation Grammar transfer using one or more neural networks
CN110309510B (zh) * 2019-07-02 2023-05-12 中国计量大学 一种基于c-s和gru的看画题诗方法
CN111368056B (zh) * 2020-03-04 2023-09-29 北京香侬慧语科技有限责任公司 一种古诗词生成方法和装置
CN111444679B (zh) * 2020-03-27 2024-05-24 北京小米松果电子有限公司 诗词生成方法及装置、电子设备、存储介质
CN111611805B (zh) * 2020-04-24 2023-04-07 平安科技(深圳)有限公司 一种基于图像的辅助写作方法、装置、介质及设备
CN112257775B (zh) * 2020-10-21 2022-11-15 东南大学 一种基于卷积神经网络和无监督语言模型的由图成诗方法
CN112199502B (zh) * 2020-10-26 2024-03-15 网易(杭州)网络有限公司 基于情感的诗句生成方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113010717A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Kim et al. Transparency and accountability in AI decision support: Explaining and visualizing convolutional neural networks for text information
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN110866140A (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN113035311B (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110569356A (zh) 基于智能面试交互系统的面试方法、装置和计算机设备
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN105989067A (zh) 从图片生成文本摘要的方法、用户设备及训练服务器
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN110705490A (zh) 视觉情感识别方法
CN114495129A (zh) 文字检测模型预训练方法以及装置
CN117370736B (zh) 一种细粒度情感识别方法、电子设备及存储介质
CN113297379A (zh) 一种文本数据多标签分类方法及装置
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN111680132A (zh) 一种用于互联网文本信息的噪声过滤和自动分类方法
CN113010717B (zh) 图像诗句描述生成方法、装置和设备
CN114881169A (zh) 使用随机特征损坏的自监督对比学习
CN113569094A (zh) 视频推荐方法、装置、电子设备及存储介质
CN117725458A (zh) 一种获取威胁情报样本数据生成模型的方法及装置
CN115617974B (zh) 一种对话处理方法、装置、设备及存储介质
CN116701637A (zh) 一种基于clip的零样本文本分类方法、系统及介质
CN116109980A (zh) 一种基于视频文本匹配的动作识别方法
CN116257616A (zh) 面向音乐领域的实体关系抽取方法及系统
CN113434721B (zh) 表情包分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant