CN111814946A - 一种基于多体进化的图像描述自动生成方法 - Google Patents
一种基于多体进化的图像描述自动生成方法 Download PDFInfo
- Publication number
- CN111814946A CN111814946A CN202010563287.4A CN202010563287A CN111814946A CN 111814946 A CN111814946 A CN 111814946A CN 202010563287 A CN202010563287 A CN 202010563287A CN 111814946 A CN111814946 A CN 111814946A
- Authority
- CN
- China
- Prior art keywords
- population
- individual
- image description
- node
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多体进化的图像描述自动生成方法,该方法构建一图像描述模型种群,对待识别图像进行图像描述的自动生成,所述图像描述模型种群通过以下步骤获得:获得初始模型种群,种群中每个个体均为一图像描述模型;对所述初始模型种群进行迭代变异进化操作,每次迭代中选择个体适应度高的N个个体组成新种群,直至满足进化终止条件,获得最终的图像描述模型种群。与现有技术相比,本发明具有极大地降低了模型设计的人力和时间成本,准确度高等优点。
Description
技术领域
本发明涉及图像理解领域,尤其是涉及一种基于多体进化的图像描述自动生成方法。
背景技术
图像标题生成是一项极具挑战性的工作,在婴幼儿早期教育、视觉障碍辅助、人机交互等领域具有广泛的应用前景。它结合了自然语言处理与计算机视觉两个领域,将一副自然图像使用自然语言的形式描述出来,或者说将图像翻译成自然语言。它首先要求系统能够准确理解图像中的内容,如识别出图像中的场景、各种对象、对象的属性、正在发生的动作及对象之间的关系等;然后根据语法规则及语言结构,生成人们能够理解的句子。
人们已提出多种方法来解决这一难题,包括基于模板的方法、基于语义迁移的方法,基于神经机器翻译的方法及混合方法等。随着深度学习技术,尤其是CNN技术在语言识别和视觉领域连续取得突破,目前基于神经机器翻译及其与其他视觉技术混合的方法已成为解决该问题的主流。这类方法考虑了CNN模型能够提取抽象性及表达能力更强的图像特征,能够为后续的语言生成模型提供可靠的可视化信息。但这些模型都是由人工构建的,创作过程复杂,消耗了大量的人力和物力成本。此外,人工设计的图像描述模型还存在设计耗时长、模型数量少等问题,不利于对图像自动描述问题的进一步改进和深入研究。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种自动化程度更高的基于多体进化的图像描述自动生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于多体进化的图像描述自动生成方法,该方法构建一图像描述模型种群对待识别图像进行图像描述的自动生成,
所述图像描述模型种群通过以下步骤获得:
获得初始模型种群,种群中每个个体均为一图像描述模型;
对所述初始模型种群进行迭代变异进化操作,每次迭代中选择个体适应度高的N个个体组成新种群,直至满足进化终止条件,获得最终的图像描述模型种群。
进一步地,所述图像描述模型为基于RNN的模型,获得初始模型种群时,对RNN的节点类型和操作类型进行设置。
进一步地,所述节点类型包括Linear层、ReLU层、Dropout层、Tanh层和Sigmoid层。
进一步地,所述操作类型包括加操作和乘操作。
进一步地,每次迭代中,所述变异进化操作的次数为期望为2的泊松分布。
进一步地,所述变异进化操作为增加、替换、移动、删除中的一种,其中,
所述增加具体为:切断一条随机选择的边,插入一个随机节点;
所述替换具体为:随机选择一个节点,将它替换成一个与之不同类型的节点;
所述移动具体为:随机选择一条边,将它的终点节点替换成另一个随机选择的节点;
所述删除具体为:随机删除一个节点,并把原本与该节点相连的边连接到该节点的上一节点中的任意一个。
进一步地,所述个体适应度的计算具体为:
基于图像样本的图像视觉特征计算种群中每个个体输出文本描述的CIDEr值与BLEU4值;
计算每个个体的模型复杂度fr;
计算适应度值f:
f=0.25CIDEr+0.75BLEU4+fr。
进一步地,所述模型复杂度fr的计算公式为:
fr=-0.1W–0.001N
其中,W为模型中可训练的节点个数,N为所有节点个数。
进一步地,所述图像视觉特征通过ResNet-101卷积神经网络提取获得。
进一步地,所述选择个体适应度高的N个个体组成新种群具体为:
除了变异个体外,从种群中选择一个随机个体,该随机个体的适应度应小于该种群适应度的中位数;比较该随机个体与变异个体的适应度,删除适应度较低的个体,适应度较高的个体保留在种群中。
与现有技术相比,本发明具有如下有益效果:
(1)本发明采用基于进化算法的图像描述自动生成方法,极大地降低了模型设计的人力和时间成本;
(2)本发明综合权衡了模型性能与模型复杂度,在保证模型准确性的前提下,有效地限制了模型参数;
(3)本发明构建了大量准确度较高的图像描述模型,可用于图像描述问题中大规模文本生成的深入研究。
附图说明
图1为本发明的主要步骤流程示意图;
图2为图像描述模型示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例提供一种基于多体进化的图像描述自动生成方法,该方法构建一图像描述模型种群对待识别图像进行图像描述的自动生成。该方法具体实施例过程包括:
1、构建初始模型种群。
本实施例采用的图像描述模型为基于RNN的模型,通过设置RNN的节点类型和操作类型,初始化RNN结构。
节点类型包括Linear层、ReLU层、Dropout层、Tanh层和Sigmoid层。操作类型包括加操作和乘操作。
本实施例,种群规模N为100。
2、变异进化操作。
随机选择一个个体,对该个体进行n次变异操作,通过变异修改个体基因,以优化种群。每次迭代中,所述变异进化操作的次数为期望为2的泊松分布。
所述变异进化操作为增加、替换、移动、删除中的一种,其中,
增加具体为:切断一条随机选择的边,插入一个随机节点;
替换具体为:随机选择一个节点,将它替换成一个与之不同类型的节点;
移动具体为:随机选择一条边,将它的终点节点替换成另一个随机选择的节点;
删除具体为:随机删除一个节点,并把原本与该节点相连的边连接到该节点的上一节点中的任意一个。
3、抽取图像视觉特征,使用视觉特征和变异后的个体构建图像描述模型。
本实施例中,使用ResNet-101卷积神经网络提取图像的视觉特征,将该网络pool5层的输出作为图像视觉特征,将图像视觉特征作为种群中每个RNN个体的输入,完成图像描述模型构建。
4、计算适应度,排除适应度较差的个体,返回第2步进行下一次进化,直至满足终止条件。
将图片输入每个图像描述模型,计算输出文本描述CIDEr值与BLEU4值;
计算模型的复杂度fr=-0.1W–0.001N,其中W为模型中可训练的节点个数,N为所有节点个数;
计算适应度值f=0.25CIDEr+0.75BLEU4+fr。
除了变异个体外,再从该种群中随机选择一个个体,该个体的适应度应小于该种群适应度的中位数;比较该个体与变异个体的适应度,适应度较低的个体被删除,适应度较高的个体被保留在种群中,组成新种群。
本实施例中,终止条件为出现过的个体总数等于20000。
5、性能测试。
保留种群中存活的图像描述模型,并将测试集的图片输入这些模型进行测试,生成图像描述,并计算相应的评价指标。
本实施例中,进行测试并生成图像描述的具体步骤包括:将测试集图片输入ResNet-101卷积神经网络进行视觉特征提取;将提取到的视觉特征分别输入所有RNN个体,RNN的输出即为图像描述模型的输出;根据输出计算CIDEr值和BLEU值。
在公开数据集MSCOCO上使用本方法进行训练以及测试,使用BLEU、METEOR和CIDEr标准来对生成的句子进行评价。在MSCOCO数据集上,其训练集有113287张图像,验证集和验证集各有5000张图像,每张图像有5条以上人工标注的参考句子,结果如表1所示。
表1本发明在MSCOCO数据集上性能表现
方法 | B-1 | B-2 | B-3 | B-4 | METEOR | CIDEr |
基准模型 | 71.2 | 54.9 | 41.0 | 31.2 | 25.0 | 97.4 |
本发明 | 73.2 | 56.9 | 42.9 | 32.2 | 25.6 | 101.4 |
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。
Claims (10)
1.一种基于多体进化的图像描述自动生成方法,其特征在于,该方法构建一图像描述模型种群对待识别图像进行图像描述的自动生成,
所述图像描述模型种群通过以下步骤获得:
获得初始模型种群,种群中每个个体均为一图像描述模型;
对所述初始模型种群进行迭代变异进化操作,每次迭代中选择个体适应度高的N个个体组成新种群,直至满足进化终止条件,获得最终的图像描述模型种群。
2.根据权利要求1所述的基于多体进化的图像描述自动生成方法,其特征在于,所述图像描述模型为基于RNN的模型,获得初始模型种群时,对RNN的节点类型和操作类型进行设置。
3.根据权利要求2所述的基于多体进化的图像描述自动生成方法,其特征在于,所述节点类型包括Linear层、ReLU层、Dropout层、Tanh层和Sigmoid层。
4.根据权利要求2所述的基于多体进化的图像描述自动生成方法,其特征在于,所述操作类型包括加操作和乘操作。
5.根据权利要求1所述的基于多体进化的图像描述自动生成方法,其特征在于,每次迭代中,所述变异进化操作的次数为期望为2的泊松分布。
6.根据权利要求2或5所述的基于多体进化的图像描述自动生成方法,其特征在于,所述变异进化操作为增加、替换、移动、删除中的一种,其中,
所述增加具体为:切断一条随机选择的边,插入一个随机节点;
所述替换具体为:随机选择一个节点,将它替换成一个与之不同类型的节点;
所述移动具体为:随机选择一条边,将它的终点节点替换成另一个随机选择的节点;
所述删除具体为:随机删除一个节点,并把原本与该节点相连的边连接到该节点的上一节点中的任意一个。
7.根据权利要求1所述的基于多体进化的图像描述自动生成方法,其特征在于,所述个体适应度的计算具体为:
基于图像样本的图像视觉特征计算种群中每个个体输出文本描述的CIDEr值与BLEU4值;
计算每个个体的模型复杂度fr;
计算适应度值f:
f=0.25CIDEr+0.75BLEU4+fr。
8.根据权利要求7所述的基于多体进化的图像描述自动生成方法,其特征在于,所述模型复杂度fr的计算公式为:
fr=-0.1W–0.001N
其中,W为模型中可训练的节点个数,N为所有节点个数。
9.根据权利要求7所述的基于多体进化的图像描述自动生成方法,其特征在于,所述图像视觉特征通过ResNet-101卷积神经网络提取获得。
10.根据权利要求1所述的基于多体进化的图像描述自动生成方法,其特征在于,所述选择个体适应度高的N个个体组成新种群具体为:
除了变异个体外,从种群中选择一个随机个体,该随机个体的适应度应小于该种群适应度的中位数;比较该随机个体与变异个体的适应度,删除适应度较低的个体,适应度较高的个体保留在种群中。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2020101876865 | 2020-03-17 | ||
CN202010187686 | 2020-03-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814946A true CN111814946A (zh) | 2020-10-23 |
CN111814946B CN111814946B (zh) | 2022-11-15 |
Family
ID=72846245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010563287.4A Active CN111814946B (zh) | 2020-03-17 | 2020-06-19 | 一种基于多体进化的图像描述自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814946B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509487A (zh) * | 2018-02-08 | 2018-09-07 | 杨睿嘉 | 基于脉冲发放皮层模型的图像检索方法、设备及存储介质 |
CN110135498A (zh) * | 2019-05-17 | 2019-08-16 | 电子科技大学 | 一种基于深度进化神经网络的图像识别方法 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN110852435A (zh) * | 2019-10-12 | 2020-02-28 | 沈阳航空航天大学 | 一种基于神经进化计算模型 |
-
2020
- 2020-06-19 CN CN202010563287.4A patent/CN111814946B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509487A (zh) * | 2018-02-08 | 2018-09-07 | 杨睿嘉 | 基于脉冲发放皮层模型的图像检索方法、设备及存储介质 |
CN110135498A (zh) * | 2019-05-17 | 2019-08-16 | 电子科技大学 | 一种基于深度进化神经网络的图像识别方法 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN110852435A (zh) * | 2019-10-12 | 2020-02-28 | 沈阳航空航天大学 | 一种基于神经进化计算模型 |
Non-Patent Citations (2)
Title |
---|
PENGJIE TANG ET AL.: ""Deep sequential fusion LSTM network for image description"", 《SCIENCEDIRECT》 * |
徐航: ""基于深度网络与多特征融合的视频语义描述方法研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111814946B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106650789B (zh) | 一种基于深度lstm网络的图像描述生成方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN111125358B (zh) | 一种基于超图的文本分类方法 | |
CN110609897B (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN105868184B (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN109740154A (zh) | 一种基于多任务学习的在线评论细粒度情感分析方法 | |
CN108763216A (zh) | 一种基于中文数据集的文本情感分析方法 | |
CN109299268A (zh) | 一种基于双通道模型的文本情感分析方法 | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN108614875A (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN111340661B (zh) | 一种基于图神经网络的应用题自动解题方法 | |
CN112699247A (zh) | 一种基于多类交叉熵对比补全编码的知识表示学习框架 | |
CN110033008A (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN111552803A (zh) | 一种基于图小波网络模型的文本分类方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN109815485B (zh) | 一种微博短文本情感极性识别的方法、装置及存储介质 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN110717330A (zh) | 基于深度学习的词句级短文本分类方法 | |
CN109063719A (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN111078876A (zh) | 一种基于多模型集成的短文本分类方法和系统 | |
CN107609055B (zh) | 基于深层主题模型的文本图像多模态检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |