CN114049501A - 融合集束搜索的图像描述生成方法、系统、介质及设备 - Google Patents
融合集束搜索的图像描述生成方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN114049501A CN114049501A CN202111388863.7A CN202111388863A CN114049501A CN 114049501 A CN114049501 A CN 114049501A CN 202111388863 A CN202111388863 A CN 202111388863A CN 114049501 A CN114049501 A CN 114049501A
- Authority
- CN
- China
- Prior art keywords
- image
- word
- description
- fusing
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000015654 memory Effects 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims abstract description 14
- 230000007787 long-term memory Effects 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000010845 search algorithm Methods 0.000 claims abstract description 4
- 230000006403 short-term memory Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 4
- 238000012795 verification Methods 0.000 abstract description 4
- 238000013507 mapping Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于神经网络的图像描述生成方法,包括:获取图像标注的数据集并得到训练集、验证集和测试集;根据图像描述的句子生成词汇表与词嵌入矩阵;采用神经网络来提取图像的特征并编码为矩阵;创建长短时记忆网络;在图像特征提取网络和长短时记忆网络之间添加全连接层做特征映射;将提取的图像特征与获取的词嵌入矩阵输入到长短时记忆网络中进行训练;以序列生成的方式作为测试集中图像描述生成的方法;在序列生成中添加集束搜索算法寻找最佳的句子表达方式。本发明方法融合了神经网络和集束搜索算法,提高了图像特征提取的精确度和语义信息表达的流畅度。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种融合集束搜索的图像描述生成方法、系统、介质及设备。
背景技术
随着深度学习在各项领域上取得的巨大进步,而计算机视觉和自然语言处理结合的领域更是引起了更多研究者的关注。图像描述生成在很多领域都有着重要的应用,比如在儿童教育领域中,可以应用在“看图说话”任务中,帮助儿童理解图像内容;在医学影像分析中,可以对输入的医学影像图片生成初步的诊断结果,节省医护人员时间;在智慧城市中,可以对大量的交通图像数据进行集中分析,帮助决策管理部门及时掌握城市的动态信息。图像描述生成涉及计算机视觉和自然语言处理两个领域,需要机器能够精确的提取到图像的特征,并且能够用流畅的自然语言对图像中的内容进行描述。
近年来,研究学者对提取图像的特征和生成可读性的文本方向进行了大量的研究,也提出了许多性能很好的模型,Encoder-Decoder(编码器-解码器)的生成架构就是一个非常好的选择。该生成架构分为编码器和解码器两个部分,编码器部分可以采用卷积神经网络提取图片的特征并编码成一个固定长度的向量,解码器部分可以采用循环神经网络将编码器传输来的向量解码为一个描述语句。对于编码器和解码器中的网络则可以根据具体的任务来进行选择。
图像描述生成从最早的基于模板的描述方法,发展到基于检索的描述方法,最后逐步发展到现在比较流行的基于神经网络的描述方法。基于模板的描述方法依赖于人工制定的模板,虽然可以保证语句语法架构的规范性,但是忽略了图像与描述文本之间的联系,所生成的描述语句逻辑混乱,可读性较差;基于检索的描述方法是通过检索和图像库中相似的图像,然后根据检索出的图像以及相应的描述标签去生成相应的描述,这种方法可以避免基于模板的图像描述方法导致的语言主体混乱问题,但却不能保证所生成的图像描述能够概括图像的内容。而基于Encoder-Decoder的图像描述生成方法能够解决图像和生成文本之间的逻辑关系以及所生成文本的语言主题混乱问题,但现有的方法中仍存在所生成的文本可读性低的问题。
发明内容
本发明提供了一种融合集束搜索的图像描述生成方法、系统、介质及设备,以解决现有技术中所单位文本语言主题混乱、可读性低的问题。
本发明提供了一种融合集束搜索的图像描述生成方法,包括如下步骤:
步骤1:获取图像描述生成所需要的图像标注数据集,并对图像标注数据集进行预处理,并将预处理后的图像标注数据集分为训练集和测试集;
步骤2:获取每个图像所标注的描述文本,根据获取的文本构建词汇表以及词表的词嵌入矩阵;
步骤3:创建编码器模块中的神经网络VGG16,通过神经网络VGG16对输入该编码器的图像进行处理和特征提取;
步骤4:创建长短期记忆网络的解码器模块,在编码器模块的卷积神经网络输入端和解码器模块的循环神经网络输入端之间添加一层全连接层;
步骤5:将所述步骤3中所提取的图像特征和所述步骤2中所获得的图像描述文本的词嵌入矩阵输入到长短期记忆网络中,将图像特征和所对应的图像描述文本在长短期记忆网络中进行训练;
步骤6:在长短期记忆网络的解码器模块中,从预设起始标志开始对每个语句进行预测生成单词,从预设起标志开始对每个语句进行预测生成单词,选取每个时间步长中概率最大的单词作为最佳候选单词集;
步骤7:利用beam search算法,在最佳候选单词集中选择最大概率分布的单词构成句子,作为描述文本,具体为:
在第一个时间步长,选取当前条件概率最大的k个词,将k个词作为候选输出序列,之后每个时间步长,基于上个步长的输出序列,挑选出所有序列中条件概率最大的k个,最后从k个候选中挑选出最优的,组合成为最终的图像描述文本。
进一步地,所述步骤1具体方法如下:
从所获取的图像标注数据集中切分出一定数量的图像,每个图像对应5条自然语言描述语句,将图像和对应的自然语言描述语句构成训练集;再从剩下的图像标注数据集中划分出与训练集不重复的一定量数据作为测试集。
进一步地,所述步骤2中构建词汇表以及词表的词嵌入矩阵的步骤如下:
步骤21:将图像标注数据集中所有的图像描述文本语料转化为一个细分粒度以单词为单位的词汇表;
步骤22:统计词汇表中的每个单词的词频,以及根据词汇表将每个单词根据词频数排序给定一个编码,即每个单词的索引编号;
步骤23:将处理后的词汇表输入到word2vec模型中进行训练,最终获得每个词的词嵌入矩阵。
进一步地,所述步骤3中通过神经网络VGG16对输入该编码器的图像进行处理和特征提取的步骤如下:
步骤31:对输入的图像进行预处理,从每个像素中减去在训练集上计算的平均RGB值;
步骤32:将预处理后的图像输入到卷积层中,对图像进行零填充处理,在图像的周围用0进行相应的填充,使得原始图像扩大;
输出图像特征尺寸可以按照公式(1)-(4)来求得:
Output Size=W2×H2×D2 (1)
D2=K (4)
其中,K为卷积核的数量,W为卷积操作输入图像的尺寸,F为卷积核的尺寸,S为操作步长,P为零填充数量;
步骤33:对填充后的图像使用3*3大小的卷积核捕获图像左右、上下以及中心的特征,滤波器通过与上一层输出的图像进行点积运算,形成新的特征图像,完成特征提前。
进一步地,所述步骤7中的通过如下公式逐步获取单词的条件概率:
P(y<2>,y<1>|x)=P(y<2>|y<1>,x)P(y<1>|x)
其中,y<2>为第二个单词的条件概率输出;y<1>为当前单词;x为上一个时间。
本发明还提供了一种融合集束搜索的图像描述生成系统,包括:
图像上传识别模块,用于获取待描述的图像并提取图像的特征;
图像特征表示模块,用于利用预训练的VGG16神经网络模型对图像进行零填充、卷积特征提取、池化后得到新的图像特征表示向量;
语义特征获取模块,用于将获取的词表利用word2vec模型编码成包含上下文语义信息的词向量;
图像内容描述模块,用于利用获取的图像特征表示和语义特征信息输入到长短期记忆网络模型中进行训练并预测结果,生成图像的描述文。
本发明还提供了一种融合集束搜索的图像描述生成介质,存储有所述融合集束搜索的图像描述生成方法。
本发明还提供了一种融合集束搜索的图像描述生成设备,包括存储器、处理器;所述存储器包括所述融合集束搜索的图像描述生成介质。
本发明的有益效果:
1.本公开所述的方法、系统、介质及电子设备,使用全局图像特征和描述的文本特征来生成图像描述,并采用集束搜索的算法来增强模型在生成文本时语言的丰富性和准确性。
2.本公开所述的方法、系统、介质和电子设备,采用VGG16的模型来提取图像中的全局特征,并编码为特征向量,而对于文本则采用长短期记忆网络来提取文本中的特征,在图像与文本信息结合阶段,则通过添加全连接层,将之间的特征进行映射,便于模型更好地学习到图像和文本特征之间的关系。而在模型预测阶段,利用集束搜索的优化搜索策略来生成更加合理化、多样性的图像描述。
3.本公开所述的方法、系统、介质和电子设备,系统能够搭载算法模型进行可视化,提供用户上传图片并返回图像的描述的功能,同时能够将用户上传的历史图像以及历史生成对应的描述性文字进行保存,当需要重新查看图像的描述时,无需再次调用模型进行生成,节省了系统反馈的时间。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明实施例中图像描述生成方法的总体框架图;
图2为本发明实施例中未封装Beam Search模型的生成效果示例图;
图3为本发明实施例中封装Beam Search模型的生成效果示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种融合集束搜索的图像描述生成方法,包括如下步骤:
步骤1:获取图像描述生成所需要的图像标注数据集,并对图像标注数据集进行预处理,并将预处理后的图像标注数据集分为训练集和测试集;具体为:
从所获取的图像标注数据集中切分出一定数量的图像,每个图像对应5条自然语言描述语句,将图像和对应的自然语言描述语句构成训练集;再从剩下的图像标注数据集中划分出与训练集不重复的一定量数据作为测试集;
步骤2:获取每个图像所标注的描述文本,根据获取的文本构建词汇表以及词表的词嵌入矩阵,具体为:
步骤21:将图像标注数据集中所有的图像描述文本语料转化为一个细分粒度以单词为单位的词汇表;
步骤22:统计词汇表中的每个单词的词频,以及根据词汇表将每个单词根据词频数排序给定一个编码,即每个单词的索引编号;
步骤23:将处理后的词汇表输入到word2vec模型中进行训练,最终获得每个词的词嵌入矩阵
步骤3:创建编码器模块中的神经网络VGG16,通过神经网络VGG16对输入该编码器的图像进行处理和特征提取,具体为:
步骤31:对输入的图像进行预处理,输入图像大小为224*224的RGB彩色图像,从每个像素中减去在训练集上计算的平均RGB值;
步骤32:将预处理后的图像输入到卷积层中,对图像进行零填充处理,在图像的周围用0进行相应的填充,使得原始图像扩大,避免多次卷积之后丢失图像的边缘信息;
由于输出得数据体呈立方体性质,长宽由卷积操作得超参数决定,厚度则由卷积核数量决定,则输出图像特征尺寸可以按照公式(1)-(4)来求得:
Output Size=W2×H2×D2 (1)
D2=K (4)
其中,K为卷积核的数量,W为卷积操作输入图像的尺寸,F为卷积核的尺寸,S为操作步长,P为零填充数量;
步骤33:对填充后的图像使用3*3大小的卷积核捕获图像左右、上下以及中心的特征,滤波器通过与上一层输出的图像进行点积运算,形成新的特征图像,完成特征提前;
步骤4:创建长短期记忆网络的解码器模块,在编码器模块的卷积神经网络输入端和解码器模块的循环神经网络输入端之间添加一层全连接层;
创建的长短期记忆网络LSTM的方法包括:
当模型处理的句子随着长度的增加时,会忽略之前输入的语句信息,网络无法有效学习到更多的信息,同时当一个模型的时间步过多时会引起反向传播时的梯度消失现象。引入长短期记忆网络在极大程度上克服了上述所提到的问题。LSTM引入了门(gate)机制用于控制特征的流通和损失。
(1)忘记阶段:该阶段主要时对上一个节点传进来的输入进行选择性忘记,通计算得到的ft来作为忘记门控,来控制上一个状态哪些信息是需要留的,哪些信息是需要忘记的;
ft=σ(Wf·[ht-1,xt]+bf)
(3)输出阶段:在这个阶段主要是决定哪些会被当成当前的状态输出,ot控制哪些信息需要输出给下一个单元,而输出信息是由cell state来决定。
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
步骤5:将所述步骤3中所提取的图像特征和所述步骤2中所获得的图像描述文本的词嵌入矩阵输入到长短期记忆网络中,将图像特征和所对应的图像描述文本在长短期记忆网络中进行训练;
步骤6:在长短期记忆网络的解码器模块中,从预设起标志开始对每个语句进行预测生成单词,选取每个时间步长中概率最大的单词作为最佳候选单词集,为后续最优结果的输出提供输入值;
步骤7:利用beam search算法,在最佳候选单词集中选择最大概率分布的单词构成句子,作为描述文本,具体为:
在第一个时间步长,选取当前条件概率最大的k个词,将k个词作为候选输出序列,之后每个时间步长,基于上个步长的输出序列,挑选出所有序列中条件概率最大的k个,最后从k个候选中挑选出最优的,组合成为最终的图像描述文本,具体为:
在集束搜索中,有一个参数B,为集束宽(Beam width),它是用来挑选top B的结果。集束搜索的最终目标是要获得一个单词表示英文句子的条件概率最大,即下面公式(5):
首先,我们会通过模型计算得到y<0>的分布概率,选取前B个作为候选结果,这里假设B为3,比如选出“A”,“The”,“One”这三个单词;第二步,此时我们已经选择最可能这三个单词中的一个作为第一个单词,beam search则将根据第一个单词考虑第二个单词的概率,例如针对单词“A”,我们将y<1>=′A′,然后将它喂给x<2>,输出结果y<2>作为第二个单词的概率输出。则我们的选择方法为公式(6)所示:
P(y<2>,″A″|x)=P(y<2>|″A″,x)P(″A″|x) (6)
然后同样将“The”作为y<1>,然后喂给x<2>,计算得到P(y<2>,″The″|x),见公式(7)所示,“One”这个单词也按照同样的方法进行计算,将“One”作为y<1>,然后喂给x<2>,计算得到P(y<2>,″One″|x),见公式(8)。
P(y<2>,″The″|x)=P(y<2>|″The″,x)P(″The″|x) (7)
P(y<2>,″One″|x)=P(y<2>|″One″,x)P(″One″|x) (8)
按照这样搜索的方式,就可以找到第一个和第二个单词对最可能的三个选择。然后继续将前两个单词作为输入,依次在词库中查找最佳的单词匹配,得到第三个单词,按照这样的步骤进行循环,直到输出最后的结果。
以下以具体的实例作说明:
如图1所示,包括以下特征:
采用VGG16模型提取图像中的特征,将提取到的图像特征编码为特征向量,在将从文本中提取到的特征与图像特征进行融合时,则在CNN和RNN之间添加了全连接层,用来做VGG16输出的图像特征与RNN所需的隐藏层状态输入的映射。而在预测文本输出时,采用集束搜索的算法去生成语句通顺、语言表达形式丰富的文本。
本实施例使用了MSCOCO2014版的数据集,并将数据集划分为训练集、验证集和测试集,训练集、验证集和测试集分别含有80000张、5000张和3000张图像,如表1所示为各个数据集的图像数量:
数据集 | 训练集 | 验证集 | 测试集 |
MSCOCO-2014 | 80000 | 5000 | 3000 |
表1
本实例对比了封装Beam Search的图像标题生成模型与未封装Beam Search状态下的模型,实例图片从MSCOCO2014数据集的测试集中随机抽取图片,如图2、3所示,在未封装Beam Search的模型下,该图片生成的描述为“a man riding a wave on top of asurfboard”,较为准确地描述了图片中地内容,包括人物、动作场景等信息;而在封装BeamSearch的模型,该图片生成的描述为“a man on a surfboard riding a wave”,相比较于封装Beam Search的模型,该句的描述更加符合日常表达的形式,语义信息更加明确。为了比较这两种模型的性能,则本实例用了ROUGE、BLEU和METEOR自动评价指标来进行对比,如表2所示为评价指标对比:
BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | ROUGE-1 | ROUGE-L | METEOR | |
Raw Caption | 0.81 | 0.64 | 0.52 | 0.30 | 0.73 | 0.67 | 0.64 |
Beam Search | 0.89 | 0.67 | 0.45 | 0.28 | 0.90 | 0.75 | 0.87 |
表2
在本实例中,也将该方法与现有的图像描述生成模型进行了比较,如表3所示为不同模型性能对比:
表3
Beam Search在METEOR的评价标准下明显优于注意力机制和实体感知模式,因为Beam Search是根据生成标题进行语序优化,能够有效降低METEOR的惩罚因子,因此评分结果非常优秀。在其余的评分标准下,Beam Search均有不错的得分水平。
本发明还提供了一种融合集束搜索的图像描述生成系统,包括:
图像上传识别模块,用于获取待描述的图像并提取图像的特征;
图像特征表示模块,用于利用预训练的VGG16神经网络模型对图像进行零填充、卷积特征提取、池化后得到新的图像特征表示向量;
语义特征获取模块,用于将获取的词表利用word2vec模型编码成包含上下文语义信息的词向量;
图像内容描述模块,用于利用获取的图像特征表示和语义特征信息输入到长短期记忆网络模型中进行训练并预测结果,生成图像的描述文。
本发明还提供了一种融合集束搜索的图像描述生成介质,存储有所述融合集束搜索的图像描述生成方法,可执行融合集束搜索的图像描述生成方法。
本发明还提供了一种融合集束搜索的图像描述生成设备,包括存储器、处理器;所述存储器包括所述融合集束搜索的图像描述生成介质,处理器可以借助存储器中的融合集束搜索的图像描述生成介质,执行融合集束搜索的图像描述生成方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (8)
1.一种融合集束搜索的图像描述生成方法,其特征在于,包括如下步骤:
步骤1:获取图像描述生成所需要的图像标注数据集,并对图像标注数据集进行预处理,并将预处理后的图像标注数据集分为训练集和测试集;
步骤2:获取每个图像所标注的描述文本,根据获取的文本构建词汇表以及词表的词嵌入矩阵;
步骤3:创建编码器模块中的神经网络VGG16,通过神经网络VGG16对输入该编码器的图像进行处理和特征提取;
步骤4:创建长短期记忆网络的解码器模块,在编码器模块的卷积神经网络输入端和解码器模块的循环神经网络输入端之间添加一层全连接层;
步骤5:将所述步骤3中所提取的图像特征和所述步骤2中所获得的图像描述文本的词嵌入矩阵输入到长短期记忆网络中,将图像特征和所对应的图像描述文本在长短期记忆网络中进行训练;
步骤6:在长短期记忆网络的解码器模块中,从预设起始标志开始对每个语句进行预测生成单词,从预设起标志开始对每个语句进行预测生成单词,选取每个时间步长中概率最大的单词作为最佳候选单词集;
步骤7:利用beam search算法,在最佳候选单词集中选择最大概率分布的单词构成句子,作为描述文本,具体为:
在第一个时间步长,选取当前条件概率最大的k个词,将k个词作为候选输出序列,之后每个时间步长,基于上个步长的输出序列,挑选出所有序列中条件概率最大的k个,最后从k个候选中挑选出最优的,组合成为最终的图像描述文本。
2.如权利要求1所述的融合集束搜索的图像描述生成方法,其特征在于,所述步骤1具体方法如下:
从所获取的图像标注数据集中切分出一定数量的图像,每个图像对应5条自然语言描述语句,将图像和对应的自然语言描述语句构成训练集;再从剩下的图像标注数据集中划分出与训练集不重复的一定量数据作为测试集。
3.如权利要求1所述的融合集束搜索的图像描述生成方法,其特征在于,所述步骤2中构建词汇表以及词表的词嵌入矩阵的步骤如下:
步骤21:将图像标注数据集中所有的图像描述文本语料转化为一个细分粒度以单词为单位的词汇表;
步骤22:统计词汇表中的每个单词的词频,以及根据词汇表将每个单词根据词频数排序给定一个编码,即每个单词的索引编号;
步骤23:将处理后的词汇表输入到word2vec模型中进行训练,最终获得每个词的词嵌入矩阵。
4.如权利要求1所述的融合集束搜索的图像描述生成方法,其特征在于,所述步骤3中通过神经网络VGG16对输入该编码器的图像进行处理和特征提取的步骤如下:
步骤31:对输入的图像进行预处理,从每个像素中减去在训练集上计算的平均RGB值;
步骤32:将预处理后的图像输入到卷积层中,对图像进行零填充处理,在图像的周围用0进行相应的填充,使得原始图像扩大;
输出图像特征尺寸可以按照公式(1)-(4)来求得:
Output Size=W2×H2×D2 (1)
D2=K(4)
其中,K为卷积核的数量,W为卷积操作输入图像的尺寸,F为卷积核的尺寸,S为操作步长,P为零填充数量;
步骤33:对填充后的图像使用3*3大小的卷积核捕获图像左右、上下以及中心的特征,滤波器通过与上一层输出的图像进行点积运算,形成新的特征图像,完成特征提前。
5.如权利要求1所述的融合集束搜索的图像描述生成方法,其特征在于,所述步骤7中的通过如下公式逐步获取单词的条件概率:
P(y<2>,y<1>|x)=P(y<2>|y<1>,x)P(y<1>|x)
其中,y<2>为第二个单词的条件概率输出;y<1>为当前单词;x为上一个时间。
6.一种融合集束搜索的图像描述生成系统,其特征在于,包括:
图像上传识别模块,用于获取待描述的图像并提取图像的特征;
图像特征表示模块,用于利用预训练的VGG16神经网络模型对图像进行零填充、卷积特征提取、池化后得到新的图像特征表示向量;
语义特征获取模块,用于将获取的词表利用word2vec模型编码成包含上下文语义信息的词向量;
图像内容描述模块,用于利用获取的图像特征表示和语义特征信息输入到长短期记忆网络模型中进行训练并预测结果,生成图像的描述文。
7.一种融合集束搜索的图像描述生成介质,其特征在于,存储有所述融合集束搜索的图像描述生成方法。
8.一种融合集束搜索的图像描述生成设备,其特征在于,包括存储器、处理器;所述存储器包括所述融合集束搜索的图像描述生成介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111388863.7A CN114049501B (zh) | 2021-11-22 | 2021-11-22 | 融合集束搜索的图像描述生成方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111388863.7A CN114049501B (zh) | 2021-11-22 | 2021-11-22 | 融合集束搜索的图像描述生成方法、系统、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114049501A true CN114049501A (zh) | 2022-02-15 |
CN114049501B CN114049501B (zh) | 2024-06-21 |
Family
ID=80210385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111388863.7A Active CN114049501B (zh) | 2021-11-22 | 2021-11-22 | 融合集束搜索的图像描述生成方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049501B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758339A (zh) * | 2022-06-15 | 2022-07-15 | 深圳思谋信息科技有限公司 | 字符识别模型的获取方法、装置、计算机设备和存储介质 |
CN116071641A (zh) * | 2023-04-06 | 2023-05-05 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN110288665A (zh) * | 2019-05-13 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
CN112270344A (zh) * | 2020-10-19 | 2021-01-26 | 西安工程大学 | 一种基于cbam的图像描述生成模型方法 |
CN112784848A (zh) * | 2021-02-04 | 2021-05-11 | 东北大学 | 一种基于多种注意力机制和外部知识的图像描述生成方法 |
CN113569932A (zh) * | 2021-07-18 | 2021-10-29 | 湖北工业大学 | 一种基于文本层级结构的图像描述生成方法 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
-
2021
- 2021-11-22 CN CN202111388863.7A patent/CN114049501B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN110288665A (zh) * | 2019-05-13 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN112270344A (zh) * | 2020-10-19 | 2021-01-26 | 西安工程大学 | 一种基于cbam的图像描述生成模型方法 |
CN112784848A (zh) * | 2021-02-04 | 2021-05-11 | 东北大学 | 一种基于多种注意力机制和外部知识的图像描述生成方法 |
CN113569932A (zh) * | 2021-07-18 | 2021-10-29 | 湖北工业大学 | 一种基于文本层级结构的图像描述生成方法 |
Non-Patent Citations (7)
Title |
---|
宋敬海;韩斌;徐之;何文媛;: "嵌入式图像火灾检测系统在船舶机舱中的应用", 舰船科学技术, no. 05, 15 October 2008 (2008-10-15) * |
张颖;袁和金;: "基于3D卷积神经网络的人体行为识别方法", 软件导刊, no. 11, 15 November 2017 (2017-11-15) * |
李岩等: "基于短文本及情感分析的微博舆情分析", 计算机应用与软件, vol. 30, no. 12, 31 December 2013 (2013-12-31), pages 240 - 243 * |
汪琪;段湘煜;: "基于注意力卷积的神经机器翻译", 计算机科学, no. 11, 15 November 2018 (2018-11-15) * |
罗会兰;岳亮亮;: "跨层多模型特征融合与因果卷积解码的图像描述", 中国图象图形学报, no. 08, 12 August 2020 (2020-08-12) * |
韩斌等: "快速不变矩算法基于CUDA的并行实现", 计算机应用, vol. 30, no. 07, 31 July 2010 (2010-07-31), pages 1983 - 1986 * |
颉潭成;陈孟会;徐彦伟;李先锋;: "卷积神经网络在轴承故障识别的应用", 制造业自动化, no. 01, 25 January 2020 (2020-01-25) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758339A (zh) * | 2022-06-15 | 2022-07-15 | 深圳思谋信息科技有限公司 | 字符识别模型的获取方法、装置、计算机设备和存储介质 |
CN116071641A (zh) * | 2023-04-06 | 2023-05-05 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
CN116071641B (zh) * | 2023-04-06 | 2023-08-04 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114049501B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN112632997A (zh) | 基于BERT和Word2Vec向量融合的中文实体识别方法 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
CN114358007A (zh) | 多标签识别方法、装置、电子设备及存储介质 | |
CN111368531B (zh) | 翻译文本处理方法、装置、计算机设备和存储介质 | |
CN113705313A (zh) | 文本识别方法、装置、设备及介质 | |
CN114049501B (zh) | 融合集束搜索的图像描述生成方法、系统、介质及设备 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114723996A (zh) | 模型的训练方法、图像描述生成方法和装置、设备、介质 | |
US11645447B2 (en) | Encoding textual information for text analysis | |
CN117390497B (zh) | 基于大语言模型的类目预测方法、装置和设备 | |
CN112131883A (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN111144093A (zh) | 一种智能文本处理方法、装置、电子设备及存储介质 | |
CN111340006B (zh) | 一种手语识别方法及系统 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN116977887A (zh) | 视频时效分类模型训练方法和视频时效分类方法 | |
CN115858816A (zh) | 面向公共安全领域的智能体认知图谱的构建方法和系统 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN117688168A (zh) | 一种摘要生成的方法以及相关装置 | |
CN112287159B (zh) | 检索方法、电子设备及计算机可读介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN113011141A (zh) | 佛经注解模型训练方法、佛经注解生成方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20241008 Address after: 215000, 2nd Floor, Building 1, No. 3 Xingyuan Road, Nanfeng Town, Zhangjiagang City, Suzhou City, Jiangsu Province Patentee after: Suzhou Dingyi Intelligent Technology Co.,Ltd. Country or region after: China Address before: 212100 NO.666, Changhui Road, Dantu District, Zhenjiang City, Jiangsu Province Patentee before: JIANGSU University OF SCIENCE AND TECHNOLOGY Country or region before: China |