CN116071641A

CN116071641A - 一种水下图像中文描述生成方法、装置、设备及存储介质

Info

Publication number: CN116071641A
Application number: CN202310355353.2A
Authority: CN
Inventors: 李莉; 张玉强; 任鹏; 吴天乐; 郝亮; 张珅; 单亦先; 陈刚; 潘龙; 孙筱珺; 代娟
Original assignee: Qingdao Zhongshida Science And Technology Education Group Co ltd; Qingdao Zhongshida Technology Entrepreneurship Co ltd; China University of Petroleum East China
Current assignee: Qingdao Zhongshida Science And Technology Education Group Co ltd; Qingdao Zhongshida Technology Entrepreneurship Co ltd; China University of Petroleum East China
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-05-05
Anticipated expiration: 2043-04-06
Also published as: CN116071641B

Abstract

本申请公开了一种水下图像中文描述生成方法、装置、设备及存储介质，涉及计算机视觉和自然语言处理领域，包括：获取水下图像增强基准数据集中的待标注水下图像和对应中文语句；通过长短时记忆网络对基于全连接神经网络生成词嵌入后的中文语句进行编码得到文本特征；根据残差网络提取待标注水下图像的图像特征并与文本特征融合得到多模态特征；对长短时记忆网络模型进行训练，通过训练后模型对待标注水下图像进行预测并利用集束搜索优化，基于预设解码器分析多模态特征生成待标注水下图像的中文描述。通过长短时记忆网络与残差网络得到图像的多模态特征，并在分析特征后进行词语预测输出，利用集束搜索进行优化，改善水下图像中文描述生成的效果。

Description

一种水下图像中文描述生成方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉和自然语言处理领域，特别涉及一种水下图像中文描述生成方法、装置、设备及存储介质。

背景技术

图像字幕生成是利用人工智能将采集图像内容转换成具有自然语义表达的文字描述，它在专业图像的辅助理解、图像检索、智能机器问答、视力受限人群的辅助信息获取等领域都有重要的应用，针对水下监测图像开展图像描述研究，有助于计算机对水下图像中复杂目标、场景的理解和特定目标的专业描述。如果将水下图像转换成文字描述，对水下的特殊场景进行具体的文字描述，可以给工作人员提供更加专业、直接的交互体验。现有的图像字幕技术中，当前大多数数据集以图像英文字幕生成为主，在我国自主研制的水下探测设备中，系统希望能够提供中文的信息，方便工作人员直观地阅读和分析。考虑到汉语和英语在句法和语义上的区别，需要有针对性地开展中文图像字幕生成方法研究。因此，如何有效地生成水下图像的中文描述是本领域有待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种水下图像中文描述生成方法、装置、设备及存储介质，通过长短时记忆网络与残差网络得到图像的多模态特征，并在分析特征后进行词语预测输出和优化，改善了水下图像中文描述生成的效果。其具体方案如下：

第一方面，本申请提供了一种水下图像中文描述生成方法，包括：

获取水下图像增强基准数据集中的待标注水下图像和预设的与所述待标注水下图像对应的若干个中文语句；

通过长短时记忆网络对基于全连接神经网络生成词嵌入后的所述若干个中文语句进行编码，以得到所述待标注水下图像的文本特征；

根据预设残差网络提取所述待标注水下图像的图像特征，并融合所述图像特征与所述文本特征，以得到所述待标注水下图像对应的多模态特征；

对预设长短时记忆网络模型进行训练，通过训练后模型对所述待标注水下图像进行预测生成对应的中文词语序列，并利用集束搜索对所述中文词语序列进行优化，以基于预设解码器分析所述多模态特征生成所述待标注水下图像的中文描述。

可选的，所述获取水下图像增强基准数据集中的待标注水下图像，包括：

获取水下图像增强基准数据集中的初始图像，判断所述初始图像是否满足预设清晰度条件；

若不满足，根据预设图像预处理方法对所述初始图像进行预处理，以得到所述待标注水下图像。

可选的，所述获取水下图像增强基准数据集中的待标注水下图像和预设的与所述待标注水下图像对应的若干个中文语句，包括：

获取水下图像增强基准数据集中的待标注水下图像，并利用图像字幕标注标准基于所述待标注水下图像生成与所述待标注水下图像对应的若干个中文语句。

可选的，所述根据预设残差网络提取所述待标注水下图像的图像特征，包括：

将所述待标注水下图像输入预设残差网络；所述预设残差网络包括若干个卷积模块与若干个残差模块；

利用所述若干个卷积模块对所述待标注水下图像进行转化，以得到通道数为预设通道数的初始图像特征图；

通过所述若干个残差模块基于特征矩阵隔层相加运算方式对所述初始图像特征图进行运算，得到所述待标注水下图像的图像特征。

可选的，所述通过训练后模型对所述待标注水下图像进行预测生成对应的中文词语序列，包括：

将基于所述待标注水下图像的图像特征和文本特征生成的所述多模态特征输入至训练后模型中的长短时记忆网络，通过预设归一化指数函数分类器对所述待标注水下图像进行预测生成对应的中文词语序列。

可选的，所述利用集束搜索对所述中文词语序列进行优化，包括：

利用预设解码器基于集束宽度为预设值的集束搜索对所述预设归一化指数函数分类器输出的所述中文词语序列进行优化；所述中文词语序列为根据所述长短时记忆网络的隐层单元和预设归一化指数函数分类器输出的中文词语序列。

可选的，所述水下图像中文描述生成方法还包括：

利用预设分词工具包对所述待标注水下图像对应的若干个中文语句进行分词得到初始中文词语；

根据统一码对所述初始中文词语进行编码得到编码后中文词语，并基于所述编码后中文词语构建词库，以便基于所述词库以及所述预设解码器对所述多模态特征进行特征分析。

第二方面，本申请提供了一种水下图像中文描述生成装置，包括：

图像获取模块，用于获取水下图像增强基准数据集中的待标注水下图像和预设的与所述待标注水下图像对应的若干个中文语句；

语句编码模块，用于通过长短时记忆网络对基于全连接神经网络生成词嵌入后的所述若干个中文语句进行编码，以得到所述待标注水下图像的文本特征；

特征融合模块，用于根据预设残差网络提取所述待标注水下图像的图像特征，并融合所述图像特征与所述文本特征，以得到所述待标注水下图像对应的多模态特征；

词语预测模块，用于对预设长短时记忆网络模型进行训练，通过训练后模型对所述待标注水下图像进行预测生成对应的中文词语序列，并利用集束搜索对所述中文词语序列进行优化，以基于预设解码器分析所述多模态特征生成所述待标注水下图像的中文描述。

第三方面，本申请提供了一种电子设备，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述的水下图像中文描述生成方法。

第四方面，本申请提供了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的水下图像中文描述生成方法。

本申请中，获取待标注水下图像和所述待标注水下图像对应的若干个中文语句；通过长短时记忆网络与全连接生成词对所述若干个中文语句进行编码，以得到所述待标注水下图像的文本特征；根据预设残差网络提取所述待标注水下图像的图像特征，并融合所述图像特征与所述文本特征，以得到所述待标注水下图像对应的多模态特征；利用预设解码器分析所述多模态特征，利用所述长短时记忆网络的各级隐层单元预测输出的中文词语序列，利用集束搜索进行优化，以得到所述待标注水下图像的中文描述。通过长短时记忆网络与残差网络得到图像的多模态特征，提高了模型的适用性；使用残差网络提高了学习能力，然后通过长短时记忆网络进行输出词语序列进行预测，有利于网络模型的训练，可以避免网络复杂导致的计算困难，有效地生成了待标注水下图像的中文描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种水下图像中文描述生成方法流程图；

图2为本申请提供的一种水下图像中文描述生成系统框架图；

图3为本申请提供的一种具体的水下图像多模态特征获取方法流程图；

图4为本申请提供的一种残差网络第一级组成结构图；

图5为本申请提供的一种具体的水下图像的中文描述生成方法流程图；

图6为本申请提供的一种集束搜索过程示意图；

图7为本申请提供的一种长短时记忆网络单元结构图；

图8为本申请提供的一种长短时记忆网络生成句子流程示意图；

图9为本申请提供的一种训练过程中模型损失值变化图；

图10为本申请提供的一种水下图像中文描述生成装置结构示意图；

图11为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，大多数描述生成以图像英文字幕为主，考虑到汉语和英语在句法和语义上的区别，需要有针对性地开展中文图像描述生成方法研究。本申请通过LSTM（LongShort Term Memory，长短时记忆网络）与残差网络得到图像的多模态特征，并可以在分析特征后对中文词语进行预测，通过长短时记忆网络进行中文词语序列输出，利用集束搜索进行优化，有效地生成了待标注水下图像的中文描述。

参见图1所示，本发明实施例公开了一种水下图像中文描述生成方法，包括：

步骤S11、获取水下图像增强基准数据集中的待标注水下图像和预设的与所述待标注水下图像对应的若干个中文语句。

本实施例中，首先获取待标注水下图像，并基于所述待标注水下图像获取所述待标注水下图像对应的若干个中文语句。可以理解的是，水下图像描述生成如常规监督学习相同，需要训练、验证和测试的过程对模型进行不断优化，因此也需要相应的数据集进行训练。本实施例中，选择UIEB（Underwater Image Enhancement Benchmark，水下图像增强基准数据集）中的图像进行标注，得到所述待标注水下图像对应的若干个中文语句。基于水下图像增强基准数据集创建水下图像中文描述数据集时，按照图像描述的要求，选择UIEB中场景和目标丰富的水下图像进行中文描述标注，本实施例选择950幅图像，且每幅图像标注5个中文句子，并基于选择的图像划分训练和测试数据，构建完整的数据集，为该领域深度学习模型实现创建了研究基础。

需要指出的是，在水下图像增强基准数据集中，由于部分图像存在水下图像色偏、模糊等特点，因此需要首先获取水下图像增强基准数据集中的初始图像，并判断所述初始图像是否满足预设清晰度条件；若所述初始图像不满足预设清晰度条件，根据预设图像预处理方法对所述初始图像进行预处理提高所述初始图像的清晰度，当所述初始图像满足预设清晰度条件时，将其作为待标注水下图像，并基于所述待标注水下图像生成若干个中文语句。可以理解的是，所述预设清晰度条件包括但不限于图像分辨率等参数。

步骤S12、通过长短时记忆网络对基于全连接神经网络生成词嵌入后的所述若干个中文语句进行编码，以得到所述待标注水下图像的文本特征。

本实施例中，通过长短时记忆网络与全连接生成词嵌入后的文本对所述若干个中文语句进行编码得到所述待标注水下图像的文本特征，根据深度学习的模型的特点，选择长短时记忆网络作为语言模型生成待标注水下图像的文本特征，有利于网络模型的训练。

步骤S13、根据预设残差网络提取所述待标注水下图像的图像特征，并融合所述图像特征与所述文本特征，以得到所述待标注水下图像对应的多模态特征。

本实施例中，采用卷积神经网络（Convolutional Neural Networks，CNN）中的残差网络，并根据预设残差网络提取所述待标注水下图像的图像特征。将步骤S12得到的所述文本特征通过信息拼接和融合，与图像特征构成所述待标注水下图像对应的多模态特征。本实施例中，选择带残差模块的卷积神经网络作为视觉模型，加强网络模型的训练效果，并且在语句序列生成的模型中，输入层使用图像和文字的多模态融合的特征，使模型的在图像描述生成的应用中有更好的适用性。

步骤S14、对预设长短时记忆网络模型进行训练，通过训练后模型对所述待标注水下图像进行预测生成对应的中文词语序列，并利用集束搜索对所述中文词语序列进行优化，以基于预设解码器分析所述多模态特征生成所述待标注水下图像的中文描述。

本实施例中，利用预设解码器对所述多模态特征进行特征分析和解义得到初始中文描述，利用所述长短时记忆网络的隐层单元根据语言的前序后序关联对所述初始中文描述中的词语顺序预测输出，得到描述待标注水下图像的句子，也即所述待标注水下图像的中文描述。通过利用长短时记忆网络根据语言的前序后序关联对待调整中文词语进行预测，可以在句子中体现前后词语之间关联的关系，完成中文描述的生成。

如图2所示，本实施例中采用基于“编码器-解码器”结构，能够有效解决输出序列与输入序列不等长的问题。所述编码器指图像通过卷积神经网络提取区域特征，生成视觉的特征向量，作为视觉空间的编码，即待标注水下图像的图像特征。所述待标注水下图像对应的若干个中文语句通过LSTM和全连接生成词得到待标注水下图像的文本特征，与图像特征共同构成一组多模态特征。通过LSTM进行中文词语预测进而生成图像描述的句子。例如，获取一张图像与描述图像的五个句子，即#0，一个潜水员在海底游动；#1，潜水员的前方是一个珊瑚礁；#2，珊瑚礁中有很多小鱼在游动；#3，潜水员的下方有一些珊瑚礁；#4，一群金色的鱼在珊瑚礁中游动，根据上述图像与上述五个句子获取上述图像对应的多模态特征，并根据LSTM得到上述图像的图像描述，也即中文描述“海底有潜水员和鱼”。

本实施例中，获取待标注水下图像和所述待标注水下图像对应的若干个中文语句；通过长短时记忆网络与全连接生成词对所述若干个中文语句进行编码，以得到所述待标注水下图像的文本特征；根据预设残差网络提取所述待标注水下图像的图像特征，并融合所述图像特征与所述文本特征，以得到所述待标注水下图像对应的多模态特征；利用预设解码器分析所述多模态特征，利用所述长短时记忆网络的隐层单元预测中文词语序列，利用集束搜索进行优化，以得到所述待标注水下图像的中文描述。通过长短时记忆网络与残差网络得到图像的多模态特征，提高了模型的适用性；使用残差网络提高了学习能力，并可以在分析特征后对中文词语进行预测，然后通过长短时记忆网络进行语序调整，有利于网络模型的训练，有效地生成了待标注水下图像的中文描述。

基于上一实施例可知，本申请可以利用预设解码器对多模态特征进行处理得到待标注水下图像的中文描述，接下来，本实施例中将对多模态特征的生成过程进行详细地阐述。参见图3所示，本申请实施例公开了一种具体的水下图像中文描述生成方法，包括：

步骤S21、获取水下图像增强基准数据集中的待标注水下图像，并利用图像字幕标注标准基于所述待标注水下图像生成与所述待标注水下图像对应的若干个中文语句，以便对所述若干个中文语句进行编码得到所述待标注水下图像的文本特征。

本实施例中，由于现有的数据集中针对水下图像的描述较少，因此获取待标注水下图像后，利用图像字幕标注标准基于所述待标注水下图像生成与所述待标注水下图像对应的若干个中文语句，所述若干个中文语句可以描述的图像特征包括但不限于图像中的场景类型、目标的类别和数量、空间几何和逻辑位置关系，目标的动作行为、状态及趋势，目标的物理属性特征（如颜色、形状、材质）等特征，以便对所述若干个中文语句进行编码得到所述待标注水下图像的文本特征。具体的，按照通用的图像字幕标注的标准，将UIEB中的水下图像用五个中文句子进行描述，且词语使用规范、句式结构标准及语法结构清晰，针对一幅图像，一般要求描述同一个主体，可采用不同的句式和修饰成分组合组织句子，例如一幅画面中包含鲨鱼、珊瑚礁、小鱼的水下图像，按照通用的图像字幕标注的标准，可以用五个中文句子进行描述：#0，一条鲨鱼在珊瑚礁之间穿梭；#1，一条鲨鱼在珊瑚礁和小鱼之间游动；#2，海底的一条鲨鱼转身游向红色的珊瑚；#3，鲨鱼和小鱼在五彩斑斓的珊瑚之间穿梭；#4，一条鲨鱼在彩色的珊瑚和海草之间游来游去。利用上述五个中文句子描述待标注水下图像。通过预先利用图像字幕标注标准基于所述待标注水下图像生成与所述待标注水下图像对应的若干个中文语句，有利于提高图像中文描述生成的效果。

步骤S22、将所述待标注水下图像输入预设残差网络；所述预设残差网络包括若干个卷积模块与若干个残差模块。

本实施例中，将所述待标注水下图像输入预设残差网络，选用残差模块进行模型训练有利于提高训练效果，如图4所示，本实施例中采用50层的残差网络（ResNet，即Residual Network，残差网络），即采用ResNet-50网络，包含若干个卷积模块与若干个残差模块，有四级网络串联，如第一级有一个卷积模块和三个残差模块，需要指出的是，图中实线处指一个残差模块对应的输入模板大小和输出模板大小相同，可以直接进行残差运算，虚线处表示输入输出模板大小不相同，需进行转换为相同大小才能作残差运算。

步骤S23、利用所述若干个卷积模块对所述待标注水下图像进行转化，以得到通道数为预设通道数的初始图像特征图。

本实施例中，将所述待标注水下图像输入预设残差网络后，利用所述若干个卷积模块对待标注水下图像进行转化得到通道数为预设通道数的初始图像特征图。需要指出的是，ResNet网络中有若干1*1的卷积核运算，它能够将输入的M通道的图像转化为N通道的特征图，使特征残差运算时能够保证通道数相同，并且可以通过卷积核为1*1的卷积层可以增加网络的非线性特性，增加网络表达的信息量。

步骤S24、通过所述若干个残差模块基于特征矩阵隔层相加运算方式对所述初始图像特征图进行运算，得到所述待标注水下图像的图像特征。

本实施例中，将通道数相同的特征图基于特征矩阵隔层相加运算方式进行运算得到所述待标注水下图像的图像特征。需要指出的是，由于残差网络结构引入特征矩阵隔层相加的运算方式，在训练的反向传播时多了一条通路，将可能导致梯度消失的各级连乘运算变成了连加运算，避免了梯度消失问题，提高了网络的学习能力。

步骤S25、融合所述图像特征与所述文本特征，以得到所述待标注水下图像对应的多模态特征。

关于上述步骤S25更加具体的处理过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本实施例中，获取待标注水下图像，并利用图像描述标注标准基于所述待标注水下图像生成与所述待标注水下图像对应的若干个中文语句，以便对所述若干个中文语句进行编码得到所述待标注水下图像的文本特征。将所述待标注水下图像输入预设残差网络；所述预设残差网络包括若干个卷积模块与若干个残差模块。利用所述若干个卷积模块对所述待标注水下图像进行转化，以得到通道数为预设通道数的初始图像特征图。通过所述若干个残差模块基于特征矩阵隔层相加运算方式对所述初始图像特征图进行运算，得到所述待标注水下图像的图像特征。融合所述图像特征与所述文本特征，以得到所述待标注水下图像对应的多模态特征。通过预先利用图像字幕标注标准生成与待标注水下图像对应的若干个中文语句，有利于提高图像中文描述生成的效果，并且通过残差网络结构引入特征矩阵隔层相加的运算方式，避免了梯度消失问题，提高了网络的学习能力。

基于前述实施例可知，本申请可以利用预设解码器对多模态特征进行处理得到待标注水下图像的中文描述，接下来，本实施例中将对中文描述的生成过程进行详细地阐述。参见图5所示，本申请实施例公开了一种具体的水下图像中文描述生成方法，包括：

步骤S31、获取待标注水下图像，并利用预设分词工具包对所述待标注水下图像对应的若干个中文语句进行分词得到初始中文词语。

本实施例中，获取待标注水下图像以及对应的若干个中文语句，在包含标记了中文语句的待标注水下图像的训练集合中，采用Python（一种计算机编程语言）中的中文分词第三方库的jieba（结巴）分词工具包对每幅待标注水下图像对应的句子进行分词。

步骤S32、根据统一码对所述初始中文词语进行编码得到编码后中文词语，并基于所述编码后中文词语构建词库。

本实施例中，对初始中文词语进行Unicode（统一码）编码，并制作对应的json（JavaScript Object Notation，JS对象简谱）格式文件。UIEB数据集中待标注水下图像对应的中文语句的Unicode编码格式如表一所示。

表一图像中文语句的编码示例表

。

例如，表一中，将“一个潜水员在海底游动”进行编码得到“\u4e00\u4e2a\u6f5c\u6c34\u5458\u5728\u6d77\u5e95\u6e38\u52a8”。

对相应的词语按照Unicode编码从小到大排序，构建词库，作为图像描述输出句子中词序列选词的备选项。词库中手动添加了句子开始和结束的标志和，并用代表未知的词。中文语句会生成一组以开头，结束，中间有实际意义的词的序列，因此当中文语句中出现时，表明这一个中文语句出现错误。表二中列出了词库中部分词和带序号的词库和对应的Unicode编码。

表二水下图像中文描述的词库中的部分数据表

。

例如表二中对应的编码为\u003c\u0065\u006e\u0064\u003e；“一群”对应的编码为\u4e00\u7fa4。通过构建词库，并手动添加了句子开始、结束和未知的词的标志，提高了图像中文描述生成的效果，可以减少错误中文描述的生成。

步骤S33、根据所述词库利用预设解码器基于集束宽度为预设值的集束搜索对预设归一化指数函数分类器分析出的所述中文词语序列进行优化；所述中文词语序列为根据所述长短时记忆网络的隐层单元和预设归一化指数函数分类器进行预测生成的中文词语序列。

本实施例中，解码过程中，根据所述词库利用预设解码器基于集束宽度为预设值的集束搜索对所述待标注水下图像对应的多模态特征进行特征分析，使用集束搜索的模式。通过集束搜索算法每一个时间步不只保留得分最高的第一个候选结果，而是保留预设集束宽度个候选结果，下一个时间步使用这个候选序列参与生成，可以提高获得中文词语的效果。如图6所示，假设集束宽度为3，预测结果为“许多人像”。

本实施例中，通过LSTM对待调整中文词语的前后词语和句法关系进行表示和分析。LSTM网络中由若干个记忆单元组成，包括输入门、遗忘门和输出门，中间的记忆单元也称为网络的隐层，单元内部的运算关系如图7所示，当前时刻的输入向量 x _t与上一时刻隐层单元的输出向量 h _t-1在一起，经过各个门在隐层单元中的变换，运算关系如下公式所示：

；

。

其中 σ表示sigmoid函数 σ(x)，定义为：，⊙表示向量相乘，例如运算x⊙y的定义表示向量x与向量y对应元素相乘，结果为一个向量，相应的，如图7中⊙也用于表示输入的两个向量相乘，并且表示输入的两个向量进行相加，用于表示的运算过程。

其中表示t时刻隐层单元的输入变量，表示t时刻遗忘门的输出，表示t时刻输入门的输出，表示t时刻细胞状态的输出，表示t时刻输出门的输出，表示t时刻遗忘门和输入门组合状态的输出，作为t时刻隐层细胞状态输出，表示t时刻隐层单元的输出，tanh(hyperbolic tangent function)为双曲正切函数运算。和表示t-1时刻隐层单元的输出，也会参与t时刻记忆单元的运算，表达了前序时刻的信息对后序的影响，在句子中体现前后词语之间关联的关系。、表示遗忘门运算的权重矩阵，表示遗忘门运算的偏置向量，、表示输入门运算的权重矩阵，表示输入门运算的偏置向量，、表示细胞状态计算的权重矩阵，表示细胞状态计算的偏置向量，、表示输出门运算的权重矩阵，表示输出门运算的偏置向量。网络中的各组权参数W、U和 b能够通过训练可以得到最优的组合。

本实施例中，通过长短时记忆网络以及预设归一化指数函数分类器（Softmax分类器）对所述初始中文描述进行预测调整。在预设归一化指数函数分类器中训练时数据通过前向传播输出预测值，计算损失函数的值，通过反向传播更新各个参数，使损失值达到极小点，也即预测值和真实值最接近。Softmax分类器能够扩大损失函数分数的差距，即使得分函数的分数结果差别都不大，通过Softmax分类器，就能够使得分数的差距进一步拉大，使得分类效果更加明显，提高描述生成的效果。需要指出的是，本实施例中损失函数选择交叉熵损失函数，表示的是预测值与标记数据概率分布的差异程度，交叉熵损失函数搭配Softmax使用，使其多个分类的预测值概率和为1，再通过交叉熵来计算损失，所述交叉熵损失函数如下所示：

。

其中，表示标记的第i个理论输出的词向量的概率分布，表示预测的第i个词向量的概率分布，式中对数函数底数默认为2，为交叉熵，为进行交叉熵计算的向量，且该向量为变量、数量为 n。本实施例中通过长短时记忆网络和Softmax分类器生成待标注水下图像的中文描述，例如图8所示，每一个LSTM上面有一个分类器，表示隐层从t时刻开始依次输出，最后一个分类器是一个词语序列组成的句子；并且多模态特征和隐层生成的中文词语进行词嵌入后输入LSTM，每个时刻，通过LSTM和分类器输出，且LSTM隐层的信息会传递到下一个时刻，然后将t时刻分类器的输出，作为t+1时刻LSTM的输入。例如将待标注水下图像的多模态特征和通过全连接生成词嵌入后的文本编码输入LSTM，然后经过Softmax分类器处理得到“许多人像雕塑”。

本实施例中，获取待标注水下图像，并利用预设分词工具包对所述待标注水下图像对应的若干个中文语句进行分词得到初始中文词语；根据统一码对所述初始中文词语进行编码得到编码后中文词语，并基于所述编码后中文词语构建词库；根据所述词库利用预设解码器对所述待标注水下图像对应的多模态特征进行特征分析，输入所述长短时记忆网络，并通过隐层单元和预设归一化指数函数分类器预测输出中文词语序列，利用集束搜索进行优化，以得到所述待标注水下图像的中文描述。通过构建词库，并手动添加了句子开始、结束和未知的词的标志，可以减少错误中文描述的生成，并且通过集束搜索算法和Softmax分类器能够使得分类效果更加明显，提高描述生成的效果。

参见图9所示，本申请实施例公开了一种图像中文描述生成模型训练验证方法，包括：

本实施例中，由于现有标注的水下数据集样本有限，因而考虑使用迁移学习的方法，在样本丰富的数据集上进行预训练，再将预训练模型迁移到水下数据集进行训练和测试。全球人工智能挑战赛AI Challenge的数据集中有30万张图片标注，是目前规模最大、场景和语言使用最丰富的图片中文描述数据集，使用了超过100种复杂生活场景的含有人物的图片，其场景复杂度、人物动作复杂度、身体遮挡情况都高于现有的其他数据集；而且，此数据集的语言描述标注更符合中文语言使用习惯。因此，本实施例利用AI Challenge预训练得到图像提取特征的网络模型，并获得性能较好的文本生成模型，然后在标记了中文描述的UIEB数据集中选择70%的样本进行训练，20%的样本验证微调参数，获得适用水下场景图像描述的模型，并在剩余10%的样本集中进行新图像的文本生成测试。

在数据预处理阶段，首先将所有图像大小统一调整为224x224，再输入预训练的ResNet-50提取得到2048维特征向量。输入的描述文本数据是40维Unicode编码，经过词嵌入层，文本被映射为128维的词向量特征。将两种不同模态的特征拼接在一起，作为文本生成网络的输入信号。

模型训练过程中设置小批量数据规模参数为32，学习率初始化为0.00005，容忍度参数为50，即当训练50轮而模型性能不提升时，学习率自动调整。在训练中可知，设置更大的批量训练输入样本则允许更大程度上的并行计算，能够加快模型的训练速度，但往往对测试数据的泛化效果更差，即训练误差和测试误差之间差距更大。由于本实验中使用的数据集规模相对较小，对训练速度要求不高，因此设置批量数据规模为较小值32。学习率和批量数据规模密切相关，较小的批量数据规模在学习率较低时表现最好。

经过多次训练和优化，共完成63轮次训练，模型损失值变化如图9所示，图中实线代表训练集的损失值变化，虚线代表验证集的损失值变化。由图9可知，随着学习轮次的增加，训练集损失值逐渐减小且趋于稳定，验证集的损失值上下浮动，整体呈下降趋势，证明训练是有效的，其中第32轮训练的验证集损失值最小。选用的损失函数交叉熵损失数值越小，预测生成的输出和实际标注的结果之间的差值越小，则模型性能越好。因此，选择第32轮的训练模型作为最优模型进行分析测试。水下图像中文描述生成结果的如表三所示，表中k值表示集束搜索中的集束大小。以图像描述语言表达的角度来分析，三种k值条件下，模型生成的中文描述基本符合图像内容，语句通顺、语法正确。对比不同值的生成结果，当图像内容简单时，如表三中第一个示例，k=1时生成的描述更生动、更符合人类语言习惯；而当图像内容较为复杂时，如表三中第二个示例，k=1时生成的描述比k=3和k=5时更具信息性和描述性。

表三集束搜索生成中文描述示例表

。

本实施例中，水下图像的中文描述生成参考机器翻译任务，常用BLEU（BilingualEvaluation Understudy，双语评价替补）、METEOR（Metric for Evaluation ofTranslation with Explicit Ordered，显式有序翻译的评价尺度）等的数值评价预测结果的准确率和召回率。BLEU将模型生成的句子与参考的标记语句进行比较，计算相同n-gram匹配项（n-gram，大词汇连续语音识别中常用的一种语言模型）的数量占生成句子的比重。根据窗口大小可以分成常用的BLEU-1、BLEU-2、BLEU-3、BLEU-4四种，BLEU参数值越大，则生成描述与标注句子的相似度越高，但BLEU参数不考虑句子中各组词的语序。METEOR参数是基于单精度的加权调和平均数和单字召回率的度量方法，在评估两个句子的相似程度时，考虑了单词的不同形态，同时增加了同义词，扩展了BLEU的评估标准。METEOR参数值越大，则生成描述与标注句子匹配的准确率和召回率越高。

模型的各项参数指标得分如表四所示，基本能达到主流图像描述的指标参数值，以集束搜索k=1时与标注内容匹配较好，在以不同的匹配窗口考查时，BLEU-1和METEOR参数体现的准确率和召回率都能达到图像描述应用的平均水平，证明了所使用的水下图像描述生成的模型的可靠性。

表四集束搜索评价指标对照表

。

本实施例采用CNN和LSTM组合架构，实现了对标注的水下图像数据集生成描述的训练和测试，可以生成描述性的语句，实验结果表明，本申请采用的深度学习模型可以针对水下图像这类特定目标，实现中文的描述自动生成的全流程，句子完整语法正确，定量参数评价合理，对水下图像这个特定研究对象的中文描述自动生成研究可以作为一个基线，为后续该领域的研究奠定基础，并且通过对生成语句描述的合理规范性和相关评价参数的分析，表明实验结果基本能满足场景和目标描述的要求。

参见图10所示，本申请实施例还公开了一种水下图像中文描述生成装置，包括：

图像获取模块11，用于获取水下图像增强基准数据集中的待标注水下图像和预设的与所述待标注水下图像对应的若干个中文语句；

语句编码模块12，用于通过长短时记忆网络对基于全连接神经网络生成词嵌入后的所述若干个中文语句进行编码，以得到所述待标注水下图像的文本特征；

特征融合模块13，用于根据预设残差网络提取所述待标注水下图像的图像特征，并融合所述图像特征与所述文本特征，以得到所述待标注水下图像对应的多模态特征；

词语预测模块14，用于对预设长短时记忆网络模型进行训练，通过训练后模型对所述待标注水下图像进行预测生成对应的中文词语序列，并利用集束搜索对所述中文词语序列进行优化，以基于预设解码器分析所述多模态特征生成所述待标注水下图像的中文描述。

本实施例中，获取待标注水下图像和所述待标注水下图像对应的若干个中文语句；通过长短时记忆网络与全连接生成词对所述若干个中文语句进行编码，以得到所述待标注水下图像的文本特征；根据预设残差网络提取所述待标注水下图像的图像特征，并融合所述图像特征与所述文本特征，以得到所述待标注水下图像对应的多模态特征；利用预设解码器分析所述多模态特征进行中文词语的预测输出，利用所述长短时记忆网络的隐层单元输出中文词语序列，利用集束搜索进行优化，以得到所述待标注水下图像的中文描述。通过长短时记忆网络与残差网络得到图像的多模态特征，提高了模型的适用性；使用残差网络提高了学习能力，并可以在分析特征后对中文词语进行预测，然后通过长短时记忆网络进行语序调整，有利于网络模型的训练，有效地生成了待标注水下图像的中文描述。

在一些具体实施例中，所述图像获取模块11，具体包括：

条件判断单元，用于获取水下图像增强基准数据集中的初始图像，判断所述初始图像是否满足预设清晰度条件；

图像处理单元，用于若不满足，根据预设图像预处理方法对所述初始图像进行预处理，以得到所述待标注水下图像。

在一些具体实施例中，所述图像获取模块11，具体包括：

语句生成单元，用于获取水下图像增强基准数据集中的待标注水下图像，并利用图像字幕标注标准基于所述待标注水下图像生成与所述待标注水下图像对应的若干个中文语句。

在一些具体实施例中，所述特征融合模块13，具体包括：

图像输入单元，用于将所述待标注水下图像输入预设残差网络；所述预设残差网络包括若干个卷积模块与若干个残差模块；

图像转换单元，用于利用所述若干个卷积模块对所述待标注水下图像进行转化，以得到通道数为预设通道数的初始图像特征图；

特征图运算单元，用于通过所述若干个残差模块基于特征矩阵隔层相加运算方式对所述初始图像特征图进行运算，得到所述待标注水下图像的图像特征。

在一些具体实施例中，所述词语预测模块14，具体包括：

词语预测单元，用于将基于所述待标注水下图像的图像特征和文本特征生成的所述多模态特征输入至训练后模型中的长短时记忆网络，通过预设归一化指数函数分类器对所述待标注水下图像进行预测生成对应的中文词语序列。

在一些具体实施例中，所述词语预测模块14，具体包括：

词语优化单元，用于利用预设解码器基于集束宽度为预设值的集束搜索对所述预设归一化指数函数分类器输出的所述中文词语序列进行优化；所述中文词语序列为根据所述长短时记忆网络的隐层单元和预设归一化指数函数分类器输出中文词语序列。

在一些具体实施例中，所述水下图像中文描述生成装置还包括：

语句分词单元，用于利用预设分词工具包对所述待标注水下图像对应的若干个中文语句进行分词得到初始中文词语；

词语编码单元，用于根据统一码对所述初始中文词语进行编码得到编码后中文词语，并基于所述编码后中文词语构建词库，以便基于所述词库以及所述预设解码器对所述多模态特征进行特征分析。

进一步的，本申请实施例还公开了一种电子设备，图11是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图11为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的图像中文描述生成方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的图像中文描述生成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的图像中文描述生成方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种水下图像中文描述生成方法，其特征在于，包括：

2.根据权利要求1所述的水下图像中文描述生成方法，其特征在于，所述获取水下图像增强基准数据集中的待标注水下图像，包括：

3.根据权利要求1所述的水下图像中文描述生成方法，其特征在于，所述获取水下图像增强基准数据集中的待标注水下图像和预设的与所述待标注水下图像对应的若干个中文语句，包括：

4.根据权利要求1所述的水下图像中文描述生成方法，其特征在于，所述根据预设残差网络提取所述待标注水下图像的图像特征，包括：

5.根据权利要求1所述的水下图像中文描述生成方法，其特征在于，所述通过训练后模型对所述待标注水下图像进行预测生成对应的中文词语序列，包括：

6.根据权利要求5所述的水下图像中文描述生成方法，其特征在于，所述利用集束搜索对所述中文词语序列进行优化，包括：

7.根据权利要求1至6任一项所述的水下图像中文描述生成方法，其特征在于，还包括：

8.一种水下图像中文描述生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的水下图像中文描述生成方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的水下图像中文描述生成方法。