CN114358203A

CN114358203A - 图像描述语句生成模块的训练方法及装置、电子设备

Info

Publication number: CN114358203A
Application number: CN202210028541.XA
Authority: CN
Inventors: 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-04-15
Anticipated expiration: 2042-01-11
Also published as: WO2023134082A1

Abstract

一种图像描述语句生成模块的训练方法及装置、电子设备，该方法包括：获取第一样本图像及其第一描述语句，并将第一样本图像输入预先训练的预测模块中进行标签识别，得到至少一个第一特征标签及其第一概率向量。获取第一特征标签的标签向量，并根据第一特征标签的标签向量和第一概率向量，生成第一特征标签的特征信息。最后，根据特征信息和第一描述语句对生成式模型进行训练，得到语句生成模块，既引入对特征标签的重要性分析，又基于特征信息的可导性实现误差量的梯度反传，达到更优训练效果，提升图像描述的准确性。

Description

图像描述语句生成模块的训练方法及装置、电子设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种图像描述语句生成模块的训练方法及装置、电子设备。

背景技术

图像描述(Image Caption)，即根据图像内容生成用于描述图像的自然语言语句，可广泛应用于看图说话等教育场景中。目前的图像描述方式大多是通过imagenet等图像特征提取模型从图像中提取图像特征，再将图像特征输入到循环神经网络中进行解码，得到目标描述语句序列。然而，实践中发现，图像特征中通常会包含噪声数据，比如与图像主题不相干的信息、半张人脸或杂乱背景等，这些噪声数据增加了现有方式中特征解码的不确定性，降低了图像描述的准确度。

发明内容

本申请提供一种图像描述语句生成模块的训练方法及装置、电子设备，其主要目的在于提升图像描述语句生成的准确性。

为实现上述目的，本申请实施例提供了一种图像描述语句生成模块的训练方法，所述方法包括：

获取第一样本图像和所述第一样本图像的第一描述语句；

将所述第一样本图像输入预先训练的预测模块中进行标签识别，得到至少一个第一特征标签以及所述第一特征标签对应的第一概率向量；

获取所述第一特征标签的标签向量，并根据所述第一特征标签的标签向量和所述第一概率向量，生成所述第一特征标签的特征信息；

根据所述特征信息和所述第一描述语句对生成式模型进行训练，得到语句生成模块。

为实现上述目的，本申请实施例还提出了一种图像描述语句生成模块的训练装置，所述装置包括：

获取模块，用于获取第一样本图像和所述第一样本图像的第一描述语句；

识别模块，用于将所述第一样本图像输入预先训练的预测模块中进行标签识别，得到至少一个第一特征标签以及所述第一特征标签对应的第一概率向量；

所述获取模块，还用于获取所述第一特征标签的标签向量；

生成模块，用于根据所述第一特征标签的标签向量和所述第一概率向量，生成所述第一特征标签的特征信息；

训练模块，用于根据所述特征信息和所述第一描述语句对生成式模型进行训练，得到语句生成模块。

为实现上述目的，本申请实施例还提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器上存储有程序，所述程序被所述处理器执行时实现前述方法的步骤。

为实现上述目的，本申请提供了一种存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述方法的步骤。

本申请提出的图像描述语句生成模块的训练方法及装置、电子设备，在模块训练阶段，可以将第一样本图像输入训练好的预测模块中进行标签识别，得到至少一个第一特征标签以及第一特征标签的第一概率向量，实现对第一样本图像内容的标签标注及其概率分析。之后，再根据各个第一特征标签的标签向量及第一概率向量，生成第一特征标签对应的特征信息以用于语句生成模块的训练，故能够将特征标签的标签特征及其在第一样本图像中的出现概率相融合，既逼近各个特征标签的概率分布，使得语句生成模块在进行语义描述学习的同时引入对特征标签的重要性分析，以便于针对性地滤去图像中的非重要信息，又能够基于标签特征信息的可导性对误差量进行梯度反传来更新模块参数，达到更优的训练效果，因此有利于提升图像描述语句生成的准确性。

附图说明

图1是本申请实施例所应用的一种电子设备的结构框图；

图2是本申请实施例一提供的图像描述语句生成模块的训练方法的流程图；

图3是本申请实施例二提供的图像描述语句生成模块的训练方法的流程图；

图4是本申请实施例所应用的一种图像描述语句生成模块的训练装置的结构框图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。其中，人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术，而人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请提供一种图像描述语句生成模块的训练方法，应用于一种电子设备。参照图1所示，图1是本申请实施例所应用的一种电子设备的结构框图。

在本实施例中，电子设备可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子设备包括：存储器11、处理器12、网络接口13及数据总线14。

存储器11包括至少一种类型的可读存储介质，至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子设备的内部存储单元，例如该电子设备的硬盘。在另一些实施例中，可读存储介质也可以是电子设备的外部存储器，例如电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，D)卡，闪存卡(Flash Card)等。

在本实施例中，存储器11的可读存储介质通常用于存储安装于电子设备的图像描述语句生成程序10、多种样本集及预先训练好的模型等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行图像描述语句生成程序等。

网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子设备与其他电子设备之间建立通信连接。

数据总线14用于实现这些组件之间的连接通信。

可选的，该电子设备还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选的，该电子设备还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

可选的，该电子设备还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该电子设备的显示器的面积可以与触摸传感器的面积相同，也可以不同。可选地，将显示器与触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

下面对本申请实施例公开的一种图像描述语句生成模块的训练方法进行具体说明。

实施例一

如图2所示，图2是本申请实施例一提供的图像描述语句生成模块的训练方法的流程图。基于图1所示的装置实施例，处理器12执行存储器11中存储的图像描述语句生成程序10时实现如下步骤：

步骤S200：获取第一样本图像和第一样本图像的第一描述语句。

在本申请实施例中，第一样本图像的数量可以是多个，具体的，第一样本图像可以是利用搜索引擎或者爬虫软件从互联网获取的图像数据，或者是从社交软件的聊天记录中调取的图像数据，再或者是在用户界面的功能模块(比如图片上传栏)中上传的图像数据，不做限定。相应的，第一描述语句可以是人为描述第一样本图像的自然语言语句，或者是利用图像识别技术对第一样本图像进行文本内容识别后得到的文本信息，再或是采用图片搜索技术对图像进行搜索(比如以图搜图)后得到的相关描述信息，亦不做限定。比如，针对一张包含大象、天空和草地的第一样本图像，第一描述语句为“天空晴朗，大象在草地上行走”。

一些可选的实施方式中，步骤S200具体可以是：获取原始图像，对原始图像进行数据增强处理，得到处理后的原始图像，数据增强处理至少包括图像编辑处理和随机高斯模糊处理，图像编辑处理包括以下至少一种：旋转、缩放、移位和裁剪。之后，取原始图像和处理后的原始图像作为第一样本图像，故通过多种增量处理的组合方式扩充了样本图像的数量，有利于实现更优的数据增强效果。

步骤S210：将第一样本图像输入预先训练的预测模块中进行标签识别，得到至少一个第一特征标签以及第一特征标签对应的第一概率向量。

在本申请实施例中，预测模块可以采用神经网络模型(比如卷积神经网络模型和循环神经网络模型等)、贝叶斯模型或注意力模型等，对此不做限定。第一特征标签对应的第一概率向量为从第一样本图像中识别出第一特征标签的概率的向量表示。

具体的，一种可选的实施方式中，预测模块的训练步骤可以包括：获取多个样本数据，样本数据包括第二样本图像以及第二样本图像对应的样本标签，第二样本图像包括多个目标分割区域以及为目标分割区域标注的示例标签。将多个样本数据分为第一比例(比如60％)的训练集和第二比例(比如40％)的验证集，基于此，可以利用训练集训练卷积神经网络，得到预测模块，并利用验证集验证预测模块的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于预设准确率，则增加样本数据的数量并重新执行预测模块的训练步骤。

举例来说，第二样本图像是一张海滩图片，则为第二样本图像标记的样本标签可以是“海滩”，而对海滩图片进行图像分割，可以得到海水区域和沙滩区域，故第二样本图像还包括两个示例标签，即海水和沙滩。可见，结合多示例学习方法，将样本图像分割为不同内容区域，能够训练预测模块分别对样本图像中多个内容区域的具体图像内容进行标签识别，并进一步确定整个样本图像的标签分类，有利于提升预测模块的分类性能及标签识别精确度。

可选的，预测模块可以采用VGG模型，则预测模块可以包括M个卷积层、N个全连接层和softmax分类层，M和N均为正整数。将图像输入预测模块中，依次通过M个卷积层、N个全连接层和softmax分类层对图像进行特征提取及分类，得到softmax分类层输出的多个概率向量。更具体的，预测模块可以采用VGG16模型，VGG16模型包括13个卷积层、3个全连接层和softmax分类层。

进一步的，一些实现方式中，可以取中英文词典、同义词词典和其他相关主题词典等预料数据作为文本扩充语料数据，再利用文本扩充语料数据和多个样本数据进行预测模块的训练，实现标签文本的名词扩充。另一些实现方式中，还可以对上述第二样本图像进行数据增强处理及标签重新标注，得到多个处理后的样本数据，再将多个样本数据以及处理后的样本数据分为第一比例的训练集和第二比例的验证集，从而增加训练预测模块的样本数量，提高预测模块的标签识别可靠性。其中，数据增强处理至少包括图像编辑处理和随机高斯模糊处理，而图像编辑处理包括以下至少一种：旋转、缩放、移位和裁剪，故通过多种增量处理的组合方式实现了更优的数据增强效果。

另一种可选的实施方式中，预测模块的训练步骤也可以包括：获取多个样本数据，样本数据包括一定数量的正类样本图像和负类样本图像。其中，正类样本图像被标记为有场景标签，负类样本图像被标记为无场景标签，场景标签包括正类样本图像对应的至少一个样本标签，而正类样本图像包括多个第一分割区域，且多个第一分割区域中包括场景标签指示的分割区域，比如场景标签“草地”指示的第一分割区域为正类样本图像中的草地区域。负类样本图像包括多个第二分割区域，且多个第二分割区域中不包括上述场景标签指示的分割区域。基于此，取正类样本图像加入训练集，取负类样本图像加入验证集，从而利用训练集和验证集分别实现对预测模块的训练及验证。可见，这种实施方式下，无需对样本图像中的分割区域进行一一标注，而是由预测模块在训练过程中自行总结场景标签所指示分割区域的特征规律，因此更加节省样本图像数据标注的成本及时间，提高了图像描述数据的编辑效率。

步骤S220：获取第一特征标签的标签向量，并根据第一特征标签的标签向量和第一概率向量，生成第一特征标签的特征信息。

在本申请实施例中，具体的，可以利用预先确定的编码器对第一特征标签进行编码，得到第一特征标签的标签向量。编码器可以是word2vec、Fast Text或Glove模型等，对此不做限定。步骤S220中，对第一特征标签生成的特征信息具备连续可导性，并用于表示第一特征标签的重要程度。

一种实现方式中，可以直接将第一特征标签的标签向量与第一概率向量相乘，得到第一特征标签的特征信息。其中，第一概率向量包括从第一样本图像中识别出每种第一特征标签的概率值，而所有第一特征标签对应的概率值之和为1。示例性的，针对3个第一特征标签，相应的第一概率向量W为[0.1，0.2，0.7]，相应的标签向量为[a，b，c]，则这3个第一特征标签的特征信息＝0.1a+0.2b+0.7c，可见，此时第一特征标签的特征信息仍为可导的特征向量，既能够表示不同特征标签的概率分布，又便于计算及模型训练。

另一种实现方式中，也可以采用基于gumbel-softmax的采样方式，为第一概率向量增加随机权重值，得到处理后的第一概率向量，再将处理后的第一概率向量和第一特征标签的标签向量相乘，得到第一特征标签的特征信息，从而通过增加恒定噪声对离散分布进行参数采样，更加逼近真实概率分布。其中，随机权重值u～指定权重分布P，指定权重分布P可以是U(0，1)，即随机权重值满足在(0，1)上均匀分布，对此不做限定。比如，仍以上述3个第一特征标签为例，取随机权重值u＝[0.5，0.6，0.05]，则处理后的第一概率向量W+u＝[0.1+0.5，0.2+0.6，0.7+0.05]＝[0.6，0.8，0.75]，基于此，上述3个特征标签的特征信息＝0.6a+0.8b+0.75c。

步骤S230：根据特征信息和第一描述语句对生成式模型进行训练，得到语句生成模块。

在本申请实施例中，语句生成模块可以是一个单独的生成模块，也可以包括至少两个生成模块，比如用于标签排序的第一生成模块以及用于语句生成的第二生成模块，不做具体限定。

具体的，步骤S230中，可以取各个第一样本图像的特征信息为输入数据，取第一样本图像的第一描述语句为相应输入数据的标注结果，将输入数据输入生成式模型，再通过交叉熵损失函数，对生成式模型的输出与标注结果计算损失值，并通过损失值的反向传播进行生成式模型的参数调整，最后得到语句生成模块。其中，语句生成模块具体可包括BERT模型、隐马尔可夫模型、朴素贝叶斯模型或高斯混合模型等，对此不做限定。

可见，采用步骤S200至S230，可以预先训练好预测模块以及语句生成模块。可选的，实际应用中，还可以通过对预测模块和语句生成模块的应用实现下述步骤S240和S250。

步骤S240：获取目标图像，将目标图像输入预测模块中进行标签识别，得到目标图像的标签信息。

在本申请实施例中，将目标图像输入预测模块中进行标签识别，得到目标图像的标签信息，可以是：将目标图像输入预测模块中进行标签识别，得到输出矩阵，输出矩阵包括预测模块输出的至少一个第二特征标签以及第二特征标签对应的第二概率向量。基于此，可以根据输出矩阵和各个第二特征标签的标签向量，确定目标图像的标签信息；或者，也可以根据第二特征标签对应的第二概率向量，直接确定k(k为正整数)个目标标签以作为目标图像的标签信息，对此不做限定。

步骤S250：将标签信息输入语句生成模块，得到目标图像的目标描述语句。

可见，实施上述方法实施例，能够将特征标签的标签特征及其在第一样本图像中的出现概率相融合，既逼近各个特征标签的概率分布，使得语句生成模块在进行语义描述学习的同时引入对特征标签的重要性分析，以便于针对性地滤去图像中的非重要信息，又能够基于标签特征信息的可导性对误差量进行梯度反传来更新模块参数，达到更优的训练效果，因此有利于提升图像描述语句生成的准确性。

实施例二

如图3所示，图3是本申请实施例二提供的图像描述语句生成模块的训练方法的流程图。基于图1所示的电子设备实施例，处理器12执行存储器11中存储的图像描述语句生成程序10时实现如下步骤：

步骤S300：获取第一样本图像和第一样本图像的第一描述语句。

步骤S310：将第一样本图像输入预先训练的预测模块中进行标签识别，得到至少一个第一特征标签以及第一特征标签对应的第一概率向量。

步骤S320：获取第一特征标签的标签向量，并根据第一特征标签的标签向量和第一概率向量，生成第一特征标签的特征信息。

步骤S330：根据特征信息和第一描述语句对生成式模型进行训练，得到语句生成模块。

步骤S340：获取目标图像，将目标图像输入预测模块，得到输出矩阵。

在本申请实施例中，输出矩阵包括从图标图像中识别出的至少一个第二特征标签以及第二特征标签对应的第二概率向量。

步骤S350：根据目标函数和至少一个第二概率向量，计算第二概率向量的求和值，并取求和值最大的k个第二概率向量为目标概率向量。

其中，第二特征标签对应的第二概率向量是从第二样本图像中识别出该第二特征标签的概率的向量表示，k为正整数，且k可以是人为设定及调整。则，目标函数满足：

其中，i和j均为正整数，Y_ij为输出矩阵中第i个第二概率向量的第j项向量数据，f是由人为指定并调整的求和函数(比如范数计算)，Si为第i个第二概率向量的求和值。

示例性的，针对一张主题为大象在草地散步的目标图像，可以通过预测模块从目标图像中识别出包含大象、小鸡、草地、天空、沙滩和太阳的特征标签及其概率向量。将上述特征标签的概率向量分别代入目标函数中，得到大象对应的求和值S1，小鸡对应的求和值S2，草地对应的求和值S3，天空对应的求和值S4，沙滩对应的求和值S5以及太阳对应的求和值S6。假设S1＞S3＞S4＞S6＞S2＞S5，且k取值为4，则取大象、草地、天空和太阳分别对应的第二概率向量为目标概率向量。

可见，采用目标函数计算各个第二概率向量的求和值，能够进一步分析相应目标标签的重要性，可以理解，求和值越小，表示重要性越低，求和值越大，则表示重要性越高。因此，根据求和值的大小排序筛选出前k个第二概率向量，能够滤去非重要标签，减少图像噪声数据的干扰。

步骤S360：根据目标概率向量对应的第二特征标签，确定k个目标标签。

具体的，可以利用预先确定的解码器对目标概率向量进行解码，得到第二特征标签。可以理解，解码器与上述编码器配合使用，故解码器的类型也可以是word2vec、FastText或Glove模型等，对此亦不做限定。

可见，在实际的模块使用阶段，可以直接根据预测模块的输出筛选出最优化的k个目标标签，并将k个目标标签输入目标生成模块后得到图像描述信息，实现了对预测模块输出结果的灵活处理，进而分别满足模型使用及训练阶段的不同数据需求。

步骤S370：将k个目标标签输入第一生成模块，得到目标标签对应的语句位置信息，语句位置信息用于表示目标标签在语句中的位置。

步骤S380：根据k个目标标签和目标标签对应的语句位置信息，生成标签序列。

示例性的，假设将4个目标标签“大象”、“草地”、“天空”和“太阳”输入第一生成模块，可以得到这4个目标标签的语句位置信息为位置序列[3，4，1，2]，其中，位置序列中包括的各个位置信息分别表示相应目标标签的排序值，即“大象”的位置信息为3，“草地”的位置信息为4，“天空”的位置信息为1，而“太阳”的位置信息为2。基于此，可以生成有序的标签序列[天空，太阳，大象，草地]。

步骤S390：将标签序列输入第二生成模块，得到目标图像的目标描述语句。

仍以上述标签序列[天空，太阳，大象，草地]为例，将标签序列[天空，太阳，大象，草地]输入第二生成模块后，可以得到目标描述语句：天空晴朗，大象在草地上行走。也就是说，目标描述语句可以包括图像标签以及图像描述两层信息，图像标签是基于多示例学习的预测模型所输出的名词类标签，比如天空、大象和草地，这样更容易实现图像分类。而图像描述是自然语句，例如天空晴朗，大象在草地上行走，这样更便于实现图像搜索。

在本申请实施例中，可选的，第一生成模块和第二生成模块均可以包括BERT模型，从而结合BERT模型的自注意力机制，减少输入标签之间的词距，提高了信息传递的有效性，还能够实现统一输入以及并行计算，提升了模块计算效率。可以理解，第一生成模块和第二生成模块可以基于不同的参数与训练策略进行训练。

一些实现方式中，第一生成模块具体可以包括第一BERT模型、第一全连接层以及第一分类层。实际应用中，将无序的k个目标标签输入第一BERT模型，得到标签语义向量，再将标签语义向量依次输入第一全连接层和第一分类层中进行标签排序，得到各个目标标签的语句位置信息。

类似的，第二生成模块具体可以包括第二BERT模型、第二全连接层以及第二分类层。将有序的标签序列输入第二生成模块后，第二生成模块可以基于标签序列中各个目标标签的上下文信息及语义特征预测出合适的目标描述语句。可以理解，目标描述语句可以包括标签序列中不存在的标签，也可以忽略标签序列中的部分标签，从而保证目标描述语句的流畅及合理性。

进一步的，一些实现方式中，第一BERT模型和第二BERT模型均可以与采用掩码语言模型对双向的Transformers进行预训练，以生成深层的双向语言表征。预训练之后，在第一生成模块的后续训练过程中，可以通过调整第一全连接层的参数进行第一生成模块的训练，因此无需对第一BERT模型进行特定的结构修改。而在第二生成模块的后续训练过程中，可以通过同时调整第二BERT模型和第二全连接层的参数实现第二生成模块的训练。

可见，采用步骤S370至S390，通过两级生成模块依次实现目标标签的排序以及基于有序的标签序列生成最终的描述语句，使得预测的目标描述语句更加流畅。

可以理解的是，本实施例中步骤S300至S390的具体实现方式还可以参照上述实施例一中对步骤S200至S250的描述，在此不再赘述。

可见，实施本方法实施例，能够将特征标签的标签特征及其在第一样本图像中的出现概率相融合，既逼近各个特征标签的概率分布，使得语句生成模块在进行语义描述学习的同时引入对特征标签的重要性分析，以便于针对性地滤去图像中的非重要信息，又能够基于标签特征信息的可导性对误差量进行梯度反传来更新模块参数，达到更优的训练效果，因此有利于提升图像描述语句生成的准确性。此外，还能够通过语句生成模块中的两级生成模块依次实现目标标签的排序以及基于有序的标签序列生成最终的描述语句，使得预测的目标描述语句更加流畅。

本申请实施例还提供一种图像描述语句生成模块的训练装置。请参阅图4，图4是本申请实施例所应用的一种图像描述语句生成模块的训练装置的结构框图。如图4所示，该图像描述语句生成模块的训练装置400包括：

获取模块410，用于获取第一样本图像和第一样本图像的第一描述语句。

识别模块420，用于将第一样本图像输入预先训练的预测模块中进行标签识别，得到至少一个第一特征标签以及第一特征标签对应的第一概率向量。

获取模块410，还用于获取第一特征标签的标签向量。

生成模块430，用于根据第一特征标签的标签向量和第一概率向量，生成第一特征标签的特征信息。

训练模块440，用于根据特征信息和第一描述语句对生成式模型进行训练，得到语句生成模块。

需要说明的是，本实施例的具体实现过程可参见上述方法实施例的具体实现过程，亦不再赘述。

本申请实施例还提供了一种电子设备，该电子设备包括存储器和处理器，存储器上存储有程序，程序被处理器执行时实现上述图像描述语句生成模块的训练方法。

本申请实施例还提供了一种存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述图像描述语句生成模块的训练方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本申请的优选实施例，并非因此局限本申请的权利范围。本领域技术人员不脱离本申请的范围和实质内所作的任何修改、等同替换和改进，均应在本申请的权利范围之内。

Claims

1.一种图像描述语句生成模块的训练方法，其特征在于，所述方法包括：

获取第一样本图像和所述第一样本图像的第一描述语句；

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征信息和所述第一描述语句对生成式模型进行训练，得到语句生成模块之后，所述方法还包括：

获取目标图像，并将所述目标图像输入所述预测模块中进行标签识别，得到所述目标图像的标签信息；

将所述标签信息输入所述语句生成模块，得到所述目标图像的目标描述语句。

3.根据权利要求2所述的方法，其特征在于，所述语句生成模块包括第一生成模块和第二生成模块，所述标签信息包括至少一个目标标签；所述将所述标签信息输入所述语句生成模块，得到所述目标图像的目标描述语句，包括：

将所述至少一个目标标签输入所述第一生成模块，得到所述目标标签对应的语句位置信息，所述语句位置信息用于表示所述目标标签在语句中的位置；

根据至少一个所述目标标签和所述目标标签对应的语句位置信息，生成标签序列；

将所述标签序列输入所述第二生成模块，得到所述目标图像的目标描述语句。

4.根据权利要求2所述的方法，其特征在于，所述将所述目标图像输入所述预测模块中进行标签识别，得到所述目标图像的标签信息，包括：

将所述目标图像输入所述预测模块，得到输出矩阵，所述输出矩阵包括至少一个第二特征标签以及所述第二特征标签对应的第二概率向量；

根据目标函数和至少一个所述第二概率向量，计算所述第二概率向量的求和值，并取求和值最大的k个第二概率向量为目标概率向量，k为正整数；

根据所述目标概率向量对应的第二特征标签，确定k个目标标签；

其中，所述目标函数满足：

其中，i和j均为正整数，Y_ij为所述输出矩阵中第i个第二概率向量的第j项向量数据，f为求和函数，Si为第i个第二概率向量的求和值。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述预测模块的训练步骤包括：

获取多个样本数据，所述样本数据包括第二样本图像以及所述第二样本图像对应的样本标签，所述第二样本图像包括多个目标分割区域以及为所述目标分割区域标注的示例标签；

将所述多个样本数据分为第一比例的训练集和第二比例的验证集；

利用所述训练集训练卷积神经网络，得到预测模块，并利用所述验证集验证所述预测模块的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于所述预设准确率，则增加样本数据的数量并重新执行所述预测模块的训练步骤。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述第一特征标签的标签向量和所述第一概率向量，生成所述第一特征标签的特征信息，包括：

将所述第一特征标签的标签向量与所述第一概率向量相乘，得到所述第一特征标签的特征信息。

7.根据权利要求1至4任一项所述的方法，其特征在于，所述获取第一样本图像，包括：

获取原始图像；

对所述原始图像进行数据增强处理，得到处理后的原始图像，所述数据增强处理至少包括图像编辑处理和随机高斯模糊处理，所述图像编辑处理包括以下至少一种：旋转、缩放、移位和裁剪；

取所述原始图像和所述处理后的原始图像作为第一样本图像。

8.一种图像描述语句生成模块的训练装置，其特征在于，所述装置包括：

所述获取模块，还用于获取所述第一特征标签的标签向量；

9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至7任一项所述的图像描述语句生成模块的训练方法的步骤。

10.一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的图像描述语句生成模块的训练方法的步骤。