CN115205635B

CN115205635B - 图文语义对齐模型的弱监督自训练方法及装置

Info

Publication number: CN115205635B
Application number: CN202211107294.9A
Authority: CN
Inventors: 陈畅新; 陈第
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-12-02
Anticipated expiration: 2042-09-13
Also published as: CN115205635A

Abstract

本发明公开了图文语义对齐模型的弱监督自训练方法及装置，包括：将图文数据输入图文语义对齐模型，以使图文语义对齐模型对图文数据进行分析得到分析结果，图文数据包括原始图像中的前景目标和弱标注文本中的关键词，弱标注文本用于描述原始图像；当分析结果表示图文数据中包含无法预测相应匹配对象的未知前景目标和未知关键词时，根据由未知前景目标和未知关键词确定出的样本数据集，对图文语义对齐模型进行训练。可见，实施本发明能够根据图文语义对齐模型无法进行图文语义对齐的前景目标和关键词来对模型进行训练，降低了样本标注的工作量，且实现了图文语义对齐模型的弱监督自训练，提高了图文语义对齐模型进行图文语义对齐的准确性和灵活性。

Description

图文语义对齐模型的弱监督自训练方法及装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种图文语义对齐模型的弱监督自训练方法及装置。

背景技术

以往的图文语义对齐模型通常采用监督学习的方式进行训练，这就意味着如果需要图文语义对齐模型识别某个对象，必须根据这个对象的具体信息预先训练图文语义对齐模型。因此，采用监督学习的方式训练模型要求所有训练样本都带有用于表示样本类别的文本标签，导致样本标注的工作量较大，且训练得到的图文语义对齐模型无法预测未训练过的文本标签，从而降低了图文语义对齐模型进行图文语义对齐的准确性。

发明内容

本发明所要解决的技术问题在于，提供一种图文语义对齐模型的弱监督自训练方法及装置，能够降低样本标注的工作量，并使得图文语义对齐模型能够预测未通过监督学习训练过的文本标签，提高了图文语义对齐模型进行图文语义对齐的准确性和灵活性。

为了解决上述技术问题，本发明第一方面公开了一种图文语义对齐模型的弱监督自训练方法，所述方法包括：

将预先确定出的图文数据输入图文语义对齐模型中，以使所述图文语义对齐模型对所述图文数据进行分析，得到所述图文数据的分析结果，其中，所述图文数据包括从原始图像中检测到的至少一个前景目标以及从所述原始图像对应的弱标注文本中提取到的至少一个关键词，所述弱标注文本用于描述所述原始图像的图像信息，所述图文语义对齐模型用于预测文本标签对应的图像、图像对应的文本标签、图像和文本标签之间的匹配度中的一个或多个；

当所述分析结果表示所述图文数据中包含所述图文语义对齐模型无法预测相应匹配对象的至少一个未知前景目标以及所述图文语义对齐模型无法预测相应匹配对象的至少一个未知关键词时，根据由所有所述未知前景目标以及所有所述未知关键词确定出的样本数据集，对所述图文语义对齐模型进行训练，以使所述图文语义对齐模型可对所述样本数据集中任意样本数据的匹配对象进行预测，其中，所述前景目标的匹配对象包括所述前景目标对应的文本标签，所述关键词的匹配对象包括所述关键词对应的图像。

作为一种可选的实施方式，在本发明第一方面中，所述方法还包括：

将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对，每个所述样本图文对包括其中一个所述未知前景目标以及其中一个所述未知关键词；

将所有所述样本图文对确定为由所有所述未知前景目标以及所有所述未知关键词确定出的样本数据集。

作为一种可选的实施方式，在本发明第一方面中，在所述根据由所有所述未知前景目标以及所有所述未知关键词确定出的样本数据集，对所述图文语义对齐模型进行训练，以使所述图文语义对齐模型可对所述样本数据集中任意样本数据的匹配对象进行预测之前，所述方法还包括：

对于每个所述未知关键词，将该未知关键词添加至所述图文语义对齐模型对应的缓存池中，所述缓存池用于缓存所述图文语义对齐模型待训练的一个或多个待训练样本数据，所述待训练样本数据包括待训练的样本文本标签；

以及，所述方法还包括：

对于所述缓存池中任意所述待训练样本数据，在根据该待训练样本数据对应的图文对对所述图文语义对齐模型进行训练之后，判断该待训练样本数据是否满足所述图文语义对齐模型的训练完成条件，当判断结果为是时，将该待训练样本数据从所述缓存池中移除，其中，每个所述待训练样本数据对应的图文对包括该待训练样本数据以及该待训练样本数据当前配对的对象，所述样本文本标签当前配对的对象包括所述样本文本标签当前配对的图像。

作为一种可选的实施方式，在本发明第一方面中，在所述将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对之前，所述方法还包括：

对于每个所述未知前景目标，根据所述缓存池所缓存的历史样本数据，将该未知前景目标与所有所述未知关键词进行初始配对处理，得到初始配对结果；

当所述初始配对结果中存在配对成功的至少一个样本图文对时，将所有所述样本图文对从所有所述未知前景目标以及所有所述未知关键词中移除，并触发执行所述的将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对的操作；

当所述初始配对结果中不存在配对成功的至少一个样本图文对时，触发执行所述的将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对的操作。

作为一种可选的实施方式，在本发明第一方面中，对于每个所述未知前景目标，所述根据所述缓存池所缓存的历史样本数据，将该未知前景目标与所有所述未知关键词进行初始配对处理，得到初始配对结果，包括：

判断所述缓存池所缓存的历史样本数据中是否存在某一样本文本标签当前配对的图像与该未知前景目标相匹配，得到第一判断结果；

当所述第一判断结果为是时，判断所有所述未知关键词中是否存在与所述某一样本文本标签相匹配的未知关键词，得到第二判断结果；

当所述第二判断结果为是时，将与所述某一样本文本标签相匹配的未知关键词与该未知前景目标进行配对，得到配对成功的样本图文对，作为初始配对结果；

当所述第二判断结果为否时，判断所述历史样本数据中是否存在另一样本文本标签与其中一个所述未知关键词相匹配，得到第三判断结果；

当所述第三判断结果为是时，将与所述另一样本文本标签相匹配的未知关键词与该未知前景目标进行配对，得到配对成功的样本图文对，作为初始配对结果。

作为一种可选的实施方式，在本发明第一方面中，当所有所述未知前景目标的第一数量小于所有所述未知关键词的第二数量时，所述将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对，包括：

根据预先确定出的每个所述未知关键词对应的权重值，将所有所述未知关键词进行排序，得到对应的权重值由高到低排列的关键词序列；

将所有所述未知前景目标以及从所述关键词序列中提取到的第一数量个高权重关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对，其中，所述高权重关键词包括所述关键词序列中对应的排列序号小于等于目标排列序号的未知关键词，所述目标排列序号为所述第一数量对应的排列序号。

作为一种可选的实施方式，在本发明第一方面中，对于所述缓存池中任意所述待训练样本数据，所述判断该待训练样本数据是否满足所述图文语义对齐模型的训练完成条件，包括：

判断所述图文语义对齐模型能否执行该待训练样本数据对应的预测操作，得到第四判断结果，所述预测操作包括所述图文语义对齐模型预测该待训练样本数据的匹配对象的操作和/或所述图文语义对齐模型根据该待训练样本数据的匹配对象反向预测该待训练样本数据的操作；

当所述第四判断结果为是时，判断该待训练样本数据对应的预测结果的置信度是否大于等于预设置信度阈值，得到第五判断结果，所述预测结果的置信度包括所述图文语义对齐模型预测到该待训练样本数据的匹配对象的置信度和/或所述图文语义对齐模型根据该待训练样本数据的匹配对象反向预测到该待训练样本数据的置信度；

当所述第五判断结果为是时，确定该待训练样本数据满足所述图文语义对齐模型的训练完成条件。

作为一种可选的实施方式，在本发明第一方面中，所述图文语义对齐模型对所述图文数据进行分析，得到所述图文数据的分析结果，包括：

由所述图文语义对齐模型对每个所述前景目标的匹配对象进行预测，得到每个所述前景目标对应的预测结果，其中，所述预测结果包括用于表示预测成功的第一类预测结果或用于表示预测失败的第二类预测结果；

由所述图文语义对齐模型根据所有所述前景目标中已知前景目标的数量，确定所有所述关键词中待预测相应匹配对象的目标关键词，并对每个所述目标关键词的匹配对象进行预测，得到每个所述目标关键词对应的预测结果，其中，所述已知前景目标包括对应的预测结果为所述第一类预测结果的前景目标；

由所述图文语义对齐模型根据每个所述目标关键词对应的预测结果，确定所述图文数据的分析结果，其中，当所有所述前景目标中包括对应的预测结果为所述第二类预测结果的未知前景目标时，所述分析结果至少包括所有所述未知前景目标，当所有所述关键词中存在对应的预测结果为所述第二类预测结果的未知关键词时，所述分析结果至少包括所有所述未知关键词；

其中，所述图文语义对齐模型根据所有所述前景目标中已知前景目标的数量，确定所有所述关键词中待预测相应匹配对象的目标关键词，包括：

当所有所述前景目标中已知前景目标的数量大于等于1时，由所述图文语义对齐模型根据所有所述已知前景目标的匹配对象，将所有所述已知前景目标与所有所述关键词进行配对，得到已知信息配对结果；当所述已知信息配对结果表示所有所述关键词中存在除配对成功的已知关键词之外的剩余关键词时，将所有所述剩余关键词确定为待预测相应匹配对象的目标关键词；

当所述已知前景目标的数量等于0时，由所述图文语义对齐模型将所有所述关键词确定为待预测相应匹配对象的目标关键词。

从所述原始图像对应的弱标注文本中提取对应的权重值满足预设权重条件的至少一个词汇，作为待输入图文语义对齐模型的关键词；

其中，所述从所述原始图像对应的弱标注文本中提取对应的权重值满足预设权重条件的至少一个词汇，作为待输入图文语义对齐模型的关键词，包括：

对所述原始图像对应的弱标注文本进行分词操作，得到所述弱标注文本中的所有词汇以及每个所述词汇的词汇信息，每个所述词汇的词汇信息至少包括该词汇的词性；

根据每个所述词汇的词汇信息，确定每个所述词汇对应的权重值；

在所有所述词汇中确定对应的权重值大于等于预设权重阈值的至少一个词汇，作为待输入图文语义对齐模型的关键词。

本发明第二方面公开了一种图文语义对齐模型的弱监督自训练装置，所述装置包括：

输入模块，用于将预先确定出的图文数据输入图文语义对齐模型中，以使所述图文语义对齐模型对所述图文数据进行分析，得到所述图文数据的分析结果，其中，所述图文数据包括从原始图像中检测到的至少一个前景目标以及从所述原始图像对应的弱标注文本中提取到的至少一个关键词，所述弱标注文本用于描述所述原始图像的图像信息，所述图文语义对齐模型用于预测文本标签对应的图像、图像对应的文本标签、图像和文本标签之间的匹配度中的一个或多个；

训练模块，用于当所述分析结果表示所述图文数据中包含所述图文语义对齐模型无法预测相应匹配对象的至少一个未知前景目标以及所述图文语义对齐模型无法预测相应匹配对象的至少一个未知关键词时，根据由所有所述未知前景目标以及所有所述未知关键词确定出的样本数据集，对所述图文语义对齐模型进行训练，以使所述图文语义对齐模型可对所述样本数据集中任意样本数据的匹配对象进行预测，其中，所述前景目标的匹配对象包括所述前景目标对应的文本标签，所述关键词的匹配对象包括所述关键词对应的图像。

作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：

配对模块，用于将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对，每个所述样本图文对包括其中一个所述未知前景目标以及其中一个所述未知关键词；

确定模块，用于将所有所述样本图文对确定为由所有所述未知前景目标以及所有所述未知关键词确定出的样本数据集。

缓存池管理模块，用于在所述训练模块根据由所有所述未知前景目标以及所有所述未知关键词确定出的样本数据集，对所述图文语义对齐模型进行训练，以使所述图文语义对齐模型可对所述样本数据集中任意样本数据的匹配对象进行预测之前，对于每个所述未知关键词，将该未知关键词添加至所述图文语义对齐模型对应的缓存池中，所述缓存池用于缓存所述图文语义对齐模型待训练的一个或多个待训练样本数据，所述待训练样本数据包括待训练的样本文本标签；

判断模块，用于对于所述缓存池中任意所述待训练样本数据，在所述训练模块根据该待训练样本数据对应的图文对对所述图文语义对齐模型进行训练之后，判断该待训练样本数据是否满足所述图文语义对齐模型的训练完成条件，其中，每个所述待训练样本数据对应的图文对包括该待训练样本数据以及该待训练样本数据当前配对的对象，所述样本文本标签当前配对的对象包括所述样本文本标签当前配对的图像；

所述缓存池管理模块，还用于对于所述缓存池中任意所述待训练样本数据，当判断出该待训练样本数据满足所述训练完成条件时，将该待训练样本数据从所述缓存池中移除。

作为一种可选的实施方式，在本发明第二方面中，所述配对模块，还用于在将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对之前，对于每个所述未知前景目标，根据所述缓存池所缓存的历史样本数据，将该未知前景目标与所有所述未知关键词进行初始配对处理，得到初始配对结果，当所述初始配对结果中不存在配对成功的至少一个样本图文对时，触发执行所述的将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对的操作；

以及，所述装置还包括：

移除模块，用于当所述初始配对结果中存在配对成功的至少一个样本图文对时，将所有所述样本图文对从所有所述未知前景目标以及所有所述未知关键词中移除，并触发所述配对模块执行所述的所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对的操作。

作为一种可选的实施方式，在本发明第二方面中，对于每个所述未知前景目标，所述配对模块根据所述缓存池所缓存的历史样本数据，将该未知前景目标与所有所述未知关键词进行初始配对处理，得到初始配对结果的具体方式包括：

作为一种可选的实施方式，在本发明第二方面中，当所有所述未知前景目标的第一数量小于所有所述未知关键词的第二数量时，所述配对模块将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对的具体方式包括：

作为一种可选的实施方式，在本发明第二方面中，对于所述缓存池中任意所述待训练样本数据，所述判断模块判断该待训练样本数据是否满足所述图文语义对齐模型的训练完成条件的具体方式包括：

作为一种可选的实施方式，在本发明第二方面中，所述图文语义对齐模型对所述图文数据进行分析，得到所述图文数据的分析结果的具体方式包括：

对每个所述前景目标的匹配对象进行预测，得到每个所述前景目标对应的预测结果，其中，所述预测结果包括用于表示预测成功的第一类预测结果或用于表示预测失败的第二类预测结果；

根据所有所述前景目标中已知前景目标的数量，确定所有所述关键词中待预测相应匹配对象的目标关键词，并对每个所述目标关键词的匹配对象进行预测，得到每个所述目标关键词对应的预测结果，其中，所述已知前景目标包括对应的预测结果为所述第一类预测结果的前景目标；

根据每个所述目标关键词对应的预测结果，确定所述图文数据的分析结果，其中，当所有所述前景目标中包括对应的预测结果为所述第二类预测结果的未知前景目标时，所述分析结果至少包括所有所述未知前景目标，当所有所述关键词中存在对应的预测结果为所述第二类预测结果的未知关键词时，所述分析结果至少包括所有所述未知关键词；

其中，所述图文语义对齐模型根据所有所述前景目标中已知前景目标的数量，确定所有所述关键词中待预测相应匹配对象的目标关键词的具体方式包括：

当所有所述前景目标中已知前景目标的数量大于等于1时，根据所有所述已知前景目标的匹配对象，将所有所述已知前景目标与所有所述关键词进行配对，得到已知信息配对结果；当所述已知信息配对结果表示所有所述关键词中存在除配对成功的已知关键词之外的剩余关键词时，将所有所述剩余关键词确定为待预测相应匹配对象的目标关键词；

当所述已知前景目标的数量等于0时，将所有所述关键词确定为待预测相应匹配对象的目标关键词。

提取模块，用于从所述原始图像对应的弱标注文本中提取对应的权重值满足预设权重条件的至少一个词汇，作为待输入图文语义对齐模型的关键词；

其中，所述提取模块从所述原始图像对应的弱标注文本中提取对应的权重值满足预设权重条件的至少一个词汇，作为待输入图文语义对齐模型的关键词的具体方式包括：

本发明第三方面公开了另一种图文语义对齐模型的弱监督自训练装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的图文语义对齐模型的弱监督自训练方法。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的图文语义对齐模型的弱监督自训练方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，将预先确定出的图文数据输入图文语义对齐模型中，以使图文语义对齐模型对图文数据进行分析，得到图文数据的分析结果，其中，图文数据包括从原始图像中检测到的至少一个前景目标以及从原始图像对应的弱标注文本中提取到的至少一个关键词，弱标注文本用于描述原始图像的图像信息，图文语义对齐模型用于预测文本标签对应的图像、图像对应的文本标签、图像和文本标签之间的匹配度中的一个或多个；当分析结果表示图文数据中包含图文语义对齐模型无法预测相应匹配对象的至少一个未知前景目标以及图文语义对齐模型无法预测相应匹配对象的至少一个未知关键词时，根据由所有未知前景目标以及所有未知关键词确定出的样本数据集，对图文语义对齐模型进行训练，以使图文语义对齐模型可对样本数据集中任意样本数据的匹配对象进行预测，其中，前景目标的匹配对象包括前景目标对应的文本标签，关键词的匹配对象包括关键词对应的图像。可见，实施本发明能够根据图文数据中图文语义对齐模型无法进行图文语义对齐的未知前景目标和未知关键词组成的样本数据集来对图文语义对齐模型进行训练，从而降低了样本标注的工作量，且实现了图文语义对齐模型的弱监督自训练，使得图文语义对齐模型能够预测未通过监督学习训练过的文本标签，提高了图文语义对齐模型进行图文语义对齐的准确性和灵活性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种图文语义对齐模型的弱监督自训练方法的流程示意图；

图2是本发明实施例公开的另一种图文语义对齐模型的弱监督自训练方法的流程示意图；

图3是本发明实施例公开的一种图文语义对齐模型的弱监督自训练装置的结构示意图；

图4是本发明实施例公开的另一种图文语义对齐模型的弱监督自训练装置的结构示意图；

图5是本发明实施例公开的又一种图文语义对齐模型的弱监督自训练装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种图文语义对齐模型的弱监督自训练方法及装置，能够根据图文数据中图文语义对齐模型无法进行图文语义对齐的未知前景目标和未知关键词组成的样本数据集来对图文语义对齐模型进行训练，从而降低了样本标注的工作量，且实现了图文语义对齐模型的弱监督自训练，使得图文语义对齐模型能够预测未通过监督学习训练过的文本标签，提高了图文语义对齐模型进行图文语义对齐的准确性和灵活性。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种图文语义对齐模型的弱监督自训练方法的流程示意图。其中，图1所描述的图文语义对齐模型的弱监督自训练方法可以应用于包括但不限于图文语义对齐模型、图像识别模型等涉及图像和文本匹配的任意模型的训练过程中，本发明实施例不做限定。如图1所示，该图文语义对齐模型的弱监督自训练方法可以包括以下操作：

101、将预先确定出的图文数据输入图文语义对齐模型中，以使图文语义对齐模型对图文数据进行分析，得到图文数据的分析结果。

本发明实施例中，可选的，图文数据可以包括从原始图像中检测到的至少一个前景目标以及从原始图像对应的弱标注文本中提取到的至少一个关键词，弱标注文本用于描述原始图像的图像信息。进一步可选的，从原始图像中检测前景目标的操作可以由预先构建的检测模型完成，从弱标注文本中提前关键词的操作可以由预先构建的关键词提取模型完成，这样能够提高检测前景目标和提取关键词的准确性。

可选的，图文语义对齐模型可以用于预测文本标签对应的图像、图像对应的文本标签、图像和文本标签之间的匹配度中的一个或多个。进一步可选的，图文语义对齐模型可以包括图像处理结构、文本处理结构以及对齐结构，图像处理结构用于提取图像的图像特征，文本处理结构用于提取文本的文本特征，对齐结构用于对图像特征或文本特征进行向量处理，得到更新后的图像特征和更新后的文本特征，又进一步可选的，图像和文本标签之间的匹配度是由图文语义对齐模型可以根据对齐结构输出的图像特征和文本特征之间的余弦损失来确定出的，可选的，对齐结构为Transfomer结构。可见，这样能提高图文语义对齐模型的预测准确率。

作为一种可选的实施方式，图文语义对齐模型对图文数据进行分析，得到图文数据的分析结果，可以包括：

由图文语义对齐模型对每个前景目标的匹配对象进行预测，得到每个前景目标对应的预测结果，其中，预测结果可以包括用于表示预测成功的第一类预测结果或用于表示预测失败的第二类预测结果；

由图文语义对齐模型根据所有前景目标中已知前景目标的数量，确定所有关键词中待预测相应匹配对象的目标关键词，并对每个目标关键词的匹配对象进行预测，得到每个目标关键词对应的预测结果，其中，已知前景目标可以包括对应的预测结果为第一类预测结果的前景目标；

由图文语义对齐模型根据每个目标关键词对应的预测结果，确定图文数据的分析结果，其中，当所有前景目标中包括对应的预测结果为第二类预测结果的未知前景目标时，分析结果至少包括所有未知前景目标，当所有关键词中存在对应的预测结果为第二类预测结果的未知关键词时，分析结果至少包括所有未知关键词。

可见，实施该可选的实施方式能够通过图文语义对齐模型预测图像中每个前景目标对应的文本标签的预测结果以及图文数据中目标关键词对应的图像来确定图文数据的分析结果，提高了图文语义对齐模型分析图文数据的准确性和可靠性，并且，根据图文数据中已知前景目标的数量确定需要目标关键词，能够尽可能减少需要预测对应的图像特征的目标关键词的数量。

在该可选的实施方式中，可选的，对于图文数据中每个子数据，当图文语义对齐模型预测到的该子数据的匹配对象对应的置信度大于等于预设置信度阈值时，该子数据对应的预测结果为第一类预测结果，否则，为第二类预测结果，其中，子数据包括前景目标或关键词。这样能够提高图文语义对齐模型的预测准确性和可靠性。

在该可选的实施方式中，可选的，图文语义对齐模型根据所有前景目标中已知前景目标的数量，确定所有关键词中待预测相应匹配对象的目标关键词，可以包括：

当所有前景目标中已知前景目标的数量大于等于1时，由图文语义对齐模型根据所有已知前景目标的匹配对象，将所有已知前景目标与所有关键词进行配对，得到已知信息配对结果；当已知信息配对结果表示所有关键词中存在除配对成功的已知关键词之外的剩余关键词时，将所有剩余关键词确定为待预测相应匹配对象的目标关键词；

当已知前景目标的数量等于0时，由图文语义对齐模型将所有关键词确定为待预测相应匹配对象的目标关键词。

举例来说，若图文语义对齐模型提前进行过文本标签“汽车”、“大象”的训练，而未进行过文本标签“美洲豹”、“草原”的训练，在此情况下，若输入包含美洲豹、汽车、大象的原始图像以及弱标注文本为“在草原上休息的美洲豹和大象”，则检测到的前景目标可以包括“美洲豹”、“汽车”、“大象”，提取到的关键词可以包括“草原”、“美洲豹”、“大象”。此时，图文语义对齐模型将可以预测到对应文本标签的前景目标“汽车”和“大象”确定为已知前景目标，而将无法预测到对应文本标签的前景目标“美洲豹”确定为未知前景目标，并将前景目标“大象”和关键词“大象”进行配对，得到剩余关键词“草原”、“美洲豹”，在对剩余关键词“草原”、“美洲豹”的匹配对象预测失败后，确定未知关键词为“草原”、“美洲豹”。

可见，实施该可选的实施方式还能够根据已知前景目标的匹配对象将已知前景目标与关键词进行配对，根据配对结果来确定待预测相应匹配对应的目标关键词，从而限缩未知前景目标可配对的未知关键词的范围，进而有利于提高了未知前景目标与未知关键词配对的准确性。

102、当分析结果表示图文数据中包含图文语义对齐模型无法预测相应匹配对象的至少一个未知前景目标以及图文语义对齐模型无法预测相应匹配对象的至少一个未知关键词时，根据由所有未知前景目标以及所有未知关键词确定出的样本数据集，对图文语义对齐模型进行训练，以使图文语义对齐模型可对样本数据集中任意样本数据的匹配对象进行预测。

可选的，前景目标的匹配对象可以包括前景目标对应的文本标签，关键词的匹配对象可以包括关键词对应的图像。

可选的，图文语义对齐模型可以与第一检测模型和/或关键词提取模型组成新的图文语义对齐模型，新的图文语义对齐模型可以用于检测图像中的所有前景目标、预测图像中每个已知前景目标对应的文本标签、预测文本标签对应的图像、根据输入的弱标注文本确定图像中未知前景目标对应的文本标签中的一个或多个。可见，这样能够提高图文语义对齐模型功能的多样性和全面性。

作为一种可选的实施方式，根据由所有未知前景目标以及所有未知关键词确定出的样本数据集，对图文语义对齐模型进行训练，以使图文语义对齐模型可对样本数据集中任意样本数据的匹配对象进行预测，可以包括：

将确定出的样本图文对输入图文语义对齐模型中，以使图文语义对齐模型根据每个确定每个样本图文对中对的语义匹配度，其中，样本图文对包括由所有未知前景目标以及所有未知关键词确定出的样本数据集中的样本图文对；

根据每个样本图文对的语义匹配度与目标匹配度之间的差异，确定图文语义对齐模型的模型损失值；

当模型损失值表明图文语义对齐模型不满足收敛条件时，修正图文语义对齐模型的模型参数，以获取满足收敛条件的图文语义对齐模型，以使图文语义对齐模型可对样本数据集中任意样本数据的匹配对象进行预测；

在该可选的实施例中，可选的，在根据每个样本图文对的语义匹配度与目标匹配度之间的差异，确定图文语义对齐模型的模型损失值之前，该方法还包括：

根据预先设定的标签平滑系数，对预先设定的初始匹配度进行调整，得到目标匹配度：

P=1-ε，

其中，初始匹配度为1，目标置信度为P，标签平滑系数为ε。

可见，实施该可选的实施方式能够根据图文语义对齐模型确定出的样本数据集中样本图文对的语义匹配度与目标匹配度之间的差异度来修正模型参数，提高了模型训练的准确性和可靠性，并且，通过标签平滑策略能够减少未知前景目标和未知关键词之间错误的配对关系给模型训练带来的负面影响。

可见，实施本发明实施例能够根据图文数据中图文语义对齐模型无法进行图文语义对齐的未知前景目标和未知关键词组成的样本数据集来对图文语义对齐模型进行训练，从而降低了样本标注的工作量，且实现了图文语义对齐模型的弱监督自训练，使得图文语义对齐模型能够预测未通过监督学习训练过的文本标签，提高了图文语义对齐模型进行图文语义对齐的准确性和灵活性。

在一个可选的实施例中，该方法还可以包括：

从原始图像对应的弱标注文本中提取对应的权重值满足预设权重条件的至少一个词汇，作为待输入图文语义对齐模型的关键词；

可选的，从原始图像对应的弱标注文本中提取对应的权重值满足预设权重条件的至少一个词汇，作为待输入图文语义对齐模型的关键词，可以包括：

对原始图像对应的弱标注文本进行分词操作，得到弱标注文本中的所有词汇以及每个词汇的词汇信息，每个词汇的词汇信息至少包括该词汇的词性；

根据每个词汇的词汇信息，确定每个词汇对应的权重值；

在所有词汇中确定对应的权重值大于等于预设权重阈值的至少一个词汇，作为待输入图文语义对齐模型的关键词。

例如，对弱标注文本“一只在草原上休息的美洲豹”分词后得到的词汇包括“一只”、“在”、“草原”、“上”、“休息”、“的”、“美洲豹”，根据每个词汇的词汇信息可以确定出权重值较高的名词“草原”、“美洲豹”作为关键词。

可见，实施该可选的实施例能够根据从弱标注文本中提取出来的每个词汇的词汇信息确定每个词汇的权重值，并根据每个词汇的权重值来提取其中的关键词，能够提高关键词提取的准确性和可靠性，减少提取到的关键词所包含的非必要的词汇，例如量词等。

在另一个可选的实施例中，该方法还可以包括：

当分析结果表示图文数据中包含图文语义对齐模型预测出的对应的语义特征相匹配的至少一个目标图文对时，根据由所有目标图文对组成的再训练样本数据集，对图文语义对齐模型进行再训练操作，目标图文对包含图文语义对齐模型可预测相应匹配对象的其中一个已知前景目标和图文语义对齐模型可预测相应匹配对象的其中一个已知关键词。

例如，若图文语义对齐模型提前训练过“大象”这一文本标签，当输入前景目标“大象”以及关键词“大象”时，图文语义对齐模型可以确定前景目标“大象”和关键词“大象”为语义特征相匹配的目标图文对，此时可以根据该目标图文对对图文语义对齐模型进行再训练操作。

可见，实施该可选的实施例能够在图文语义对齐模型训练完成的前景目标和关键词组成的图文对重新出现在同一组图文数据中重新将该前景目标和关键词配对并对图文语义对齐模型进行再训练操作，能够有利于进一步提高图文语义对齐模型对已训练过的图文对的特征的学习程度，进而提高图文语义对齐模型对于预测已知前景目标对应的文本标签的准确性。

实施例二

请参阅图2，图2是本发明实施例公开的另一种图文语义对齐模型的弱监督自训练方法的流程示意图。其中，图2所描述的图文语义对齐模型的弱监督自训练方法可以应用于包括但不限于图文语义对齐模型、图像识别模型等涉及图像和文本匹配的任意模型的训练过程中，本发明实施例不做限定。如图2所示，该图文语义对齐模型的弱监督自训练方法可以包括以下操作：

201、将预先确定出的图文数据输入图文语义对齐模型中，以使图文语义对齐模型对图文数据进行分析，得到图文数据的分析结果。

202、当分析结果表示图文数据中包含图文语义对齐模型无法预测相应匹配对象的至少一个未知前景目标以及图文语义对齐模型无法预测相应匹配对象的至少一个未知关键词时，将所有未知前景目标以及所有未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对。

其中，每个样本图文对可以包括其中一个未知前景目标以及其中一个未知关键词。

作为一种可选的实施方式，当所有未知前景目标的第一数量小于所有未知关键词的第二数量时，将所有未知前景目标以及所有未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对，可以包括：

根据预先确定出的每个未知关键词对应的权重值，将所有未知关键词进行排序，得到对应的权重值由高到低排列的关键词序列；

将所有未知前景目标以及从关键词序列中提取到的第一数量个高权重关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对，其中，高权重关键词可以包括关键词序列中对应的排列序号小于等于目标排列序号的未知关键词，目标排列序号为第一数量对应的排列序号。

例如，当未知前景目标包括“美洲豹”，而未知关键词包括“草原”、“美洲豹”时，根据词性分析可知，未知关键词“草原”用于描述背景信息，权重值较低，而未知关键词“美洲豹”用于描述前景信息，权重值较高，因此，可以将未知前景目标“美洲豹”和未知关键词“美洲豹”进行配对。

可见，实施该可选的实施方式能够在未知关键词的数量多于未知前景目标的数量时，根据未知关键词的权重值对未知前景目标可配对的未知关键词的范围进行限缩，进一步提高了未知前景目标和未知关键词配对的准确性。

203、将所有样本图文对确定为由所有未知前景目标以及所有未知关键词确定出的样本数据集。

204、根据由所有未知前景目标以及所有未知关键词确定出的样本数据集，对图文语义对齐模型进行训练，以使图文语义对齐模型可对样本数据集中任意样本数据的匹配对象进行预测。

需要说明的是，针对本发明实施例中步骤201、步骤204的其他描述，请参照实施例一中针对步骤101-步骤102的详细描述，本发明实施例不再赘述。

可见，实施本发明实施例能够根据图文数据中图文语义对齐模型无法进行图文语义对齐的未知前景目标和未知关键词组成的样本数据集来对图文语义对齐模型进行训练，从而降低了样本标注的工作量，且实现了图文语义对齐模型的弱监督自训练，使得图文语义对齐模型能够预测未通过监督学习训练过的文本标签，提高了图文语义对齐模型进行图文语义对齐的准确性和灵活性，此外，由未知前景目标和未知关键词随机一一配对组成样本数据集，能够提高样本数据集的随机性，从而减少未知前景目标和特定未知关键词多次错误配对的情况发生，并有利于基于随机抽样原理在多次抽样过程中提高未知前景目标和正确的未知关键词成功配对的概率，进一步提高图文语义对齐模型进行图文语义对齐的准确性。

在一个可选的实施例中，在根据由所有未知前景目标以及所有未知关键词确定出的样本数据集，对图文语义对齐模型进行训练，以使图文语义对齐模型可对样本数据集中任意样本数据的匹配对象进行预测之前，该方法还可以包括：

对于每个未知关键词，将该未知关键词添加至图文语义对齐模型对应的缓存池中，缓存池用于缓存图文语义对齐模型待训练的一个或多个待训练样本数据，待训练样本数据包括待训练的样本文本标签；

以及，该方法还可以包括：

对于缓存池中任意待训练样本数据，在根据该待训练样本数据对应的图文对对图文语义对齐模型进行训练之后，判断该待训练样本数据是否满足图文语义对齐模型的训练完成条件，当判断结果为是时，将该待训练样本数据从缓存池中移除，其中，每个待训练样本数据对应的图文对包括该待训练样本数据以及该待训练样本数据当前配对的对象，样本文本标签当前配对的对象包括样本文本标签当前配对的图像。

可见，实施该可选的实施例能够在针对某文本标签对图文语义对齐模型进行训练之前，将该样本文本标签添加至缓存池中，且在针对该样本文本标签的训练完成时，将该文本标签从缓存池中移除，从而能够实现在模型训练过程中针对样本文本标签的训练程度进行监控，并对图文语义对齐模型遇见过的样本文本标签进行记录，减少同个样本文本标签或相似样本文本标签重复记录的情况发生。

在该可选的实施例中，作为一种可选的实施方式，对于缓存池中任意待训练样本数据，判断该待训练样本数据是否满足图文语义对齐模型的训练完成条件，可以包括：

判断图文语义对齐模型能否执行该待训练样本数据对应的预测操作，得到第四判断结果，预测操作包括图文语义对齐模型预测该待训练样本数据的匹配对象的操作和/或图文语义对齐模型根据该待训练样本数据的匹配对象反向预测该待训练样本数据的操作；

当第四判断结果为是时，判断该待训练样本数据对应的预测结果的置信度是否大于等于预设置信度阈值，得到第五判断结果，预测结果的置信度包括图文语义对齐模型预测到该待训练样本数据的匹配对象的置信度和/或图文语义对齐模型根据该待训练样本数据的匹配对象反向预测到该待训练样本数据的置信度；

当第五判断结果为是时，确定该待训练样本数据满足图文语义对齐模型的训练完成条件。

举例来说，假定预设置信度阈值为0.5，若未知关键词包含“美洲豹”，此时将未知关键词“美洲豹”添加至缓存池中。当未知关键词“美洲豹”与未知前景目标“美洲豹”配对成样本图文对时，在根据该样本图文对对图文语义对齐模型进行一次训练后，图文语义对齐模型能够执行“美洲豹”对应的预测操作，但此时“美洲豹”对应的预测结果的置信度仍然小于0.5，因此图文语义对齐模型仍然无法预测“美洲豹”图像对应的文本标签；而在图文语义对齐模型后续多次接收到包含前景目标“美洲豹”和关键词“美洲豹”的图文对，并根据该图文对图文语义对齐模型进行多次训练使得“美洲豹”对应的预测结果的置信度大于等于0.5后，图文语义对齐模型可以预测“美洲豹”图像对应的文本标签，再将“美洲豹”从缓存池中移除，此时“美洲豹”这一文本标签训练完成。当“美洲豹”未与任意前景目标配对成功时，则可以等待图文语义对齐模型后续再次接收到关键词“美洲豹”以及与之配对成功的前景目标，再进行“美洲豹”这一文本标签的训练。

可见，实施该可选的实施方式能够在图文语义对齐模型能够针对样本文本标签执行预测操作且预测结果的置信度大于等于预设置信度阈值时才将样本文本标签从缓存池中移除，能够减少训练得到的文本标签对应的预测置信度较低的情况发生，提高图文语义对齐模型进行图文语义对齐的准确性。

在该可选的实施例中，作为另一种可选的实施方式，对于每个未知关键词，在将该未知关键词添加至图文语义对齐模型对应的缓存池中之前，该方法还可以包括：

判断图文语义对齐模型对应的缓存池所缓存的历史样本数据中是否存在与该未知关键词相匹配的待训练样本标签，当判断结果为否时，触发执行上述的将该未知关键词添加至图文语义对齐模型对应的缓存池中的操作。

可见，实施该可选的实施方式能够在缓存池中不存在未知关键词时才将未知关键词添加至缓存池中，能够减少相同或相似的样本文本标签重复添加至缓存池的情况发生。

在该可选的实施例中，作为又一种可选的实施方式，该方法还可以包括：

当分析结果表示图文数据中包含至少一个未知关键词而不包含未知前景目标时，将所有未知关键词添加至图文语义对齐模型对应的缓存池中，作为图文语义对齐模型待训练的样本文本标签。

可见，实施该可选的实施方式还能够在图文数据中未能配对的未知关键词添加至缓存池中，有利于提高缓存池中样本文本标签的多样性，并提高图文语义对齐模型在未来识别该未知关键词的效率。

对于缓存池中任意待训练样本数据，当判断出该待训练样本数据满足图文语义对齐模型的训练完成条件时将该待训练样本数据添加至图文语义对齐模型的标签体系中，标签体系包括图文语义对齐模型已训练完成的所有文本标签。

可见，实施该可选的实施方式还能够将训练好的样本文本标签添加至图文语义对齐模型的标签体系，有利于提高图文语义对齐模型在未来针对该样本文本标签进行图文语义对齐的效率和准确率。

在另一个可选的实施例中，在将所有未知前景目标以及所有未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对之前，该方法还可以包括：

对于每个未知前景目标，根据图文语义对齐模型对应的缓存池中所缓存的历史样本数据，将该未知前景目标与所有未知关键词进行初始配对处理，得到初始配对结果；

当初始配对结果中存在配对成功的至少一个样本图文对时，将所有样本图文对从所有未知前景目标以及所有未知关键词中移除，并触发执行上述的将所有未知前景目标以及所有未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对的操作；

当初始配对结果中不存在配对成功的至少一个样本图文对时，触发执行上述的将所有未知前景目标以及所有未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对的操作。

可见，实施该可选的实施例还能够根据缓存池中所缓存的历史样本数据对未知前景目标和未知关键词进行初始配对处理，再进一步对未配对成功的未知前景目标和未知关键词进行随机配对，能够进一步提高未知前景目标和未知关键词配对的准确性。

在该可选的实施例中，作为一种可选的实施方式，对于每个未知前景目标，根据图文语义对齐模型对应的缓存池所缓存的历史样本数据，将该未知前景目标与所有未知关键词进行初始配对处理，得到初始配对结果，可以包括：

判断图文语义对齐模型对应的缓存池所缓存的历史样本数据中是否存在某一样本文本标签当前配对的图像与该未知前景目标相匹配，得到第一判断结果；

当第一判断结果为是时，判断所有未知关键词中是否存在与某一样本文本标签相匹配的未知关键词，得到第二判断结果；

当第二判断结果为是时，将与某一样本文本标签相匹配的未知关键词与该未知前景目标进行配对，得到配对成功的样本图文对，作为初始配对结果；

当第二判断结果为否时，判断历史样本数据中是否存在另一样本文本标签与其中一个未知关键词相匹配，得到第三判断结果；

当第三判断结果为是时，将与另一样本文本标签相匹配的未知关键词与该未知前景目标进行配对，得到配对成功的样本图文对，作为初始配对结果。

举例来说，若第一次输入的图文数据中包含未知前景目标“美洲豹”和未知关键词“美洲豹”、“熊猫”，第二次输入的图文数据中包含未知前景目标“美洲豹”、“老鹰”和未知关键词“美洲豹”、“老鹰”，显而易见，第一次输入图文数据时未知前景目标“美洲豹”可以与未知关键词“美洲豹”或未知关键词“熊猫”配对。假设第一次输入图文数据时未知前景目标“美洲豹”与未知关键词“美洲豹”配对，则第二次输入图文数据时可以检测到缓存池中样本文本标签“美洲豹”当前配对的图像与未知前景目标“美洲豹”相匹配，且由于第二次输入的未知关键词中刚好包括该文本标签“美洲豹”，因此第二次输入图文数据时继续将未知前景目标“美洲豹”与未知关键词“美洲豹”配对。假设第一次输入图文数据时未知前景目标“美洲豹”与未知关键词“熊猫”配对，则第二次输入图文数据时可以检测到缓存池中样本文本标签“熊猫”当前配对的图像与未知前景目标“美洲豹”相匹配，但第二次输入的未知关键词中不包括该样本文本标签“熊猫”，此时进一步判断出缓存池中存在另一样本文本标签“美洲豹”与未知关键词“美洲豹”相匹配，因此，第二次输入图文数据时将未知前景目标“美洲豹”与未知关键词“美洲豹”配对。

可见，实施该可选的实施方式能够优先将多次同时出现在同组图文数据中的未知前景目标和未知关键词配对，并可纠正错误的配对结果，能够进一步提高未知前景目标和未知关键词配对的准确性，减少相匹配的未知前景目标和未知关键词多次配对不成功的情况发生，有利于提高图文语义对齐模型针对该未知前景目标和未知关键词进行模型训练的效率。

在该可选的实施方式中，判断历史样本数据中是否存在另一样本文本标签与其中一个未知关键词相匹配，得到第三判断结果，可以包括：

判断历史样本数据中是否存在与其中一个未知关键词相匹配且对应的标签添加时间与某一样本文本标签对应的标签添加时间相匹配的另一样本文本标签，当判断结果为是时，确定第三判断结果为是，样本文本标签对应的标签添加时间用于表示该样本文本标签添加至缓存池中的时间。

可见，实施该可选的实施方式能够通过根据未知关键词以及与未知前景目标当前配对错误的样本文本标签同期添加至缓存池中的其他样本文本标签来确定未知前景目标配对的未知关键词，能够进一步提高未知前景目标和未知关键词配对的准确性。

实施例三

请参阅图3，图3是本发明实施例公开的一种图文语义对齐模型的弱监督自训练装置的结构示意图。其中，图3所描述的图文语义对齐模型的弱监督自训练装置可以应用于包括但不限于图文语义对齐模型、图像识别模型等涉及图像和文本匹配的任意模型的训练过程中，本发明实施例不做限定。如图3所示，该图文语义对齐模型的弱监督自训练装置可以包括：

输入模块301，用于将预先确定出的图文数据输入图文语义对齐模型中，以使图文语义对齐模型对图文数据进行分析，得到图文数据的分析结果，其中，图文数据包括从原始图像中检测到的至少一个前景目标以及从原始图像对应的弱标注文本中提取到的至少一个关键词，弱标注文本用于描述原始图像的图像信息，图文语义对齐模型用于预测文本标签对应的图像、图像对应的文本标签、图像和文本标签之间的匹配度中的一个或多个；

训练模块302，用于当分析结果表示图文数据中包含图文语义对齐模型无法预测相应匹配对象的至少一个未知前景目标以及图文语义对齐模型无法预测相应匹配对象的至少一个未知关键词时，根据由所有未知前景目标以及所有未知关键词确定出的样本数据集，对图文语义对齐模型进行训练，以使图文语义对齐模型可对样本数据集中任意样本数据的匹配对象进行预测，其中，前景目标的匹配对象包括前景目标对应的文本标签，关键词的匹配对象包括关键词对应的图像。

可见，实施图3所描述的装置能够根据图文数据中图文语义对齐模型无法进行图文语义对齐的未知前景目标和未知关键词组成的样本数据集来对图文语义对齐模型进行训练，从而降低了样本标注的工作量，且实现了图文语义对齐模型的弱监督自训练，使得图文语义对齐模型能够预测未通过监督学习训练过的文本标签，提高了图文语义对齐模型进行图文语义对齐的准确性和灵活性。

在一个可选的实施例中，如图4所示，该装置还可以包括：

配对模块303，用于将所有未知前景目标以及所有未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对，每个样本图文对包括其中一个未知前景目标以及其中一个未知关键词；

确定模块304，用于将所有样本图文对确定为由所有未知前景目标以及所有未知关键词确定出的样本数据集。

可见，实施图4所描述的装置能够由未知前景目标和未知关键词随机一一配对组成样本数据集，能够提高样本数据集的随机性，从而减少未知前景目标和特定未知关键词多次错误配对的情况发生，并有利于基于随机抽样原理在多次抽样过程中提高未知前景目标和正确的未知关键词成功配对的概率，进一步提高图文语义对齐模型进行图文语义对齐的准确性。

在另一个可选的实施例中，如图4所示，该装置还可以包括：

缓存池管理模块305，用于在训练模块302根据由所有未知前景目标以及所有未知关键词确定出的样本数据集，对图文语义对齐模型进行训练，以使图文语义对齐模型可对样本数据集中任意样本数据的匹配对象进行预测之前，对于每个未知关键词，将该未知关键词添加至图文语义对齐模型对应的缓存池中，缓存池用于缓存图文语义对齐模型待训练的一个或多个待训练样本数据，待训练样本数据包括待训练的样本文本标签；

判断模块306，用于对于缓存池中任意待训练样本数据，在训练模块302根据该待训练样本数据对应的图文对对图文语义对齐模型进行训练之后，判断该待训练样本数据是否满足图文语义对齐模型的训练完成条件，其中，每个待训练样本数据对应的图文对包括该待训练样本数据以及该待训练样本数据当前配对的对象，样本文本标签当前配对的对象包括样本文本标签当前配对的图像；

缓存池管理模块305，还用于对于缓存池中任意待训练样本数据，当判断出该待训练样本数据满足训练完成条件时，将该待训练样本数据从缓存池中移除。

可见，实施图4所描述的装置还能够在针对某文本标签对图文语义对齐模型进行训练之前，将该样本文本标签添加至缓存池中，且在针对该样本文本标签的训练完成时，将该文本标签从缓存池中移除，从而能够实现在模型训练过程中针对样本文本标签的训练程度进行监控，并对图文语义对齐模型遇见过的样本文本标签进行记录，减少同个样本文本标签或相似样本文本标签重复记录的情况发生。

在又一个可选的实施例中，如图4所示，配对模块303，还用于在将所有未知前景目标以及所有未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对之前，对于每个未知前景目标，根据缓存池所缓存的历史样本数据，将该未知前景目标与所有未知关键词进行初始配对处理，得到初始配对结果，当初始配对结果中不存在配对成功的至少一个样本图文对时，触发执行上述的将所有未知前景目标以及所有未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对的操作；

以及，该装置还可以包括：

移除模块307，用于当初始配对结果中存在配对成功的至少一个样本图文对时，将所有样本图文对从所有未知前景目标以及所有未知关键词中移除，并触发配对模块303执行上述的所有未知前景目标以及所有未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对的操作。

可见，实施图4所描述的装置还能够根据缓存池中所缓存的历史样本数据对未知前景目标和未知关键词进行初始配对处理，再进一步对未配对成功的未知前景目标和未知关键词进行随机配对，能够进一步提高未知前景目标和未知关键词配对的准确性。

在一个可选的实施例中，如图4所示，对于每个未知前景目标，配对模块303根据缓存池所缓存的历史样本数据，将该未知前景目标与所有未知关键词进行初始配对处理，得到初始配对结果的具体方式可以包括：

判断缓存池所缓存的历史样本数据中是否存在某一样本文本标签当前配对的图像与该未知前景目标相匹配，得到第一判断结果；

可见，实施图4所描述的装置还能够优先将多次同时出现在同组图文数据中的未知前景目标和未知关键词配对，并可纠正错误的配对结果，能够进一步提高未知前景目标和未知关键词配对的准确性，减少相匹配的未知前景目标和未知关键词多次配对不成功的情况发生，有利于提高图文语义对齐模型针对该未知前景目标和未知关键词进行模型训练的效率。

在一个可选的实施例中，如图4所示，当所有未知前景目标的第一数量小于所有未知关键词的第二数量时，配对模块303将所有未知前景目标以及所有未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对的具体方式可以包括：

将所有未知前景目标以及从关键词序列中提取到的第一数量个高权重关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对，其中，高权重关键词包括关键词序列中对应的排列序号小于等于目标排列序号的未知关键词，目标排列序号为第一数量对应的排列序号。

可见，实施图4所描述的装置还能够在未知关键词的数量多于未知前景目标的数量时，根据未知关键词的权重值对未知前景目标可配对的未知关键词的范围进行限缩，进一步提高了未知前景目标和未知关键词配对的准确性。

在一个可选的实施例中，如图4所示，对于缓存池中任意待训练样本数据，判断模块306判断该待训练样本数据是否满足图文语义对齐模型的训练完成条件的具体方式可以包括：

可见，实施图4所描述的装置还能够在图文语义对齐模型能够针对样本文本标签执行预测操作且预测结果的置信度大于等于预设置信度阈值时才将样本文本标签从缓存池中移除，能够减少训练得到的文本标签对应的预测置信度较低的情况发生，提高图文语义对齐模型进行图文语义对齐的准确性。

在一个可选的实施例中，如图4所示，图文语义对齐模型对图文数据进行分析，得到图文数据的分析结果的具体方式可以包括：

对每个前景目标的匹配对象进行预测，得到每个前景目标对应的预测结果，其中，预测结果包括用于表示预测成功的第一类预测结果或用于表示预测失败的第二类预测结果；

根据所有前景目标中已知前景目标的数量，确定所有关键词中待预测相应匹配对象的目标关键词，并对每个目标关键词的匹配对象进行预测，得到每个目标关键词对应的预测结果，其中，已知前景目标包括对应的预测结果为第一类预测结果的前景目标；

根据每个目标关键词对应的预测结果，确定图文数据的分析结果，其中，当所有前景目标中包括对应的预测结果为第二类预测结果的未知前景目标时，分析结果至少包括所有未知前景目标，当所有关键词中存在对应的预测结果为第二类预测结果的未知关键词时，分析结果至少包括所有未知关键词。

可见，实施图4所描述的装置还能够通过图文语义对齐模型预测图像中每个前景目标对应的文本标签的预测结果以及图文数据中目标关键词对应的图像来确定图文数据的分析结果，提高了图文语义对齐模型分析图文数据的准确性和可靠性，并且，根据图文数据中已知前景目标的数量确定需要目标关键词，能够尽可能减少需要预测对应的图像特征的目标关键词的数量。

在一个可选的实施例中，如图4所示，图文语义对齐模型根据所有前景目标中已知前景目标的数量，确定所有关键词中待预测相应匹配对象的目标关键词的具体方式可以包括：

当所有前景目标中已知前景目标的数量大于等于1时，根据所有已知前景目标的匹配对象，将所有已知前景目标与所有关键词进行配对，得到已知信息配对结果；当已知信息配对结果表示所有关键词中存在除配对成功的已知关键词之外的剩余关键词时，将所有剩余关键词确定为待预测相应匹配对象的目标关键词；

当已知前景目标的数量等于0时，将所有关键词确定为待预测相应匹配对象的目标关键词。

可见，实施图4所描述的装置还能够根据已知前景目标的匹配对象将已知前景目标与关键词进行配对，根据配对结果来确定待预测相应匹配对应的目标关键词，从而限缩未知前景目标可配对的未知关键词的范围，进而有利于提高了未知前景目标与未知关键词配对的准确性。

在一个可选的实施例中，如图4所示，该装置还可以包括：

提取模块308，用于从原始图像对应的弱标注文本中提取对应的权重值满足预设权重条件的至少一个词汇，作为待输入图文语义对齐模型的关键词；

其中，提取模块308从原始图像对应的弱标注文本中提取对应的权重值满足预设权重条件的至少一个词汇，作为待输入图文语义对齐模型的关键词的具体方式可以包括：

根据每个词汇的词汇信息，确定每个词汇对应的权重值；

可见，实施图4所描述的装置还能够根据从弱标注文本中提取出来的词汇的词汇信息确定每个词汇的权重值，并根据每个词汇的权重值来提取其中的关键词，能够提高关键词提取的准确性和可靠性，减少提取到的关键词所包含的非必要的词汇，例如量词等。

实施例四

请参阅图5，图5是本发明实施例公开的又一种图文语义对齐模型的弱监督自训练装置的结构示意图。如图5所示，该图文语义对齐模型的弱监督自训练装置可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

处理器402调用存储器401中存储的可执行程序代码，执行本发明实施例一或本发明实施例二所描述的图文语义对齐模型的弱监督自训练方法中的步骤。

实施例五

本发明实施例公开了一种计算机存储介质，该计算机存储介质存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一或本发明实施例二所描述的图文语义对齐模型的弱监督自训练方法中的步骤。

实施例六

本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的图文语义对齐模型的弱监督自训练方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器（Read-Only Memory，ROM）、随机存储器（Random Access Memory，RAM）、可编程只读存储器（Programmable Read-only Memory，PROM）、可擦除可编程只读存储器（ErasableProgrammable Read Only Memory，EPROM）、一次可编程只读存储器（One-timeProgrammable Read-Only Memory，OTPROM）、电子抹除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种图文语义对齐模型的弱监督自训练方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种图文语义对齐模型的弱监督自训练方法，其特征在于，所述方法包括：

将预先确定出的图文数据输入图文语义对齐模型中，以使所述图文语义对齐模型对所述图文数据进行分析，得到所述图文数据的分析结果，其中，所述图文数据包括从原始图像中检测到的至少一个前景目标以及从所述原始图像对应的弱标注文本中提取到的至少一个关键词，所述弱标注文本用于描述所述原始图像的图像信息；

当所述分析结果表示所述图文数据中包含所述图文语义对齐模型无法预测相应匹配对象的至少一个未知前景目标以及所述图文语义对齐模型无法预测相应匹配对象的至少一个未知关键词时，根据由所有所述未知前景目标以及所有所述未知关键词确定出的样本数据集，对所述图文语义对齐模型进行训练，以使所述图文语义对齐模型可对所述样本数据集中任意样本数据的匹配对象进行预测，其中，所述前景目标的匹配对象包括所述前景目标对应的文本标签，所述关键词的匹配对象包括所述关键词对应的图像；

所述图文语义对齐模型对所述图文数据进行分析，得到所述图文数据的分析结果，包括：

由所述图文语义对齐模型根据每个所述目标关键词对应的预测结果，确定所述图文数据的分析结果，其中，当所有所述前景目标中包括对应的预测结果为所述第二类预测结果的未知前景目标时，所述分析结果至少包括所有所述未知前景目标，当所有所述关键词中存在对应的预测结果为所述第二类预测结果的未知关键词时，所述分析结果至少包括所有所述未知关键词。

2.根据权利要求1所述的图文语义对齐模型的弱监督自训练方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的图文语义对齐模型的弱监督自训练方法，其特征在于，在所述根据由所有所述未知前景目标以及所有所述未知关键词确定出的样本数据集，对所述图文语义对齐模型进行训练，以使所述图文语义对齐模型可对所述样本数据集中任意样本数据的匹配对象进行预测之前，所述方法还包括：

以及，所述方法还包括：

4.根据权利要求3所述的图文语义对齐模型的弱监督自训练方法，其特征在于，在所述将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对之前，所述方法还包括：

5.根据权利要求4所述的图文语义对齐模型的弱监督自训练方法，其特征在于，对于每个所述未知前景目标，所述根据所述缓存池所缓存的历史样本数据，将该未知前景目标与所有所述未知关键词进行初始配对处理，得到初始配对结果，包括：

6.根据权利要求2-5中任一项所述的图文语义对齐模型的弱监督自训练方法，其特征在于，当所有所述未知前景目标的第一数量小于所有所述未知关键词的第二数量时，所述将所有所述未知前景目标以及所有所述未知关键词进行随机一一配对处理，得到配对成功的至少一个样本图文对，包括：

7.根据权利要求3-5中任一项所述的图文语义对齐模型的弱监督自训练方法，其特征在于，对于所述缓存池中任意所述待训练样本数据，所述判断该待训练样本数据是否满足所述图文语义对齐模型的训练完成条件，包括：

8.根据权利要求1-5中任一项所述的图文语义对齐模型的弱监督自训练方法，其特征在于，所述图文语义对齐模型根据所有所述前景目标中已知前景目标的数量，确定所有所述关键词中待预测相应匹配对象的目标关键词，包括：

9.根据权利要求1-5中任一项所述的图文语义对齐模型的弱监督自训练方法，其特征在于，所述方法还包括：

10.一种图文语义对齐模型的弱监督自训练装置，其特征在于，所述装置包括：

输入模块，用于将预先确定出的图文数据输入图文语义对齐模型中，以使所述图文语义对齐模型对所述图文数据进行分析，得到所述图文数据的分析结果，其中，所述图文数据包括从原始图像中检测到的至少一个前景目标以及从所述原始图像对应的弱标注文本中提取到的至少一个关键词，所述弱标注文本用于描述所述原始图像的图像信息；

训练模块，用于当所述分析结果表示所述图文数据中包含所述图文语义对齐模型无法预测相应匹配对象的至少一个未知前景目标以及所述图文语义对齐模型无法预测相应匹配对象的至少一个未知关键词时，根据由所有所述未知前景目标以及所有所述未知关键词确定出的样本数据集，对所述图文语义对齐模型进行训练，以使所述图文语义对齐模型可对所述样本数据集中任意样本数据的匹配对象进行预测，其中，所述前景目标的匹配对象包括所述前景目标对应的文本标签，所述关键词的匹配对象包括所述关键词对应的图像；

所述图文语义对齐模型对所述图文数据进行分析，得到所述图文数据的分析结果的具体方式包括：

根据每个所述目标关键词对应的预测结果，确定所述图文数据的分析结果，其中，当所有所述前景目标中包括对应的预测结果为所述第二类预测结果的未知前景目标时，所述分析结果至少包括所有所述未知前景目标，当所有所述关键词中存在对应的预测结果为所述第二类预测结果的未知关键词时，所述分析结果至少包括所有所述未知关键词。