CN115359323A

CN115359323A - 图像的文本信息生成方法和深度学习模型的训练方法

Info

Publication number: CN115359323A
Application number: CN202211068079.2A
Authority: CN
Inventors: 李威
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-11-18
Anticipated expiration: 2042-08-31
Also published as: CN115359323B

Abstract

本公开提供了一种图像的文本信息生成方法和深度学习模型的训练方法，涉及人工智能领域，具体为深度学习、计算机视觉、自然语言处理等技术领域。图像的文本信息生成方法包括：对待处理图像进行特征提取，得到与待处理图像的文本信息相关联的全局特征；对待处理图像进行目标检测，得到待处理图像的局部特征；利用全局特征对局部特征进行处理，得到经更新局部特征；基于全局特征和经更新局部特征，生成待处理图像的文本信息。

Description

图像的文本信息生成方法和深度学习模型的训练方法

技术领域

本公开涉及人工智能领域，具体为深度学习、计算机视觉、自然语言处理等技术领域。

背景技术

图像的文本信息包括用于描述图像的文本信息，相关技术在获取图像的文本信息时，需要大量的人工成本和时间成本，并且所获取的文本信息质量不佳。

发明内容

本公开提供了一种图像的文本信息生成方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种图像的文本信息生成方法，包括：对待处理图像进行特征提取，得到与所述待处理图像的文本信息相关联的全局特征；对所述待处理图像进行目标检测，得到所述待处理图像的局部特征；利用所述全局特征对所述局部特征进行处理，得到经更新局部特征；基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息。

根据本公开的另一方面，提供了一种深度学习模型的训练方法，包括：利用待训练深度学习模型的特征提取子模型，对待处理图像进行特征提取，得到与所述待处理图像的文本信息相关联的全局特征；利用所述待训练深度学习模型的目标检测子模型，对所述待处理图像进行目标检测，得到所述待处理图像的局部特征；利用所述待训练深度学习模型的注意力子模型，基于所述全局特征对所述局部特征进行处理，得到经更新局部特征；利用所述待训练深度学习模型的自然语言理解子模型，基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息；基于所述文本信息和参考文本信息，确定损失值；基于所述损失值，调整所述待训练深度学习模型的模型参数。

根据本公开的另一方面，提供了一种图像的文本信息生成方法，包括：将待处理图像输入经训练深度学习模型中；利用所述经训练深度学习模型处理所述待处理图像，生成所述待处理图像的文本信息，其中，所述经训练深度学习模型是利用上述深度学习模型的训练方法训练得到的。

根据本公开的另一方面，提供了一种图像的文本信息生成装置，包括：提取模块、检测模块、处理模块以及生成模块。提取模块，用于对待处理图像进行特征提取，得到与所述待处理图像的文本信息相关联的全局特征；检测模块，用于对所述待处理图像进行目标检测，得到所述待处理图像的局部特征；处理模块，用于利用所述全局特征对所述局部特征进行处理，得到经更新局部特征；生成模块，用于基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息。

根据本公开的另一方面，提供了一种深度学习模型的训练装置，包括：提取模块、检测模块、处理模块、生成模块、第一确定模块和调整模块。提取模块，用于利用待训练深度学习模型的特征提取子模型，对待处理图像进行特征提取，得到与所述待处理图像的文本信息相关联的全局特征；检测模块，用于利用所述待训练深度学习模型的目标检测子模型，对所述待处理图像进行目标检测，得到所述待处理图像的局部特征；处理模块，用于利用所述待训练深度学习模型的注意力子模型，基于所述全局特征对所述局部特征进行处理，得到经更新局部特征；生成模块，用于利用所述待训练深度学习模型的自然语言理解子模型，基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息；第一确定模块，用于基于所述文本信息和参考文本信息，确定损失值；调整模块，用于基于所述损失值，调整所述待训练深度学习模型的模型参数。

根据本公开的另一方面，提供了一种图像的文本信息生成装置，包括：输入模块和生成模块。输入模块，用于将待处理图像输入经训练深度学习模型中；生成模块，用于利用所述经训练深度学习模型处理所述待处理图像，生成所述待处理图像的文本信息，其中，所述经训练深度学习模型是利用上述深度学习模型的训练装置训练得到的。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器和与所述至少一个处理器通信连接的存储器。其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的图像的文本信息生成方法和深度学习模型的训练方法中的至少一个。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机指令用于使所述计算机执行上述的图像的文本信息生成方法和深度学习模型的训练方法中的至少一个。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令被处理器执行时实现上述图像的文本信息生成方法的步骤和深度学习模型的训练方法的步骤中的至少一个。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开一实施例的图像的文本信息生成方法的流程图；

图2示意性示出了根据本公开一实施例的图像的文本信息生成方法的原理图；

图3示意性示出了根据本公开一实施例的深度学习模型的训练方法的流程图；

图4示意性示出了根据本公开一实施例的深度学习模型的训练方法的原理图；

图5示意性示出了根据本公开一实施例的图像的文本信息生成方法的流程图；

图6示意性示出了根据本公开一实施例的图像的文本信息生成装置的框图；

图7示意性示出了根据本公开一实施例的深度学习模型的训练装置的框图；

图8示意性示出了根据本公开一实施例的图像的文本信息生成装置的框图；以及

图9是用来实现本公开实施例的用于执行图像的文本信息生成方法和深度学习模型的训练方法中的至少一个的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

生成图像的文本信息是自然语言处理和计算机视觉交叉领域的一个重要研究方向。在图像信息理解、图像检索和图文互搜等领域具有较强的实用价值。对图像进行描述对用户而言比较简单，但对机器来说却是一个极具挑战性的任务，因为它既涉及到理解图像的内容，还涉及到将理解到的内容翻译成自然语言，用于生成文本信息的深度学习模型不仅需要识别图像中的对象(例如物体)，而且需要能够用恰当的自然语言表述出对象之间的相互关系。图像描述任务主要是对给定的图像进行处理，并生成可读的文本信息，文本信息需要包含图像中的主要对象、对象的主要特性以及对象所处的场景等。文本信息的生成可应用于互联网产品的内容标题自动生成，另外也可以帮助盲人和视觉受损用户提升他们对世界的感知能力，通过对图像进行处理自动生成文本信息，减少人力资源的同时提高了工作效率。

生成图像的描写信息可以通过多种方式实现。

一种方式，可以通过人工对图像进行分析得到图像的文本信息。该方式耗费人力成本和时间成本，无法适应海量的图像的场景，且更新速度慢，文本信息的质量不佳。

另一种方式，将图像描述任务分解成多个子问题，先分别识别图像中的主要对象以及场景，然后再利用语言模型(通常借助于一些模板)得到一个完整的描述序列。但这类方法存在着很多弊端，例如无法描述抽象概念，并且由于需要借助于语料库和模板，所以产生的文本信息较单一、表达的词汇范围非常有限。

另一种方式，可以利用基于神经网络的多模态模型生成文本信息。例如，采用卷积神经网络(Convolutional Neural Network，CNN)作为图像的特征抽取器，利用循环神经网络(Recurrent Neural Networks，RNNs)模型作为图像描述的解码模块。图像部分与文本部分的对应程度较低，得到的图像特征难以很好地包含图像内容，同时RNNs模型在测试时的输入是上一时刻的预测结果，容易产生曝光偏差问题。

另一种方式，可以基于强化学习模型生成文本信息。强化学习将图像描述问题看作是一个决策问题，每一个决策都包含一系列的动作。强化学习通过引入决策网络和奖励函数的方式来构建一种新的决策框架。将完整的句子和图像映射到同一个嵌入空间，由此得到两者的相似性。但是强化学习算法存在搜索空间大、难以收敛、鲁棒性较差等问题。

有鉴于此，本公开的实施例提出了一种图像的文本信息生成方法，包括：对待处理图像进行特征提取，得到与待处理图像的文本信息相关联的全局特征，对待处理图像进行目标检测，得到待处理图像的局部特征。然后，利用全局特征对局部特征进行处理，得到经更新局部特征。接下来，基于全局特征和经更新局部特征，生成待处理图像的文本信息。

图1示意性示出了根据本公开一实施例的图像的文本信息生成方法的流程图。

如图1所示，本公开实施例的图像的文本信息生成方法100例如可以包括操作S110～操作S140。

在操作S110，对待处理图像进行特征提取，得到与待处理图像的文本信息相关联的全局特征。

在操作S120，对待处理图像进行目标检测，得到待处理图像的局部特征。

在操作S130，利用全局特征对局部特征进行处理，得到经更新局部特征。

在操作S140，基于全局特征和经更新局部特征，生成待处理图像的文本信息。

示例性地，待处理图像的文本信息例如包括目标对象的标识信息、目标对象的特征信息、目标对象所处的场景信息。目标对象例如包括物体或用户。目标对象的标识信息例如包括目标对象的名称、类别等等。以文本信息为“湍急的河水里有一群穿着救生衣的人在划橡皮艇”为例，目标对象的标识信息例如包括河水、人、橡皮艇等，目标对象的特征信息例如包括“湍急的”、“穿着救生衣”等，目标对象所处的场景信息例如包括在湍急的河水里划橡皮艇等等。

对待处理图像进行整体特征的提取，得到全局特征，该全局特征例如与文本信息相关联。对待处理图像进行目标检测，检测得到重要信息，并将检测到的重要信息所对应的特征作为局部特征。

在得到全局特征和局部特征之后，可以利用全局特征对局部特征进一步处理，以便从局部特征中提炼更重要的特征，从而得到经更新局部特征。然后，基于全局特征和经更新局部特征生成待处理图像的文本信息。

根据本公开的实施例，通过获取待处理图像的全局特征和局部特征之后，利用全局特征对局部特征进行提炼，得到经更新局部特征，由于全局特征与文本信息相关联、经更新局部特征包括待处理图像的重要信息，因此基于全局特征和经更新局部特征生成的文本信息更加准确，该方式在保证文本信息的准确性的前提下减少了人工成本和时间成本。

在一实施例中，在生成待处理图像的文本信息后，还可以根据该文本信息，生成待处理图像的语音信息。该语音信息可以包括与文本信息中的文本对应的语音。例如，可以采用语音合成(text-to-speech，TTS)技术来将文本信息中的文本转化为语音，从而得到语音信息。例如，可以采用端到端的语音合成系统来对文本进行转化。该语音合成系统可以包括TTS前端、声学模型和声码器构成。其中，TTS前端用于进行文本正则化处理和单词转音素处理。声学模型用于根据TTS前端输出的特征预测得到中间谱特征，声码器用于根据中间谱特征得到语音信号，从而得到语音信息。可以理解的是，上文将文本转化为语音的方式仅作为示例以利于理解本公开，本公开对此不做限定。

图2示意性示出了根据本公开一实施例的图像的文本信息生成方法的原理图。

如图2所示，对待处理图像210进行特征提取，得到与待处理图像210的文本信息270相关联的全局特征221。例如，可以利用预训练模型对待处理图像210进行特征提取得到全局特征221。该预训练模型例如是利用图像-文本对作为样本进行训练的，文本例如为图像的文本信息，图像-文本对中的图像与文本相对应，因此利用该预训练模型提取的全局特征221与文本信息270相关联。

示例性地，对待处理图像210进行目标检测，得到待处理图像210的局部特征222。例如，可以对待处理图像210进行目标检测，得到候选图像区域，候选图像区域例如以标注框进行标记。每个候选图像区域对应概率数据，该概率数据表征了候选图像区域存在目标对象的概率，目标对象例如包括用户、物体等。基于与候选图像区域相关联的概率数据，从候选图像区域中确定目标图像区域，例如，将概率较大的候选图像区域确定为目标图像区域，从而实现从多个候选图像区域中选择重要的区域，这样可以避免一些不必要信息的干扰，提取得到待处理图像的更深层次的信息。

在确定目标图像区域之后，可以将对目标图像区域进行特征提取得到的区域特征作为局部特征222。

在得到全局特征221和局部特征222之后，由于全局特征221和局部特征222是图像特征，后续需要对图像特征进行自然语言理解，因此需要将全局特征221和局部特征222映射至与自然语言理解相关联的特征空间中。

例如，确定与自然语言理解方式相关联的特征空间，然后将全局特征221映射至特征空间，得到经映射全局特征231，将经映射全局特征231作为全局特征。另外，将局部特征222映射至特征空间，得到经映射局部特征232，将经映射局部特征232作为局部特征。

以下的全局特征221可以是指经映射全局特征231，局部特征222可以是指经映射局部特征232。

示例性地，利用经映射全局特征231处理经映射局部特征232，得到目标特征权重240。

例如，经映射全局特征231包括全局特征矩阵，经映射局部特征232包括局部特征矩阵，利用全局特征矩阵乘以局部特征矩阵，得到目标矩阵。然后，将目标矩阵作为目标特征权重240。

接下来，利用目标特征权重240对经映射局部特征232进行特征提炼，得到经更新局部特征250。例如，利用目标特征权重240对应的目标矩阵乘以经映射局部特征232对应的局部特征矩阵，得到经更新局部特征250。

可以理解，局部特征是通过对待处理图像进行目标检测得到，为了提高局部特征的精准性，可以进一步利用全局特征对局部特征进行提炼，得到经更新局部特征，使得经更新局部特征更加精准地体现待处理图像的局部深层信息。

在得到经更新局部特征250之后，可以将经映射全局特征231和经更新局部特征250进行融合，得到图像融合特征260。例如，将经映射全局特征231和经更新局部特征250进行拼接，得到图像融合特征260。

得到图像融合特征260之后，利用自然语言理解方式对图像融合特征260进行语义理解，生成待处理图像210的文本信息270。

除了图2描述的实施例，在本公开的另一示例中，可以利用相关的特征提取方式提取全局特征221，使得全局特征221的特征空间与自然语言理解方式对应的特征空间相一致。利用相关的目标检测方式提取局部特征222，使得局部特征222的特征空间与自然语言理解方式对应的特征空间相一致。在该情况下，无需对全局特征221和局部特征222进行映射，而是直接基于全局特征221处理局部特征222得到目标特征权重240，基于目标特征权重240处理局部特征222得到经更新局部特征250，将全局特征221和经更新局部特征250进行融合得到图像融合特征260，基于图像融合特征260得到文本信息270。

在本公开的另一示例中，可以通过深度学习模型来处理待处理图像得到文本信息。以下将说明如何训练深度学习模型。

图3示意性示出了根据本公开一实施例的深度学习模型的训练方法的流程图。

如图3所示，本公开实施例的深度学习模型的训练方法300例如可以包括操作S310～操作S360。

示例性地，待训练深度学习模型例如至少包括特征提取子模型、目标检测子模型、注意力子模型、自然语言理解子模型。

在操作S310，利用待训练深度学习模型的特征提取子模型，对待处理图像进行特征提取，得到与待处理图像的文本信息相关联的全局特征。

在操作S320，利用待训练深度学习模型的目标检测子模型，对待处理图像进行目标检测，得到待处理图像的局部特征。

在操作S330，利用待训练深度学习模型的注意力子模型，基于全局特征对局部特征进行处理，得到经更新局部特征。

在操作S340，利用待训练深度学习模型的自然语言理解子模型，基于全局特征和经更新局部特征，生成待处理图像的文本信息。

在操作S350，基于文本信息和参考文本信息，确定损失值。

在操作S360，基于损失值，调整待训练深度学习模型的模型参数。

示例性地，待处理图像例如为样本图像，用于训练深度学习模型。与样本图像对应的参考文本信息作为样本标签。在利用特征提取子模型、目标检测子模型、注意力子模型、自然语言理解子模型执行相应的操作之后，得到待处理图像的文本信息，将文本信息和参考文本信息进行相似度匹配，得到两者之间的损失值，基于损失值反向调整深度学习模型的模型参数，使得后续深度学习模型输出的文本信息与参考文本信息更加相似，以此训练得到深度学习模型。

图4示意性示出了根据本公开一实施例的深度学习模型的训练方法的原理图。

如图4所示，待训练深度学习模型例如包括特征提取子模型410、目标检测子模型420、特征映射子模型430、注意力子模型440、自然语言理解子模型450。

如图4所示，特征提取子模型410例如包括CLIP(Contrastive Language-ImagePre-Training)模型，CLIP模型是一种预训练模型。CLIP模型通过大量的图像-文本对进行训练。利用CLIP模型对待处理图像进行特征提取，得到的全局特征与文本信息相关联。在一示例中，可以将待处理图像切分为多个子图像，然后将多个子图像输入CLIP模型中，输出全局特征，全局特征的维度例如为[1，512]，全局特征的提取如公式(1)所示。

G＝CLIP(imgⁱ) (1)

公式(1)中的G表示全局特征，imgⁱ表示第i个训练样本(待处理图像)。

目标检测子模型420例如包括Faster R-CNN模型，Faster R-CNN模型是一种目标检测模型，Faster R-CNN模型也是一种预训练模型。利用Faster R-CNN模型对待处理图像进行目标检测，得到局部特征。局部特征的维度例如为[36，2048]，其中36表示该局部特征针对待处理图像中的36个局部(检测框)。

例如，对待处理图像进行目标检测，得到候选图像区域，基于与候选图像区域相关联的概率数据，从候选图像区域中确定目标图像区域(例如确定36个目标图像区域)，概率数据表征了候选图像区域存在目标对象的概率，将目标图像区域的区域特征，确定为局部特征，局部特征的提取如公式(2)所示。

V＝FasterRCNN(imgⁱ) (2)

公式(2)中的V表示局部特征，imgⁱ表示第i个训练样本(待处理图像)。

特征映射子模型430例如包括多层感知(Multi-Layer Perceptron，MLP)模型。由于特征提取子模型410、目标检测子模型420和自然语言理解子模型450均是独立进行预训练的模型，因此为了使得特征提取子模型410提取的全局特征的特征空间、目标检测子模型420提取的局部特征的特征空间与自然语言理解子模型450的特征空间一致，需要将全局特征和局部特征分别映射至自然语言理解子模型450的特征空间。因此，利用MLP模型对全局特征进行映射，得到经映射全局特征，利用MLP模型对局部特征进行映射，得到经映射局部特征。

示例性地，自然语言理解子模型450的特征空间的维度为768，经映射全局特征的维度例如为[20，768]，经映射局部特征的维度例如为[36，768]。

MLP模型例如也称为人工神经网络，通常由输入层、输出层、隐藏层组成。层与层之间通常为全连接，映射过程如公式(3)所示。

X_text＝MLP(X_img) (3)

公式(3)中的X_img例如表示全局特征或局部特征，X_text表示经映射全局特征或经映射局部特征。

注意力子模型440例如与Transformer模型中的单层注意力机制类似，通过注意力子模型440可以实现利用经映射全局特征对经映射局部特征进行处理得到目标特征权重。

例如，经映射全局特征包括全局特征矩阵，经映射局部特征包括局部特征矩阵，将经映射全局特征对应的全局特征矩阵和经映射局部特征对应的局部特征矩阵进行相乘，得到的目标特征权重。目标特征权重的维度例如为[20，36]，目标特征权重在一定程度上体现了图像局部区域的重要程度。

然后，通过注意力子模型440利用目标特征权重对经映射局部特征进行特征提炼，得到经更新局部特征，经更新局部特征的维度例如为[20，768]。例如，利用目标特征权重对应的目标矩阵乘以经映射全局特征对应的局部特征矩阵，得到经更新局部特征。

得到经更新局部特征之后，将经映射全局特征和经更新局部特征进行融合，得到图像融合特征，图像融合特征的维度例如为[40，768]。

自然语言理解子模型450例如包括双向自回归变压模型(Bidirectional andAuto-Regressive Transformers，BART)。BART模型是一种预训练模型，包括编码层encoder和解码层decoder，BART模型可以实现自回归生成文本，BART模型主要以重建被腐化破坏的文本为训练目的。

将图像融合特征输入BART模型，图像融合特征的维度例如为[40，768]，因此BART模型的编码层将[40，768]分解为40个序列P₁～P₄₀。通过编码层和解码层对图像融合特征进行语义理解，生成待处理图像的文本信息，文本信息例如为“湍急的河水里有一群穿着救生衣的人在划橡皮艇”。

示例性地，得到文本信息之后，基于文本信息和参考文本信息，确定损失值。例如，从字词集合中确定与参考文本信息相匹配的目标字词，字词集合例如是一种预设的字词典，其中包括多个字词，模型训练的目的是使得文本信息和参考文本信息尽量一致，因此确定目标字词例如为多个字词中与文本信息最匹配的字词。例如，文本信息是一种文本，例如是一句话，BART模型预测文本信息时可以依次预测每个字，当预测下一个字时，从字词集合中确定与下一个字最匹配的目标字词。

然后，确定文本信息与目标字词的匹配概率，利用交叉熵损失函数基于匹配概率，得到损失值。交叉熵(Cross Entropy)损失函数例如如公式(4)所示。

其中loss_i表示单个训练样本(待处理图像)的loss值；N表示训练样本的总个数；i表示第i个训练数据；L表示输入文本序列的长度(参考文本信息的字数)；M表示字词表类别个数(字词表中字的个数，每个字词表示一个类别)；y_ic为0或1，1表示预测的下一个字为字词表中的第c个字，0表示预测的下一个字不是字词表中的第c个字；p_ic表示预测的下一个字与字词表中第c个字的向量相似度。在预测阶段，BART模型的decoder层以“[CLS]”作为起始解码，基于图像融合特征进行自回归解码生成文本信息。

得到损失值之后，基于损失值反向调整深度学习模型的模型参数。由于特征提取子模型、目标检测子模型和自然语言理解子模型为预训练模型，因此在调整该些子模型的模型参数时，可以进行微调。

在本公开的实施例中，CLIP模型采用对比学习方法，通过网络上大量存在的图像-文本信息对(无标注数据)进行自监督训练，极大的提升了图像和文本信息(文本)两者的语义对齐，能够让抽取得到的全局特征更好的包含图像内容。

利用CLIP预训练模型强大的图像-文本对齐能力，以端到端的形式提取图像的全局特征，基于全局特征以全局视角对Faster R-CNN提取的局部特征进行特征提炼，使得基于提炼后的局部特征生成的图像融合特征具有更细粒度的显著性局部特征。

本公开的实施例参考了Prefix-tuning方法，Prefix-tuning方法是将一个特定于任务的连续向量序列输入到模型里，作为生成语言模型的前缀，相比于传统方法的微调，只对模型的前缀特征进行了训练优化。通常的BART模型的训练样本一般是英文，本公开的需要生成的文本信息通常为中文，受到Prefix-tuning方法的启发，本公开的实施例将基于英文数据集预训练得到的图像特征作为中文语言模型(BART模型)的前缀，效仿Prefix-tuning学习的思路对前缀特征进行优化，从而将图像特征映射到中文语言模型(BART模型)的特征空间当中，从而连接独立的模型，缓解了中文图像-文本多模态数据短缺带来的影响。

图5示意性示出了根据本公开一实施例的图像的文本信息生成方法的流程图。

如图5所示，本公开实施例的图像的文本信息生成方法500例如可以包括操作S510～操作S520。

在操作S510，将待处理图像输入经训练深度学习模型中。

在操作S520，利用经训练深度学习模型处理待处理图像，生成待处理图像的文本信息。

示例性地，经训练深度学习模型是利用上文提及的方法训练得到的。

图6示意性示出了根据本公开一实施例的图像的文本信息生成装置的框图。

如图6所示，本公开实施例的图像的文本信息生成装置600例如包括提取模块610、检测模块620、处理模块630以及生成模块640。

提取模块610可以用于对待处理图像进行特征提取，得到与待处理图像的文本信息相关联的全局特征。根据本公开实施例，提取模块610例如可以执行上文参考图1描述的操作S110，在此不再赘述。

检测模块620可以用于对待处理图像进行目标检测，得到待处理图像的局部特征。根据本公开实施例，检测模块620例如可以执行上文参考图1描述的操作S120，在此不再赘述。

处理模块630可以用于利用全局特征对局部特征进行处理，得到经更新局部特征。根据本公开实施例，处理模块630例如可以执行上文参考图1描述的操作S130，在此不再赘述。

生成模块640可以用于基于全局特征和经更新局部特征，生成待处理图像的文本信息。根据本公开实施例，生成模块640例如可以执行上文参考图1描述的操作S140，在此不再赘述。

根据本公开的实施例，处理模块630包括：第一处理子模块和第二处理子模块。第一处理子模块，用于利用全局特征处理局部特征，得到目标特征权重；第二处理子模块，用于利用目标特征权重处理局部特征，得到经更新局部特征。

根据本公开的实施例，全局特征包括全局特征矩阵，局部特征包括局部特征矩阵；第一处理子模块包括：相乘单元和确定单元。相乘单元，用于利用全局特征矩阵乘以局部特征矩阵，得到目标矩阵；确定单元，用于将目标矩阵，确定为目标特征权重。

根据本公开的实施例，第二处理子模块还用于：利用目标矩阵乘以局部特征矩阵，得到经更新局部特征。

根据本公开的实施例，生成模块包括：融合子模块和生成子模块。融合子模块，用于将全局特征和经更新局部特征进行融合，得到图像融合特征；生成子模块，用于利用自然语言理解方式对图像融合特征进行语义理解，生成待处理图像的文本信息。

根据本公开的实施例，装置600还可以包括，确定模块、第一映射模块和第二映射模块。在利用全局特征对局部特征进行处理，得到经更新局部特征之前：确定模块，用于确定与自然语言理解方式相关联的特征空间；第一映射模块，用于将全局特征映射至特征空间，得到经映射全局特征，作为全局特征；第二映射模块，用于将局部特征映射至特征空间，得到经映射局部特征，作为局部特征。

根据本公开的实施例，检测模块620包括：检测子模块、第一确定子模块和第二确定子模块。检测子模块，用于对待处理图像进行目标检测，得到候选图像区域；第一确定子模块，用于基于与候选图像区域相关联的概率数据，从候选图像区域中确定目标图像区域，其中，概率数据表征了候选图像区域存在目标对象的概率；第二确定子模块，用于将目标图像区域的区域特征，确定为局部特征。

根据本公开的实施例，文本信息包括以下至少一项：目标对象的标识信息、目标对象的特征信息、目标对象所处的场景信息。

图7示意性示出了根据本公开一实施例的深度学习模型的训练装置的框图。

如图7所示，本公开实施例的深度学习模型的训练装置700例如包括提取模块710、检测模块720、处理模块730、生成模块740、第一确定模块750以及调整模块760。

提取模块710可以用于利用待训练深度学习模型的特征提取子模型，对待处理图像进行特征提取，得到与待处理图像的文本信息相关联的全局特征。根据本公开实施例，提取模块710例如可以执行上文参考图3描述的操作S310，在此不再赘述。

检测模块720可以用于利用待训练深度学习模型的目标检测子模型，对待处理图像进行目标检测，得到待处理图像的局部特征。根据本公开实施例，检测模块720例如可以执行上文参考图3描述的操作S320，在此不再赘述。

处理模块730可以用于利用待训练深度学习模型的注意力子模型，基于全局特征对局部特征进行处理，得到经更新局部特征。根据本公开实施例，处理模块730例如可以执行上文参考图3描述的操作S330，在此不再赘述。

生成模块740可以用于利用待训练深度学习模型的自然语言理解子模型，基于全局特征和经更新局部特征，生成待处理图像的文本信息。根据本公开实施例，生成模块740例如可以执行上文参考图3描述的操作S340，在此不再赘述。

第一确定模块750可以用于基于文本信息和参考文本信息，确定损失值。根据本公开实施例，第一确定模块750例如可以执行上文参考图3描述的操作S350，在此不再赘述。

调整模块760可以用于基于损失值，调整待训练深度学习模型的模型参数。根据本公开实施例，调整模块760例如可以执行上文参考图3描述的操作S360，在此不再赘述。

根据本公开的实施例，处理模块730包括：第一处理子模块和第二处理子模块。第一处理子模块，用于利用全局特征处理局部特征，得到目标特征权重；第二处理子模块，用于利用目标特征权重处理局部特征，得到经更新局部特征。

根据本公开的实施例，生成模块740包括：融合子模块，用于对图像融合特征进行语义理解，生成待处理图像的文本信息，其中，图像融合特征是将全局特征和经更新局部特征进行融合得到的。

根据本公开的实施例，装置700还可以包括第二确定模块、第一映射模块和第二映射模块。在利用待训练深度学习模型的注意力子模型，基于全局特征对局部特征进行处理，得到经更新局部特征之前：第二确定模块，用于确定与自然语言理解子模型相关联的特征空间；第一映射模块，用于将全局特征映射至特征空间，得到经映射全局特征，作为全局特征；第二映射模块，用于将局部特征映射至特征空间，得到经映射局部特征，作为局部特征。

根据本公开的实施例，检测模块720包括：检测子模块、第一确定子模块和第二确定子模块。检测子模块，用于对待处理图像进行目标检测，得到候选图像区域；第一确定子模块，用于基于与候选图像区域相关联的概率数据，从候选图像区域中确定目标图像区域，其中，概率数据表征了候选图像区域存在目标对象的概率；第二确定子模块，用于将目标图像区域的区域特征，确定为局部特征。

根据本公开的实施例，第一确定模块750包括：第三确定子模块、第四确定子模块和获得子模块。第三确定子模块，用于从字词集合中确定与参考文本信息相匹配的目标字词；第四确定子模块，用于确定文本信息与目标字词的匹配概率；获得子模块，用于利用交叉熵损失函数基于匹配概率，得到损失值。

图8示意性示出了根据本公开一实施例的图像的文本信息生成装置的框图。

如图8所示，本公开实施例的图像的文本信息生成装置800例如包括输入模块810以及生成模块820。

输入模块810可以用于将待处理图像输入经训练深度学习模型中。根据本公开实施例，输入模块810例如可以执行上文参考图5描述的操作S510，在此不再赘述。

生成模块820可以用于利用经训练深度学习模型处理待处理图像，生成待处理图像的文本信息。根据本公开实施例，生成模块820例如可以执行上文参考图5描述的操作S520，在此不再赘述。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开实施例，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行上文所描述的图像的文本信息生成方法和深度学习模型的训练方法中的至少一个。

根据本公开实施例，提供了一种计算机程序产品，包括计算机程序/指令，计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，计算机程序/指令被处理器执行时实现上文所描述的图像的文本信息生成方法和深度学习模型的训练方法中的至少一个。

图9示出了可以用来实施本公开实施例的示例电子设备900的示意性框图。电子设备900旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如图像的文本信息生成方法和深度学习模型的训练方法中的至少一个。例如，在一些实施例中，图像的文本信息生成方法和深度学习模型的训练方法中的至少一个可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的图像的文本信息生成方法的一个或多个步骤，以及深度学习模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像的文本信息生成方法和深度学习模型的训练方法中的至少一个。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程图像的文本信息生成装置和深度学习模型的训练装置中的至少一个的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像的文本信息生成方法，包括：

对待处理图像进行特征提取，得到与所述待处理图像的文本信息相关联的全局特征；

对所述待处理图像进行目标检测，得到所述待处理图像的局部特征；

利用所述全局特征对所述局部特征进行处理，得到经更新局部特征；以及

基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息。

2.根据权利要求1所述的方法，其中，所述利用所述全局特征对所述局部特征进行处理，得到经更新局部特征包括：

利用所述全局特征处理所述局部特征，得到目标特征权重；以及

利用所述目标特征权重处理所述局部特征，得到所述经更新局部特征。

3.根据权利要求2所述的方法，其中，所述全局特征包括全局特征矩阵，所述局部特征包括局部特征矩阵；所述利用所述全局特征处理所述局部特征，得到目标特征权重包括：

利用所述全局特征矩阵乘以所述局部特征矩阵，得到目标矩阵；以及

将所述目标矩阵，确定为所述目标特征权重。

4.根据权利要求3所述的方法，其中，所述利用所述目标特征权重处理所述局部特征，得到所述经更新局部特征包括：

利用所述目标矩阵乘以所述局部特征矩阵，得到所述经更新局部特征。

5.根据权利要求1所述的方法，其中，所述基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息包括：

将所述全局特征和所述经更新局部特征进行融合，得到图像融合特征；以及

利用自然语言理解方式对所述图像融合特征进行语义理解，生成所述待处理图像的所述文本信息。

6.根据权利要求5所述的方法，还包括，在利用所述全局特征对所述局部特征进行处理，得到经更新局部特征之前：

确定与所述自然语言理解方式相关联的特征空间；

将所述全局特征映射至所述特征空间，得到经映射全局特征，作为所述全局特征；以及

将所述局部特征映射至所述特征空间，得到经映射局部特征，作为所述局部特征。

7.根据权利要求1所述的方法，其中，所述对所述待处理图像进行目标检测，得到所述待处理图像的局部特征包括：

对所述待处理图像进行目标检测，得到候选图像区域；

基于与所述候选图像区域相关联的概率数据，从所述候选图像区域中确定目标图像区域，其中，所述概率数据表征了所述候选图像区域存在目标对象的概率；以及

将所述目标图像区域的区域特征，确定为所述局部特征。

8.根据权利要求1-7中任意一项所述的方法，其中，所述文本信息包括以下至少一项：

目标对象的标识信息、所述目标对象的特征信息、所述目标对象所处的场景信息。

9.根据权利要求1所述的方法，还包括：

根据所述待处理图像的所述文本信息，生成所述待处理图像的语音信息。

10.一种深度学习模型的训练方法，包括：

利用待训练深度学习模型的特征提取子模型，对待处理图像进行特征提取，得到与所述待处理图像的文本信息相关联的全局特征；

利用所述待训练深度学习模型的目标检测子模型，对所述待处理图像进行目标检测，得到所述待处理图像的局部特征；

利用所述待训练深度学习模型的注意力子模型，基于所述全局特征对所述局部特征进行处理，得到经更新局部特征；

利用所述待训练深度学习模型的自然语言理解子模型，基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息；

基于所述文本信息和参考文本信息，确定损失值；以及

基于所述损失值，调整所述待训练深度学习模型的模型参数。

11.根据权利要求10所述的方法，其中，所述利用所述待训练深度学习模型的注意力子模型，基于所述全局特征对所述局部特征进行处理，得到经更新局部特征包括：

12.根据权利要求11所述的方法，其中，所述全局特征包括全局特征矩阵，所述局部特征包括局部特征矩阵；所述利用所述全局特征处理所述局部特征，得到目标特征权重包括：

将所述目标矩阵，确定为所述目标特征权重。

13.根据权利要求12所述的方法，其中，所述利用所述目标特征权重处理所述局部特征，得到所述经更新局部特征包括：

14.根据权利要求10所述的方法，其中，所述利用所述待训练深度学习模型的自然语言理解子模型，基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息包括：

对图像融合特征进行语义理解，生成所述待处理图像的所述文本信息，

其中，所述图像融合特征是将所述全局特征和所述经更新局部特征进行融合得到的。

15.根据权利要求14所述的方法，还包括，在利用所述待训练深度学习模型的注意力子模型，基于所述全局特征对所述局部特征进行处理，得到经更新局部特征之前，利用所述待训练深度学习模型的特征映射子模型执行以下操作：

确定与所述自然语言理解子模型相关联的特征空间；

16.根据权利要求10所述的方法，其中，所述利用所述待训练深度学习模型的目标检测子模型，对所述待处理图像进行目标检测，得到所述待处理图像的局部特征包括：

对所述待处理图像进行目标检测，得到候选图像区域；

将所述目标图像区域的区域特征，确定为所述局部特征。

17.根据权利要求10所述的方法，其中，所述基于所述文本信息和参考文本信息，确定损失值包括：

从字词集合中确定与所述参考文本信息相匹配的目标字词；

确定所述文本信息与所述目标字词的匹配概率；以及

利用交叉熵损失函数基于所述匹配概率，得到所述损失值。

18.一种图像的文本信息生成方法，包括：

将待处理图像输入经训练深度学习模型中；以及

利用所述经训练深度学习模型处理所述待处理图像，生成所述待处理图像的文本信息，

其中，所述经训练深度学习模型是利用权利要求10-17中任意一项所述的方法训练得到的。

19.一种图像的文本信息生成装置，包括：

提取模块，用于对待处理图像进行特征提取，得到与所述待处理图像的文本信息相关联的全局特征；

检测模块，用于对所述待处理图像进行目标检测，得到所述待处理图像的局部特征；

处理模块，用于利用所述全局特征对所述局部特征进行处理，得到经更新局部特征；以及

生成模块，用于基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息。

20.一种深度学习模型的训练装置，包括：

提取模块，用于利用待训练深度学习模型的特征提取子模型，对待处理图像进行特征提取，得到与所述待处理图像的文本信息相关联的全局特征；

检测模块，用于利用所述待训练深度学习模型的目标检测子模型，对所述待处理图像进行目标检测，得到所述待处理图像的局部特征；

处理模块，用于利用所述待训练深度学习模型的注意力子模型，基于所述全局特征对所述局部特征进行处理，得到经更新局部特征；

生成模块，用于利用所述待训练深度学习模型的自然语言理解子模型，基于所述全局特征和所述经更新局部特征，生成所述待处理图像的所述文本信息；

第一确定模块，用于基于所述文本信息和参考文本信息，确定损失值；以及

调整模块，用于基于所述损失值，调整所述待训练深度学习模型的模型参数。

21.一种图像的文本信息生成装置，包括：

输入模块，用于将待处理图像输入经训练深度学习模型中；以及

生成模块，用于利用所述经训练深度学习模型处理所述待处理图像，生成所述待处理图像的文本信息，

其中，所述经训练深度学习模型是利用权利要求20所述的装置训练得到的。

22.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-18中任一项所述的方法。

23.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-18中任一项所述的方法。

24.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令被处理器执行时实现根据权利要求1-18中任一项所述方法的步骤。