CN116912629B

CN116912629B - 基于多任务学习的通用图像文字描述生成方法及相关装置

Info

Publication number: CN116912629B
Application number: CN202311126608.4A
Authority: CN
Inventors: 胡方扬; 魏彦兆; 唐海波
Original assignee: Xiaozhou Technology Co ltd
Current assignee: Xiaozhou Technology Co ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-12-29
Anticipated expiration: 2043-09-04
Also published as: CN116912629A

Abstract

本申请公开了基于多任务学习的通用图像文字描述生成方法及相关装置，通过获取待处理图像，利用目标多任务编码器模型中的共享编码器，对待处理图像进行特征提取，得到图像特征数据；利用目标多任务编码器模型中的多个任务子网络，基于图像特征数据，对待处理图像进行理解，得到每个任务子网络的理解结果数据，其中在多任务训练时，任务子网络之间相互正则化共享编码器；利用目标多任务编码器模型中的解码器，对多个理解结果数据进行融合，生成待处理图像的文字描述数据。实现了根据不同类型图像的特点，采用多种任务子网络，以满足不同类型图像对文字描述的不同要求，从而提高了图像文字描述模型的泛化能力和适应性。

Description

基于多任务学习的通用图像文字描述生成方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及基于多任务学习的通用图像文字描述生成方法及相关装置。

背景技术

在现有的图像文字描述系统中，通常针对特定类型的图像（如风景或人像）进行训练。然而，这种特定类型图像的限制导致系统无法很好地扩大到其他未见类别的图像中，并且不同类型的图像对于描述生成算法有不同要求。例如，风景图像需要充分描述场景的内容，包括物体、地理位置等细节；而人像图像则需要进行情绪分析和人物特征的描述。可见，当前图像文字描述模型的泛化能力和适应性差，无法在处理多种类型的图像时生成更准确、更丰富的文字描述。

发明内容

本申请提供了一种基于多任务学习的通用图像文字描述生成方法，以解决当前图像文字描述模型无法在处理多种类型的图像时生成更准确、更丰富的文字描述的技术问题。

为了解决上述技术问题，第一方面，本申请提供了一种基于多任务学习的通用图像文字描述生成方法，包括：

获取待处理图像；

利用目标多任务编码器模型中的共享编码器，对所述待处理图像进行特征提取，得到图像特征数据；

利用所述目标多任务编码器模型中的多个任务子网络，基于所述图像特征数据，对所述待处理图像进行理解，得到每个所述任务子网络的理解结果数据，其中在多任务训练时，所述任务子网络之间相互正则化所述共享编码器；

利用所述目标多任务编码器模型中的解码器，对多个所述理解结果数据进行融合，生成所述待处理图像的文字描述数据。

在第一方面的一些实现方式中，所述利用所述目标多任务编码器模型中的多个任务子网络，基于所述图像特征数据，对所述待处理图像进行理解，得到每个所述任务子网络的理解结果数据，包括：

将所述图像特征数据分别输入到各个所述任务子网络，以对所述待处理图像进行协同理解，得到每个所述任务子网络的理解结果数据，其中每个所述任务子网络的网络参数通过协同训练得到。

在第一方面的一些实现方式中，任务子网络为基于注意力机制的子网络，所述任务子网络的表达式为：

；

其中，为第个任务子网络的理解结果数据，/>为激活函数，/>为第/>个任务子网络的输出层权重，/>为第/>个任务子网络的偏置项，/>为第/>个任务子网络的注意力权重，为与第/>个任务相关的特征表示，/>为第/>个任务子网络的注意力参数，/>为共享编码器输出的图像特征数据，/>为与第/>个任务的权重矩阵。

在第一方面的一些实现方式中，所述任务子网络为交叉缝合网络，所述任务子网络的表达式为：

；

其中，为第/>个任务子网络的理解结果数据，/>为激活函数，/>为第/>个任务子网络的缝合层输出，X为共享编码器输出的图像特征数据，/>为第/>个任务子网络的编码器输出，/>为缝合权重矩阵。

在第一方面的一些实现方式中，所述利用目标多任务编码器模型中的共享编码器，对所述待处理图像进行特征提取，得到图像特征数据之前，还包括：

基于包含多种图像类型的预设图像集，对预设多任务编码器模型进行训练，直至所述目标多任务编码器模型的损失函数小于预设值，得到所述目标多任务编码器模型，其中所述损失函数包括正则化项，所述损失函数的表达式为：

;

其中，表示损失函数值，N为预设图像集的样本数量，X为图像特征数据，y为期望值，w为多任务学习的权重向量；/>为第/>个任务的L1正则化权重，是关于时间的函数；/>为第/>个任务的L1范数；/>为第/>个任务的L2正则化权重，/>为第/>个任务的L2范数。

在第一方面的一些实现方式中，所述利用所述目标多任务编码器模型中的解码器，对多个所述理解结果数据进行融合，生成所述待处理图像的文字描述数据，包括：

利用所述解码器，对多个所述理解结果数据进行加权融合，得到目标理解结果数据；

对所述目标理解结果数据进行自然语言转换，得到所述待处理图像的文字描述数据。

在第一方面的一些实现方式中，所述解码器为基于注意力机制的解码器，所述利用所述解码器，对多个所述理解结果数据进行加权融合，得到目标理解结果数据，包括：

将多个所述理解结果数据输入到所述解码器的注意力层，以利用所述解码器学习到的上下文信息，对多个所述理解结果数据进行加强融合，得到所述目标理解结果数据。

第二方面，本申请还提供一种基于多任务学习的通用图像文字描述生成装置，包括：

获取模块，用于获取待处理图像；

提取模块，用于利用目标多任务编码器模型中的共享编码器，对所述待处理图像进行特征提取，得到图像特征数据；

理解模块，用于利用所述目标多任务编码器模型中的多个任务子网络，基于所述图像特征数据，对所述待处理图像进行理解，得到每个所述任务子网络的理解结果数据，其中在多任务训练时，所述任务子网络之间相互正则化所述共享编码器；

融合模块，用于利用所述目标多任务编码器模型中的解码器，对多个所述理解结果数据进行融合，生成所述待处理图像的文字描述数据。

第三方面，本申请还提供一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的基于多任务学习的通用图像文字描述生成方法。

第四方面，本申请还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于多任务学习的通用图像文字描述生成方法。

与现有技术相比，本申请至少具备以下有益效果：

通过获取待处理图像，利用目标多任务编码器模型中的共享编码器，对所述待处理图像进行特征提取，得到图像特征数据；利用所述目标多任务编码器模型中的多个任务子网络，基于所述图像特征数据，对所述待处理图像进行理解，得到每个所述任务子网络的理解结果数据，其中在多任务训练时，所述任务子网络之间相互正则化所述共享编码器，以使共享编码器能够更好地适应各个子任务的特征提取要求；利用所述目标多任务编码器模型中的解码器，对多个所述理解结果数据进行融合，生成所述待处理图像的文字描述数据。实现了根据不同类型图像的特点，采用多种任务子网络，以满足不同类型图像对文字描述的不同要求，从而提高了图像文字描述模型的泛化能力和适应性。

附图说明

图1为本申请实施例示出的基于多任务学习的通用图像文字描述生成方法的流程示意图；

图2为本申请实施例示出的基于多任务学习的通用图像文字描述生成装置的结构示意图；

图3为本申请实施例示出的计算机设备的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，图1为本申请实施例提供的一种基于多任务学习的通用图像文字描述生成方法的流程示意图。本申请实施例的基于多任务学习的通用图像文字描述生成方法可应用于计算机设备，该计算机设备包括但不限于智能手机、笔记本电脑、平板电脑、桌上型计算机、物理服务器和云服务器等设备。如图1所示，本实施例的基于多任务学习的通用图像文字描述生成方法包括步骤S101至步骤S104，详述如下：

步骤S101，获取待处理图像。

在本步骤中，待处理图像为需要生成文字描述的图像。

步骤S102，利用目标多任务编码器模型中的共享编码器，对所述待处理图像进行特征提取，得到图像特征数据。

在本步骤中，目标多任务编码器模型包括共享编码器、多个任务子网络和解码器。使用已经训练好的共享编码器对输入的待处理图像进行特征提取。例如，共享编码器可以是一个预训练的卷积神经网络（CNN），通过传递图像数据并提取高级视觉特征来表示图像，这些特征可以是全局特征或局部特征，用于描述图像的语义和结构信息。

步骤S103，利用所述目标多任务编码器模型中的多个任务子网络，基于所述图像特征数据，对所述待处理图像进行理解，得到每个所述任务子网络的理解结果数据，其中在多任务训练时，所述任务子网络之间相互正则化所述共享编码器。

在本实施例中，将提取的图像特征分别传入各个子网络，以进行特定任务的理解和推断。不同的子网络可能专注于不同的任务，例如场景元素解析、人像情绪分析等。子网络根据任务特定的网络结构和参数，解析图像特征并生成相应的任务结果。

需要说明的是，本申请还在多任务训练时，任务子网络正则化共享编码器，以控制模型复杂度和减少过拟合。可选地，对于子任务之间的正则化：在多任务训练中，通过在损失函数中引入正则化项或者约束条件，可以使得子任务之间相互影响，促使编码器学习到更通用的表示。具体地，可以使用互信息或相关性作为正则化目标，以增强编码器对不同子任务之间的关联性的学习。示例性地，可以通过在损失函数中引入额外的正则化项或使用正则化技术实现，例如采用L1和L2正则化、Dropout正则化、Batch normalization正则化和Early stopping正则化等。

在一些实施例中，所述步骤S103，包括：

在本实施例中，以共享编码器输出的图像特征数据统一作为各个任务子网络的输入参数，利用各个任务子网络的协同网络参数进行对应任务的图像理解。

可选地，任务子网络为基于注意力机制的子网络，所述任务子网络的表达式为：

；

在本可选实施例中，通过使用注意力机制，模型可以动态地学习任务之间的依赖关系，并且能够自适应地调整任务之间的权重，从而可以使模型在处理多个任务时更加灵活，有选择性地关注特定任务的信息。

可选地，所述任务子网络为交叉缝合网络，所述任务子网络的表达式为：

；

在本可选实施例中，表示第个任务与其他任务之间的信息共享程度，可以通过softmax函数将其正规化为范围在[0,1]之间的权重。在计算缝合输出时，相似任务的特征可以通过进行缩放，而不相似任务的特征则通过() 进行缩放。

需要说明的是，交叉缝合网络允许任务之间的信息流动和共享，使模型能够灵活地学习任务之间的依赖关系，以适应不同任务之间的相关程度，并在任务之间共享有效的特征表示，提高模型性能。

可选地，动态子网络融合：每个任务子网络内部采用模块化设计,其包含多个功能模块，例如语义解析模块和定位模块等。示例性地，定义一个任务相关性矩阵R,矩阵中ed元素表示任务i和任务j的相关性程度,其可以预先统计获得。在训练过程中,利用预设融合函数F,以当前步数t和矩阵R为输入,计算出当前步的任务融合矩阵Ft。Ft中的元素值表示两任务当前的融合程度,元素值越大表示融合程度越高；根据Ft,调整子网络内部同一任务的不同模块之间的连接权重,增强相关任务模块之间的连接。同时，还根据Ft调整不同子网络之间模块的连接权重,增强相关任务子网络之间的模块连接。重复以上步骤,动态调整连接权重,实现任务子网络和内部模块的动态融合，在新连接结构上,继续训练所有子网络,优化模型性能。

需要说明的是，通过动态子网络融合，使子网络内部结构更加动态,可以根据任务调整模块连接,有选择地增强表达能力。子网络之间也更加协同动态,可以加强相关任务子网络之间的信息流通与融合。在训练过程中,模型可以根据任务相关性不断调整网络结构,持续适应任务关系的变化。对于图像描述任务,不同子任务可关注不同方面,如情绪、场景等,动态网络融合可以根据图像类型自适应地增强关键子任务的表达能力。如果需要强化对场景的理解,可以增强相关子网络内部以及之间的连接;如果需要强化对情绪的理解,则相应增强情绪相关网络的连接。最终,整个模型对不同类型图像有非常好的适应性,可以动态组合提升对关键信息的表达与理解能力，这样可以使得到的图像文字描述更加准确丰富,充分抓住图像的关键信息,提高描述质量。同时,训练过程也更智能高效,无需人工指定网络结构。

步骤S104，利用所述目标多任务编码器模型中的解码器，对多个所述理解结果数据进行融合，生成所述待处理图像的文字描述数据。

在本步骤中，在每个子网络完成推断后，其生成的任务结果可以被汇集到解码器中。解码器可以是一个共享的神经网络层，用于将不同子网络的输出进行整合和综合。例如，可以通过简单的线性加权或者融合策略，将不同任务的结果进行加权叠加或者特征融合，得到最终的预测结果。

可选地，后处理和后验修正：根据不同任务的特点和需求，可以对解码器的输出结果进行后处理和后验修正。例如，在人像情绪分析中，可以在预测结果的基础上应用一些规则或者规则引擎，以提高结果的准确性和可信度。

需要说明的是，通过引导所有子网络的协同理解，并将不同子网络的结果汇集到解码器中，可以充分利用每个子任务的专业知识和特定能力，从而提高整体模型的性能和鲁棒性。这种预测阶段的处理方式使得多任务学习能够同时解决多个任务，并实现不同任务之间的信息共享和互补，更好地适应不同领域和任务的需求。

在一些实施例中，所述步骤S104，包括：

在本实施例中，解码器综合各个子任务的理解结果，生成一个通用的、语义丰富的图像文字描述。通过融合来自不同子网络的信息，生成的描述能够全面而准确地表达图像的内容。可选地，融合操作可以如特征拼接、特征加权等方法来实现。通过将不同子任务的理解结果相结合，解码器能够利用各个子网络的专业知识和特定能力，以获取更全面的图像语义信息。

可选地，解码器学习将融合后的信息转化为自然语言描述，解码器可以如循环神经网络（RNN）或者转换器模型（Transformer）等来实现。解码器在训练过程中，可以根据已有的图像描述对进行学习，以最大限度地提高描述的质量和语义准确性。通过综合各个子任务的理解结果，解码器能够生成一个通用的、语义丰富的图像文字描述。

在一些实施例中，所述加权融合，包括：

在本可选实施例中，为了进一步提高生成描述的准确性和连贯性，解码器还可以利用上下文信息进行建模。例如，可以使用循环神经网络（RNN）或者注意力机制等方法，以利用之前生成的部分描述作为上下文，引导后续的生成过程。这样可以保持描述的一致性，并更好地捕捉图像中的细节和语义关系。

可选地，除了来自子网络的文本信息外，解码器还可以融合其他模态的信息，例如视觉特征或者语音特征等。通过融合多种模态的信息，解码器能够生成更加丰富和多样化的描述。例如，在图像描述生成任务中，可以将来自子网络的文本信息与图像的视觉特征进行融合，以生成更具视觉感知的描述结果。

需要说明的是，融合来自不同子网络的信息和上下文建模可以增强描述的准确性和连贯性。同时，多模态融合可以提供更丰富的信息来源，使生成描述更具多样性和视觉感知。最终，解码器通过语义表达与生成技术将融合后的信息转化为自然语言描述，使得生成的图像文字描述能够全面而准确地表达图像的内容。

在一些实施例中，所述步骤S102之前，还包括：

基于包含多种图像类型的预设图像集，对预设多任务编码器模型进行训练，直至所述目标多任务编码器模型的损失函数小于预设值，得到所述目标多任务编码器模型，其中所述损失函数包括正则化项。

可选地，所述损失函数的表达式为：

；

其中，表示损失函数值，N为预设图像集的样本数量，X为图像特征数据，y为期望值，w为多任务学习的权重向量，/>表示范数运算符，/>为w的绝对值之和，/>为w的平方和的平方根，/>和/>为正则化项的权重超参数。

可选地，向所述损失函数引入动态任务权重，引入后的所述损失函数的表达式为：

;

其中，表示损失函数值，N为预设图像集的样本数量，X为图像特征数据，y为期望值，w为多任务学习的权重向量；/>为第/>个任务的L1正则化权重，其是关于时间的函数；/>为第/>个任务的L1范数，即/>的绝对值之和；/>为第/>个任务的L2正则化权重，/>为第/>个任务的L2范数，即/>的平方和的平方根。

在本实施例中，根据各任务实时的训练效果动态调节权重,使模型更加关注当前训练效果较差的任务，灵活地适应任务之间关系的变化，自动平衡不同任务之间的训练过程,避免手动调参。例如：情绪分析子任务可以推断人物的情绪,描述人物的情绪为快乐或悲伤等,使描述更丰富生动。场景解析子任务可以分析出图像中的主要物体和背景元素,补充环境的详情,使描述更精确全面。通过动态调整子任务权重,可以根据图像类型自适应强化对情绪或场景的分析,使描述更符合图像的关键信息。如果情绪分析子任务权重较大,则说明模型需要更专注分析人物情绪,生成的文字描述会强调这一方面。如果场景解析子任务权重较大,则说明需要专注描述环境元素和细节,生成的描述会更全面丰富。观察子任务权重曲线的变化,可以知道不同类型图像对文本描述的需求,以及模型的适应能力,从而针对性改进模型。最终,解码器综合所有子任务的理解结果,以生成通顺连贯、细节丰富的图像文本描述。

示例性地，构建一个统一的编码器作为主网络，用于对各类图像进行特征提取，该编码器能够从输入图像中提取出高效、具有表达能力的特征表示。在编码器的基础上，构建多个子网络，每个子网络针对不同子任务进行专注，例如，可以构建一个子网络用于场景元素解析，另一个子网络用于人像情绪分析。

可选地，每个子网络的参数可以根据任务的复杂性和重要性进行设置。较为复杂或关键的任务可以分配更多的网络参数，以增强其表达能力和性能；而相对简单或辅助性的任务可以使用较少的参数，以减少计算复杂度。这样可以在提高子任务性能的同时，保持整体模型的高效性。在构建多个子网络时，可以选择将编码器的中间表示作为共享特征，供所有子网络使用，以使得不同子网络之间有一定的信息交流和协作。为了更好地适应每个子任务的特点，也可以在每个子网络中添加独立的特定层或模块，用于学习任务特定的特征，以同时实现特征共享和特定化，提高整体模型的灵活性和表达能力。

可选地，采用联合多任务训练（协同训练）：对各个子网络和共享编码器进行联合多任务训练。在训练过程中，子任务之间相互正则化编码器，使得编码器能够更好地适应各个子任务的要求。通过多任务训练，最终得到一个具有理解不同类别图像能力的编码器。

可选地，在联合多任务训练中，不同的子任务可能有不同的重要性和难度。为了更好地适应各个子任务的要求，可以通过动态调整任务权重来平衡子任务之间的学习过程。例如，可以根据每个子任务的训练误差或者预测性能来分配不同的权重，从而使得编码器更加关注困难或重要的子任务。

可选地，在联合多任务训练中，可以使用共享参数和特定参数相结合的方式，以平衡编码器学习通用特征和特定任务特征之间的权衡。通过共享参数，可以使编码器学到通用的特征，提高模型的泛化能力；而使用特定参数，可以使子网络在特定任务上有更好的表现。

需要说明的是，通过联合多任务训练，可以促进各个子任务之间的协同学习和知识迁移，提高编码器的表示能力和模型的整体性能。这种训练策略有助于解决单一任务训练中的过拟合问题，提高模型的泛化能力，并且能够应对不同类别图像的理解需求。

在本申请实施例中，子网络的注意力机制用于动态调整任务之间的权重,是在多个子网络的输出层应用注意力的方法，其通过注意力向量调整不同任务的预测结果权重。动态子网络融合用于调整子网络内部各模块之间以及子网络之间模块的连接,是更低层次的结构调整。而权重作用于损失函数,通过改变正则化权重调整不同任务在总损失中的作用比重。可以理解的是，注意力机制、动态子网络融合和权重能够协同应用于本申请实施例。

为了执行上述方法实施例对应的基于多任务学习的通用图像文字描述生成方法，以实现相应的功能和技术效果。参见图2，图2示出了本申请实施例提供的一种基于多任务学习的通用图像文字描述生成装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分，本申请实施例提供的基于多任务学习的通用图像文字描述生成装置，包括：

获取模块201，用于获取待处理图像；

提取模块202，用于利用目标多任务编码器模型中的共享编码器，对所述待处理图像进行特征提取，得到图像特征数据；

理解模块203，用于利用所述目标多任务编码器模型中的多个任务子网络，基于所述图像特征数据，对所述待处理图像进行理解，得到每个所述任务子网络的理解结果数据，其中在多任务训练时，所述任务子网络之间相互正则化所述共享编码器；

融合模块204，用于利用所述目标多任务编码器模型中的解码器，对多个所述理解结果数据进行融合，生成所述待处理图像的文字描述数据。

在一些实施例中，所述理解模块203，具体用于：

在一些实施例中，任务子网络为基于注意力机制的子网络，所述任务子网络的表达式为：

；

其中，为第/>个任务子网络的理解结果数据，/>为激活函数，/>为第/>个任务子网络的输出层权重，/>为第/>个任务子网络的偏置项，A为第/>个任务子网络的注意力权重，为与第/>个任务相关的特征表示，/>为第/>个任务子网络的注意力参数，X为共享编码器输出的图像特征数据，/>为与第/>个任务的权重矩阵。

在一些实施例中，所述任务子网络为交叉缝合网络，所述任务子网络的表达式为：

；

其中，为第/>个任务子网络的理解结果数据，/>为激活函数，/>为第/>个任务子网络的缝合层输出，X为共享编码器输出的图像特征数据，/>为第/>个任务子网络的编码器输出，W为缝合权重矩阵。

在一些实施例中，所述装置，还包括：

训练模块，用于基于包含多种图像类型的预设图像集，对预设多任务编码器模型进行训练，直至所述目标多任务编码器模型的损失函数小于预设值，得到所述目标多任务编码器模型，其中所述损失函数包括正则化项，所述损失函数的表达式为：

;

在一些实施例中，所述融合模块204，包括：

加权单元，用于利用所述解码器，对多个所述理解结果数据进行加权融合，得到目标理解结果数据；

转换单元，用于对所述目标理解结果数据进行自然语言转换，得到所述待处理图像的文字描述数据。

在一些实施例中，所述解码器为基于注意力机制的解码器，所述加权单元，具体用于：

上述的基于多任务学习的通用图像文字描述生成装置可实施上述方法实施例的基于多任务学习的通用图像文字描述生成方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。

图3为本申请一实施例提供的计算机设备的结构示意图。如图3所示，该实施例的计算机设备3包括：至少一个处理器30（图3中仅示出一个）处理器、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32，所述处理器30执行所述计算机程序32时实现上述任意方法实施例中的步骤。

所述计算机设备3可以是智能手机、平板电脑、桌上型计算机和云端服务器等计算设备。该计算机设备可包括但不仅限于处理器30、存储器31。本领域技术人员可以理解，图3仅仅是计算机设备3的举例，并不构成对计算机设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，该处理器30还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31在一些实施例中可以是所述计算机设备3的内部存储单元，例如计算机设备3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述计算机设备3的外部存储设备，例如所述计算机设备3上配备的插接式硬盘，智能存储卡（Smart Media Card,SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器31还可以既包括所述计算机设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

另外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现上述各个方法实施例中的步骤。

在本申请所提供的几个实施例中，可以理解的是，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围。特别指出，对于本领域技术人员来说，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于多任务学习的通用图像文字描述生成方法，其特征在于，包括：

获取待处理图像；

利用所述目标多任务编码器模型中的解码器，对多个所述理解结果数据进行融合，生成所述待处理图像的文字描述数据；

所述利用所述目标多任务编码器模型中的多个任务子网络，基于所述图像特征数据，对所述待处理图像进行理解，得到每个所述任务子网络的理解结果数据，包括：

将所述图像特征数据分别输入到各个所述任务子网络，以对所述待处理图像进行协同理解，得到每个所述任务子网络的理解结果数据，其中每个所述任务子网络的网络参数通过协同训练得到；

所述任务子网络为基于注意力机制的子网络、交叉缝合网络中的任一者；

所述任务子网络为所述基于注意力机制的子网络的表达式为：

y_i＝softmax(W_i×(A_i×V_i)+b_i)；

A_i＝softmax(w_iX)；

V_i＝w′_iX；

其中，y_i为第i个任务子网络的理解结果数据，softmax为激活函数，W_i为第i个任务子网络的输出层权重，b_i为第i个任务子网络的偏置项，A为第i个任务子网络的注意力权重，V_i为与第i个任务相关的特征表示，w_i为第i个任务子网络的注意力参数，X为共享编码器输出的图像特征数据，w'_i为与第i个任务的权重矩阵；

所述任务子网络为所述交叉缝合网络的表达式为：

y_i＝C_iX+(1-C_i)X_i；

C_i＝softmax(WX_i)；

其中，y_i为第i个任务子网络的理解结果数据，softmax为激活函数，C_i为第i个任务子网络的缝合层输出，X为共享编码器输出的图像特征数据，X_i为第i个任务子网络的编码器输出，W为缝合权重矩阵；

其中，所述任务子网络内部采用模块化设计，包含多个功能模块；

将所述图像特征数据分别输入到各个所述任务子网络，以对所述待处理图像进行协同理解，得到每个所述任务子网络的理解结果数据，其中每个所述任务子网络的网络参数通过协同训练得到之前，还包括：

定义任务相关性矩阵R,矩阵中的元素R_(i,j)表示任务i和任务j的相关性程度，利用预设融合函数F,以当前步数t和所述任务相关性矩阵R为输入,计算出当前步的任务融合矩阵Ft，所述任务融合矩阵Ft中的元素值表示两任务当前的融合程度；

根据所述任务融合矩阵Ft,调整子网络内部同一任务的不同功能模块之间的连接权重；

根据所述任务融合矩阵Ft调整不同子网络之间所述功能模块的连接权重。

2.如权利要求1所述的基于多任务学习的通用图像文字描述生成方法，其特征在于，所述利用目标多任务编码器模型中的共享编码器，对所述待处理图像进行特征提取，得到图像特征数据之前，还包括：

其中，L(X,y,w)表示损失函数值，N为预设图像集的样本数量，X为图像特征数据，y为期望值，w为多任务学习的权重向量；为第i个任务的L1正则化权重，是关于时间t的函数；||w_i||₁为第i个任务的L1范数；/>为为第i个任务的L2正则化权重，/>为第i个任务的L2范数。

3.如权利要求1所述的基于多任务学习的通用图像文字描述生成方法，其特征在于，所述利用所述目标多任务编码器模型中的解码器，对多个所述理解结果数据进行融合，生成所述待处理图像的文字描述数据，包括：

4.如权利要求3所述的基于多任务学习的通用图像文字描述生成方法，其特征在于，所述解码器为基于注意力机制的解码器，所述利用所述解码器，对多个所述理解结果数据进行加权融合，得到目标理解结果数据，包括：

5.一种基于多任务学习的通用图像文字描述生成装置，其特征在于，包括：

获取模块，用于获取待处理图像；

融合模块，用于利用所述目标多任务编码器模型中的解码器，对多个所述理解结果数据进行融合，生成所述待处理图像的文字描述数据；

所述理解模块，具体用于：

所述任务子网络为所述基于注意力机制的子网络、交叉缝合网络中的任一者；

所述任务子网络为基于注意力机制的子网络的表达式为：

y_i＝softmax(W_i×(A_i×V_i)+b_i)；

A_i＝softmax(w_iX)；

V_i＝w′_iX；

所述任务子网络为所述交叉缝合网络的表达式为：

y_i＝C_iX+(1-C_i)X_i；

C_i＝softmax(WX_i)；

所述装置，还包括：

定义模块，用于定义任务相关性矩阵R,矩阵中的元素R_(i,j)表示任务i和任务j的相关性程度，利用预设融合函数F,以当前步数t和所述任务相关性矩阵R为输入,计算出当前步的任务融合矩阵Ft，所述任务融合矩阵Ft中的元素值表示两任务当前的融合程度；

第一调整模块，用于根据所述任务融合矩阵Ft,调整子网络内部同一任务的不同功能模块之间的连接权重；

第二调整模块，用于根据所述任务融合矩阵Ft调整不同子网络之间所述功能模块的连接权重。

6.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4任一项所述的基于多任务学习的通用图像文字描述生成方法。

7.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于多任务学习的通用图像文字描述生成方法。