CN114663650A

CN114663650A - 图像描述生成方法及装置、电子设备、可读存储介质

Info

Publication number: CN114663650A
Application number: CN202210282638.3A
Authority: CN
Inventors: 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-24

Abstract

本发明涉及人工智能技术，提供了一种图像描述生成方法及装置、电子设备、可读存储介质，方法包括：将获取到的目标图像输入预训练的图像描述生成模型，以使得图像描述生成模型针对目标图像逐个确定待生成的图像描述语句中的首个描述词汇和非首个描述词汇，生成图像描述语句。本发明实施例中，通过预构建外部知识库以优化先前文本对于当前状态文本生成的指导效果以及图像细节对于图像描述生成的影响，能够准确地获取到每个候选词汇的第二生成预测概率；通过结合外部知识库的相关信息以及先前生成文本共同进行当前时刻生成词的预测，使生成的描述词汇更具有逻辑性同时包含历史图像描述信息，能够提高生成目标图像的图像描述语句的整体精确度。

Description

图像描述生成方法及装置、电子设备、可读存储介质

技术领域

本发明实施例涉及但不限于图像处理技术领域，尤其涉及一种图像描述生成方法、图像描述生成装置、电子设备及计算机可读存储介质。

背景技术

在自然语言处理(Natural Language Processing,NLP)领域和计算机视觉(Computer Vision,CV)领域中，图像描述生成(Image Caption)作为结合CV领域和NLP领域的综合研究方向，已取得很多进展以及应用。图像描述生成问题的解决方法可以基于传统的编码-解码(Encoder-Decoder)模型解决，但随着应用场景的不断演进，该方式已逐渐无法满足应用需求，因此当前引入一些新的机制添加到上述解决方式中以实现应用场景拓展，例如，通过引入目标检测模型获取图像中的更多局部信息以及区域信息，可以让生成的图像描述包含更多图像细节，弥补Encoder-Decoder模型过多关注局部明显特征的缺点，但是引入的目标检测模型只关注于当前图像的区域特征，并未考虑到Encoder-Decoder模型的整体图像描述影响，因此最终生成的图像描述文本的准确度不高。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种图像描述生成方法、图像描述生成装置、电子设备及计算机可读存储介质，能够提高生成目标图像的图像描述语句的精确度。

第一方面，本发明实施例提供了一种图像描述生成方法，包括：

将获取到的目标图像输入预训练的图像描述生成模型，以使得所述图像描述生成模型针对所述目标图像逐个确定待生成的图像描述语句中的每个描述词汇，生成所述图像描述语句；其中，所述图像描述语句包括首个描述词汇和非首个描述词汇；

基于所述目标图像的图像特征确定所述首个描述词汇；

确定与当前待确定的非首个描述词汇对应的多个候选词汇，确定每个所述候选词汇的第一生成预测概率和第二生成预测概率，根据每个所述候选词汇的第一生成预测概率和第二生成预测概率，从所述多个候选词汇中确定所述非首个描述词汇；其中，

所述第一生成预测概率基于所述候选词汇与当前已生成语句的第一相关程度确定，所述当前已生成语句根据已确定的所有描述词汇生成；

所述第二生成预测概率基于所述候选词汇与预构建的外部知识库中的各个键值对的第二相关程度确定，所述键值对基于第一键值对和第二键值对确定，所述第一键值对用于表征历史图像特征与历史图像描述语句之间的对应关系，所述第二键值对用于表征区域图像特征与图像描述类别词汇之间的对应关系。

根据本发明提供的实施例的图像描述生成方法，至少具有如下有益效果：对于获取图像描述语句中的非首个描述词汇，通过预构建外部知识库，以将历史图像特征与历史图像描述语句之间的对应关系以及区域图像特征与图像描述类别词汇之间的对应关系考虑在内，从而可优化呈现先前文本对于当前状态文本生成的指导效果，以及图像细节对于图像描述生成的影响，因此能够准确地获取到每个候选词汇的第二生成预测概率，并且通过候选词汇与当前已生成语句的第一相关程度呈现当前已生成语句对于候选词汇生成的影响，从而能够准确得到每个候选词汇的第一生成预测概率，进而基于得到的第一生成预测概率和第二生成预测概率从多个候选词汇中精准确定当前的描述词汇；而图像描述语句中的首个描述词汇则可以基于目标图像的图像特征简便有效地确定。因此，本实施例结合外部知识库的相关信息以及先前生成文本共同进行当前时刻生成词的预测，能够使生成的描述词汇更具有逻辑性同时包含历史图像描述信息，具有较高的准确度，从而能够提高生成目标图像的图像描述语句的整体精确度。

根据本发明的一些实施例，所述第一键值对由以下步骤得到：

根据所述历史图像描述语句获取历史真实词汇；

以所述历史真实词汇作为数据值、以所述历史图像特征作为查找所述历史真实词汇的关键字，得到所述第一键值对，其中，所述历史图像特征基于获取到的历史图像确定。

通过存储大量的历史图像和历史图像描述语句，可以从中查找出相应的历史图像特征和历史真实词汇，从而以历史图像特征-历史真实词汇的键值对的形式融入外部知识库中，对于当前状态文本的生成预测提供良好的指导效果。

根据本发明的一些实施例，所述第二键值对由以下步骤得到：

对所述区域图像特征进行双线性插值处理，得到区域特征向量，其中，所述区域图像特征基于目标检测模型提取得到；

以所述图像描述类别词汇作为数据值、以所述区域特征向量作为查找所述图像描述类别词汇的关键字，得到所述第二键值对。

基于目标检测模型的已有分类，可以提供更为准确的图像区域特征描述，以区域特征向量-图像描述类别词汇的键值对的形式加入外部知识库，可以大大提升对当前状态文本的生成预测的逻辑性。

根据本发明的一些实施例，所述确定每个所述候选词汇的第二生成预测概率，包括：

对所述当前已生成语句进行文本映射处理，得到与所述当前已生成语句对应的请求向量；

计算所述请求向量与任一所述键值对之间的欧氏距离；

根据各个所述欧氏距离从多个所述键值对中，将所述欧氏距离最小的N个所述键值对作为目标键值对，N为大于1的整数；

根据各个所述目标键值对对应的所述欧氏距离，确定每个所述候选词汇的第二生成预测概率。

通过对当前已生成语句进行映射处理得到请求向量，使得进一步能够通过计算请求向量与任一键值对之间的欧氏距离，而从外部知识库中确定具有指导生成意义的目标键值对，进而基于各个目标键值对对应的欧氏距离，准确地确定每个候选词汇的第二生成预测概率。

根据本发明的一些实施例，所述根据各个所述目标键值对对应的所述欧氏距离，确定每个所述候选词汇的第二生成预测概率，包括：

对于每个所述目标键值对，对与所述目标键值对相对应的所述欧氏距离进行指数映射处理，得到非负指数转换值；

基于所述候选词汇对所述非负指数转换值进行归一化处理，确定每个所述候选词汇的第二生成预测概率。

通过对欧氏距离进行指数映射处理，可以将所有欧氏距离转化为非负的指数值，确保所得到的预测概率不为负值，进而通过将非负指数转换值进行指数归一化，可以将非负指数转换值变换为0至1之间的具体数值，即精确地转换得到候选词汇的第二生成预测概率。

根据本发明的一些实施例，所述根据每个所述候选词汇的第一生成预测概率和第二生成预测概率，从所述多个候选词汇中确定所述当前待确定词汇对应的描述词汇，包括：

对于每个所述候选词汇，根据预设平衡权重对所述候选词汇的第一生成预测概率和第二生成预测概率进行叠加，得到平衡权重输出参数；

将各个所述候选词汇的所述平衡权重输出参数分别输入到最大值自变量点集函数中，输出与最大的所述平衡权重输出参数对应的一个所述候选词汇；

从所述多个候选词汇中，确定与最大的所述平衡权重输出参数对应的一个所述候选词汇，为所述当前待确定词汇对应的描述词汇。

在确定候选词汇的第一生成预测概率和第二生成预测概率的情况下，通过预设平衡权重叠加第一生成预测概率和第二生成预测概率，可以得到与候选词汇相关的平衡权重输出参数，进而基于最大值自变量点集函数筛选出最大的平衡权重输出参数，以满足词汇输入要求，从而得到与最大的平衡权重输出参数对应的一个候选词汇，即可精确地确定当前待确定词汇对应的描述词汇。

根据本发明的一些实施例，所述确定每个所述候选词汇的第一生成预测概率，包括：

对于每个所述候选词汇，对所述候选词汇和所述当前已生成语句进行编码处理，得到当前编码信息；

基于条件概率模型对所述当前编码信息进行解码处理，确定所述候选词汇的第一生成预测概率。

参考先前生成文本的影响，通过相关编码器-解码器模型依次对候选词汇和当前已生成语句进行编码及解码处理，可以准确得到候选词汇的第一生成预测概率。

第二方面，本发明实施例还提供了一种图像描述生成装置，其特征在于，包括：

图像描述生成模块，用于将获取到的目标图像输入预训练的图像描述生成模型，以使得所述图像描述生成模型针对所述目标图像逐个确定待生成的图像描述语句中的每个描述词汇，生成所述图像描述语句；其中，所述图像描述语句包括首个描述词汇和非首个描述词汇；

第一词汇确定模块，用于基于所述目标图像的图像特征确定所述首个描述词汇；

第二词汇确定模块，用于确定与当前待确定的非首个描述词汇对应的多个候选词汇，确定每个所述候选词汇的第一生成预测概率和第二生成预测概率，根据每个所述候选词汇的第一生成预测概率和第二生成预测概率，从所述多个候选词汇中确定所述非首个描述词汇；其中，

第三方面，本发明实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的图像描述生成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上第一方面所述的图像描述生成方法。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的图像描述生成方法的流程图；

图2是本发明一个实施例提供的图像描述生成方法中，确定每个候选词汇的第一生成预测概率的流程图；

图3是本发明一个实施例提供的图像描述生成方法中，得到第一键值对的流程图；

图4是本发明一个实施例提供的图像描述生成方法中，得到第二键值对的流程图；

图5是本发明一个实施例提供的图像描述生成方法中，确定每个候选词汇的第二生成预测概率的流程图；

图6是本发明一个实施例提供的图像描述生成方法中，根据各个目标键值对对应的欧氏距离确定每个候选词汇的第二生成预测概率的流程图；

图7是本发明一个实施例提供的图像描述生成方法中，确定当前待确定词汇对应的描述词汇的流程图；

图8是本发明一个实施例提供的外部知识库的结构示意图；

图9是本发明一个实施例提供的图像描述生成模型的结构示意图；

图10是本发明一个实施例提供的图像描述生成装置的示意图；

图11是本发明一个实施例提供的电子设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要注意的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

人工智能技术所涉及的服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本发明提供了一种图像描述生成方法、图像描述生成装置、电子设备及计算机可读存储介质，对于获取图像描述语句中的非首个描述词汇，通过预构建外部知识库，以将历史图像特征与历史图像描述语句之间的对应关系以及区域图像特征与图像描述类别词汇之间的对应关系考虑在内，从而可优化呈现先前文本对于当前状态文本生成的指导效果，以及图像细节对于图像描述生成的影响，因此能够准确地获取到每个候选词汇的第二生成预测概率，并且通过候选词汇与当前已生成语句的第一相关程度呈现当前已生成语句对于候选词汇生成的影响，从而能够准确得到每个候选词汇的第一生成预测概率，进而基于得到的第一生成预测概率和第二生成预测概率从多个候选词汇中精准确定当前的描述词汇；而图像描述语句中的首个描述词汇则可以基于目标图像的图像特征简便有效地确定。因此，本实施例结合外部知识库的相关信息以及先前生成文本共同进行当前时刻生成词的预测，能够使生成的描述词汇更具有逻辑性同时包含历史图像描述信息，具有较高的准确度，从而能够提高生成目标图像的图像描述语句的整体精确度。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，图1是本发明一个实施例提供的图像描述生成方法的流程图，该图像描述生成方法包括但不限于步骤S100至S400。

步骤S100，获取目标图像；

步骤S200，将获取到的目标图像输入预训练的图像描述生成模型，以使得图像描述生成模型针对目标图像逐个确定待生成的图像描述语句中的每个描述词汇，生成图像描述语句；其中，图像描述语句包括首个描述词汇和非首个描述词汇；

步骤S300，基于目标图像的图像特征确定首个描述词汇；

步骤S400，确定与当前待确定的非首个描述词汇对应的多个候选词汇，确定每个候选词汇的第一生成预测概率和第二生成预测概率，根据每个候选词汇的第一生成预测概率和第二生成预测概率，从多个候选词汇中确定非首个描述词汇；其中，

第一生成预测概率基于候选词汇与当前已生成语句的第一相关程度确定，当前已生成语句根据已确定的所有描述词汇生成；

第二生成预测概率基于候选词汇与预构建的外部知识库中的各个键值对的第二相关程度确定，键值对基于第一键值对和第二键值对确定，第一键值对用于表征历史图像特征与历史图像描述语句之间的对应关系，第二键值对用于表征区域图像特征与图像描述类别词汇之间的对应关系。

在一实施例中，对于获取图像描述语句中的非首个描述词汇，通过预构建外部知识库，以将历史图像特征与历史图像描述语句之间的对应关系以及区域图像特征与图像描述类别词汇之间的对应关系考虑在内，从而可优化呈现先前文本对于当前状态文本生成的指导效果，以及图像细节对于图像描述生成的影响，因此能够准确地获取到每个候选词汇的第二生成预测概率，并且通过候选词汇与当前已生成语句的第一相关程度呈现当前已生成语句对于候选词汇生成的影响，从而能够准确得到每个候选词汇的第一生成预测概率，进而基于得到的第一生成预测概率和第二生成预测概率从多个候选词汇中精准确定当前的描述词汇；而图像描述语句中的首个描述词汇则可以基于目标图像的图像特征简便有效地确定。因此，本实施例结合外部知识库的相关信息以及先前生成文本共同进行当前时刻生成词的预测，能够使生成的描述词汇更具有逻辑性同时包含历史图像描述信息，具有较高的准确度，从而能够提高生成目标图像的图像描述语句的整体精确度。

可以理解地是，预训练的图像描述生成模型获取目标图像的图像特征的方式可以为多种，例如基于目前相关技术中的Encoder-Decoder模型嵌入实现，在Encoder-Decoder模型中可以添加改进Attention注意力机制或者基于卷积神经网络(ConvolutionalNeural Networks，CNN)和循环神经网络(Recurrent Neural Networks，RNN)具体实现，可以由基于CNN的encoder编码器从输入的目标图像中提取足够多的图像特征，或者，基于RNN的decoder模型可以根据视觉信息建立语义部分并进行解码生成描述等，这在本实施例中并未限制，由于上述相关模型为本领域技术人员所熟知的，故在此不作赘述。

可以理解地是，由于图像描述语句中的首个描述词汇之前不存在已经生成的先前语句，因此在考虑首个描述词汇的生成过程中，不用考虑先前语句的影响，可以直接基于目标图像的图像特征确定，即对目标图像的图像特征进行提取以生成首个描述词汇。

在一实施例中，当确定图像描述语句中的非首个描述词汇时，即需要确定当前待确定词汇时，通过预生成多个候选词汇，进而从多个候选词汇中确定其中一个最为合适的候选词汇以之作为当前待确定词汇的描述词汇，即相当于采用两层筛选的方式进行描述词汇的获取，可以提升获取描述词汇的准确率，尤其是考虑到先前生成语句的影响以及外部知识库的相关信息影响，通过确定候选词汇的第一生成预测概率和第二生成预测概率，可以更好地表征输入的目标图像的目标性和有效性，以便于准确地生成相对应的描述词汇。

在图2的示例中，步骤S400中的“确定每个候选词汇的第一生成预测概率”，具体包括但不限于步骤S410至S420。

步骤S410,对于每个候选词汇，对候选词汇和当前已生成语句进行编码处理，得到当前编码信息；

步骤S420，基于条件概率模型对当前编码信息进行解码处理，确定候选词汇的第一生成预测概率。

在一实施例中，参考先前生成文本的影响，通过相关编码器-解码器模型依次对候选词汇和当前已生成语句进行编码及解码处理，可以准确得到候选词汇的第一生成预测概率，其中，条件概率模型的作用在于基于当前已生成语句存在的情况下对当前编码信息进行解码处理，进而能够确定候选词汇的第一生成预测概率。

以下给出具体示例以说明上述实施例的工作原理。

示例一：

在整个图像描述生成模型中，通过输入目标图像逐次生成不断更新的图像描述语句，每次的图像描述语句根据条件概率模型的大小进行生成词语选择，上述过程可记作C_t＝{V,w₁,w₂,...,w_t-1}，第t个单词

的第一生成预测概率记为P_IC(w_t|C_t；θ)。

可以理解地是，由于外部知识库可以为预先构建好的且通过键值对的形式进行呈现，而键值对基于第一键值对和第二键值对确定，因此外部知识库可以表征历史图像特征与历史图像描述语句之间的对应关系，以及区域图像特征与图像描述类别词汇之间的对应关系，其中，前者体现了先前文本对于当前的描述词汇生成的影响，可以保留更多训练过程中获得的知识信息，指导后续文本描述生成，后者体现了图像中的区域特征对于当前的描述词汇生成的影响，可以让生成描述包含更多图像细节，弥补之前模型过多关注局部明显特征的缺点；因此，通过引入外部知识库以确定候选词汇的第二生成预测概率，可以将先前文本和图像的区域特征的影响考虑在内，从而得到更加准确的候选词汇的第二生成预测概率，为了更好地体现外部知识库的影响。

需要说明的是，本实施例中的外部知识库为预构建的，因此可以离线调用，键值对作为索引-数据内容的类型对，其含义包括作为索引的“键”Key和作为数据内容的“值”Value，即Key和Value是唯一对应的，通过作为唯一索引的Key可以查找到相对应的Value，本质上属于存储库中的存储内容的一种呈现。

以下给出具体实施例以说明外部知识库中的第一键值对和第二键值对的构建方式。

在图3的示例中，第一键值对由步骤S500至S600具体得到。

步骤S500,根据历史图像描述语句获取历史真实词汇；

步骤S600，以历史真实词汇作为数据值、以历史图像特征作为查找历史真实词汇的关键字，得到第一键值对，其中，历史图像特征基于获取到的历史图像确定。

在一实施例中，通过存储大量的历史图像和历史图像描述语句，可以从中查找出相应的历史图像特征和历史真实词汇，从而以历史图像特征-历史真实词汇的键值对的形式融入外部知识库中，对于当前状态文本的生成预测提供良好的指导效果。

可以理解地是，历史图像特征可以基于获取到的历史图像确定，此处的历史图像为相比于目标图像之前的相关图像，例如可以为在输入预训练的图像描述生成模型的目标图像之前所输入的相关图像，因此能够从图像描述生成模型中进一步得到，或者，在RNN的基础上建立记忆扩展机制以存储先前学习的知识，弥补解码器中将先前隐藏层状态和当前输入结合以输出当前单词的过程中对于其他知识的遗漏等，这在本实施例中并未限制；由于历史图像描述语句为句级结果，与当前状态下的词汇存在差异，因此通过历史图像描述语句获取历史真实词汇，可以减小词汇差异造成的影响。

以下给出具体示例以说明上述实施例的工作原理。

示例二：

第一键值对

中的Key是C_i经过映射函数f_M(·)计算得到的，Value为历史真实词汇w_i，对于基于长短期记忆(Long Short-Term Memory,LSTM)语言模型的图像描述生成模型而言，映射函数f_M(·)返回结果为输入的历史图像特征或者文本向量；对于基于Transformer模型的图像描述生成模型来说，映射函数的返回结果为自注意层的输出。

第一键值对

表达式如下，其中

为历史图像特征-历史真实词汇的数据集大小：

在图4的示例中，第二键值对由步骤S700至S800具体得到。

步骤S700,对区域图像特征进行双线性插值处理，得到区域特征向量，其中，区域图像特征基于目标检测模型提取得到；

步骤S800，以图像描述类别词汇作为数据值、以区域特征向量作为查找图像描述类别词汇的关键字，得到第二键值对。

在一实施例中，通过对区域图像特征进行双线性插值处理，使得每个区域图像特征能够对应于一个区域特征向量，从而基于目标检测模型的已有分类，可以提供更为准确的图像区域特征描述，以区域特征向量-图像描述类别词汇的键值对的形式加入外部知识库，可以大大提升对当前状态文本的生成预测的逻辑性。

可以理解地是，基于目标检测模型提取得到区域图像特征的的方式并未限定，例如可以采用相关技术中的目标检测模型在输入图像上识别区域内目标类别，生成句子模版并将句子中预留槽位与途中区域关联，并由检测出的目标类别进行填充，弥补当前模型缺少视觉基础的劣势，或者，基于Faster R-CNN模型设计端到端模型，利用密集定位层根据图像检测目标以此生成描述语句，或者，基于目标检测模型设计分层语言模型，将各目标对应语句串联成段等，这在本实施例中并未限制。

以下给出具体示例以说明上述实施例的工作原理。

示例三：

第二键值对

基于目标检测模型Faster R-CNN得到，引入边界框进行编码，使用四个坐标

表示样本positive、样本anchor和真实框的位置信息，四个坐标参数分别代表锚框的中心点坐标和宽高，然后通过线性回归学习四个坐标量，使positive anchor不断逼近真实框，获得精确proposals框。为了方便文本生成，将m个目标图像对应的特征映射区域使用双线性插值法调整到预设维的固定大小，最终每个区域特征向量

对应一个目标描述词

为目标检测模型使用数据集的原始检测目标分类集大小：

综上，外部知识库的键值对合计为：

在图5的示例中，步骤S400中的“确定每个候选词汇的第二生成预测概率”，具体包括但不限于步骤S430至S460。

步骤S430,对当前已生成语句进行文本映射处理，得到与当前已生成语句对应的请求向量；

步骤S440，计算请求向量与任一键值对之间的欧氏距离；

步骤S450,根据各个欧氏距离从多个键值对中，将欧氏距离最小的N个键值对作为目标键值对，N为大于1的整数；

步骤S460,根据各个目标键值对对应的欧氏距离，确定每个候选词汇的第二生成预测概率。

在一实施例中，通过对当前已生成语句进行映射处理得到请求向量，使得进一步能够通过计算请求向量与任一键值对之间的欧氏距离，而从外部知识库中确定具有指导生成意义的目标键值对，进而基于各个目标键值对对应的欧氏距离，准确地确定每个候选词汇的第二生成预测概率。

可以理解地是，N的值可以根据具体应用场景来相应进行设置，例如可以通过设置阈值的方式，以将小于某一阈值的欧氏距离确定为“最小”，从而据此确定与欧氏距离所对应的目标键值对。

在图6的示例中，步骤S460具体包括但不限于步骤S461至S462。

步骤S461,对于每个目标键值对，对与目标键值对相对应的欧氏距离进行指数映射处理，得到非负指数转换值；

步骤S462，基于候选词汇对非负指数转换值进行归一化处理，确定每个候选词汇的第二生成预测概率。

在一实施例中，通过对欧氏距离进行指数映射处理，可以将所有欧氏距离转化为非负的指数值，确保所得到的预测概率不为负值，进而通过将非负指数转换值进行指数归一化，可以将非负指数转换值变换为0至1之间的具体数值，即精确地转换得到候选词汇的第二生成预测概率。

以下给出具体示例以说明上述实施例的工作原理。

示例四：

在生成第t个候选词汇的时，当前文本为C_t＝{I,w₁,w₂,...,w_t-1},第t个单词

的第一生成预测概率记为P_IC(w_t|C_t；θ)，当前文本经过映射函数f_M(·)后得到的请求向量记为q_t＝f_M(C_t)，通过计算q_i与外部知识库中每个键值对之间的欧式距离进行与外部知识库的匹配，其中q_t与每个键值对的距离记为d_i＝dis(q_t,k_i)，由于外部知识库建立过程中Key值编码方式同本实施例中的图像描述生成模型中的编码方式一致，因此在生成第t个单词的时候，对于外部知识库可以选择距离最接近的k个键值对所代表的Value即单词,再根据负距离的softmax函数来计算近似物的归一化分布，得到相应的第二生成预测概率记为P_MA(w|C_t)，具体地，相应计算公式如下所示：

d_i＝dis(k_i,f_M(C_t))。

在图7的示例中，步骤S400中的“根据每个候选词汇的第一生成预测概率和第二生成预测概率，从多个候选词汇中确定非首个描述词汇”，具体包括但不限于步骤S470至S490。

步骤S470,对于每个候选词汇，根据预设平衡权重对候选词汇的第一生成预测概率和第二生成预测概率进行叠加，得到平衡权重输出参数；

步骤S480，将各个候选词汇的平衡权重输出参数分别输入到最大值自变量点集函数中，输出与最大的平衡权重输出参数对应的一个候选词汇；

步骤S490,从多个候选词汇中，确定与最大的平衡权重输出参数对应的一个候选词汇，为当前待确定词汇对应的描述词汇。

在一实施例中，在确定候选词汇的第一生成预测概率和第二生成预测概率的情况下，通过预设平衡权重叠加第一生成预测概率和第二生成预测概率，可以得到与候选词汇相关的平衡权重输出参数，进而基于最大值自变量点集函数筛选出最大的平衡权重输出参数，以满足词汇输入要求，从而得到与最大的平衡权重输出参数对应的一个候选词汇，即可精确地确定当前待确定词汇对应的描述词汇。

需要说明的是，预设平衡权重可以根据不同的侧重度进行设置，由于相叠加的两个计算因子为第一生成预测概率和第二生成预测概率，且两者分别体现先前词汇和外部数据库的参考影响，因此当需要更突出地体现某一方面所造成的影响，则可以将该预设平衡权重设置为偏向相应方面的数值，这在本实施例中并未限制。

示例五：

在确定第一生成预测概率记为P_IC(w_t|C_t；θ)和确定第二生成预测概率P_MA(w|C_t)的情况下，得到当前t时刻的当前待确定词汇对应的描述词汇：w_t＝argmax(λP_MA(w|C_t)+(1-λ)P_IC(w|C_t；θ))，其中，λ为预设平衡权重，即根据预设平衡权重决定当前待生成的描述单词是更多参考先前生成词汇还是外部数据库的影响。

以下给出具体示例以说明上述各个实施例的完整工作原理。

示例六：

如图8和图9所示，图8是本发明一个实施例提供的外部知识库的结构示意图，图9是本发明一个实施例提供的图像描述生成模型的结构示意图。

在图9的示例中，图像描述生成模型主要分为两部分，第一部分为外部知识库的建立，第二部分为当前文本生成；对于外部知识库的建立，采取离线知识库，外部知识库由一系列键值对组成，该系列键值对由两部分组成，第一部分是通过上下文生成描述获得的第一键值对

第二部分为根据目标检测得到的区域图像特征及类别所获得的第二健值对

参照图8，在预构建阶段，对于通过上下文生成描述获得的第一键值对

每个历史图像特征对应于一个词级的先前语句，但由于词级语句与本实施例中需要生成的词汇存在一定差异，因此需要从中提取出对应的历史真实词汇，例如，图8中的第一个图像特征对应的先前文本为“A teacher teach a”，则可以从中提取出词汇“teacher”。

参照图8，在预构建阶段，对于根据目标检测得到的区域特征及类别所获得的第二健值对

区域图像特征可以对应于相应的类别，例如，图8中所示的区域图像特征对应的类别为“blackboard”、“desk”、“chair”等。

然后，基于上述两个预构建阶段的相关参数，得到外部知识库的每一对Key和Value的键值对。

参照图9，在目标图像输入一侧，检测到当前已生成语句为“A lady teach a”，基于该当前已生成语句和输入的图像特征进行编码确认以及解码处理，得到各个候选词汇的第一生成预测概率(在图9中记为P1)，即图9中一列数据所示的“student 0.6”、“teacher0.2”、“boy 0.3”等，并且将编码信息与外部知识库中的键值对进行相关度计算，包括欧氏距离匹配、归一化分布等操作，最终可以得到候选词汇的第二生成预测概率(在图9中记为P2)，即图9中一列数据所示的“student 0.7”、“teacher 0.2”、“desk 0.1”等。

最后，参照图9，根据预设平衡权重对第一生成预测概率和第二生成预测概率进行混合叠加，以使得混合叠加的输出参数最大的目标词汇作为词汇输出，从而确定该时刻下对应的描述词汇。

另外，如图10所示，本发明的一个实施例还提供了一种图像描述生成装置，包括：

图像描述生成模块200，用于将获取到的目标图像输入预训练的图像描述生成模型，以使得图像描述生成模型针对目标图像逐个确定待生成的图像描述语句中的每个描述词汇，生成图像描述语句；其中，图像描述语句包括首个描述词汇和非首个描述词汇；

第一词汇确定模块300，用于基于目标图像的图像特征确定首个描述词汇；

第二词汇确定模块400，用于确定与当前待确定的非首个描述词汇对应的多个候选词汇，确定每个候选词汇的第一生成预测概率和第二生成预测概率，根据每个候选词汇的第一生成预测概率和第二生成预测概率，从多个候选词汇中确定非首个描述词汇；其中，

在一实施例中，对于图像描述生成模块获取图像描述语句中的非首个描述词汇，通过预构建外部知识库，以将历史图像特征与历史图像描述语句之间的对应关系以及区域图像特征与图像描述类别词汇之间的对应关系考虑在内，从而可优化呈现先前文本对于当前状态文本生成的指导效果，以及图像细节对于图像描述生成的影响，因此能够准确地获取到每个候选词汇的第二生成预测概率，并且通过候选词汇与当前已生成语句的第一相关程度呈现当前已生成语句对于候选词汇生成的影响，从而能够准确得到每个候选词汇的第一生成预测概率，进而基于得到的第一生成预测概率和第二生成预测概率从多个候选词汇中精准确定当前的描述词汇；而图像描述生成模块在获取图像描述语句中的首个描述词汇时，则可以基于目标图像的图像特征简便有效地确定。因此，本实施例结合外部知识库的相关信息以及先前生成文本共同进行当前时刻生成词的预测，能够使生成的描述词汇更具有逻辑性同时包含历史图像描述信息，具有较高的准确度，从而能够提高生成目标图像的图像描述语句的整体精确度。

另外，如图11所示，本发明的一个实施例还提供了一种电子设备100，该电子设备100包括：存储器110、处理器120及存储在存储器110上并可在处理器120上运行的计算机程序。

处理器120和存储器110可以通过总线或者其他方式连接。

实现上述实施例的图像描述生成方法所需的非暂态软件程序以及指令存储在存储器110中，当被处理器120执行时，执行上述各实施例的图像描述生成方法，例如，执行以上描述的图1中的方法步骤S100至S400、图2中的方法步骤S410至S420、图3中的方法步骤S500至S600、图4中的方法步骤S700至S800、图5中的方法步骤S430至S460、图6中的方法步骤S461至S462或图7中的方法步骤S470至S490。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器120或控制器执行，例如，被上述设备实施例中的一个处理器120执行，可使得上述处理器120执行上述实施例中的图像描述生成方法，例如，执行以上描述的图1中的方法步骤S100至S400、图2中的方法步骤S410至S420、图3中的方法步骤S500至S600、图4中的方法步骤S700至S800、图5中的方法步骤S430至S460、图6中的方法步骤S461至S462或图7中的方法步骤S470至S490。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施方式进行的具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种图像描述生成方法，其特征在于，包括：

基于所述目标图像的图像特征确定所述首个描述词汇；

确定与当前待确定的非首个描述词汇对应的多个候选词汇，确定每个所述候选词汇的第一生成预测概率和第二生成预测概率，根据每个所述候选词汇的第一生成预测概率和第二生成预测概率，从所述多个候选词汇中确定所述非首个描述词汇；其中，所述第一生成预测概率基于所述候选词汇与当前已生成语句的第一相关程度确定，所述当前已生成语句根据已确定的所有描述词汇生成；所述第二生成预测概率基于所述候选词汇与预构建的外部知识库中的各个键值对的第二相关程度确定，所述键值对基于第一键值对和第二键值对确定，所述第一键值对用于表征历史图像特征与历史图像描述语句之间的对应关系，所述第二键值对用于表征区域图像特征与图像描述类别词汇之间的对应关系。

2.根据权利要求1所述的图像描述生成方法，其特征在于，所述第一键值对由以下步骤得到：

根据所述历史图像描述语句获取历史真实词汇；

3.根据权利要求2所述的图像描述生成方法，其特征在于，所述第二键值对由以下步骤得到：

4.根据权利要求1所述的图像描述生成方法，其特征在于，所述确定每个所述候选词汇的第二生成预测概率，包括：

计算所述请求向量与任一所述键值对之间的欧氏距离；

5.根据权利要求4所述的图像描述生成方法，其特征在于，所述根据各个所述目标键值对对应的所述欧氏距离，确定每个所述候选词汇的第二生成预测概率，包括：

6.根据权利要求1所述的图像描述生成方法，其特征在于，所述根据每个所述候选词汇的第一生成预测概率和第二生成预测概率，从所述多个候选词汇中确定所述当前待确定词汇对应的描述词汇，包括：

7.根据权利要求1所述的图像描述生成方法，其特征在于，所述确定每个所述候选词汇的第一生成预测概率，包括：

8.一种图像描述生成装置，其特征在于，包括：

9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的图像描述生成方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至7中任意一项所述的图像描述生成方法。