CN113569892A

CN113569892A - 图像描述信息生成方法、装置、计算机设备及存储介质

Info

Publication number: CN113569892A
Application number: CN202110126753.7A
Authority: CN
Inventors: 高俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-10-29
Also published as: JP2023545543A; US20230103340A1; WO2022161298A1

Abstract

本申请关于一种图像描述信息生成方法、装置、计算机设备及存储介质，涉及图像处理技术领域。所述方法包括：获取目标图像；提取目标图像的语义特征集合以及视觉特征集合；通过图像描述信息生成模型中的注意力融合网络，在n个时间步上对目标图像的语义特征和目标图像的视觉特征进行注意力融合，获取n个时间步对应的描述词；基于n个时间步对应的描述词生成目标图像的图像描述信息。通过上述方法，使得在生成图像描述信息的过程中，将视觉特征在生成视觉词汇上的优势与语义特征在生成非视觉特征的优势进行互补，从而提高了生成图像描述信息的准确性。

Description

图像描述信息生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及图像描述信息生成方法、装置、计算机设备及存储介质。

背景技术

随着图像识别技术的发展，通过算法就能实现计算机的“看图说话”功能，即图像描述，将图像中的内容信息转化为图像描述信息。

在相关技术中，往往专注与通过提取的图像的视觉特征来生成图像的图像描述信息，即通过编码器获取图像的视觉特征之后，使用一个循环神经网络生成图像的整体描述。

然而，上述相关技术中，仅依赖与图像的视觉特征会导致生成的图像描述信息的非视觉词汇，比如动词，介词等的准确度较差，从而导致生成图像描述信息的准确度较差。

发明内容

本申请实施例提供了一种图像描述信息生成方法、装置、计算机设备及存储介质，可以提高生成图像描述信息的准确性，该技术方案如下：

一方面，提供了一种图像描述信息生成方法，所述方法包括：

获取目标图像；

提取所述目标图像的语义特征集合；

提取所述目标图像的视觉特征集合；

通过图像描述信息生成模型中的注意力融合网络，在n个时间步上对所述目标图像的语义特征和所述目标图像的视觉特征进行注意力融合，获取所述n个时间步对应的描述词；所述注意力融合网络在第t个时间步上的输入包括所述第t个时间步上的语义注意力向量、所述第t个时间步上的视觉注意力向量、以及所述注意力融合网络在第t-1个时间步上的输出结果；所述第t个时间步上的所述语义注意力向量是在所述第t个时间步上对所述语义特征集合进行注意力机制处理获得的；所述第t个时间步上的所述视觉注意力向量是在所述第t个时间步上对所述视觉特征集合进行注意力机制处理获得的；所述注意力融合网络在所述第t-1个时间步上的所述输出结果用于指示所述第t-1个时间步对应的描述词；所述第t个时间步是所述n个时间步中的任意一个；1≤t≤n，且t、n均为正整数；

基于所述目标图像在所述n个时间步上的描述词，生成所述目标图像的图像描述信息。

另一方面，提供了一种图像描述信息生成装置，所述装置包括：

目标图像获取模块，用于获取目标图像；

语义特征提取模块，语义提取所述目标图像的语义特征集合；

视觉特征提取摸块，用于提取所述目标图像的视觉特征集合；

描述词获取模块，用于通过图像描述信息生成模型中的注意力融合网络，在n个时间步上对所述目标图像的语义特征和所述目标图像的视觉特征进行注意力融合，获取所述n个时间步对应的描述词；所述注意力融合网络在第t个时间步上的输入包括所述第t个时间步上的语义注意力向量、所述第t个时间步上的视觉注意力向量、以及所述注意力融合网络在第t-1个时间步上的输出结果；所述第t个时间步上的所述语义注意力向量是在所述第t个时间步上对所述语义特征集合进行注意力机制处理获得的；所述第t个时间步上的所述视觉注意力向量是在所述第t个时间步上对所述视觉特征集合进行注意力机制处理获得的；所述注意力融合网络在所述第t-1个时间步上的所述输出结果用于指示所述第t-1个时间步对应的描述词；所述第t个时间步是所述n个时间步中的任意一个；1≤t≤n，且t、n均为正整数；

图像描述信息生成模块，用于基于所述目标图像在所述n个时间步上的描述词，生成所述目标图像的图像描述信息。

在一种可能的实现方式中，所述描述词获取模块，用于在所述第t个时间步上，将所述第t个时间步上的所述语义注意力向量、所述第t个时间步上的所述视觉注意力向量、所述第t-1个时间步上的隐藏层向量、以及所述注意力融合网络在第t-1个时间步上的输出结果输入至所述注意力融合网络，获得所述注意力融合网络在所述第t个时间步上的所述输出结果，以及所述第t个时间步上的所述隐藏层向量；

或者，

在所述第t个时间步上，将所述第t个时间步上的所述语义注意力向量、所述第t个时间步上的所述视觉注意力向量、以及所述注意力融合网络在第t-1个时间步上的输出结果输入至所述注意力融合网络，获得所述注意力融合网络在所述第t个时间步上的所述输出结果，以及所述第t个时间步上的所述隐藏层向量。

在一种可能的实现方式中，所述注意力融合网络中设置有超参数，所述超参数用以指示所述视觉注意力向量与所述语义注意力向量在所述注意力融合网络中的权重。

在一种可能的实现方式中，所述装置还包括：

语义注意力向量生成模块，用于在所述第t个时间步上，基于所述第t-1个时间步上的所述隐藏层向量，以及所述语义特征集合，生成所述第t个时间步上的所述语义注意力向量。

所述语义注意力生成模块，包括：

语义特征权重获取子模块，用于基于所述第t-1个时间步上的所述隐藏层向量以及所述语义特征集合，获取所述语义特征集合中的各个语义特征在所述第t-1个时间步上的权重；

语义注意力向量生成子模块，用于基于所述语义特征集合中的各个语义特征在所述第t-1个时间步上的权重，以及所述语义特征集合，生成所述第t个时间步上的所述语义注意力向量。

在一种可能的实现方式中，所述装置还包括：

视觉注意力生成模块，用于在所述第t个时间步上，基于所述第t-1个时间步上的所述隐藏层向量，以及所述视觉特征集合，生成所述第t个时间步上的所述视觉注意力向量。

在一种可能的实现方式中，所述视觉注意力生成模块，包括：

语义特征权重获取子模块，用于基于所述第t-1个时间步上的所述隐藏层向量以及所述视觉特征集合，获取所述视觉特征集合中的各个视觉特征在所述第t-1个时间步上的权重；

视觉注意力向量生成子模块，用于基于所述视觉特征集合中的各个视觉特征在所述第t-1个时间步上的权重，以及所述视觉特征集合，生成所述第t个时间步上的所述视觉注意力向量。

在一种可能的实现方式中，所述语义特征提取模块，包括：

语义特征向量获取子模块，用于获取所述目标图像的语义特征向量；

语义特征提取子模块，用于基于所述语义特征向量，提取所述目标图像的所述语义特征集合。

在一种可能的实现方式中，所述语义特征提取子模块，包括：

属性词提取单元，用于基于所述语义特征向量，从词汇库中提取所述目标图像对应的属性词集合；所述属性词集合是指对所述目标图像进行描述的候选描述词的集合；

语义特征提取单元，用于将所述属性词集合所对应的词向量集合，获取为所述目标图像的所述语义特征集合。

在一种可能的实现方式中，所述属性词提取单元，用于基于所述语义特征向量，获取所述词汇库中各个词汇的匹配概率，所述匹配概率是指所述词汇库中的各个词汇与所述目标图像相匹配的概率；

提取所述词汇库中，所述匹配概率大于匹配概率阈值的词汇，作为所述属性词。

在一种可能的实现方式中，所述属性词提取单元，用于将所述语义特征向量输入到词汇检测器中，获得所述词汇检测器基于所述语义特征向量从所述词汇库中提取到的所述属性词集合；

其中，所述词汇检测器是通过多示例学习的弱监督方法训练获得的词汇检测模型。

在一种可能的实现方式中，在所述视觉特征提取模块提取所述目标图像的视觉特征集合之前，所述装置还包括：

子区域划分模块，用于对所述目标图像进行子区域划分，获得至少一个子区域；

所述视觉特征提取模块，用于分别提取所述至少一个子区域的视觉特征，组成所述视觉特征集合。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述图像描述信息生成方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现上述图像描述信息生成方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的图像描述信息生成方法。

本申请提供的技术方案可以包括以下有益效果：

通过分别提取目标图像的语义特征集合和视觉特征集合，利用图像描述信息生成模型中的注意力融合网络，实现了对语义特征和视觉特征的注意力融合，使得在生成图像描述信息的各个时间步上，基于目标图像的视觉特征和语义特征在上一个时间步上的输出结果的综合作用，生成当前时间步上目标图像的描述词，进而生成目标图像对应的图像描述信息，使得在图像描述信息的生成过程中，将视觉特征在生成视觉词汇上的优势与语义特征在生成非视觉特征的优势进行互补，从而提高了生成图像描述信息的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了本申请一示例性实施例提供的图像描述信息生成方法所使用的系统的示意图；

图2示出了本申请一示例性实施例提供的图像描述信息生成方法的流程图；

图3示出了本申请一示例性实施例示出的基于不同的注意力提取图像中单词信息的示意图；

图4示出了本申请一示例性实施例示出的视频场景下对应的目标图像选择示意图；

图5是根据一示例性实施例示出的一种模型训练阶段和图像描述信息生成阶段的框架图；

图6示出了本申请一示例性实施例提供的图像描述信息生成模型的训练方法的流程图；

图7示出了本申请一示例性实施例提供的模型训练以及图像描述信息生成方法的流程图；

图8示出了本申请一示例性实施例示出的图像描述信息生成过程的示意图；

图9示出了本申请一示例性实施例示出的注意力融合网络的输入输出示意图；

图10示出了示出了本申请一示例性实施例提供的图像描述信息生成装置的框架图；

图11示出了本申请一示例性实施例示出的计算机设备的结构框图；

图12示出了本申请一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供了一种图像描述信息生成方法，可以提高图像描述信息生成的准确性。为了便于理解，下面对本申请涉及的几个名词进行解释。

1)图像描述(Image Caption)

图像描述是指以图像为输入，通过模型和计算来获得对应图像的自然语言描述，图像描述既可以是图像中各个组成部分的性质的描述，也可以是对其各个部分彼此之间关系的描述。

2)CNN(Convolutional Neural Networks，卷积神经网络)

CNN是一种前馈神经网络，是一种单向多层结构的神经网络。同一层神经元之间没有互相连接，层间信息传达只沿一个方向进行，除输入层，输出层之外，中间的全部为隐藏层，隐藏层为一层或多层；CNN可以直接从图像底层的像素特征开始，逐层对图像进行特征提取，是编码器最常用的实现模型，负责将图像编码成向量。

3)RNN(Recurrent Neural Networks，循环神经网络)

RNN是一类用于处理序列数据的神经网络，在RNN中，一个序列当前的输出与前面的输出也有关。RNN依据具有固定权值、外部输入和内部状态的神经网络，可以将其看作是以权值和外部输入为参数，关于内部状态的行为动力学。RNN是解码器最常用的实现模型，负责将编码器生成的图像向量翻译成图像的文字描述。

4)LSTM(Long Short Term Memory，长短期记忆网络)

LSTM是一种时间递归神经网络，用于预测时间序列中间隔或者延迟相对较长时间的重要时间，是一种特殊的RNN。

5)注意力机制(Attention Mechanism)

注意力机制，其本质是一种通过网络自主学习出的一组权重系数，并以“动态加权”的方式来强调用户感兴趣的区域，同时抑制不相关背景区域的机制。在计算机视觉领域中，注意力机制可以大致分为两大类：强注意力和软注意力。

注意力机制常被运用在RNN上，带有注意力机制的RNN，在每次处理目标图像的部分像素时，都会根据当前状态的前一个状态所关注的，目标图像的部分像素去处理，而不是根据目标图像的全部像素，可以减少任务的处理复杂度。

6)人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请所示的包含图像采集组件的显示设备主要涉及其中的计算机视觉技术以及机器学习/深度学习等方向。

7)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

请参考图1，其示出了本申请一示例性实施例提供的图像描述信息生成方法所使用的系统的示意图，如图1所示，该系统包括：服务器110以及终端120。

其中，上述服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

上述终端120可以是具有网络连接功能以及图像展示功能和/或视频播放功能的终端设备，进一步的，该终端可以是具有图像描述信息生成功能的终端，比如，终端120可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、智能电视、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

可选的，上述系统中包含一个或者多个服务器110，以及多个终端120。本申请实施例对于服务器110和终端120的个数不做限制。

终端以及服务器通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。本申请在此不做限制。

图2示出了本申请一示例性实施例提供的图像描述信息生成方法的流程图，该方法由计算机设备执行，该计算机设备可以实现为终端或服务器，该终端或服务器可以是图1所示的终端或服务器，如图2所示，该图像描述信息生成方法包括以下步骤：

步骤210，获取目标图像。

在一种可能的实现方式中，该目标图像可以是本地存储的图像，或者，该目标图像也可以是基于用户指定操作实时获取的图像，比如，该目标图像可以是用户基于截屏操作实时获取的图像，或者，也可以是用户通过长按屏幕指定区域触发图像描述信息生成时，实时采集到的终端屏幕上的图像，或者，也可以是基于终端的图像采集组件实时获取到的图像。本申请对目标图像的获取方式不进行限制。

步骤220，提取目标图像的语义特征集合。

目标图像的语义特征集合用于指示描述目标图像的图像信息的候选描述词对应的词向量的集合。

步骤230，提取目标图像的视觉特征集合。

目标图像的视觉特征集合用于指示基于目标图像的像素点的RGB分布等特征获取到的图像特征的集合。

步骤240，通过图像描述信息生成模型中的注意力融合网络，在n个时间步上对目标图像的语义特征和目标图像的视觉特征进行注意力融合，获取n个时间步对应的描述词。

该注意力融合网络在第t个时间步上的输入包括第t个时间步上的语义注意力向量、第t个时间步上的视觉注意力向量、以及注意力融合网络在第t-1个时间步上的输出结果；第t个时间步上的语义注意力向量是在第t个时间步上对语义特征集合进行注意力机制处理获得的；第t个时间步上的视觉注意力向量是在第t个时间步上对视觉特征集合进行注意力机制处理获得的；注意力融合网络在第t-1个时间步上的输出结果用于指示第t-1个时间步对应的描述词；第t个时间步是n个时间步中的任意一个；1≤t≤n，且t、n均为正整数。n个时间步表示生成目标图像的图像描述信息所需的时间步的数量。

本申请实施例中，在生成图像描述信息时，是在生成一个单词之后，基于生成的这个单词生成下一个单词，其中，生成一个单词所需要的时间称为时间步(Time Step)。可选的，时间步的个数n可以是大于1的非固定值，响应于生成的描述词为指示描述词生成过程结束的词或字符，结束描述词的生成。

本申请实施例中的图像描述信息生成模型是通过样本图像，以及样本图像对应的图像描述信息训练生成的，其中，样本图像的图像描述信息可以是文本信息。

其中，语义注意力向量可以利用多种属性同时强化视觉单词和非视觉单词的生成；视觉单词是指基于图像的像素信息可以直接提取到的单词信息，比如，图像中对应于名词的单词；而非视觉单词则是指代基于图像的像素信息提取概率较低，或者无法直接提取到的单词信息，比如动词，介词等。

视觉注意力向量可以强化视觉单词的生成，在提取图像中的视觉单词上具有良好的表现。图3示出了本申请一示例性实施例示出的基于不同的注意力提取图像中单词信息的示意图，如图3所示，图3中的A部分示出了指定图像在语义注意力机制的作用下获取到的各个单词的权重变化；图3中的B部分示出了同一指定图像在视觉注意力机制的作用下获取到的各个单词的权重变化，对于“people”，“standing”和“table”这三个单词而言，在语义注意力机制下，在各个单词生成的时刻，各个单词对应的权重达到峰值，即语义注意力机制会关注与当前语境相关度最高的单词。对应于“people”，“standing”和“table”，在视觉注意力机制下，在生成视觉单词时，例如“people”和“table”，视觉注意力会聚焦于指定图像中的对应图像区域中，示意性的，如图3所示，在生成“people”时，视觉注意力聚焦于指定图像中包含人脸的区域310，在生成“table”时，视觉注意力聚焦于指定图像中包含桌子的区域320；但在基于视觉注意力机制生成非视觉单词时，比如“standing”，视觉注意力机制聚焦于无关的，有可能产生误导的图像区域330。

因此，为了结合视觉注意力机制在生成视觉词汇上的优势以及语义注意力机制在生成非视觉单词上的优势，在本申请实施例中，将视觉注意力和语义注意力相结合，在能够更为精确地引导视觉单词和非视觉单词的生成的同时，降低了视觉注意力在生成非视觉单词上的干扰，使得图像描述更为完整和充实。

步骤250，基于n个时间步对应的描述词生成目标图像的图像描述信息。

在一种可能的实现方式中，按照指定顺序对n个时间步对应的描述词进行排序，比如顺序排序，生成目标图像的目标图像描述信息。

综上所述，本申请实施例提供的图像描述信息生成方法，通过分别提取目标图像的语义特征集合和视觉特征集合，利用图像描述信息生成模型中的注意力融合网络，实现了对语义特征和视觉特征的注意力融合，使得在生成图像描述信息的各个时间步上，基于目标图像的视觉特征和语义特征在上一个时间步上的输出结果的综合作用，生成当前时间步上目标图像的描述词，进而生成目标图像对应的图像描述信息，使得在图像描述信息的生成过程中，将视觉特征在生成视觉词汇上的优势与语义特征在生成非视觉特征的优势进行互补，从而提高了生成图像描述信息的准确性。

示意性的，本申请实施例所述的方案可以应用且不限于以下场景中：

1、视障人士获取图像信息的场景；

视障人士(即具有视觉障碍的人士)的视觉功能受到一定的损害，因为视觉敏锐度降低或视野受损，以致无法达到正常视力，而影响对视觉信息的获取。比如，当视障人士使用手机查看图文或者视频时，由于无法通过视觉获取到完整的视觉信息内容，需要借助听觉对图像中的信息进行获取，一种可能的方式是，用户通过选中需要查看的内容的所在区域或者区域范围，通过本申请实施例中的图像描述信息生成方法，生成对应于该区域的图像描述信息，并将该图像描述信息由文字信息转化为音频信息进行播放，从而辅助视障人士获取到完整的图像信息。

图4示出了本申请一示例性实施例示出的视频场景下对应的目标图像选择示意图，如图4所示，该目标图像可以是在播放中的视频中基于用户的指定操作获取到的图像，或者，也可以是从直播预览界面实时展示的直播间的动态影像中，基于用户的指定操作获取到的图像，该直播预览界面中展示的动态影像用于辅助用户通过直播间内的实时内容作出是否进入直播间进行观看的决策。在一种可能的实现方式中，用户可以通过单击(指定操作)动态影像的某个区域来确定将该区域中的当前(接收到单击操作时)图像获取为目标图像，为强化显示对目标图像的选择，可以将该区域进行突出显示，比如高亮显示，或者放大显示等等。如图4所示，为将区域410的范围进行高亮显示。

2、早期教育场景；

在早期教育场景中，由于幼儿对物体或文字的认知范围有限，通过图像进行教学会有较好的教学效果，在此场景中，可以通过本申请所示的方法，对幼儿触控的图像进行图像信息描述，从而从视觉和听觉两个方向对幼儿进行信息传输，激发幼儿的学习兴趣，提高信息传输效果。

本申请涉及的方案包括模型训练阶段和图像描述信息生成阶段。图5是根据一示例性实施例示出的一种模型训练阶段和图像描述信息生成阶段的框架图，如图5所示，在模型训练阶段，模型训练设备510，通过预先设置好的训练样本(包括样本图像、样本图像对应的图像描述信息，即顺序排列的描述词)，得到视觉-语义双重注意力(Visual-SemanticDouble Attention，VSDA)模型，即图像描述信息生成模型，该视觉-语义双重注意力模型包括语义注意力网络，视觉注意力网络以及注意力融合网络。在图像描述信息生成阶段，图像描述信息生成设备520基于该视觉-语义双重注意力模型，对输入的目标图像进行处理，获得目标图像对应的图像描述信息。

其中，上述图模型训练设备510和图像描述信息生成设备520可以是计算机设备，比如，该计算机设备可以是个人电脑、服务器等固定式计算机设备，或者，该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。

可选的，上述模型训练设备510和图像描述信息生成设备520可以是同一个设备，或者，模型训练设备510和图像描述信息生成设备520也可以是不同的设备。并且，当模型训练设备510和图像描述信息生成设备520是不同的设备时，模型训练设备510和图像描述信息生成设备520可以是同一类型的设备，比如模型训练设备510和图像描述信息生成设备520可以都是服务器；或者，模型训练设备510和图像描述信息生成设备520也可以是不同类型的设备，比如图像描述信息生成设备520可以是个人电脑或者终端，而模型训练设备510可以是服务器等。本申请实施例对于模型训练设备510和图像描述信息生成设备520的具体类型不做限定。

图6示出了本申请一示例性实施例提供的图像描述信息生成模型的训练方法的流程图，该方法可以由计算机设备执行，该计算机设备可以实现为终端或服务器，该终端或服务器可以是图1所示的终端或服务器，如图6所示，该图像描述信息生成模型的训练方法包括以下步骤：

步骤610，获取样本图像集，该样本图像集包括至少两个图像样本以及该至少两个图像样本分别对应的图像描述信息。

步骤620，基于样本图像集进行训练，获得图像描述信息生成模型。

该图像描述信息生成模型可以是视觉-语义双重注意力模型，包括语义注意力网络、视觉注意力网络以及注意力融合网络，该语义注意网络用于基于目标图像的语义特征集合获得语义注意力向量，该视觉注意力网络用于基于目标图像的视觉特征集合获得视觉注意力向量；该注意力融合网络用于对目标图像的语义特征以及视觉特征进行注意力融合，获得组成目标图像对应的图像描述信息的描述词。

综上所述，本申请实施例提供的图像描述信息生成模型的训练方法，通过基于样本图像集获得包括语义注意力网络、视觉注意力网络以及注意力融合网络的图像描述信息生成模型，使得在生成图像描述信息的过程中，利用上述图像描述信息生成模型，能够基于目标图像的视觉特征和语义特征在上一个时间步上的输出结果的综合作用，生成当前时间步上目标图像的描述词，进而生成目标图像对应的图像描述信息，使得在图像描述信息的生成过程中，将视觉特征在生成视觉词汇上的优势与语义特征在生成非视觉特征的优势进行互补，从而提高了生成图像描述信息的准确性。

在本申请实施例中，模型训练的过程可以由服务器执行，图像描述信息生成的过程可以由服务器或终端执行，当图像描述信息生成的过程由终端执行时，服务器将训练好的视觉-语义双注意力模型发送给终端，以使得终端可以基于视觉-语义双注意力模型对获取的目标图像进行处理，获得目标图像的图像描述信息。以下实施例以模型训练过程与图像描述信息生成过程均由服务器执行为例进行说明。图7示出了本申请一示例性实施例提供的模型训练以及图像描述信息生成方法的流程图，该方法由计算设备执行，如图7所示，该模型训练以及图像描述信息生成方法包括以下步骤：

步骤701，获取样本图像集，该样本图像集包括至少两个图像样本以及该至少两个图像样本分别对应的图像描述信息。

示意性的，各个样本图像对应的图像描述信息可以是由相关人员进行标注的。

步骤702，基于样本图像集进行训练，获得图像描述信息生成模型。

该图像描述信息生成模型为视觉-语义双注意力模型，包括语义注意力网络、视觉注意力网络以及注意力融合网络，该语义注意网络用于基于目标图像的语义特征集合获得语义注意力向量，该视觉注意力网络用于基于目标图像的视觉特征集合获得视觉注意力向量；该注意力融合网络用于对目标图像的语义特征以及视觉特征进行注意力融合，获得组成目标图像对应的图像描述信息的描述词。

在一种可能的实现方式中，该图像描述信息生成模型还包括语义卷积神经网络以及视觉卷积神经网络，其中，该语义卷积神经网络用于对目标图像进行处理，获得目标图像的语义特征向量，以获取该目标图像对应的描述词集合；该视觉卷积神经网络用于对目标图像进行处理，获得该目标图像对应的视觉特征集合。

在一种可能的实现方式中，上述过程实现为：将样本图像集中的各个样本图像输入到图像描述信息生成模型中，获得各个样本图像对应的预测图像描述信息；

基于各个样本图像对应的预测图像描述信息与各个样本图像对应的图像描述信息，计算损失函数值；

基于损失函数值，对图像描述信息生成模型进行参数更新。

由于需要使得图像描述信息生成模型基于样本图像的输出结果(即预测图像描述信息)与样本图像对应的图像描述信息相近，才可以保证图像描述信息生成模型在应用时生成目标图像的图像描述信息的准确性，因此需要在图像描述信息生成模型的训练过程中进行多次训练，更新图像描述信息生成模型中各个网络中的各个参数，直至图像描述信息生成模型收敛。

令θ表示图像描述信息生成模型中涉及的所有参数。给定目标序列(Ground TruthSequence){w₁,w₂,...,w_t}，即目标图像的图像描述信息中的描述词序列，损失函数为最小化交叉熵(Cross Entropy loss)函数，计算图像描述信息生成模型对应的损失函数值：

上式中的

表示图像描述信息生成模型预测的图像描述信息中各个描述词的概率。基于损失函数的计算结果对图像描述信息生成模型中的参数进行调节。

步骤703，获取目标图像。

响应于图像描述信息的生成过程由服务器执行，该目标图像可以是通过终端获取到目标图像后发送给服务器进行图像描述信息获取的图像，相应的，服务器接收该目标图像。

步骤704，获取目标图像的语义特征向量。

在一种可能的实现方式中，将目标图像输入语义卷积神经网络，获得语义卷积神经网络输出的目标图像的语义特征向量。

其中，该语义卷积神经网络可以是全卷积网络(Fully Conventional Network，FCN)，或者，也可以是卷积神经网络(Convolutional Neural Networks，CNN)通过该语义卷积神经网络对目标图像的处理，可以获得该目标图像的粗略的图表示向量，即目标图像的语义特征向量。

对于每个目标图像而言，并不是所有的属性词都对应于该目标图像，若对属性词库中的所有的词都进行概率计算或验证，则会造成过多且不必要的数据处理，因此在进行描述词集合获取之前，先从目标图像中获取的用于指示目标图像属性的语义特征向量，对词汇库中的所有属性词进行筛选，获取其中可能对应于目标图像的属性词集合，即候选描述词集合。

步骤705，基于该语义特征向量，提取目标图像的语义特征集合。

在一种可能的实现方式中，基于语义特征向量，从词汇库中提取目标图像对应的属性词集合；该属性词集合是指对目标图像进行描述的候选描述词的集合；

将属性词集合所对应的词向量集合获取为目标图像的语义特征集合。

该属性词集合中的候选描述词即为与目标图像语境对应的属性词，本申请对属性词集合中的候选描述词的数量不进行限制，其中，候选描述词中可以包括统一单词的不同形式，比如：play，playing，plays等等。

在一种可能的实现方式中，可以通过获取各个词汇的匹配概率的方式从词汇库中筛选候选描述词，该过程实现为：

基于语义特征向量，获取词汇库中各个词汇的匹配概率，该匹配概率是指词汇库中，各个词汇与目标图像相匹配的概率；

提取词汇库中，匹配概率大于匹配概率阈值的词汇为属性词。

在一种可能的实现方式中，可以通过Noisy-OR的方法来计算图像中每个属性单词的概率，为了提高获取到的属性词的精度，可以将该概率阈值获取为0.5，需要说明的是，该概率阈值的设定可以根据实际情况进行调节，本申请对此不进行限制。

为了提高属性词获取的准确性，在一种可能的实现方式中，可以预先训练词汇检测器，用于基于目标图像的特征向量从词汇库中获取属性词，即：

将特征向量输入到词汇检测器中，以使得词汇检测器基于特征向量，从词汇库中提取属性词；

可选的，该词汇检测器是通过多示例学习(Multiple Instance Learning，MIL)的弱监督方法训练获得的词汇检测模型。

步骤706，提取目标图像的视觉特征集合。

在一种可能的实现方式中，将目标图像输入到视觉卷积神经网络中，获取目标图像的视觉特征集合。

在一种可能的实现方式中，在提取目标图像的视觉特征集合之前，可以先对目标图像进行预处理，即：

对目标图像进行子区域划分，获得至少一个子区域；

该提取目标图像的视觉特征集合，包括：

分别提取至少一个子区域的视觉特征，组成视觉特征集合。

其中，对目标图像进行等间距划分，获得至少一个子区域，其中，划分间隔的设置可以基于目标图像尺寸的不同进行不同的划分，本申请对子区域的划分大小不进行限制。

步骤707，通过图像描述信息生成模型中的注意力融合网络，在n个时间步上对目标图像的语义特征和目标图像的视觉特征进行注意力融合，获取n个时间步对应的描述词。

在第t个时间步上，将第t个时间步上的语义注意力向量、第t个时间步上的视觉注意力向量、第t-1个时间步上的隐藏层向量、以及注意力融合网络在第t-1个时间步上的输出结果输入至注意力融合网络，获得注意力融合网络在第t个时间步上的输出结果，以及第t个时间步上的隐藏层向量；

或者，

在第t个时间步上，将第t个时间步上的语义注意力向量、第t个时间步上的视觉注意力向量、以及注意力融合网络在第t-1个时间步上的输出结果输入至注意力融合网络，获得注意力融合网络在第t个时间步上的输出结果，以及第t个时间步上的隐藏层向量。

也就是说，在一种可能的实现方式下，可以通过语义注意力向量和视觉注意力向量作用于上一个时间步的输出结果，获得当前时间步上的输出结果；或者在另一种可能的实现方式中，为了提高获得的各个时间步上的输出结果的准确性，可以基于语义注意力向量，视觉注意力向量，上一个时间步上的隐藏层向量与上一个时间步的输出结果，获得当前时间步的输出结果，即当前时间步对应的描述词的词向量。

其中，为获取目标图像在各个时间步上的描述词，首先要获取目标图像在各个时间步上的注意力向量，该注意力向量包括语义注意力向量和视觉注意力向量。以第t个时间步为例，在获取语义注意力向量时：在第t个时间步上，基于第t-1个时间步对应输出的隐藏层向量，以及目标图像的语义特征集合，生成第t个时间步对应的语义注意力向量。

其中，隐藏层向量指示在生成描述词时对应产生的中间内容，隐藏层向量中包含了用于指示生成下一个描述词的历史信息或者语境信息，从而使得生成的下一个描述词更加符合当前语境。

第t个时间步表示n个时间步中的任意时间步，n表示生成图像描述信息所需的时间步的个数，1≤t≤n，且t、n均为正整数；在生成当前时间步对应的语义注意力向量时，基于上一个时间步输出的隐藏层向量，以及目标图像的语义特征集合，生成当前时间步对应的语义注意力向量。

在一种可能的实现方式中，将第t-1个时间步对应输出的隐藏层向量，以及目标图像的语义特征集合输入图像描述信息生成模型中的语义注意力网络。获得语义注意力网络输出的第t个时间步对应的语义注意力向量。

该语义注意力网络用于基于第t-1个时间步上的隐藏层向量以及语义特征集合，获取语义特征集合中的各个语义特征在第t-1个时间步上的权重；

基于语义特征集合中的各个语义特征在第t-1个时间步上的权重，以及语义特征集合，生成第t个时间步上的语义注意力向量。

其中，各个时间步中对应的语义注意力向量为各个属性词的权重和，计算公式为：

c_t＝b_i·h_t-1

β_t＝softmax(c_t)

b_i＝{b₁,...,.b_L}表示从图像中获取到的属性，L表示属性的长度，即属性词的数量。此处b_i是每个属性词的词向量，c_t表示长期记忆向量，h_t-1表示第t-1个时间步上的隐藏层向量，β_t表示在第t个时间步上对应的各个属性词各自的权重，A_t表示第t个时间步的语义注意力向量。

以第t个时间步为例，在获取视觉注意力向量时：在第t个时间步上，基于第t-1个时间步上的隐藏层向量，以及视觉特征集合，生成第t个时间步上的视觉注意力向量。

在生成当前时间步对应的视觉注意力向量时，基于上一个时间步输出的隐藏层向量，以及目标图像的视觉特征集合，生成当前时间步对应的视觉注意力向量。

在一种可能的实现方式中，将第t-1个时间步对应输出的隐藏层向量，以及目标图像的视觉特征集合输入图像描述信息生成模型中的视觉注意力模型，获得视觉注意力模型输出的第t个时间步对应的语义注意力向量。

该视觉注意力模型用于基于第t-1个时间步上的隐藏层向量以及视觉特征集合，获取视觉特征集合中的各个视觉特征在第t-1个时间步上的权重；

基于视觉特征集合中的各个视觉特征在第t-1个时间步上的权重，以及视觉特征集合，生成第t个时间步上的视觉注意力向量。

其中，各个时间步中对应的视觉注意力向量为各个子区域的视觉特征的权重和，计算公式为：

α_t＝softmax(a_i·h_t-1)

a_i＝{a₁,…,a_m}表示各个子区域的视觉特征，即图像的焦点区域m表示子区域的个数，即提取到的视觉特征的个数，α_t表示各个视觉特征对应的权重，V_t表示第t个时间步的视觉注意力向量。

其中，在计算各个子区域的视觉特征对应的权重时，通过逐元素乘积策略(Element-Wise Multiplication Strategy)进行计算，以获得更好的性能。

由于注意力模型能够捕获到更详细的子区域图像特征，在生成不同物体的描述词汇时，软注意力模型能够自适应地聚焦于对应的区域，性能更佳，因此在本申请实施例中采用软注意力机制作为视觉注意力模型。

视觉注意力模型和语义注意力模型在每个时间步上都会计算对应的特征向量的权重，由于不同时间步中对应的隐藏层向量不同，每个时间步上对应获得的各个特征向量的权重也不相同，使得在各个时间步上关注与各个时间步对应的语境更符合的图像焦点区域以及用于生成图像描述的特征词。

在一种可能的实现方式中，该图像描述信息生成模型中的注意力融合网络可以实现为序列网络，该序列网络包括LSTM(Long Short Term Memory，长短期记忆网络)，Transformer网络等。

以该序列网络为LSTM网络为例，在生成图像描述信息时，将视觉注意力向量V和语义注意力向量A作为LSTM网络的额外输入参数，将这两个注意力特征合并入LSTM单元节点来引导图像描述信息的生成，通过引导图像描述信息生成模型同时关注图像的视觉特征和语义特征，以使得两个特征向量相互补足。

在本申请实施例中，使用BOS和EOS记号分别表示语句的开头和结尾，基于此，LSTM网络基于视觉注意力向量和语义注意力向量生成描述词的公式如下：

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

s_t＝W_sh_t

其中，σ表示sigmoid函数；φ表示带有两个单元的maxout非线性激活函数(

表示单元)；i_t表示input gate，f_t表示forget gate，o_t表示output gate。

LSTM使用一个softmax函数输出下一个单词的概率分布：

w_t～softmax(s_t)

在一种可能的实现方式中，图像描述信息生成模型中的注意力融合网络中设置有超参数，该超参数用以指示视觉注意力向量与语义注意力向量在注意力融合网络中的权重。

由于在图像描述信息的生成过程中，视觉注意力特征与语义注意力特征会在不同的方面对图像描述信息生成模型生成的图像描述信息造成影响，视觉注意力向量V会引导模型去关注图像的相关区域，语义注意力向量A会强化生成关联度最高的属性单词，鉴于这两个注意力向量是相互补足的，因此，通过在注意力融合网络中设置一个超参数以确定两个注意力向量之间的最佳组合方式。仍以该注意力融合网络为LSTM网络为例，更新后的LSTM网络基于视觉注意力向量和语义注意力向量生成描述词的公式如下：

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

s_t＝W_sh_t

其中，z表示超参数，其取值范围为[0.1，0.9]，用以代表两个注意力向量的不同权重，z越大，视觉特征在注意力引导中的权重越大，反之，z越小，语义特征在注意力引导中的权重越大。

需要说明的是，超参数的数值设置可以根据模型在不同权重分配下的表现效果进行设置，本申请对超参数的数值大小不进行限制。

步骤708，基于n个时间步对应的描述词生成目标图像的图像描述信息。

在一种可能的实现方式中，图像描述信息生成模型生成的图像描述信息为固定语言的描述信息，比如为英文的描述信息，为了使得图像描述信息更加适应于不同用户的使用需求，在一种可能的实现方式中，响应于生成的目标图像描述信息为非指定语言描述信息，将生成的目标图像的描述信息更改后指定语言描述信息，比如，图像描述信息生成模型生成的图像描述信息为英文的描述信息，而用户需求的信息为中文信息，那么在视图像描述信息生成模型生成英文的图像描述信息后，将该英文的图像描述信息翻译为中文的图像描述信息后输出。

其中，输出的图像描述信息的语言类型可以由用户根据实际需求进行设置，本申请对图像描述信息的语言类型不进行限制。

在一种可能的实现方式中，由于生成的图像描述信息为文字信息，为了便于用户对图像描述信息的获取，可以基于TTS(Text-To-Speech，语音合成)技术，将图像描述信息转化为语音图像描述信息以语音播放的形式传输给用户。

上述过程可以实现为，服务器将获取到的语音图像描述信息发送给终端，以使得终端根据获取到的语音图像描述信息播放图像描述信息。

综上所述，本申请实施例提供的模型训练以及图像描述信息生成方法，通过分别提取目标图像的语义特征集合和视觉特征集合，利用图像描述信息生成模型中的注意力融合网络，实现了对语义特征和视觉特征的注意力融合，使得在生成图像描述信息的各个时间步上，基于目标图像的视觉特征和语义特征在上一个时间步上的输出结果的综合作用，生成当前时间步上目标图像的描述词，进而生成目标图像对应的图像描述信息，使得在图像描述信息的生成过程中，将视觉特征在生成视觉词汇上的优势与语义特征在生成非视觉特征的优势进行互补，从而提高了生成图像描述信息的准确性；

同时，在语义注意力网络获取各个属性词的权重之前，通过基于图像的特征向量对词汇库中的词汇进行筛选，获取到与图像相关的属性词作为候选描述词，基于候选描述词进行权重计算，从而减少了语义注意力网络的数据处理量，在保证处理精度的同时，降低了图像描述信息生成模型的数据处理压力。

以注意力融合网络为LSTM网络，注意力融合网络的输入包括上一个时间步的隐藏层向量，上一个时间步的输出结果，当前时间步的视觉注意力向量，以及当前时间步的语义注意力向量为例，图8示出了本申请一示例性实施例示出的图像描述信息生成过程的示意图，如图8所示，在获取到目标图像810之后，将目标图像810输入到图像描述信息生成模型820，经过该图像描述信息生成模型820中的语义卷积神经网络821，获得目标图像的语义特征向量，之后，基于单词检测器822获得目标图像对应的候选描述词823，进而获取到目标图像对应的语义特征集合；同时，将目标图像810输入到图像描述信息生成模型820中的视觉卷积神经网络824，获取到目标图像对应的视觉特征集合825；将语义特征集合输入到语义注意力网络826，以使得语义注意力网络826根据输入的上一个时间步输出的隐藏层向量获取当前时间步对应的语义注意力向量A_t，t表示当前时间步，当t＝1时，上一个时间步输出的隐藏层向量为预设的隐藏层向量，相应的，将视觉特征集合输入到视觉注意力网络827，以使得视觉注意力网络827根据输入的上一个时间步输出的隐藏层向量获取当前时间步对应的视觉注意力向量V_t；将视觉注意力向量V_t，语义注意力向量A_t，上一个时间步输出的隐藏层向量以及上一个时间步输出的描述词x_t(即yt-1)，输入到LSTM网络828中，获得LSTM网络828输出的当前时间步对应的描述词y_t，当t＝1时，上一个时间步输出的描述词获取为预设的起始词或字符；重复上述过程直至LSTM网络输出的描述词为终止词或终止字符，将获得的各个描述词顺序排列后获得该目标图像的图像描述信息830。

其中，图9示出了本申请一示例性实施例示出的注意力融合网络的输入输出示意图，如图9所示，在第t时间步时，注意力融合网络910的输入包括，第t-1时间步对应的隐藏层向量h_t-1，基于h_t-1生成的第t时间步对应的视觉注意力向量V_t，基于h_t-1生成的语义注意力向量A_t，以及第t-1时间步输出的描述词的图表示向量(即t-1时间步的输出向量)，注意力融合网络910的输出包括第t时间步的输出向量，以及第t时间步的隐藏层向量(用于生成下一个描述词)。其中，视觉注意力向量是通过视觉注意力网络930基于各个子区域对应的视觉特征的加权和计算得到的，语义注意力向量是通过语义注意力网络920基于各个属性词的加权和计算得到的。

图10示出了本申请一示例性实施例提供的图像描述信息生成装置的框架图，如图10所示，该装置包括：

目标图像获取模块1010，用于获取目标图像；

语义特征提取模块1020，语义提取所述目标图像的语义特征集合；

视觉特征提取摸块1030，用于提取所述目标图像的视觉特征集合；

描述词获取模块1040，用于通过图像描述信息生成模型中的注意力融合网络，在n个时间步上对所述目标图像的语义特征和所述目标图像的视觉特征进行注意力融合，获取所述n个时间步对应的描述词；所述注意力融合网络在第t个时间步上的输入包括所述第t个时间步上的语义注意力向量、所述第t个时间步上的视觉注意力向量、以及所述注意力融合网络在第t-1个时间步上的输出结果；所述第t个时间步上的所述语义注意力向量是在所述第t个时间步上对所述语义特征集合进行注意力机制处理获得的；所述第t个时间步上的所述视觉注意力向量是在所述第t个时间步上对所述视觉特征集合进行注意力机制处理获得的；所述注意力融合网络在所述第t-1个时间步上的所述输出结果用于指示所述第t-1个时间步对应的描述词；所述第t个时间步是所述n个时间步中的任意一个；1≤t≤n，且t、n均为正整数；

图像描述信息生成模块1050，用于基于所述目标图像在所述n个时间步上的描述词，生成所述目标图像的图像描述信息。

在一种可能的实现方式中，所述描述词获取模块1040，用于在所述第t个时间步上，将所述第t个时间步上的所述语义注意力向量、所述第t个时间步上的所述视觉注意力向量、所述第t-1个时间步上的隐藏层向量、以及所述注意力融合网络在第t-1个时间步上的输出结果输入至所述注意力融合网络，获得所述注意力融合网络在所述第t个时间步上的所述输出结果，以及所述第t个时间步上的所述隐藏层向量；

或者，

在一种可能的实现方式中，所述装置还包括：

所述语义注意力生成模块，包括：

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述语义特征提取模块1020，包括：

综上所述，本申请实施例提供的图像描述信息生成装置，通过分别提取目标图像的语义特征集合和视觉特征集合，利用图像描述信息生成模型中的注意力融合网络，实现了对语义特征和视觉特征的注意力融合，使得在生成图像描述信息的各个时间步上，基于目标图像的视觉特征和语义特征在上一个时间步上的输出结果的综合作用，生成当前时间步上目标图像的描述词，进而生成目标图像对应的图像描述信息，使得在图像描述信息的生成过程中，将视觉特征在生成视觉词汇上的优势与语义特征在生成非视觉特征的优势进行互补，从而提高了生成图像描述信息的准确性。

图11示出了本申请一示例性实施例示出的计算机设备1100的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器(Random Access Memory，RAM)1102和只读存储器(Read-Only Memory，ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括用于存储操作系统1109、应用程序1110和其他程序模块1111的大容量存储设备1106。

所述大容量存储设备1106通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1106及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1106可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1106可以统称为存储器。

根据本公开的各种实施例，所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1107连接到网络1108，或者说，也可以使用网络接口单元1107来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，中央处理器1101通过执行该至少一条指令、至少一段程序、代码集或指令集来实现上述各个实施例所示的图像描述信息生成方法中的全部或者部分步骤。

图12示出了本申请一个示例性实施例提供的计算机设备1200的结构框图。该计算机设备1200可以实现为上述的人脸质量评估设备和/或质量评估模型训练设备，比如：智能手机、平板电脑、笔记本电脑或台式电脑。计算机设备1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、12核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的图像描述信息生成方法。

在一些实施例中，计算机设备1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

在一些实施例中，计算机设备1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

本领域技术人员可以理解，图12中示出的结构并不构成对计算机设备1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一示例性实施例中，还提供了一种计算机可读存储介质，用于存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述图像描述信息生成方法中的全部或部分步骤。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2、图6或图7任一实施例所示方法的全部或部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种图像描述信息生成方法，其特征在于，所述方法包括：

获取目标图像；

提取所述目标图像的语义特征集合；

提取所述目标图像的视觉特征集合；

2.根据权利要求1所述的方法，其特征在于，所述通过图像描述信息生成模型中的注意力融合网络，在n个时间步上对所述目标图像的语义特征和所述目标图像的视觉特征进行注意力融合，获取所述n个时间步对应的描述词，包括：

在所述第t个时间步上，将所述第t个时间步上的所述语义注意力向量、所述第t个时间步上的所述视觉注意力向量、所述第t-1个时间步上的隐藏层向量、以及所述注意力融合网络在第t-1个时间步上的输出结果输入至所述注意力融合网络，获得所述注意力融合网络在所述第t个时间步上的所述输出结果，以及所述第t个时间步上的所述隐藏层向量；

或者，

3.根据权利要求2所述的方法，其特征在于，所述注意力融合网络中设置有超参数，所述超参数用以指示所述视觉注意力向量与所述语义注意力向量在所述注意力融合网络中的权重。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述第t个时间步上，基于所述第t-1个时间步上的所述隐藏层向量，以及所述语义特征集合，生成所述第t个时间步上的所述语义注意力向量。

5.根据权利要求4所述的方法，其特征在于，所述在所述第t个时间步上，基于所述第t-1个时间步上的所述隐藏层向量，以及所述语义特征集合，生成所述第t个时间步上的所述语义注意力向量，包括：

基于所述第t-1个时间步上的所述隐藏层向量以及所述语义特征集合，获取所述语义特征集合中的各个语义特征在所述第t-1个时间步上的权重；

基于所述语义特征集合中的各个语义特征在所述第t-1个时间步上的权重，以及所述语义特征集合，生成所述第t个时间步上的所述语义注意力向量。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述第t个时间步上，基于所述第t-1个时间步上的所述隐藏层向量，以及所述视觉特征集合，生成所述第t个时间步上的所述视觉注意力向量。

7.根据权利要求6所述的方法，其特征在于，所述在所述第t个时间步上，基于所述第t-1个时间步上的所述隐藏层向量，以及所述视觉特征集合，生成所述第t个时间步上的所述视觉注意力向量，包括：

基于所述第t-1个时间步上的所述隐藏层向量以及所述视觉特征集合，获取所述视觉特征集合中的各个视觉特征在所述第t-1个时间步上的权重；

基于所述视觉特征集合中的各个视觉特征在所述第t-1个时间步上的权重，以及所述视觉特征集合，生成所述第t个时间步上的所述视觉注意力向量。

8.根据权利要求1所述的方法，其特征在于，所述提取所述目标图像的语义特征集合，包括：

获取所述目标图像的语义特征向量；

基于所述语义特征向量，提取所述目标图像的所述语义特征集合。

9.根据权利要求8所述的方法，其特征在于，所述基于所述语义特征向量，提取所述目标图像的所述语义特征集合，包括：

基于所述语义特征向量，从词汇库中提取所述目标图像对应的属性词集合；所述属性词集合是指对所述目标图像进行描述的候选描述词的集合；

将所述属性词集合所对应的词向量集合，获取为所述目标图像的所述语义特征集合。

10.根据权利要求9所述的方法，其特征在于，所述基于所述语义特征向量，从词汇库中提取所述目标图像对应的属性词，包括：

基于所述语义特征向量，获取所述词汇库中各个词汇的匹配概率，所述匹配概率是指所述词汇库中的各个词汇与所述目标图像相匹配的概率；

11.根据权利要求9所述的方法，其特征在于，所述基于所述语义特征向量，从词汇库中提取所述目标图像对应的属性词，包括：

将所述语义特征向量输入到词汇检测器中，获得所述词汇检测器基于所述语义特征向量从所述词汇库中提取到的所述属性词集合；

12.根据权利要求1所述的方法，其特征在于，在提取所述目标图像的视觉特征集合之前，所述方法还包括：

对所述目标图像进行子区域划分，获得至少一个子区域；

所述提取所述目标图像的视觉特征集合，包括：

分别提取所述至少一个子区域的视觉特征，组成所述视觉特征集合。

13.一种图像描述信息生成装置，其特征在于，所述装置包括：

目标图像获取模块，用于获取目标图像；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条指令、至少一条程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的图像描述信息生成方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至12任一所述的图像描述信息生成方法。