CN114972774A

CN114972774A - 特定区域的图像描述生成方法、装置、设备及存储介质

Info

Publication number: CN114972774A
Application number: CN202210416674.4A
Authority: CN
Inventors: 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-08-30
Anticipated expiration: 2042-04-20
Also published as: CN114972774B

Abstract

本申请涉及人工智能技术，提供了一种特定区域的图像描述生成方法、装置、设备及存储介质，方法包括：获取全局图像；基于预训练的第一特征提取网络模型对全局图像进行全局特征提取，得到全局图像特征图；基于预训练的第二特征提取网络模型对全局图像特征图进行局部特征提取，得到局部图像特征图；分别对全局图像特征图和局部图像特征图进行维度统一提取，得到全局图像特征向量和局部图像特征向量；对全局图像特征向量和局部图像特征向量进行融合，得到最终图像特征向量；基于预训练文本生成网络模型对最终图像特征向量进行文本生成，得到特定区域描述文本，通过上述技术方案能够提高特定区域的图像文本描述的准确率。

Description

特定区域的图像描述生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及但不限于图像处理技术领域，尤其涉及一种特定区域的图像描述生成方法、装置、设备及存储介质。

背景技术

图像描述生成是图像处理中具有重要应用价值的一个领域；对于图像描述生成，当前多为针对整幅图像进行描述文本生成或者在特定区域下的文本生成；其中，基于编码-解码模型能够较好地抽取图像全局特征但是对于局部特征的提取就会有所遗漏，基于目标检测模型可以提取目标所在局部区域特征，但是欠缺局部特征之间的联系，进而使得特定局部区域的图像文本描述不够正确。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

为了解决上述背景技术中提到的问题，本申请实施例提供了一种特定区域的图像描述生成方法、装置、设备及存储介质，能够提高特定区域的图像文本描述的准确率。

第一方面，本申请实施例提供了一种特定区域的图像描述生成方法，包括：

获取全局图像；

基于预训练的第一特征提取网络模型对所述全局图像进行全局特征提取，得到全局图像特征图；

基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取，得到局部图像特征图；

分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取，得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征图的局部图像特征向量；

对所述全局图像特征向量和所述局部图像特征向量进行融合，得到最终图像特征向量；

基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成，得到特定区域描述文本。

根据本申请提供的实施例的特定区域的图像描述生成方法，至少具有如下有益效果：首先获取全局图像；接着基于预训练的第一特征提取网络模型对获取到的全局图像进行全局特征提取处理，进而得到全局图像特征图；接着基于预训练的第二特征提取网络模型对全局图像特征图进行局部特征提取，进而得到局部图像特征图；接着分别对上述得到的全局图像特征图和局部图像特征图进行维度统一提取处理，进而分别得到全局图像特征向量和局部图像特征向量；接着对全局图像特征向量和局部图像特征向量进行融合处理，得到最终图像特征向量；最后将最终图像特征向量输入至预训练的文本生成网络模型进行文本生成，从而得到特定区域描述文本。本实施例将全局图像特征向量和局部图像特征向量进行融合处理，使得后续的文本生成过程既包括全局图像的相关信息又包括局部图像的相关信息，使得全局图像特征向量和局部图像特征向量两者之间建立联系，进而能够提高特定区域的图像文本描述的准确率。

根据本申请的一些实施例，所述基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取，得到局部图像特征图，包括：

基于预训练的第二特征提取网络模型对所述全局图像特征图进行选择性搜索，得到至少一个候选框图；

对各个所述候选框图分别进行第一特征提取，得到各个所述候选框图对应的候选特征图；

基于所述候选特征图对所述候选框图进行回归调整，得到精确候选框图；

基于预训练的第二特征提取网络模型对所述精确候选框图进行第二特征提取，得到所述局部图像特征图。

根据本申请的一些实施例，所述分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取，得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征的局部图像特征向量，包括：

对所述全局图像特征图和所述局部图像特征图进行映射处理，得到映射特征图谱；

基于所述映射特征图谱，分别对所述全局图像特征图和所述局部图像特征图进行最大池化操作得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征的局部图像特征向量。

根据本申请的一些实施例，所述文本生成网络模型包括注意力网络模型和长短期记忆网络模型，所述基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成，得到特定区域描述文本，包括：

基于所述注意力网络模型对所述全局图像特征向量和所述局部图像特征向量进行计算，得到当前文本状态信息；以及基于所述长短期记忆网络模型对所述最终图像特征向量进行计算，得到初始文本信息；

基于所述长短期记忆网络模型对所述当前文本状态信息和所述初始文本信息进行计算，得到当前文本信息；

基于所述长短期记忆网络模型对所述当前文本信息进行文本生成，得到所述特定区域描述文本。

根据本申请的一些实施例，所述基于所述长短期记忆网络模型对所述当前文本信息进行文本生成，得到所述特定区域描述文本之后，还包括：

基于所述注意力网络模型对新的所述全局图像特征向量和新的所述局部图像特征向量进行计算，得到新的所述当前文本状态信息；

基于所述长短期记忆网络模型对新的所述当前文本状态信息和前一时刻得到的所述当前文本信息进行计算，得到新的所述当前文本信息；

基于所述长短期记忆网络模型对新的所述当前文本信息进行文本生成，得到新的所述特定区域描述文本。

根据本申请的一些实施例，所述对所述全局图像特征向量和所述局部图像特征向量进行融合，得到最终图像特征向量，包括：

基于权重融合函数对所述全局图像特征向量和所述局部图像特征向量进行融合，得到所述最终图像特征向量。

根据本申请的一些实施例，所述对所述全局图像特征图和所述局部图像特征图进行映射处理，得到映射特征图谱，包括：

基于双线性插值算法对所述全局图像特征图和所述局部图像特征图进行映射处理，得到映射特征图谱。

第二方面，本申请实施例还提供了一种特定区域的图像描述生成装置，包括：

第一处理模块，用于获取全局图像；

第二处理模块，用于基于预训练的第一特征提取网络模型对所述全局图像进行全局特征提取，得到全局图像特征图；

第三处理模块，用于基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取，得到局部图像特征图；

第四处理模块，用于分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取，得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征图的局部图像特征向量；

第五处理模块，用于对所述全局图像特征向量和所述局部图像特征向量进行融合，得到最终图像特征向量；

第六处理模块，用于基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成，得到特定区域描述文本。

第三方面，本申请实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的特定区域的图像描述生成方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上第一方面所述的特定区域的图像描述生成方法。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请一个实施例提供的特定区域的图像描述生成方法的流程图；

图2是本申请一个实施例提供的特定区域的图像描述生成方法中，提取局部图像特征图的流程图；

图3是本申请一个实施例提供的特定区域的图像描述生成方法中，生成局部图像特征向量的流程图；

图4是本申请一个实施例提供的特定区域的图像描述生成方法中，生成特定区域描述文本的流程图；

图5是本申请一个实施例提供的特定区域的图像描述生成方法中，生成新的特定区域描述文本的流程图；

图6是本申请一个实施例提供的特定区域的图像描述生成方法中，生成最终图像特征向量的流程图；

图7是本申请一个实施例提供的特定区域的图像描述生成方法中，生成映射特征图谱的流程图；

图8是本申请一个实施例提供的特定区域的图像描述生成装置的示意图；

图9是本申请一个实施例提供的电子设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要注意的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

需要说明的是，除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

AI是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

人工智能技术所涉及的服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请提供了一种特定区域的图像描述生成方法及装置、电子设备及计算机可读存储介质，通过首先获取全局图像；接着基于预训练的第一特征提取网络模型对获取到的全局图像进行全局特征提取处理，进而得到全局图像特征图；接着基于预训练的第二特征提取网络模型对全局图像特征图进行局部特征提取，进而得到局部图像特征图；接着分别对上述得到的全局图像特征图和局部图像特征图进行维度统一提取处理，进而分别得到全局图像特征向量和局部图像特征向量；接着对全局图像特征向量和局部图像特征向量进行融合处理，得到最终图像特征向量；最后将最终图像特征向量输入至预训练的文本生成网络模型进行文本生成，从而得到特定区域描述文本。本实施例将全局图像特征向量和局部图像特征向量进行融合处理，使得后续的文本生成过程既包括全局图像的相关信息又包括局部图像的相关信息，使得全局图像特征向量和局部图像特征向量两者之间建立联系，进而能够提高特定区域的图像文本描述的准确率。

本申请实施例提供的特定区域的图像描述生成方法，涉及人工智能技术领域。本申请实施例提供的特定区域的图像描述生成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现特定区域的图像描述生成方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

下面结合附图，对本申请实施例作进一步阐述。

如图1所示，图1是本申请一个实施例提供的特定区域的图像描述生成方法的流程图，该特定区域的图像描述生成方法包括但不限于步骤S100至S600。

步骤S100，获取全局图像；

步骤S200，基于预训练的第一特征提取网络模型对全局图像进行全局特征提取，得到全局图像特征图；

步骤S300，基于预训练的第二特征提取网络模型对全局图像特征图进行局部特征提取，得到局部图像特征图；

步骤S400，分别对全局图像特征图和局部图像特征图进行维度统一提取，得到对应全局图像特征图的全局图像特征向量和对应局部图像特征图的局部图像特征向量；

步骤S500，对全局图像特征向量和局部图像特征向量进行融合，得到最终图像特征向量；

步骤S600，基于预训练的文本生成网络模型对最终图像特征向量进行文本生成，得到特定区域描述文本。

需要说明的是，首先获取全局图像；接着基于预训练的第一特征提取网络模型对获取到的全局图像进行全局特征提取处理，进而得到全局图像特征图；接着基于预训练的第二特征提取网络模型对全局图像特征图进行局部特征提取，进而得到局部图像特征图；接着分别对上述得到的全局图像特征图和局部图像特征图进行维度统一提取处理，进而分别得到全局图像特征向量和局部图像特征向量；接着对全局图像特征向量和局部图像特征向量进行融合处理，得到最终图像特征向量；最后将最终图像特征向量输入至预训练的文本生成网络模型进行文本生成，从而得到特定区域描述文本。本实施例将全局图像特征向量和局部图像特征向量进行融合处理，使得后续的文本生成过程既包括全局图像的相关信息又包括局部图像的相关信息，使得全局图像特征向量和局部图像特征向量两者之间建立联系，进而能够提高特定区域的图像文本描述的准确率。

值得注意的是，全局图像可以为一张电子化的图片；或者原来为一张实物图片，但通过摄像工具对实物图片里面的内容进行拍摄从而变为电子化的图片均属于本实施例所指代的全局图像。

可以理解的是，预训练网络模型即为预先已经完成训练的，能够直接得出最后运算结果的网络模型，该网络模型中的参数不需要再进行前期的训练反馈调整处理。其中，本实施中的第一特征提取网络模型可以为卷积神经网络，该卷积神经网络可以设定有13层卷积层、3层全连接层和5层池化层。第二特征提取网络模型可以为快速区域全卷积神经网络(Faster Region-based Convolutional Neural Networks,Faster R-CNN)模型；FasterR-CNN是2015年提出的一个经典的检测结构，它将传统的提取目标的方法替换成网络训练来实现，使得全流程的检测、分类速度大幅提升。

需要说明的是，分别对全局图像特征图和局部图像特征图进行维度统一提取，得到对应全局图像特征图的全局图像特征向量和对应局部图像特征图的局部图像特征向量；对全局图像特征图和局部图像特征图进行维度统一提取处理，主要是为了解决全局图像特征图和局部图像特征图的各区域特征空间维度不一致的问题。

值得注意的是，对全局图像特征向量和局部图像特征向量进行融合，得到最终图像特征向量；使得得到的最终图像特征向量既包括全局图像的信息又包括局部图像的信息，将局部图像的信息与全局图像的信息进行融合关联，使得后续的描述文本生成更加准确。

可以理解的是，特定区域描述文本可以为对图像中的物体描述；示例性地，图像中存在多种动物，包括狗、猫、鸡等，特征区域描述文本可以对图像中的狗、猫和鸡等动物分别进行名称标注。

在图2的示例中，步骤S300包括但不限于步骤S310至S340。

步骤S310，基于预训练的第二特征提取网络模型对全局图像特征图进行选择性搜索，得到至少一个候选框图；

步骤S320，对各个候选框图分别进行第一特征提取，得到各个候选框图对应的候选特征图；

步骤S330，基于候选特征图对候选框图进行回归调整，得到精确候选框图；

步骤S340，基于预训练的第二特征提取网络模型对精确候选框图进行第二特征提取，得到局部图像特征图。

需要说明的是，在提取得到局部图像特征图的过程中首先基于预训练的第二特征提取网络模型对全局图像特征图进行选择性搜索，得到至少一个候选框图；接着上述得到的各个候选框图分别进行第一特征提取，得到各个候选框图对应的候选特征图；接着基于候选特征图对候选框图进行回归调整，得到精确候选框图；最后基于预训练的第二特征提取网络模型对精确候选框图进行第二特征提取，得到局部图像特征图，为后续的全局图像特征向量和局部图像特征向量融合做好前提准备。

示例性地，基于Faster R-CNN模型进行局部特征信息的提取，为了更好覆盖到图像空间特征，引入边界框进行编码，使用四个坐标

表示候选框图和精确候选框图的位置信息，四个参数分别代表锚框的中心点坐标和宽高，通过线性回归学习四个标量，使候选框图不断逼近精确候选框图。Faster R-CNN中的ROI pooling层用于确定具有目标区域的特征图，将提取到的区域信息通过全连接层于softmax计算每个区域的具体类别，并输出概率向量，利用边界框回归得到每个区域的位置偏移量，回归得到精确候选框图，经池化层提取后的局部图像特征图。

在图3的示例中，步骤S400包括但不限于步骤S410至S420。

步骤S410，对全局图像特征图和局部图像特征图进行映射处理，得到映射特征图谱；

步骤S420，基于映射特征图谱，分别对全局图像特征图和局部图像特征图进行最大池化操作得到对应全局图像特征图的全局图像特征向量和对应局部图像特征的局部图像特征向量。

需要说明的是，首先对全局图像特征图和局部图像特征图进行映射处理，得到映射特征图谱；接着基于映射特征图谱，分别对全局图像特征图和局部图像特征图进行最大池化操作得到对应全局图像特征图的全局图像特征向量和对应局部图像特征的局部图像特征向量，为了后续的特征融合做好前提准备。维度统一提取，很好地解决全局图像特征图和局部图像特征图的各区域特征空间维度不一致的问题。

在一些实施例中，文本生成网络模型包括注意力网络模型和长短期记忆网络模型，在图4的示例中，步骤S600包括但不限于步骤S610至S630。

步骤S610，基于注意力网络模型对全局图像特征向量和局部图像特征向量进行计算，得到当前文本状态信息；以及基于长短期记忆网络模型对最终图像特征向量进行计算，得到初始文本信息；

步骤S620，基于长短期记忆网络模型对当前文本状态信息和初始文本信息进行计算，得到当前文本信息；

步骤S630，基于长短期记忆网络模型对当前文本信息进行文本生成，得到特定区域描述文本。

需要说明的是，在进行文本生成的过程中，首先基于注意力网络模型对全局图像特征向量和局部图像特征向量进行计算，得到当前文本状态信息；以及基于长短期记忆网络模型对最终图像特征向量进行计算，得到初始文本信息；接着基于长短期记忆网络模型对当前文本状态信息和初始文本信息进行计算，得到当前文本信息；最后基于长短期记忆网络模型对当前文本信息进行文本生成，得到特定区域描述文本。

值得注意的是，对于图像描述生成的一般任务，译码部分的输入为编码部分输出的图像特征向量，译码部分的长短期记忆网络模型在图像描述文本生成中，生成第t个单词时需要前一时刻隐藏层状态以及当前时刻输入，通过上一时刻隐藏层状态和当前时刻输入可以获得长短期记忆网络模型中三个门控状态：输入门、输出门、遗忘门。通过长短期记忆网络模型三个门可以决定多少当前时刻信息被保留，以及多少过去信息被丢弃。

值得注意的是，在长短期记忆网络模型中，由于为了针对特定区域进行图像描述生成，故译码部分的不仅有全局图像特征还有选定局部区域特征融合，在长短期记忆网络模型进行文本生成的过程中，不能只考虑到不同时刻状态信息的保留和变化，同时应该考虑到哪一部分(全局特征还是局部特征)对于生成下一时刻单词有更大的作用。为了更好地对特定区域图像进行描述，由此在长短期记忆网络模型部分中引入了注意力网络模型。

对比一般长短期记忆网络模型进行图像描述生成任务，本模型译码部分输入为全局特征向量和局部特征向量，引用注意力网络模型在生成描述的过程中为全局特征和局部特征赋予不同的权重；对比一般长短期记忆网络模型在生成图像第t个单词描述时需要前一时刻隐藏层状态以及当前时刻输入，本长短期记忆网络模型也需要前一时刻隐藏层状态，但是当前时刻输入被替换成上一时刻输入以及基于注意力分数的语境向量，通过对全局以及局部特征进行权重计算以生成语境向量表示不同特征对于文本生成的影响力，再结合原先输入，使得针对特定区域的描述既能准确包含局部特征信息，同时贴合全局图像内容。

示例性地，注意力网络模型的具体处理过程可以如下所示：将全局图像特征信息和局部图像特征信息输入到注意力模型中得到当前文本状态信息；当前文本状态信息c_t可以表示为C_t＝a_sS_feat+a_gG_feat,a_s,a_g分别对应局部特征图和全局特征图的attention得分，G_feat表示全局图像特征向量，S_feat表示局部图像特征向量。

在图5的示例中，在步骤S630之后还可以包括但不限于步骤S640至S660。

步骤S640，基于注意力网络模型对新的全局图像特征向量和新的局部图像特征向量进行计算，得到新的当前文本状态信息；

步骤S650，基于长短期记忆网络模型对新的当前文本状态信息和前一时刻得到的当前文本信息进行计算，得到新的当前文本信息；

步骤S660，基于长短期记忆网络模型对新的当前文本信息进行文本生成，得到新的特定区域描述文本。

需要说明的是，在得到一个特定区域描述文本之后，为了得到其他新的特定区域描述文本，就可以继续进行后续的特定区域描述文本生成操作。首先基于注意力网络模型对新的全局图像特征向量和新的局部图像特征向量进行计算，得到新的当前文本状态信息；接着基于长短期记忆网络模型对新的当前文本状态信息和前一时刻得到的当前文本信息进行计算，得到新的当前文本信息；最后基于长短期记忆网络模型对新的当前文本信息进行文本生成，得到新的特定区域描述文本。

可以理解的是，为了能够得到新的特定区域描述文本可以循环执行上述的步骤S640至S660，只需要对全局图像特征向量、局部图像特征向量和当前文本信息进行更新即可，使得特定区域描述文本的生成更加简便快捷可靠。

在图6的示例中，步骤S500包括但不限于步骤S510。

步骤S510，基于权重融合函数对全局图像特征向量和局部图像特征向量进行融合，得到最终图像特征向量。

需要说明的是，可以基于权重融合函数对全局图像特征向量和局部图像特征向量进行融合，得到最终图像特征向量。示例性地，权重融合函数可以表示为f＝[αS_feat；(1-α)G_feat)]，α∈[0.5，1.0]，G_feat表示全局图像特征信息，S_feat表示局部图像特征信息，α表示调整参数；当α取值为0.5时意味全局特征和局部特征同等重要，当α取值为1.0时意味当前时刻文本生成只考虑局部特征信息，当α取值为0.66时意味对于局部特征信息的考虑为全局特征信息的两倍；只需要对调整参数进行修改，就能够方便快捷地控制局部特征和全局特征对生成文本的影响程度，使得控制过程简单方便。

在图7的示例中，步骤S410包括但不限于步骤S411。

步骤S411，基于双线性插值算法对全局图像特征图和局部图像特征图进行映射处理，得到映射特征图谱。

需要说明的是，基于双线性插值算法对全局图像特征图和局部图像特征图进行映射处理，得到映射特征图谱。

需要说明的是，在数学上，双线性插值是有两个变量的插值函数的线性插值扩展，其核心思想是在两个方向分别进行一次线性插值。

另外，如图8所示，本申请的一个实施例还提供了一种特定区域的图像描述生成装置10，包括：

第一处理模块100，用于获取全局图像；

第二处理模块200，用于基于预训练的第一特征提取网络模型对全局图像进行全局特征提取，得到全局图像特征图；

第三处理模块300，用于基于预训练的第二特征提取网络模型对全局图像特征图进行局部特征提取，得到局部图像特征图；

第四处理模块400，用于分别对全局图像特征图和局部图像特征图进行维度统一提取，得到对应全局图像特征图的全局图像特征向量和对应局部图像特征图的局部图像特征向量；

第五处理模块500，用于对全局图像特征向量和局部图像特征向量进行融合，得到最终图像特征向量；

第六处理模块600，用于基于预训练的文本生成网络模型对最终图像特征向量进行文本生成，得到特定区域描述文本。

在一实施例中，首先获取全局图像；接着基于预训练的第一特征提取网络模型对获取到的全局图像进行全局特征提取处理，进而得到全局图像特征图；接着基于预训练的第二特征提取网络模型对全局图像特征图进行局部特征提取，进而得到局部图像特征图；接着分别对上述得到的全局图像特征图和局部图像特征图进行维度统一提取处理，进而分别得到全局图像特征向量和局部图像特征向量；接着对全局图像特征向量和局部图像特征向量进行融合处理，得到最终图像特征向量；最后将最终图像特征向量输入至预训练的文本生成网络模型进行文本生成，从而得到特定区域描述文本。本实施例将全局图像特征向量和局部图像特征向量进行融合处理，使得后续的文本生成过程既包括全局图像的相关信息又包括局部图像的相关信息，使得全局图像特征向量和局部图像特征向量两者之间建立联系，进而能够提高特定区域的图像文本描述的准确率。

另外，如图9所示，本申请的一个实施例还提供了一种电子设备700，该设备包括：存储器710、处理器720及存储在存储器710上并可在处理器720上运行的计算机程序。

处理器720和存储器710可以通过总线或者其他方式连接。

实现上述实施例的特定区域的图像描述生成方法所需的非暂态软件程序以及指令存储在存储器710中，当被处理器720执行时，执行上述各实施例的特定区域的图像描述生成方法，例如，执行以上描述的图1中的方法步骤S100至S600、图2中的方法步骤S310至S340、图3中的方法步骤S410至S420、图4中的方法步骤S610至S630、图5中的方法步骤S640至S660、图6中的方法步骤S100至S600、图7中的方法步骤S411至S420。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本申请的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器720或控制器执行，例如，被上述设备实施例中的一个处理器720执行，可使得上述处理器720执行上述实施例中的特定区域的图像描述生成方法，例如，执行以上描述的图1中的方法步骤S100至S600、图2中的方法步骤S310至S340、图3中的方法步骤S410至S420、图4中的方法步骤S610至S630、图5中的方法步骤S640至S660、图6中的方法步骤S100至S600、图7中的方法步骤S411至S420。

上述各实施例可以结合使用，不同实施例之间名称相同的模块可相同可不同。

上述对本申请特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的装置、设备、计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(Flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(Transitory Media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种特定区域的图像描述生成方法，其特征在于，所述方法包括：

获取全局图像；

2.根据权利要求1所述的特定区域的图像描述生成方法，其特征在于，所述基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取，得到局部图像特征图，包括：

3.根据权利要求1所述的特定区域的图像描述生成方法，其特征在于，所述分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取，得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征的局部图像特征向量，包括：

4.根据权利要求1所述的特定区域的图像描述生成方法，其特征在于，所述文本生成网络模型包括注意力网络模型和长短期记忆网络模型，所述基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成，得到特定区域描述文本，包括：

5.根据权利要求4所述的特定区域的图像描述生成方法，其特征在于，所述基于所述长短期记忆网络模型对所述当前文本信息进行文本生成，得到所述特定区域描述文本之后，所述方法还包括：

6.根据权利要求1所述的特定区域的图像描述生成方法，其特征在于，所述对所述全局图像特征向量和所述局部图像特征向量进行融合，得到最终图像特征向量，包括：

7.根据权利要求3所述的特定区域的图像描述生成方法，其特征在于，所述对所述全局图像特征图和所述局部图像特征图进行映射处理，得到映射特征图谱，包括：

8.一种特定区域的图像描述生成装置，其特征在于，所述装置包括：

第一处理模块，用于获取全局图像；

9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的特定区域的图像描述生成方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至7中任意一项所述的特定区域的图像描述生成方法。