CN113792175A

CN113792175A - 一种基于细粒度特征提取的图像理解方法

Info

Publication number: CN113792175A
Application number: CN202110967584.XA
Authority: CN
Inventors: 俞文心; 张志强; 丁劲皓; 凌德玉; 车璐; 龚俊
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-12-14

Abstract

本发明公开一种基于细粒度特征提取的图像理解方法，包括步骤：对输入图像进行特征提取；基于提取特征进行图像子区域定位，对每一个子定位区域提取对应的区域特征；然后基于所述区域特征生成各自的区域描述信息；将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。本发明采用细粒度的特征提取方式实现更准确的区域定位从而促进区域内容描述的准确性。同时本发明对所有合成的图像区域内容描述进行统一的整合并生成几句更高准确度的长文本描述，提高图像充分理解技术的实用性。同时本发明也能够使机器更好的理解图像内容并为人类提供更好的服务，这对于促进机器更加智能具有重大作用。

Description

一种基于细粒度特征提取的图像理解方法

技术领域

本发明属于图像处理技术领域，特别是涉及一种基于细粒度特征提取的图像理解方法。

背景技术

图像理解是根据图像给出能够描述图像内容的自然语言语句，它类似于看图说话，即直接描述看到的图像内容。图像理解技术的本质是从视觉到语言的翻译，这对于人类来说是一件比较简单的任务，但对于机器来说却极具挑战。与人类直接看到的图像、文本信息不同，机器接收到的信息都是二进制的数据，在它看来并无明显区别，因此让它在两种不同形式的信息之间进行翻译是十分困难的。近几年随着人工智能中深度学习技术的发展，结合深度卷积神经网络和循环神经网络的技术在图像理解方面取得了成功。对于输入的图像，该技术能够生成较为准确的文本描述。图像理解技术目前正朝着全方位理解的方向去发展，即对输入图像的各个区域内容进行文本描述从而实现图像内容的充分理解。图像充分理解技术能够较好的帮助人们更好的理解图像内容，发现一些人们不易观察到的细节内容。这对于提高图像理解技术的实用性以及推广相关图像理解系统和软件均具有良好的促进作用。

现有的大多数图像理解技术最大的缺点在于只能基于输入的图像生成一句对应的文本描述，这使得当前的技术对图像内容理解程度有限从而不具有良好的实用性。当前有些方法能够基于输入的图像进行密集的文本生成，即先对输入图像的显著性区域进行定位，然后对每个定位的区域内容进行文本描述从而实现图像的充分理解。然后当前的这种做法在区域内容描述的准确率上仍有进一步提升的空间，另一方面当前的区域描述内容均为简单的短语，缺少对所有区域描述进行有效整合。这些使得当前图像充分理解技术的实用效果较差。

发明内容

为了解决上述问题，本发明提出了一种基于细粒度特征提取的图像理解方法，采用细粒度的特征提取方式实现更准确的区域定位从而促进区域内容描述的准确性。同时本发明对所有合成的图像区域内容描述进行统一的整合并生成几句更高准确度的长文本描述，提高图像充分理解技术的实用性。同时本发明也能够使机器更好的理解图像内容并为人类提供更好的服务，这对于促进机器更加智能具有重大作用。

为达到上述目的，本发明采用的技术方案是：一种基于细粒度特征提取的图像理解方法，包括步骤：

S10,对输入图像进行特征提取；

S20,基于提取特征进行图像子区域定位，对每一个子定位区域提取对应的区域特征；然后基于所述区域特征生成各自的区域描述信息；

S30,将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。

进一步的是，在所述步骤S10中：利用卷积神经网络对对输入图像进行特征提取，获取输入图像的特征。

进一步的是，在所述步骤S20中：通过区域建议网络将输入图像的特征进行图像子区域定位。

进一步的是，在所述步骤S20中：对每个子定位区域通过卷积神经网络进行区域特征提取。

进一步的是，在所述步骤S20中：对每个子定位区域的区域特征通过循环神经网络生成各自的区域描述信息。

进一步的是，在步骤S30中,将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述，包括步骤：对第i个长文本描述的生成是在第i个区域描述信息的基础上使用其他所有的区域描述去合成的。

进一步的是，利用卷积神经网络将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。

采用本技术方案的有益效果：

本发明使用细粒度的特征提取方法去提升图像理解的准确率，对图像充分理解后的密集区域内容描述进行了统一性的整合，基于将这些区域描述内容去生成多句准确度更高的长文本描述。本发明在提高图像理解的准确率的同时大幅度提高了图像理解技术的实用性，能够起到辅助人们更好理解图像内容的作用。

本发明能够很好的帮助人们更快更准确的理解图像的所有内容，这可以让人们节省图像全部内容理解的时间。如此就能够更好的推广图像理解系统和软件。

附图说明

图1为本发明的一种基于细粒度特征提取的图像理解方法流程示意图；

图2为本发明实施例中一种基于细粒度特征提取的图像理解方法的原理示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。

在本实施例中，参见图1和图2所示，本发明提出了一种基于细粒度特征提取的图像理解方法，包括步骤：

S10，对输入图像进行特征提取；

S20，基于提取特征进行图像子区域定位，对每一个子定位区域提取对应的区域特征；然后基于所述区域特征生成各自的区域描述信息；

S30，将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。

作为上述实施例的优化方案，在所述步骤S10中：利用卷积神经网络对对输入图像进行特征提取，获取输入图像的特征。

作为上述实施例的优化方案，在所述步骤S20中：通过区域建议网络将输入图像的特征进行图像子区域定位；对每个子定位区域通过卷积神经网络进行区域特征提取；对每个子定位区域的区域特征通过循环神经网络生成各自的区域描述信息。

图像特征提取、区域定位、区域特征提取和区域描述生成的具体过程如式：

fea_image＝CNN(I)；

L＝RPN(fea_image)；

fea_reigon_i＝CNN(li)；

cap_reigon_i＝RNN(fea_reigon_i)。

其中I表示输入的图像；fea_image表示提取到的图像特征；L表示区域定位的结果；li表示的是第i个定位区域；fea_reigon_i和cap_reigon_i分别表示第i个区域对应的特征和生成的区域描述；CNN、RPN和RNN分别表示卷积神经网络、区域建议网络和循环神经网络。

作为上述实施例的优化方案，在步骤S30中，将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述，包括步骤：对第i个长文本描述的生成是在第i个区域描述信息的基础上使用其他所有的区域描述去合成的。这样做的好处在于可以在有针对性的前提下充分利用所有的区域描述内容去生成更为准确的图像理解结果。

利用卷积神经网络将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。

具体的统一整合过程如式：

long_cap_i＝RNN(cap_reigon_1，...，cap_reigon_(i-1)，cap_reigon_(i+1)，...，cap_reigon_n|cap_reigon_i)。

第i个长文本描述的生成是在第i个区域描述的基础上使用其他所有的区域描述去合成的。这样做的好处在于可以在有针对性的前提下充分利用所有的区域描述内容去生成更为准确的图像理解结果。

具体实施例可采用：

一、图像理解系统

提供网页系欸按的图像理解系统，在系统中用户可以上传图像，然后系统根据上传的图像自动生成对应的文本内容并展示在网页之中。以这种方式帮助人们快速理解图像的所有内容。

二、图像理解软件

该软件包含两个部分：图像理解、图像剖析。

采用本发明形成的图像理解软件允许用户在软件之中选择本地的图像，然后软件可以自动合成对应的文本描述结果。生成的文本结果将直接在软件之中进行展示从而让用户快速理解到图像的内容。同时用户可以选择图像剖析功能，软件可以展示在生成文本描述过程中的阶段性结果，即展示图像中的显著区域定位结果、每个定位区域的描述内容以及基于区域描述内容生成的几句长文本结果。这种方式可以让用户充分的理解到图像中包含哪些重要区域以及重要区域的内容，同时还可以了解到图像的整体内容。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于细粒度特征提取的图像理解方法，其特征在于，包括步骤：

S10,对输入图像进行特征提取；

2.根据权利要求1所述的一种基于细粒度特征提取的图像理解方法，其特征在于，在所述步骤S10中：利用卷积神经网络对对输入图像进行特征提取，获取输入图像的特征。

3.根据权利要求2所述的一种基于细粒度特征提取的图像理解方法，其特征在于，在所述步骤S20中：通过区域建议网络将输入图像的特征进行图像子区域定位。

4.根据权利要求3所述的一种基于细粒度特征提取的图像理解方法，其特征在于，在所述步骤S20中：对每个子定位区域通过卷积神经网络进行区域特征提取。

5.根据权利要求4所述的一种基于细粒度特征提取的图像理解方法，其特征在于，在所述步骤S20中：对每个子定位区域的区域特征通过循环神经网络生成各自的区域描述信息。

6.根据权利要求1-5中任一所述的一种基于细粒度特征提取的图像理解方法，其特征在于，在步骤S30中,将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述，包括步骤：对第i个长文本描述的生成是在第i个区域描述信息的基础上使用其他所有的区域描述去合成的。

7.根据权利要求6所述的一种基于细粒度特征提取的图像理解方法，其特征在于，利用卷积神经网络将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。