CN107391505B

CN107391505B - 一种图像处理方法及系统

Info

Publication number: CN107391505B
Application number: CN201610322369.3A
Authority: CN
Inventors: 张俊格
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2016-05-16
Filing date: 2016-05-16
Publication date: 2020-10-23
Anticipated expiration: 2036-05-16
Also published as: CN107391505A

Abstract

本发明实施例公开了一种图像处理方法，包括：通过卷积神经网络CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征；从所述语义文本特征中提取出第一空间结构信息；根据所述空间结构信息分析所述图像CNN特征，获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。本发明还公开一种图像处理系统，采用本发明，可以直接从图像CNN特征中获得空间结构信息，从而帮助人们进一步理解CNN特征，可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益。

Description

一种图像处理方法及系统

技术领域

本发明涉及计算机领域，尤其涉及一种图像处理方法及系统。

背景技术

近年来，在图像与语义文本的交叉领域，例如零样本学习(Zero-Shot Learning)、图像描述生成(Image to Text)、视觉问答系统(Visual Q&A)，出现了很多令人印象深刻的新方法和优秀的工作。

图像标注技术可以自动生成图像的文本描述。使用卷积神经网络(ConvolutionalNeural Networks，CNN)提取图像特征，将图像特征映射到一个由图像特征和本文特征共同构建的子空间当中，得到映射子空间特征，再使用长短时记忆(Long Short-Term Memory，LSTM)模型作为解码器，将映射子空间特征转换为文本特征，进一步转换为自然语言。

视觉问答系统是在图像标注的基础上，进一步融合计算机视觉和自然语言处理的一项工作。此项技术的目标并不是直接生成图像的文本描述，而是对一张图片和一句与图片相关的问题文本，系统可以自动理解图像和文本的内容，并给出一句对应的文本回答。

零样本学习，即在图像的测试集中，包含某一些在训练集中没有出现的类别，将训练集中出现过的类别称为seen class，将训练集中没有出现过的类别称为unseen class。在训练模型时，我们不仅通过图像训练集来训练模型，而且要学习一些“辅助知识”，并通过对“辅助知识”的学习并迁移，让模型获得对unseen class分类的经验。经常使用的“辅助知识”有图像类别属性和语义文本，通过语义文本学习“辅助知识”可以较为轻松地取得较好的效果，首先目前存在着大量高质量的各个类别的描述文本，例如维基百科等，其次，这些文本中包含着大量的本类别和其他类别的相关描述，为知识的迁移学习提供了极大的便利。

上述技术都使用了CNN对图像进行编码。CNN对图像有着强大的表征能力，但是目前人们对于CNN特征到底“是什么”的理解并不充分，上述技术中对CNN的利用也仅限于提取图像特征，也就是说，是将CNN当作一个“黑盒子”来使用的；若不充分研究和理解CNN特征中的信息，会给后续的工作带来很大的不便，例如在区域卷积神经网络RCNN网络中，要首先对图像提取非常多的小的图像块，然后对每一个图像块提取CNN特征，这一过程非常耗时。

发明内容

本发明实施例所要解决的技术问题在于，提供一种图像处理方法及图像处理系统，可以直接从图像CNN特征中获得空间结构信息，从而帮助人们进一步理解CNN特征，可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益。

为了解决上述技术问题，本发明实施例第一方面公开了一种图像处理方法，包括：

通过卷积神经网络CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征；

从所述语义文本特征中提取出第一空间结构信息；

根据所述空间结构信息分析所述图像CNN特征，获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。

结合第一方面，在第一种可能的实现方式中，所述通过卷积神经网络CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征包括：

通过CNN模型对目标图像进行编码，生成图像CNN特征；

通过长短时记忆LSTM模型对所述图像CNN特征进行编码，生成所述目标图像对应的语义特征，通过LSTM模型对所述目标图像对应的语义特征进行解码，生成所述目标图像对应的语义文本描述；其中，所述LSTM模型的每个门结构的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息。

结合第一方面，在第二种可能的实现方式中，所述根据所述空间结构信息分析所述图像CNN特征，获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征，包括：

将所述图像CNN特征映射到语义空间，得到全局语义特征；

将所述图像CNN特征中所述第一空间结构信息以外的所有特定CNN特征分别映射到语义空间，得到特定语义特征；

对所述全局语义特征和所述特定语义特征进行向量运算，得到所述图像CNN特征中的空间结构语义特征。

结合第一方面，或者第一方面的第一种可能的实现方式，或者第一方面的第二种可能的实现方式，在第三种可能的实现方式中，针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征的步骤，分别获取到多个第二空间结构CNN特征；

将所述多个第二空间结构CNN特征构建成空间结构语义空间。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述将所述多个第二空间结构CNN特征构建成空间结构语义空间之后，还包括：

当对待测试图像进行测试时，通过CNN提取所述待测试图像的图像CNN特征，并将所述待测试图像的图像CNN特征映射到语义空间，得到全局语义特征；

将所述全局语义特征与所述空间结构语义空间进行比较分析，从所述全局语义特征中获取空间结构语义特征；

将获取到的所述空间结构语义特征加入所述LSTM模型中进行处理，生成所述待测试图像的语义文本特征。

本发明实施例第二方面公开了一种图像处理系统，包括：

提取生成模块，用于通过卷积神经网络CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征；

信息提取模块，用于从所述语义文本特征中提取出第一空间结构信息；

结构特征信息获取模块，用于根据所述空间结构信息分析所述图像CNN特征，获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。

结合第二方面，在第一种可能的实现方式中，所述提取生成模块包括：

编码生成单元，用于通过CNN模型对目标图像进行编码，生成图像CNN特征；

编码单元，用于通过长短时记忆LSTM模型对所述图像CNN特征进行编码，生成所述目标图像对应的语义特征；

解码单元，用于通过LSTM模型对所述目标图像对应的语义特征进行解码，生成所述目标图像对应的语义文本描述；其中，所述LSTM模型的每个门结构的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息。

结合第二方面，在第二种可能的实现方式中，所述结构特征信息获取模块包括：

第一映射单元，用于将所述图像CNN特征映射到语义空间，得到全局语义特征；

第二映射单元，用于将所述图像CNN特征中所述第一空间结构信息以外的所有特定CNN特征分别映射到语义空间，得到特定语义特征；

运算单元，用于对所述全局语义特征和所述特定语义特征进行向量运算，得到所述图像CNN特征中的空间结构语义特征。

结合第二方面，或者第二方面的第一种可能的实现方式，或者第二方面的第二种可能的实现方式，在第三种可能的实现方式中，还包括：

语义空间构建模块，用于针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征的步骤，分别获取到多个第二空间结构CNN特征；将所述多个第二空间结构CNN特征构建成空间结构语义空间。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，还包括：

提取映射模块，用于在所述语义空间构建模块将所述多个第二空间结构CNN特征构建成空间结构语义空间之后，当对待测试图像进行测试时，通过CNN提取所述待测试图像的图像CNN特征，并将所述待测试图像的图像CNN特征映射到语义空间，得到全局语义特征；

比较分析模块，用于将所述全局语义特征与所述空间结构语义空间进行比较分析，从所述全局语义特征中获取空间结构语义特征；

加入生成模块，用于将获取到的所述空间结构语义特征加入所述LSTM模型中进行处理，生成所述待测试图像的语义文本特征。

本发明实施例第三方面公开了一种计算机存储介质，所述计算机存储介质存储有程序，所述程序执行时包括本发明实施例第一方面、或者第一方面的第一种可能的实现方式，或者第一方面的第二种可能的实现方式，或者第一方面的第三种可能的实现方式，或者第一方面的第四种可能的实现方式中的图像处理方法的全部步骤。

实施本发明实施例，获得目标图像的可靠的语义文本特征后，对所生成描述文本的语义文本特征和图像CNN特征进行深入研究，充分利用语义文本特征中的第一空间结构信息，例如文本中的各种表示方位和位置关系的词语，获得目标图像中主要物体的位置和物体之间空间关系，找到图像CNN特征中与之对应的第二空间结构CNN特征，从而最终建立了文本特征和图像特征的结构化关系；因此，可以直接从图像CNN特征中获得空间结构信息，从而帮助人们进一步理解CNN特征，可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益，例如针对图像与文本的跨模态检索的应用而言，提取图像的CNN特征后，由于已经获得了CNN特征的结构化信息，不需要对图像提取小图像块，可以直接从CNN特征中获得图像的空间结构信息，这将节省大量的计算和存储资源。在获得了图像CNN特征的基础上，由于我们得到了图像特征和文本特征的结构化关系，那也可以非常容易地将图像和文本进行关联，这将大大加快跨模态检索的准确性和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图像处理方法的流程示意图；

图2是本发明实施例提供的基于神经网络方法的文本生成原理示意图；

图3是本发明实施例提供的长短时记忆模型的结构示意图；

图4是本发明实施例提供的分析获取图像CNN特征中的空间结构CNN特征的方法流程示意图；

图5是本发明提供的图像处理系统的结构示意图；

图6是本发明实施例提供的提取生成模块的结构示意图；

图7是本发明实施例提供的结构特征信息获取模块的结构示意图；

图8是本发明提供的图像处理系统的另一实施例的结构示意图；

图9是本发明提供的图像处理系统的另一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1示出的本发明实施例提供的图像处理方法的流程示意图，该方法包括：

步骤S100：通过CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征；

具体地，可以通过CNN模型对目标图像进行编码，生成图像CNN特征，通过长短时记忆LSTM模型对所述图像CNN特征进行编码，生成该目标图像对应的语义特征，通过LSTM模型对该目标图像对应的语义特征进行解码，生成该目标图像对应的语义文本描述。

可理解的是，结合如图2示出的本发明实施例提供的基于神经网络方法的文本生成原理示意图，可以首先使用CNN提取目标图像的图像CNN特征，将图像CNN特征映射到一个由图像特征和本文特征共同构建的子空间当中，得到映射子空间特征，再使用LSTM作为解码器，将映射子空间特征转换为文本特征，进一步转换为自然语言(即语义文本特征)。

进一步地，如图3示出的本发明实施例提供的长短时记忆模型的结构示意图，本发明实施例中的长短时记忆(LSTM)模型为具有层级语义信息的长短时记忆模型，通过CNN处理得到目标图像的向量特征之后，将其作为输入信息输送到该LSTM模型中进行处理。其中，该LSTM模型的每个门结构(图3中的三个门结构)的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息；整个LSTM模型在得到输入的图像CNN特征后，LSTM模型将进行递归循环，每次循环的输出结果为一个单词，全部递归循环结束后，模型就可以得到图像的整句语言描述。每个门结构对应的权值矩阵是在训练过程中学习得到的。

具体地，为了使LSTM模型学习得到对应语言的层级语义信息，本发明实施例中的层级语义信息可以为目标图像中物体在WordNet层级结构中上层的物体单词。例如鲨鱼(shark)一词，在WordNet中的上层包括鲨类(selachian)和鱼类(fish)等词。通过这些层级语义信息的引入，可以为LSTM的训练增加更多的语义监督信息。这些信息的可以帮助模型生成更加准确和符合人类语言习惯的描述，同时也可以提高模型的鲁棒性，使模型更不容易出现比较离谱的错误。

步骤S102：从所述语义文本特征中提取出第一空间结构信息；

具体地，目标图像对应的描述文本中存在着大量的空间结构信息。在文本中，往往可以直观、容易地获得这些信息。本发明实施例中的第一空间结构信息为语义文本特征中对应的空间结构信息，可以包括文本中的各种表示方位和位置关系的词语，包括但不限于上、下、左、右、前、后、附近、包围、挨着、on、at、in、near、under等等，通过该第一空间结构信息可以获取目标图像中主要物体的位置和物体之间空间关系。

步骤S104：根据所述空间结构信息分析所述图像CNN特征，获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。

具体地，可以将该图像CNN特征映射到语义空间，得到全局语义特征；并将该图像CNN特征中该第一空间结构信息以外的所有特定CNN特征分别映射到语义空间，得到特定语义特征；通过对该全局语义特征和该特定语义特征进行向量运算，得到该图像CNN特征中的空间结构语义特征。

下面，举例说明步骤S104的其中一个实施例方式，如图4示出的本发明实施例提供的分析获取图像CNN特征中的空间结构CNN特征的方法流程示意图，首先，可以根据图像标注数据库中的图像和文本建立起公共语义空间，将目标图像特征映射到本文特征空间，如图4所示，对标注为“A cup on the desk”的目标图像经过步骤S100，提取其全局图像CNN特征，得到图像CNN特征后，将其映射到公共语义空间，得到目标图像的全局语义特征。从目标图像的语义文本特征“A cup on the desk”中，可以提取出第一空间结构信息“on”，那么“Acup on the desk”中该第一空间结构信息“on”以外的特定物体特征分别为“cup”和“desk”，从而对应地，可以讲该图像CNN特征中“on”以外的所有特定CNN特征(即“cup”和“desk”对应的CNN特征)分别映射到语义空间，得到特定语义特征，可选地，还可以在CNN模型中先分别增强图像中物体的反馈信息，即分别增强上图中“cup”和“desk”的反馈，得到“cup”和“desk”的强化的CNN特征，将这两个特征映射到公共语义空间，分别得到它们对应的语义特征(即特定语义特征)；最后，对上面得到的全局语义特征和特定物体的特定语义特征进行基本的向量运算，例如用全局语义特征减去特定物体的特定语义特征，可以得到该图像CNN特征中表示方位词“on”的空间结构语义特征。

需要说明的是，本发明实施例的步骤S104的实施方式不限于上述图4举例的实施方式，只要通过对图像对应文本特征的进行分析，得到文本特征中与空间位置相关的部分后，并将这一部分与图像的CNN特征进行比较、学习，找到相关特征在图像CNN特征中对应的部分，都属于本发明实施例的保护范围。

还需要说明的是，本发明各个实施例中的CNN模型可以包括VGG-16模型，VGG-19模型和GoogLeNet模型。这些模型的共有特点为，都是层数较多的卷积神经网络，他们都在ImageNet等图像分类、检测竞赛中取得了较好的效果，有较强的图像特征表达能力。其中，在GoogLeNet模型中，本发明实施例还可以去掉该模型最后的Softmax分类层，输入图像经过缩放、减数据库均值等预处理后输入网络，使用模型最后的全连接层的特征(通常为4096维向量)作为输出，将其作为图像的特征。

因此，通过实施本发明实施例，在获得目标图像的可靠的语义文本特征后，对所生成描述文本的语义文本特征和图像CNN特征进行深入研究，充分利用语义文本特征中的第一空间结构信息，例如文本中的各种表示方位和位置关系的词语，获得目标图像中主要物体的位置和物体之间空间关系，找到图像CNN特征中与之对应的第二空间结构CNN特征，从而最终建立了文本特征和图像特征的结构化关系；因此，可以直接从图像CNN特征中获得空间结构信息，从而帮助人们进一步理解CNN特征，可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益。

进一步地，本发明实施例提供的图像处理方法，还可以针对多个不同的目标图像分别执行上述图1至图4实施例中提供的图像处理方法流程，从而分别获取到多个第二空间结构CNN特征，并将该多个第二空间结构CNN特征构建成空间结构语义空间。

具体地，例如针对图4的举例，可以对更多的含有“on”描述的图像进行上述操作，可以得到“on”词的更加一般的图像语义特征。同样地，用上述方法得到含有其他方位介词(in,at,near,under等)的图像中方位介词的图像语义特征，用这些特征构建起一个空间结构语义空间(相当于方位语义空间)。

那么，后续当对待测试图像进行测试时，可以通过CNN提取所述待测试图像的图像CNN特征，并将该待测试图像的图像CNN特征映射到语义空间，得到全局语义特征；将该全局语义特征与所述空间结构语义空间进行比较分析，从该全局语义特征中获取空间结构语义特征；将获取到的该空间结构语义特征加入所述LSTM模型中进行处理，生成该待测试图像的语义文本特征。

也就是说，对一幅未知图像进行测试时，本发明实施例可以首先提取其CNN特征，将其映射到公共语义空间，得到其语义特征后，再将特征置于方位语义空间中，进行比较，得到最可能出现在图像中的方位介词。在生成图像描述时，我们将对应方位词向量的表示加入到LSTM模型初始化后的内部状态中，作为一个已知的先验信息来辅助LSTM模型生成更加准确的语言。

为了便于更好地实施本发明实施例的上述方案，本发明还对应提供了一种图像处理系统，如图5示出的本发明提供的图像处理系统的结构示意图，图像处理系统50包括：提取生成模块500、信息提取模块502和结构特征信息获取模块504，其中，

提取生成模块500用于通过卷积神经网络CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征；

信息提取模块502用于从所述语义文本特征中提取出第一空间结构信息；

结构特征信息获取模块504用于根据所述空间结构信息分析所述图像CNN特征，获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。

具体地，如图6示出的本发明实施例提供的提取生成模块的结构示意图，提取生成模块500可以包括：编码生成单元5000、编码单元5002和解码单元5004，其中，

编码生成单元5000用于通过CNN模型对目标图像进行编码，生成图像CNN特征；

编码单元5002用于通过长短时记忆LSTM模型对所述图像CNN特征进行编码，生成所述目标图像对应的语义特征；

解码单元5004用于通过LSTM模型对所述目标图像对应的语义特征进行解码，生成所述目标图像对应的语义文本描述；其中，所述LSTM模型的每个门结构的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息。

进一步地，如图7示出的本发明实施例提供的结构特征信息获取模块的结构示意图，结构特征信息获取模块504可以包括：第一映射单元5040、第二映射单元5042和运算单元5044，其中，

第一映射单元5040用于将所述图像CNN特征映射到语义空间，得到全局语义特征；

第二映射单元5042用于将所述图像CNN特征中所述第一空间结构信息以外的所有特定CNN特征分别映射到语义空间，得到特定语义特征；

运算单元5044用于对所述全局语义特征和所述特定语义特征进行向量运算，得到所述图像CNN特征中的空间结构语义特征。

再进一步地，如图8示出的本发明提供的图像处理系统的另一实施例的结构示意图，图像处理系统50包括提取生成模块500、信息提取模块502和结构特征信息获取模块504外，还可以包括：语义空间构建模块506、提取映射模块508、比较分析模块5010和加入生成模块5012，其中，

语义空间构建模块506，用于针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征的步骤，分别获取到多个第二空间结构CNN特征；将所述多个第二空间结构CNN特征构建成空间结构语义空间。

提取映射模块508用于在语义空间构建模块506将所述多个第二空间结构CNN特征构建成空间结构语义空间之后，当对待测试图像进行测试时，通过CNN提取所述待测试图像的图像CNN特征，并将所述待测试图像的图像CNN特征映射到语义空间，得到全局语义特征；

比较分析模块5010用于将所述全局语义特征与所述空间结构语义空间进行比较分析，从所述全局语义特征中获取空间结构语义特征；

加入生成模块5012用于将获取到的所述空间结构语义特征加入所述LSTM模型中进行处理，生成所述待测试图像的语义文本特征。

请参阅图9，图9是本发明提供的图像处理系统的另一实施例的结构示意图。其中，如图9所示，图像处理系统90可以包括：至少一个处理器901，例如CPU，至少一个网络接口904，用户接口903，存储器905，至少一个通信总线902以及显示屏906。其中，通信总线902用于实现这些组件之间的连接通信。其中，用户接口903，可选用户接口903还可以包括标准的有线接口、无线接口。网络接口904可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器905可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器905可选的还可以是至少一个位于远离前述处理器901的存储系统。如图9所示，作为一种计算机存储介质的存储器905中可以包括操作系统、网络通信模块、用户接口模块以及图像处理程序。

在图9所示的图像处理系统90中处理器901可以用于调用存储器905中存储的图像处理程序，并执行以下操作：

从所述语义文本特征中提取出第一空间结构信息；

具体地，处理器901通过卷积神经网络CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征包括：

通过CNN模型对目标图像进行编码，生成图像CNN特征；

具体地，处理器901根据所述空间结构信息分析所述图像CNN特征，获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征，包括：

将所述图像CNN特征映射到语义空间，得到全局语义特征；

具体地，处理器901还可以针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征，并生成所述目标图像对应的语义文本特征的步骤，分别获取到多个第二空间结构CNN特征；

将所述多个第二空间结构CNN特征构建成空间结构语义空间。

具体地，处理器901将所述多个第二空间结构CNN特征构建成空间结构语义空间之后，还可以执行：

需要说明的是，本发明实施例中的图像处理系统50或图像处理系统90可以为个人计算机或移动智能终端、平板电脑等电子终端；图像处理系统50或图像处理系统90中各功能模块的功能可根据上述方法实施例中的方法具体实现，这里不再赘述。

综上所述，实施本发明实施例，获得目标图像的可靠的语义文本特征后，对所生成描述文本的语义文本特征和图像CNN特征进行深入研究，充分利用语义文本特征中的第一空间结构信息，例如文本中的各种表示方位和位置关系的词语，获得目标图像中主要物体的位置和物体之间空间关系，找到图像CNN特征中与之对应的第二空间结构CNN特征，从而最终建立了文本特征和图像特征的结构化关系；因此，可以直接从图像CNN特征中获得空间结构信息，从而帮助人们进一步理解CNN特征，可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益，例如针对图像与文本的跨模态检索的应用而言，提取图像的CNN特征后，由于已经获得了CNN特征的结构化信息，不需要对图像提取小图像块，可以直接从CNN特征中获得图像的空间结构信息，这将节省大量的计算和存储资源。在获得了图像CNN特征的基础上，由于我们得到了图像特征和文本特征的结构化关系，那也可以非常容易地将图像和文本进行关联，这将大大加快跨模态检索的准确性和效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

通过卷积神经网络CNN提取目标图像的图像CNN特征，并基于所述图像CNN特征生成所述目标图像对应的语义文本特征；

从所述语义文本特征中提取出第一空间结构信息；

2.如权利要求1所述的方法，其特征在于，所述通过卷积神经网络CNN提取目标图像的图像CNN特征，并基于所述图像CNN特征生成所述目标图像对应的语义文本特征包括：

通过CNN模型对目标图像进行编码，生成图像CNN特征；

3.如权利要求1所述的方法，其特征在于，所述根据所述空间结构信息分析所述图像CNN特征，获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征，包括：

将所述图像CNN特征映射到语义空间，得到全局语义特征；

4.如权利要求1-3任一项所述的方法，其特征在于，针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征，并基于所述图像CNN特征生成所述目标图像对应的语义文本特征的步骤，分别获取到多个第二空间结构CNN特征；

将所述多个第二空间结构CNN特征构建成空间结构语义空间。

5.如权利要求4所述的方法，其特征在于，所述将所述多个第二空间结构CNN特征构建成空间结构语义空间之后，还包括：

将获取到的所述空间结构语义特征加入LSTM模型中进行处理，生成所述待测试图像的语义文本特征。

6.一种图像处理系统，其特征在于，包括：

提取生成模块，用于通过卷积神经网络CNN提取目标图像的图像CNN特征，并基于所述图像CNN特征生成所述目标图像对应的语义文本特征；

7.如权利要求6所述的系统，其特征在于，所述提取生成模块包括：

8.如权利要求6所述的系统，其特征在于，所述结构特征信息获取模块包括：

9.如权利要求6-8任一项所述的系统，其特征在于，还包括：

语义空间构建模块，用于针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征，并基于所述图像CNN特征生成所述目标图像对应的语义文本特征的步骤，分别获取到多个第二空间结构CNN特征；将所述多个第二空间结构CNN特征构建成空间结构语义空间。

10.如权利要求9所述的系统，其特征在于，还包括：

加入生成模块，用于将获取到的所述空间结构语义特征加入LSTM模型中进行处理，生成所述待测试图像的语义文本特征。

11.一种计算机可读存储介质，其特征在于，存储用于图像处理的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法。