CN107391505B - 一种图像处理方法及系统 - Google Patents

一种图像处理方法及系统 Download PDF

Info

Publication number
CN107391505B
CN107391505B CN201610322369.3A CN201610322369A CN107391505B CN 107391505 B CN107391505 B CN 107391505B CN 201610322369 A CN201610322369 A CN 201610322369A CN 107391505 B CN107391505 B CN 107391505B
Authority
CN
China
Prior art keywords
image
cnn
semantic
features
spatial structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610322369.3A
Other languages
English (en)
Other versions
CN107391505A (zh
Inventor
张俊格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Institute of Automation of Chinese Academy of Science
Original Assignee
Tencent Technology Shenzhen Co Ltd
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Institute of Automation of Chinese Academy of Science filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610322369.3A priority Critical patent/CN107391505B/zh
Publication of CN107391505A publication Critical patent/CN107391505A/zh
Application granted granted Critical
Publication of CN107391505B publication Critical patent/CN107391505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Abstract

本发明实施例公开了一种图像处理方法,包括:通过卷积神经网络CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征;从所述语义文本特征中提取出第一空间结构信息;根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。本发明还公开一种图像处理系统,采用本发明,可以直接从图像CNN特征中获得空间结构信息,从而帮助人们进一步理解CNN特征,可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益。

Description

一种图像处理方法及系统
技术领域
本发明涉及计算机领域,尤其涉及一种图像处理方法及系统。
背景技术
近年来,在图像与语义文本的交叉领域,例如零样本学习(Zero-Shot Learning)、图像描述生成(Image to Text)、视觉问答系统(Visual Q&A),出现了很多令人印象深刻的新方法和优秀的工作。
图像标注技术可以自动生成图像的文本描述。使用卷积神经网络(ConvolutionalNeural Networks,CNN)提取图像特征,将图像特征映射到一个由图像特征和本文特征共同构建的子空间当中,得到映射子空间特征,再使用长短时记忆(Long Short-Term Memory,LSTM)模型作为解码器,将映射子空间特征转换为文本特征,进一步转换为自然语言。
视觉问答系统是在图像标注的基础上,进一步融合计算机视觉和自然语言处理的一项工作。此项技术的目标并不是直接生成图像的文本描述,而是对一张图片和一句与图片相关的问题文本,系统可以自动理解图像和文本的内容,并给出一句对应的文本回答。
零样本学习,即在图像的测试集中,包含某一些在训练集中没有出现的类别,将训练集中出现过的类别称为seen class,将训练集中没有出现过的类别称为unseen class。在训练模型时,我们不仅通过图像训练集来训练模型,而且要学习一些“辅助知识”,并通过对“辅助知识”的学习并迁移,让模型获得对unseen class分类的经验。经常使用的“辅助知识”有图像类别属性和语义文本,通过语义文本学习“辅助知识”可以较为轻松地取得较好的效果,首先目前存在着大量高质量的各个类别的描述文本,例如维基百科等,其次,这些文本中包含着大量的本类别和其他类别的相关描述,为知识的迁移学习提供了极大的便利。
上述技术都使用了CNN对图像进行编码。CNN对图像有着强大的表征能力,但是目前人们对于CNN特征到底“是什么”的理解并不充分,上述技术中对CNN的利用也仅限于提取图像特征,也就是说,是将CNN当作一个“黑盒子”来使用的;若不充分研究和理解CNN特征中的信息,会给后续的工作带来很大的不便,例如在区域卷积神经网络RCNN网络中,要首先对图像提取非常多的小的图像块,然后对每一个图像块提取CNN特征,这一过程非常耗时。
发明内容
本发明实施例所要解决的技术问题在于,提供一种图像处理方法及图像处理系统,可以直接从图像CNN特征中获得空间结构信息,从而帮助人们进一步理解CNN特征,可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益。
为了解决上述技术问题,本发明实施例第一方面公开了一种图像处理方法,包括:
通过卷积神经网络CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征;
从所述语义文本特征中提取出第一空间结构信息;
根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。
结合第一方面,在第一种可能的实现方式中,所述通过卷积神经网络CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征包括:
通过CNN模型对目标图像进行编码,生成图像CNN特征;
通过长短时记忆LSTM模型对所述图像CNN特征进行编码,生成所述目标图像对应的语义特征,通过LSTM模型对所述目标图像对应的语义特征进行解码,生成所述目标图像对应的语义文本描述;其中,所述LSTM模型的每个门结构的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息。
结合第一方面,在第二种可能的实现方式中,所述根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征,包括:
将所述图像CNN特征映射到语义空间,得到全局语义特征;
将所述图像CNN特征中所述第一空间结构信息以外的所有特定CNN特征分别映射到语义空间,得到特定语义特征;
对所述全局语义特征和所述特定语义特征进行向量运算,得到所述图像CNN特征中的空间结构语义特征。
结合第一方面,或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,在第三种可能的实现方式中,针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征的步骤,分别获取到多个第二空间结构CNN特征;
将所述多个第二空间结构CNN特征构建成空间结构语义空间。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述将所述多个第二空间结构CNN特征构建成空间结构语义空间之后,还包括:
当对待测试图像进行测试时,通过CNN提取所述待测试图像的图像CNN特征,并将所述待测试图像的图像CNN特征映射到语义空间,得到全局语义特征;
将所述全局语义特征与所述空间结构语义空间进行比较分析,从所述全局语义特征中获取空间结构语义特征;
将获取到的所述空间结构语义特征加入所述LSTM模型中进行处理,生成所述待测试图像的语义文本特征。
本发明实施例第二方面公开了一种图像处理系统,包括:
提取生成模块,用于通过卷积神经网络CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征;
信息提取模块,用于从所述语义文本特征中提取出第一空间结构信息;
结构特征信息获取模块,用于根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。
结合第二方面,在第一种可能的实现方式中,所述提取生成模块包括:
编码生成单元,用于通过CNN模型对目标图像进行编码,生成图像CNN特征;
编码单元,用于通过长短时记忆LSTM模型对所述图像CNN特征进行编码,生成所述目标图像对应的语义特征;
解码单元,用于通过LSTM模型对所述目标图像对应的语义特征进行解码,生成所述目标图像对应的语义文本描述;其中,所述LSTM模型的每个门结构的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息。
结合第二方面,在第二种可能的实现方式中,所述结构特征信息获取模块包括:
第一映射单元,用于将所述图像CNN特征映射到语义空间,得到全局语义特征;
第二映射单元,用于将所述图像CNN特征中所述第一空间结构信息以外的所有特定CNN特征分别映射到语义空间,得到特定语义特征;
运算单元,用于对所述全局语义特征和所述特定语义特征进行向量运算,得到所述图像CNN特征中的空间结构语义特征。
结合第二方面,或者第二方面的第一种可能的实现方式,或者第二方面的第二种可能的实现方式,在第三种可能的实现方式中,还包括:
语义空间构建模块,用于针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征的步骤,分别获取到多个第二空间结构CNN特征;将所述多个第二空间结构CNN特征构建成空间结构语义空间。
结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,还包括:
提取映射模块,用于在所述语义空间构建模块将所述多个第二空间结构CNN特征构建成空间结构语义空间之后,当对待测试图像进行测试时,通过CNN提取所述待测试图像的图像CNN特征,并将所述待测试图像的图像CNN特征映射到语义空间,得到全局语义特征;
比较分析模块,用于将所述全局语义特征与所述空间结构语义空间进行比较分析,从所述全局语义特征中获取空间结构语义特征;
加入生成模块,用于将获取到的所述空间结构语义特征加入所述LSTM模型中进行处理,生成所述待测试图像的语义文本特征。
本发明实施例第三方面公开了一种计算机存储介质,所述计算机存储介质存储有程序,所述程序执行时包括本发明实施例第一方面、或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,或者第一方面的第三种可能的实现方式,或者第一方面的第四种可能的实现方式中的图像处理方法的全部步骤。
实施本发明实施例,获得目标图像的可靠的语义文本特征后,对所生成描述文本的语义文本特征和图像CNN特征进行深入研究,充分利用语义文本特征中的第一空间结构信息,例如文本中的各种表示方位和位置关系的词语,获得目标图像中主要物体的位置和物体之间空间关系,找到图像CNN特征中与之对应的第二空间结构CNN特征,从而最终建立了文本特征和图像特征的结构化关系;因此,可以直接从图像CNN特征中获得空间结构信息,从而帮助人们进一步理解CNN特征,可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益,例如针对图像与文本的跨模态检索的应用而言,提取图像的CNN特征后,由于已经获得了CNN特征的结构化信息,不需要对图像提取小图像块,可以直接从CNN特征中获得图像的空间结构信息,这将节省大量的计算和存储资源。在获得了图像CNN特征的基础上,由于我们得到了图像特征和文本特征的结构化关系,那也可以非常容易地将图像和文本进行关联,这将大大加快跨模态检索的准确性和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的图像处理方法的流程示意图;
图2是本发明实施例提供的基于神经网络方法的文本生成原理示意图;
图3是本发明实施例提供的长短时记忆模型的结构示意图;
图4是本发明实施例提供的分析获取图像CNN特征中的空间结构CNN特征的方法流程示意图;
图5是本发明提供的图像处理系统的结构示意图;
图6是本发明实施例提供的提取生成模块的结构示意图;
图7是本发明实施例提供的结构特征信息获取模块的结构示意图;
图8是本发明提供的图像处理系统的另一实施例的结构示意图;
图9是本发明提供的图像处理系统的另一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1示出的本发明实施例提供的图像处理方法的流程示意图,该方法包括:
步骤S100:通过CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征;
具体地,可以通过CNN模型对目标图像进行编码,生成图像CNN特征,通过长短时记忆LSTM模型对所述图像CNN特征进行编码,生成该目标图像对应的语义特征,通过LSTM模型对该目标图像对应的语义特征进行解码,生成该目标图像对应的语义文本描述。
可理解的是,结合如图2示出的本发明实施例提供的基于神经网络方法的文本生成原理示意图,可以首先使用CNN提取目标图像的图像CNN特征,将图像CNN特征映射到一个由图像特征和本文特征共同构建的子空间当中,得到映射子空间特征,再使用LSTM作为解码器,将映射子空间特征转换为文本特征,进一步转换为自然语言(即语义文本特征)。
进一步地,如图3示出的本发明实施例提供的长短时记忆模型的结构示意图,本发明实施例中的长短时记忆(LSTM)模型为具有层级语义信息的长短时记忆模型,通过CNN处理得到目标图像的向量特征之后,将其作为输入信息输送到该LSTM模型中进行处理。其中,该LSTM模型的每个门结构(图3中的三个门结构)的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息;整个LSTM模型在得到输入的图像CNN特征后,LSTM模型将进行递归循环,每次循环的输出结果为一个单词,全部递归循环结束后,模型就可以得到图像的整句语言描述。每个门结构对应的权值矩阵是在训练过程中学习得到的。
具体地,为了使LSTM模型学习得到对应语言的层级语义信息,本发明实施例中的层级语义信息可以为目标图像中物体在WordNet层级结构中上层的物体单词。例如鲨鱼(shark)一词,在WordNet中的上层包括鲨类(selachian)和鱼类(fish)等词。通过这些层级语义信息的引入,可以为LSTM的训练增加更多的语义监督信息。这些信息的可以帮助模型生成更加准确和符合人类语言习惯的描述,同时也可以提高模型的鲁棒性,使模型更不容易出现比较离谱的错误。
步骤S102:从所述语义文本特征中提取出第一空间结构信息;
具体地,目标图像对应的描述文本中存在着大量的空间结构信息。在文本中,往往可以直观、容易地获得这些信息。本发明实施例中的第一空间结构信息为语义文本特征中对应的空间结构信息,可以包括文本中的各种表示方位和位置关系的词语,包括但不限于上、下、左、右、前、后、附近、包围、挨着、on、at、in、near、under等等,通过该第一空间结构信息可以获取目标图像中主要物体的位置和物体之间空间关系。
步骤S104:根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。
具体地,可以将该图像CNN特征映射到语义空间,得到全局语义特征;并将该图像CNN特征中该第一空间结构信息以外的所有特定CNN特征分别映射到语义空间,得到特定语义特征;通过对该全局语义特征和该特定语义特征进行向量运算,得到该图像CNN特征中的空间结构语义特征。
下面,举例说明步骤S104的其中一个实施例方式,如图4示出的本发明实施例提供的分析获取图像CNN特征中的空间结构CNN特征的方法流程示意图,首先,可以根据图像标注数据库中的图像和文本建立起公共语义空间,将目标图像特征映射到本文特征空间,如图4所示,对标注为“A cup on the desk”的目标图像经过步骤S100,提取其全局图像CNN特征,得到图像CNN特征后,将其映射到公共语义空间,得到目标图像的全局语义特征。从目标图像的语义文本特征“A cup on the desk”中,可以提取出第一空间结构信息“on”,那么“Acup on the desk”中该第一空间结构信息“on”以外的特定物体特征分别为“cup”和“desk”,从而对应地,可以讲该图像CNN特征中“on”以外的所有特定CNN特征(即“cup”和“desk”对应的CNN特征)分别映射到语义空间,得到特定语义特征,可选地,还可以在CNN模型中先分别增强图像中物体的反馈信息,即分别增强上图中“cup”和“desk”的反馈,得到“cup”和“desk”的强化的CNN特征,将这两个特征映射到公共语义空间,分别得到它们对应的语义特征(即特定语义特征);最后,对上面得到的全局语义特征和特定物体的特定语义特征进行基本的向量运算,例如用全局语义特征减去特定物体的特定语义特征,可以得到该图像CNN特征中表示方位词“on”的空间结构语义特征。
需要说明的是,本发明实施例的步骤S104的实施方式不限于上述图4举例的实施方式,只要通过对图像对应文本特征的进行分析,得到文本特征中与空间位置相关的部分后,并将这一部分与图像的CNN特征进行比较、学习,找到相关特征在图像CNN特征中对应的部分,都属于本发明实施例的保护范围。
还需要说明的是,本发明各个实施例中的CNN模型可以包括VGG-16模型,VGG-19模型和GoogLeNet模型。这些模型的共有特点为,都是层数较多的卷积神经网络,他们都在ImageNet等图像分类、检测竞赛中取得了较好的效果,有较强的图像特征表达能力。其中,在GoogLeNet模型中,本发明实施例还可以去掉该模型最后的Softmax分类层,输入图像经过缩放、减数据库均值等预处理后输入网络,使用模型最后的全连接层的特征(通常为4096维向量)作为输出,将其作为图像的特征。
因此,通过实施本发明实施例,在获得目标图像的可靠的语义文本特征后,对所生成描述文本的语义文本特征和图像CNN特征进行深入研究,充分利用语义文本特征中的第一空间结构信息,例如文本中的各种表示方位和位置关系的词语,获得目标图像中主要物体的位置和物体之间空间关系,找到图像CNN特征中与之对应的第二空间结构CNN特征,从而最终建立了文本特征和图像特征的结构化关系;因此,可以直接从图像CNN特征中获得空间结构信息,从而帮助人们进一步理解CNN特征,可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益。
进一步地,本发明实施例提供的图像处理方法,还可以针对多个不同的目标图像分别执行上述图1至图4实施例中提供的图像处理方法流程,从而分别获取到多个第二空间结构CNN特征,并将该多个第二空间结构CNN特征构建成空间结构语义空间。
具体地,例如针对图4的举例,可以对更多的含有“on”描述的图像进行上述操作,可以得到“on”词的更加一般的图像语义特征。同样地,用上述方法得到含有其他方位介词(in,at,near,under等)的图像中方位介词的图像语义特征,用这些特征构建起一个空间结构语义空间(相当于方位语义空间)。
那么,后续当对待测试图像进行测试时,可以通过CNN提取所述待测试图像的图像CNN特征,并将该待测试图像的图像CNN特征映射到语义空间,得到全局语义特征;将该全局语义特征与所述空间结构语义空间进行比较分析,从该全局语义特征中获取空间结构语义特征;将获取到的该空间结构语义特征加入所述LSTM模型中进行处理,生成该待测试图像的语义文本特征。
也就是说,对一幅未知图像进行测试时,本发明实施例可以首先提取其CNN特征,将其映射到公共语义空间,得到其语义特征后,再将特征置于方位语义空间中,进行比较,得到最可能出现在图像中的方位介词。在生成图像描述时,我们将对应方位词向量的表示加入到LSTM模型初始化后的内部状态中,作为一个已知的先验信息来辅助LSTM模型生成更加准确的语言。
实施本发明实施例,获得目标图像的可靠的语义文本特征后,对所生成描述文本的语义文本特征和图像CNN特征进行深入研究,充分利用语义文本特征中的第一空间结构信息,例如文本中的各种表示方位和位置关系的词语,获得目标图像中主要物体的位置和物体之间空间关系,找到图像CNN特征中与之对应的第二空间结构CNN特征,从而最终建立了文本特征和图像特征的结构化关系;因此,可以直接从图像CNN特征中获得空间结构信息,从而帮助人们进一步理解CNN特征,可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益,例如针对图像与文本的跨模态检索的应用而言,提取图像的CNN特征后,由于已经获得了CNN特征的结构化信息,不需要对图像提取小图像块,可以直接从CNN特征中获得图像的空间结构信息,这将节省大量的计算和存储资源。在获得了图像CNN特征的基础上,由于我们得到了图像特征和文本特征的结构化关系,那也可以非常容易地将图像和文本进行关联,这将大大加快跨模态检索的准确性和效率。
为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了一种图像处理系统,如图5示出的本发明提供的图像处理系统的结构示意图,图像处理系统50包括:提取生成模块500、信息提取模块502和结构特征信息获取模块504,其中,
提取生成模块500用于通过卷积神经网络CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征;
信息提取模块502用于从所述语义文本特征中提取出第一空间结构信息;
结构特征信息获取模块504用于根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。
具体地,如图6示出的本发明实施例提供的提取生成模块的结构示意图,提取生成模块500可以包括:编码生成单元5000、编码单元5002和解码单元5004,其中,
编码生成单元5000用于通过CNN模型对目标图像进行编码,生成图像CNN特征;
编码单元5002用于通过长短时记忆LSTM模型对所述图像CNN特征进行编码,生成所述目标图像对应的语义特征;
解码单元5004用于通过LSTM模型对所述目标图像对应的语义特征进行解码,生成所述目标图像对应的语义文本描述;其中,所述LSTM模型的每个门结构的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息。
进一步地,如图7示出的本发明实施例提供的结构特征信息获取模块的结构示意图,结构特征信息获取模块504可以包括:第一映射单元5040、第二映射单元5042和运算单元5044,其中,
第一映射单元5040用于将所述图像CNN特征映射到语义空间,得到全局语义特征;
第二映射单元5042用于将所述图像CNN特征中所述第一空间结构信息以外的所有特定CNN特征分别映射到语义空间,得到特定语义特征;
运算单元5044用于对所述全局语义特征和所述特定语义特征进行向量运算,得到所述图像CNN特征中的空间结构语义特征。
再进一步地,如图8示出的本发明提供的图像处理系统的另一实施例的结构示意图,图像处理系统50包括提取生成模块500、信息提取模块502和结构特征信息获取模块504外,还可以包括:语义空间构建模块506、提取映射模块508、比较分析模块5010和加入生成模块5012,其中,
语义空间构建模块506,用于针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征的步骤,分别获取到多个第二空间结构CNN特征;将所述多个第二空间结构CNN特征构建成空间结构语义空间。
提取映射模块508用于在语义空间构建模块506将所述多个第二空间结构CNN特征构建成空间结构语义空间之后,当对待测试图像进行测试时,通过CNN提取所述待测试图像的图像CNN特征,并将所述待测试图像的图像CNN特征映射到语义空间,得到全局语义特征;
比较分析模块5010用于将所述全局语义特征与所述空间结构语义空间进行比较分析,从所述全局语义特征中获取空间结构语义特征;
加入生成模块5012用于将获取到的所述空间结构语义特征加入所述LSTM模型中进行处理,生成所述待测试图像的语义文本特征。
请参阅图9,图9是本发明提供的图像处理系统的另一实施例的结构示意图。其中,如图9所示,图像处理系统90可以包括:至少一个处理器901,例如CPU,至少一个网络接口904,用户接口903,存储器905,至少一个通信总线902以及显示屏906。其中,通信总线902用于实现这些组件之间的连接通信。其中,用户接口903,可选用户接口903还可以包括标准的有线接口、无线接口。网络接口904可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器905可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器905可选的还可以是至少一个位于远离前述处理器901的存储系统。如图9所示,作为一种计算机存储介质的存储器905中可以包括操作系统、网络通信模块、用户接口模块以及图像处理程序。
在图9所示的图像处理系统90中处理器901可以用于调用存储器905中存储的图像处理程序,并执行以下操作:
通过卷积神经网络CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征;
从所述语义文本特征中提取出第一空间结构信息;
根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。
具体地,处理器901通过卷积神经网络CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征包括:
通过CNN模型对目标图像进行编码,生成图像CNN特征;
通过长短时记忆LSTM模型对所述图像CNN特征进行编码,生成所述目标图像对应的语义特征,通过LSTM模型对所述目标图像对应的语义特征进行解码,生成所述目标图像对应的语义文本描述;其中,所述LSTM模型的每个门结构的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息。
具体地,处理器901根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征,包括:
将所述图像CNN特征映射到语义空间,得到全局语义特征;
将所述图像CNN特征中所述第一空间结构信息以外的所有特定CNN特征分别映射到语义空间,得到特定语义特征;
对所述全局语义特征和所述特定语义特征进行向量运算,得到所述图像CNN特征中的空间结构语义特征。
具体地,处理器901还可以针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征,并生成所述目标图像对应的语义文本特征的步骤,分别获取到多个第二空间结构CNN特征;
将所述多个第二空间结构CNN特征构建成空间结构语义空间。
具体地,处理器901将所述多个第二空间结构CNN特征构建成空间结构语义空间之后,还可以执行:
当对待测试图像进行测试时,通过CNN提取所述待测试图像的图像CNN特征,并将所述待测试图像的图像CNN特征映射到语义空间,得到全局语义特征;
将所述全局语义特征与所述空间结构语义空间进行比较分析,从所述全局语义特征中获取空间结构语义特征;
将获取到的所述空间结构语义特征加入所述LSTM模型中进行处理,生成所述待测试图像的语义文本特征。
需要说明的是,本发明实施例中的图像处理系统50或图像处理系统90可以为个人计算机或移动智能终端、平板电脑等电子终端;图像处理系统50或图像处理系统90中各功能模块的功能可根据上述方法实施例中的方法具体实现,这里不再赘述。
综上所述,实施本发明实施例,获得目标图像的可靠的语义文本特征后,对所生成描述文本的语义文本特征和图像CNN特征进行深入研究,充分利用语义文本特征中的第一空间结构信息,例如文本中的各种表示方位和位置关系的词语,获得目标图像中主要物体的位置和物体之间空间关系,找到图像CNN特征中与之对应的第二空间结构CNN特征,从而最终建立了文本特征和图像特征的结构化关系;因此,可以直接从图像CNN特征中获得空间结构信息,从而帮助人们进一步理解CNN特征,可以使图像文本交叉检索、图像标注、物体检测、零样本学习、视觉问答系统等应用受益,例如针对图像与文本的跨模态检索的应用而言,提取图像的CNN特征后,由于已经获得了CNN特征的结构化信息,不需要对图像提取小图像块,可以直接从CNN特征中获得图像的空间结构信息,这将节省大量的计算和存储资源。在获得了图像CNN特征的基础上,由于我们得到了图像特征和文本特征的结构化关系,那也可以非常容易地将图像和文本进行关联,这将大大加快跨模态检索的准确性和效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (11)

1.一种图像处理方法,其特征在于,包括:
通过卷积神经网络CNN提取目标图像的图像CNN特征,并基于所述图像CNN特征生成所述目标图像对应的语义文本特征;
从所述语义文本特征中提取出第一空间结构信息;
根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。
2.如权利要求1所述的方法,其特征在于,所述通过卷积神经网络CNN提取目标图像的图像CNN特征,并基于所述图像CNN特征生成所述目标图像对应的语义文本特征包括:
通过CNN模型对目标图像进行编码,生成图像CNN特征;
通过长短时记忆LSTM模型对所述图像CNN特征进行编码,生成所述目标图像对应的语义特征,通过LSTM模型对所述目标图像对应的语义特征进行解码,生成所述目标图像对应的语义文本描述;其中,所述LSTM模型的每个门结构的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息。
3.如权利要求1所述的方法,其特征在于,所述根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征,包括:
将所述图像CNN特征映射到语义空间,得到全局语义特征;
将所述图像CNN特征中所述第一空间结构信息以外的所有特定CNN特征分别映射到语义空间,得到特定语义特征;
对所述全局语义特征和所述特定语义特征进行向量运算,得到所述图像CNN特征中的空间结构语义特征。
4.如权利要求1-3任一项所述的方法,其特征在于,针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征,并基于所述图像CNN特征生成所述目标图像对应的语义文本特征的步骤,分别获取到多个第二空间结构CNN特征;
将所述多个第二空间结构CNN特征构建成空间结构语义空间。
5.如权利要求4所述的方法,其特征在于,所述将所述多个第二空间结构CNN特征构建成空间结构语义空间之后,还包括:
当对待测试图像进行测试时,通过CNN提取所述待测试图像的图像CNN特征,并将所述待测试图像的图像CNN特征映射到语义空间,得到全局语义特征;
将所述全局语义特征与所述空间结构语义空间进行比较分析,从所述全局语义特征中获取空间结构语义特征;
将获取到的所述空间结构语义特征加入LSTM模型中进行处理,生成所述待测试图像的语义文本特征。
6.一种图像处理系统,其特征在于,包括:
提取生成模块,用于通过卷积神经网络CNN提取目标图像的图像CNN特征,并基于所述图像CNN特征生成所述目标图像对应的语义文本特征;
信息提取模块,用于从所述语义文本特征中提取出第一空间结构信息;
结构特征信息获取模块,用于根据所述空间结构信息分析所述图像CNN特征,获取所述图像CNN特征中与所述第一空间结构信息对应的第二空间结构CNN特征。
7.如权利要求6所述的系统,其特征在于,所述提取生成模块包括:
编码生成单元,用于通过CNN模型对目标图像进行编码,生成图像CNN特征;
编码单元,用于通过长短时记忆LSTM模型对所述图像CNN特征进行编码,生成所述目标图像对应的语义特征;
解码单元,用于通过LSTM模型对所述目标图像对应的语义特征进行解码,生成所述目标图像对应的语义文本描述;其中,所述LSTM模型的每个门结构的输入信息包括当前时刻的输入、前一时刻的输入、前一时刻的内部隐层值以及层级语义信息。
8.如权利要求6所述的系统,其特征在于,所述结构特征信息获取模块包括:
第一映射单元,用于将所述图像CNN特征映射到语义空间,得到全局语义特征;
第二映射单元,用于将所述图像CNN特征中所述第一空间结构信息以外的所有特定CNN特征分别映射到语义空间,得到特定语义特征;
运算单元,用于对所述全局语义特征和所述特定语义特征进行向量运算,得到所述图像CNN特征中的空间结构语义特征。
9.如权利要求6-8任一项所述的系统,其特征在于,还包括:
语义空间构建模块,用于针对多个不同的目标图像分别执行所述通过CNN提取目标图像的图像CNN特征,并基于所述图像CNN特征生成所述目标图像对应的语义文本特征的步骤,分别获取到多个第二空间结构CNN特征;将所述多个第二空间结构CNN特征构建成空间结构语义空间。
10.如权利要求9所述的系统,其特征在于,还包括:
提取映射模块,用于在所述语义空间构建模块将所述多个第二空间结构CNN特征构建成空间结构语义空间之后,当对待测试图像进行测试时,通过CNN提取所述待测试图像的图像CNN特征,并将所述待测试图像的图像CNN特征映射到语义空间,得到全局语义特征;
比较分析模块,用于将所述全局语义特征与所述空间结构语义空间进行比较分析,从所述全局语义特征中获取空间结构语义特征;
加入生成模块,用于将获取到的所述空间结构语义特征加入LSTM模型中进行处理,生成所述待测试图像的语义文本特征。
11.一种计算机可读存储介质,其特征在于,存储用于图像处理的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法。
CN201610322369.3A 2016-05-16 2016-05-16 一种图像处理方法及系统 Active CN107391505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610322369.3A CN107391505B (zh) 2016-05-16 2016-05-16 一种图像处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610322369.3A CN107391505B (zh) 2016-05-16 2016-05-16 一种图像处理方法及系统

Publications (2)

Publication Number Publication Date
CN107391505A CN107391505A (zh) 2017-11-24
CN107391505B true CN107391505B (zh) 2020-10-23

Family

ID=60338028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610322369.3A Active CN107391505B (zh) 2016-05-16 2016-05-16 一种图像处理方法及系统

Country Status (1)

Country Link
CN (1) CN107391505B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154235A (zh) * 2017-12-04 2018-06-12 盈盛资讯科技有限公司 一种图像问答推理方法、系统及装置
CN108170816B (zh) * 2017-12-31 2020-12-08 厦门大学 一种基于深度神经网络的智能视觉问答方法
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN108846413B (zh) * 2018-05-21 2021-07-23 复旦大学 一种基于全局语义一致网络的零样本学习方法
CN110674342B (zh) * 2018-06-14 2023-04-25 杭州海康威视数字技术股份有限公司 查询目标图像的方法和装置
CN109002852B (zh) * 2018-07-11 2023-05-23 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN110796133A (zh) 2018-08-01 2020-02-14 北京京东尚科信息技术有限公司 文案区域识别方法和装置
CN109325512A (zh) * 2018-08-01 2019-02-12 北京市商汤科技开发有限公司 图像分类方法及装置、电子设备、计算机程序及存储介质
CN109472209B (zh) * 2018-10-12 2021-06-29 咪咕文化科技有限公司 一种图像识别方法、装置和存储介质
CN109597998B (zh) * 2018-12-20 2021-07-13 电子科技大学 一种视觉特征和语义表征联合嵌入的图像特征构建方法
CN111476838A (zh) * 2019-01-23 2020-07-31 华为技术有限公司 图像分析方法以及系统
CN110163855B (zh) * 2019-05-17 2021-01-01 武汉大学 一种基于多路深度卷积神经网络的彩色图像质量评价方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110664373B (zh) * 2019-09-28 2022-04-22 华南理工大学 一种基于零样本学习的舌苔体质识别方法
CN110807472B (zh) * 2019-10-12 2022-08-12 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
CN111062865B (zh) * 2020-03-18 2020-07-03 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111767925A (zh) * 2020-04-01 2020-10-13 北京沃东天骏信息技术有限公司 物品图片的特征提取和处理方法、装置、设备和存储介质
CN111818397B (zh) * 2020-06-29 2021-10-08 同济大学 一种基于长短时记忆网络变体的视频描述生成方法
CN112287134B (zh) * 2020-09-18 2021-10-15 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN113806582B (zh) * 2021-11-17 2022-02-25 腾讯科技(深圳)有限公司 图像检索方法、装置、电子设备和存储介质
CN114626441A (zh) * 2022-02-23 2022-06-14 苏州大学 基于视觉对比注意力的隐式多模态匹配方法及系统
CN116665228B (zh) * 2023-07-31 2023-10-13 恒生电子股份有限公司 图像处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587478A (zh) * 2008-05-20 2009-11-25 株式会社理光 图像训练、自动标注、检索方法及装置
CN104239398A (zh) * 2014-07-02 2014-12-24 中国科学院计算技术研究所 一种基于密集子图的视觉词典生成方法及其系统
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8631122B2 (en) * 2010-11-29 2014-01-14 Viralheat, Inc. Determining demographics based on user interaction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587478A (zh) * 2008-05-20 2009-11-25 株式会社理光 图像训练、自动标注、检索方法及装置
CN104239398A (zh) * 2014-07-02 2014-12-24 中国科学院计算技术研究所 一种基于密集子图的视觉词典生成方法及其系统
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法

Also Published As

Publication number Publication date
CN107391505A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107391505B (zh) 一种图像处理方法及系统
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN114090823A (zh) 视频检索方法、装置、电子设备及计算机可读存储介质
CN113392253B (zh) 视觉问答模型训练及视觉问答方法、装置、设备及介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN108304387B (zh) 文本中噪音词的识别方法、装置、服务器组及存储介质
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN110929640B (zh) 一种基于目标检测的宽幅遥感描述生成方法
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN110955818A (zh) 搜索方法、装置、终端设备及存储介质
Khurram et al. Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN111552819A (zh) 一种实体提取方法、装置及可读存储介质
CN114937277B (zh) 基于图像的文本获取方法、装置、电子设备及存储介质
CN116069916A (zh) 旅游景点问答系统
CN113822521A (zh) 题库题目的质量检测方法、装置及存储介质
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN114840656B (zh) 一种视觉问答方法、装置、设备及存储介质
Saini et al. A Novel Approach of Image Caption Generator using Deep Learning
CN114863930A (zh) 一种目标人物的语音数据提取方法、系统、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant