CN111461323A - 一种图像识别方法及装置 - Google Patents

一种图像识别方法及装置 Download PDF

Info

Publication number
CN111461323A
CN111461323A CN202010174891.8A CN202010174891A CN111461323A CN 111461323 A CN111461323 A CN 111461323A CN 202010174891 A CN202010174891 A CN 202010174891A CN 111461323 A CN111461323 A CN 111461323A
Authority
CN
China
Prior art keywords
training image
semantic
visual
image
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010174891.8A
Other languages
English (en)
Other versions
CN111461323B (zh
Inventor
张勇东
闵少波
谢洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Research Institute
University of Science and Technology of China USTC
Original Assignee
Beijing Zhongke Research Institute
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Research Institute, University of Science and Technology of China USTC filed Critical Beijing Zhongke Research Institute
Priority to CN202010174891.8A priority Critical patent/CN111461323B/zh
Publication of CN111461323A publication Critical patent/CN111461323A/zh
Application granted granted Critical
Publication of CN111461323B publication Critical patent/CN111461323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明提供了一种图像识别方法,包括:S1,获取训练图像集,将训练图像集中的各训练图像与该训练图像对应的类别索引进行训练,学习提取无语义视觉表达;S2,将训练图像集中各训练图像与该训练图像所对应的语义标签对齐,学习提取语义对齐的视觉表达;S3,同时对无语义视觉表达及语义对齐的视觉表达进行识别分析,得到视觉偏见消除模型;S4,将待识别图像输入视觉偏见消除模型,进行识别。本发明提供的图像识别方法通过建立视觉偏见消除模型,可以提升对已知域和未知域样本的感知效果,进而实现无偏差零样本的准确识别。

Description

一种图像识别方法及装置
技术领域
本发明涉及一种基于域感知的偏见消除技术实现无偏差零样本图像 的识别的应用,具体涉及一种图像识别方法及装置。
背景技术
零样本学习旨在同时识别已知类别(已知域)或未知类别(未知域) 的图像样本。最近的方法侧重于学习一种语义对齐的视觉表达来将已知域 的知识迁移到未知域。然而由于语义知识的弱区分性,这种语义对齐的视 觉表达很难将两个域分开,因此,会导致未知域的图像更倾向于被识别成 已知域类别。
发明内容
(一)要解决的技术问题
本发明提供的一种图像识别方法及装置,用于至少解决上述问技术 题。
(二)技术方案
本发明一方面提供一种图像识别方法,包括:S1,获取训练图像集, 将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训 练,学习提取无语义视觉表达;S2,将所述训练图像集中各训练图像与该 训练图像所对应的语义标签对齐,学习提取语义对齐的视觉表达;S3,同 时对所述无语义视觉表达及所述语义对齐的视觉表达进行识别分析,得到 视觉偏见消除模型;S4,将待识别图像输入所述视觉偏见消除模型,进行 识别。
可选地,步骤S1中,所述学习提取无语义视觉表达,包括:提取所 述训练图像集中的各训练图像的视觉信息的二阶统计量,增强所述训练图 像集中各训练图像之间的类间可区分性。
可选地,步骤S1中,所述增强所述训练图像集中各图像之间的类间 可区分性,包括:设置一损失函数,所述损失函数包含一预设范围大小的 边缘系数,所述边缘系数的大小取决于所述训练图像的类间决策边界距 离;使所述边缘系数可自适应学习,进而增强所述训练图像集中各图像之 间的类间可区分性。
可选地,步骤S2中,所述将所述训练图像集中各训练图像与该训练 图像所对应的语义标签对齐,包括:通过自动搜索网络框架生成所述训练 图像的语义对齐视觉表达,使所述语义对齐视觉表达与所述语义标签对 齐。
可选地,通过自动搜索网络框架生成所述训练图像的语义对齐视觉表 达,包括:通过有向无环图训练所述训练图像,所述有向无环图中包括至 少两个节点;自动搜索所述至少两个节点之间的操作,得到所述训练图像 的语义对齐视觉表达。
可选地,自动搜索所述至少两个节点之间的操作,得到所述训练图像 的语义对齐视觉表达,包括:自动搜索所述至少两个节点之间的全连接、 图卷积、直接映射以及无操作中的任一种操作,得到所述训练图像的语义 对齐视觉表达。
可选地,步骤S4中,所述将待识别图像输入所述视觉偏见消除模型, 进行识别,包括:将待识别图像输入所述视觉偏见消除模型,通过所述视 觉偏见消除模型判断所述待识别图像来自已知域或未知域,根据判断结果 使用特定域进行识别。
可选地,通过所述视觉偏见消除模型判断所述待识别图像来自已知域 或未知域,包括:通过所述视觉偏见消除模型计算图像无语义视觉特征的 分类分数的熵;判断所述熵是否大于一预设值,若是,则所述图像来自于 未知域,若否,则判定所述训练图像来自于已知域。
可选地,根据判断结果使用特定域进行识别,包括:若所述待识别图 像来自于已知域,则使用无语义视觉特征对所述待识别图像进行识别;若 所述待识别图像来自于未知域,则使用语义对齐的视觉特征对所述待识别 图像进行识别。
本发明另一方面还提供了一种图像识别装置,包括:自适应二阶嵌入 模块,用于获取训练图像集,将所述训练图像集中的各训练图像与该训练 图像对应的类别索引进行训练,学习提取无语义视觉表达;自动语义嵌入 模块,用于将所述训练图像集中各训练图像与该训练图像所对应的语义标 签对齐,学习提取语义对齐的视觉表达;分析模块,用于同时对所述无语 义视觉表达及所述语义对齐的视觉表达进行识别分析,得到视觉偏见消除 模型;识别模块,用于将待识别图像输入所述视觉偏见消除模型,进行识 别。
(三)有益效果
1、本发明通过构造两个互补的视觉表达形式,即无语义视觉表达和 语义对齐视觉表达来分别处理已知域和未知域样本,进而实现无偏差的零 样本识别应用;
2、本发明通过设计二阶嵌入模块以生成高度可区分的无语义视觉表 达,从而提升通过无语义视觉表达对已知域样本的识别能力和未知域样本 的感知效果;
3、本发明通过设计一种自动搜索的语义-视觉嵌入模块,能够自动搜 索最优的网络架构来生成鲁棒的语义对齐视觉表达。
附图说明
图1示意性示出了本发明实施例中提供的一种图像识别方法流程图;
图2示意性示出了本发明实施例中基于域感知的偏见消除模型训练结 构图;
图3示意性示出了本发明实施例中基于域感知的偏见消除模型推理框 图;
图4示意性示出了本发明实施例中图像识别装置的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明进一步详细说明。
本发明实施例提出了一种新的基于域感知的偏见消除技术来实现无 偏差的零样本图像识别应用。其核心思想为构建两个互补的视觉表达,也 即,无语义的视觉表达和有语义的视觉表达来分别处理已知域和未知域样 本。对于无语义视觉表达,可设计一种自适应二阶嵌入模块来提取视觉信 息中的二阶统计量,并通过自适应的边缘Softmax来最大化其类间差异。 这使得无语义视觉表达具有足够的可区别性,能同时进行已知域样本的类别预测和未知域样本的准确感知。对于感知到的未知域样本,本发明实施 例提出了一个自动语义嵌入模块来生成鲁棒的语义对齐视觉表达,从而进 行具体的未知域类别预测。通过准确地感知未知域样本,可有效地防止未 知域样本被识别成已知域类别。该方法在五个包括分类和分割的基准数据 集上都取得了目前最好的效果。下面进行详细介绍。
参阅图1,图1示意性示出了本发明实施例中提供的一种图像识别方 法流程图,包括:
S1,获取训练图像集,将训练图像集中的各训练图像与该训练图像对 应的类别索引进行训练,学习提取无语义视觉表达。
本发明实施例中的训练图像集来自零样本数据集,该零样本数据集例 如可以包括:数据集Caltech-UCSD birds(CUB-200),该CUB-200数据集 包含200种鸟的类别,共11788张图片。其中150类鸟作为可见类别进行 训练,剩下的50类作为未知类别进行验证,语义知识采用312维的属性 向量作为类别描述。
数据集Animals with Attributes2(AWA2),该AWA2数据集包括50种 动物类别的37322张图片,其中40类动物作为已知类别进行训练,剩下 的10类作为未知类别进行验证。语义知识采用85维类别属性作为描述。
数据集Attribute Pascal and Yahoo(aPY),该aPY数据集包括32类带 有属性标注的15339张图片。其中,20类作为可见类别,12类作为未知 类别,类别属性标注为64维。
数据集SUN,该SUN数据集包括20类动物的图像分割数据集,其中 的14类作为可见类别,剩下的6类作为未知类别,采用300维的类别属 性作为描述。
数据集Pascal VOC,该Pascal VOC数据集包括20类物体的图像分割 数据集。其中的14种类别作为可见类别进行训练,剩下的6类作为未知 类别进行测试。其类别描述通过“word2vec”方法得到,维度为300。在 训练过程中,任何带有未知类别像素的样本都会被移除
在通用的零样本学习框架下,都侧重于通过优化以下损失函数来学习 一个视觉嵌入函数fv(x)和语义嵌入函数g(·):
Figure RE-GDA0002528077780000051
其中,y是训练图像xs的类别;ay是语义嵌入函数g(·)对应的语义标 签(类别描述),通过语义嵌入函数g(·)得到语义对齐视觉表达。d(·,·)是 距离度量函数,采用负的余弦相似度作为距离度量。通过优化损失函数Ls2v而学习到的fv(x)即为语义对齐的视觉表达。由于已知域和未知域的语义 描述同属于一个语义空间,因此在测试阶段,其推断过程为:
Figure RE-GDA0002528077780000052
其中,x可以来自于已知域或者未知域。
不同于上述通用的零样本学习框架,本发明实施例中构建了一个语义 无关的视觉表达fd(x),当fd(x)未与语义标签ay对齐时,fd(x)只能用于 识别训练图像xs。本发明实施例中将获得的训练图像集中的各训练图像与 该训练图像对应的类别索引进行交叉熵损失训练训练图像集,学习提取无 语义视觉表达。
首先,训练fd(x)中的参数,本发明实施例提出了一个自适应边缘 Softmax作为损失函数:
Figure RE-GDA0002528077780000053
其中,Wy为分类器的权重;y是训练图像的类别;λ∈(0,1]为边缘 函数;当λ=1时,
Figure RE-GDA0002528077780000054
等同于标准的Softmax损失函数。当λ<1时,x 和对应类别y的分类响应Wyx会被抑制,因此要求x被预测成y的决策边 界更加清晰。相比于传统的Softmax损失函数,
Figure RE-GDA0002528077780000055
要求网络学习到更大 的类间决策边界距离,来满足λ<1。并且,λ是自适应变化的,其数值取 决于样本的难易程度,λ的表达式如下:
Figure RE-GDA0002528077780000061
其中,py(x)为x被预测成y的概率,当样本越难得时,则λ的数值越 小。本发明实施例中λ的数值小于1,使得
Figure RE-GDA0002528077780000062
变得越严苛。本发明实施 例中,若图像零样本越易获得,则类间决策边界距离减小,边缘系数增大; 若图像零样本越难获得,则类间决策边界距离增大,边缘系数减小。
参阅图2,图2示意性示出了本发明实施例中基于域感知的偏见消除 模型训练结构图。
本发明实施例中学习提取无语义视觉表达,包括:对训练图像集中的 各训练图像的视觉信息的二阶统计量进行提取,增强训练图像集中各训练 图像之间的类间可区分性。其中,增强训练图像集中各图像之间的类间可 区分性包括:设置一损失函数,该损失函数包含一预设范围大小的边缘系 数,该边缘系数的大小取决于训练图像的类间决策边界距离;使该边缘系 数自适应学习,以小于一预设值,进而增强训练图像集中各图像之间的类间可区分性。
具体的,提取训练图像视觉信息的二阶统计量的过程如图2所示:
Figure RE-RE-GDA0002528077780000063
如图2所示,
Figure RE-GDA0002528077780000064
Figure RE-GDA0002528077780000065
表示两个不同的压缩函数;将 x映射到两个不同的低维空间,
Figure RE-GDA0002528077780000066
Figure RE-GDA0002528077780000067
分别表示空间注意力函数 和通道注意力函数,
Figure RE-GDA0002528077780000068
为对应元素乘法操作,
Figure RE-GDA0002528077780000069
为矩阵外积操作,通过空 间注意力函数
Figure RE-GDA00025280777800000610
和通道注意力函数
Figure RE-GDA00025280777800000611
得到语义无关视觉表达。需 要注意的是,
Figure RE-GDA00025280777800000612
Figure RE-GDA00025280777800000613
在本发明实施例中被设计成抑制训练图像噪 声信息的交叉注意力形式以构建视觉偏见消除模型,设计成交叉注意力形 式的优点为:可以通过两种互补的注意力机制更有效的抑制噪声信息;并 且提升二阶映射输入的互补性。
S2,将训练图像集中各训练图像与该训练图像所对应的语义标签对 齐,学习提取语义对齐的视觉表达。
对于训练图像的语义对齐视觉表达fv(x),传统的将语义对齐视觉表 达与语义标签对齐是通过简单的两层全连接实现。然而,由于语义特征和 视觉特征往往存在很大的信息差异,因此,普通的视觉操作模块很难编码 合适的语义信息。
在上述基础上,本发明实施例通过自动搜索网络架构使训练图像与语 义标签对齐,包括:通过自动搜索最优的网络框架生成训练图像的语义对 齐视觉表达,语义对齐视觉表达用于对训练图像的未知域进行预测,使语 义对齐视觉表达与语义标签对齐。更具体地,本发明实施例中,通过有向 无环图用于训练上述训练图像,该有向无环图中包括至少两个节点;自动 搜索至少两个节点之间的操作,得到训练图像的语义对齐视觉表达。
本发明实施例中设置训练图像的有向无环图,该有向无环图的每一层 包括至少两个节点,每个节点表示中间层特征,节点与节点之间的边表示 待定的操作。这里节点之间的操作例如可以包括全连接、图卷积、直接映 射、无操作中的一个,得到训练图像的语义对齐视觉表达。这四种操作被 定义为操作集O。为了自动搜索节点之间最优的操作,本发明实施例将搜 索过程转化为一种Softmax优化问题:
Figure RE-GDA0002528077780000071
其中,
Figure RE-GDA0002528077780000072
表示节点i,j之间的操作为第c个操作的打分,Oi,j为最 终选择的是i,j之间的操作。
S3,同时对无语义视觉表达及语义对齐的视觉表达进行识别分析,得 到视觉偏见消除模型。
在以上通用的零样本学习框架基础上,本发明实施例中将类间可区分 性增强的训练图像的语义无关的视觉表达以及与语义标签对齐的训练图 像的视觉表达设计为交叉注意力形式,以构建视觉偏见消除模型,其过程 例如可以表示为:
Figure RE-GDA0002528077780000073
其中,C是一个源域类别分类器,C(fd(x))的输出为各源域类别的概率, 并且Cv为对应y的分类概率;H(·)为输入概率的熵。
S4,将待识别图像输入视觉偏见消除模型,进行识别。
本发明实施例中将待识别图像输入至视觉偏见消除模型,通过视觉偏 见消除模型置信度对待识别图像进行识别。其中,具体识别过程为:计算 视觉偏见消除模型的熵,上述熵具体表示为视觉偏见消除模型的输入概率 的熵H(·);将输入概率的熵H(.)作为依据用来判断训练图像属于未知域或 已知域。更具体为:设置一预设值,若输入概率的熵H(·)大于预设值,则 表明视觉偏见消除模型的置信度为低,该训练图像来自于未知域。若输入概率的熵小于预设值,则表明视觉偏见消除模型的置信度为高,该训练图 像来自于已知域。
参阅图3,图3示意性示出了本发明实施例中基于域感知的偏见消除 网络推理框图。零样本学习的一种通用框架是将视觉图像和对应类别的语 义标签或类别描述映射到联合潜空间进行对齐,从而将识别任务转换为一 个最近邻搜索问题。在潜空间里,将训练图像作为查询,将包括已知域和 未知域的所有类别的语义标签作为类别描点,将距离查询图像最近的语义 标签作为预测类别。在上述的通用框架中存在的问题是:提供的语义标签往往具有很弱的可区分性。例如,在图3中的AWA2数据集中,已知类别 “老虎”和未知类别“豹子”的语义标签具有高达0.75的余弦相似度,因 此用这些语义标签对齐的图像视觉表达具有很弱的类间可区分性,从而使 两个域的训练图像很难被区分开。同时,尽管无语义的视觉表达不能识别 未知域样本的类别,但可以通过其预测的已知域类别概率的熵来感知哪些 样本属于未知域,一旦这种域感知效果准确的话,就能防止目标域图像被 识别成源域类别。对于被感知到的未知域样本,本发明实施例中通过再次 学习一个语义对齐的视觉表达去专门预测未知域类别,基于以上存在的问 题,图3中首先通过构建训练图像语义无关的视觉表达和语义对齐的视觉 表达来分别处理已知域和未知域样本。然后设计了一种自适应的二阶嵌入 模块来生成高度可区分的语义无关视觉表达,从而提供已知域样本的识别 能力和未知域样本的感知效果;最后设计了一种自动搜索的语义-视觉嵌入 模块,通过自动搜索最优的网络架构来生成鲁棒的语义对齐的视觉表达。
综上所述,本发明实施例提供一种基于域感知的偏见消除技术实现无 偏差零样本的图像识别方法,该方法通过学习提取无语义视觉表达语义对 齐的视觉表达来分别处理已知域和未知域样本,进而实现无偏差的零样本 识别应用。
本发明实施例中还提供一种图像识别装置,参阅图4,图4示意性示 出了本发明实施例中图像识别装置的结构图,如图4所示,上述图像识别 装置400包括自适应二阶嵌入模块410、自动语义嵌入模块420、分析模 块430以及识别模块440。
自适应二阶嵌入模块410,用于获取训练图像集,将训练图像集中的 各训练图像与该训练图像对应的类别索引进行训练,学习提取无语义视觉 表达。
自动语义嵌入模块420,用于将训练图像集中各训练图像与该训练图 像所对应的类别描述对齐,学习提取语义对齐的视觉表达。
分析模块430,用于同时对无语义视觉表达及语义对齐的视觉表达进 行识别分析,得到视觉偏见消除模型。
识别模块440,用于将待识别图像输入视觉偏见消除模型,进行识别。
装置实施例部分未尽细节之处请参见上述方法实施例部分,此处不再 赘述,其带来的优势与方法实施例部分相同。
根据本发明实施例的模块中的任意多个、或其中任意多个的至少部分 功能可以在一个模块中实现。根据本发明实施例的模块中的任意一个或多 个可以被拆分成多个模块来实现。根据本发明实施例的模块中的任意一个 或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列 (FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上 的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任 何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实 现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本发 明实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模 块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,自适应二阶嵌入模块410、自动语义嵌入模块420、分析模块 430和识别模块440中的任意多个可以合并在一个模块中实现,或者其中 的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个 模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模 块中实现。根据本发明的实施例,自适应二阶嵌入模块410、自动语义嵌 入模块420、分析模块430和识别模块440中的至少一个可以至少被部分 地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列 (PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC), 或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件 来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意 几种的适当组合来实现。或者,自适应二阶嵌入模块410、自动语义嵌入 模块420、分析模块430和识别模块440中的至少一个可以至少被部分地 实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的 功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而 已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图像识别方法,包括:
S1,获取训练图像集,将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训练,学习提取无语义视觉表达;
S2,将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐,学习提取语义对齐的视觉表达;
S3,同时对所述无语义视觉表达及所述语义对齐的视觉表达进行识别分析,得到视觉偏见消除模型;
S4,将待识别图像输入所述视觉偏见消除模型,进行识别。
2.根据权利要求1所述的方法,其中,步骤S1中,所述学习提取无语义视觉表达,包括:
提取所述训练图像集中的各训练图像的视觉信息的二阶统计量,增强所述训练图像集中各训练图像之间的类间可区分性。
3.根据权利要求2所述的方法,其中,步骤S1中,所述增强所述训练图像集中各图像之间的类间可区分性,包括:
设置一损失函数,所述损失函数包含一预设范围大小的边缘系数,所述边缘系数的大小取决于所述训练图像的类间决策边界距离;
使所述边缘系数可自适应学习,以增强所述训练图像集中各图像之间的类间可区分性。
4.根据权利要求1所述的方法,其中,步骤S2中,将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐,包括:
通过自动搜索网络框架生成所述训练图像的语义对齐视觉表达,使所述语义对齐视觉表达与该训练图像语义标签对齐。
5.根据权利要求4所述的方法,其中,所述通过自动搜索网络框架生成所述训练图像的语义对齐视觉表达,包括:
通过有向无环图训练所述训练图像,所述有向无环图中包括至少两个节点;
自动搜索所述至少两个节点之间的操作,得到所述训练图像的语义对齐视觉表达。
6.根据权利要求5所述的方法,其中,所述自动搜索所述至少两个节点之间的操作,得到所述训练图像的语义对齐视觉表达,包括:
自动搜索所述至少两个节点之间的全连接、图卷积、直接映射以及无操作中的任一种操作,得到所述训练图像的语义对齐视觉表达。
7.根据权利要求1所述的方法,其中,步骤S4中,所述将待识别图像输入所述视觉偏见消除模型,进行识别,包括:
将待识别图像输入所述视觉偏见消除模型,通过所述视觉偏见消除模型判断所述待识别图像来自已知域或未知域,根据判断结果使用特定域进行识别。
8.根据权利要求7所述的方法,其中,通过所述视觉偏见消除模型判断所述待识别图像来自已知域或未知域,包括:
通过所述视觉偏见消除模型计算图像无语义视觉特征的分类分数的熵;
判断所述熵是否大于一预设值,若是,则所述图像来自于未知域,若否,则判定所述训练图像来自于已知域。
9.根据权利要求7所述的方法,其中,所述根据判断结果使用特定域进行识别,包括:
若所述待识别图像来自于已知域,则使用无语义视觉特征对所述待识别图像进行识别;
若所述待识别图像来自于未知域,则使用语义对齐的视觉特征对所述待识别图像进行识别。
10.一种图像识别装置,包括:
自适应二阶嵌入模块,用于获取训练图像集,将所述训练图像集中的各训练图像与该训练图像对应的类别索引进行训练,学习提取无语义视觉表达;
自动语义嵌入模块,用于将所述训练图像集中各训练图像与该训练图像所对应的语义标签对齐,学习提取语义对齐的视觉表达;
分析模块,用于同时对所述无语义视觉表达及所述语义对齐的视觉表达进行识别分析,得到视觉偏见消除模型;
识别模块,用于将待识别图像输入所述视觉偏见消除模型,进行识别。
CN202010174891.8A 2020-03-13 2020-03-13 一种图像识别方法及装置 Active CN111461323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010174891.8A CN111461323B (zh) 2020-03-13 2020-03-13 一种图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010174891.8A CN111461323B (zh) 2020-03-13 2020-03-13 一种图像识别方法及装置

Publications (2)

Publication Number Publication Date
CN111461323A true CN111461323A (zh) 2020-07-28
CN111461323B CN111461323B (zh) 2022-07-29

Family

ID=71682788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010174891.8A Active CN111461323B (zh) 2020-03-13 2020-03-13 一种图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN111461323B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139591A (zh) * 2021-04-14 2021-07-20 广州大学 一种基于增强多模态对齐的广义零样本图像分类方法
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN117746303A (zh) * 2024-02-20 2024-03-22 山东大学 一种基于感知相关性网络的零样本视觉导航方法及系统
CN117746303B (zh) * 2024-02-20 2024-05-17 山东大学 一种基于感知相关性网络的零样本视觉导航方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866421A (zh) * 2010-01-08 2010-10-20 苏州市职业大学 基于离散度约束非负稀疏编码的自然图像特征提取方法
CN101877007A (zh) * 2010-05-18 2010-11-03 南京师范大学 融合空间方位关系语义的遥感图像检索方法
US20130208977A1 (en) * 2011-11-02 2013-08-15 Nec Laboratories America, Inc. Receptive field learning for pooled image features
CN107273853A (zh) * 2017-06-16 2017-10-20 中国地质大学(武汉) 一种基于类心和协方差对齐的遥感图像迁移学习方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
US20180336183A1 (en) * 2017-05-22 2018-11-22 International Business Machines Corporation Deep Embedding for Natural Language Content Based on Semantic Dependencies
CN110555467A (zh) * 2019-08-13 2019-12-10 深圳创新奇智科技有限公司 一种基于模型迁移的工业数据分类方法
CN110706302A (zh) * 2019-10-11 2020-01-17 中山市易嘀科技有限公司 一种文本合成图像的系统及方法
CN110717512A (zh) * 2019-09-05 2020-01-21 华南理工大学 一种基于结构保持零样本学习的鸟类濒危物种识别方法
CN110826639A (zh) * 2019-11-12 2020-02-21 福州大学 一种利用全量数据训练零样本图像分类方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866421A (zh) * 2010-01-08 2010-10-20 苏州市职业大学 基于离散度约束非负稀疏编码的自然图像特征提取方法
CN101877007A (zh) * 2010-05-18 2010-11-03 南京师范大学 融合空间方位关系语义的遥感图像检索方法
US20130208977A1 (en) * 2011-11-02 2013-08-15 Nec Laboratories America, Inc. Receptive field learning for pooled image features
US20180336183A1 (en) * 2017-05-22 2018-11-22 International Business Machines Corporation Deep Embedding for Natural Language Content Based on Semantic Dependencies
CN107273853A (zh) * 2017-06-16 2017-10-20 中国地质大学(武汉) 一种基于类心和协方差对齐的遥感图像迁移学习方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN110555467A (zh) * 2019-08-13 2019-12-10 深圳创新奇智科技有限公司 一种基于模型迁移的工业数据分类方法
CN110717512A (zh) * 2019-09-05 2020-01-21 华南理工大学 一种基于结构保持零样本学习的鸟类濒危物种识别方法
CN110706302A (zh) * 2019-10-11 2020-01-17 中山市易嘀科技有限公司 一种文本合成图像的系统及方法
CN110826639A (zh) * 2019-11-12 2020-02-21 福州大学 一种利用全量数据训练零样本图像分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BIN TONG 等: "Hierarchical Disentanglement of Discriminative Latent Features for Zero-shot Learning", 《IEEE XPLORE》 *
SHAOBO MIN 等: "Domain-Specific Embedding Network for Zero-Shot", 《ARXIV:1908.04174V1》 *
YUVAL ATZMON 等: "Adaptive Confidence Smoothing for Generalized Zero-Shot Learning", 《ARXIV:1812.09903V3》 *
陈鹤森: "基于深度学习的细粒度图像识别研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139591A (zh) * 2021-04-14 2021-07-20 广州大学 一种基于增强多模态对齐的广义零样本图像分类方法
CN113139591B (zh) * 2021-04-14 2023-02-24 广州大学 一种基于增强多模态对齐的广义零样本图像分类方法
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN117746303A (zh) * 2024-02-20 2024-03-22 山东大学 一种基于感知相关性网络的零样本视觉导航方法及系统
CN117746303B (zh) * 2024-02-20 2024-05-17 山东大学 一种基于感知相关性网络的零样本视觉导航方法及系统

Also Published As

Publication number Publication date
CN111461323B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
CN109766936B (zh) 基于信息传递和注意力机制的图像变化检测方法
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN111767927A (zh) 一种基于全卷积网络的轻量级车牌识别方法及系统
CN112347244A (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN102385592B (zh) 图像概念的检测方法和装置
CN104881675A (zh) 一种视频场景的识别方法和装置
CN106022254A (zh) 图像识别技术
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
CN114398491A (zh) 一种基于知识图谱的语义分割图像实体关系推理方法
Nguyen et al. Machine learning algorithms application to road defects classification
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN111461323B (zh) 一种图像识别方法及装置
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和系统
CN116664944A (zh) 一种基于属性特征知识图谱的葡萄园害虫识别方法
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN113920494A (zh) 一种基于transformer的车牌字符识别方法
CN113269274A (zh) 一种基于循环一致性的零样本识别方法及系统
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN116071609B (zh) 基于目标特征动态自适应提取的小样本图像分类方法
CN117115565A (zh) 一种基于自主感知的图像分类方法、装置及智能终端
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法
CN114663760A (zh) 模型训练的方法、目标检测方法、存储介质及计算设备
CN114510610A (zh) 面向多模态知识图谱构建的识别视觉概念的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant