CN112364933A - 图像分类方法、装置、电子设备和存储介质 - Google Patents

图像分类方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112364933A
CN112364933A CN202011322350.1A CN202011322350A CN112364933A CN 112364933 A CN112364933 A CN 112364933A CN 202011322350 A CN202011322350 A CN 202011322350A CN 112364933 A CN112364933 A CN 112364933A
Authority
CN
China
Prior art keywords
classification
feature
characteristic
image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011322350.1A
Other languages
English (en)
Inventor
申世伟
李家宏
李思则
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202011322350.1A priority Critical patent/CN112364933A/zh
Publication of CN112364933A publication Critical patent/CN112364933A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Abstract

本申请公开了一种图像分类方法、装置、电子设备和存储介质,用于解决相关技术中分类精度有所提升,但时间消耗也大幅增加的问题。本申请中对目标图像的特征图进行裁剪处理得到多张特征子图,并提取特征子图之间的交互关系后,基于包含交互关系的特征信息进行分类识别。由于提取特征子图的关联关系的方法在时间消耗上远远小于从原始图像裁剪出的部分的分类处理,故此,本申请的图像分类方法能够节约时间消耗。此外,由于对特征图的裁剪和提取出不同特征子图关联关系,使得分类精度相较于整图识别的方式有所提升。故此,本申请实施例的图像分类方法是一种从时间消耗和精度上进行权衡后的一个较佳方法。

Description

图像分类方法、装置、电子设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种图像分类方法、装置、电子设备和存储介质。
背景技术
在计算机视觉领域,图像的分类识别,可以说是最基础,最常见的一个问题,从之前的手动特征提取结合传统的分类模型,到如今的深度学习,分类识别领域的各个数据库的识别率在不断被刷新。
从常见物体识别,到细粒度物体识别,到人脸识别,似乎各个细分的图像识别领域都在取得不断进步。
相关技术中为了提高对图像的分类精度,提出了将原始图像的四个角加中间区域进行裁剪得到五张子图。然后将这五张子图分别送入训练好的深度神经网络中进行类别预测。然后对五张子图的预测结果进行融合,得到原始图像的分类结果。
发明人发现,该方式的时间消耗是原来单张整图图像的五倍,即额外增加四倍的计算资源。故此,虽然分类精度有所提升,但时间消耗也大幅增加。故此,迫切需要一种新的分类的方法。
发明内容
本申请的目的是提供一种图像分类方法、装置、电子设备和存储介质,用于解决相关技术中虽然分类精度有所提升,但时间消耗也大幅增加的问题。
第一方面,本申请实施例提供了一种图像分类方法,所述方法包括:
对目标图像进行特征提取,得到特征图;
对所述特征图的多个指定区域进行裁剪处理,得到各所述指定区域分别对应的特征子图;
基于关联关系提取模型对裁剪得到的多个所述特征子图进行关联关系提取操作,得到包含各所述特征子图之间的关联关系的分类特征;
对所述分类特征进行分类处理,得到所述目标图像的分类结果。
在一些实施例中,关联关系提取模型包括编码器和解码器,所述基于关联关系提取模型对裁剪得到的多个所述特征子图进行关联关系提取操作,得到包含各所述特征子图之间的关联关系的分类特征,包括:
对每个所述特征子图分别进行降维处理,得到各个所述特征子图分别对应的特征向量;
将各所述特征子图对应的所述特征向量按照指定顺序输入至所述编码器进行编码处理得到各特征子图的特征向量的编码结果;
采用所述解码器对所述编码结果进行解码处理,得到所述分类特征。
在一些实施例中,所述解码器针对每个特征向量输出一个输出向量;则所述采用所述解码器对所述编码结果进行解码处理,得到所述分类特征,包括:
采用所述解码器对所述编码结果进行解码处理,得到第i个输出向量作为所述分类特征,其中i为正整数,且i小于或等于所述特征子图的总数量。
在一些实施例中,所述多个指定区域在所述特征图中的位置分布不同,所述对所述特征图的多个指定区域进行裁剪处理,得到各所述指定区域分别对应的特征子图,包括:
采用以下方式中的任一方式或组合得到各所述指定区域分别对应的特征子图:
方式1:在各所述指定区域内进行随机裁剪,得到指定尺寸的初始特征子图;将各所述初始特征子图进行缩放处理,得到目标尺寸的所述特征子图;
方式2:对各所述指定区域分别执行:
以所述指定区域的中心为裁剪后的初始特征子图的中心,从所述指定区域中裁剪出所述初始特征子图;将各所述初始特征子图进行缩放处理,得到目标尺寸的所述特征子图。
在一些实施例中,所述对所述分类特征进行分类处理,得到所述目标图像的分类结果,包括:
采用深度神经网络对所述分类特征进行特征提取得到目标特征;
基于特征与分类结果之间的对应关系,得到所述目标特征属于目标类别的概率;
当所述概率大于概率阈值时,确定所述目标对象的类别为所述目标类别。
在一些实施例中,所述对目标图像进行特征提取,得到特征图,包括:
采用预先训练的分类网络对所述目标对象进行特征提取,得到所述特征图。
第二方面,本申请实施例还提供一种图像分类装置,所述装置包括:
特征图提取模块,被配置为执行对目标图像进行特征提取,得到特征图;
裁剪模块,被配置为执行对所述特征图的多个指定区域进行裁剪处理,得到各所述指定区域分别对应的特征子图;
关联信息提取模块,被配置为执行基于关联关系提取模型对裁剪得到的多个所述特征子图进行关联关系提取操作,得到包含各所述特征子图之间的关联关系的分类特征;
分类模块,被配置为执行对所述分类特征进行分类处理,得到所述目标图像的分类结果。
在一些实施例中,关联关系提取模型包括编码器和解码器,所述关联信息提取模块,被配置为执行:
对每个所述特征子图分别进行降维处理,得到各个所述特征子图分别对应的特征向量;
将各所述特征子图对应的所述特征向量按照指定顺序输入至所述编码器进行编码处理得到各特征子图的特征向量的编码结果;
采用所述解码器对所述编码结果进行解码处理,得到所述分类特征。
在一些实施例中,所述解码器针对每个特征向量输出一个输出向量;则所述关联信息提取模块,被配置为执行:
采用所述解码器对所述编码结果进行解码处理,得到第i个输出向量作为所述分类特征,其中i为正整数,且i小于或等于所述特征子图的总数量。
在一些实施例中,所述多个指定区域在所述特征图中的位置分布不同,所述裁剪模块,被配置为执行:
采用以下方式中的任一方式或组合得到各所述指定区域分别对应的特征子图:
方式1:在各所述指定区域内进行随机裁剪,得到指定尺寸的初始特征子图;将各所述初始特征子图进行缩放处理,得到目标尺寸的所述特征子图;
方式2:对各所述指定区域分别执行:
以所述指定区域的中心为裁剪后的初始特征子图的中心,从所述指定区域中裁剪出所述初始特征子图;将各所述初始特征子图进行缩放处理,得到目标尺寸的所述特征子图。
在一些实施例中,所述分类模块,被配置为执行:
采用深度神经网络对所述分类特征进行特征提取得到目标特征;
基于特征与分类结果之间的对应关系,得到所述目标特征属于目标类别的概率;
当所述概率大于概率阈值时,确定所述目标对象的类别为所述目标类别。
在一些实施例中,所述特征图提取模块,被配置为执行采用预先训练的分类网络对所述目标对象进行特征提取,得到所述特征图。
第三方面,本申请另一实施例还提供了一种电子设备,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的任一图像分类方法。
第四方面,本申请另一实施例还提供了一种计算机存储介质,其中,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行本申请实施例中的任一图像分类方法。
本申请实施例中,得到目标图像的特征图之后,对该特征图进行裁剪得到多张特征子图。通过提取不同特征子图之间的关联关系,得到既包含所有特征子图的特征又包含特征子图之间的关联关系的分类特征。这样,分类特征相当于包含了原始图像的局部特征和全局特征,然后基于分类特征进行分类处理,能够得到原始图像的类别。本申请和相关技术均会执行特征提取,特征提取阶段的时间效果相差不多,由于提取特征子图的关联关系的方法在时间消耗上远远小于对一个从原始图像中裁剪出的子图的分类处理,故此,本申请的图像分类方法能够节约时间消耗。此外,由于裁剪出不同特征子图的方式能够继承区域识别方法的优势(即从多个子图的特征进行分类识别),使得分类精度相较于整图识别的方式有所提升。故此,本申请实施例的图像分类方法是一种从时间消耗和精度上进行权衡后的一个较佳方法。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请一个实施例的应用环境的示意图;
图2为根据本申请一个实施例的应用于图像分类方法的流程示意图;
图3为根据本申请一个实施例的用于提取图像特征的网络的结构示意图;
图4为根据本申请一个实施例的裁剪特征图的示意图;
图5为根据本申请一个实施例的裁剪特征图的又一示意图;
图6为根据本申请一个实施例的关联关系提取模型的结构示意图;
图7为根据本申请一个实施例的多层DNN网络的结构示意图;
图8为根据本申请一个实施例的用于图像分类的整个网络的结构示意图;
图9为根据本申请一个实施例的图像分类装置示意图;
图10为根据本申请一个实施例的电子设备的示意图。
具体实施方式
为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
相关技术中多采用用于分类的神经网络模型例如resnet101或者Inception-v3等深度学习图片分类模型对图像进行分类识别。相关技术中,包括整图识别和区域识别两种方法。
整图识别的分类方法可概括为:将原始图像输入至神经网络模型得到该图像的类别。为了相对整图识别方法提升分类的精度,提出了区域识别的分类方法。
在区域识别的分类方法中,先将原始图像剪裁出多张子图。例如按照上下左右中的位置,从原始图像中剪裁出五张子图,每张子图分别输入神经网络模型中得到各个子图的分类结果,然后融合各个子图的分类结果得到原始图像的分类结果。
由此,相关技术中为了提升分类的精度,需要额外增加约4倍的时间消耗。为此,本申请实施例中提出了一种既能比整图识别的分类方法精度高,又能够相对于区域识别的方法降低时间消耗的图像分类方法。
本申请实施例中的图像分类方法的发明构思为:可以先对原始图像进行特征提取,得到原始图像的特征图,然后对该特征图进行裁剪得到多张特征子图。通过提取不同特征子图之间的关联关系,得到既包含所有特征子图的特征又包含特征子图之间的关联关系的分类特征。这样,分类特征相当于包含了原始图像的局部特征和全局特征,然后基于分类特征进行分类处理,能够得到原始图像的类别。
本申请实施例中,由于提取特征子图的关联关系的方法在时间消耗上远远小于对一个从原始图像中裁剪出的子图的分类处理,故此,本申请的图像分类方法能够节约时间消耗。此外,由于裁剪出不同特征子图的方式能够继承区域识别方法的优势(即基于多个子图的特征进行分类识别),使得分类精度相较于整图识别的方式有所提升。故此,本申请实施例的图像分类方法是一种从时间消耗和精度上进行权衡后的一个较佳方法。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
图1为根据本申请一个实施例的应用环境的示意图。
如图1所示,该应用环境中例如可以包括存储系统10、服务器20以及终端设备30。终端设备30可用来进行网络访问的任何合适的电子设备,包括但不限于计算机、笔记本电脑、智能电话、平板电脑或是其它类型的终端。存储系统10能够存储被访问的视频,服务器20用于实现与终端设备30的交互,从存储系统中获取图像(包括静态图像或视频图像)返回给终端设备30,由终端设备进行展示。
终端设备30之间(例如,30_1与30_2或30_N之间)也可以经由网络40彼此通信。网络40可以是广义上的用于信息传递的网络,可以包括一个或多个通信网络,诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。
在本申请实施例中,终端设备30可以采集图像上传给服务器20,由服务器20完成对图像的分类操作。当然,终端设备也可以自行完成图像分类操作。
本申请中的描述中仅就单个服务器或终端设备加以详述,但是本领域技术人员应当理解的是,示出的单个服务器20、终端设备30和存储系统10旨在表示本申请的技术方案涉及终端设备、服务器以及存储系统的操作。对单个终端设备以及单个服务器和存储系统加以详述至少为了说明方便,而非暗示对终端设备和服务器的数量、类型或是位置等具有限制。应当注意,如果向图示环境中添加附加模块或从其中去除个别模块,不会改变本申请的示例实施例的底层概念。
另外,虽然为了方便说明而在图1中示出了从存储系统10到服务器20的双向箭头,但本领域技术人员可以理解的是,上述数据的收发也是可以通过网络40实现的。
本申请实施例中提供的图像分类方法可应用于终端设备对其本地存储的图像进行分类,也可以用于短视频平台对接收到的图像进行分类,也适用于云端设备对终端设备同步到该云端设备的相册进行分类。故此,存在图像分类需求的场景均适用于本申请实施例。
如图2所示,为本申请实施例提供的图像分类方法的流程示意图,包括以下步骤:
获取到目标图像之后,在步骤201中,对目标图像进行特征提取,得到特征图;
在一个实施例中,可以采用预先训练的分类网络对目标对象进行特征提取,得到特征图。该分类网络可以是任何的用于分类识别的神经网络,如resnet101或者Inception-v3。
实施时,可以先采集样本图像及其类别标签,然后对分类网络进行训练直至网络收敛。分类网络的训练可包括以下过程:
1)、随机抽取大量图像作为初始数据,并基于已有的打标签的模型或人工标注方式,获得各个初始数据的分类标签。
2)、基于获取的初始数据及其对应的分类标签对分类网络进行训练。可对全部数据进行N次训练(N为正整数),直到损失函数的几乎不再下降表明该分类网络收敛。
在训练阶段,相关参数设置如下:学习率可设置为0.001;优化器采用adam;使用label-smoothing来平滑标签提升模型的泛化性;同时加载使用预训练的模型参数作为初始模型参数;数据增强采取随机裁剪、左右翻转、亮度对比度等颜色空间变换;优化目标可以为常见的分类损失函数,如交叉熵损失;训练时可采用tensorflow等训练框架进行训练。
训练好分类网络之后,可采用其指定神经网络层的特征作为特征图。如图3所示,为resnet101的一种结构示意图,在训练好resnet101模型之后,将该模型中输入给平均池化层(avgpool)的特征作为从目标图像中提取的特征图。本申请实施例中,基于分类网络进行特征提取,能够提取出易于进行分类操作的特征。
在提取了目标图像的特征图之后,可以在步骤202中,对特征图的多个指定区域进行裁剪处理,得到各指定区域分别对应的特征子图;
也即,与相关技术中对原始图像进行裁剪不同,本申请中是对目标图像的特征图进行裁剪处理,得到多个特征子图。
在一些实施例中,为了能够提高分类的精度,本申请实施例中,多个指定区域在特征图中的位置分布不同,以便于裁剪出的特征子图集合能够尽可能涵盖特征图中的更多特征。
以裁剪出5个特征图为例,如图4所示为各指定区域在特征图中位置分布示意图。实施时,各个指定区域的大小可以相同,也可以不同。相同构思的位置分布可以根据实际需求进行设计(如图4中的a-c所示,为相同构思的位置分布方式)。此外,各指定区域可以重叠(如图4中的d图所示),不同指定区域也可以不重叠(如图4中的e图所示)。
实施时,对特征图进行裁剪处理时,可以采用剪裁处理Crop方式,从特征图的各指定区域中裁剪出特征子图。例如,可采用以下方式中的任一种方式或组合得到各所述指定区域分别对应的特征子图:
裁剪方式1:在各指定区域内进行随机裁剪,得到指定尺寸的初始特征子图;将各初始特征子图进行缩放处理,得到目标尺寸的所述特征子图;
以图4所示的划分5个区域为例:可以为每个指定区域设置一个指定尺寸,该指定尺寸用(W,H)(即宽和高)表示。对每个指定区域而言,不同指定区域的指定尺寸可以相同也可以不同。然后对每个指定区域,根据其对应的指定尺寸从该指定区域中进行随机裁剪,得到指定尺寸的初始特征子图。
在得到各个初始特征子图之后,可以按照期望的目标尺寸对各初始特征子图进行缩放处理,使得各初始特征子图resize(重置)到目标尺寸,由此得到特征子图。
其中,缩放处理的方式取决于初始特征子图的指定尺寸和得到的特征子图的目标尺寸大小,若指定尺寸大于目标尺寸,则进行下采样处理以缩小初始特征子图。反之,若指定尺寸小于目标尺寸,则进行上采样处理以放大初始特征子图。上采样的方式可以对初始特征子图的宽度方向和高度方向分别进行填充,可以初始特征子图的边缘数值进行填充,也可以采用常量数值进行填充,还可以对初始特征子图进行插值运算进行填充。
裁剪方式2:对各指定区域分别执行:
以指定区域的中心为裁剪后的初始特征子图的中心,从各指定区域中裁剪出初始特征子图;将各初始特征子图进行缩放处理,得到目标尺寸的特征子图。
也即,该方式2要求指定区域和特征子图的中心点一致。例如,如图5所示,实线矩形表示特征图中的一个指定区域,虚线边框表示裁剪出的特征子图。
需要说明的是,本申请并不要求特征子图的大小要小于指定区域。指定区域仅用于表示不同特征子图的位置分布,并不对特征子图的大小进行限制。
基于从多个位置裁剪出特征子图,使得最终用于分类识别的特征能够含有整幅图像不同区域的特征,以便于提高分类的精度。
在裁剪出各个特征子图之后,可以在步骤203中,基于关联关系提取模型对裁剪得到的多个特征子图进行关联关系提取操作,得到包含各特征子图之间的关联关系的分类特征。
步骤203中为了能够将独立的各个特征子图关联起来,以便于分类特征中不仅能够包括各个特征子图的特征还能够涵盖特征子图之间的关联关系,丰富了分类特征中的信息量,以便于能够基于分类特征准确的预测目标图像的类别。
实施时,为了便于提取不同特征子图之间的关联关系,可以采用基于编码器和解码器的神经网络模型作为关联关系提取模型。实施时,为了能够进一步减少时间消耗可以在使用关联关系提取模型时先对每个特征子图分别进行降维处理,得到各个特征子图分别对应的特征向量;然后在采用关联关系提取模型得到分类特征。其中,降维处理的方式可以是最大池化方式或者平均池化方式。
在对特征子图进行降维处理后,可以将各特征子图的特征向量按照指定顺序输入至编码器进行编码处理得到各特征子图的特征向量的编码结果;然后采用解码器对编码结果进行解码处理,得到分类特征。
基于解码器和编码器能够很好的提取出关联关系,例如实施时,关联关系提取模型可以是Transform模型,也可以是LSTM(Long Short-Term Memory,长短时记忆网络)。能够提取不同特征子图之间的关联关系的模型均适用于本申请实施例。
以Transform模型为例,如图6所示:假设特征子图有N个,则对各特征子图进行降维处理后得到N个特征向量作为Transform模型的输入。如图中所示的E1、E2……EN为N个特征子图对应的特征向量。经过Transform模型处理之后,每个特征向量会对应输出一个输出向量,则共得到N个输出向量(即图6中的T1、T2……TN)。
故此,当解码器针对每个特征向量输出一个输出向量时;每个输出向量都可以理解为包含了各特征子图的信息并包含特征子图之间的关联关系,故此任一个输出向量都能满足分类需求。故此,可以采用解码器对编码结果进行解码处理,将得到的第i个输出向量作为分类特征,其中i为正整数,且i小或等于特征子图的总数量。在实施时,为了方便操作还可以采用第一个节点的输出向量(如图6中的T1)作为分类特征。由此,从解码器的输出结果中选择少量的信息即可用于后续分类处理,能够降低信息分类特征的信息量,进一步降低时间消耗。
然后,在步骤204中,对分类特征进行分类处理,得到目标图像的分类结果。
实施时,为了进一步提高分类的精度,可以采用多层DNN(Deep Neural Networks,深度神经网络)对分类特征进行处理以便于提取高层的特征作为目标特征。DNN可以理解为有很多隐藏层的神经网络。从DNN按不同层的位置划分,DNN内部的神经网络层可以分为三类,即输入层、隐藏层和输出层。如图7所示,一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是从小的局部模型来说,还是和感知机一样。由于DNN层数多,则线性关系系数w和偏倚b的数量也就是很多了。
基于多层DNN提取目标特征之后,基于特征与分类结果之间的对应关系,得到目标特征属于目标类别的概率;为了提高分类的准确性,可以当概率大于概率阈值时,确定目标对象的类别为目标类别。
综上所述,当以Transform模型作为关联关系提取模型时,本申请实施例中网络模型的结构可如图8所示。其包括分类模型801、Transform模型802、多层DNN模型803,多层DNN模型中最后一层为分类层,可实施为全连接层,用于将多层DNN模型提取的目标特征向类别进行映射,并给出属于该类别的概率阈值。如图8所示:目标图像输入至分类模型之后,由分类模型提取目标图像的特征图,然后从特征图中裁剪出N张特征子图。每张特征子图通过降维处理得到对应的特征向量后,依序输入给Transform模型进一步提取特征子图之间的交互关系(即关联关系),可以选择Transform模型输出的第一个输出向量作为分类特征并输入给多层DNN模型进行分类处理,最后得到目标图像的特征类别。
其中,可以采集训练样本,该训练样本包括训练好的分类模型提取的样本图像的特征图及其分类标签。各训练样本的特征图经降维处理后依序输入给Transform模型和多层DNN模型进行分类处理,将多层DNN模型输出分类结果和相应的分类标签进行比较,计算损失;然后基于该损失调整Transform模型和多层DNN模型,由此实现对Transform模型和多层DNN模型的训练。
如图9所示,基于相同的发明构思,提出一种本申请实施例还提供一种图像分类装置900,所述装置包括:
特征图提取模块901,被配置为执行对目标图像进行特征提取,得到特征图;
裁剪模块902,被配置为执行对所述特征图的多个指定区域进行裁剪处理,得到各所述指定区域分别对应的特征子图;
关联信息提取模块903,被配置为执行基于关联关系提取模型对裁剪得到的多个所述特征子图进行关联关系提取操作,得到包含各所述特征子图之间的关联关系的分类特征;
分类模块904,被配置为执行对所述分类特征进行分类处理,得到所述目标图像的分类结果。
在一些实施例中,关联关系提取模型包括编码器和解码器,所述关联信息提取模块,被配置为执行:
对每个所述特征子图分别进行降维处理,得到各个所述特征子图分别对应的特征向量;
将各所述特征子图对应的所述特征向量按照指定顺序输入至所述编码器进行编码处理得到各特征子图的特征向量的编码结果;
采用所述解码器对所述编码结果进行解码处理,得到所述分类特征。
在一些实施例中,所述解码器针对每个特征向量输出一个输出向量;则所述关联信息提取模块,被配置为执行:
采用所述解码器对所述编码结果进行解码处理,得到第i个输出向量作为所述分类特征,其中i为正整数,且i小于或等于所述特征子图的总数量。
在一些实施例中,所述多个指定区域在所述特征图中的位置分布不同,所述裁剪模块,被配置为执行:
采用以下方式中的任一方式或组合得到各所述指定区域分别对应的特征子图:
方式1:在各所述指定区域内进行随机裁剪,得到指定尺寸的初始特征子图;将各所述初始特征子图进行缩放处理,得到目标尺寸的所述特征子图;
方式2:对各所述指定区域分别执行:
以所述指定区域的中心为裁剪后的初始特征子图的中心,从所述指定区域中裁剪出所述初始特征子图;将各所述初始特征子图进行缩放处理,得到目标尺寸的所述特征子图。
在一些实施例中,所述分类模块,被配置为执行:
采用深度神经网络对所述分类特征进行特征提取得到目标特征;
基于特征与分类结果之间的对应关系,得到所述目标特征属于目标类别的概率;
当所述概率大于概率阈值时,确定所述目标对象的类别为所述目标类别。
在一些实施例中,所述特征图提取模块,被配置为执行采用预先训练的分类网络对所述目标对象进行特征提取,得到所述特征图。
关于图像分类装置中各操作的实施以及有益效果可参见前文方法中的描述,此处不再赘述。
在介绍了本申请示例性实施方式的图像分类方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的图像分类方法中的步骤。例如,处理器可以执行如应用于视频的图像分类方法中的步骤。
下面参照图10来描述根据本申请的这种实施方式的电子设备130。图10显示的电子设备130仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(ROM)1323。
存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备130交互的设备通信,和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且,电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本申请提供的一种图像分类方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的图像分类方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于图像分类的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像缩放设备的处理器以产生一个机器,使得通过计算机或其他可编程图像分类设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程图像分类设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程图像分类设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种图像分类方法,其特征在于,所述方法包括:
对目标图像进行特征提取,得到特征图;
对所述特征图的多个指定区域进行裁剪处理,得到各所述指定区域分别对应的特征子图;
基于关联关系提取模型对裁剪得到的多个所述特征子图进行关联关系提取操作,得到包含各所述特征子图之间的关联关系的分类特征;
对所述分类特征进行分类处理,得到所述目标图像的分类结果。
2.根据权利要求1所述的方法,其特征在于,关联关系提取模型包括编码器和解码器,所述基于关联关系提取模型对裁剪得到的多个所述特征子图进行关联关系提取操作,得到包含各所述特征子图之间的关联关系的分类特征,包括:
对每个所述特征子图分别进行降维处理,得到各个所述特征子图分别对应的特征向量;
将各所述特征子图对应的所述特征向量按照指定顺序输入至所述编码器进行编码处理得到各特征子图的特征向量的编码结果;
采用所述解码器对所述编码结果进行解码处理,得到所述分类特征。
3.根据权利要求2所述的方法,其特征在于,所述解码器针对每个特征向量输出一个输出向量;则所述采用所述解码器对所述编码结果进行解码处理,得到所述分类特征,包括:
采用所述解码器对所述编码结果进行解码处理,得到第i个输出向量作为所述分类特征,其中i为正整数,且i小于或等于所述特征子图的总数量。
4.根据权利要求1所述的方法,其特征在于,所述多个指定区域在所述特征图中的位置分布不同,所述对所述特征图的多个指定区域进行裁剪处理,得到各所述指定区域分别对应的特征子图,包括:
采用以下方式中的任一方式或组合得到各所述指定区域分别对应的特征子图:
方式1:在各所述指定区域内进行随机裁剪,得到指定尺寸的初始特征子图;将各所述初始特征子图进行缩放处理,得到目标尺寸的所述特征子图;
方式2:对各所述指定区域分别执行:
以所述指定区域的中心为裁剪后的初始特征子图的中心,从所述指定区域中裁剪出所述初始特征子图;将各所述初始特征子图进行缩放处理,得到目标尺寸的所述特征子图。
5.根据权利要求1-4中任一所述的方法,其特征在于,所述对所述分类特征进行分类处理,得到所述目标图像的分类结果,包括:
采用深度神经网络对所述分类特征进行特征提取得到目标特征;
基于特征与分类结果之间的对应关系,得到所述目标特征属于目标类别的概率;
当所述概率大于概率阈值时,确定所述目标对象的类别为所述目标类别。
6.根据权利要求1所述的方法,其特征在于,所述对目标图像进行特征提取,得到特征图,包括:
采用预先训练的分类网络对所述目标对象进行特征提取,得到所述特征图。
7.一种图像分类装置,其特征在于,所述装置包括:
特征图提取模块,被配置为执行对目标图像进行特征提取,得到特征图;
裁剪模块,被配置为执行对所述特征图的多个指定区域进行裁剪处理,得到各所述指定区域分别对应的特征子图;
关联信息提取模块,被配置为执行基于关联关系提取模型对裁剪得到的多个所述特征子图进行关联关系提取操作,得到包含各所述特征子图之间的关联关系的分类特征;
分类模块,被配置为执行对所述分类特征进行分类处理,得到所述目标图像的分类结果。
8.根据权利要求7所述的装置,其特征在于,关联关系提取模型包括编码器和解码器,所述关联信息提取模块,被配置为执行:
对每个所述特征子图分别进行降维处理,得到各个所述特征子图分别对应的特征向量;
将各所述特征子图对应的所述特征向量按照指定顺序输入至所述编码器进行编码处理得到各特征子图的特征向量的编码结果;
采用所述解码器对所述编码结果进行解码处理,得到所述分类特征。
9.一种电子设备,其特征在于,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行权利要求1-6中任一项所述的方法。
CN202011322350.1A 2020-11-23 2020-11-23 图像分类方法、装置、电子设备和存储介质 Pending CN112364933A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011322350.1A CN112364933A (zh) 2020-11-23 2020-11-23 图像分类方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011322350.1A CN112364933A (zh) 2020-11-23 2020-11-23 图像分类方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112364933A true CN112364933A (zh) 2021-02-12

Family

ID=74533185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011322350.1A Pending CN112364933A (zh) 2020-11-23 2020-11-23 图像分类方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112364933A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095370A (zh) * 2021-03-18 2021-07-09 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
CN114140637A (zh) * 2021-10-21 2022-03-04 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、存储介质和电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825226A (zh) * 2016-03-11 2016-08-03 江苏畅远信息科技有限公司 一种基于关联规则的分布式多标签图像识别方法
CN108229341A (zh) * 2017-12-15 2018-06-29 北京市商汤科技开发有限公司 分类方法和装置、电子设备、计算机存储介质、程序
CN108304847A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 图像分类方法及装置、个性化推荐方法及装置
CN110348462A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110427923A (zh) * 2019-09-05 2019-11-08 深圳市赛为智能股份有限公司 婴幼儿吐奶行为识别方法、装置、计算机设备及存储介质
CN110852261A (zh) * 2019-11-08 2020-02-28 北京环境特性研究所 目标检测方法、装置、电子设备和可读存储介质
CN110929724A (zh) * 2019-11-28 2020-03-27 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和存储介质
CN111159407A (zh) * 2019-12-30 2020-05-15 北京明朝万达科技股份有限公司 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111507403A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 图像分类方法、装置、计算机设备和存储介质
CN111612070A (zh) * 2020-05-13 2020-09-01 清华大学 基于场景图的图像描述生成方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825226A (zh) * 2016-03-11 2016-08-03 江苏畅远信息科技有限公司 一种基于关联规则的分布式多标签图像识别方法
CN108304847A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 图像分类方法及装置、个性化推荐方法及装置
CN108229341A (zh) * 2017-12-15 2018-06-29 北京市商汤科技开发有限公司 分类方法和装置、电子设备、计算机存储介质、程序
CN110348462A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110427923A (zh) * 2019-09-05 2019-11-08 深圳市赛为智能股份有限公司 婴幼儿吐奶行为识别方法、装置、计算机设备及存储介质
CN110852261A (zh) * 2019-11-08 2020-02-28 北京环境特性研究所 目标检测方法、装置、电子设备和可读存储介质
CN110929724A (zh) * 2019-11-28 2020-03-27 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和存储介质
CN111159407A (zh) * 2019-12-30 2020-05-15 北京明朝万达科技股份有限公司 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111507403A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 图像分类方法、装置、计算机设备和存储介质
CN111612070A (zh) * 2020-05-13 2020-09-01 清华大学 基于场景图的图像描述生成方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095370A (zh) * 2021-03-18 2021-07-09 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
CN113095370B (zh) * 2021-03-18 2023-11-03 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
CN114140637A (zh) * 2021-10-21 2022-03-04 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、存储介质和电子设备
CN114140637B (zh) * 2021-10-21 2023-09-12 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN109740670B (zh) 视频分类的方法及装置
US11288551B2 (en) Edge-based adaptive machine learning for object recognition
WO2021093435A1 (zh) 语义分割网络结构的生成方法、装置、设备及存储介质
CN108882020B (zh) 一种视频信息处理方法、装置及系统
CN111026915B (zh) 视频分类方法、视频分类装置、存储介质与电子设备
US20200117906A1 (en) Space-time memory network for locating target object in video content
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN111210446B (zh) 一种视频目标分割方法、装置和设备
US11030750B2 (en) Multi-level convolutional LSTM model for the segmentation of MR images
AU2021354030B2 (en) Processing images using self-attention based neural networks
EP3740935B1 (en) Visual tracking by colorization
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN110674673A (zh) 一种关键视频帧抽取方法、装置和存储介质
US10904476B1 (en) Techniques for up-sampling digital media content
US11804043B2 (en) Detecting objects in a video using attention models
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN112364933A (zh) 图像分类方法、装置、电子设备和存储介质
CN112749666A (zh) 一种动作识别模型的训练及动作识别方法与相关装置
CN112668608A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN116235209A (zh) 稀疏光流估计
US11580736B2 (en) Parallel video processing neural networks
CN114781499A (zh) 一种构建基于ViT模型的密集预测任务适配器的方法
CN112668690A (zh) 神经网络模型压缩的方法和计算机系统
CN115631205B (zh) 图像分割及模型训练的方法、装置及设备
AU2022221413A1 (en) Domo v2: on-device object detection and instance segmentation for object selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination