CN111898658A - 图像分类方法、装置和电子设备 - Google Patents

图像分类方法、装置和电子设备 Download PDF

Info

Publication number
CN111898658A
CN111898658A CN202010678104.3A CN202010678104A CN111898658A CN 111898658 A CN111898658 A CN 111898658A CN 202010678104 A CN202010678104 A CN 202010678104A CN 111898658 A CN111898658 A CN 111898658A
Authority
CN
China
Prior art keywords
image
classification
vector
features
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010678104.3A
Other languages
English (en)
Other versions
CN111898658B (zh
Inventor
邵杰
王长虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010678104.3A priority Critical patent/CN111898658B/zh
Publication of CN111898658A publication Critical patent/CN111898658A/zh
Application granted granted Critical
Publication of CN111898658B publication Critical patent/CN111898658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Abstract

本公开实施例公开了一种图像分类方法、装置、电子设备和计算机可读存储介质。其中该图像分类方法包括:获取待分类图像;提取所述待分类图像的图像特征;根据所述图像特征生成第一向量;获取与所述第一向量相关的多个分类特征;根据所述多个分类特征得到所述待分类图像的类别。上述方法通过对待分类图像提取图像特征,并获取与所述图像特征相关的先验的分类特征以对图像进行分类,解决了图像分类结果不准确的技术问题。

Description

图像分类方法、装置和电子设备
技术领域
本公开涉及图像分类领域,尤其涉及一种图像分类方法、装置、电子设备及计算机可读存储介质。
背景技术
随着近年来数据量的剧增,以及数据处理能力的提高,机器学习算法在数据分析领域发挥着越来越重要的作用,其中的深度学习是近年来最为热门的研究领域。深度学习是从传统神经网络演化而来的一种新的分类预测解决方案,本质上和传统的神经网络一样是一个用于分类或者预测的神经网络模型。不同的地方在于深度神经网络引入了很多改进,针对不同的应用场景提供了很多不同的特定的模型,使得深度神经网络和过去的神经网络相比分类效果更好,模型训练更容易,随着数据量的增大、服务器性能的提高,深度神经网络己经成为了如今图片、文本、视频、音频研究领域的主流解决方案。
在相关研究中,视频分类算法和图片分类算法类似,需要把视频作为一帧一帧的图片来处理。在得到图片帧之后,对图片提取特征,利用模型对图片帧进行分类。然而这样的分类结果不是很准确,为了能够更加准确,在相关研究中还通过将视频的多个图片帧作为模型的输入得到视频的分类,但是使用多帧抽取的特征直接进行分类准确度也不够且训练速度较慢。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
为了解决现有技术中图像分类准确度较低的问题,本公开实施例提出如下技术方案。
第一方面,本公开实施例提供一种图像分类方法,包括:
获取待分类图像;
提取所述待分类图像的图像特征;
根据所述图像特征生成第一向量;
获取与所述第一向量相关的多个分类特征;
根据所述多个分类特征得到所述待分类图像的类别。
第二方面,本公开实施例提供一种图像分类装置,包括:
图像获取模块,用于获取待分类图像;
特征提取模块,用于提取所述待分类图像的图像特征;
向量生成模块,用于根据所述图像特征生成第一向量;
分类特征获取模块,用于获取与所述第一向量相关的多个分类特征;
分类模块,用于根据所述多个分类特征得到所述待分类图像的类别。
第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面中的任一所述的方法。
第四方面,本公开实施例提供一种非暂态计算机可读存储介质,其特征在于,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行前述第一方面中的任一所述的方法。
本公开实施例公开了一种图像分类方法、装置、电子设备和计算机可读存储介质。其中该图像分类方法包括:获取待分类图像;提取所述待分类图像的图像特征;根据所述图像特征生成第一向量;获取与所述第一向量相关的多个分类特征;根据所述多个分类特征得到所述待分类图像的类别。上述方法通过对待分类图像提取图像特征,并获取与所述图像特征相关的先验的分类特征以对图像进行分类,解决了图像分类结果不准确的技术问题。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例提供的图像分类方法的流程示意图;
图2为本公开实施例提供的图像分类方法中获取与所述第一向量相关的多个分类特征的步骤的一个具体实施方式意图;
图3为本公开实施例提供的图像分类方法中根据所述第一向量获取与所述第一向量相似的多个第二向量的步骤的一个具体实施方式意图;
图4为本公开实施例提供的图像分类方法中计算所述第一向量与每个第二向量的相似度的步骤的一个具体实施方式意图;
图5为本公开实施例提供的图像分类方法中计算所述第一向量与每个第二向量的相似度的步骤的一个具体示例;
图6为本公开实施例提供的图像分类方法中获取所述相似度大于相似阈值的第二向量的步骤的一个具体实施方式示意图;
图7为本公开实施例提供的图像分类方法中根据所述多个分类特征得到所述待分类图像的类别的步骤的一个具体实施方式示意图;
图8为本公开实施例提供的图像分类方法中计算加权分类特征的一个具体实时方式示意图;
图9为本公开实施例提供的图像分类模型一个应用场景的示意图;
图10为本公开实施例提供的图像分类装置的实施例的结构示意图;
图11为根据本公开实施例提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1为本公开实施例提供的图像分类方法实施例的流程图,本实施例提供的该图像分类方法可以由一图像分类装置来执行,该图像分类装置可以实现为软件,或者实现为软件和硬件的组合,该图像分类装置可以集成设置在图像分类系统中的某设备中,比如图像分类服务器或者图像分类终端设备中。如图1所示,该方法包括如下步骤:
步骤S101,获取待分类图像;
可选的,在本公开中,所述待分类图像为图片或者视频。具体的,当所述待分类图像为视频时,在步骤S101中抽取所述视频中的多个图片帧作为待分类的图像。
可选的,所述抽取视频中的多个图片帧可以通过预设的帧数和位置来抽取,如固定抽取20帧,抽取位置为视频最中间的20帧图片帧;或者所述抽取视频中的多个图片帧可以是随机抽取预设的帧数;或者所述抽取视频中的多个图片帧可以是通过预先训练的抽取模型,从所述视频中抽取预设数量的关键帧。
步骤S102,提取所述待分类图像的图像特征;
可选的,所述步骤S102包括:将所述待分类图像输入卷积神经网络得到待分类图像的图像特征。
在一个实施例中,所述卷积神经网络为经过预训练的卷积神经网络,可选的,所述卷积神经网络通过预训练,可以对所述输入的图像进行分类,如提取出图像特征之后直接输入分类器中进行分类。示例性的,该卷积神经网络为I3D网络,其用于提取多个图片帧的图像特征,将其提取为一个一维或多维向量。
示例性的,所述卷积神经网络将所述输入图像通过多个卷积层的卷积计算生成一个大小为V的向量,所述V表示向量中元素的个数;示例性的,所述大小为V的向量为包括V个元素的一维向量。示例性的,如果所述大小为V的向量为一个a*b的向量,其中a*b=V。
可以理解的,上述输入图像的特征向量的提取方式仅仅是举例,不构成对本公开的限制,实际上任何图像特征的提取方法均可以应用到本公开中。
步骤S103,根据所述图像特征生成第一向量;
可选的,所述据所述图像特征生成第一向量,包括:将所述图像特征通过非线性变换转换成所述第一向量。即将所述图像特征输入非线性函数得到该非线性函数的值作为所述第一向量。可选的,所述第一向量为一维向量。
可选的,所述第一向量为固定长度,通过转换模型将所述图像特征换成第一向量。
步骤S104,获取与所述第一向量相关的多个分类特征;
可选的,所述多个分类特征为预先得到的跟最终分类类型相关的图像特征。而第一向量为通过提取的图像特征得到的向量,因此在该步骤中获取与第一向量相关的多个分类特征用以最终的分类。在一个实施例中,可以直接计算第一向量和所述多个分类特征的相似度,取出相似度大于某个阈值的多个分类特征,这表示待分类的图像与预设的类型的图像相似。
在上述可选实施例中,由于分类特征本身可能比较大,因此直接计算第一向量和分类特征的相似度有可能会导致计算速度变慢。因此,可选的,如图2所示,所述步骤S104还包括:
步骤S201,根据所述第一向量获取与所述第一向量相似的多个第二向量;
步骤S202,获取每个所述多个第二量所对应的分类特征。
在该可选实施例中,第二向量为预先设置好的与分类特征相关的向量;所述第一向量和所述第二向量为较短的向量,即所述计算第一向量和第二向量的相似度比较快。之后再通过与第二向量获取所述分类特征,这样能加快计算的速度。可选的,如图3所示,所述步骤S201包括:
步骤S301,获取特征存储表,其中所述特征存储表中包括多个第二向量和分类特征所组成的键值对;
步骤S302,计算所述第一向量与每个第二向量的相似度;
步骤S303,获取所述相似度大于相似阈值的第二向量。
在该可选实施例中,包括特征存储表,该特征存储表中包括key-value对,其中key为所述第二向量,value为与所述第二向量对应的分类特征。在得到第一向量之后,计算所述第一向量和所述特征存储表中的每个第二向量的相似度,之后获取相似度大于相似阈值的第二向量。示例性的,所述第一向量和所述第二向量为V位的一维向量,相似度为第一向量和第二向量之间的余弦距离。
在该实施例中,所述步骤S202,包括:获取以所述第二向量为键的键值对中的值所对应的分类特征。其中的第二向量为与所述第一向量的相似度大于相似阈值的第二向量,通过上述特征存储表可以得到与多个所述第二向量对应的多个分类特征。
在上述实施例中,为了加快所述特征存储表的检索速度,如图4所示,所述步骤S302还包括:
步骤S401,将所述第一向量分为n个第一向量分量;
步骤S402,将所述第二向量分为n个第二向量分量;
步骤S403,计算所述n个第一向量分量和所述n个第二向量分量的相似度。
在该实施例中,将第一向量和第二向量分为n份,之后分别计算第1份之间的相似度、第2份之间的相似度……第n份之间的相似度。如两个64位的一维向量可以分别分为两个32位的一维向量分量,之后分别计算两个前32位的相似度、两个后32位的相似度。示例性的,如图5所示,9个第二向量可以分为6个第二向量分量:c1,c2,c3和c1’,c2’,c3’;第一向量q被分为q1和q2,则分别计算q1和c1,c2,c3的相似度,q2和c1’,c2’,c3’的相似度。
进一步的,如图6所示,所述步骤S303,包括:
步骤S601,获取与所述n个第一向量分量的相似度大于相似阈值的n个第二向量分量;
步骤S602,根据所述n个第二向量分量生成所述第二向量。
在该实施例中,分别获取对应份上的与第一向量分量相似度大于相似阈值的第二向量分量;之后再通过n个第二向量分量生成一个第二向量。
如图5所示的示例,经过计算得到q1与c2和c3的相似度高于相似阈值,q2与c1’和c3’的相似度高于相似阈值,则与2个第二向量分量相似度大于相似阈值的2个第二向量分量分别为:c2和c1’,c2和c3’,c3和c1’,c3和c3’。每两个第二向量分量可以生成一个第二向量,则一共生成4个第二向量。为了约束输出的第二向量的个数,还可以进一步根据预设的规则来约束计算结果,如两个分量的平均相似度大于另一个相似阈值,由此得到最终的结果为c2c1’和c3c1’。
通过上述方式,即使在所述特征存储表很大的情况下,也可以快速的得到与所述第一向量相似的第二向量,大大提高计算效率。
步骤S105,根据所述多个分类特征得到所述待分类图像的类别。
在该步骤中,将所述多个分类特征通过分类器得到所述待分类图像在每个类别上的概率,将概率最大的类别作为所述待分类图像的类别。典型的,所述分类器为softmax函数。
可选的,如图7所示,所述步骤S105包括:
步骤S701,根据每个所述多个分类特征的权重值计算所述多个分类特征的加权分类特征;
步骤S702,根据所述加权分类特征计算得到待分类图像在每个类别中的概率;
步骤S703,将概率最大的类别作为所述待分类图像的类别。
在该实施例中,每个分类特征包括一个权重值,如图8所示每个分类特征v都有一个权重值w,分类特征和权重均以下标区分,以vi表示分类特征,以wi表示与vi对应的权重值,
Figure BDA0002584721950000091
表示用于分类的加权分类特征,其中D表示与第一向量q相似的第二向量的下标集合。如图8所示,为步骤S601的一个示例。计算第一向量q与每个第二向量ki的相似度,得到与q最相似的两个第二向量k2和km,根据特征存储表得到k2所对应的分类特征v2以及km所对应的分类特征vm,则根据v2的权重w2和vm的权重wm计算用于分类的加权分类特征v=w2*v2+wm*vm。可选的,在步骤S602中使用softmax函数和所述加权分类特征计算待分类图像在每个类别中的概率;示例性的,设一共有x个类别,则加权分类特征v可以包括x位,每一位用di表示,使用如下公式计算每个类别对应的概率:
Figure BDA0002584721950000092
其中Si是第i个类别所对应的概率值。由此可以计算出一个一维向量[S1,S2,S3,......Sx],该一维向量的每一位对应一个类别的概率。由此可以将概率最大的一位所对应的类别作为所述待分类图像的类别。可选的,在多分类图像中,如一个图像需要给出两个类别,可以直接将概率最大的前两个类别作为待分类图像的类别,在此不再赘述。
在上述图像分类方法中,在抽取待分类图像的图像特征之后,得到与图像特征相关的预设或者预先计算出来的多个分类特征,之后根据所述多个分类特征得到待分类图像的类别。由于分类特征是预先设置或计算出来的多个类别图像所带有的特征,因此通过抽取的图像特征的和已知分类特征的相关性计算得到待分类的特征,能够得到更加准确的分类结果,并且由于其并没有增加计算量,仅仅是增加了检索,因此也不影响计算性能。
可选的,上述图像分类方法由图像分类模型来执行,所述图像分类模型包括图像特征提取模型、特征转换模型、存储模块以及分类器;其中,所述图像特征提取模型用于提取所述待分类图像的图像特征;所述特征转换模型用于根据所述图像特征生成第一向量;所述存储模块用于存储多个分类特征;所述分类器用于根据所述多个分类特征得到所述待分类图像的类别。如图9所示为所述图像分类模型一个应用场景的示意图。在该应用场景中,所述图像分类模型用来对视频进行分类,对所述视频进行抽帧得到多个图片帧之后,将多个图片帧输入所述图像分类模型,其中所述图像分类模型的图像特征提取模型接收所述多个图片帧,并经过多个卷积层提取出一个一维向量作为所述视频的图像特征,之后通过所述特征转换模型将所述图像特征用非线性变换转换成第一向量,该第一向量与存储模块中的特征存储表中的第二向量长度相同,通过计算所述第一向量与所述特征存储表中的每个第二向量的相似度,可以得到至少一个与所述第一向量相似的第二向量,将所述第二向量所对应的分类特征从所述特征存储表中取出来,之后根据所述至少一个分类特征和该分类特征所对应的权重值计算出一个加权分类特征,将所述加权分类特征输入所述分类器进行分类得到每个类别对应的概率,概率最大的类别即为所述视频的类别。
进一步的,本公开还涉及上述图像分类模型的训练方法,所述图像分类模型由一下步骤训练得到:
初始化所述图像分类模型的参数;
获取训练集合中的样本图像;
将所述样本图像输入所述图像特征提取子模型得到所述样本图像的图像特征;
将所述图像特征输入所述特征转换模型生成第一向量;
将所述第一向量输入所述存储模块得到与所述第一向量相关的多个分类特征;
将所述多个分类特征输入所述分类器得到所述样本图像的分类预测结果;
根据损失函数计算所述分类预测结果和所述样本图像的标注类型的误差;
根据所述误差更新所述图像分类模型的参数;
迭代上述计算误差的过程直至达到收敛条件。
其中,所述图像分类模型的参数包括所述图像特征提取模型的参数,如图像特征提取模型中每个卷积层中的权重矩阵、偏置值等;所述特征转换模中非线性变换函数的参数;所述存储模块中的分类特征存储表中的k值、v值以及加权计算的权重值,示例性的,所述k值初始化为随机值,所述v值全部初始化为0,权重值全部初始化为1。当初始化完成之后,获取训练集合中的样本图像,针对不同的应用场景,训练集合中的样本图像不同,在视频分类的场景中,所述样本图像为视频,并且其带有视频的分类标签。之后将样本图像经过抽帧之后输入所述图像特征提取模型得到所述样本图像的图像特征;将所述图像特征输入所述特征转换模型生成第一向量;将所述第一向量输入所述存储模块得到与所述第一向量相关的多个分类特征;将所述多个分类特征输入所述分类器得到所述样本图像的分类预测结果。
可选的,所述分类预测结果为一个一维向量,所述预测结果中每一位的值表示所述视频的类别为该位所表示的类别的概率;而视频的标签实际上也可以表示为一个一维向量,如一个10分类的场景,可以使用一个10位的一维向量,其中该向量只有一位为1,其他位均为0,以表示其中一个类别。由此,可以通过损失函数计算所述分类预测结果和所述样本图像的标注类型的误差。示例性的,可以使用以下损失函数计算所述误差:
Figure BDA0002584721950000111
其中yi为标签中第i位的值,ai为预测结果中第i为的值。由于每个标签中实际上只有一位为1,其他均为0,因此上述损失函数可以简化为:
L=-ln aj
其中j为标签中值为1的位数。
在得到L之后,通过梯度下降进行反向传播,可以更新上述初始化的参数。更新之后,迭代上述计算误差的过程,以迭代的更新所述图像分类模型的参数,直至达到收敛条件。示例性的,所述收敛条件为迭代次数达到预定的次数或者所述误差小于预设误差。在上述更新的过程中,所述存储模块中的分类特征和第二向量也在不断被更新。其中所述分类特征用于记录某个类别的特征,使得其他用于训练的图像都保留有记录,而第二向量表示所述分类特征的索引,因此在预测阶段,当特征提取模型提取出视频的图像特征之后,将通过非线性变换转换成对应的第一向量,即所述图像特征的索引,根据索引的相似度可以得到与所述图像特征相似的分类特征,而分类特征本身就记录了某些类别的图像的特征,因此可以在仅增加很少计算量(计算第一向量和第二向量的相似度)的情况下,可以增加分类的准确性。
本公开实施例公开了一种图像分类方法,所述图像分类方法包括:获取待分类图像;提取所述待分类图像的图像特征;根据所述图像特征生成第一向量;获取与所述第一向量相关的多个分类特征;根据所述多个分类特征得到所述待分类图像的类别。上述方法通过对待分类图像提取图像特征,并获取与所述图像特征相关的先验的分类特征以对图像进行分类,解决了图像分类结果不准确的技术问题。
在上文中,虽然按照上述的顺序描述了上述方法实施例中的各个步骤,本领域技术人员应清楚,本公开实施例中的步骤并不必然按照上述顺序执行,其也可以倒序、并行、交叉等其他顺序执行,而且,在上述步骤的基础上,本领域技术人员也可以再加入其他步骤,这些明显变型或等同替换的方式也应包含在本公开的保护范围之内,在此不再赘述。
图10为本公开实施例提供的图像分类装置实施例的结构示意图,如图10所示,该装置1000包括:图像获取模块1001、特征提取模块1002、向量生成模块1003、分类特征获取模块1004和分类模块1005。其中,
图像获取模块1001,用于获取待分类图像;
特征提取模块1002,用于提取所述待分类图像的图像特征;
向量生成模块1003,用于根据所述图像特征生成第一向量;
分类特征获取模块1004,用于获取与所述第一向量相关的多个分类特征;
分类模块1005,用于根据所述多个分类特征得到所述待分类图像的类别。
进一步的,所述向量生成模块1003,还用于:
将所述图像特征通过非线性变换转换成所述第一向量。
进一步的,所述分类特征获取模块1004,还用于:
根据所述第一向量获取与所述第一向量相似的多个第二向量;
获取每个所述多个第二量所对应的分类特征。
进一步的,所述分类特征获取模块1004,还用于:
获取特征存储表,其中所述特征存储表中包括多个第二向量和分类特征所组成的键值对;
计算所述第一向量与每个第二向量的相似度;
获取所述相似度大于相似阈值的第二向量。
进一步的,所述分类特征获取模块1004,还用于:
获取以所述第二向量为键的键值对中的值所对应的分类特征。
进一步的,所述分类特征获取模块1004,还用于:
将所述第一向量分为n个第一向量分量;
将所述第二向量分为n个第二向量分量;
计算所述n个第一向量分量和所述n个第二向量分量的相似度。
进一步的,所述分类特征获取模块1004,还用于:
获取与所述n个第一向量分量的相似度大于相似阈值的n个第二向量分量;
根据所述n个第二向量分量生成所述第二向量。
进一步的,所述分类模块1005,还用于:
根据每个所述多个分类特征的权重值计算所述多个分类特征的加权分类特征;
根据所述加权分类特征计算得到待分类图像在每个类别中的概率;
将概率最大的类别作为所述待分类图像的类别。
进一步的,所述图像分类装置1000包括图像分类模型,其中所述图像分类模型包括图像特征提取模型、特征转换模型、存储模块以及分类器,其中:
所述图像特征提取模型用于提取所述待分类图像的图像特征;
所述特征转换模型用于根据所述图像特征生成第一向量;
所述存储模块用于存储多个分类特征;
所述分类器用于根据所述多个分类特征得到所述待分类图像的类别。
进一步的,所述图像分类模型由以下步骤训练得到:
初始化所述图像分类模型的参数;
获取训练集合中的样本图像;
将所述样本图像输入所述图像特征提取模型得到所述样本图像的图像特征;
将所述图像特征输入所述特征转换模型生成第一向量;
将所述第一向量输入所述存储模块得到与所述第一向量相关的多个分类特征;
将所述多个分类特征输入所述分类器得到所述样本图像的分类预测结果;
根据损失函数计算所述分类预测结果和所述样本图像的标注类型的误差;
根据所述误差更新所述图像分类模型的参数;
迭代上述计算误差的过程直至达到收敛条件。
图10所示装置可以执行图1-图9所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图9所示实施例中的描述,在此不再赘述。
下面参考图11,其示出了适于用来实现本公开实施例的电子设备1100的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,电子设备1100可以包括处理装置(例如中央处理器、图形处理器等)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储装置1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中,还存储有电子设备1100操作所需的各种程序和数据。处理装置1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
通常,以下装置可以连接至I/O接口1105:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1106;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1107;包括例如磁带、硬盘等的存储装置1108;以及通信装置1109。通信装置1109可以允许电子设备1100与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的电子设备1100,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1109从网络上被下载和安装,或者从存储装置1108被安装,或者从ROM 1102被安装。在该计算机程序被处理装置1101执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待分类图像;提取所述待分类图像的图像特征;根据所述图像特征生成第一向量;获取与所述第一向量相关的多个分类特征;根据所述多个分类特征得到所述待分类图像的类别。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,提供了一种图像分类方法,包括:
获取待分类图像;
提取所述待分类图像的图像特征;
根据所述图像特征生成第一向量;
获取与所述第一向量相关的多个分类特征;
根据所述多个分类特征得到所述待分类图像的类别。
进一步的,所述根据所述图像特征生成第一向量,包括:
将所述图像特征通过非线性变换转换成所述第一向量。
进一步的,所述获取与所述第一向量相关的多个分类特征,包括:
根据所述第一向量获取与所述第一向量相似的多个第二向量;
获取每个所述多个第二向量所对应的分类特征。
进一步的,所述根据所述第一向量获取与所述第一向量相似的多个第二向量,包括:
获取特征存储表,其中所述特征存储表中包括多个第二向量和分类特征所组成的键值对;
计算所述第一向量与每个第二向量的相似度;
获取所述相似度大于相似阈值的第二向量。
进一步的,所述获取每个所述多个第二量所对应的分类特征,包括:
获取以所述第二向量为键的键值对中的值所对应的分类特征。
进一步的,所述计算所述第一向量与每个第二向量的相似度,包括:
将所述第一向量分为n个第一向量分量;
将所述第二向量分为n个第二向量分量;
计算所述n个第一向量分量和所述n个第二向量分量的相似度。
进一步的,所述获取所述相似度大于相似阈值的第二向量,包括:
获取与所述n个第一向量分量的相似度大于相似阈值的n个第二向量分量;
根据所述n个第二向量分量生成所述第二向量。
进一步的,所述根据所述多个分类特征得到所述待分类图像的类别,包括:
根据每个所述多个分类特征的权重值计算所述多个分类特征的加权分类特征;
根据所述加权分类特征计算得到待分类图像在每个类别中的概率;
将概率最大的类别作为所述待分类图像的类别。
进一步的,所述图像分类方法由图像分类模型执行,其中所述图像分类模型包括图像特征提取模型、特征转换模型、存储模块以及分类器,其中:
所述图像特征提取模型用于提取所述待分类图像的图像特征;
所述特征转换模型用于根据所述图像特征生成第一向量;
所述存储模块用于存储多个分类特征;
所述分类器用于根据所述多个分类特征得到所述待分类图像的类别。
进一步的,所述图像分类模型由以下步骤训练得到:
初始化所述图像分类模型的参数;
获取训练集合中的样本图像;
将所述样本图像输入所述图像特征提取模型得到所述样本图像的图像特征;
将所述图像特征输入所述特征转换模型生成第一向量;
将所述第一向量输入所述存储模块得到与所述第一向量相关的多个分类特征;
将所述多个分类特征输入所述分类器得到所述样本图像的分类预测结果;
根据损失函数计算所述分类预测结果和所述样本图像的标注类型的误差;
根据所述误差更新所述图像分类模型的参数;
迭代上述计算误差的过程直至达到收敛条件。根据本公开的一个或多个实施例,提供了一种图像分类装置,包括:
图像获取模块,用于获取待分类图像;
特征提取模块,用于提取所述待分类图像的图像特征;
向量生成模块,用于根据所述图像特征生成第一向量;
分类特征获取模块,用于获取与所述第一向量相关的多个分类特征;
分类模块,用于根据所述多个分类特征得到所述待分类图像的类别。
进一步的,所述向量生成模块,还用于:
将所述图像特征通过非线性变换转换成所述第一向量。
进一步的,所述分类特征获取模块,还用于:
根据所述第一向量获取与所述第一向量相似的多个第二向量;
获取每个所述多个第二量所对应的分类特征。
进一步的,所述分类特征获取模块,还用于:
获取特征存储表,其中所述特征存储表中包括多个第二向量和分类特征所组成的键值对;
计算所述第一向量与每个第二向量的相似度;
获取所述相似度大于相似阈值的第二向量。
进一步的,所述分类特征获取模块,还用于:
获取以所述第二向量为键的键值对中的值所对应的分类特征。
进一步的,所述分类特征获取模块,还用于:
将所述第一向量分为n个第一向量分量;
将所述第二向量分为n个第二向量分量;
计算所述n个第一向量分量和所述n个第二向量分量的相似度。
进一步的,所述分类特征获取模块,还用于:
获取与所述n个第一向量分量的相似度大于相似阈值的n个第二向量分量;
根据所述n个第二向量分量生成所述第二向量。
进一步的,所述分类模块,还用于:
根据每个所述多个分类特征的权重值计算所述多个分类特征的加权分类特征;
根据所述加权分类特征计算得到待分类图像在每个类别中的概率;
将概率最大的类别作为所述待分类图像的类别。
进一步的,所述图像分类装置包括图像分类模型,其中所述图像分类模型包括图像特征提取模型、特征转换模型、存储模块以及分类器,其中:
所述图像特征提取模型用于提取所述待分类图像的图像特征;
所述特征转换模型用于根据所述图像特征生成第一向量;
所述存储模块用于存储多个分类特征;
所述分类器用于根据所述多个分类特征得到所述待分类图像的类别。
进一步的,所述图像分类模型由以下步骤训练得到:
初始化所述图像分类模型的参数;
获取训练集合中的样本图像;
将所述样本图像输入所述图像特征提取模型得到所述样本图像的图像特征;
将所述图像特征输入所述特征转换模型生成第一向量;
将所述第一向量输入所述存储模块得到与所述第一向量相关的多个分类特征;
将所述多个分类特征输入所述分类器得到所述样本图像的分类预测结果;
根据损失函数计算所述分类预测结果和所述样本图像的标注类型的误差;
根据所述误差更新所述图像分类模型的参数;
迭代上述计算误差的过程直至达到收敛条件。根据本公开的一个或多个实施例,提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面中的任一所述图像分类方法。
根据本公开的一个或多个实施例,提供了一种非暂态计算机可读存储介质,其特征在于,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行前述第一方面中的任一所述图像分类方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (13)

1.一种图像分类方法,其特征在于,包括:
获取待分类图像;
提取所述待分类图像的图像特征;
根据所述图像特征生成第一向量;
获取与所述第一向量相关的多个分类特征;
根据所述多个分类特征得到所述待分类图像的类别。
2.如权利要求1所述的图像分类方法,其特征在于,所述根据所述图像特征生成第一向量,包括:
将所述图像特征通过非线性变换转换成所述第一向量。
3.如权利要求1所述的图像分类方法,其特征在于,所述获取与所述第一向量相关的多个分类特征,包括:
根据所述第一向量获取与所述第一向量相似的多个第二向量;
获取每个所述多个第二向量所对应的分类特征。
4.如权利要求3所述的图像分类方法,其特征在于,所述根据所述第一向量获取与所述第一向量相似的多个第二向量,包括:
获取特征存储表,其中所述特征存储表中包括多个第二向量和分类特征所组成的键值对;
计算所述第一向量与每个第二向量的相似度;
获取所述相似度大于相似阈值的第二向量。
5.如权利要求4所述的图像分类方法,其特征在于,所述获取每个所述多个第二量所对应的分类特征,包括:
获取以所述第二向量为键的键值对中的值所对应的分类特征。
6.如权利要求4所述的图像分类方法,其特征在于,所述计算所述第一向量与每个第二向量的相似度,包括:
将所述第一向量分为n个第一向量分量;
将所述第二向量分为n个第二向量分量;
计算所述n个第一向量分量和所述n个第二向量分量的相似度。
7.如权利要求6所述的图像分类方法,其特征在于,所述获取所述相似度大于相似阈值的第二向量,包括:
获取与所述n个第一向量分量的相似度大于相似阈值的n个第二向量分量;
根据所述n个第二向量分量生成所述第二向量。
8.如权利要求1所述的图像分类方法,其特征在于,所述根据所述多个分类特征得到所述待分类图像的类别,包括:
根据每个所述多个分类特征的权重值计算所述多个分类特征的加权分类特征;
根据所述加权分类特征计算得到待分类图像在每个类别中的概率;
将概率最大的类别作为所述待分类图像的类别。
9.如权利要求1所述的图像分类方法,其特征在于,所述图像分类方法由图像分类模型执行,其中所述图像分类模型包括图像特征提取模型、特征转换模型、存储模块以及分类器,其中:
所述图像特征提取模型用于提取所述待分类图像的图像特征;
所述特征转换模型用于根据所述图像特征生成第一向量;
所述存储模块用于存储多个分类特征;
所述分类器用于根据所述多个分类特征得到所述待分类图像的类别。
10.如权利要求9所述的图像分类方法,其特征在于,所述图像分类模型由以下步骤训练得到:
初始化所述图像分类模型的参数;
获取训练集合中的样本图像;
将所述样本图像输入所述图像特征提取模型得到所述样本图像的图像特征;
将所述图像特征输入所述特征转换模型生成第一向量;
将所述第一向量输入所述存储模块得到与所述第一向量相关的多个分类特征;
将所述多个分类特征输入所述分类器得到所述样本图像的分类预测结果;
根据损失函数计算所述分类预测结果和所述样本图像的标注类型的误差;
根据所述误差更新所述图像分类模型的参数;
迭代上述计算误差的过程直至达到收敛条件。
11.一种图像分类装置,其特征在于,包括:
图像获取模块,用于获取待分类图像;
特征提取模块,用于提取所述待分类图像的图像特征;
向量生成模块,用于根据所述图像特征生成第一向量;
分类特征获取模块,用于获取与所述第一向量相关的多个分类特征;
分类模块,用于根据所述多个分类特征得到所述待分类图像的类别。
12.一种电子设备,包括:
存储器,用于存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述处理器运行时实现根据权利要求1-10中任意一项所述的方法。
13.一种非暂态计算机可读存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行权利要求1-10中任意一项所述的方法。
CN202010678104.3A 2020-07-15 2020-07-15 图像分类方法、装置和电子设备 Active CN111898658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010678104.3A CN111898658B (zh) 2020-07-15 2020-07-15 图像分类方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010678104.3A CN111898658B (zh) 2020-07-15 2020-07-15 图像分类方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111898658A true CN111898658A (zh) 2020-11-06
CN111898658B CN111898658B (zh) 2023-03-24

Family

ID=73191198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010678104.3A Active CN111898658B (zh) 2020-07-15 2020-07-15 图像分类方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111898658B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776787A (zh) * 2018-06-04 2018-11-09 北京京东金融科技控股有限公司 图像处理方法及装置、电子设备、存储介质
CN109871896A (zh) * 2019-02-26 2019-06-11 北京达佳互联信息技术有限公司 数据分类方法、装置、电子设备及存储介质
CN110163300A (zh) * 2019-05-31 2019-08-23 北京金山云网络技术有限公司 一种图像分类方法、装置、电子设备及存储介质
CN110210572A (zh) * 2019-06-10 2019-09-06 腾讯科技(深圳)有限公司 图像分类方法、装置、存储介质及设备
US20200174902A1 (en) * 2018-11-29 2020-06-04 International Business Machines Corporation Adaptive window based anomaly detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776787A (zh) * 2018-06-04 2018-11-09 北京京东金融科技控股有限公司 图像处理方法及装置、电子设备、存储介质
US20200174902A1 (en) * 2018-11-29 2020-06-04 International Business Machines Corporation Adaptive window based anomaly detection
CN109871896A (zh) * 2019-02-26 2019-06-11 北京达佳互联信息技术有限公司 数据分类方法、装置、电子设备及存储介质
CN110163300A (zh) * 2019-05-31 2019-08-23 北京金山云网络技术有限公司 一种图像分类方法、装置、电子设备及存储介质
CN110210572A (zh) * 2019-06-10 2019-09-06 腾讯科技(深圳)有限公司 图像分类方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN111898658B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN113436620B (zh) 语音识别模型的训练方法、语音识别方法、装置、介质及设备
CN110826567B (zh) 光学字符识别方法、装置、设备及存储介质
CN111831855B (zh) 用于匹配视频的方法、装置、电子设备和介质
CN111625645B (zh) 文本生成模型的训练方法、装置和电子设备
WO2022252881A1 (zh) 图像处理方法、装置、可读介质和电子设备
CN112883968B (zh) 图像字符识别方法、装置、介质及电子设备
CN113449070A (zh) 多模态数据检索方法、装置、介质及电子设备
WO2023143016A1 (zh) 特征提取模型的生成方法、图像特征提取方法和装置
CN112149604A (zh) 视频特征提取模型的训练方法、视频推荐方法及装置
CN116128055A (zh) 图谱构建方法、装置、电子设备和计算机可读介质
CN112800276A (zh) 视频封面确定方法、装置、介质及设备
CN110097004B (zh) 面部表情识别方法和装置
WO2023130925A1 (zh) 字体识别方法、装置、可读介质及电子设备
CN111898658B (zh) 图像分类方法、装置和电子设备
CN114648712B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN111626044B (zh) 文本生成方法、装置、电子设备及计算机可读存储介质
CN111581455B (zh) 文本生成模型的生成方法、装置和电子设备
CN111737575B (zh) 内容分发方法、装置、可读介质及电子设备
CN113902838A (zh) 动画生成方法、装置、存储介质及电子设备
CN113705386A (zh) 视频分类方法、装置、可读介质和电子设备
CN113255812A (zh) 视频边框检测方法、装置和电子设备
CN114187557A (zh) 确定关键帧的方法、装置、可读介质及电子设备
CN112364938A (zh) 对抗样本生成方法、装置和电子设备
CN111859024A (zh) 视频分类方法、装置和电子设备
CN111898338B (zh) 文本生成方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant