CN111860606B - 图像分类的方法、装置以及存储介质 - Google Patents
图像分类的方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN111860606B CN111860606B CN202010596007.XA CN202010596007A CN111860606B CN 111860606 B CN111860606 B CN 111860606B CN 202010596007 A CN202010596007 A CN 202010596007A CN 111860606 B CN111860606 B CN 111860606B
- Authority
- CN
- China
- Prior art keywords
- image
- category
- classification
- classified
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Abstract
本申请公开了一种图像分类的方法、装置以及存储介质。其中,该方法包括:获取待分类图像的图像特征向量;利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包括已知分类类别和未知分类类别,图像分类模型是基于分类类别与类别属性集合训练得到的,类别属性集合包含多个与分类类别具有关联关系的类别属性;以及在根据概率值判断待分类图像属于未知分类类别的情况下,对待分类图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种图像分类的方法、装置以及存储介质。
背景技术
图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。现有技术中可以采用神经网络将图像进行分类,然而传统的深度神经网络分类系统,需要大量的标注数据才能进行训练,其训练完成的网络在实际应用中只能识别与标注训练数据相关的图像,当新出现需要分类的类别时,无法进行识别分类。只有重新标注数据,然后重新训练模型,才可以对新出现的类别进行区分,因此扩展性不强。
针对上述的现有技术中存在的训练好的神经网络模型只能对训练过程中的类别进行识别,当出现新的类别时需要重新标注数据进行模型训练,因此模型扩展性不强的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种图像分类的方法、装置以及存储介质,以至少解决现有技术中存在的训练好的神经网络模型只能对训练过程中的类别进行识别,当出现新的类别时需要重新标注数据进行模型训练,因此模型扩展性不强的技术问题。
根据本公开实施例的一个方面,提供了一种图像分类的方法,包括:获取待分类图像的图像特征向量;利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包括已知分类类别和未知分类类别,图像分类模型是基于分类类别与类别属性集合训练得到的,类别属性集合包含多个与分类类别具有关联关系的类别属性;以及在根据概率值判断待分类图像属于未知分类类别的情况下,对待分类图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本公开实施例的另一个方面,还提供了一种图像分类的装置,包括:特征提取模块,用于获取待分类图像的图像特征向量;计算模块,用于利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包括已知分类类别和未知分类类别,图像分类模型是基于分类类别与类别属性集合训练得到的,类别属性集合包含多个与分类类别具有关联关系的类别属性;以及类别确定模块,用于在根据概率值判断待分类图像属于未知分类类别的情况下,对待分类图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
根据本公开实施例的另一个方面,还提供了一种图像分类的装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待分类图像的图像特征向量;利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包括已知分类类别和未知分类类别,图像分类模型是基于分类类别与类别属性集合训练得到的,类别属性集合包含多个与分类类别具有关联关系的类别属性;以及在根据概率值判断待分类图像属于未知分类类别的情况下,对待分类图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
在本公开实施例中,首先提取待分类图像的特征向量,然后利用基于分类类别与类别属性集合训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包含已知分类类别和未知分类类别。最终,在根据概率值判断该待分类图像为已知分类类别的情况下,确定待分类图像的具体类别。在判断该待分类图像为未知分类类别的情况下,对该图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性,即:根据所确定的类别属性重新确定一个新的分类。从而,该模型可以根据类别属性重新确定未训练过的图像所属的新类别,不需要重新标注数据训练模型去识别新类别。因此与现有技术相比,本方案可以实现对为训练过的图像进行识别分类的技术效果,增强了模型的扩展性和鲁棒性。从而解决了现有技术中存在的训练好的神经网络模型只能对训练过程中的类别进行识别,当出现新的类别时需要重新标注数据进行模型训练,因此模型扩展性不强的技术问题。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图;
图2是根据本公开实施例1的第一个方面所述的图像分类的方法的流程示意图;
图3是根据本公开实施例1所述的知识图谱的结构示意图;
图4a是根据本公开实施例1所述的分类类别和类别属性的关联关系的结构示意图;
图4b是根据本公开实施例1所述的分类类别和类别属性的关联关系的结构示意图;
图5是根据本公开实施例2所述的图像分类的装置的示意图;以及
图6是根据本公开实施例3所述的图像分类的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本实施例,提供了一种图像分类的方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现图像分类的方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的图像分类的方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的图像分类的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种图像分类的方法,该方法例如可以应用在图像检索或分类系统的服务器。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S302:获取待分类图像的图像特征向量;
S304:利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包括已知分类类别和未知分类类别,图像分类模型是基于分类类别与类别属性集合训练得到的,类别属性集合包含多个与分类类别具有关联关系的类别属性;以及
S306:在根据概率值判断待分类图像属于未知分类类别的情况下,对待分类图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
正如背景技术中所述的,图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。现有技术中可以采用神经网络将图像进行分类,然而传统的深度神经网络分类系统,需要大量的标注数据才能进行训练,其训练完成的网络在实际应用中只能识别与标注训练数据相关的图像,当新出现需要分类的类别时,无法进行识别分类。只有重新标注数据,然后重新训练模型,才可以对新出现的类别进行区分,因此扩展性不强。
具体地,针对背景技术中存在的技术问题,本实施例技术方案在步骤S202中,在需要对图像进行分类的情况下,图像分类系统的服务器首先获取待分类图像的图像特征向量,即提取待分类图像的图像特征向量。其提取的方式例如可以采用现有技术中的图像特征提取算法,例如:ResNet网络,还可以采用其他的图像特征提取网络,此处不做具体限定。
进一步地,在步骤S204中,服务器利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包括已知分类类别和未知分类类别,并且图像分类模型是基于分类类别与类别属性集合训练得到的,类别属性集合包含多个与分类类别具有关联关系的类别属性。类别属性和分类类别之间的关联关系例如可以采用知识图谱的形式进行描述,图3示例性地示出了分类知识图谱的结构示意图,参考图3所示,知识图谱是由节点和边的集合定义的图,其中节点包含分类类别和类别属性,边包含了分类类别与类别属性关系和分类间的层属关系。在一个具体实例中,例如:该图像分类模型可以对可乐图像进行分类,图4a示例性地示出了与可乐图像相关的部分知识图谱的结构示意图,参考图4a所示,分类类别包括:“可口可乐瓶装550ml”、“零度可口可乐瓶装550ml”等已知分类类别,类别属性包括:“瓶装”、“红色标签”、“黑色标签”,此外类别属性还可以包括“蓝色标签”(图中未示出)。其中“可口可乐瓶装550ml”对应的类别属性为“红色标签”、“瓶装”,“零度可口可乐瓶装550ml”对应的类别属性为“黑色标签”、“瓶装”。在模型的训练过程中,首先利用已知分类类别对训练图像进行标注,训练图像可以采用图像特征提取模型(例如:ResNet网络)进行特征提取,确定图像特征向量。然后,将已知分类类别(“可口可乐瓶装550ml”、“零度可口可乐瓶装550ml”)和类别属性(“瓶装”、“红色标签”、“黑色标签”、“蓝色标签”)利用文本识别模型(例如BERT)进行计算,确定与分类类别以及类别属性对应的文本特征向量,图4b示出了文本表示完成后的知识图谱。然后将图像特征向量代替知识图谱中的分类类别节点对应的文本特征向量,即:将知识图谱中的分类类别和类别属性的文本和训练图像进行联合表示学习。其中,图像分类模型可以确定训练图像对应于每个分类类别的概率值,图像分类模型例如可以表达为:其中,p(ci|I,ɑj)为训练图像拥有每个类别属性的概率值,p(ɑj|I)为训练图像在拥有每个类别属性的情况下,属于每个分类类别的概率值,p(ci|I)为训练图像对应于每个分类类别的概率值,I为训练图像,ci为分类类别(“可口可乐瓶装550ml”、“零度可口可乐瓶装550ml”),ɑj为类别属性(瓶装、红色标签、黑色标签),δ为图像分类模型的激活函数(例如:ReLU、Sigmoid、TanH)。
其中
模型训练过程如下:
Loss分为两个部分:Lossc,Lossa
此外,为了识别未知分类类别,在训练过程中,随机选取十分之一种类别,将这些类别下的原始类别标注结果隐去(即类别属性与分类类别的关系未知),作为未知分类类别的数据进行训练。在训练过程中,对于未知分类类别的数据,由于属性与类别的关系未知,所以只考虑类别的Loss部分(即Lossc)。
在模型训练完成之后,输入待分类图像的图像特征向量,计算对应于每个分类类别的概率值,根据概率值判断该待分类图像属于已知分类类别还是未知分类类别,例如:未知分类类别对应的概率值最高,则确定为该待分类图像属于未知分类类别。在根据概率值判断待分类图像属于未知分类类别的情况下,对待分类图像进行聚类,例如采用K-Means算法进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性,即根据与未知分类类别对应的类别属性,确定该待分类图像属于的新类别,例如:新类别为“蓝色标签的可口可乐”。
此外,在一个实施例中,在根据所述概率值判断所述待分类图像属于所述已知分类类别的情况下,根据所述概率值确定所述待分类图像对应的分类类别。例如:在根据概率值判断待分类图像属于已知分类类别的情况下,根据概率值确定待分类图像对应的分类类别(例如:待分类图像为“可口可乐瓶装550ml”)。
从而通过这种方式,服务器首先提取待分类图像的特征向量,然后利用基于分类类别与类别属性集合训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包含已知分类类别和未知分类类别。最终,在根据概率值判断该待分类图像为已知分类类别的情况下,确定待分类图像的具体类别。在判断该待分类图像为未知分类类别的情况下,对该图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性,即:根据所确定的类别属性重新确定一个新的分类。从而,该模型可以根据类别属性重新确定未训练过的图像所属的新类别,不需要重新标注数据训练模型去识别新类别。因此与现有技术相比,本方案可以实现对为训练过的图像进行识别分类的技术效果,增强了模型的扩展性和鲁棒性。从而解决了现有技术中存在的训练好的神经网络模型只能对训练过程中的类别进行识别,当出现新的类别时需要重新标注数据进行模型训练,因此模型扩展性不强的技术问题。
可选地,利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,包括:利用图像分类模型,确定待分类图像拥有类别属性集合中每个类别属性的第一概率值;利用图像分类模型,确定待分类图像在拥有每个类别属性的情况下,属于每个分类类别的第二概率值;以及根据第一概率值和第二概率值,确定待分类图像对应于每个分类类别的概率值。
具体地,在利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值的操作中,服务器首先利用图像分类模型,确定待分类图像拥有类别属性集合中每个类别属性的第一概率值,例如:确定待分类图像拥有红色标签属性的概率值(对应于第一概率值)、拥有黑色标签属性的概率值(对应于第一概率值)以及拥有瓶装属性的概率值(对应于第一概率值)。进一步地,服务器利用图像分类模型,确定待分类图像在拥有每个类别属性的情况下,属于每个分类类别的第二概率值,例如:待分类图像在拥有红色标签属性的情况下为可口可乐瓶装550ml的概率值(对应于第二概率值)、待分类图像在拥有黑色标签属性的情况下为可口可乐瓶装550ml的概率值(对应于第一概率值)、待分类图像在拥有瓶装属性的情况下为可口可乐瓶装550ml的概率值(对应于第一概率值)。最终,服务器根据第一概率值和第二概率值,确定待分类图像对应于每个分类类别的概率值。
可选地,该方法还包括:根据以下公式依次确定第一概率值、第二概率值以及待分类图像对应于每个分类类别的概率值:
其中,p(ɑj|I)为第一概率值,p(ci|I,ɑj)为第二概率值,p(ci|I)为待分类图像对应于每个分类类别的概率值,W1、W2、W3、W4、W5、V1、V2为图像分类模型的参数,fimage为图像特征提取模型,ftext为文本特征提取模型,I为待分类图像,ci为分类类别,ɑj为类别属性,δ为图像分类模型的激活函数。
在一个具体实例中,计算待分类图像对应于可口可乐的概率值:p(可口可乐|I)=p(可口可乐|I,红色标签)p(红色标签|I)+p(可口可乐|I,黑色标签)p(黑色标签|I)+p(可口可乐|I,瓶装)p(瓶装|I),计算待分类图像对应于零度可乐的概率值:p(零度可乐|I)=p(零度可乐|I,红色标签)p(红色标签|I)+p(零度可乐|I,黑色标签)p(黑色标签|I)+p(零度可乐|I,瓶装)p(瓶装|I)。
可选地,对待分类图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性,包括:根据第一概率值确定与待分类图像的类别属性相关的特征向量;以及对与待分类图像的类别属性相关的特征向量进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
具体地,在对待分类图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性的操作中,服务器首先根据第一概率值确定与待分类图像的类别属性相关的特征向量,即根据第一概率值(待分类图像拥有类别属性集合中每个类别属性的第一概率值)生成与该待分类图像的属性相关的特征向量,然后将每个待分类图像的属性相关的特征向量进行聚类,得到多个新的分类(未知分类类别),然后以每个新的分类的中心点的向量值为基准,取其中最高得分(概率值最大)的n个类别属性作为新类别的属性描述,例如:新类别的类别属性包括“瓶装”、“蓝色标签”。
从而通过这种方式,可以根据待分类图像拥有类别属性集合中每个类别属性的第一概率值生成与类别属性相关的特征向量,然后根据向量进行聚类,最终确定新类别包含的属性,因此新分类类别确定的更加精准。
可选地,在根据概率值判断待分类图像属于已知分类类别的情况下,根据概率值确定待分类图像对应的分类类别,包括:利用argmax函数对概率值进行计算,确定待分类图像对应的分类类别。
具体地,在根据概率值判断待分类图像属于已知分类类别的情况下,根据概率值确定待分类图像对应的分类类别操作中,服务器采用argmax函数对概率值进行计算,确定待分类图像对应的分类类别,即确定分数最高对应的类别作为该待分类图像的分类类别。因此,可以快速地确定待分类图像所属的分类类别。
此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质。所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的方法。
从而根据本实施例,服务器首先提取待分类图像的特征向量,然后利用基于分类类别与类别属性集合训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包含已知分类类别和未知分类类别。最终,在根据概率值判断该待分类图像为已知分类类别的情况下,确定待分类图像的具体类别。在判断该待分类图像为未知分类类别的情况下,对该图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性,即:根据所确定的类别属性重新确定一个新的分类。从而,该模型可以根据类别属性重新确定未训练过的图像所属的新类别,不需要重新标注数据训练模型去识别新类别。因此与现有技术相比,本方案可以实现对为训练过的图像进行识别分类的技术效果,增强了模型的扩展性和鲁棒性。从而解决了现有技术中存在的训练好的神经网络模型只能对训练过程中的类别进行识别,当出现新的类别时需要重新标注数据进行模型训练,因此模型扩展性不强的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图5示出了根据本实施例所述的图像分类的装置500,该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示,该装置500包括:特征提取模块510,用于获取待分类图像的图像特征向量;计算模块520,用于利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包括已知分类类别和未知分类类别,图像分类模型是基于分类类别与类别属性集合训练得到的,类别属性集合包含多个与分类类别具有关联关系的类别属性;以及类别确定模块530,用于在根据概率值判断待分类图像属于未知分类类别的情况下,对待分类图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
可选地,计算模块520,包括:第一计算子模块,用于利用图像分类模型,确定待分类图像拥有类别属性集合中每个类别属性的第一概率值;第二计算子模块,用于利用图像分类模型,确定待分类图像在拥有每个类别属性的情况下,属于每个分类类别的第二概率值;以及第三计算子模块,用于根据第一概率值和第二概率值,确定待分类图像对应于每个分类类别的概率值。
可选地,装置500根据以下公式依次确定第一概率值、第二概率值以及待分类图像对应于每个分类类别的概率值:
其中,p(ɑj|I)为第一概率值,p(ci|I,ɑj)为第二概率值,p(ci|I),p(ci|I)为待分类图像对应于每个分类类别的概率值,W1、W2、W3、W4、W5、V1、V2为图像分类模型的参数,fimage为图像特征提取模型,ftext为文本特征提取模型,I为待分类图像,ci为分类类别,ɑj为类别属性,δ为图像分类模型的激活函数。
可选地,类别确定模块530,包括:特征确定子模块,用于根据第一概率值确定与待分类图像的类别属性相关的特征向量;以及聚类子模块,用于对与待分类图像的类别属性相关的特征向量进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
可选地,在根据概率值判断待分类图像属于已知分类类别的情况下,根据概率值确定待分类图像对应的分类类别。
可选地,类别确定模块530,包括:类别确定子模块,用于利用argmax函数对概率值进行计算,确定待分类图像对应的分类类别。
从而根据本实施例,装置500首先提取待分类图像的特征向量,然后利用基于分类类别与类别属性集合训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包含已知分类类别和未知分类类别。最终,在根据概率值判断该待分类图像为已知分类类别的情况下,确定待分类图像的具体类别。在判断该待分类图像为未知分类类别的情况下,对该图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性,即:根据所确定的类别属性重新确定一个新的分类。从而,该模型可以根据类别属性重新确定未训练过的图像所属的新类别,不需要重新标注数据训练模型去识别新类别。因此与现有技术相比,本方案可以实现对为训练过的图像进行识别分类的技术效果,增强了模型的扩展性和鲁棒性。从而解决了现有技术中存在的训练好的神经网络模型只能对训练过程中的类别进行识别,当出现新的类别时需要重新标注数据进行模型训练,因此模型扩展性不强的技术问题。
实施例3
图6示出了根据本实施例所述的图像分类的装置600,该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示,该装置600包括:处理器610;以及存储器620,与处理器610连接,用于为处理器610提供处理以下处理步骤的指令:获取待分类图像的图像特征向量;利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包括已知分类类别和未知分类类别,图像分类模型是基于分类类别与类别属性集合训练得到的,类别属性集合包含多个与分类类别具有关联关系的类别属性;以及在根据概率值判断待分类图像属于未知分类类别的情况下,对待分类图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
可选地,利用预先训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,包括:利用图像分类模型,确定待分类图像拥有类别属性集合中每个类别属性的第一概率值;利用图像分类模型,确定待分类图像在拥有每个类别属性的情况下,属于每个分类类别的第二概率值;以及根据第一概率值和第二概率值,确定待分类图像对应于每个分类类别的概率值。
可选地,存储器620还用于为处理器610提供处理以下处理步骤的指令:根据以下公式依次确定第一概率值、第二概率值以及待分类图像对应于每个分类类别的概率值:
其中,p(ɑj|I)为第一概率值,p(ci|I,ɑj)为第二概率值,p(ci|I),p(ci|I)为待分类图像对应于每个分类类别的概率值,W1、W2、W3、W4、W5、V1、V2为图像分类模型的参数,fimage为图像特征提取模型,ftext为文本特征提取模型,I为待分类图像,ci为分类类别,ɑj为类别属性,δ为图像分类模型的激活函数。
可选地,对待分类图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性,包括:根据第一概率值确定与待分类图像的类别属性相关的特征向量;以及对与待分类图像的类别属性相关的特征向量进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
可选地,在根据概率值判断待分类图像属于已知分类类别的情况下,根据概率值确定待分类图像对应的分类类别。
可选地,在根据概率值判断待分类图像属于已知分类类别的情况下,根据概率值确定待分类图像对应的分类类别,包括:利用argmax函数对概率值进行计算,确定待分类图像对应的分类类别。
从而根据本实施例,装置600首先提取待分类图像的特征向量,然后利用基于分类类别与类别属性集合训练的图像分类模型对图像特征向量进行计算,确定待分类图像对应于每个分类类别的概率值,其中分类类别包含已知分类类别和未知分类类别。最终,在根据概率值判断该待分类图像为已知分类类别的情况下,确定待分类图像的具体类别。在判断该待分类图像为未知分类类别的情况下,对该图像进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性,即:根据所确定的类别属性重新确定一个新的分类。从而,该模型可以根据类别属性重新确定未训练过的图像所属的新类别,不需要重新标注数据训练模型去识别新类别。因此与现有技术相比,本方案可以实现对为训练过的图像进行识别分类的技术效果,增强了模型的扩展性和鲁棒性。从而解决了现有技术中存在的训练好的神经网络模型只能对训练过程中的类别进行识别,当出现新的类别时需要重新标注数据进行模型训练,因此模型扩展性不强的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种图像分类的方法,其特征在于,包括:
获取待分类图像的图像特征向量;
利用预先训练的图像分类模型对所述图像特征向量进行计算,确定所述待分类图像对应于每个分类类别的概率值,其中所述分类类别包括已知分类类别和未知分类类别,所述图像分类模型是基于分类类别与类别属性集合训练得到的,所述类别属性集合包含多个与所述分类类别具有关联关系的类别属性;以及
在根据所述概率值判断所述待分类图像属于所述未知分类类别的情况下,对所述待分类图像进行聚类,从所述类别属性集合中确定与所述未知分类类别对应的类别属性,并根据与所述未知分类类别对应的类别属性确定所述待分类图像所属的新类别,其中
利用预先训练的图像分类模型对所述图像特征向量进行计算,确定所述待分类图像对应于每个分类类别的概率值,包括:利用所述图像分类模型,确定所述待分类图像拥有所述类别属性集合中每个类别属性的第一概率值,并且其中
对所述待分类图像进行聚类,从所述类别属性集合中确定与所述未知分类类别对应的类别属性,包括:利用所述图像分类模型,确定所述待分类图像拥有所述类别属性集合中每个类别属性的第一概率值;根据所述第一概率值确定与所述待分类图像的类别属性相关的特征向量;以及对与所述待分类图像的类别属性相关的特征向量进行聚类,从所述类别属性集合中确定与所述未知分类类别对应的类别属性。
2.根据权利要求1所述的方法,其特征在于,利用预先训练的图像分类模型对所述图像特征向量进行计算,确定所述待分类图像对应于每个分类类别的概率值,还包括:
利用所述图像分类模型,确定所述待分类图像在拥有所述每个类别属性的情况下,属于所述每个分类类别的第二概率值;以及
根据所述第一概率值和所述第二概率值,确定所述待分类图像对应于每个分类类别的概率值。
4.根据权利要求1所述的方法,其特征在于,还包括:在根据所述概率值判断所述待分类图像属于所述已知分类类别的情况下,根据所述概率值确定所述待分类图像对应的分类类别。
5.根据权利要求4所述的方法,其特征在于,在根据所述概率值判断所述待分类图像属于所述已知分类类别的情况下,根据所述概率值确定所述待分类图像对应的分类类别,包括:
利用argmax函数对所述概率值进行计算,确定所述待分类图像对应的分类类别。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至5中任意一项所述的方法。
7.一种图像分类的装置,其特征在于,包括:
特征提取模块,用于获取待分类图像的图像特征向量;
计算模块,用于利用预先训练的图像分类模型对所述图像特征向量进行计算,确定所述待分类图像对应于每个分类类别的概率值,其中所述分类类别包括已知分类类别和未知分类类别,所述图像分类模型是基于分类类别与类别属性集合训练得到的,所述类别属性集合包含多个与所述分类类别具有关联关系的类别属性;以及
类别确定模块,用于在根据所述概率值判断所述待分类图像属于所述已知分类类别的情况下,根据所述概率值确定所述待分类图像对应的分类类别,在根据所述概率值判断所述待分类图像属于所述未知分类类别的情况下,对所述待分类图像进行聚类,从所述类别属性集合中确定与所述未知分类类别对应的类别属性,并根据与所述未知分类类别对应的类别属性确定所述待分类图像所属的新类别,并且其中
所述计算模块包括第一计算子模块,用于利用所述图像分类模型,确定所述待分类图像拥有所述类别属性集合中每个类别属性的第一概率值,并且其中
所述类别确定模块包括:特征确定子模块,用于根据第一概率值确定与待分类图像的类别属性相关的特征向量;以及聚类子模块,用于对与待分类图像的类别属性相关的特征向量进行聚类,从类别属性集合中确定与未知分类类别对应的类别属性。
8.根据权利要求7所述的装置,其特征在于,所述计算模块,还包括:
第二计算子模块,用于利用所述图像分类模型,确定所述待分类图像在拥有所述每个类别属性的情况下,属于所述每个分类类别的第二概率值;以及
第三计算子模块,用于根据所述第一概率值和所述第二概率值,确定所述待分类图像对应于每个分类类别的概率值。
9.一种图像分类的装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取待分类图像的图像特征向量;
利用预先训练的图像分类模型对所述图像特征向量进行计算,确定所述待分类图像对应于每个分类类别的概率值,其中所述分类类别包括已知分类类别和未知分类类别,所述图像分类模型是基于分类类别与类别属性集合训练得到的,所述类别属性集合包含多个与所述分类类别具有关联关系的类别属性;以及
在根据所述概率值判断所述待分类图像属于所述未知分类类别的情况下,对所述待分类图像进行聚类,从所述类别属性集合中确定与所述未知分类类别对应的类别属性,并根据与所述未知分类类别对应的类别属性确定所述待分类图像所属的新类别,其中
利用预先训练的图像分类模型对所述图像特征向量进行计算,确定所述待分类图像对应于每个分类类别的概率值,包括:利用所述图像分类模型,确定所述待分类图像拥有所述类别属性集合中每个类别属性的第一概率值,并且其中
对所述待分类图像进行聚类,从所述类别属性集合中确定与所述未知分类类别对应的类别属性,包括:利用所述图像分类模型,确定所述待分类图像拥有所述类别属性集合中每个类别属性的第一概率值;根据所述第一概率值确定与所述待分类图像的类别属性相关的特征向量;以及对与所述待分类图像的类别属性相关的特征向量进行聚类,从所述类别属性集合中确定与所述未知分类类别对应的类别属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010596007.XA CN111860606B (zh) | 2020-06-24 | 2020-06-24 | 图像分类的方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010596007.XA CN111860606B (zh) | 2020-06-24 | 2020-06-24 | 图像分类的方法、装置以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860606A CN111860606A (zh) | 2020-10-30 |
CN111860606B true CN111860606B (zh) | 2021-09-14 |
Family
ID=72989302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010596007.XA Active CN111860606B (zh) | 2020-06-24 | 2020-06-24 | 图像分类的方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860606B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751198A (zh) * | 2013-12-27 | 2015-07-01 | 华为技术有限公司 | 图像中的目标物的识别方法及装置 |
CN110309856A (zh) * | 2019-05-30 | 2019-10-08 | 华为技术有限公司 | 图像分类方法、神经网络的训练方法及装置 |
CN110598790A (zh) * | 2019-09-12 | 2019-12-20 | 北京达佳互联信息技术有限公司 | 一种图像的识别方法、装置、电子设备及存储介质 |
CN111291817A (zh) * | 2020-02-17 | 2020-06-16 | 北京迈格威科技有限公司 | 图像识别方法、装置、电子设备和计算机可读介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169504B (zh) * | 2017-03-30 | 2019-06-18 | 湖北工业大学 | 一种基于扩展非线性核残差网络的手写字符识别方法 |
US10546232B2 (en) * | 2017-07-04 | 2020-01-28 | Microsoft Technology Licensing, Llc | Image recognition with promotion of underrepresented classes |
US10482353B2 (en) * | 2017-08-07 | 2019-11-19 | Sas Institute Inc. | Bandwidth selection in support vector data description for classification or outlier detection |
CN109376764B (zh) * | 2018-09-13 | 2021-12-07 | 北京字节跳动网络技术有限公司 | 基于聚类的数据收集方法、装置和计算机可读存储介质 |
CN111046910A (zh) * | 2019-11-12 | 2020-04-21 | 北京三快在线科技有限公司 | 图像分类、关系网络模型训练、图像标注方法及装置 |
CN110942091B (zh) * | 2019-11-15 | 2023-11-21 | 武汉理工大学 | 寻找可靠的异常数据中心的半监督少样本图像分类方法 |
-
2020
- 2020-06-24 CN CN202010596007.XA patent/CN111860606B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751198A (zh) * | 2013-12-27 | 2015-07-01 | 华为技术有限公司 | 图像中的目标物的识别方法及装置 |
CN110309856A (zh) * | 2019-05-30 | 2019-10-08 | 华为技术有限公司 | 图像分类方法、神经网络的训练方法及装置 |
CN110598790A (zh) * | 2019-09-12 | 2019-12-20 | 北京达佳互联信息技术有限公司 | 一种图像的识别方法、装置、电子设备及存储介质 |
CN111291817A (zh) * | 2020-02-17 | 2020-06-16 | 北京迈格威科技有限公司 | 图像识别方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111860606A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020125445A1 (zh) | 分类模型训练方法、分类方法、设备及介质 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
WO2020252919A1 (zh) | 识别简历的方法及装置、计算机设备、存储介质 | |
CN108319888B (zh) | 视频类型的识别方法及装置、计算机终端 | |
CN111931859B (zh) | 一种多标签图像识别方法和装置 | |
CN109359196B (zh) | 文本多模态表示方法及装置 | |
US11544510B2 (en) | System and method for multi-modal image classification | |
Gao et al. | Self-attention driven adversarial similarity learning network | |
CN110427480B (zh) | 个性化文本智能推荐方法、装置及计算机可读存储介质 | |
CN115293332A (zh) | 一种图神经网络的训练方法、装置、设备及存储介质 | |
CN115470488A (zh) | 目标风险网站检测方法、装置及存储介质 | |
CN113032520A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN114170468B (zh) | 文本识别方法、存储介质及计算机终端 | |
CN110858353A (zh) | 获取案件裁判结果的方法和系统 | |
CN114398973A (zh) | 一种媒体内容标签识别方法、装置、设备及存储介质 | |
CN110750643B (zh) | 上市公司非定期公告的分类方法、装置及存储介质 | |
CN111860606B (zh) | 图像分类的方法、装置以及存储介质 | |
US20170228438A1 (en) | Custom Taxonomy | |
CN111597296A (zh) | 商品数据的处理方法、装置和系统 | |
CN111753618A (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
Pejčinović | A review of custom vision service for facilitating an image classification | |
CN110413823A (zh) | 服装图片推送方法及相关装置 | |
CN113344121B (zh) | 训练招牌分类模型和招牌分类的方法 | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
CN111125387B (zh) | 多媒体列表生成、命名方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |