CN114902249A - 生成图像识别模型的方法、系统及分类方法、系统和介质 - Google Patents
生成图像识别模型的方法、系统及分类方法、系统和介质 Download PDFInfo
- Publication number
- CN114902249A CN114902249A CN202080068054.5A CN202080068054A CN114902249A CN 114902249 A CN114902249 A CN 114902249A CN 202080068054 A CN202080068054 A CN 202080068054A CN 114902249 A CN114902249 A CN 114902249A
- Authority
- CN
- China
- Prior art keywords
- centroid
- feature vectors
- recognition model
- cluster
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 173
- 238000000605 extraction Methods 0.000 claims abstract description 42
- 238000004891 communication Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 235000019580 granularity Nutrition 0.000 description 5
- 241000251730 Chondrichthyes Species 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000001172 regenerating effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种生成用于识别输入图像的图像识别模型的方法及其系统。该方法包括:将至少一个特征提取层附加到图像识别模型;从一组预定图像中提取多个特征向量;将多个特征向量分组成多个类别;将多个类别中的每一个的多个特征向量聚类成至少一个聚类;为至少一个聚类中的每一个确定至少一个质心,使得至少一个聚类中的每一个包括至少一个质心,使得至少一个质心中的每一个由特征向量表示;基于多个类别的至少一个质心的特征向量生成分类层;以及将分类层附加到图像识别模型。另外,提供一种对输入图像进行分类的方法及其系统。
Description
技术领域
本发明涉及一种用于生成用于识别输入图像的图像识别模型的系统及方法。本发明还涉及一种用于对输入图像进行分类的系统及方法。
背景技术
由于突出的图像识别性能,深度学习方法已得到广泛的研究及应用。传统的深度学习图像识别模型由特征提取模块及分类模块组成。使用此种模型的识别过程包括获取给定物体的图像并将其输入到由数个神经网络层组成的特征提取模块,以生成图像的特征向量(基本上是数字列表)。随后,使用分类模块处理特征向量并通过将物体分类到预先定义的类别或标识符中的一者来识别物体。一般来说,分类模块由一个分类神经网络层组成,分类神经网络层通常是完全连接的节点层。在识别图像时,分类模块将这一层应用于从特征提取模块获得的特征向量并产生数字列表,每一数字对应于预先定义的类别,并且实际值表示图像与类别之间的相似度。该值越大,图像与类别越相似。最后,将检索并返送具有最大值的类别的名称,并且因此识别出图像。在使用上述深度学习图像识别模型时,整个识别过程是在神经网络模型中以端到端方式计算的。假定训练数据足够,可使用深度学习算法(诸如反向传播)对整个模型进行端到端训练。此种方法具有简单的结构,并且已针对计算效率进行了极大的优化。然而,一个主要的缺点是分类模块中的分类层在训练之后是固定的。一旦模型被训练,在没有再次重新训练整个模型的情况下,难以再添加一个类别供模型识别或者难以对一个特定类别的性能进行微调,这通常将是耗时的并且影响模型在所有类别上的性能。
另一方面,基于搜索的识别模型在上述方面比分类模型灵活得多。基于搜索的识别模型在其分类模块中不具有分类层。相反,基于搜索的识别模型由一组图像的大量索引特征向量的数据库组成。这些特征向量由特征提取模块预先提取。为识别输入图像,在接收到从特征提取模块提取的输入特征向量之后,识别模块将扫描其数据库并检索与该输入特征向量最接近(即,最相似)的索引特征向量,并且返送与该索引特征向量相关联的类别名称。与上一段中提到的传统图像识别模型相比,此种基于搜索的识别模型因数据库的引入而更加灵活。通过在识别模块中添加、移除或更新数据库中的特征向量,不仅可改善现有类别的图像识别性能,而且还可修改模型可识别的类别列表。换句话说,现在可在不重新训练下伏神经网络层的情况下对此种模型进行精细微调。
然而,基于搜索的识别模型也有其缺点。由于特征数据库大小与添加的图像的数目(通常是整个训练集而不是类别的数目)成比例,因此特征数据库大小通常很大。因此,基于搜索的识别模型通常比传统的识别模型消耗更多的存储器资源,并且在执行识别任务时还需要更多的计算。因此,在资源有限的系统(例如,移动装置)上部署该模型更加困难。对于每一类别,通过仅对少量图像进行索引甚至仅对一个图像进行索引,可减小数据库大小,但为了保持识别性能,选择正确的图像进行索引的过程并不简单。
因此,需要一种能够克服上述问题的新型识别模型。优选地,该新型识别模型结构简单,易于更新及改善,同时仍能够实现良好的识别精确度。
发明内容
根据各种实施例,提供一种生成用于识别输入图像的图像识别模型的方法。所述方法包括:将至少一个特征提取层附加到所述图像识别模型;从一组预定图像提取多个特征向量;将所述多个特征向量分组成多个类别;将所述多个类别中的每一个的所述多个特征向量聚类成至少一个聚类;为所述至少一个聚类中的每一个确定至少一个质心,使得所述至少一个聚类中的每一个包括至少一个质心,使得所述至少一个质心中的每一个由特征向量表示;基于所述多个类别的所述至少一个质心的所述特征向量生成分类层;以及将所述分类层附加到所述图像识别模型。
根据各种实施例,所述方法可包括:将所述多个类别中的每一个的聚类数目改变成新的聚类数目;将所述多个类别中的每一个的所述多个特征向量重新聚类成所述新的聚类数目;为所述新的聚类数目中的每一个重新确定至少一个质心,其中所述至少一个质心中的每一个由特征向量表示;以及基于所述新的聚类数目中的每一个的所述至少一个质心的所述特征向量重新生成所述图像识别模型的所述分类层。
根据各种实施例,所述方法可包括:接收新的类别的多个图像;通过特征提取模块从所述多个图像提取多个新的特征向量;将所述多个新的特征向量聚类成至少一个新的聚类;为所述至少一个新的聚类中的每一个生成至少一个质心,其中所述至少一个质心中的每一个由特征向量表示;以及将所述至少一个新的聚类中的每一个的所述至少一个质心中的每一个的所述特征向量附加到所述图像识别模型的所述分类层。
根据各种实施例,所述方法可包括:接收所述多个类别中的一者中的多个所选图像;提取所述多个所选图像的多个新的特征向量;将所述多个新的特征向量添加到所述多个类别中的所述一者的所述多个特征向量以形成一组新的特征向量;将所述一组新的特征向量重新聚类成至少一个聚类;为所述至少一个聚类中的每一个重新生成至少一个质心,使得所述至少一个质心中的每一个由特征向量表示;以及将所述至少一个聚类中的每一个的所述至少一个质心中的每一个的所述特征向量附加到所述图像识别模型的所述分类层。
根据各种实施例,所述多个特征向量可使用k均值算法进行聚类。
根据各种实施例,提供一种用于对输入图像进行分类的方法。所述方法包括:接收所述输入图像;将所述图像输入到如上所述生成的图像识别模型,以将所述输入图像分类成所述多个类别中的一者;以及从所述图像识别模型输出所述输入图像的所述多个类别中的所述一者的类别名称。
根据各种实施例,所述方法可包括:提取所述输入图像的特征向量;将所述特征向量与所述分类层中的所述多个质心进行比较;确定所述多个质心中最接近所述特征向量的一者;标识所述多个质心中的所述一者的类别;以及检索所述多个质心中的所述一者的所述类别的类别名称。
根据各种实施例,将所述特征向量与所述多个质心进行比较可包括计算所述特征向量与所述多个类别的所述至少一个质心的所述特征向量中的每一个之间的距离。
根据各种实施例,提供一种用于生成用于识别输入图像的图像识别模型的系统。所述系统包括处理器及存储器,所述存储器与所述处理器进行通信,以用于存储可由所述处理器执行的指令,使得所述处理器被配置成:将至少一个特征提取层附加到图像识别模型;从一组预定图像提取多个特征向量;将所述多个特征向量分组成多个类别;将所述多个类别中的每一个的所述多个特征向量聚类成至少一个聚类;为所述至少一个聚类中的每一个确定至少一个质心,使得所述至少一个聚类中的每一个包括至少一个质心,其中所述至少一个质心中的每一个由特征向量表示;基于所述多个类别的所述至少一个质心的所述特征向量生成所述分类层;以及将所述分类层附加到所述图像识别模型。
根据各种实施例,所述处理器可被配置成:将所述多个类别中的每一个的聚类数目改变成新的聚类数目;将所述多个类别中的每一个的所述多个特征向量重新聚类成所述新的聚类数目;为所述新的聚类数目中的每一个重新确定至少一个质心,其中所述至少一个质心中的每一个由特征向量表示;基于所述新的聚类数目中的每一个的所述至少一个质心的所述特征向量重新生成所述识别模型中的所述分类层。
根据各种实施例,所述处理器可被配置成:接收所述多个类别中的一者中的多个所选图像;提取所述多个所选图像的多个新的特征向量;将所述多个新的特征向量添加到所述多个类别中的一者的所述多个特征向量以形成一组新的特征向量;将所述一组新的特征向量重新聚类成至少一个聚类;为所述至少一个聚类中的每一个重新生成至少一个质心,使得所述至少一个质心中的每一个由特征向量表示;以及将所述至少一个聚类中的每一个的所述至少一个质心中的每一个的所述特征向量附加到所述图像识别模型的所述分类层。
根据各种实施例,所述多个特征向量可使用k均值算法进行聚类。
根据各种实施例,提供一种用于对输入图像进行分类的系统。所述系统包括处理器及存储器,所述存储器与所述处理器进行通信,以用于存储可由所述处理器执行的指令,使得所述处理器被配置成:接收所述输入图像;将所述输入图像输入到如上所述的生成的图像识别模型,以将所述输入图像分类成所述多个类别中的一者;以及从所述图像识别模型输出所述输入图像的所述多个类别中的所述一者的类别名称。
根据各种实施例,所述处理器可被配置成:提取所述输入图像的特征向量;将所述特征向量与所述分类层中的所述多个质心进行比较;确定所述多个质心中最接近所述特征向量的一者;标识所述多个质心中的所述一者的类别;以及检索所述多个质心中的所述一者的所述类别的所述类别名称。
根据各种实施例,提供一种包含指令的非暂时性计算机可读存储介质,使得所述指令在由系统中的处理器执行时使所述系统:将至少一个特征提取层附加到图像识别模型;从一组预定图像提取多个特征向量;将所述多个特征向量分组成多个类别;将所述多个类别中的每一个的所述多个特征向量聚类成至少一个聚类;为所述至少一个聚类中的每一个确定至少一个质心,使得所述至少一个聚类中的每一个包括至少一个质心,使得所述至少一个质心中的每一个由特征向量表示;基于所述多个类别的所述至少一个质心的所述特征向量生成所述分类层;以及将所述分类层附加到所述图像识别模型。
根据各种实施例,提供一种包含指令的非暂时性计算机可读存储介质,使得所述指令在由系统中的处理器执行时使所述系统:接收输入图像;将所述输入图像输入到如上所述的生成的图像识别模型,以将所述输入图像分类成所述多个类别中的一者;以及从所述图像识别模型输出所述输入图像的所述多个类别中的所述一者的类别名称。
附图说明
图1示出用于生成用于识别输入图像的图像识别模型的方法的示例性流程图。
图2示出识别输入图像的特征提取模型的示例性流程图。
图3示出对输入图像进行分类的图像识别模型的示例性流程图。
图4示出用于对图像进行分类的方法的流程图。
图5示出标识输入图像的图像识别模型的示例性流程图。
图6示出用于部署图1中的方法的系统的示例性实施例的示意图。
具体实施方式
图1示出用于生成用于识别输入图像的图像识别模型的方法1000的示例性流程图。该方法包括:在方块1100中将至少一个特征提取层附加到图像识别模型;在方块1200中从一组预定图像提取多个特征向量;在方块1300中将多个特征向量分组成多个类别;在方块1400中将多个类别中的每一个的多个特征向量聚类成至少一个聚类;在方块1500中为至少一个聚类中的每一个确定至少一个质心,使得至少一个聚类中的每一个包括至少一个质心,使得至少一个质心中的每一个由特征向量表示;在区块1600中基于多个类别中的至少一个质心的特征向量生成分类层;以及在方块1700中将分类层附加到图像识别模型。所述方法可由系统(例如,计算机、服务器、移动装置等)实施。
图像识别模型可包括特征提取模块及分类模块。特征提取模块可包括至少一个特征提取层。分类模块可包括分类层。可从特征提取模块施行转换及压缩过程来生成用于生成分类层的参数。通过在分类模型中具有“一个类别多个质心”(如将在稍后示出)可获得平衡的模型大小及识别精确度。分类层中可存在多个类别。该图像识别模型在保留传统分类模型的部署简单性及效率的同时具有基于搜索的识别模型的灵活性。因此,图像识别模型更适合部署在资源受限的系统(诸如移动装置)上。
图2示出处理输入图像210的图像识别模型230的示例性流程图。图像识别模型230可为基于搜索的识别模型。图像识别模型230可包括特征提取模块220。图像识别模型230可包括被配置成识别图像的识别模块。识别模块可包括特征向量数据库。特征向量数据库可存储图像的特征向量及特征向量的类别名称。如图2中所示,特征提取模块220可包括至少一个特征提取层222。至少一个特征提取层222可包括卷积神经网络层的堆叠。可对这些层进行加权,并且这些层的权重(参数)在现有技术中是公知的。可使用深度学习算法来预先训练特征提取模块220。一种常见的训练方法可为监督训练。例如,可首先定义识别目标的类别分类,并且可使用与类别分类相关的一组预定图像作为训练数据,以使用分类目标函数来训练至少一个特征提取层222。当目标函数收敛到某个阈值以下时,可停止训练,并且至少一个特征提取层222可用于从输入图像提取特征向量。
特征提取模块220可被配置成从一组预定图像提取特征向量,即一组预定图像的特征项的特征向量。所述一组图像可与用于训练特征提取模块220的图像相同,或者与单独的搜索数据库中的图像相同。为识别输入图像210,特征提取模块220可将输入图像210(其可简单地是三维浮动张量)转换成一维浮动向量,被称为输入图像210的嵌入224。嵌入224可与识别模块的特征数据库中的特征向量相匹配。当特征向量(例如鲨鱼的特征向量)作为最相似的特征向量与输入图像嵌入224匹配时,可检索并返送与特征向量的类别相关联的类别名称(例如“鲨鱼”),并且识别输入图像210。可使用现有技术中公知的各种测量相似度(例如余弦相似度)的方法。
图3示出对输入图像310进行分类的图像识别模型330的示例性流程图。图像识别模型330可包括特征提取模块320M及分类模块340M。特征提取模块320M可包括至少一个特征提取层322(如图2中所述)。特征提取模块320可被配置成提取所述一组预定图像中的特征项的多个特征向量。
参照图3,分类模块340M可包括分类层342,其是完全连接的神经网络层。分类层342可基于一组预定图像来生成。为生成分类层342,可为图像识别模型330确定多个类别。例如,为对与动物相关的图像进行分类,多个类别可包括狗、猫、鲨鱼等。特征提取模块320M可基于所述一组预定图像中的特征项从所述一组预定图像提取多个特征向量(嵌入)。此后,可基于对应的一组预定图像的类别将多个特征向量分组成多个类别,以形成多个类别中的每一个的特征向量。可为多个类别中的每一个确定至少一个质心346。可为多个类别中的每一个确定多个质心346。可通过将类别的特征向量聚类成至少一个聚类322C来确定多个类别中的每一个的一个或多个质心346或者多个质心346,并且可为所述至少一个聚类中的每一个生成质心346。因此,可为多个聚类322C生成多个质心346。可使用诸如k-均值、k-均值++、k-中值、k-中心等聚类技术来执行聚类。随着质心346的数目增加,识别模型的精确度可得到改善。可基于所有多个类别的质心346来生成分类层342。每一质心346可由特征向量表示,因此如果存在类别数目C及质心数目K或特征向量,则分类层342(例如,作为完全连接的层)可由C×K个质心346或特征向量形成并且用于将输入图像310分类成多个类别中的一者。分类模块340M可附加在特征提取模块320M之后,以形成图像识别模型330。具体来说,分类层342可被附加到图像识别模型330。图像识别模型330可用于识别输入图像310。
通过将多个特征向量聚类到质心数目K,分类模块340M可被配置成与基于搜索的分类模块相似地执行,其中特征数据库被压缩以减小图像识别模型330的大小。同时,通过增加质心数目K,分类模块340M的精确度得到增加。
可通过改变多个类别中的每一个的质心数目K来改变分类模块340M的精度。对于多个类别中的每一个,质心数目K可为相同的。对于分类模块340M中的多个分类中的每一个,质心数目可相同。改变质心数目K也可被称为调整分类层342的粒度。通过调整分类层342的粒度,可调整分类层342的精确度及大小。具体来说,当质心数目K增加时,分类层342的精确度可得到改善,同时分类层342的大小增加。相反,当质心数目K减少时,分类层342的精度及大小会减小。因此,依据部署图像识别模型330的系统的资源而定,可相应地调整图像识别模型330的粒度以实现最佳结果。例如,为改变分类模块的精度,多个类别中的每一个的聚类322C的数目可改变成新数目的聚类322C。当聚类322C的数量改变时,多个类别中的每一个的多个特征向量可被重新聚类成新数目的聚类322C。例如,聚类322C的数目可增加或减少。基于新数目的聚类322C,可为新数目的聚类322C中的每一个重新确定至少一个质心。这样一来,质心数目K可改变。应注意,在质心数目K被改变或调整之后,多个类别中的每一个的多个特征向量可相应地被重新聚类成新的聚类322C。基于新数目的聚类322C,可确定新的聚类质心,并且可基于新的聚类质心重新生成图像识别模型330中的分类层342。所有这些可在无需重新训练分类层以及特征提取层的情况下容易地完成。
相似地,在需要更新图像识别模型330的情况下(例如当需要识别新的类别时),可在无需重新训练整个图像识别模型330的情况下直接修改分类层342。为更新分类层342以识别新的类别,可提供属于新的类别的多个选定图像。可使用特征提取模块320M提取多个图像的多个新特征向量。接下来,可将新的类别的多个新的特征向量聚类成至少一个新的聚类322C。例如,可将多个新的特征向量聚类成多个新的聚类322C。可为至少一个新聚类322C中的每一个生成至少一个质心。至少一个质心中的每一个可由特征向量表示,并且可将至少一个质心的对应特征向量或者多个质心的对应特征向量附加到分类层342,即可基于多个类别的多个质心的多个特征向量(包括新的类别的多个新特征向量)来重新生成分类层342。此后,可使用图像识别模型330识别新的类别的图像。
还可通过向图像识别模型330提供多个类别中的一者的一组新的多个所选图像来更新或改善分类层342的多个类别中的一者的精确度。系统可接收多个类别中的一者中的多个所选图像。特征提取模块320M可被配置成从多个所选图像提取特征项的多个新的特征向量。可将多个新的特征向量添加到多个类别中的一者的一组现有特征向量,以形成一组新的特征向量。此后,可将一组新的特征向量集合重新聚类成至少一个聚类322C。可为至少一个聚类322C中的每一个重新生成至少一个质心K。至少一个质心K中的每一个可由特征向量表示。可将至少一个聚类322C中的每一个的至少一个质心中的每一个的特征向量附加到图像识别模型330的分类层342,即可基于至少一个聚类322C的特征向量及其他多个类别的多个特征向量来重新生成分类层342。此后,可更新或改善具有一组新的所选图像的特征向量的多个类别中的一者,以识别多个类别中的一者中的输入图像。
综上所述,可容易地将新的类别添加到图像识别模型330中,或者可通过更新对应的质心来对现有的类别进行精细微调,所有这些都不需要重新训练至少一个特征提取层320。以此种方式,图像识别模型330更加灵活、可控且易于管理。
图4示出用于对图像进行分类的方法2000的流程图,方法2000包括:在方块2100中接收输入图像;在方块2200中将输入图像输入到所生成的图像识别模型以将输入图像分类成多个类别中的一者;以及在方块2300中从图像识别模型输出输入图像的多个类别中的一者的类别名称。
图5示出识别输入图像510的图像识别模型530的示例性流程图。如图5中所示,可将输入图像510输入到图像识别模型530。在识别输入图像510之后,图像识别模型530可输出输入图像510的类别名称。当输入图像510被输入到图像识别模型530时,特征提取模块520可提取输入图像510的特征向量。此后,可将特征向量输入到分类模块540,其中分类层542被配置成将其分类成多个类别C中的一者。为此,可将特征向量与分类层542中的多个质心进行比较。分类层542可被配置成通过计算输入图像510的特征向量与多个质心之间的相似度来确定最接近特征向量的一个质心,并且例如通过余弦距离来返送与特征向量最相似的质心。因此,可识别出返送的质心的类别名称,并且可由图像识别模型530输出类别的名称(例如“鲨鱼”)。
图像识别模型530可适用于资源有限的系统,例如移动装置(如移动电话)。另外,图像识别模型530能够克服基于搜索的识别模块的复杂部署的问题,这是由于其结构更简单并且参数直接存储在模型本身中。另外,分类层542的粒度更加灵活、可控且易于调整。因此,图像识别模型530的精确度可针对系统中可用的资源进行优化。事实上,如果需要的话,可很容易地计算具有不同粒度(且因此具有不同精度)的不同模型并将其部署到不同的系统。
图6示出用于部署图1中的方法的系统的示例性实施例的示意图。上述方法可部署在系统中。系统可包括移动装置(例如,移动电话、平板计算机、笔记本);计算机等。系统包括处理器610以及与处理器610进行通信的存储器620,用于存储可由处理器610执行的指令。系统还可包括电源630、多媒体模块640、音频模块650、输入/输出(input/output,I/O)接口660、传感器模块670及通信模块680中的至少一者。
处理器610通常控制系统600的整体操作,例如与显示、电话呼叫、数据通信、相机操作及记录操作相关联的操作。处理器610可包括一个或多个处理器1340,以执行指令来执行上述方法中的所有或部分步骤。另外,处理器610可包括促进处理器610与其他模块之间的交互的一个或多个模块。例如,处理器610可包括多媒体模块,以促进多媒体模块640与处理器610之间的交互。系统可经由网络与服务器602进行通信。
存储器620可被配置成存储各种类型的数据,以支持系统600的操作。例如,数据可包括用于在系统600上进行操作的任何应用或上述方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器620可使用任何类型的易失性存储器装置或非易失性存储器装置或其组合来实施,例如静态随机存取存储器(static random access memory,SRAM)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁性存储器、闪存、磁盘或光盘。
电源630向系统600的各种模块供电。电源630可包括电源管理系统、一个或多个电源以及与系统600中的电力的产生、管理及分配相关联的任何其他模块。
多媒体模块640可包括在系统600与用户之间提供输出接口的屏幕。在一些实施例中,屏幕可包括液晶显示器(liquid crystal display,LCD)、有机发光二极管(organiclight-emitting diode,OLED)、触摸面板等。如果屏幕包括触摸面板,则屏幕可被实施为触摸屏,以接收来自用户的输入信号。触摸面板可包括一个或多个触摸传感器,以感测触摸面板上的触摸、滑动及手势。触摸传感器不仅可感测触摸或滑动动作的边界,而且还可感测与触摸或滑动动作相关联的时间段及压力。在一些实施例中,多媒体模块640可包括用于捕捉输入图像的前置相机和/或后置相机。在系统600处于诸如摄影模式或视频模式等操作模式时,前置相机和/或后置相机可接收外部多媒体数据。前置相机及后置相机中的每一个可为固定的光学透镜系统或者具有聚焦及光学变焦能力。
音频模块650可被配置成输出和/或输入音频信号。例如,音频模块650可包括麦克风(microphone,“MIC”),其被配置成在系统600处于诸如呼叫模式、记录模式及语音识别模式等操作模式时接收外部音频信号。所接收的音频信号可进一步存储在存储器620中或者经由通信模块680发送。在一些实施例中,音频模块650还包括输出音频信号的扬声器。
I/O接口660提供处理器610与外围接口模块之间的接口,例如键盘、点击式触摸转盘、按钮等。按钮可包括但不限于主页按钮、音量按钮、开始按钮及锁定按钮。
传感器模块670包括一个或多个传感器,以提供系统600的各个方面的状态评估。例如,传感器模块670可检测系统600的打开/关闭状态、系统600的模块(例如,显示器及键盘)的相对定位、系统600或系统600的模块的位置变化、用户与系统600接触的存在或不存在、系统600的取向或加速/减速、以及系统600的温度变化等。传感器模块670可包括接近传感器,该接近传感器被配置成在不具有任何实体接触的情况下检测附近物体的存在。传感器模块670还可包括用于成像应用程序的光传感器,例如CMOS或CCD图像传感器。在一些实施例中,传感器模块670还可包括加速度计传感器、陀螺仪传感器、磁性传感器、压力传感器或温度传感器。
通信模块680可被配置成促进系统600与其他装置或服务器602之间的有线通信或无线通信。系统600可基于诸如WiFi、2G或3G、LTE及4G蜂窝技术或其组合等通信标准来访问无线网络。在一个示例性实施例中,通信模块680可经由广播频道从外部广播管理系统接收广播信号或广播相关信息。在一个示例性实施例中,通信模块680还可包括近场通信(nearfield communication,NFC)模块,以促进短距离通信。例如,NFC模块可基于射频标识(radio frequency identification,RFID)技术、红外数据协会(infrared dataassociation,IrDA)技术、超宽带(ultra-wideband,UWB)技术、蓝牙(Bluetooth,BT)技术及其他技术来实施。
在示例性实施例中,系统600可使用一个或多个应用专用集成电路(applicationspecific integrated circuit,ASIC)、数字信号处理器(digital signal processor,DSP)、数字信号处理装置(digital signal processing device,DSPD)、可编程逻辑装置(programmable logic device,PLD)、现场可编程门阵列(field programmable gatearray,FPGA)、控制器、微控制器、微处理器或其他电子模块来实施,以用于执行上述方法。
一种包含指令的非暂时性计算机可读存储介质,其中所述指令在由系统中的处理器执行时使所述系统:将至少一个特征提取层附加到图像识别模型;从一组预定图像提取多个特征向量;将多个特征向量分组成多个类别;将多个类别中的每一个的多个特征向量聚类成至少一个聚类;为至少一个聚类中的每一个确定至少一个质心,使得所述至少一个聚类中的每一个包括至少一个质心,使得所述至少一个质心中的每一个由特征向量表示;基于多个类别的至少一个质心的特征向量生成分类层;以及将分类层附加到图像识别模型。
一种包含指令的非暂时性计算机可读存储介质,其中所述指令在由系统中的处理器执行时使所述系统:接收输入图像;将输入图像输入到如上所述的生成的图像识别模型,以将所述输入图像分类成多个类别中的一者;以及从图像识别模型输出输入图像的多个类别中的所述一者的类别名称。
所属领域中的技术人员将理解,在一个实例中描述的特征可不限于该示例,并且可与其他实例个的任一者相结合。
本发明涉及一种用于生成图像识别模型并对输入图像进行分类的系统及方法,如本文中参照附图所述和/或在附图中示出。
Claims (16)
1.一种生成用于识别输入图像的图像识别模型的方法,其特征在于,包括:
将至少一个特征提取层附加到所述图像识别模型;
从一组预定图像中提取多个特征向量;
将所述多个特征向量分组成多个类别;
将所述多个类别中的每一个的所述多个特征向量聚类成至少一个聚类;
为所述至少一个聚类中的每一个确定至少一个质心,其中所述至少一个聚类中的每一个包括至少一个质心,其中所述至少一个质心中的每一个由特征向量表示;
基于所述多个类别的所述至少一个质心的所述特征向量生成分类层;以及
将所述分类层附加到所述图像识别模型。
2.根据权利要求1所述的方法,其特征在于,包括将所述多个类别中的每一个的聚类数目改变成新的聚类数目,将所述多个类别中的每一个的所述多个特征向量重新聚类成所述新的聚类数目,为所述新的聚类数目中的每一个重新确定至少一个质心,其中所述至少一个质心中的每一个由特征向量表示,并且基于所述新的聚类数目中的每一个的所述至少一个质心的所述特征向量重新生成所述图像识别模型的所述分类层。
3.根据权利要求1或2所述的方法,其特征在于,还包括接收新的类别的多个图像,通过特征提取模块从所述多个图像提取多个新的特征向量,将所述多个新的特征向量聚类成至少一个新的聚类,为所述至少一个新的聚类中的每一个生成至少一个质心,其中所述至少一个质心中的每一个由特征向量表示,并且将所述至少一个新的聚类中的每一个的所述至少一个质心中的每一个的所述特征向量附加到所述图像识别模型的所述分类层。
4.根据权利要求1或2所述的方法,其特征在于,还包括接收所述多个类别中的一个中的多个所选图像,提取所述多个所选图像的多个新的特征向量,将所述多个新的特征向量添加到所述多个类别中的所述一个的所述多个特征向量以形成一组新的特征向量,将所述一组新的特征向量重新聚类成至少一个聚类,为所述至少一个聚类中的每一个重新生成至少一个质心,其中所述至少一个质心中的每一个由特征向量表示,并且将所述至少一个聚类中的每一个的所述至少一个质心中的每一个的所述特征向量附加到所述图像识别模型的所述分类层。
5.根据权利要求1或2所述的方法,其特征在于,所述多个特征向量是使用k均值算法进行聚类的。
6.一种用于对输入图像进行分类的方法,其特征在于,所述方法包括:
接收所述输入图像;
将所述图像输入到根据权利要求1至权利要求5中任一项所述的方法生成的图像识别模型,以将所述输入图像分类成所述多个类别中的一个;以及
从所述图像识别模型输出所述输入图像的所述多个类别中的所述一个的类别名称。
7.根据权利要求6所述的方法,其特征在于,所述方法包括:
提取所述输入图像的特征向量;
将所述特征向量与所述分类层中的所述多个质心进行比较;
确定所述多个质心中最接近所述特征向量的一个;
标识所述多个质心中的所述一个的类别;以及
检索所述多个质心中的所述一个的所述类别的类别名称。
8.根据权利要求7所述的方法,其特征在于,将所述特征向量与所述多个质心进行比较包括计算所述特征向量与所述多个类别的所述至少一个质心的所述特征向量中的每一个之间的距离。
9.一种用于生成用于识别输入图像的图像识别模型的系统,其特征在于,所述系统包括:
处理器;以及
存储器,所述存储器与所述处理器进行通信,以用于存储能够由所述处理器执行的指令,
其中所述处理器被配置成:
将至少一个特征提取层附加到图像识别模型;
从一组预定图像提取多个特征向量;
将所述多个特征向量分组成多个类别;
将所述多个类别中的每一个的所述多个特征向量聚类成至少一个聚类;
为所述至少一个聚类中的每一个确定至少一个质心,其中所述至少一个聚类中的每一个包括至少一个质心,其中所述至少一个质心中的每一个由特征向量表示;
基于所述多个类别的所述至少一个质心的所述特征向量生成分类层;以及
将所述分类层附加到所述图像识别模型。
10.根据权利要求9所述的系统,其特征在于,所述处理器被配置成将所述多个类别中的每一个的聚类数目改变成新的聚类数目,将所述多个类别中的每一个的所述多个特征向量重新聚类成所述新的聚类数目,为所述新的聚类数目中的每一个重新确定至少一个质心,其中所述至少一个质心中的每一个由特征向量表示,基于所述新的聚类数目中的每一个的所述至少一个质心的所述特征向量重新生成所述识别模型的所述分类层。
11.根据权利要求9或10所述的系统,其中所述处理器被配置成接收所述多个类别中的一者中的多个所选图像,提取所述多个所选图像的多个新的特征向量,将所述多个新的特征向量添加到所述多个类别中的一者的所述多个特征向量以形成一组新的特征向量,将所述一组新的特征向量重新聚类成至少一个聚类,为所述至少一个聚类中的每一个重新生成至少一个质心,其中所述至少一个质心中的每一个由特征向量表示,并且将所述至少一个聚类中的每一个的所述至少一个质心中的每一个的所述特征向量附加到所述图像识别模型的所述分类层。
12.根据权利要求9或10所述的系统,其中所述多个特征向量是使用k均值算法进行聚类的。
13.一种用于对输入图像进行分类的系统,其特征在于,所述系统包括:
处理器;以及
存储器,所述存储器与所述处理器进行通信,以用于存储能够由所述处理器执行的指令,
其中所述处理器被配置成:
接收所述输入图像;
将所述输入图像输入到根据权利要求9至权利要求11中任一项所述的系统生成的图像识别模型,以将所述输入图像分类成所述多个类别中的一个;以及
从所述图像识别模型输出所述输入图像的所述多个类别中的所述一个的类别名称。
14.根据权利要求13所述的系统,其特征在于,所述处理器被配置成提取所述输入图像的特征向量,将所述特征向量与所述分类层中的所述多个质心进行比较,确定所述多个质心中最接近所述特征向量的一个,标识所述多个质心中的所述一个的类别,并且检索所述多个质心中的所述一个的所述类别的所述类别名称。
15.一种包含指令的非暂时性计算机可读存储介质,其特征在于,所述指令在由系统中的处理器执行时使所述系统:
将至少一个特征提取层附加到图像识别模型;
从一组预定图像提取多个特征向量;
将所述多个特征向量分组成多个类别;
将所述多个类别中的每一个的所述多个特征向量聚类成至少一个聚类;
为所述至少一个聚类中的每一个确定至少一个质心,其中所述至少一个聚类中的每一个包括至少一个质心,其中所述至少一个质心中的每一个由特征向量表示;
基于所述多个类别的所述至少一个质心的所述特征向量生成分类层;以及
将所述分类层附加到所述图像识别模型。
16.一种包含指令的非暂时性计算机可读存储介质,其中所述指令在由系统中的处理器执行时使所述系统:
接收输入图像;
将所述输入图像输入到根据权利要求9至权利要求11中任一项所述的系统生成的图像识别模型,以将所述输入图像分类成所述多个类别中的一个;以及
从所述图像识别模型输出所述输入图像的所述多个类别中的所述一个的类别名称。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/SG2020/050642 WO2022098295A1 (en) | 2020-11-06 | 2020-11-06 | A system and a method for generating an image recognition model and classifying an input image |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114902249A true CN114902249A (zh) | 2022-08-12 |
Family
ID=81458154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080068054.5A Pending CN114902249A (zh) | 2020-11-06 | 2020-11-06 | 生成图像识别模型的方法、系统及分类方法、系统和介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11869228B2 (zh) |
EP (1) | EP4022534A4 (zh) |
CN (1) | CN114902249A (zh) |
WO (1) | WO2022098295A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628248A (zh) * | 2023-07-21 | 2023-08-22 | 合肥焕峰智能科技有限公司 | 一种智能设备采集图像数据处理方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220300802A1 (en) * | 2021-03-19 | 2022-09-22 | Palo Alto Research Center Incorporated | System and method for performing collaborative learning of machine representations for a target concept |
US12118983B2 (en) * | 2021-04-02 | 2024-10-15 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
US20220414369A1 (en) * | 2021-06-28 | 2022-12-29 | Paypal, Inc. | Data classification based on recursive clustering |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5796924A (en) * | 1996-03-19 | 1998-08-18 | Motorola, Inc. | Method and system for selecting pattern recognition training vectors |
KR100442834B1 (ko) * | 2002-07-19 | 2004-08-02 | 삼성전자주식회사 | 얼굴/유사얼굴 영상으로 학습된 패턴 분류기를 이용한얼굴 검출 방법 및 시스템 |
WO2011037579A1 (en) * | 2009-09-25 | 2011-03-31 | Hewlett-Packard Development Company, L.P. | Face recognition apparatus and methods |
WO2016075274A1 (en) * | 2014-11-14 | 2016-05-19 | Thomson Licensing | Methods, systems and apparatus for image recognition based on recursively determined exemplar-support vector machines (e-svm) features |
JP6889728B2 (ja) * | 2016-03-11 | 2021-06-18 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 畳み込みニューラルネットワークにおける構造学習 |
TWI590197B (zh) * | 2016-07-19 | 2017-07-01 | 私立淡江大學 | 影像物體特徵描述方法及影像處理裝置 |
US11216697B1 (en) * | 2020-03-11 | 2022-01-04 | Amazon Technologies, Inc. | Backward compatible and backfill-free image search system |
-
2020
- 2020-11-06 EP EP20950487.7A patent/EP4022534A4/en active Pending
- 2020-11-06 US US17/763,606 patent/US11869228B2/en active Active
- 2020-11-06 CN CN202080068054.5A patent/CN114902249A/zh active Pending
- 2020-11-06 WO PCT/SG2020/050642 patent/WO2022098295A1/en unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628248A (zh) * | 2023-07-21 | 2023-08-22 | 合肥焕峰智能科技有限公司 | 一种智能设备采集图像数据处理方法 |
CN116628248B (zh) * | 2023-07-21 | 2023-09-26 | 合肥焕峰智能科技有限公司 | 一种智能设备采集图像数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
EP4022534A4 (en) | 2022-11-30 |
EP4022534A1 (en) | 2022-07-06 |
US11869228B2 (en) | 2024-01-09 |
WO2022098295A1 (en) | 2022-05-12 |
US20230237769A1 (en) | 2023-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11869228B2 (en) | System and a method for generating an image recognition model and classifying an input image | |
JP6926339B2 (ja) | 画像のクラスタリング方法及び装置、電子機器並びに記憶媒体 | |
CN109522424B (zh) | 数据的处理方法、装置、电子设备及存储介质 | |
US20210117726A1 (en) | Method for training image classifying model, server and storage medium | |
EP3855360B1 (en) | Method and device for training image recognition model, and storage medium | |
CN110168530B (zh) | 电子设备和操作该电子设备的方法 | |
CN113378556B (zh) | 提取文本关键字的方法及装置 | |
US11825278B2 (en) | Device and method for auto audio and video focusing | |
CN111753895A (zh) | 数据处理方法、装置及存储介质 | |
CN111259967B (zh) | 图像分类及神经网络训练方法、装置、设备及存储介质 | |
CN112906484B (zh) | 一种视频帧处理方法及装置、电子设备和存储介质 | |
CN112926310B (zh) | 一种关键词提取方法及装置 | |
CN116457879A (zh) | 自适应声音事件分类 | |
CN104077597A (zh) | 图像分类方法及装置 | |
CN111583919A (zh) | 信息处理方法、装置及存储介质 | |
US10917721B1 (en) | Device and method of performing automatic audio focusing on multiple objects | |
WO2019109290A1 (en) | Context set and context fusion | |
CN112801116B (zh) | 图像的特征提取方法及装置、电子设备和存储介质 | |
CN115146633A (zh) | 一种关键词识别方法、装置、电子设备及存储介质 | |
CN114358097A (zh) | 基于深度神经网络dnn的入侵检测方法、装置及可读存储介质 | |
CN109977792B (zh) | 人脸特征压缩方法及装置 | |
CN111797391A (zh) | 高风险进程的处理方法、装置、存储介质及电子设备 | |
CN113822020B (zh) | 文本处理方法、设备、存储介质 | |
CN115934938A (zh) | 文本类别确定方法、装置和电子设备 | |
CN116010810A (zh) | 音频分类模型训练方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |