CN110674716A - 图像识别方法、装置和存储介质 - Google Patents
图像识别方法、装置和存储介质 Download PDFInfo
- Publication number
- CN110674716A CN110674716A CN201910870978.6A CN201910870978A CN110674716A CN 110674716 A CN110674716 A CN 110674716A CN 201910870978 A CN201910870978 A CN 201910870978A CN 110674716 A CN110674716 A CN 110674716A
- Authority
- CN
- China
- Prior art keywords
- image
- grouping
- type
- training
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种图像识别方法、装置和存储介质;本发明实施例可以获取待识别图像和图像识别模型,图像识别模型包括全连接第一子层和全连接第二子层,图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成;对待识别图像进行特征提取,得到待识别图像的图像特征;采用全连接第一子层对图像特征进行分组分析,得到待识别图像的分组向量;基于分组向量确定待识别图像的类型分组;采用全连接第二子层基于类型分组对分组向量进行加权求和处理,得到待识别图像的分类向量;根据分类向量确定待识别图像的图像类型。本方案通过先判断图像的分组,再针对图像的分组计算图像的类型,从而减少计算量,由此提升图像识别方法的效率。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种图像识别方法、装置和存储介质。
背景技术
计算机视觉技术(Computer Vision,CV)是指采用人工智能技术(ArtificialIntellegence,AI),使得计算机代替人眼对目标图像进行识别、跟踪和测量,以及进行进一步地将目标图像处理成为更适合人眼观察或传送给仪器检测的图像。目前,计算机视觉技术通常包括图像处理、图像识别、图像语义理解等技术。
然而,目前的图像识别方法效率低下。
发明内容
本发明实施例提供一种图像识别方法、装置和存储介质,可以提升图像识别方法的效率。
本发明实施例提供一种图像识别方法,包括:
获取待识别图像和图像识别模型,所述图像识别模型包括全连接第一子层和全连接第二子层,所述图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成;
对所述待识别图像进行特征提取,得到所述待识别图像的图像特征;
采用所述全连接第一子层对所述图像特征进行分组分析,得到所述待识别图像的分组向量;
基于所述分组向量确定所述待识别图像的类型分组;
采用所述全连接第二子层基于所述类型分组对所述分组向量进行加权求和处理,得到所述待识别图像的分类向量;
根据所述分类向量确定所述待识别图像的图像类型。
本发明实施例还提供一种图像识别装置,包括:
获取单元,用于获取待识别图像和图像识别模型,所述图像识别模型包括全连接第一子层和全连接第二子层,所述图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成;
特征单元,用于对所述待识别图像进行特征提取,得到所述待识别图像的图像特征;
分析单元,用于采用所述全连接第一子层对所述图像特征进行分组分析,得到所述待识别图像的分组向量;
分组单元,用于基于所述分组向量确定所述待识别图像的类型分组;
分类单元,用于采用所述全连接第二子层基于所述类型分组对所述分组向量进行加权求和处理,得到所述待识别图像的分类向量;
确定单元,用于根据所述分类向量确定所述待识别图像的图像类型。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行任一项权利要求的图像识别方法中的步骤。
本发明实施例可以获取待识别图像和图像识别模型,图像识别模型包括全连接第一子层和全连接第二子层,图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成;对待识别图像进行特征提取,得到待识别图像的图像特征;采用全连接第一子层对图像特征进行分组分析,得到待识别图像的分组向量;基于分组向量确定待识别图像的类型分组;采用全连接第二子层基于类型分组对分组向量进行加权求和处理,得到待识别图像的分类向量;根据分类向量确定待识别图像的图像类型。
本发明实施例可以通过基于人工神经网络的图像识别模型来进行图像识别,其中,采用该图像识别模型计算图像的分类向量时,可以先在该图像识别模型的全连接第一子层中判断该图像的分组,再在该图像识别模型的全连接第二子层中仅针对该图像的分组来计算该图像的类型,从而降低计算图像类型所消耗的计算量。由此,该方案可以提升图像识别方法的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的图像识别方法的场景示意图;
图1b是本发明实施例提供的图像识别方法的第一种流程示意图;
图1c是本发明实施例提供的图像识别方法的图像类型分组示意图;
图2a是本发明实施例提供的图像识别方法的第二种流程示意图;
图2b是本发明实施例提供的图像识别方法的节点分组示意图;
图3是本发明实施例提供的图像识别装置的结构示意图;
图4是本发明实施例提供的网络设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种图像识别方法、装置和存储介质。
其中,该图像识别装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。比如,在一些实施例中,该图像识别装置可以集成在多个服务器中,由多个服务器来实现本发明的图像识别方法。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例提供的方案涉及人工智能的计算机视觉技术,具体通过如下实施例进行说明:
参考图1a,该电子设备可以获取待识别图像和图像识别模型,其中,该图像识别模型可以包括全连接第一子层和全连接第二子层;对待识别图像进行特征提取,得到待识别图像的图像特征;采用全连接第一子层对图像特征进行分组分析,得到待识别图像的分组向量;基于分组向量确定待识别图像的类型分组;采用全连接第二子层基于类型分组对分组向量进行加权求和处理,得到待识别图像的分类向量;根据分类向量确定待识别图像的图像类型。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
在本实施例中,提供了一种图像识别方法,如图1b所示,该图像识别方法的具体流程可以如下:
101、获取待识别图像和图像识别模型,图像识别模型包括全连接第一子层和全连接第二子层,图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成。
其中,图像识别模型为一种人工神经网络模型(Artificial Neural Network,ANN),其中可以包括卷积层(Convolution)、下采样池化层(Pooling)、全连接层(Fullyconnected)、激活函数,等等。该图像识别模型具体可以根据实际应用的需求而定。
比如,该图像识别模型可以是各种卷积神经网络(Convolutional NeuralNetwork,CNN)模型例如,ResNet-50、LeNet-5、AlexNet以及VGGNet,等等。
在一些实施例中,图像识别模型可以为,该卷积神经网络中包括多个卷积层、一个全连接层、激活函数。其中,全连接层可以包括两个级联的子层,分别为全连接第一子层和全连接第二子层。
其中,该每个全连接子层中都可以包括多个网络节点(又可称为网络节点),全连接子层之间的网络节点相互连接,最上层的全连接子层的每个网络节点与其前一层(比如,多个卷积层中最下层的卷积层)的所有网络节点进行全连接。
其中,最下层的全连接子层的输出值进行归一化后即可得到待识别图像属于不同图像类型的概率,比如,采用softmax逻辑回归(softmax regression)函数作为softmax层(softmax layer)可以将最下层的全连接子层的输出值进行归一化,得到待识别图像属于不同图像类型的概率。
该图像识别模型可以由标注了图像类型和图像类型分组的训练图像集训练而成。
其中,图像类型为该图像内容类型,比如,图像类型可以是猫图像类型、狗图像类型、鹦鹉图像类型,等等。图像类型分组是指图像内容所属的类型分组,比如,图像类型分组可以包括宠物组、动物组、植物组,等等。
例如,某一图像为猫图像类型,其图像类型分组可以包括是宠物组、动物组。
在一些实施例中,可以训练得到图像识别模型,故在步骤101之前还可以包括如下步骤:
(1)获取预设模型、标注了图像类型和图像类型分组的训练图像集,预设模型包括预设全连接第一子层;
(2)采用标注了图像类型和图像类型分组的训练图像集对预设全连接第一子层进行训练,直至收敛,得到图像识别模型。
其中,预设模型可以为通常采用的、已经可以用于图像分类的神经网络模型。
具体地,在一些实施例中,步骤(1)“获取预设模型、标注了图像类型和图像类型分组的训练图像集,预设模型包括预设全连接第一子层”可以包括如下步骤:
a.获取标注了图像类型和图像类型分组的训练图像集、初始模型,初始模型包括多个网络节点;
b.基于标注了图像类型和图像类型分组的训练图像集,对初始模型的多个网络节点进行类型分组处理,得到预设模型。
其中,初始模型为还需要训练,才能使用的、用于图像分类的神经网络模型。
基于标注了图像类型和图像类型分组的训练图像集,对初始模型的多个网络节点进行类型分组处理,得到预设模型的方法是,将初始模型中可以计算得到图像类型分组中所有图像类型的多个网络节点分为一组。
比如,参考图1c,图像右侧为初始模型的多个网络节点,其中,灰色的网络节点可以计算得到图像类型分组a中图像类型a1、图像类型a2、图像类型a3,则将灰色的网络节点分为一组,该组可以与图像类型分组a之间生成关联关系。
需要注意的是,网络节点可以同时与多个图像类型分组之间生成关联关系。
在一些实施例中,为了进一步降低计算量,从而提高图像识别的效率,标注了图像类型和图像类型分组的训练图像集包括训练图像的图像类型和图像类型分组之间的关联关系,步骤a具体可以包括如下步骤:
根据图像类型和图像类型分组之间的关联关系,对初始模型的多个网络节点进行分组,得到分组后的网络节点集合;
对分组后的网络节点集合进行合并处理,得到合并处理后网络节点集合;
根据图像类型和图像类型分组之间的关联关系,生成类型分组与合并处理后网络节点的关联关系;
基于合并处理后网络节点、类型分组与合并处理后网络节点的关联关系生成预设模型。
比如,参考图1c,将图像类型分组a对应的灰色网络节点参数进行合并处理,例如,将图像类型分组a对应的4个灰色网络节点参数相加进行合并得到的合并参数,将合并参数作为4个灰色网络节点的新参数,从而得到参数数值相同的4个灰色网络节点。
在一些实施例中,还可以根据图像类型和图像类型分组之间的关联关系,生成类型分组与相加处理后网络节点的关联关系。
比如,参考图1c,将图像类型分组a对应的4个灰色网络节点参数相加,得到相加值,将其作为4个灰色网络节点的参数,从而得到参数数值相同的4个灰色网络节点。
在一些实施例中,还可以预先对训练数据进行数据预处理,从而提高图像识别的精确度、进一步提高图像识别的效率,故步骤a具体可以包括如下步骤:
获取标注了图像类型的训练图像集、初始模型;
采用初始模型计算训练图像集中训练图像的分类向量;
基于训练图像集中训练图像的分类向量,计算训练图像之间的距离;
基于训练图像之间的距离对训练图像集中的训练图像进行聚类,得到训练图像聚类组;
将训练图像聚类组中的训练图像进行图像类型分组标注,得到标注了图像类型和图像类型分组的训练图像集。
其中,训练图像之间的距离为训练图像分类向量之间的向量距离,距离越近,则图像内容越类似。
具体地,向量距离可以为置信度,则置信度越接近,则图像内容越类似。
基于训练图像之间的距离对训练图像集中的训练图像进行聚类的方式是,将与某训练图像的向量距离最接近的前N个训练图像归为一个聚类,并且,再计算不同聚类之间的向量距离,最终,获得M个聚类的训练图像聚类组。
其中,N、M均为正整数,可以由技术人员设定。
102、对待识别图像进行特征提取,得到待识别图像的图像特征。
其中,图像识别模型可以对待识别图像进行特征提取,得到待识别图像的多个图像特征。
图像识别模型中可以包括各样的神经网络,用于提取图像特征,比如,图像识别模型中的卷积神经网络可以提取图像特征。例如,ResNet-50、LeNet-5、AlexNet以及VGGNet等卷积神经网络的特征提取部分可以作为图像识别模型中的卷积神经网络,即这些CNN网络除去最后一层全连接层的网络部分可以作为图像识别模型中的卷积神经网络来提取图像特征。
103、采用全连接第一子层对图像特征进行分组分析,得到待识别图像的分组向量。
参考图1c,在本实施例中,全连接第一子层中可以包括多个已经分好组的网络节点,当具有不同图像类型分组的图像特征输入全连接第一子层中时,全连接第一子层可以对图像特征进行分组分析,得到待识别图像的分组向量。
具体地,在一些实施例中,全连接第一子层可以包括多个网络节点集合,步骤103可以包括如下步骤:
采用多个网络节点集合对图像特征进行加权求和处理,得到多个分组向量。
其中,分组向量可以表示该图像特征属于哪些图像分类分组。
需要注意的是,分组向量的表示形式可以包括矩阵、向量、数值,等等。
其中,得到的这些多个分组向量可以用于步骤104以确定待识别图像的类型分组。
104、基于分组向量确定待识别图像的类型分组。
在一些实施例中,步骤104可以包括如下步骤:
(1)在多个分组向量中确定至少一个目标分组向量;
(2)将目标分组向量对应的网络节点集合确定为目标网络节点集合;
(3)将目标网络节点集合关联的类型分组确定为待识别图像的类型分组。
在一些实施例中,为了提高图像识别精度,步骤(1)“在多个分组向量中确定至少一个目标分组向量”具体可以包括如下步骤:
获取预设数值;
对多个分组向量进行向量大小比对,将预设数值个分组向量确定为目标分组向量。
其中,预设数值可以为任意正整数,可以由技术人员设置。
比如,预设数值为3时,则对多个分组向量进行向量大小比对,将最大的3个分组向量确定为目标分组向量。
在一些实施例中,类型分组为与网络节点之间具有关联关系的类型分组,步骤(2)“将目标网络节点集合关联的类型分组作为待识别图像的类型分组”具体可以包括如下步骤:
查询目标网络节点关联的类型分组;
当存在目标网络节点关联的类型分组时,将类型分组作为待识别图像的类型分组。
105、采用全连接第二子层基于类型分组对分组向量进行加权求和处理,得到待识别图像的分类向量。
其中,参考图1c,全连接第二子层也可以类似全连接第一子层,即全连接第二子层可以包括多个已经分好组的网络节点,当采用该分好组的全连接第二子层对分组向量进行加权求和处理时,仅需要按照类型分组,在全连接第二子层中选取该组的网络节点进行加权求和处理,就能够得到待识别图像的分类向量。
故无需采用全连接第二子层中和本待识别图像类型分组无关的网络节点进行加权求和处理,仅采用全连接第二子层中和本待识别图像类型分组相关联的一部分网络节点进行加权求和处理就能准确地得到待识别图像的分类向量,由此,本方案可以在保证图像识别的精确度的同时,降低计算量。
需要注意的时,分类向量可以以多种形式表现,比如,分类向量可以向量、矩阵、数值、链表等多种形式表现。
106、根据分类向量确定待识别图像的图像类型。
具体地,全连接第二子层输出的分类向量可以输入到归一化层进行归一化处理,得到该待识别图像属于不同图像类型的概率。
其中,归一化层可以包括sigmoid函数、softmax函数,等等。
由上可知,本发明实施例可以获取待识别图像和图像识别模型,图像识别模型包括全连接第一子层和全连接第二子层,图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成;对待识别图像进行特征提取,得到待识别图像的图像特征;采用全连接第一子层对图像特征进行分组分析,得到待识别图像的分组向量;基于分组向量确定待识别图像的类型分组;采用全连接第二子层基于类型分组对分组向量进行加权求和处理,得到待识别图像的分类向量;根据分类向量确定待识别图像的图像类型。本发明实施例可以通过基于人工神经网络的图像识别模型来进行图像识别,其中,采用该图像识别模型计算图像的分类向量时,可以先在该图像识别模型的全连接第一子层中判断该图像的分组,再在该图像识别模型的全连接第二子层中仅针对该图像的分组来计算该图像的类型,从而降低计算图像类型所消耗的计算量。由此,本方案可以提升图像识别方法的效率。
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以本图像识别方法用于基于光学字符识别的汉字图像识别为例,对本发明实施例的方法进行详细说明。
如图2a所示,一种图像识别方法具体流程如下:
201、获取训练数据和预设模型,并采用预设模型对训练数据进行预处理,得到标注了图像类型和图像类型分组的训练图像集。
首先,采用已经可以用于图像识别的预设模型,来对训练数据进行图像识别。
其中,训练数据可以为包含了一个汉字的图像,汉字图像中的中文汉字可以具有不同的样式,比如,包含了汉字“粉”的图像可以有多张,分别为黑体、楷体、宋体等不同样式的汉字“粉”图像各一张,当预设模型对这些训练数据(即包含了汉字“粉”的图像)进行图像识别后,可以为这些图像均标注标签[粉]。
在一些实施例中,预设模型对训练数据进行预处理的过程中,可以计算该图像属于不同汉字类型的置信度,比如,当包含汉字“粉”的图像被预设模型识别后,预设模型可以计算出包含汉字“粉”的图像属于汉字[粉]类型的置信度为1447.9、属于汉字[纷]类型的置信度为1457.9、属于汉字[籽]类型的置信度为1459.1、属于汉字[扮]类型的置信度为1460.2,等等。
在本实施例中,可以选取置信度最大的前K个图像类型作为候选图像类型,并根据这些候选图像类型两两之间的置信度对比,进行聚类操作,最终生成J个图像类型分组,其中,K、J可以为任意正整数,可以由技术人员设置。
之后,可以对这些训练数据标注图像类型分组。
比如,汉字“粉”的图像在进行聚类之前被标注为[粉,粉+纷],其中标注[粉]为该汉字“粉”的图像类型,标注[粉+纷]为该汉字“粉”的图像类型分组。
202、采用标注了图像类型和图像类型分组的训练图像集训练预设模型,得到图像识别模型。
在本实施例中,标注了图像类型和图像类型分组的训练图像集包括训练图像的图像类型和图像类型分组之间的关联关系,采用标注了图像类型和图像类型分组的训练图像集训练预设模型的具体步骤如下:
获取标注了图像类型和图像类型分组的训练图像集、初始模型,初始模型包括多个网络节点;
根据图像类型和图像类型分组之间的关联关系,对初始模型全连接层中的多个网络节点进行分组,得到分组后的网络节点集合;
对分组后的网络节点集合进行合并处理,得到合并处理后网络节点集合;
根据图像类型和图像类型分组之间的关联关系,生成类型分组与合并处理后网络节点的关联关系;
基于合并处理后网络节点、类型分组与合并处理后网络节点的关联关系生成预设模型。
比如,参考图2b,可以将初始模型全连接层中与标签[粉]、[纷]关联的多个网络节点(在图中表现为灰色的节点)进行分为一组,进行合并处理,并将该组与标签[粉+纷]关联。
具体地,在一些实施例中,初始模型的全连接层为矩阵W,其中,每个网络节点的参数为wij,如下:
假设该初始模型全连接层的输入为向量为X,其中,向量X的向量参数为xj,如下:
X=[x1,x2,....xj]
当采用初始模型的全连接层处理该向量X时,即矩阵W与向量X进行加权求和时,全连接层可以将输出向量Y,其中,向量Y的向量参数为yi,每个向量参数yi均可以与图像分类建立映射关系,如下:
假设图像类型和图像类型分组之间的关联关系为:
图像类型[粉]和图像类型[纷]与图像类型分组[粉+纷]之间存在关联关系,则,将[w11、w12...w1j]和[w21、w22...w2j]分为一组,并且对[w11、w12...w1j]、[w21、w22...w2j]进行合并处理,得到新组[w11+w21、w12+w22、...w1j+w2j]。
且将该新组[w11+w21、w12+w22、...w1j+w2j]与图像类型分组[粉+纷]建立映射关系。
203、获取待识别图像,并采用图像识别模型识别该待识别图像的图像类型。
步骤203可以参考步骤102、步骤103、步骤104、步骤105、步骤106,在此不做赘述。
假设标注的汉字一共为10000种,则传统的图像识别方法中全连接层的计算量为10000*全连接层输入数量,在本实施例中,全连接层的计算量为(j+(x1+…+xi))*全连接层输入数量,其中xi为各个图像类型分组中不同图像类型的数量。
由此,在本方案中,全连接层的参数数量减少为传统方法的1/n倍,其中1/n=图像类型数量/图像类型分组数量。
由上可知,本实施例可以获取训练数据和预设模型,并采用预设模型对训练数据进行预处理,得到标注了图像类型和图像类型分组的训练图像集;采用标注了图像类型和图像类型分组的训练图像集训练预设模型,得到图像识别模型;获取待识别图像,并采用图像识别模型识别该待识别图像的图像类型。由此,本实施例可以在标签量巨大、全连接层参数众多的复杂情况下,本实施例可以大大地降低图像识别的计算量,从而提升图像识别方法的效率。
为了更好地实施以上方法,本发明实施例还提供一种图像识别装置,该图像识别装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该图像识别装置还可以集成在多个电子设备中,比如,图像识别装置可以集成在多个服务器中,由多个服务器来实现本发明的图像识别方法。
比如,在本实施例中,将以图像识别装置集成在单一服务器中为例,对本发明实施例的方法进行详细说明。
例如,如图3所示,该图像识别装置可以包括获取单元301、特征单元302、分析单元303、分组单元304、分类单元305以及确定单元306,如下:
(一)获取单元301:
获取单元301可以用于获取待识别图像和图像识别模型,图像识别模型包括全连接第一子层和全连接第二子层,图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成。
在一些实施例中,获取单元301还可以包括获取子单元和收敛子单元,用于步骤“获取待识别图像和图像识别模型”之前:
(1)获取子单元:
获取子单元可以用于获取预设模型、标注了图像类型和图像类型分组的训练图像集,预设模型包括全连接第一子层。
(2)收敛子单元:
收敛子单元可以用于采用标注了图像类型和图像类型分组的训练图像集对全连接第一子层进行训练,直至收敛,得到图像识别模型。
在一些实施例中,获取子单元可以包括获取子模块和模型子模块,如下:
a.获取子模块:
获取子模块可以用于获取标注了图像类型和图像类型分组的训练图像集、初始模型,初始模型包括多个网络节点。
b.模型子模块:
模型子模块可以用于基于标注了图像类型和图像类型分组的训练图像集,对初始模型的多个网络节点进行类型分组处理,得到预设模型。
在一些实施例中,标注了图像类型和图像类型分组的训练图像集包括训练图像的图像类型和图像类型分组之间的关联关系,模型子模块具体可以用于:
根据图像类型和图像类型分组之间的关联关系,对初始模型的多个网络节点进行分组,得到分组后的网络节点集合;
对分组后的网络节点集合进行合并处理,得到合并处理后网络节点集合;
根据图像类型和图像类型分组之间的关联关系,生成类型分组与合并处理后网络节点的关联关系;
基于合并处理后网络节点、类型分组与合并处理后网络节点的关联关系生成预设模型。
在一些实施例中,获取子模块具体可以用于:
获取标注了图像类型的训练图像集、初始模型;
采用初始模型计算训练图像集中训练图像的分类向量;
基于训练图像集中训练图像的分类向量,计算训练图像之间的距离;
基于训练图像之间的距离对训练图像集中的训练图像进行聚类,得到训练图像聚类组;
将训练图像聚类组中的训练图像进行图像类型分组标注,得到标注了图像类型和图像类型分组的训练图像集。
(二)特征单元302:
特征单元302可以用于对待识别图像进行特征提取,得到待识别图像的图像特征。
(三)分析单元303:
分析单元303可以用于采用全连接第一子层对图像特征进行分组分析,得到待识别图像的分组向量。
在一些实施例中,全连接第一子层包括多个网络节点集合,分析单元303可以用于:
采用多个网络节点集合对图像特征进行加权求和处理,得到多个分组向量。
(四)分组单元304:
分组单元304可以用于基于分组向量确定待识别图像的类型分组。
在一些实施例中,分组单元304可以包括向量子单元、节点子单元和分组子单元,如下:
(1)向量子单元:
向量子单元可以用于在多个分组向量中确定至少一个目标分组向量。
(2)节点子单元:
节点子单元可以用于将目标分组向量对应的网络节点集合确定为目标网络节点集合。
(3)分组子单元:
分组子单元可以用于将目标网络节点集合关联的类型分组确定为待识别图像的类型分组。
在一些实施例中,类型分组可以为与网络节点之间具有关联关系的类型分组,分组子单元具体可以用于:
查询目标网络节点关联的类型分组;
当存在目标网络节点关联的类型分组时,将类型分组作为待识别图像的类型分组。
在一些实施例中,在多个分组向量中确定至少一个目标分组向量,向量子单元具体可以用于:
获取预设数值;
对多个分组向量进行向量大小比对,将预设数值个分组向量确定为目标分组向量。
(五)分类单元305:
分类单元305可以用于采用全连接第二子层基于类型分组对分组向量进行加权求和处理,得到待识别图像的分类向量。
(六)确定单元306:
确定单元306可以用于根据分类向量确定待识别图像的图像类型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的图像识别装置由获取单元获取待识别图像和图像识别模型,图像识别模型包括全连接第一子层和全连接第二子层,图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成;由特征单元对待识别图像进行特征提取,得到待识别图像的图像特征;由分析单元采用全连接第一子层对图像特征进行分组分析,得到待识别图像的分组向量;由分组单元基于分组向量确定待识别图像的类型分组;由分类单元采用全连接第二子层基于类型分组对分组向量进行加权求和处理,得到待识别图像的分类向量;由确定单元根据分类向量确定待识别图像的图像类型。由此,本方案可以提升图像识别方法的效率。
本发明实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(PersonalComputer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。在一些实施例中,该图像识别装置还可以集成在多个电子设备中,比如,图像识别装置可以集成在多个服务器中,由多个服务器来实现本发明的图像识别方法。在一些实施例中,xx服务器和xx服务器也可以由一台服务器来实现。
在本实施例中,将以本实施例的电子设备是XX为例进行详细描述,比如,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,服务器可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待识别图像和图像识别模型,图像识别模型包括全连接第一子层和全连接第二子层,图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成;
对待识别图像进行特征提取,得到待识别图像的图像特征;
采用全连接第一子层对图像特征进行分组分析,得到待识别图像的分组向量;
基于分组向量确定待识别图像的类型分组;
采用全连接第二子层基于类型分组对分组向量进行加权求和处理,得到待识别图像的分类向量;
根据分类向量确定待识别图像的图像类型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本方案可以提升图像识别方法的效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种图像识别方法中的步骤。例如,该指令可以执行如下步骤:
获取待识别图像和图像识别模型,图像识别模型包括全连接第一子层和全连接第二子层,图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成;
对待识别图像进行特征提取,得到待识别图像的图像特征;
采用全连接第一子层对图像特征进行分组分析,得到待识别图像的分组向量;
基于分组向量确定待识别图像的类型分组;
采用全连接第二子层基于类型分组对分组向量进行加权求和处理,得到待识别图像的分类向量;
根据分类向量确定待识别图像的图像类型。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种图像识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种图像识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种图像识别方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种图像识别方法,其特征在于,包括:
获取待识别图像和图像识别模型,所述图像识别模型包括全连接第一子层和全连接第二子层,所述图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成;
对所述待识别图像进行特征提取,得到所述待识别图像的图像特征;
采用所述全连接第一子层对所述图像特征进行分组分析,得到所述待识别图像的分组向量;
基于所述分组向量确定所述待识别图像的类型分组;
采用所述全连接第二子层基于所述类型分组对所述分组向量进行加权求和处理,得到所述待识别图像的分类向量;
根据所述分类向量确定所述待识别图像的图像类型。
2.如权利要求1所述的图像识别方法,其特征在于,所述全连接第一子层包括多个网络节点集合,采用所述全连接第一子层对所述图像特征进行分组分析,得到所述待识别图像的分组向量,包括:
采用多个网络节点集合对所述图像特征进行加权求和处理,得到多个分组向量;
基于所述分组向量确定所述待识别图像的类型分组,包括:
在多个分组向量中确定至少一个目标分组向量;
将所述目标分组向量对应的网络节点集合确定为目标网络节点集合;
将所述目标网络节点集合关联的类型分组确定为所述待识别图像的类型分组。
3.如权利要求2所述的图像识别方法,其特征在于,所述类型分组为与所述网络节点之间具有关联关系的类型分组,将所述目标网络节点集合关联的类型分组作为所述待识别图像的类型分组,包括:
查询所述目标网络节点关联的类型分组;
当存在所述目标网络节点关联的类型分组时,将所述类型分组作为所述待识别图像的类型分组。
4.如权利要求2所述的图像识别方法,其特征在于,在多个分组向量中确定至少一个目标分组向量,包括:
获取预设数值;
对多个分组向量进行向量大小比对,将预设数值个分组向量确定为目标分组向量。
5.如权利要求1所述的图像识别方法,其特征在于,所述获取待识别图像和图像识别模型之前,还包括:
获取预设模型、标注了图像类型和图像类型分组的训练图像集,所述预设模型包括预设全连接第一子层;
采用所述标注了图像类型和图像类型分组的训练图像集对所述预设全连接第一子层进行训练,直至收敛,得到图像识别模型。
6.如权利要求5所述的图像识别方法,其特征在于,获取预设模型、标注了图像类型和图像类型分组的训练图像集,包括:
获取标注了图像类型和图像类型分组的训练图像集、初始模型,所述初始模型包括多个网络节点;
基于所述标注了图像类型和图像类型分组的训练图像集,对所述初始模型的多个网络节点进行类型分组处理,得到预设模型。
7.如权利要求6所述的图像识别方法,其特征在于,所述标注了图像类型和图像类型分组的训练图像集包括训练图像的图像类型和图像类型分组之间的关联关系,基于所述标注了图像类型和图像类型分组的训练图像集,对所述初始模型的多个网络节点进行类型分组处理,得到预设模型,包括:
根据所述图像类型和图像类型分组之间的关联关系,对所述初始模型的多个网络节点进行分组,得到分组后的网络节点集合;
对所述分组后的网络节点集合进行合并处理,得到合并处理后网络节点集合;
根据所述图像类型和图像类型分组之间的关联关系,生成所述类型分组与合并处理后网络节点的关联关系;
基于所述合并处理后网络节点、类型分组与合并处理后网络节点的关联关系生成预设模型。
8.如权利要求6所述的图像识别方法,其特征在于,所述获取标注了图像类型和图像类型分组的训练图像集、初始模型,包括:
获取标注了图像类型的训练图像集、初始模型;
采用所述初始模型计算所述训练图像集中训练图像的分类向量;
基于所述训练图像集中训练图像的分类向量,计算所述训练图像之间的距离;
基于所述训练图像之间的距离对训练图像集中的训练图像进行聚类,得到训练图像聚类组;
将所述训练图像聚类组中的训练图像进行图像类型分组标注,得到标注了图像类型和图像类型分组的训练图像集。
9.一种图像识别装置,其特征在于,包括:
获取单元,用于获取待识别图像和图像识别模型,所述图像识别模型包括全连接第一子层和全连接第二子层,所述图像识别模型由标注了图像类型和图像类型分组的训练图像集训练而成;
特征单元,用于对所述待识别图像进行特征提取,得到所述待识别图像的图像特征;
分析单元,用于采用所述全连接第一子层对所述图像特征进行分组分析,得到所述待识别图像的分组向量;
分组单元,用于基于所述分组向量确定所述待识别图像的类型分组;
分类单元,用于采用所述全连接第二子层基于所述类型分组对所述分组向量进行加权求和处理,得到所述待识别图像的分类向量;
确定单元,用于根据所述分类向量确定所述待识别图像的图像类型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~8任一项所述的图像识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910870978.6A CN110674716A (zh) | 2019-09-16 | 2019-09-16 | 图像识别方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910870978.6A CN110674716A (zh) | 2019-09-16 | 2019-09-16 | 图像识别方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674716A true CN110674716A (zh) | 2020-01-10 |
Family
ID=69077006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910870978.6A Pending CN110674716A (zh) | 2019-09-16 | 2019-09-16 | 图像识别方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674716A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139432A1 (zh) * | 2020-10-13 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于人工智能的用户等级预测方法、装置、终端及介质 |
CN113743427A (zh) * | 2020-05-27 | 2021-12-03 | 富泰华工业(深圳)有限公司 | 图像识别方法、装置、计算机装置及存储介质 |
-
2019
- 2019-09-16 CN CN201910870978.6A patent/CN110674716A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743427A (zh) * | 2020-05-27 | 2021-12-03 | 富泰华工业(深圳)有限公司 | 图像识别方法、装置、计算机装置及存储介质 |
CN113743427B (zh) * | 2020-05-27 | 2023-10-31 | 富泰华工业(深圳)有限公司 | 图像识别方法、装置、计算机装置及存储介质 |
US11948081B2 (en) | 2020-05-27 | 2024-04-02 | Hon Hai Precision Industry Co., Ltd. | Image recognition method and computing device |
WO2021139432A1 (zh) * | 2020-10-13 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于人工智能的用户等级预测方法、装置、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11537884B2 (en) | Machine learning model training method and device, and expression image classification method and device | |
CN110555481B (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
CN108898087B (zh) | 人脸关键点定位模型的训练方法、装置、设备及存储介质 | |
CN111079833B (zh) | 图像识别方法、装置以及计算机可读存储介质 | |
CN111242019B (zh) | 视频内容的检测方法、装置、电子设备以及存储介质 | |
CN111339343A (zh) | 图像检索方法、装置、存储介质及设备 | |
Jiang et al. | Variational deep embedding: A generative approach to clustering | |
CN112633425B (zh) | 图像分类方法和装置 | |
CN113435335B (zh) | 微观表情识别方法、装置、电子设备及存储介质 | |
Wang et al. | WeGAN: Deep image hashing with weighted generative adversarial networks | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN114610677B (zh) | 一种转换模型的确定方法和相关装置 | |
CN110674716A (zh) | 图像识别方法、装置和存储介质 | |
CN113128526B (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN113704534A (zh) | 图像处理方法、装置及计算机设备 | |
CN113159840B (zh) | 一种对象类型预测方法、装置和存储介质 | |
CN115909336A (zh) | 文本识别方法、装置、计算机设备和计算机可读存储介质 | |
CN111709473A (zh) | 对象特征的聚类方法及装置 | |
CN116415624A (zh) | 模型训练方法及装置、内容推荐方法及装置 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
CN113822291A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN113705307A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113704528A (zh) | 聚类中心确定方法、装置和设备及计算机存储介质 | |
CN108427967B (zh) | 一种实时影像聚类方法 | |
CN111091198A (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40020310 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |