CN115205613A - 一种图像识别方法、装置、电子设备及存储介质 - Google Patents
一种图像识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115205613A CN115205613A CN202210554023.1A CN202210554023A CN115205613A CN 115205613 A CN115205613 A CN 115205613A CN 202210554023 A CN202210554023 A CN 202210554023A CN 115205613 A CN115205613 A CN 115205613A
- Authority
- CN
- China
- Prior art keywords
- target
- tensor
- preset
- original image
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 86
- 238000000605 extraction Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 19
- 230000006835 compression Effects 0.000 claims description 18
- 238000007906 compression Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 230000008602 contraction Effects 0.000 abstract description 12
- 238000012545 processing Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 15
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种图像识别方法、装置、电子设备及存储介质,涉及计算机视觉处理技术领域,本申请通过将包含目标对象的待识别图像转化为相应的原始图像张量,并基于预设的目标识别模型,对原始图像张量采用设定的训练张量进行缩并,从而基于这种张量收缩的方式,对卷积核中的冗余参数量进行压缩,大大减少了目标识别模型所需的训练参数,进一步的,将提取出的高阶张量作为所提取出的目标特征,使得目标特征中能够进一步存储有目标图像的原有的几何结构,从而提升了提取出的目标特征的精确性,以及最终获得的目标识别结果的准确性。
Description
技术领域
本发明涉及计算机视觉处理技术领域,尤其涉及一种图像识别方法、装置、电子设备及存储介质。
背景技术
图像识别技术(Image Recognition,IR)是一种基于神经网络、深度学习等方式,从指定图像中提取出表征目标对象差异化信息的图像特征,并依据提取出的目标特征与预设的样本特征的匹配结果,识别并认证出目标对象准确身份的计算机视觉处理技术,在智能监控、公共安全等领域发挥了重要作用。
具体来讲,相关技术中,普遍采用局部感受的方式,依据从输入图像中感受到的指定数目的局部特征,将其进行组合以获得更充分的图像特征。例如,在卷积神经网络(Convolutional Neural Networks,CNN)中,通过将输入网络模型中的目标图像,与卷积层中的若干个卷积核(也称作过滤器)依据其设定步长进行卷积操作,从而对获得的相应各卷积分量进行重新排列,以提取出相应的目标特征。
然而,由于上述过程中,提取出的各卷积分量,仅表示目标图像包含的部分特征,因此,基于上述方式,对获得的各卷积分量进行重新排列后,获得的目标特征往往无法准确包含目标图像中原有的结构信息,从而导致获得的目标特征不够精确,影响图像识别的准确性。
另一方面,在卷积核对目标图像进行处理的过程中,网络模型依据当前选定的卷积核的大小以及卷积核的数目等因素,学习上述状况下,针对目标对象的多个训练参数,当卷积核的尺寸较小、卷积核的数目较多时,所搭建网络模型的训练参数大幅增多,从而带来较大的计算负担,影响目标特征的提取效率。
发明内容
本申请实施例提供一种图像识别方法、装置、电子设备及存储介质,用于提升目标特征的提取效率以及准确率。
第一方面,本申请实施例提供一种图像识别方法,包括:
获取包含目标对象的待识别图像,对待识别图像进行转化,获取相应的原始图像张量。
基于预设的目标识别模型,对原始图像张量采用设定的训练张量进行缩并,获得目标对象的目标特征,其中,目标特征位于指定的数据阶数。
从预设的特征信息库中,获得与目标特征匹配的至少一个特征信息,并基于获得的特征信息,确定目标对象的目标识别结果。
第二方面,本申请实施例提供一种图像识别装置,包括:
获取模块,用于获取包含目标对象的待识别图像,对待识别图像进行转化,获取相应的原始图像张量。
特征提取模块,用于基于预设的目标识别模型,对原始图像张量采用设定的训练张量进行缩并,获得目标对象的目标特征,其中,目标特征位于指定的数据阶数。
识别模块,用于从预设的特征信息库中,获得与目标特征匹配的至少一个特征信息,并基于获得的特征信息,确定目标对象的目标识别结果。
在一种可选的实施例中,获取包含目标对象的待识别图像之前,获取模块还用于:
获取训练样本集合,其中,一个训练样本中包括:针对目标对象的对象类别确定的输入信息以及实体标签。
采用训练样本集合中的训练样本,对预设的图像识别模型进行多轮迭代训练,在满足预设的收敛条件时,输出目标识别模型;其中,在一轮迭代训练过程中,执行以下操作:
采用图像识别模型,基于训练样本中输入信息,获得相应的预测结果,并基于预测结果与相应的实体标签之间的损失值,调整图像识别模型的训练参数。
在一种可选的实施例中,基于预设的目标识别模型,对原始图像张量采用设定的训练张量进行缩并,获得目标对象的目标特征,特征提取模块具体用于:
将预设的M个缩并过滤器作为训练张量,对原始图像张量进行缩并,获得目标对象的目标特征,其中,M为大于等于一的整数,缩并过滤器与原始图像张量位于相同的数据阶数,且缩并过滤器包含至少一个与原始图像张量相同的数据指标。
或者,
基于预设的L个卷积核,对原始图像张量进行卷积,并将预设的M个缩并过滤器作为训练张量,对卷积后的原始图像张量进行缩并,获得目标对象的目标特征,其中,L为大于等于一的整数。
在一种可选的实施例中,将预设的M个缩并过滤器作为训练张量,对原始图像张量进行缩并,特征提取模块具体用于:
将原始图像张量,分别与预设的M个缩并过滤器进行缩并,获得相应的M个目标混合矩阵。
基于预设的目标特征阶数,对获得的M个目标混合矩阵进行聚合,获得目标对象的目标特征。
在一种可选的实施例中,将原始图像张量,分别与预设的M个缩并过滤器进行缩并,获得相应的M个目标混合矩阵,特征提取模块具体用于:
针对M个缩并过滤器,分别执行以下操作:
基于求和协议,对原始图像张量,与一个缩并过滤器的相同的数据指标进行求和,获得相应的目标混合矩阵。
在一种可选的实施例中,基于获得的特征信息,确定目标对象的目标识别结果,识别模块具体用于:
确定目标对象的目标特征,分别与获得的至少一个特征信息间的相似度。
分别将相似度大于预设阈值的特征信息作为目标特征信息,并基于获得的各个目标特征信息,确定目标对象的目标识别结果。
第三方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现上述第一方面中的任一种图像识别方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的图像识别方法。
第五方面,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在被计算机调用时,使得所述计算机执行如第一方面所述的方法。
本申请实施例提供一种图像识别方法、装置、电子设备及存储介质,通过将包含目标对象的待识别图像转化为相应的原始图像张量,并基于预设的目标识别模型,对原始图像张量采用设定的训练张量进行缩并,从而基于这种张量收缩的方式,对卷积核中的冗余参数量进行压缩,大大减少了目标识别模型所需的训练参数,进一步的,将提取出的高阶张量作为所提取出的目标特征,使得目标特征中能够进一步存储有目标图像的原有的几何结构,从而确保了提取出的目标特征的精确性,以及最终获得的目标识别结果的准确性。
附图说明
图1为本申请实施例提供的一种卷积神经网络示意图;
图2为本申请实施例提供的一种应用场景示意图;
图3为本申请实施例提供的一种目标识别模型的模型结构示例图;
图4为本申请实施例提供的一种图像识别方法的流程图;
图5为本申请实施例提供的一种张量缩并操作的示意图;
图6为本申请实施例提供的一种原始图像张量的缩并过程示意图;
图7为本申请实施例提供的一种图像识别装置的结构示意图;
图8为本申请实施例提供的一种电子设备示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本申请的描述中“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。A与B连接,可以表示:A与B直接连接和A与B通过C连接这两种情况。另外,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
本申请的设计思路如下:
随着卷积神经网络在特征提取方面所具有的强大优势,深度学习在图像识别领域中取得了一定的成果。其中,参阅图1所示,卷积神经网络的主要技术手段在于:将输入网络模型中的目标图像,与卷积层中的若干个卷积核(也称作过滤器)依据其设定步长进行卷积操作,从而对获得的各卷积分量进行重新排列后,经过后续的池化处理以及最终的展平操作,从目标图像中提取出相应的目标特征,然而,上述方式尚且存在以下问题:
1、目标特征不够精确。
具体来讲,在卷积神经网络中,普遍通过构建的全连接层将卷积核表征的特征张量转换为相应的特征矢量,这一将张量转换为矢量的展平操作往往将破坏数据的几何结构并丢失数据的多线性信息,使得提取出的目标特征不够精确,图像识别的准确性不高。
2、模型的训练参数过多。
具体来讲,由于卷积神经网络中的训练参数数目主要取决与其中设定的卷积层参数(如,卷积核大小、步长等),因此,在对基于CNN构建的网络模型进行训练的过程中,可能会因设定的卷积核的尺寸较小,卷积核及卷积层的数目较多等因素,导致模型的训练参数较多,从而大幅加剧了对目标图像进行特征提取所需的计算负担,影响目标特征的提取效率以及模型在低性能设备上的落地部署。
为解决相关技术中存在的上述缺陷,本申请实施例提供一种图像识别方法、装置、电子设备及存储介质,通过将包含目标对象的待识别图像转化为相应的原始图像张量,并基于预设的目标识别模型,对原始图像张量采用设定的训练张量进行缩并,从而基于这种张量收缩的方式,对卷积核中的冗余参数量进行压缩,大大减少了目标识别模型所需的训练参数,进一步的,将提取出的高阶张量作为所提取出的目标特征,使得目标特征中能够进一步存储有目标图像的原有的几何结构,从而确保了提取出的目标特征的精确性,以及最终获得的目标识别结果的准确性。
为便于理解,首先对本申请实施例进行描述的过程中出现的部分名词或术语作如下解释:
张量缩并:指针对两个不同张量的相同的数据维度(记为张量的轴)进行的代数运算,例如,存在张量张量其中,具有In=Jm,则在上述相同的轴上进行缩并运算后,可得到一个具有(N+M-2)阶的张量C,记作如下式所示:
需要特别注意的是,只有在两个张量存在相同的数据维度,且该数据维度为特定数据维度的情况下,上述张量缩并才能生效。
进一步的,当存在张量B为二阶张量(即矩阵)时,并对其大小限制为J×In,在特定轴In下,对张量A,B进行张量缩并时,可得结果如下所示:
可以发现,在进行张量缩并的张量B为二阶张量,且该张量B的大小为J×In的情况下,张量A,B间的张量缩并还可表示为两者间的模n乘积即将张量的模n乘积体现为张量缩并的一种特殊形式,其中,需要理解的是,张量的模n乘积主要用于减小数据的维数,而张量缩并主要用于减少数据的阶数。
多维张量缩并操作层(MTCOL):指一种基于张量缩并的神经网络层,该操作层的主要计算方式为上述提到的张量缩并,其中,MTCOL的基本运算定义如下所示:
基于上述运算定义可知,通过多维张量缩并操作层中的张量缩并操作,可将相应的原始张量Ai转化为对应的目标混合矩阵。
基于上述名词或术语解释,下面将结合附图对本申请实施例提供的图像识别方法作出进一步详细说明。
参阅图2所示,为本申请实施例提供的一种可能的应用场景示意图,该应用场景包括图像采集设备201以及终端设备202。其中,图像采集设备201与终端设备202之间可进行数据传输通信,例如,通过无线通信方式或有线通信方式进行的数据传输通信。
在一种可选的实施例中,终端设备202可通过蜂窝移动通信技术接入网络,与一个或多个图像采集设备201进行通信,所述蜂窝移动通信技术,比如,包括第五代移动通信(5th Generation Mobile Networks,5G)技术。
在一种可选的实施例中,终端设备202还可通过短距离无线通信方式接入网络与一个或多个图像采集设备201进行通信,所述短距离无线通信方式,比如,无线保真(Wireless Fidelity,Wi-Fi)技术。
需要说明的是,上述终端设备202可以同时与一个或者多个图像采集设备201连接,本申请对此不做限制,为便于描述,本申请实施例以一个图像采集设备201为例。
进一步的,图像采集设备201为用于获取图像或记录影像的电子设备,包括具有无线连接功能的手持式图像采集设备、头戴式图像采集设备以及固定式图像采集设备等。
例如,在一种可选的实施例中,图像采集设备201可以是摄像头、摄像机、数码相机(Digital Still Camera,DSC)、单镜头反光照相机(Single Lens Reflex Camera,SLRC),其他带有拍照功能的图像采集设备(手机、平板电脑等),视频采集卡或卡口设备等,以用于采集本申请实施例所提到的包含目标对象的待识别图像,上述目标对象,包括:人,动物,或其他实体对象,上述待识别图像包括但不限于包含人脸、人体或其他具有可分辨生物特征的静态或动态图像,本申请对此不作限制。
进一步的,上述终端设备202为可以向用户提供语音和/或数据连通性的设备,包括具有无线连接功能的手持式终端设备、车载终端设备等。
可选的,终端设备202可以是:手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备,虚拟现实(virtual reality,VR)设备、增强现实(augmented reality,AR)设备、工业控制中的无线终端设备、无人驾驶中的无线终端设备、智能电网中的无线终端设备、运输安全中的无线终端设备、智慧城市中的无线终端设备,或智慧家庭中的无线终端设备等,本申请实施例中,终端设备202可以是上述任一电子设备,该电子设备中可以部署有目标识别模型,以实现本申请实施例所提到的图像识别方法。
进一步的,在本申请实施例中,终端设备202可以搭载有训练完成的目标识别模型,该目标识别模型用于提取出待识别图像中的目标特征。
具体来讲,为确保提取出的目标特征的准确性,上述目标识别模型可以采用指定的训练样本集合,以反向传播的方式对预设的图像识别模型进行训练获得。
例如,为获取人脸识别相关的目标识别模型,可以将包含人脸的多张采集图像作为训练样本集合,以基于预设的图像识别模型的前向传播,通过获取到的每个训练样本的预测结果,计算各个训练样本各自与相应样本的实体标签(通常表征为样本中指定对象的实际类别)之间的损失值,在满足预设的收敛条件之前,不断调整图像识别模型的训练参数,从而达到提高特征提取准确率的目的。
进一步的,在一种可选的实施例中,上述预设的图像识别模型可包含多个设定好的神经网络层,用于在对相应训练样本经由多次处理后,输出针对该训练样本的预测结果。其中,为减少图像识别模型所需的训练参数,可将本申请实施例提到的上述多维张量缩并操作层,作为上述图像识别模型所包含的神经网络层;可选的,也可将卷积神经网络中的卷积层以及池化层作为图像识别模型所包含的神经网络层,以根据上述神经网络的多层结构,共同搭建预设的图像识别模型,为便于理解,本申请实施例中,以一层卷积层、一层池化层、一层多维张量缩并操作层以及一层全连接层为例,则训练好的目标识别模型的模型结构可如图3所示。
参阅图4所示,基于上述目标识别模型的模型结构,本申请实施例提出一种图像识别方法,包括:
S401:获取包含目标对象的待识别图像,对待识别图像进行转化,获取相应的原始图像张量。
具体的,针对图像采集设备采集到的待识别图像,可基于该图像的指定图像参数,将其转化为对应的原始图像张量。
例如,对于待识别图像A而言,可基于其图像高度、图像宽度以及颜色深度(如RGB值),将其转化为对应的原始图像张量,具体来讲,假设待识别图像A为RGB 3个通道的原始图像,且待识别图像A的大小为h*w,(即待识别图像A包含h行w列的像素),则可利用上述给出的各图像参数,将其转化为对应的原始图像张量[h,w,3]。
S402:基于预设的目标识别模型,对原始图像张量采用设定的训练张量进行缩并,获得目标对象的目标特征。
具体来说,通过目标识别模型中的训练张量,对原始图像张量进行相应的缩并操作,从而在保留原始图像张量的结构信息的同时,降低了原始图像张量的数据阶数,清除了相关技术中的于卷积核中存在的大量冗余参数,从而减少了目标识别模型所需的训练参数。
本申请实施例中,为便于描述,将每个与原始图像张量进行缩并操作的训练张量视作相应多维张量缩并操作层中的一个缩并过滤器,由上述MTCOL的基本运算定义可知,为实现原始图像张量在特定轴下的参数收缩,每个缩并过滤器应与上述原始图像张量位于相同的数据阶数,且每个缩并过滤器应包含至少一个与原始图像张量相同的数据指标,则基于每个设定好的缩并过滤器与原始图像张量进行的收缩操作,将原始图像张量在其指定的各个数据轴中分别收缩为对应的目标混合矩阵。
可以理解的是,参阅图5所示,由于张量的缩并表征为两个不同张量在相同的数据指标上的所有数据的总和,因此,本申请实施例中的每个缩并过滤器,可以通过所有位置要素的加权总和来计算每个位置的表示形式,与使用局部感受野中的卷积过滤器不同,上述方式使得缩并过滤器具有全局感受野,从而使得每个缩并过滤器对原始图像张量的缩并操作能够同时提取出待识别图像所包含的所有可识别信息,保证了提取目标特征的准确性。
具体来讲,上述缩并过滤器对原始图像张量的缩并操作可以是基于求和协议(Einstein summation convention)进行的,其表征为将原始图像张量与一个缩并过滤器的相同的数据指标进行求和,上述求和协议如下所示:
进一步的,在一种可选的实施例中,为使得提取到的目标特征更加丰富,可基于预设的M个缩并过滤器,分别对原始图像张量进行缩并,从而在多个不同角度及不同视野的情况下,提取到目标对象更有区别性的多角度目标特征,其中,M为大于等于一的整数。
例如,参阅图6所示,为上述原始图像张量与设定的M个缩并过滤器的缩并过程示意图,由图示所知,基于每个缩并过滤器与原始图像张量进行的缩并操作,分别获得原始图像张量在各个指定数据轴下各自对应的目标混合矩阵,可以理解的是,由于每两个目标混合矩阵间的数据通常是相似的,因此,本申请实施例中,将获得的多个目标混合矩阵依据指定的数据阶数进行聚合,以进一步获得目标对象在多角度及多视野下的具有区别性的目标特征。
在一种可选的实施例中,考虑到卷积神经网络中的卷积层对于特征提取的有效性,也可基于预设的L个卷积核,对原始图像张量进行卷积后,利用预设的M个缩并过滤器对卷积后的原始图像张量进行缩并,获得目标对象的目标特征。
例如,对于某一基于待识别图像获得的原始图像张量而言,也可以经由指定数目的卷积层及池化层经过相应的卷积/池化处理后,对其输出的卷积图像张量进行缩并处理,直至输出目标对象的目标特征。
可以理解的是,将当前卷积操作对应卷积层的后续卷积层,替换为本申请实施例所提供的上述多维张量缩并操作层,较之上述两个卷积层所具有的训练参数的总数而言,上述方式能够使得原始图像张量通过每两个卷积层所获得的输出特征的精度不变的情况下,所需的训练参数的总数大幅较低,从而降低了模型所需的参数数目,进一步提高了目标特征的提取效率。
进一步的,为保留待识别图像存在的原始结构信息,本申请实施例中,将上述M个目标混合矩阵依据指定的数据阶数聚合得到的高阶张量,作为目标识别模型针对目标对象输出的目标特征,可以理解的是,基于这一高阶数据的存储方式,本申请实施例可以保留目标图像中的所有结构信息,则基于本申请实施例所提到的上述图像识别方法,可以采用缩并获得的高阶张量替换原卷积神经网络中经由展平得到的数据矢量,进一步保留了原始图像张量所具有的结构信息以及多线性信息,确保了提取出的目标特征的准确性。
S403:从预设的特征信息库中,获得与目标特征匹配的至少一个特征信息,并基于获得的特征信息,确定目标对象的目标识别结果。
具体来讲,在将上述待识别图像输入训练好的目标识别模型,并获得相应的目标特征后,终端设备202可以进一步的从预设的特征信息库中,匹配获得其关联的至少一个特征信息,从而根据匹配到的特征信息组合,确定目标对象的目标识别结果。
在一种可选的实施例中,可以通过确定每个预设的特征信息与获得的目标特征之间的相似度,确定特征信息库中与其匹配的目标特征信息,具体来讲,上述相似度可以包含:余弦相似度等,本申请对此不作限制,则基于设定的相似度阈值,终端设备202能够进一步确定目标对象的目标识别结果。
例如,假设针对待识别图像提取出的目标特征表征为人脸A所具有的区别性特征,则通过依次确定采集到的目标特征与预设的特征信息库中的大量特征信息各自的相似度,可以从与之相似的各个特征信息中进一步推断出人脸A关联的区别性信息,以判断人脸A的实际身份及其关联信息。
在一种可选的实施例中,还可基于预设的相似度阈值,从特征信息库中选择满足相似度阈值的目标特征信息,则后续过程中,终端设备202可以基于获得的各个目标特征信息,确定待识别图像中的目标识别结果,进一步提升了目标识别结果的准确率及其获得效率。
下面将结合实例对本申请提出的上述图像识别方法进行进一步的阐述、说明。
为评估本申请实施例所提到的上述多维张量缩并操作层代替原卷积层以及全连接层的展平操作的有效性,本申请实施例利用LeNet-5网络,对相关技术中提到的技术缺陷进行比对验证,具体来讲,在本次对比验证中,LeNet-5由两个卷积层,两个池化层,两个全连接层组成,其中,卷积层中的卷积核大小为5x5,步长为1。
进一步的,为防止验证过程产生随机性结果,设定替换后的图像识别模型的数目为4,且上述4个目标识别模型分别采用本申请实施例提到的上述多维张量缩并操作层对原始卷积模型中的卷积层C3、卷积层C3及全连接层FC、卷积层C2、卷积层C2、C3及全连接层FC进行了替换,则获得的相应验证结果如下表1所示:
表1
其中,C1、C2、C3表示原始卷积模型的三个卷积层,Avg1、Avg2、Avg3表示原始卷积模型具有的三个平均池化层,Flatten表示展平操作,FC表示原始卷积模型中的全连接层,MTCOL||10,10,6表示该处替换其相应输出形状为(10,10,6),MTCOL||1,1,16->>16表示该出替换后其相应输出形状变为16;则由上表1可知,将原始卷积模型中的卷积层C2替换为上述多维张量缩并操作层后,该层的输出形状有效减小。
进一步的,确定上述提到的每个图像识别模型的识别准确率以及训练参数总量,如下表2所示:
表2
Model | Parameters | SA | Avg_time | Avg_accuracy |
LeNet-5 | 61706 | 65.05s | 96.89% | |
图像识别模型1 | 4875 | 92.10% | 57.59s | 95.75% |
图像识别模型2 | 2767 | 95.52% | 55.63s | 95.47% |
图像识别模型3 | 48890 | 20.77% | 53.71s | 93.34% |
图像识别模型4 | 19851 | 67.83% | 46.77s | 85.90% |
其中,Parameters表示模型中的训练参数总量,Avg_time表示平均时长,Avg_accuracy表示模型的识别准确率,本申请实施例中,还使用space savings(SA)来量化整个网络模型中的简化参数,如下所示:
其中,noriginal是未替换的原始卷积模型的训练参数总量,nnew是替换后的图像识别模型的训练参数总量。
由上表2可见,本申请实施例提供的图像识别方法,通过预设的目标识别模型,对待识别图像转化后的原始图像张量采用设定的训练张量进行缩并操作,从而基于缩并后减小的输出形状,对卷积核中的冗余参数量进行压缩,大大减少了目标识别模型所需的训练参数,进一步的,将提取出的高阶张量作为所提取出的目标特征,使得目标特征中能够进一步存储有目标图像的原有的几何结构,从而确保了提取出的目标特征的精确性以及最终获得的目标识别结果的准确性。
参阅图7所示,为本申请实施例提供的一种图像识别装置,包括获取模块701,特征提取模块702,识别模块703,其中:
获取模块701,用于获取包含目标对象的待识别图像,对待识别图像进行转化,获取相应的原始图像张量。
特征提取模块702,用于基于预设的目标识别模型,对原始图像张量采用设定的训练张量进行缩并,获得目标对象的目标特征,其中,目标特征位于指定的数据阶数。
识别模块703,用于从预设的特征信息库中,获得与目标特征匹配的至少一个特征信息,并基于获得的特征信息,确定目标对象的目标识别结果。
在一种可选的实施例中,获取包含目标对象的待识别图像之前,获取模块701还用于:
获取训练样本集合,其中,一个训练样本中包括:针对目标对象的对象类别确定的输入信息以及实体标签。
采用训练样本集合中的训练样本,对预设的图像识别模型进行多轮迭代训练,在满足预设的收敛条件时,输出目标识别模型;其中,在一轮迭代训练过程中,执行以下操作:
采用图像识别模型,基于训练样本中输入信息,获得相应的预测结果,并基于预测结果与相应的实体标签之间的损失值,调整图像识别模型的训练参数。
在一种可选的实施例中,基于预设的目标识别模型,对原始图像张量采用设定的训练张量进行缩并,获得目标对象的目标特征,特征提取模块702具体用于:
将预设的M个缩并过滤器作为训练张量,对原始图像张量进行缩并,获得目标对象的目标特征,其中,M为大于等于一的整数,缩并过滤器与原始图像张量位于相同的数据阶数,且缩并过滤器包含至少一个与原始图像张量相同的数据指标。
或者,
基于预设的L个卷积核,对原始图像张量进行卷积,并将预设的M个缩并过滤器作为训练张量,对卷积后的原始图像张量进行缩并,获得目标对象的目标特征,其中,L为大于等于一的整数。
在一种可选的实施例中,将预设的M个缩并过滤器作为训练张量,对原始图像张量进行缩并,特征提取模块702具体用于:
将原始图像张量,分别与预设的M个缩并过滤器进行缩并,获得相应的M个目标混合矩阵。
基于预设的目标特征阶数,对获得的M个目标混合矩阵进行聚合,获得目标对象的目标特征。
在一种可选的实施例中,将原始图像张量,分别与预设的M个缩并过滤器进行缩并,获得相应的M个目标混合矩阵,特征提取模块702具体用于:
针对M个缩并过滤器,分别执行以下操作:
基于求和协议,对原始图像张量,与一个缩并过滤器的相同的数据指标进行求和,获得相应的目标混合矩阵。
在一种可选的实施例中,基于获得的特征信息,确定目标对象的目标识别结果,识别模块703具体用于:
确定目标对象的目标特征,分别与获得的至少一个特征信息间的相似度。
分别将相似度大于预设阈值的特征信息作为目标特征信息,并基于获得的各个目标特征信息,确定目标对象的目标识别结果。
与上述申请实施例基于同一发明构思,本申请实施例中还提供了一种电子设备,该电子设备可以用于图像识别。在一种实施例中,该电子设备可以是服务器,也可以是终端设备或其他电子设备。在该实施例中,电子设备的结构可以如图8所示,包括存储器801,通讯接口803以及一个或多个处理器802。
存储器801,用于存储处理器802执行的计算机程序。存储器801可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器801可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器801也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器801可以是上述存储器的组合。
处理器802,可以包括一个或多个中央处理单元(Central Processing Unit,CPU)或者为数字处理单元等。处理器802,用于调用存储器801中存储的计算机程序时实现上述图像识别方法。
通讯接口803用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器801、通讯接口803和处理器802之间的具体连接介质。本申请实施例在图8中以存储器801和处理器802之间通过总线804连接,总线804在图8中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线804可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的任一种图像识别方法。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
根据本申请的一个方面,本申请还提供了一种计算机程序产品,所述计算机程序产品在被计算机调用时,使得所述计算机执行如第一方面所述的方法。
本申请实施例提供一种图像识别方法、装置、电子设备及存储介质,通过将包含目标对象的待识别图像转化为相应的原始图像张量,并基于预设的目标识别模型,对原始图像张量采用设定的训练张量进行缩并,从而基于这种张量收缩的方式,对卷积核中的冗余参数量进行压缩,大大减少了目标识别模型所需的训练参数,进一步的,将提取出的高阶张量作为所提取出的目标特征,使得目标特征中能够进一步存储有目标图像的原有的几何结构,从而确保了提取出的目标特征的精确性,以及最终获得的目标识别结果的准确性。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种图像识别方法,其特征在于,包括:
获取包含目标对象的待识别图像,对所述待识别图像进行转化,获取相应的原始图像张量;
基于预设的目标识别模型,对所述原始图像张量采用设定的训练张量进行缩并,获得所述目标对象的目标特征,其中,所述目标特征位于指定的数据阶数;
从预设的特征信息库中,获得与所述目标特征匹配的至少一个特征信息,并基于获得的特征信息,确定所述目标对象的目标识别结果。
2.如权利要求1所述的方法,其特征在于,所述获取包含目标对象的待识别图像之前,还包括:
获取训练样本集合,其中,一个训练样本中包括:针对所述目标对象的对象类别确定的输入信息以及实体标签;
采用所述训练样本集合中的训练样本,对预设的图像识别模型进行多轮迭代训练,在满足预设的收敛条件时,输出目标识别模型;其中,在一轮迭代训练过程中,执行以下操作:
采用所述图像识别模型,基于训练样本中输入信息,获得相应的预测结果,并基于所述预测结果与相应的实体标签之间的损失值,调整所述图像识别模型的训练参数。
3.如权利要求1或2所述的方法,其特征在于,所述基于预设的目标识别模型,对所述原始图像张量采用设定的训练张量进行缩并,获得所述目标对象的目标特征,包括:
将预设的M个缩并过滤器作为训练张量,对所述原始图像张量进行缩并,获得所述目标对象的目标特征,其中,M为大于等于一的整数,所述缩并过滤器与所述原始图像张量位于相同的数据阶数,且所述缩并过滤器包含至少一个与所述原始图像张量相同的数据指标;
或者,
基于预设的L个卷积核,对所述原始图像张量进行卷积,并将预设的M个缩并过滤器作为训练张量,对卷积后的原始图像张量进行缩并,获得所述目标对象的目标特征,其中,L为大于等于一的整数。
4.如权利要求3所述的方法,其特征在于,所述将预设的M个缩并过滤器作为训练张量,对所述原始图像张量进行缩并,包括:
将所述原始图像张量,分别与预设的M个缩并过滤器进行缩并,获得相应的M个目标混合矩阵;
基于预设的目标特征阶数,对获得的M个目标混合矩阵进行聚合,获得所述目标对象的目标特征。
5.如权利要求4所述的方法,其特征在于,所述将所述原始图像张量,分别与预设的M个缩并过滤器进行缩并,获得相应的M个目标混合矩阵,包括:
针对所述M个缩并过滤器,分别执行以下操作:
基于求和协议,对所述原始图像张量,与一个缩并过滤器的相同的数据指标进行求和,获得相应的目标混合矩阵。
6.如权利要求1-2、4-5任一项所述的方法,其特征在于,所述基于获得的特征信息,确定所述目标对象的目标识别结果,包括:
确定所述目标对象的目标特征,分别与获得的至少一个特征信息间的相似度;
分别将所述相似度大于预设阈值的特征信息作为目标特征信息,并基于获得的各个目标特征信息,确定所述目标对象的目标识别结果。
7.一种图像识别装置,其特征在于,包括:
获取模块,用于获取包含目标对象的待识别图像,对所述待识别图像进行转化,获取相应的原始图像张量;
特征提取模块,用于基于预设的目标识别模型,对所述原始图像张量采用设定的训练张量进行缩并,获得所述目标对象的目标特征,其中,所述目标特征位于指定的数据阶数;
识别模块,用于从预设的特征信息库中,获得与所述目标特征匹配的至少一个特征信息,并基于获得的特征信息,确定所述目标对象的目标识别结果。
8.如权利要求7所述的装置,其特征在于,所述获取包含目标对象的待识别图像之前,所述获取模块还用于:
获取训练样本集合,其中,一个训练样本中包括:针对所述目标对象的对象类别确定的输入信息以及实体标签;
采用所述训练样本集合中的训练样本,对预设的图像识别模型进行多轮迭代训练,在满足预设的收敛条件时,输出目标识别模型;其中,在一轮迭代训练过程中,执行以下操作:
采用所述图像识别模型,基于训练样本中输入信息,获得相应的预测结果,并基于所述预测结果与相应的实体标签之间的损失值,调整所述图像识别模型的训练参数。
9.如权利要求7或8所述的装置,其特征在于,所述基于预设的目标识别模型,对所述原始图像张量采用设定的训练张量进行缩并,获得所述目标对象的目标特征,所述特征提取模块具体用于:
将预设的M个缩并过滤器作为训练张量,对所述原始图像张量进行缩并,获得所述目标对象的目标特征,其中,M为大于等于一的整数,所述缩并过滤器与所述原始图像张量位于相同的数据阶数,且所述缩并过滤器包含至少一个与所述原始图像张量相同的数据指标;
或者,
基于预设的L个卷积核,对所述原始图像张量进行卷积,并将预设的M个缩并过滤器作为训练张量,对卷积后的原始图像张量进行缩并,获得所述目标对象的目标特征,其中,L为大于等于一的整数。
10.如权利要求9所述的装置,其特征在于,所述基于预设的M个缩并过滤器,对所述原始图像张量进行缩并,所述特征提取模块具体用于:
将所述原始图像张量,分别与预设的M个缩并过滤器进行缩并,获得相应的M个目标混合矩阵;
基于预设的目标特征阶数,对获得的M个目标混合矩阵进行聚合,获得所述目标对象的目标特征。
11.如权利要求10所述的装置,其特征在于,所述将所述原始图像张量,分别与预设的M个缩并过滤器进行缩并,获得相应的M个目标混合矩阵,所述特征提取模块具体用于:
针对所述M个缩并过滤器,分别执行以下操作:
基于求和协议,对所述原始图像张量,与一个缩并过滤器的相同的数据指标进行求和,获得相应的目标混合矩阵。
12.如权利要求7-8、10-11任一项所述的装置,其特征在于,所述基于获得的特征信息,确定所述目标对象的目标识别结果,所述识别模块具体用于:
确定所述目标对象的目标特征,分别与获得的至少一个特征信息间的相似度;
分别将所述相似度大于预设阈值的特征信息作为目标特征信息,并基于获得的各个目标特征信息,确定所述目标对象的目标识别结果。
13.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的图像识别方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述方法的步骤。
15.一种计算机程序产品,其特征在于,所述计算机程序产品在被计算机调用时,使得所述计算机执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210554023.1A CN115205613A (zh) | 2022-05-20 | 2022-05-20 | 一种图像识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210554023.1A CN115205613A (zh) | 2022-05-20 | 2022-05-20 | 一种图像识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205613A true CN115205613A (zh) | 2022-10-18 |
Family
ID=83575007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210554023.1A Pending CN115205613A (zh) | 2022-05-20 | 2022-05-20 | 一种图像识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205613A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187401A (zh) * | 2023-04-26 | 2023-05-30 | 首都师范大学 | 神经网络的压缩方法、装置、电子设备及存储介质 |
-
2022
- 2022-05-20 CN CN202210554023.1A patent/CN115205613A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187401A (zh) * | 2023-04-26 | 2023-05-30 | 首都师范大学 | 神经网络的压缩方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102477794B1 (ko) | 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체 | |
Manap et al. | Non-distortion-specific no-reference image quality assessment: A survey | |
WO2021248859A1 (zh) | 视频分类方法、装置、设备及计算机可读存储介质 | |
CN110147710B (zh) | 人脸特征的处理方法、装置和存储介质 | |
JP2020513124A (ja) | 仮想3次元深層ニューラルネットワークを利用する画像解析装置及び方法 | |
US20230085605A1 (en) | Face image processing method, apparatus, device, and storage medium | |
CN110020639B (zh) | 视频特征提取方法及相关设备 | |
US10032091B2 (en) | Spatial organization of images based on emotion face clouds | |
CN110309847A (zh) | 一种模型压缩方法及装置 | |
WO2022166604A1 (zh) | 图像处理方法、装置、计算机设备、存储介质和程序产品 | |
CN104391879B (zh) | 层次聚类的方法及装置 | |
CN112132279A (zh) | 卷积神经网络模型压缩方法、装置、设备及存储介质 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
CN111353430A (zh) | 人脸识别方法和系统 | |
CN110363072A (zh) | 舌象识别方法、装置、计算机设备及计算机可读存储介质 | |
CN115205613A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN113657585A (zh) | 一种稀疏网络结构剪枝方法及装置 | |
KR102334338B1 (ko) | 행위 인식 방법 및 장치 | |
CN111597921A (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
WO2021000495A1 (zh) | 一种图像处理方法以及装置 | |
CN113221971B (zh) | 一种基于前后特征融合的多尺度人群计数方法及系统 | |
CN113743533B (zh) | 一种图片聚类方法、装置及存储介质 | |
CN116797510A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN115063673A (zh) | 模型压缩方法、图像处理方法、装置和云设备 | |
CN116546304A (zh) | 一种参数配置方法、装置、设备、存储介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |