CN112767366A - 基于深度学习的图像识别方法、装置、设备及存储介质 - Google Patents
基于深度学习的图像识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112767366A CN112767366A CN202110093285.8A CN202110093285A CN112767366A CN 112767366 A CN112767366 A CN 112767366A CN 202110093285 A CN202110093285 A CN 202110093285A CN 112767366 A CN112767366 A CN 112767366A
- Authority
- CN
- China
- Prior art keywords
- image
- deep learning
- category
- preset
- feature space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 86
- 239000013598 vector Substances 0.000 claims abstract description 76
- 230000011218 segmentation Effects 0.000 claims abstract description 63
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的图像识别方法、装置、设备及存储介质。该方法包括:获取训练图像的类别标签和二值分割标签,对训练图像进行特征提取,得到特征空间;通过预设卷积神经网络,对特征空间进行注意力预测,得到目标热图,根据目标热图和二值分割标签,得到分割损失值;获取特征空间对应的嵌入向量,类别标签对应的类别中心,通过预设损失函数,计算类别中心与嵌入向量之间的距离损失值;对嵌入向量进行整合,得到图像类别,计算图像类别与类别标签的类别损失值,根据分割损失值,距离损失值和类别损失值,对预设卷积神经网络进行参数调整,以完成模型训练。本发明在使用深度学习进行图像识别,实现了训练时间更快和预测准确度更高。
Description
技术领域
本发明涉及图像识别领域,尤其涉及基于深度学习的图像识别方法、装置、设备及存储介质。
背景技术
在工业自动化领域中,图像识别起着重要的作用,图像识别的用途包括产品缺陷的检测以及缺陷种类的判断,不同产品的识别与分拣,通过机器视觉算法对产品进行自动分类,可以大大提高工业流水线的效率,减少人工成本,提高质量,如今深度学习在图像识别某些特定任务中已经达到并超过人眼识别的准确度,并在工业领域有着广泛的应用,使用深度学习进行图像识别,虽然有着高精确率的优点,但是学习方向不明确,导致训练时间慢,且无法准确对超出标注范围的异常样本进行判断,甚至存在高置信度的错误预测。
发明内容
本发明的主要目的在于提供一种基于深度学习的图像识别方法、装置、设备及存储介质,旨在解决现有使用深度学习进行图像识别时存在的训练时间慢和预测准确度低的技术问题。
此外,为实现上述目的,本发明还提供一种基于深度学习的图像识别方法,所述基于深度学习的图像识别方法包括以下步骤:
接收训练图像,获取所述训练图像的类别标签和二值分割标签,并对所述训练图像进行特征提取,得到特征空间;
通过预设卷积神经网络,对所述特征空间进行注意力预测,得到目标热图,并根据所述目标热图和所述二值分割标签,得到分割损失值;
获取所述特征空间对应的嵌入向量,所述类别标签对应的类别中心,并通过预设损失函数,计算所述类别中心与所述嵌入向量之间的距离损失值;
对所述嵌入向量进行整合,得到图像类别,计算图像类别与所述类别标签之间的类别损失值,并根据所述分割损失值,所述距离损失值以及所述类别损失值,对所述预设卷积神经网络进行参数调整,以完成模型训练。
可选地,所述对所述训练图像进行特征提取,得到特征空间的步骤包括:
将所述训练图像输入预设深度残差网络,通过所述预设深度残差网络对所述训练图像进行特征提取,得到预设大小的特征空间。
可选地,所述通过预设卷积神经网络,对所述特征空间进行注意力预测,得到目标热图的步骤包括:
通过预设卷积神经网络,对所述特征空间进行注意力预测,得到所述特征空间的不同区域的注意力数值;
通过预设非线性函数将所述注意力数值限定在预设区间,得到目标热图。
可选地,所述根据所述目标热图和所述二值分割标签,得到分割损失值的步骤包括:
对所述二值分割标签对应的二值图进行缩放操作,以使所述缩放操作后的二值图的尺寸与所述目标热图的尺寸相同;
将所述目标热图与所述二值图进行对比,得到分割损失值。
可选地,所述获取所述特征空间对应的嵌入向量的步骤包括:
根据所述目标热图中的注意力数值,对所述特征空间的不同区域进行加权处理;
对所述加权处理后的特征空间进行全局平均池化,得到所述特征空间对应的嵌入向量。
可选地,所述通过预设损失函数,计算所述类别中心与所述嵌入向量之间的距离损失值的步骤包括:
通过预设损失函数,将所述嵌入向量向所述类别标签对应的类别中心靠拢,并在靠拢完成后,计算所述类别中心与靠拢完成后的嵌入向量之间的距离损失值。
可选地,所述对所述预设卷积神经网络进行参数调整,以完成模型训练的步骤之后,包括:
接收测试图像,并将所述测试图像输入所述预设卷积神经网络,得到测试向量;
获取所述预设卷积神经网络的特征中心,并将所述测试向量与所述特征中心进行对比;
根据对比结果,确定所述特征中心中距离所述测试向量最近的目标特征中心,并将所述目标特征中心对应的目标图像类别作为所述测试图像的图像类别。
此外,为实现上述目的,本发明还提供一种基于深度学习的图像识别装置,所述基于深度学习的图像识别装置包括:
分割损失值计算模型,用于通过预设卷积神经网络,对所述特征空间进行注意力预测,得到目标热图,并根据所述目标热图和所述二值分割标签,得到分割损失值;
距离损失值计算模型,用于获取所述特征空间对应的嵌入向量,所述类别标签对应的类别中心,并通过预设损失函数,计算所述类别中心与所述嵌入向量之间的距离损失值;
调参模型,用于对所述嵌入向量进行整合,得到图像类别,计算图像类别与所述类别标签之间的类别损失值,并根据所述分割损失值,所述距离损失值以及所述类别损失值,对所述预设卷积神经网络进行参数调整,以完成模型训练。
此外,为实现上述目的,本发明还提供一种基于深度学习的图像识别设备,所述基于深度学习的图像识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度学习的图像识别程序,所述程序被所述处理器执行时实现如上述的基于深度学习的图像识别方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有基于深度学习的图像识别程序,所述基于深度学习的图像识别程序被处理器执行时实现如上述的基于深度学习的图像识别方法的步骤。
本发明实施例提出的一种基于深度学习的图像识别方法、装置、设备及存储介质。本发明实施例中当接收到训练图像后,获取预先标识的训练图像的类别标签和二值分割标签,并对训练图像进行特征提取,得到特征空间,进而通过预设卷积神经网络,对特征空间进行注意力预测,得到目标热图,并根据目标热图和所述二值分割标签,得到与注意力区域预测相关的分割损失值,继而获取特征空间对应的嵌入向量,以及类别标签对应的类别中心,并通过预设损失函数,计算类别中心与嵌入向量之间的距离损失值,然后对嵌入向量进行整合,得到图像类别,计算图像类别与类别标签之间的类别损失值,最终根据分割损失值、距离损失值以及类别损失值,对所述预设卷积神经网络进行参数调整,以完成模型训练,本发明通过引入注意力机制,在使用深度学习进行图像识别时,实现了训练时间更快和预测准确度更高。
附图说明
图1为本发明实施例提供的基于深度学习的图像识别设备一种实施方式的硬件结构示意图;
图2为本发明基于深度学习的图像识别方法第一实施例的流程示意图;
图3为本发明基于深度学习的图像识别方法第二实施例的流程示意图;
图4为本发明基于深度学习的图像识别装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例基于深度学习的图像识别终端(又叫终端、设备或者终端设备)可以是PC,也可以是智能手机、平板电脑和便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于深度学习的图像识别程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于深度学习的图像识别程序,所述基于深度学习的图像识别程序被处理器执行时实现下述实施例提供的基于深度学习的图像识别方法中的操作。
基于上述设备硬件结构,提出了本发明基于深度学习的图像识别方法的实施例。
参照图2,在本发明基于深度学习的图像识别方法的第一实施例中,所述基于深度学习的图像识别方法包括:
步骤S10,接收训练图像,获取所述训练图像的类别标签和二值分割标签,并对所述训练图像进行特征提取,得到特征空间。
本实施例中基于深度学习的图像识别方法应用于图像识别,例如,在工业自动化领域中,工业生产产出的各种产品都需要进行质量检测,有些质量检测是基于产品图像完成的,例如,产品表面的凹凸不平以及裂纹,在对这些产品的质量进行检测时,可以通过观察对产品拍摄的图像进行检测,若检测的项目是,产品是否具有质量问题,那么这很明显是一个二分类问题,即产品图像只有两种,有质量问题的产品图像和无质量问题的产品图像,若检测的项目是,产品缺陷的种类,则是一个多分类问题,产品图像存在多种,包括各种类型的产品缺陷图以及无缺陷图,本实施例中的训练图像是指,用于模型训练的图像,可以是产品的缺陷图或无缺陷的产品图,一般在进行模型训练时,需要用到的训练数据量很大,因此,这里的训练图像肯定存在多个,可知地,在将这些训练图像输入深度学习系统之前,还需要对这些训练图片进行标签标定,以表示训练图片的类型,例如,本实施例中的类别标签,即表示训练图像的类别,若训练图像是产品缺陷图,则类别标签即是产品缺陷的种类,种类数不做限定,但为了便于分类,这里的种类数不宜过多,本实施例中的二值分割标签是用来标识注意力区域的,其中,注意力区域是指,训练图像各区域内受到用户注意的程度,间接可以反映用户对某个图像区域的关注度,用户关注度高的图像区域即是产品经常产生缺陷的区域,通过引入注意力机制,可以提高图像的识别精度和加快图像的识别速度。
在得到训练图像的类别标签和二值分割标签后,通过深度残差网络对训练图像进行特征提取,得到特征空间,且特征空间的宽和高均下降到训练图像的一定比例,例如,特征空间的宽和高为训练图像的宽和高的1/16,可知地,对训练图像进行特征提取,提取到的特征可以是训练图像中像素点的颜色,以及各颜色像素点的分布情况等,本实施例中的特征空间是三维特征空间,由特征平面与特征常数构成,特征的分布表征了该种类图像的特点。
步骤S20,通过预设卷积神经网络,对所述特征空间进行注意力预测,得到目标热图,并根据所述目标热图和所述二值分割标签,得到分割损失值。
在得到特征空间后,对提取到的深度特征进行注意力区域的预测,具体地,通过调取历史数据,确定各区域同尺度的热图,其中,同尺度是指与上述特征空间缩小后的尺度相同,热图是指以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区,用热谱图展示用户在网站上的行为,浏览量大、点击量大的地方呈红色,浏览量小、点击量少的地方呈无色、蓝色,这个概念可以应用在通过深度学习和得到的产品图像对产品缺陷进行预测上,即,用户关注度较大,关注较多的区域对应的热图越明显,可以理解的是,可以通过数值反映注意力强度的大小,得到目标热图后,还需要利用激活层将目标热图的数值限制在一定范围内,以筛除掉热图数值异常大的点或面,减少这些异常数值对于注意力区域对应的平均热图数值的影响,可知地,当对目标热图的数值进行限制后,目标热图对应的注意力区域与二值分割标签标识的注意力区域就会存在一定的偏差,计算出的这个偏差即是本实施例中的分割损失值。
步骤S30,获取所述特征空间对应的嵌入向量,所述类别标签对应的类别中心,并通过预设损失函数,计算所述类别中心与所述嵌入向量之间的距离损失值。
可知地,向通过激活层后的目标热图赋权,深度特征不同的注意力区域会被赋予不同的权重,即,对于注意力得分较高的区域给予更高的权重,本实施例中对于注意力得分的统计方法可以是,获取用户对于图像各区域的历史点击率或者鼠标光标停留的次数等可以反映用户注意力的历史信息,可知地,注意力得分越高,说明用户对于该区域的关注度越高,对注意力区域赋权完成后,紧接着对加权后的深度特征进行全局平均池化,全局平均池化完成后,便可得到嵌入向量,其中,全局平均池化是指,对每一个通道图所有像素值求平均值,然后得到一个新的一乘一的通道图,该嵌入向量被预先设定为特定的维度,例如一维,根据上述内容已知,种类标签具有一定的种类数量,每一种类别都对应有一个类别中心,该类别中心即是对应类别的绝对参考点,即,每个图像类别对应的嵌入向量越靠近该图像类别对应的类别中心,则这个图像是这个图像类别的概率越大,本实施例通过损失函数约束每个图像类别对应的嵌入向量靠近该图像类别对应的类别中心,最终计算嵌入向量与类别中心之间的距离损失值。
步骤S40,对所述嵌入向量进行整合,得到图像类别,计算图像类别与所述类别标签之间的类别损失值,并根据所述分割损失值,所述距离损失值以及所述类别损失值,对所述预设卷积神经网络进行参数调整,以完成模型训练。
可知地,得到嵌入向量后,通过全连接层对嵌入向量进行整合,整合完成后便可得到对训练图像类别的预测结果,其中,预测结果可能是经过筛选后的准确结果,例如,上述类别标签存在五种,分别是四种产品缺陷图和一种无缺陷图,则对训练图像的类别的预测结果为五个概率值,分别对应五种不同的类别标签,概率最大的一种类别标签即是对训练图像类别的预测结果,这个预测结果与上述提前对训练图像的标签标定,可能不同,且即使这个预测结果与上述提前对训练图像的标签标定相同,二者只见那也存在一定的差异,这个差异来自于预测结果是一个概率值,例如,若上述提前对训练图像的标签标定为一类缺陷图,对该训练图像的预测结果为95%为一类缺陷图,则二者之间的差异为5%,若预测结果与标签标定不同,例如,若上述提前对训练图像的标签标定为一类缺陷图,对该训练图像的预测结果为80%为二类缺陷图,8%为一类缺陷图,则二者之间的差异为92%,这个差异即是本实施例中的类别损失值,得到类别损失值后,基于深度学习的图像识别程序将根据分割损失值,距离损失值以及类别损失值,对训练的预设卷积神经网络的参数进行调整,可知地,调整的参数包括迭代次数等,参数调整完成后,模型训练过程便完成了。
具体地,步骤S10细化的步骤包括:
步骤a1,将所述训练图像输入预设深度残差网络,通过所述预设深度残差网络对所述训练图像进行特征提取,得到预设大小的特征空间。
可知地,所有的训练图像都具有固定的尺寸和大小,本实施例中在得到训练图像后,将训练图像输入到预设的深度残差网络中,通过预设深度残差网络对训练图像进行特征提取,就会得到一个预设大小的特征空间。
具体地,步骤S20细化的步骤包括:
步骤b1,通过预设卷积神经网络,对所述特征空间进行注意力预测,得到所述特征空间的不同区域的注意力数值。
步骤b2,通过预设非线性函数将所述注意力数值限定在预设区间,得到目标热图。
本实施例中的注意力预测是指,通过卷积神经网络对特征空间进行计算,得到目标热图,具体地,通过预设卷积神经网络中的一系列卷积层或全连接层计算得到特征空间的不同区域的注意力数值大小,即重要性,在得到特征空间的不同区域的注意力数值,还可以通过预设非线性函数将特征空间的不同区域的注意力数值限定在预设区间,进而得到目标热图,这个预设非线性函数也是一种激活函数,例如,所有输入数值经过sigmoid函数后会被限定在0-1之间。
具体地,步骤S20细化的步骤还包括:
步骤c1,对所述二值分割标签对应的二值图进行缩放操作,以使所述缩放操作后的二值图的尺寸与所述目标热图的尺寸相同。
步骤c2,将所述目标热图与所述二值图进行对比,得到分割损失值。
对注意力数值进行数值限定处理后,基于深度学习的图像识别程序将获取特征空间的平面尺寸与训练图像的图像尺寸的尺寸比例,具体地,上述在得到训练图像的类别标签和二值分割标签后,通过深度残差网络对训练图像进行特征提取,得到特征空间,且特征空间的宽和高均下降到训练图像的一定比例,这个比例即是本实施例中的尺寸比例,在得到尺寸比例后,将二值分割标签对应的分割图像按尺寸比例进行缩放处理,最终,将过滤处理后的目标热图与缩放处理后得到的二值分割标签对应的二值图进行对比,得到分割损失值。
具体地,步骤S30细化的步骤包括:
步骤d1,根据所述目标热图中的注意力数值,对所述特征空间的不同区域进行加权处理。
步骤d2,对所述加权处理后的特征空间进行全局平均池化,得到所述特征空间对应的嵌入向量。
通过激活层且被数值限定处理后的目标热图,对深度特征不同的空间区域进行加权,不同深度特征的空间区域会被赋予不同的权值,权值的大小表示该区域得到了更高的关注,通过对注意力得分较高的区域给予更高的权重,来表现这种更高的关注,对特征空间的深度特征进行加权处理后,会对加权处理后的深度特征进行全局平均池化,进而得到特征空间对应的嵌入向量,具体地,全局平均池化的过程包括:假设深度特征为4乘4的像素特征图,对其进行全局平均池化时,池大小设置为特征图大小,即4乘4,取深度特征图中所有特征的平均值,即可得到特征平均值,以及与特征平均值对应的嵌入向量,这时,得到的嵌入向量即是降维向量。
具体地,步骤S30细化的步骤还包括:
步骤e1,通过预设损失函数,将所述嵌入向量向所述类别标签对应的类别中心靠拢,并在靠拢完成后,计算所述类别中心与靠拢完成后的嵌入向量之间的距离损失值。
可知地,通过预设损失函数,可以约束上述得到的嵌入向量向类别标签对应的类别中心进行靠拢,这里的类别中心与类别标签对应,相当于类别标签的绝对参考,例如,训练图像为一类缺陷图,则类别中心为一类缺陷图的绝对参考,通过不断约束嵌入向量向类别中心靠拢,在约束完成后,计算类别中心与靠拢完成后的嵌入向量之间的距离损失值,可以理解的是,若对训练图像的预测结果与类别标签越相同,则类别中心与靠拢完成后的嵌入向量之间的距离损失值越小。
在本实施例中当接收到训练图像后,获取预先标识的训练图像的类别标签和二值分割标签,并对训练图像进行特征提取,得到特征空间,进而对特征空间进行注意力预测,得到目标热图,并根据目标热图和所述二值分割标签,得到与注意力区域预测相关的分割损失值,继而获取特征空间对应的嵌入向量,以及类别标签对应的类别中心,并通过预设损失函数,计算类别中心与嵌入向量之间的距离损失值,然后对嵌入向量进行整合,得到图像类别,计算图像类别与类别标签之间的类别损失值,最终根据分割损失值、距离损失值以及类别损失值,对所述预设卷积神经网络进行参数调整,以完成模型训练,本发明通过引入注意力机制,在使用深度学习进行图像识别时,实现了训练时间更快和预测准确度更高。
进一步地,参照图3,在本发明上述实施例的基础上,提出了本发明基于深度学习的图像识别方法的第二实施例。
本实施例是第一实施例中步骤S40之后的步骤,本实施例与本发明上述实施例的区别在于:
步骤S50,接收测试图像,并将所述测试图像输入所述预设卷积神经网络,得到测试向量。
步骤S60,获取所述预设卷积神经网络的特征中心,并将所述测试向量与所述特征中心进行对比。
步骤S70,根据对比结果,确定所述特征中心中距离所述测试向量最近的目标特征中心,并将所述目标特征中心对应的目标图像类别作为所述测试图像的图像类别。
模型训练完成后,紧接着进行模型测试阶段,在模型测试阶段中,预设卷积神经网络接收用于测试的测试图像,这里的测试图像是未标记类别标签,和标识注意力区域的二值的分割标签的,接收到测试图像后,预设卷积神经网络对测试图像进行特征提取,得到特征向量,即本实施例中的测试向量,得到测试向量后,基于深度学习的图像识别程序还将进一步获取预设卷积神经网络在训练阶段维护的特征中心,这里的特征中心与模型训练时标记的类别标签的种类数有关,即特征中心的数量与模型训练时标记的类别标签的种类数相等,在得到测试向量与特征中心后,基于深度学习的图像识别程序会将测试向量与所有的特征中心进行逐一对比,并根据对比结果,确定所有特征中心中距离测试向量最近的目标特征中心,并将目标特征中心对应的目标图像类别作为测试图像的图像类别,进而完成测试图像的图像分类,且若目标特征中心与测试向量之间的距离大于一定阈值,则表示该测试图像为异常图像,例如,与测试无关的其他图像。
在本实施例中通过对训练好的预设卷积神经网络进行测试,在验证预设卷积神经网络训练结果的同时,也可以对预设卷积神经网络进行完善,以实现更高准确度的图像预测。
此外,参照图4,本发明实施例还提出一种基于深度学习的图像识别装置,所述基于深度学习的图像识别装置包括:
特征提取模型10,用于接收训练图像,获取所述训练图像的类别标签和二值分割标签,并对所述训练图像进行特征提取,得到特征空间;
分割损失值计算模型20,用于通过预设卷积神经网络,对所述特征空间进行注意力预测,得到目标热图,并根据所述目标热图和所述二值分割标签,得到分割损失值;
距离损失值计算模型30,用于获取所述特征空间对应的嵌入向量,所述类别标签对应的类别中心,并通过预设损失函数,计算所述类别中心与所述嵌入向量之间的距离损失值;
调参模型40,用于对所述嵌入向量进行整合,得到图像类别,计算图像类别与所述类别标签之间的类别损失值,并根据所述分割损失值,所述距离损失值以及所述类别损失值,对所述预设卷积神经网络进行参数调整,以完成模型训练。
可选地,所述特征提取模型10,包括:
特征提取单元,用于将所述训练图像输入预设深度残差网络,通过所述预设深度残差网络对所述训练图像进行特征提取,得到预设大小的特征空间。
可选地,所述分割损失值计算模型20,包括:
注意力预测单元,用于通过预设卷积神经网络,对所述特征空间进行注意力预测,得到所述特征空间的不同区域的注意力数值;
数值限定单元,用于通过预设非线性函数将所述注意力数值限定在预设区间,得到目标热图。
可选地,所述分割损失值计算模型20,还包括:
缩放单元,用于对所述二值分割标签对应的二值图进行缩放操作,以使所述缩放操作后的二值图的尺寸与所述目标热图的尺寸相同;
对比单元,用于将所述目标热图与所述二值图进行对比,得到分割损失值。
可选地,所述距离损失值计算模型30,包括:
加权处理单元,用于根据所述目标热图中的注意力数值,对所述特征空间的不同区域进行加权处理;
平均池化单元,用于对所述加权处理后的特征空间进行全局平均池化,得到所述特征空间对应的嵌入向量。
可选地,所述距离损失值计算模型30,还包括:
靠拢单元,用于通过预设损失函数,将所述嵌入向量向所述类别标签对应的类别中心靠拢,并在靠拢完成后,计算所述类别中心与靠拢完成后的嵌入向量之间的距离损失值。
可选地,所述基于深度学习的图像识别装置,还包括:
测试图像接收模块,用于接收测试图像,并将所述测试图像输入所述预设卷积神经网络,得到测试向量;
特征中心获取模块,用于获取所述预设卷积神经网络的特征中心,并将所述测试向量与所述特征中心进行对比;
确定模块,用于根据对比结果,确定所述特征中心中距离所述测试向量最近的目标特征中心,并将所述目标特征中心对应的目标图像类别作为所述测试图像的图像类别。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于深度学习的图像识别程序,所述基于深度学习的图像识别程序被处理器执行时实现上述实施例提供的基于深度学习的图像识别方法中的操作。
上述各程序模块所执行的方法可参照本发明方法各个实施例,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的基于深度学习的图像识别方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于深度学习的图像识别方法,其特征在于,所述基于深度学习的图像识别方法包括以下步骤:
接收训练图像,获取所述训练图像的类别标签和二值分割标签,并对所述训练图像进行特征提取,得到特征空间;
通过预设卷积神经网络,对所述特征空间进行注意力预测,得到目标热图,并根据所述目标热图和所述二值分割标签,得到分割损失值;
获取所述特征空间对应的嵌入向量,所述类别标签对应的类别中心,并通过预设损失函数,计算所述类别中心与所述嵌入向量之间的距离损失值;
对所述嵌入向量进行整合,得到图像类别,计算图像类别与所述类别标签之间的类别损失值,并根据所述分割损失值,所述距离损失值以及所述类别损失值,对所述预设卷积神经网络进行参数调整,以完成模型训练。
2.如权利要求1所述的基于深度学习的图像识别方法,其特征在于,所述对所述训练图像进行特征提取,得到特征空间的步骤包括:
将所述训练图像输入预设深度残差网络,通过所述预设深度残差网络对所述训练图像进行特征提取,得到预设大小的特征空间。
3.如权利要求1所述的基于深度学习的图像识别方法,其特征在于,所述通过预设卷积神经网络,对所述特征空间进行注意力预测,得到目标热图的步骤包括:
通过预设卷积神经网络,对所述特征空间进行注意力预测,得到所述特征空间的不同区域的注意力数值;
通过预设非线性函数将所述注意力数值限定在预设区间,得到目标热图。
4.如权利要求1所述的基于深度学习的图像识别方法,其特征在于,所述根据所述目标热图和所述二值分割标签,得到分割损失值的步骤包括:
对所述二值分割标签对应的二值图进行缩放操作,以使所述缩放操作后的二值图的尺寸与所述目标热图的尺寸相同;
将所述目标热图与所述二值图进行对比,得到分割损失值。
5.如权利要求1所述的基于深度学习的图像识别方法,其特征在于,所述获取所述特征空间对应的嵌入向量的步骤包括:
根据所述目标热图中的注意力数值,对所述特征空间的不同区域进行加权处理;
对所述加权处理后的特征空间进行全局平均池化,得到所述特征空间对应的嵌入向量。
6.如权利要求1所述的基于深度学习的图像识别方法,其特征在于,所述通过预设损失函数,计算所述类别中心与所述嵌入向量之间的距离损失值的步骤包括:
通过预设损失函数,将所述嵌入向量向所述类别标签对应的类别中心靠拢,并在靠拢完成后,计算所述类别中心与靠拢完成后的嵌入向量之间的距离损失值。
7.如权利要求1所述的基于深度学习的图像识别方法,其特征在于,所述对所述预设卷积神经网络进行参数调整,以完成模型训练的步骤之后,包括:
接收测试图像,并将所述测试图像输入所述预设卷积神经网络,得到测试向量;
获取所述预设卷积神经网络的特征中心,并将所述测试向量与所述特征中心进行对比;
根据对比结果,确定所述特征中心中距离所述测试向量最近的目标特征中心,并将所述目标特征中心对应的目标图像类别作为所述测试图像的图像类别。
8.一种基于深度学习的图像识别装置,其特征在于,所述基于深度学习的图像识别装置包括:
特征提取模型,用于接收训练图像,获取所述训练图像的类别标签和二值分割标签,并对所述训练图像进行特征提取,得到特征空间;
分割损失值计算模型,用于通过预设卷积神经网络,对所述特征空间进行注意力预测,得到目标热图,并根据所述目标热图和所述二值分割标签,得到分割损失值;
距离损失值计算模型,用于获取所述特征空间对应的嵌入向量,所述类别标签对应的类别中心,并通过预设损失函数,计算所述类别中心与所述嵌入向量之间的距离损失值;
调参模型,用于对所述嵌入向量进行整合,得到图像类别,计算图像类别与所述类别标签之间的类别损失值,并根据所述分割损失值,所述距离损失值以及所述类别损失值,对所述预设卷积神经网络进行参数调整,以完成模型训练。
9.一种基于深度学习的图像识别设备,其特征在于,所述基于深度学习的图像识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度学习的图像识别程序,所述基于深度学习的图像识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的图像识别方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于深度学习的图像识别程序,所述基于深度学习的图像识别程序被处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的图像识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110093285.8A CN112767366A (zh) | 2021-01-22 | 2021-01-22 | 基于深度学习的图像识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110093285.8A CN112767366A (zh) | 2021-01-22 | 2021-01-22 | 基于深度学习的图像识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112767366A true CN112767366A (zh) | 2021-05-07 |
Family
ID=75706896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110093285.8A Pending CN112767366A (zh) | 2021-01-22 | 2021-01-22 | 基于深度学习的图像识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767366A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139956A (zh) * | 2021-05-12 | 2021-07-20 | 深圳大学 | 基于语言知识导向的切面识别模型的生成方法及识别方法 |
CN113504906A (zh) * | 2021-05-31 | 2021-10-15 | 北京房江湖科技有限公司 | 代码生成方法、装置、电子设备及可读存储介质 |
CN113743254A (zh) * | 2021-08-18 | 2021-12-03 | 北京格灵深瞳信息技术股份有限公司 | 视线估计方法、装置、电子设备及存储介质 |
CN113805695A (zh) * | 2021-08-26 | 2021-12-17 | 东北大学 | 阅读理解水平的预测方法及装置、电子设备和存储介质 |
CN114511742A (zh) * | 2022-01-28 | 2022-05-17 | 北京百度网讯科技有限公司 | 图像识别方法及装置、电子设备和介质 |
CN114548323A (zh) * | 2022-04-18 | 2022-05-27 | 阿里巴巴(中国)有限公司 | 商品分类方法、设备及计算机存储介质 |
CN114693925A (zh) * | 2022-03-15 | 2022-07-01 | 平安科技(深圳)有限公司 | 图像分割的方法、装置、计算机设备及存储介质 |
CN115082740A (zh) * | 2022-07-18 | 2022-09-20 | 北京百度网讯科技有限公司 | 目标检测模型训练方法、目标检测方法、装置、电子设备 |
CN115100462A (zh) * | 2022-06-20 | 2022-09-23 | 浙江方圆检测集团股份有限公司 | 一种基于回归预测的插座分类方法 |
-
2021
- 2021-01-22 CN CN202110093285.8A patent/CN112767366A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139956B (zh) * | 2021-05-12 | 2023-04-14 | 深圳大学 | 基于语言知识导向的切面识别模型的生成方法及识别方法 |
CN113139956A (zh) * | 2021-05-12 | 2021-07-20 | 深圳大学 | 基于语言知识导向的切面识别模型的生成方法及识别方法 |
CN113504906A (zh) * | 2021-05-31 | 2021-10-15 | 北京房江湖科技有限公司 | 代码生成方法、装置、电子设备及可读存储介质 |
CN113743254A (zh) * | 2021-08-18 | 2021-12-03 | 北京格灵深瞳信息技术股份有限公司 | 视线估计方法、装置、电子设备及存储介质 |
CN113743254B (zh) * | 2021-08-18 | 2024-04-09 | 北京格灵深瞳信息技术股份有限公司 | 视线估计方法、装置、电子设备及存储介质 |
CN113805695A (zh) * | 2021-08-26 | 2021-12-17 | 东北大学 | 阅读理解水平的预测方法及装置、电子设备和存储介质 |
CN113805695B (zh) * | 2021-08-26 | 2024-04-05 | 深圳静美大健康科技有限公司 | 阅读理解水平的预测方法及装置、电子设备和存储介质 |
CN114511742A (zh) * | 2022-01-28 | 2022-05-17 | 北京百度网讯科技有限公司 | 图像识别方法及装置、电子设备和介质 |
CN114693925A (zh) * | 2022-03-15 | 2022-07-01 | 平安科技(深圳)有限公司 | 图像分割的方法、装置、计算机设备及存储介质 |
CN114548323A (zh) * | 2022-04-18 | 2022-05-27 | 阿里巴巴(中国)有限公司 | 商品分类方法、设备及计算机存储介质 |
CN115100462A (zh) * | 2022-06-20 | 2022-09-23 | 浙江方圆检测集团股份有限公司 | 一种基于回归预测的插座分类方法 |
CN115082740A (zh) * | 2022-07-18 | 2022-09-20 | 北京百度网讯科技有限公司 | 目标检测模型训练方法、目标检测方法、装置、电子设备 |
CN115082740B (zh) * | 2022-07-18 | 2023-09-01 | 北京百度网讯科技有限公司 | 目标检测模型训练方法、目标检测方法、装置、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767366A (zh) | 基于深度学习的图像识别方法、装置、设备及存储介质 | |
CN111640091B (zh) | 产品缺陷的检测方法及计算机存储介质 | |
CN108009543B (zh) | 一种车牌识别方法及装置 | |
CN111814850B (zh) | 缺陷检测模型训练方法、缺陷检测方法及相关装置 | |
CN110222764A (zh) | 遮挡目标检测方法、系统、设备及存储介质 | |
CN111598863A (zh) | 缺陷检测方法、装置、设备及可读存储介质 | |
CN110264093B (zh) | 信用模型的建立方法、装置、设备及可读存储介质 | |
CN111368682A (zh) | 一种基于faster RCNN台标检测与识别的方法及系统 | |
CN117392042A (zh) | 缺陷检测方法、缺陷检测设备及存储介质 | |
CN111210071A (zh) | 业务对象预测方法、装置、设备及可读存储介质 | |
CN113539909A (zh) | 一种故障检测方法、装置、终端设备及存储介质 | |
CN117726862A (zh) | 应用于工业检测的模型训练方法、装置及存储介质 | |
CN117788798A (zh) | 目标检测方法、装置、视觉检测系统及电子设备 | |
CN112052730A (zh) | 一种3d动态人像识别监控设备及方法 | |
CN113284113B (zh) | 溢胶瑕疵检测方法、装置、计算机设备和可读存储介质 | |
CN116363136B (zh) | 一种机动车部件自动化生产在线筛选方法及系统 | |
CN117422905A (zh) | 目标识别方法、装置、设备及存储介质 | |
CN113762330A (zh) | 一种动态网络中服务配置的优化方法及装置 | |
CN111476144B (zh) | 行人属性识别模型确定方法、装置及计算机可读存储介质 | |
CN117788444A (zh) | Smt贴片偏移检测方法、装置及视觉检测系统 | |
CN109816628B (zh) | 人脸评价方法及相关产品 | |
CN114022658A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN111524107B (zh) | 缺陷检测方法、缺陷检测装置及计算机可读存储介质 | |
CN113095174A (zh) | 重识别模型训练方法、装置、设备及可读存储介质 | |
CN113570001A (zh) | 分类识别定位方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |