CN110298394B - 一种图像识别方法和相关装置 - Google Patents

一种图像识别方法和相关装置 Download PDF

Info

Publication number
CN110298394B
CN110298394B CN201910524688.6A CN201910524688A CN110298394B CN 110298394 B CN110298394 B CN 110298394B CN 201910524688 A CN201910524688 A CN 201910524688A CN 110298394 B CN110298394 B CN 110298394B
Authority
CN
China
Prior art keywords
mean square
convolution
preset
layer
convolution kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910524688.6A
Other languages
English (en)
Other versions
CN110298394A (zh
Inventor
高远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN201910524688.6A priority Critical patent/CN110298394B/zh
Publication of CN110298394A publication Critical patent/CN110298394A/zh
Application granted granted Critical
Publication of CN110298394B publication Critical patent/CN110298394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本申请涉及深度学习,公开了一种图像识别方法和相关装置,包括:获取第一待识别图像;将所述第一待识别图像进行量化,以得到所述第一待识别图像的第一量化数据;将所述第一量化数据输入卷积神经网络模型,以得到所述第一量化数据对应的图像识别结果;其中,所述卷积神经网络模型中包含的p层卷积层由服务器根据预设卷积层设置策略设置得到,所述p层卷积层中包含的p个卷积核由所述服务器在将p个特征图均方误差与预设p个特征图均方误差进行对比后确定,p为正整数,q=p且q为正整数。实施本发明实施例,有利于提升图像识别精度。

Description

一种图像识别方法和相关装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种图像识别方法和相关装置。
背景技术
随着深度学习的逐步发展,近几年,深度学习在机器视觉领域取得了突破性进展,尤其是在卷积神经网络上的研究成果非常突出。因此,目前在图像分类、目标识别等领研究和应用领域,卷积神经网络已经成为主流方法。
在现有技术中,在通过卷积神经网络模型进行图像识别时,存在图像识别精度不高的问题。
发明内容
本发明实施例公开了一种图像识别方法和相关装置,实施本发明实施例,有利于提升图像识别精度。
本发明实施例第一方面提供了一种图像识别方法,包括:
获取第一待识别图像;
将所述第一待识别图像进行量化,以得到所述第一待识别图像的第一量化数据;
将所述第一量化数据输入卷积神经网络模型,以得到所述第一量化数据对应的图像识别结果;
其中,所述卷积神经网络模型中包含的p层卷积层由服务器根据预设卷积层设置策略设置得到,所述p层卷积层中包含的p个卷积核由所述服务器在将p个特征图均方误差与预设p个特征图均方误差进行对比后确定,p为正整数,q=p且q为正整数。
本发明实施例第二方面提供了一种图像识别装置,包括:
获取模块,用于获取第一待识别图像;
量化模块,用于将所述第一待识别图像进行量化,以得到所述第一待识别图像的第一量化数据;
输出模块,用于将所述第一量化数据输入卷积神经网络模型,以得到所述第一量化数据对应的图像识别结果;
其中,所述卷积神经网络模型中包含的p层卷积层由服务器根据预设卷积层设置策略设置得到,所述p层卷积层中包含的p个卷积核由所述服务器在将p个特征图均方误差与预设p个特征图均方误差进行对比后确定,p为正整数,q=p且q为正整数。
本发明实施例第三方面提供了一种图像识别的电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,以执行包括任一项一种图像识别方法中的步骤的指令。
本发明实施例第四方面提供了一种计算机存储介质,所述计算机可读存储介质用于存储计算机程序,所述存储计算机程序被所述处理器执行,以实现包括任一项一种图像识别方法。
可以看出,上述技术方案中,获取第一待识别图像,然后,将所述第一待识别图像进行量化,以得到所述第一待识别图像的第一量化数据,从而实现对第一待识别图像中每个像素点的坐标和灰度的确定,以便于将第一量化数据输入卷积神经网络模型后能够更好的识别图像。由于卷积神经网络模型中包含的p层卷积层由服务器根据预设卷积层设置策略设置得到,所述p层卷积层中包含的p个卷积核由所述服务器在将p个特征图均方误差与预设p个特征图均方误差进行对比后确定,也就是说,该卷积神经网络模型中包含的p层卷积层是通过图像识别结果最优进行设置,同时,每层卷积层中包含的卷积核根据输入数据与卷积核进行卷积后的特征图进行调整,这里的调整主要是根据前一次训练过程中每层的特征图与本次训练过程中每层的特征图的均方误差进行调整,由于特征图是每层卷积层输入数据与卷积核进行卷积后的结果,在根据均方误差进行调整卷积核时,可以更好的把握每次修正卷积核的尺度,也可以更好让图像识别结果更加精准化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本发明实施例提供的一种图像识别方法的流程示意图;
图2为本发明实施例提供的又一种图像识别方法的流程示意图;
图3为本发明实施例提供的一种图像识别装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,参见图1,图1为本发明的一个实施例提供的一种图像识别方法的流程示意图。其中,如图1所示,本发明的一个实施例提供的一种图像识别方法,包括:
101、服务器获取第一待识别图像。
其中,第一待识别图像例如可以包括车牌图像、人脸图像、文字图像等。
102、服务器将所述第一待识别图像进行量化,以得到所述第一待识别图像的第一量化数据。
可选的,量化就是把采样点上对应的亮度连续变化区间转换为单个特定数码的过程。
其中,第一量化数据中的每个量化数据包括第一待识别图像中每个像素的位置和灰度。进一步来说,第一量化数据为一个整数矩阵。其中,位置由第一待识别图像中每个像素的所在行、所在列表示。灰度表示该像素亮暗程度,其亮暗程度用整数表示。灰度级一般为0-255(8bit量化)。
103、服务器将所述第一量化数据输入卷积神经网络模型,以得到所述第一量化数据对应的图像识别结果。
其中,所述卷积神经网络模型中包含的p层卷积层由服务器根据预设卷积层设置策略设置得到,所述p层卷积层中包含的p个卷积核由所述服务器在将p个特征图均方误差与预设p个特征图均方误差进行对比后确定,p为正整数,q=p且q为正整数。
其中,p例如可等于1、2、3、5、6、11、13、20或其他值。
其中,q例如可等于1、2、3、5、6、11、13、20或其他值。
可选的,卷积神经网络模型中层的运算的类型包括:卷积层、全连接层、归一化(规则化)层、池化层、激活层。
其中,归一化层包括:LRN(Local Response Normalization)层,BN(BatchNormalization)层等类型。
其中,激活层:Sigmoid层,ReLU层,PReLu层,LeakyReLu层,Tanh层。
可选的,特征图为卷积层中的每层经过卷积运算后的输出结果。进一步的,这里的输出结果是指每层的输入数据与每层的卷积核进行卷积运算后的结果。
其中,所述p个特征图为所述第m次正向运算时所述p层卷积层的特征图。所述q个特征图为所述第(m-1)次正向运算时所述p层卷积层的特征图。进一步的,其中,正向运算指的是从输入的特征向量到输出最后到代价函数的这样一个把低级特征逐步计算为抽象的高级特征直到得出损失的过程,简而言之,就是逐层处理各层的输入数据,经过一定的计算,得到输出数据的过程。
其中,m为正整数。
其中,m例如可等于1、2、3、5、6、11、13、20或其他值。
其中,p个特征图均方误差由服务器对所述p个特征图与所述q个特征图的计算得到。
其中,预设p个特征图均方误差由服务器根据p层卷积层中的每层输入数据与预设p个卷积核均方误差进行调整得到。
其中,预设p个卷积核均方误差由服务器根据p层卷积层中的每层输入数据与每层输出数据的差值得到。
另外,在将第一量化数据输入卷积神经网络模型前,先初始化该卷积神经网络模型中包含的多个参数,多个参数中包括p层卷积层的p个卷积核。同时,根据预设卷积层设置策略调整该卷积神经网络模型包含的卷积层数量。
其中,预设卷积层设置策略由服务器根据图像识别的效果进行确定。这里涉及的图像识别的效果主要指通过将图像输入该卷积神经网络模型后,图像可以很好的识别出来。举例来说,比如,某图像中包含数字“3”,那么将该图像输入卷积神经网络模型后,输出的结果也是“3”。这就意味着图像可以很好的识别出来。
在待识别图像不同时,预设卷积层设置策略也不同,对应的卷积层数量也不同,卷积核的大小也不同。
举例来说,在待识别图像为车牌图像,也就是说,该图像中包含车牌号码时,由于该车牌图像中包含汉字、数字、字母,所以,在根据预设卷积层设置策略调整该卷积神经网络模型包含的卷积层数量时,与待识别图像为人脸图像时的卷积层数量不同。因为,将人脸图像输入该卷积神经网络模型时,为了更好的将人脸成功的识别出来,涉及的卷积层数量会更多,权重也会进行适应调整,卷积核的大小也不同,因此,特征图也不同。
参见图2,图2为本发明的又一个实施例提供的又一种图像识别方法的流程示意图。其中,如图2所示,本发明的又一个实施例提供的又一种图像识别方法,包括:
201、服务器接收训练指令。
其中,所述训练指令中携带第一训练数据。
其中,第一训练数据例如可以包括车牌图像、人脸图像、文字图像等。
首先,先初始化该卷积神经网络模型中包含的多个参数,多个参数中包括每层卷积层的每个卷积核。同时,根据预设卷积层设置策略调整该卷积神经网络模型包含的卷积层数量。
其中,预设卷积层设置策略由服务器根据图像识别的效果进行确定。这里涉及的图像识别的效果主要指通过将图像输入该卷积神经网络模型后,图像可以很好的识别出来。举例来说,比如,某图像中包含数字“3”,那么将该图像输入卷积神经网络模型后,输出的结果也是“3”。这就意味着图像可以很好的识别出来。
在第一训练数据不同时,预设卷积层设置策略也不同,对应的卷积层数量也不同,卷积核的大小也不同。在调整卷积核的大小时,往往会基于收敛性进行调整。
举例来说,在第一训练数据为车牌图像,也就是说,该图像中包含车牌号码时,由于该车牌图像中包含汉字、数字、字母,所以,在根据预设卷积层设置策略调整该卷积神经网络模型包含的卷积层数量时,与第一训练数据为人脸图像时的卷积层数量不同。因为,将人脸图像输入该卷积神经网络模型时,为了更好的将人脸成功的识别出来,涉及的卷积层数量会更多。
可选的,第一方面,在本发明一种可能的实施方式中,所述方法还包括:
在所述p层卷积层中的第h层卷积层接收第h层输入数据时,将所述第h层输入数据与所述第h层卷积层的第m卷积核进行卷积,以得到第m特征图,其中,0<h≤p且h为整数;
计算所述第m卷积核与第(m-1)卷积核的均方误差,以得到卷积核均方误差,其中,所述第(m-1)卷积核为所述第(m-1)次正向运算时所述第h层卷积层的卷积核;.
将所述卷积核均方误差与预设卷积核均方误差进行对比,以确定所述卷积核均方误差是否大于所述预设卷积核均方误差,其中,所述预设卷积核均方误差为所述预设p个卷积核均方误差中所述第h层卷积层的预设卷积核均方误差;
若所述卷积核均方误差大于所述预设卷积核均方误差,则计算所述第m特征图与第(m-1)特征图的均方误差,以得到特征图均方误差,其中,所述第(m-1)特征图由服务器进行所述第(m-1)次正向运算时所述第h层输入数据与所述第(m-1)卷积核进行卷积得到;
将所述特征图均方误差与预设特征图均方误差进行对比,以确定所述特征图均方误差是否大于所述预设特征图均方误差,其中,所述预设特征图均方误差为所述预设p个特征图均方误差中所述第h层卷积层的预设特征图均方误差;
若所述特征图均方误差大于所述预设特征图均方误差,则将所述第m卷积核设置为所述第(m+1)次正向运算时所述第h层卷积层的卷积核。
可选的,其中,所述第m卷积核属于所述p个卷积核,所述第m特征图属于所述p个特征图。
其中,h例如可等于1、2、3、5、6、11、13、20或其他值。
可选的,其中,所述卷积核均方误差属于所述p个卷积核均方误差。
可选的,其中,所述特征图均方误差属于所述p个特征图均方误差。
可选的,基于第一方面,在本发明第一种可能的实施方式中,所述第m卷积核与所述第(m-1)卷积核均为n*k的矩阵,其中,n和k为正整数,所述计算所述第m卷积核与第(m-1)卷积核的均方误差,以得到卷积核均方误差,包括:
获取所述第m卷积核中n*k的数值以及获取所述第(m-1)卷积核中n*k的数值;
按照计算所述第m卷积核与所述第(m-1)卷积核的均方误差,以得到所述卷积核均方误差,其中,aij为所述第m卷积核中第i行第j列的数值,bij为所述第(m-1)卷积核中第i行第j列的数值,i为整数,j为整数。
其中,n例如可等于1、2、3、5、6、11、13、20或其他值。
其中,k例如可等于1、2、3、5、6、11、13、20或其他值。
其中,i例如可等于1、2、3、5、6、11、13、20或其他值。
其中,j例如可等于1、2、3、5、6、11、13、20或其他值。
举例来说,第m卷积核与第(m-1)卷积核均为3*3的矩阵,即n为3,k也为3。其中,第m卷积核为第(m-1)卷积核为/>那么按照/>计算,可以得出卷积核均方误差为:1。
可选的,基于第一方面或第一方面的第一种可能的实施方式,在本发明第二种可能的实施方式中,所述第m特征图与所述第(m-1)特征图均为r*t的矩阵,其中,r和t均为正整数,所述若所述卷积核均方误差大于所述预设卷积核均方误差,则计算所述第m特征图与第(m-1)特征图的均方误差,以得到特征图均方误差,包括:
若所述卷积核均方误差大于所述预设卷积核均方误差,则获取所述第m特征图中r*t的数值以及所述第(m-1)特征图中r*t的数值;
按照计算所述第m特征图与所述第(m-1)特征图的均方误差,以得到所述特征图均方误差,其中,cij为所述第m特征图中第i行第j列的数值,dij为所述第(m-1)特征图中第i行第j列的数值。
其中,r例如可等于1、2、3、5、6、11、13、20或其他值。
其中,t例如可等于1、2、3、5、6、11、13、20或其他值。
举例来说,第m特征图与第(m-1)特征图均为3*3的矩阵,即r为3,t也为3。其中,第m特征图为第(m-1)特征图为/>那么按照/>计算,可以得出特征图均方误差为:11.44。
202、服务器通过所述第一训练数据执行卷积神经网络模型的第m次正向运算,以得到p层卷积层的p个特征图。
其中,m为正整数。
其中,正向运算指的是从输入的特征向量到输出最后到代价函数的这样一个把低级特征逐步计算为抽象的高级特征直到得出损失的过程,简而言之,就是逐层处理各层的输入数据,经过一定的计算,得到输出数据的过程。
可选的,卷积神经网络模型中层的运算的类型包括:卷积层、全连接层、归一化(规则化)层、池化层、激活层。
其中,归一化层包括:LRN(Local Response Normalization)层,BN(BatchNormalization)层等类型。
其中,激活层:Sigmoid层,ReLU层,PReLu层,LeakyReLu层,Tanh层。
可选的,p个特征图为p层卷积层中的每层经过卷积运算后的输出结果。。进一步的,这里的输出结果是指每层的输入数据与每层的卷积核进行卷积运算后的结果。
其中,m例如可等于1、2、3、5、6、11、13、20或其他值。
203、服务器获取与所述p层卷积层一一对应的p个卷积核。
204、服务器计算所述p个卷积核与q个卷积核的均方误差,以得到p个卷积核均方误差。
其中,所述p个卷积核与所述q个卷积核一一对应,所述q个卷积核为第(m-1)次正向运算时所述p层卷积层的卷积核。
205、服务器将所述p个卷积核均方误差与预设p个卷积核均方误差进行对比,以确定所述p个卷积核均方误差是否大于所述预设p个卷积核均方误差。
其中,所述p个卷积核均方误差与所述预设p个卷积核均方误差一一对应。
可选的,第一方面,在本发明的一种可能的实施方式中,所述方法还包括:
若所述p个卷积核均方误差均不大于所述预设p个卷积核均方误差,则将x条验证数据按照所述x条验证数据对应的编号顺序依次输入所述卷积神经网络模型以得到x个输出结果,其中,所述x条验证数据为带验证标签的数据,x为正整数;
将所述x个输出结果分别输入图像分类器,以得到x组概率值,其中,第e组包含f条预设数据的f个概率值,所述第e组属于所述x组概率值,0<e≤x且e为整数,f为正整数;
获取所述x组概率值中每组所述f个概率值中的最大概率值对应的预设数据,以得到x条预设数据;
提取与所述x条预设数据一一对应的x个预设标签;
将所述x个预设标签与所述x条验证数据一一对应的x个验证标签进行对比,以统计所述x个预设标签与所述x个验证标签一致的概率值;
将所述概率值与预设概率值进行对比,以确定所述概率值是否小于所述预设概率值;
若所述概率值小于所述预设概率值,则将第二训练数据输入所述卷积神经网络模型以执行所述卷积神经网络模型的所述第(m+1)次正向运算,进而调整所述p层卷积层中的卷积核。
其中,图像分类器是由卷积神经网络模型提取的相应的训练图像的特征进行训练得到的。
图像分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
举例来说,图像分类器例如可以包括:利用灰度直方图特征对图像进行分类,利用纹理特征对图像进行分类,采用纹理、边缘和颜色直方图混合特征对图像进行分类,均采用SVM作为图像分类器;用矩阵表示图像,矩阵元素是相应象素的灰度值,然后用SVD和PCA方法抽取图像特征,BP网络作为图像分类器。
其中,验证数据例如可以包括车牌图像、人脸图像、文字图像等。
其中,x例如可等于1、2、3、5、6、11、13、20或其他值。
其中,e例如可等于1、2、3、5、6、11、13、20或其他值。
其中,f例如可等于1、2、3、5、6、11、13、20或其他值。
可以看出,上述技术方案中,在p个卷积核均方误差均不大于预设p个卷积核均方误差时,将x条验证数据按照x条验证数据对应的编号顺序依次输入卷积神经网络模型以得到x个输出结果,然后,将x个输出结果分别输入图像分类器,以得到x组概率值,紧接着,获取x组概率值中每组f个概率值中的最大概率值对应的预设数据,以得到x条预设数据,进而提取与x条预设数据一一对应的x个预设标签,然后,将x个预设标签与x条验证数据一一对应的x个验证标签进行对比,以统计x个预设标签与x个验证标签一致的概率值,通过将概率值与预设概率值进行对比,来确定概率值是否小于预设概率值,若是,则将第二训练数据输入卷积神经网络模型以执行卷积神经网络模型的第(m+1)次正向运算,进而调整p层卷积层中的卷积核,从而实现对训练好的卷积神经网络模型的验证,当概率值小于预设概率值,则表明训练失败,从而需要再次输入训练数据,继续训练,以得到准确率更高的卷积神经网络模型。
可选的,基于第一方面,在本发明的第一种可能的实施方式中,所述方法还包括:
若所述概率值不小于所述预设概率值,则将待分类的图像进行量化,以得到量化数据;
基于量化维度将所述量化数据拆分成y个数据块,其中,y为大于1的整数;
向(y-1)个服务器发送(y-1)个训练指令,其中,所述(y-1)个服务器与所述(y-1)个训练指令一一对应,所述(y-1)个训练指令携带所述y个数据块中的(y-1)个数据块,所述(y-1)个训练指令中的第s个训练指令用于指示所述(y-1)个服务器中的第s个服务器通过第s个数据块执行所述卷积神经网络模型的正向运算,以得到(y-1)个特征向量中的第s个特征向量,所述(y-1)个服务器均嵌有所述卷积神经网络模型,所述第s个数据块属于所述(y-1)个数据块,0<s≤(y-1)且s为整数;
接收所述(y-1)个服务器发送的(y-1)个训练结束指令,其中,所述(y-1)个服务器与所述(y-1)个训练结束指令一一对应,所述(y-1)个训练结束指令携带所述(y-1)个特征向量;
将y个特征向量进行拼接,以得到拼接结果,其中,所述y个特征向量包括所述(y-1)个特征向量和第一特征向量,所述第一特征向量由所述服务器通过所述y个数据块中的第一数据块执行所述卷积神经网络模型的正向运算得到。
其中,待分类的图像例如可以包括车牌图像、人脸图像、文字图像等。
其中,y例如可等于2、3、5、6、11、13、20或其他值。
其中,s例如可等于1、2、3、5、6、11、13、20或其他值。
在将该卷积神经网络模型用于进行图像识别时,也就是说,当待分类的图像是车牌图像、人脸图像或文字图像时,需要先将该图像进行量化处理,从而得到量化数据,再根据量化维度将量化数据进行拆分,再将不同的数据块输入到不同设备中,进行识别,最后将不同数据块对应的不同特征向量进行拼接,从而得到最后的拼接结果,也就是最后的图像识别结果。在不同服务器中,都嵌入了卷积神经网络模型,且该卷积神经网络模型中包含的卷积层数量是根据预设卷积层设置策略进行调整后的。让多个服务器同时进行计算,加快了计算速度,从而能够更快的得到最后的识别结果。
可以看出,上述技术方案中,通过将待分类的图像进行量化,以得到量化数据,实现基于量化维度将所述量化数据拆分成y个数据块,然后向(y-1)个服务器发送携带(y-1)个数据块的(y-1)个训练指令,以便于(y-1)个服务器执行正向运算,接着,接收(y-1)个服务器发送的((y-1)个特征向量,从而将y个特征向量进行拼接,以得到拼接结果,进而减少一个服务器计算的数据量,减轻计算负担,提高计算效率。
可选的,基于第一方面或第一方面的可能实施方式,在本发明的第二种可能的实施方式中,所述方法还包括:
将所述拼接结果输入所述图像分类器,以得到包含w条预设数据的w个概率值,其中,w为正整数;
选取所述w个概率值中最大概率值对应的预设数据;
提取与所述预设数据对应的预设标签;
将所述预设标签与所述拼接结果对应的拼接标签进行对比,以确定所述预设标签与所述拼接标签相同。
206、若所述p个卷积核均方误差均大于所述预设p个卷积核均方误差,服务器则计算所述p个特征图与q个特征图的均方误差,以得到p个特征图均方误差。
其中,所述p个特征图与所述q个特征图一一对应,所述q个特征图为所述第(m-1)次正向运算时所述p层卷积层的特征图。
207、服务器将所述p个特征图均方误差与预设p个特征图均方误差进行对比,以确定所述p个特征图均方误差是否大于所述预设p个特征图均方误差。
其中,所述p个特征图均方误差与所述预设p个特征图均方误差一一对应。
208、若所述p个特征图均方误差均大于所述预设p个特征图均方误差,服务器则将所述p个卷积核设置为第(m+1)次正向运算时所述p层卷积层中的卷积核。
可选的,在本发明的一种可能的实施方式中,所述方法还包括:
若所述p个特征图均方误差均不大于所述预设p个特征图均方误差,则删除所述p个卷积核;
将所述q个卷积核设置为所述第(m+1)次正向运算时所述p层卷积层中的卷积核;
将第三训练数据输入所述卷积神经网络模型以执行所述卷积神经网络模型的所述第(m+1)次正向运算,进而调整所述p层卷积层中的卷积核。
参见图3,图3为本发明的一个实施例提供的一种图像识别装置的示意图。其中,如图3所示,本发明的一个实施例提供的一种图像识别装置300可以包括:
获取模块301,用于获取第一待识别图像。
其中,第一待识别图像例如可以包括车牌图像、人脸图像、文字图像等。
量化模块302,用于将所述第一待识别图像进行量化,以得到所述第一待识别图像的第一量化数据。
可选的,量化就是把采样点上对应的亮度连续变化区间转换为单个特定数码的过程。
其中,第一量化数据中的每个量化数据包括第一待识别图像中每个像素的位置和灰度。进一步来说,第一量化数据为一个整数矩阵。其中,位置由第一待识别图像中每个像素的所在行、所在列表示。灰度表示该像素亮暗程度,其亮暗程度用整数表示。灰度级一般为0-255(8bit量化)。
输出模块303,用于将所述第一量化数据输入卷积神经网络模型,以得到所述第一量化数据对应的图像识别结果。
其中,所述卷积神经网络模型中包含的p层卷积层由服务器根据预设卷积层设置策略设置得到,所述p层卷积层中包含的p个卷积核由所述服务器在将p个特征图均方误差与预设p个特征图均方误差进行对比后确定,p为正整数,q=p且q为正整数。
其中,p例如可等于1、2、3、5、6、11、13、20或其他值。
其中,q例如可等于1、2、3、5、6、11、13、20或其他值。
可选的,卷积神经网络模型中层的运算的类型包括:卷积层、全连接层、归一化(规则化)层、池化层、激活层。
其中,归一化层包括:LRN(Local Response Normalization)层,BN(BatchNormalization)层等类型。
其中,激活层:Sigmoid层,ReLU层,PReLu层,LeakyReLu层,Tanh层。
可选的,特征图为卷积层中的每层经过卷积运算后的输出结果。进一步的,这里的输出结果是指每层的输入数据与每层的卷积核进行卷积运算后的结果。
其中,所述p个特征图为所述第m次正向运算时所述p层卷积层的特征图。所述q个特征图为所述第(m-1)次正向运算时所述p层卷积层的特征图。进一步的,其中,正向运算指的是从输入的特征向量到输出最后到代价函数的这样一个把低级特征逐步计算为抽象的高级特征直到得出损失的过程,简而言之,就是逐层处理各层的输入数据,经过一定的计算,得到输出数据的过程。
其中,m为正整数。
其中,m例如可等于1、2、3、5、6、11、13、20或其他值。
其中,p个特征图均方误差由服务器对所述p个特征图与所述q个特征图的计算得到。
其中,预设p个特征图均方误差由服务器根据每层输入数据与每层输出数据的差值进行设置。
另外,在将第一量化数据输入卷积神经网络模型前,先初始化该卷积神经网络模型中包含的多个参数,多个参数中包括p层卷积层的p个卷积核。同时,根据预设卷积层设置策略调整该卷积神经网络模型包含的卷积层数量。
其中,预设卷积层设置策略由服务器根据图像识别的效果进行确定。这里涉及的图像识别的效果主要指通过将图像输入该卷积神经网络模型后,图像可以很好的识别出来。举例来说,比如,某图像中包含数字“3”,那么将该图像输入卷积神经网络模型后,输出的结果也是“3”。这就意味着图像可以很好的识别出来。
在待识别图像不同时,预设卷积层设置策略也不同,对应的卷积层数量也不同,卷积核的大小也不同。
举例来说,在待识别图像为车牌图像,也就是说,该图像中包含车牌号码时,由于该车牌图像中包含汉字、数字、字母,所以,在根据预设卷积层设置策略调整该卷积神经网络模型包含的卷积层数量时,与待识别图像为人脸图像时的卷积层数量不同。因为,将人脸图像输入该卷积神经网络模型时,为了更好的将人脸成功的识别出来,涉及的卷积层数量会更多,权重也会进行适应调整,卷积核的大小也不同,因此,特征图也不同。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性或者其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种图像识别方法,其特征在于,包括:
获取第一待识别图像;
将所述第一待识别图像进行量化,以得到所述第一待识别图像的第一量化数据;
将所述第一量化数据输入卷积神经网络模型,以得到所述第一量化数据对应的图像识别结果;
其中,所述卷积神经网络模型中包含的p层卷积层由服务器根据预设卷积层设置策略设置得到,所述p层卷积层中包含的p个卷积核由所述服务器在将p个特征图均方误差与预设p个特征图均方误差进行对比后确定,p为正整数,q=p且q为正整数;
所述卷积神经网络模型的训练过程涉及的步骤包括:
接收训练指令,其中,所述训练指令中携带第一训练数据;
通过所述第一训练数据执行所述卷积神经网络模型的第m次正向运算,以得到p层卷积层的p个特征图,其中,m为正整数;
获取与所述p层卷积层一一对应的p个卷积核;
计算所述p个卷积核与q个卷积核的均方误差,以得到p个卷积核均方误差,其中,所述p个卷积核与所述q个卷积核一一对应,所述q个卷积核为第m-1次正向运算时所述p层卷积层的卷积核;
将所述p个卷积核均方误差与预设p个卷积核均方误差进行对比,以确定所述p个卷积核均方误差是否大于所述预设p个卷积核均方误差,其中,所述p个卷积核均方误差与所述预设p个卷积核均方误差一一对应;
若所述p个卷积核均方误差均大于所述预设p个卷积核均方误差,则计算所述p个特征图与q个特征图的均方误差,以得到p个特征图均方误差,其中,所述p个特征图与所述q个特征图一一对应,所述q个特征图为所述第m-1次正向运算时所述p层卷积层的特征图;
将所述p个特征图均方误差与预设p个特征图均方误差进行对比,以确定所述p个特征图均方误差是否大于所述预设p个特征图均方误差,其中,所述p个特征图均方误差与所述预设p个特征图均方误差一一对应;
若所述p个特征图均方误差均大于所述预设p个特征图均方误差,则将所述p个卷积核设置为第m+1次正向运算时所述p层卷积层中的卷积核。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述p层卷积层中的第h层卷积层接收第h层输入数据时,将所述第h层输入数据与所述第h层卷积层的第m卷积核进行卷积,以得到第m特征图,其中,0<h≤p且h为整数;
计算所述第m卷积核与第m-1卷积核的均方误差,以得到卷积核均方误差,其中,所述第m-1卷积核为所述第m-1次正向运算时所述第h层卷积层的卷积核;
将所述卷积核均方误差与预设卷积核均方误差进行对比,以确定所述卷积核均方误差是否大于所述预设卷积核均方误差,其中,所述预设卷积核均方误差为所述预设p个卷积核均方误差中所述第h层卷积层的预设卷积核均方误差;
若所述卷积核均方误差大于所述预设卷积核均方误差,则计算所述第m特征图与第m-1特征图的均方误差,以得到特征图均方误差,其中,所述第m-1特征图由服务器进行所述第m-1次正向运算时所述第h层输入数据与所述第m-1卷积核进行卷积得到;
将所述特征图均方误差与预设特征图均方误差进行对比,以确定所述特征图均方误差是否大于所述预设特征图均方误差,其中,所述预设特征图均方误差为所述预设p个特征图均方误差中所述第h层卷积层的预设特征图均方误差;
若所述特征图均方误差大于所述预设特征图均方误差,则将所述第m卷积核设置为所述第m+1次正向运算时所述第h层卷积层的卷积核。
3.根据权利要求2所述的方法,其特征在于,所述第m卷积核与所述第m-1卷积核均为n*k的矩阵,其中,n和k为正整数,所述计算所述第m卷积核与第m-1卷积核的均方误差,以得到卷积核均方误差,包括:
获取所述第m卷积核中n*k的数值以及获取所述第m-1卷积核中n*k的数值;
按照计算所述第m卷积核与所述第m-1卷积核的均方误差,以得到所述卷积核均方误差,其中,/>为所述第m卷积核中第i行第j列的数值,/>为所述第m-1卷积核中第i行第j列的数值,i为整数,j为整数。
4.根据权利要求2所述的方法,其特征在于,所述第m特征图与所述第m-1特征图均为r*t的矩阵,其中,r和t均为正整数,所述若所述卷积核均方误差大于所述预设卷积核均方误差,则计算所述第m特征图与第m-1特征图的均方误差,以得到特征图均方误差,包括:
若所述卷积核均方误差大于所述预设卷积核均方误差,则获取所述第m特征图中r*t的数值以及所述第m-1特征图中r*t的数值;
按照计算所述第m特征图与所述第m-1特征图的均方误差,以得到所述特征图均方误差,其中,/>为所述第m特征图中第i行第j列的数值,/>为所述第m-1特征图中第i行第j列的数值。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述p个卷积核均方误差均不大于所述预设p个卷积核均方误差,则将x条验证数据按照所述x条验证数据对应的编号顺序依次输入所述卷积神经网络模型以得到x个输出结果,其中,所述x条验证数据为带验证标签的数据,x为正整数;
将所述x个输出结果分别输入图像分类器,以得到x组概率值,其中,第e组包含f条预设数据的f个概率值,所述第e组属于所述x组概率值,0<e≤x且e为整数,f为正整数;
获取所述x组概率值中每组所述f个概率值中的最大概率值对应的预设数据,以得到x条预设数据;
提取与所述x条预设数据一一对应的x个预设标签;
将所述x个预设标签与所述x条验证数据一一对应的x个验证标签进行对比,以统计所述x个预设标签与所述x个验证标签一致的概率值;
将所述概率值与预设概率值进行对比,以确定所述概率值是否小于所述预设概率值;
若所述概率值小于所述预设概率值,则将第二训练数据输入所述卷积神经网络模型以执行所述卷积神经网络模型的所述第m+1次正向运算,进而调整所述p层卷积层中的卷积核。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述概率值不小于所述预设概率值,则将第二待识别图像进行量化,以得到所述第二待识别图像的第二量化数据;
基于量化维度将所述第二量化数据拆分成y个数据块,其中,y为大于1的整数;
向y-1个服务器发送y-1个训练指令,其中,所述y-1个服务器与所述y-1个训练指令一一对应,所述y-1个训练指令携带所述y个数据块中的y-1个数据块,所述y-1个训练指令中的第s个训练指令用于指示所述y-1个服务器中的第s个服务器通过第s个数据块执行所述卷积神经网络模型的正向运算,以得到y-1个特征向量中的第s个特征向量,所述y-1个服务器均嵌有所述卷积神经网络模型,所述第s个数据块属于所述y-1个数据块,0<s≤y-1且s为整数;
接收所述y-1个服务器发送的y-1个训练结束指令,其中,所述y-1个服务器与所述y-1个训练结束指令一一对应,所述y-1个训练结束指令携带所述y-1个特征向量;
将y个特征向量进行拼接,以得到拼接结果,其中,所述y个特征向量包括所述y-1个特征向量和第一特征向量,所述第一特征向量由所述服务器通过所述y个数据块中的第一数据块执行所述卷积神经网络模型的正向运算得到。
7.一种图像识别装置,其特征在于,用于实现如权利要求1所述的图像识别方法,包括:
获取模块,用于获取第一待识别图像;
量化模块,用于将所述第一待识别图像进行量化,以得到所述第一待识别图像的第一量化数据;
输出模块,用于将所述第一量化数据输入卷积神经网络模型,以得到所述第一量化数据对应的图像识别结果;
其中,所述卷积神经网络模型中包含的p层卷积层由服务器根据预设卷积层设置策略设置得到,所述p层卷积层中包含的p个卷积核由所述服务器在将p个特征图均方误差与预设p个特征图均方误差进行对比后确定,p为正整数,q=p且q为正整数。
8.一种电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,以执行权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行,以实现权利要求1-6任一项所述的方法。
CN201910524688.6A 2019-06-18 2019-06-18 一种图像识别方法和相关装置 Active CN110298394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910524688.6A CN110298394B (zh) 2019-06-18 2019-06-18 一种图像识别方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910524688.6A CN110298394B (zh) 2019-06-18 2019-06-18 一种图像识别方法和相关装置

Publications (2)

Publication Number Publication Date
CN110298394A CN110298394A (zh) 2019-10-01
CN110298394B true CN110298394B (zh) 2024-04-05

Family

ID=68028159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910524688.6A Active CN110298394B (zh) 2019-06-18 2019-06-18 一种图像识别方法和相关装置

Country Status (1)

Country Link
CN (1) CN110298394B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929623A (zh) * 2019-11-15 2020-03-27 北京达佳互联信息技术有限公司 多媒体文件的识别方法、装置、服务器和存储介质
CN112926610A (zh) * 2019-12-06 2021-06-08 顺丰科技有限公司 车牌图像筛选模型的构建方法与车牌图像筛选方法
CN112116001B (zh) * 2020-09-17 2022-06-07 苏州浪潮智能科技有限公司 图像识别方法、装置及计算机可读存储介质
CN116091486B (zh) * 2023-03-01 2024-02-06 合肥联宝信息技术有限公司 表面缺陷检测方法、装置、电子设备及存储介质
CN117095271B (zh) * 2023-10-20 2023-12-29 第六镜视觉科技(西安)有限公司 目标识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009594A (zh) * 2017-12-25 2018-05-08 北京航空航天大学 一种基于变分组卷积的图像识别方法
WO2018120740A1 (zh) * 2016-12-29 2018-07-05 深圳光启合众科技有限公司 图片分类方法和装置、机器人
CN108763897A (zh) * 2018-05-22 2018-11-06 平安科技(深圳)有限公司 身份合法性的校验方法、终端设备及介质
CN109001557A (zh) * 2018-06-11 2018-12-14 西北工业大学 一种基于随机卷积神经网络的飞机机电系统故障识别方法
CN109657582A (zh) * 2018-12-10 2019-04-19 平安科技(深圳)有限公司 人脸情绪的识别方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018120740A1 (zh) * 2016-12-29 2018-07-05 深圳光启合众科技有限公司 图片分类方法和装置、机器人
CN108009594A (zh) * 2017-12-25 2018-05-08 北京航空航天大学 一种基于变分组卷积的图像识别方法
CN108763897A (zh) * 2018-05-22 2018-11-06 平安科技(深圳)有限公司 身份合法性的校验方法、终端设备及介质
CN109001557A (zh) * 2018-06-11 2018-12-14 西北工业大学 一种基于随机卷积神经网络的飞机机电系统故障识别方法
CN109657582A (zh) * 2018-12-10 2019-04-19 平安科技(深圳)有限公司 人脸情绪的识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的图像大数据识别;吴海丽;;山西大同大学学报(自然科学版)(02);第29-31、43页 *

Also Published As

Publication number Publication date
CN110298394A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN110298394B (zh) 一种图像识别方法和相关装置
US11657602B2 (en) Font identification from imagery
CN108229479B (zh) 语义分割模型的训练方法和装置、电子设备、存储介质
CN110210560B (zh) 分类网络的增量训练方法、分类方法及装置、设备及介质
CN107292352B (zh) 基于卷积神经网络的图像分类方法和装置
WO2021164625A1 (en) Method of training an image classification model
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN109766469A (zh) 一种基于深度哈希学习优化的图像检索方法
CN111914908B (zh) 一种图像识别模型训练方法、图像识别方法及相关设备
US20190378009A1 (en) Method and electronic device for classifying an input
CN113505797B (zh) 模型训练方法、装置、计算机设备和存储介质
CN110059677A (zh) 基于深度学习的数字表识别方法及设备
US20220261623A1 (en) System and method for channel-separable operations in deep neural networks
CN112132279B (zh) 卷积神经网络模型压缩方法、装置、设备及存储介质
CN111223128A (zh) 目标跟踪方法、装置、设备及存储介质
CN112232426A (zh) 目标检测模型的训练方法、装置、设备及可读存储介质
KR20180022288A (ko) 부분구조 학습기법과 영상데이터를 이용한 신경망 학습 방법 및 장치
CN111259812A (zh) 基于迁移学习的内河船舶重识别方法、设备及存储介质
CN112598062A (zh) 一种图像识别方法和装置
CN111814884A (zh) 一种基于可变形卷积的目标检测网络模型的升级方法
CN115713669A (zh) 一种基于类间关系的图像分类方法、装置、存储介质及终端
CN117616424A (zh) 用于平衡权重中的稀疏性以用于加速深度神经网络的系统和方法
CN112288748B (zh) 一种语义分割网络训练、图像语义分割方法及装置
CN114299304A (zh) 一种图像处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant