CN109753938B - 图像识别方法和设备及应用、神经网络的训练方法 - Google Patents

图像识别方法和设备及应用、神经网络的训练方法 Download PDF

Info

Publication number
CN109753938B
CN109753938B CN201910023676.5A CN201910023676A CN109753938B CN 109753938 B CN109753938 B CN 109753938B CN 201910023676 A CN201910023676 A CN 201910023676A CN 109753938 B CN109753938 B CN 109753938B
Authority
CN
China
Prior art keywords
neural network
target image
image
image recognition
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910023676.5A
Other languages
English (en)
Other versions
CN109753938A (zh
Inventor
陈冠男
贾红红
张丽杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201910023676.5A priority Critical patent/CN109753938B/zh
Publication of CN109753938A publication Critical patent/CN109753938A/zh
Priority to US16/639,934 priority patent/US11244151B2/en
Priority to PCT/CN2019/110275 priority patent/WO2020143255A1/en
Application granted granted Critical
Publication of CN109753938B publication Critical patent/CN109753938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression

Abstract

提供了一种图像识别方法,包括:对目标图像进行特征提取,以获得目标图像的特征数据;将所述目标图像和所述目标图像的特征数据分别输入到第一神经网络和第二神经网络,以获得第一预测结果和第二预测结果;融合第一预测结果和第二预测结果以获得图像识别结果。还提供了图像识别设备及应用、神经网络的训练方法。

Description

图像识别方法和设备及应用、神经网络的训练方法
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像识别方法和设备及应用、神经网络的训练方法。
背景技术
人脸特征识别技术,是模式识别领域中的一个研究热点,并且该技术已广泛用于安防,金融,娱乐,日常生活等方面。在人脸特征识别中,表情识别是研究热点之一表情识别是人脸特征识别技术领域的延伸,也是该领域的一个难点。由于人类面部表情的复杂性,利用机器学习的方法对表情进行分类的准确率一直难以有实质性突破。深度学习的发展为图像模式识别的性能提升提供了更多的可能性,所以基于深度学习技术的表情识别研究也是近年来人脸特征识别领域的热门关注点。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
根据本公开的一个方面,提供一种图像识别方法,包括:
对目标图像进行特征提取,以获得目标图像的特征数据;
将所述目标图像和所述目标图像的特征数据分别输入到第一神经网络和第二神经网络,以获得第一预测结果和第二预测结果;
融合第一预测结果和第二预测结果以获得图像识别结果。
在一些实施例中,所述对目标图像进行特征提取包括对所述目标图像进行Garbor滤波以获得多个尺度和方向的响应图。
在一些实施例中,还包括根据对第二预测结果准确度的贡献从多个尺度和方向的响应图中选择部分尺度和方向的响应图的步骤。
在一些实施例中,通过多个Garbor滤波器构成的Garbor滤波组对所述目标图像进行Garbor滤波以获得5尺度、8方向的响应图。
在一些实施例中,选取尺度48x48、67x67,方向0、π/8和2π/8的Garbor滤波器的输出结果作为目标图像的特征数据。
在一些实施例中,第一神经网络和第二神经网络为卷积神经网络。
在一些实施例中,所述卷积神经网络为DenseNet。
在一些实施例中,所述融合包括计算所述第一预测结果和所述第二预测结果的加权和。
根据本公开的另一方面,提供了一种图像识别设备,包括:
与图像源连接的第一神经网络处理器和特征提取器,所述第一神经网络处理器配置成对从图像源所输入的目标图像进行分析以获得第一预测结果;所述特征提取器配置成对同一目标图像进行特征提取以获得目标图像的特征数据;
与特征提取器连接的第二神经网络处理器,所述第二神经网络处理器配置成对目标图像的特征数据进行分析以获得第二预测结果;
与第一神经网络处理器和第二神经网络处理器连接的融合处理器,所述融合处理器配置成根据第一预测结果和第二预测结果以获得图像识别结果。
在一些实施例中,所述特征提取器包括多个Garbor滤波器。
在一些实施例中,所述特征提取器配置成输出尺度48x48、67x67,方向0、π/8和2π/8的Garbor滤波器的输出结果。
在一些实施例中,所述第一神经网络处理器配置成执行第一DenseNet神经网络,所述第二神经网络处理器配置成执行第二DenseNet神经网络。
在一些实施例中,所述融合处理器配置成对第一预测结果和第二预测结果加权求和。
在本公开的还一方面,提供了上述任一实施例的图像识别设备在识别面部表情中的应用,其中,所述图像源配置成提供包括面部的目标图像,所述融合处理器配置成提供对目标图像的面部的表情的识别结果。
在本公开的还一方面,提供了一种图像识别设备,包括:
处理器;以及
存储器,用于存储计算指令;
其中,所述处理器配置为经由执行所述计算指令来执行前述任一实施例的图像识别方法。
在本公开的还一方面,提供了一种神经网络的训练方法,所述神经网络用于前述任一实施例的图像识别设备,所述训练方法包括:
提供未经训练的初始的第一神经网络和第二神经网络;
将训练样本输入到所述图像识别设备,以对所述初始的第一神经网络和第二神经网络进行训练以调整其参数;
重复训练过程,以得到训练完成的第一神经网络和第二神经网络;
其中,所述训练样本包括目标图像样本和对应的标签。
在一些实施例中,所述目标图像样本包括面部,所述标签为目标图像样本中面部的表情。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
通过参照附图来详细描述其示例性实施例,本公开的上述和其它特征及优点将变得更加明显。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本公开实施例的图像识别方法的流程图;
图2示出了根据本公开实施例的图像识别方法的算法结构的示意图;
图3示出了Gabor滤波器组的响应图;
图4A和图4B分别示出了一个示例性人脸图像以及相应的Gabor滤波器组的响应图;
图5示出了根据本公开示例性实施例的DenseNet结构图;
图6示出了根据本公开示例性实施例的图像识别设备的框图;
图7示出了根据本公开示例性实施例的图像识别设备的框图;
图8示出了根据本公开示例性实施例的神经网络训练方法的流程图;
图9示出了根据本公开示例性实施例的电子设备的模块示意图;
图10示出了根据本公开示例性实施例的程序产品的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本公开的实施例提供了一种图像识别方法。图1示出了该图像识别方法的流程图。参照图1所示,所述图像识别方法可以包括以下步骤:
S110:对目标图像进行特征提取,以获得目标图像的特征数据;
S120:将所述目标图像和所述目标图像的特征数据分别输入到第一神经网络和第二神经网络,以获得第一预测结果和第二预测结果;
S130:融合第一预测结果和第二预测结果以获得图像预测结果作为图像识别结果。
本公开的实施例提供的图像识别方法,利用两个并行的神经网络分别对目标图像和目标图像中的特征数据进行分析,并将两个神经网络输出的结果进行融合,提高了执行速度和准确率。
参照图2,其示出了图像识别方法的算法结构的示意图。
在一些实施例中,通过Garbor滤波的方法对目标图像进行特征提取。本领域技术人员应当理解,本公开的特征提取不限于使用Garbor滤波,而可以使用其它用于提取图像特征的方法,如Steerable滤波、Schmid滤波。
在一些实施例中,使用卷积神经网络作为第一神经网络和第二神经网络。如图2所示,以DenseNet卷积神经网络为例示出了第一神经网络和第二神经网络,然而本领域技术人员应当理解,本公开的卷积网络不限于DenseNet,诸如ResNet、Wide ResNet、Dual-Path-Net、Senet等均可适用于本公开。
如图2所示,输入的目标图像被同时输入至第一神经网络以及Garbor滤波器,Garbor滤波器的输出被输入至第二神经网络。第一神经网络的输出和第二神经网络的输出进行融合计算,从而获得最终的图像预测结果。
下面对本公开实施例所用的Garbor滤波器进行说明。
二维Gabor基函数能够很好地描述哺乳动物初级视觉系统中一对简单视觉神经元的感受野特性。随着小波变换和神经生理学的发展,Gabor变换逐渐演变成二维Gabor小波的形式。Gabor滤波器对于图像的亮度和对比度变化以及人脸姿态变化具有较强的健壮性,在人脸图像处理中可以表达对人脸识别最为有用的局部特征。
Garbor滤波器函数表达如下:
Figure BDA0001941703120000051
其中,波长(λ):它的值以像素为单位指定,通常大于等于2,但不能大于输入图像尺寸的五分之一。方向(θ):这个参数指定了Gabor函数并行条纹的方向,它的取值为0到2π。相位偏移(φ):它的取值范围为-π到π。其中,0、π度分别对应中心对称的center-on函数和center-off函数,而-π/2和π/2对应反对称函数。长宽比(γ):空间纵横比,决定了Gabor函数形状的椭圆率(ellipticity)。当γ=1时,形状是圆的。当γ<1时,形状随着平行条纹方向而拉长。通常该值为0.5。带宽(b):Gabor滤波器的半响应空间频率带宽b和σ/λ的比率有关,其中σ表示Gabor函数的高斯因子的标准差,σ的值不能直接设置,它仅随着带宽b变化。带宽值必须是正实数,通常为1,此时,标准差和波长的关系为:σ=0.56λ。
在一些实施例中,通过采用多个Gabor滤波器对目标图像进行Garbor滤波以获得多个尺度和方向的响应图。
在一些实施例中,采用5尺度,8方向共40个滤波器构成的滤波器组对目标图像进行Garbor滤波以获得5尺度、8方向的响应图。
例如,图3中示出了Gabor滤波器组的响应图。图4A和图4B分别示出了一个示例性人脸图像以及相应的Gabor滤波器组的响应图。
在一些实施例中,为了减少特征数据量,简化运算,根据对第二预测结果准确度的贡献从多个尺度和方向的响应图中选择部分尺度和方向的响应图。
在一些实施例中,采用支持向量机(SVM)算法对滤波器输出结果进行选择。以人脸表情识别为例,采用SVM算法,对人脸表情数据(选自JAFFE数据集)进行分析,以获取不同尺度或方向滤波器对于表情分析结果的贡献。并根据不同尺度与不同方向滤波器对于表情分析的结果贡献来选择Garbor滤波器组的输出结果中的一部分作为目标图像的特征。
下面的表1和表2分别示出了不同尺度和不同方向滤波器下的表情分析准确率。
表1不同尺度滤波器下的表情分析准确率
尺度 24x24 33x33 48x48 67x67 96x96
准确率 86% 87% 91% 95% 87%
表2不同方向滤波器下的表情分析准确率
尺度 0 π/8 2π/8 3π/8 4π/8 5π/8 6π/8 7π/8
准确率 92% 92% 89% 87% 78% 76% 87% 86%
通过表1和表2的分析结果,可以看出尺度48x48、67x67,方向0、π/8和2π/8对于人脸中的表情识别准确率的贡献较大。因此,在一些实施例中,在对所述目标图像进行Garbor滤波后选取尺度48x48、67x67,方向0、π/8和2π/8的滤波器的输出结果作为目标图像的特征数据,以将其输入到后续的第二神经网络中。
在一些实施例中,第一神经网络和第二神经网络均为DenseNet。所用的DenseNet由若干个稠密块(Dense block)构成,每个稠密块均由1x1卷积层和3x3卷积层构成,1x1卷积层主要负责输入数据的降维,3x3卷积层主要负责输入数据的特征提取。
本公开实施例所用的DenseNet,每一卷积层的输入由其前面所有卷积层的输出构成,但每一层卷积核的数目较少。每个卷积层的输入均含有充分的全局特征信息,每个卷积层的输出经过了数据降维,从而可提高运算速度。
在一些实施例中,第一神经网络和第二神经网络为相同结构的DenseNet。本领域技术人员可以理解,此处所称的相同结构,指的是稠密块的层数、每层稠密块中的卷积和池化层个数、每个卷积层的卷积核数目是相同的,但这并不代表第一神经网络和第二神经网络的DenseNet的参数也相同(二者的参数通常是不同的)。
参考图5,示出了根据本公开示例性实施例的DenseNet结构图。所用的DenseNet包括四层稠密块,输入数据经过四次卷积(convolution)和池化(pooling)获得输出的预测值。例如,每层稠密块可以包含8层卷积层,每个卷积层的卷积核数目为16。
另外,参照图5,根据本实施例的DenseNet还可以包括一层或多层的全连接层,以将与其连接的卷积层或池化层输出的3维特征数据转换为1维,并输出表情预测的结果。
在一些实施例中,可以通过计算第一预测结果和第二预测结果的加权和来融合第一预测结果和第二预测结果。
例如,第一神经网络和第二神经网络分别输出预测值P1和P2,因而总的预测结果P可采用加权融合的方式获得:
P=P1*α+P2*(1-α)
式中,α为第一神经网络的预测结果权重,(1-α)为第二神经网络的预测结果权重。
可以通过多种方式获得α的值,例如可以根据专家的经验等为α赋值;例如,可以通过统计学分析第一和第二神经网络各自的预测结果对最终预测结果的准确性的影响通过有限次调整获得合适的α的值;例如,可以根据数值优化方法基于已有的第一和第二神经网络各自的预测结果对最终预测结果的准确性的影响获得合适的α的值;例如,可以在第一和第二神经网络的训练过程中将α作为参数进行调整获得α的值。
应当理解的是,虽然本实施例中采用加权和来融合第一预测结果和第二预测结果,但本公开并不限于此。根据实际需要,可以采用其它融合方式来融合第一预测结果和第二预测结果,在此将不再赘述。
在本公开的至少一个实施例中,利用Garbor滤波器包含人脸的目标图像进行滤波,将目标图像和同一目标图像经滤波器输出分别作为两组DenseNet神经网络的输入,并将两组DenseNet神经网络的输出结果进行加权融合,得到人脸中表情的预测结果。该方法执行速度较快,可达到实时表情识别,另外Garbor滤波器对表情进行了特征表述,其表情识别准确率高于只基于原始表情图像作为输入的神经网络。
利用本公开的实施例,可以对输入人脸图像进行多种表情识别,例如高兴、惊讶、平静、悲伤、生气、厌恶和恐惧等。
在本公开的示例性实施例中,还提供了一种图像识别设备,如图6所示,包括:
提取模块610,配置为对目标图像进行特征提取,以获得目标图像的特征数据;
识别模块620,配置为将目标图像和目标图像的特征数据分别输入到第一神经网络和第二神经网络,以获得第一预测结果和第二预测结果;
输出模块630,配置为融合第一预测结果和第二预测结果以获得图像识别结果。
上述实施例中的电子设备的各个模块的具体细节已经在对应的图像识别方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
参考图7所示,本公开的实施例还提供了一种图像识别设备,与图像源640连接,包括:
与图像源640连接的第一神经网络处理器650和特征提取器660,第一神经网络处理器650配置成对从图像源640所输入的目标图像进行分析以获得第一预测结果;特征提取器660配置成对同一目标图像进行特征提取以获得目标图像的特征数据;
与特征提取器660连接的第二神经网络处理器670,第二神经网络处理器670配置成对目标图像的特征数据进行分析以获得第二预测结果;
与第一神经网络处理器650和第二神经网络处理器670连接的融合处理器680,融合处理器680配置成根据第一预测结果和第二预测结果以获得图像识别结果。
在一些实施例中,特征提取器660包括多个Garbor滤波器661,例如并行的多个Garbor滤波器661。
在一些实施例中,特征提取器配置成输出尺度48x48、67x67,方向0、π/8和2π/8的四个Garbor滤波器的输出结果。
在一些实施例中,第一神经网络处理器650配置成执行第一DenseNet神经网络,第二神经网络处理器670配置成执行第二DenseNet神经网络。
在此处,所称的执行DenseNet神经网络指的是DenseNet神经网络的程序代码在处理器上运行。
在一些实施例中,第一神经网络处理器和第二神经网络处理器配置成执行相同结构的DenseNet。本领域技术人员可以理解,此处所称的相同结构,指的是稠密块的层数、每层稠密块中的卷积和池化层个数、每个卷积层的卷积核数目是相同的,但这并不代表第一神经网络和第二神经网络的DenseNet的参数也相同(二者的参数通常是不同的)。
例如,参考图5,第一神经网络处理器和第二神经网络处理器所执行的DenseNet包括四层稠密块,输入数据经过四次卷积(convolution)和池化(pooling)获得输出的预测值。每层稠密块可以包含8层卷积层,每个卷积层的卷积核数目为16。
另外,参照图5,根据本实施例的DenseNet还可以包括一层或多层的全连接层,以将与其连接的卷积层或池化层输出的3维特征数据转换为1维,并输出表情预测的结果。
在一些实施例中,融合处理器680配置成对第一预测结果和第二预测结果加权求和。
在图7所示的图像识别设备中,图像源640可以是与图像识别设备通讯连接的实体存储设备,在存储设备中存储目标图像;还可以是图像识别设备通讯连接的虚拟存储设备,例如VPS、云存储等,在虚拟服务器或云端存储目标图像,并通过网络传输给图像识别设备。
通讯连接可以是无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet ofThings)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信,无线网络例如可以采用无线广域通信网络(WWAN)、蓝牙、Zigbee或者Wi-Fi等进行通信。
在图7所示的图像识别设备中,所用的特征提取器、第一神经网络处理器、第二神经网络处理器、融合处理器是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用处理器执行相应功能软件的形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
例如,处理器可以是通用的具有数据处理能力和/或程序执行能力的逻辑运算器件,诸如中央处理单元(CPU)、图像处理器(GPU)、微处理器(MCU)等,处理器执行对应功能的计算机指令以实现对应的功能。计算机指令包括了一个或多个由对应于处理器的指令集架构定义的处理器操作,这些计算机指令可以被一个或多个计算机程序在逻辑上包含和表示。
例如,处理器可以是具有可被编程调整功能以执行相应功能的硬件实体,诸如现场可编程逻辑阵列(FPGA)或者专用集成电路(ASIC)等。
例如,处理器可以是专门设计用来执行对应功能的硬件电路,如张量处理器(TPU)或神经网络处理器(NPU)等。
本公开的实施例还提供了上述任一实施例的图像识别设备在识别面部表情中的应用,其中,图像源640配置成提供包括面部的目标图像,融合处理器680配置成提供对目标图像的面部的表情的识别结果。
参考图8,本公开的实施例还提供了用于上述图像识别设备的神经网络的训练方法,包括下述步骤:
S210:提供未经训练的初始的第一神经网络和第二神经网络;
S220:将训练样本输入到所述图像识别设备,以对所述初始的第一神经网络和第二神经网络进行训练以调整其参数;
S230:重复训练过程,以得到训练完成的第一神经网络和第二神经网络;
其中,所述训练样本包括目标图像样本和对应的标签。
在上述实施例中,步骤S230所描述的“重复训练过程”,本领域技术人员可以理解这是对神经网络训练过程的描述。通过训练样本不断地更新神经网络的参数,以实现损失函数的最优化。该训练过程可以采用常见的反向传播BP,其它的方法例如BAM双向传播、正向传播等亦可适用于本公开。
本公开实施例所提供的训练方法,通过有监督训练,从而获得适用于所述图像识别设备的第一和第二神经网络。
在一些实施例中,目标图像样本包括面部,标签为目标图像样本中面部的表情。
通过该训练方法,获得适用于面部表情识别的图像识别设备所用的第一和第二神经网络。
下面参照图9来描述电子设备700,该电子设备700可在物理实体上实现图6所示的电子设备的功能模块。图8显示的电子设备700仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:处理器710;以及存储器720,用于存储所述处理器的可执行指令;其中,所述处理器710配置为经由执行所述可执行指令来执行前述的图像识别方法。
另外,如图9所示,该电子设备700还可以包括连接不同系统组件(包括存储器720和处理器710)的总线730以及用于图形输出的显示单元740等。
存储器720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
存储器720还可以包括具有一组(至少一个)程序模块7205的程序/工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备770(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
本公开的实施例还提供了一种计算机可读存储介质,其上存储有能够实现本公开上述实施例所描述的图像识别方法的程序产品。在一些可能的实施方式中,本公开的的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行根据本公开各种示例性实施方式的步骤。
参考图10所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (11)

1.一种图像识别方法,其特征在于,用于人脸表情识别,所述图像识别方法包括:
对目标图像进行特征提取,以获得目标图像的特征数据,所述对目标图像进行特征提取包括对所述目标图像进行Garbor滤波以获得多个尺度和方向的响应图;
将所述目标图像和所述目标图像的特征数据分别输入到第一神经网络和第二神经网络,以获得第一预测结果和第二预测结果,输入的所述目标图像被同时输入至所述第一神经网络和Garbor滤波器,所述Garbor滤波器的输出被输入至所述第二神经网络;
融合第一预测结果和第二预测结果以获得图像识别结果;所述融合包括计算所述第一预测结果和所述第二预测结果的加权和。
2.根据权利要求1所述的图像识别方法,其特征在于,所述方法还包括根据对第二预测结果准确度的贡献从多个尺度和方向的响应图中选择部分尺度和方向的响应图的步骤。
3.根据权利要求1所述的图像识别方法,其特征在于,通过多个Garbor滤波器构成的Garbor滤波组对所述目标图像进行Garbor滤波以获得5尺度、8方向的响应图。
4.根据权利要求1所述的图像识别方法,其特征在于,选取尺度48x48、67x67,方向0、π/8和2π/8的Garbor滤波器的输出结果作为目标图像的特征数据。
5.根据权利要求1所述的图像识别方法,其特征在于,第一神经网络和第二神经网络为卷积神经网络。
6.根据权利要求5所述的图像识别方法,其特征在在于,所述卷积神经网络为DenseNet。
7.一种图像识别设备,其特征在于,包括:
与图像源连接的第一神经网络处理器和特征提取器,所述第一神经网络处理器配置成对从图像源所输入的目标图像进行分析以获得第一预测结果;所述特征提取器配置成对同一目标图像进行特征提取以获得目标图像的特征数据;所述特征提取器包括多个Garbor滤波器;
与特征提取器连接的第二神经网络处理器,所述第二神经网络处理器配置成对目标图像的特征数据进行分析以获得第二预测结果;所述对同一目标图像进行特征提取包括对所述目标图像进行Garbor滤波以获得多个尺度和方向的响应图,输入的所述目标图像被同时输入至所述第一神经网络处理器和所述Garbor滤波器,所述Garbor滤波器的输出被输入至所述第二神经网络处理器;
与第一神经网络处理器和第二神经网络处理器连接的融合处理器,所述融合处理器配置成根据第一预测结果和第二预测结果以获得图像识别结果;所述融合处理器配置成对第一预测结果和第二预测结果加权求和;
所述图像源配置成提供包括面部的目标图像,所述融合处理器配置成提供对目标图像的面部的表情的识别结果。
8.根据权利要求7所述的图像识别设备,其特征在于,所述特征提取器配置成输出尺度48x48、67x67,方向0、π/8和2π/8的Garbor滤波器的输出结果。
9.根据权利要求7所述的图像识别设备,其特征在于,所述第一神经网络处理器配置成执行第一DenseNet神经网络,所述第二神经网络处理器配置成执行第二DenseNet神经网络。
10.一种图像识别设备,其特征在于,包括:
处理器;以及
存储器,用于存储计算指令;
其中,所述处理器配置为经由执行所述计算指令来执行权利要求1~6中任意一项所述的图像识别方法。
11.一种神经网络的训练方法,所述神经网络用于权利要求7所述的图像识别设备,其特征在于,所述训练方法包括:
提供未经训练的初始的第一神经网络和第二神经网络;
将训练样本输入到所述图像识别设备,以对所述初始的第一神经网络和第二神经网络进行训练以调整其参数;
重复训练过程,以得到训练完成的第一神经网络和第二神经网络;
其中,所述训练样本包括目标图像样本和对应的标签。
CN201910023676.5A 2019-01-10 2019-01-10 图像识别方法和设备及应用、神经网络的训练方法 Active CN109753938B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910023676.5A CN109753938B (zh) 2019-01-10 2019-01-10 图像识别方法和设备及应用、神经网络的训练方法
US16/639,934 US11244151B2 (en) 2019-01-10 2019-10-10 Computer-implemented method of recognizing facial expression, apparatus for recognizing facial expression, method of pre-training apparatus for recognizing facial expression, computer-program product for recognizing facial expression
PCT/CN2019/110275 WO2020143255A1 (en) 2019-01-10 2019-10-10 Computer-implemented method of recognizing facial expression, apparatus for recognizing facial expression, method of pre-training apparatus for recognizing facial expression, computer-program product for recognizing facial expression

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910023676.5A CN109753938B (zh) 2019-01-10 2019-01-10 图像识别方法和设备及应用、神经网络的训练方法

Publications (2)

Publication Number Publication Date
CN109753938A CN109753938A (zh) 2019-05-14
CN109753938B true CN109753938B (zh) 2021-11-05

Family

ID=66405649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910023676.5A Active CN109753938B (zh) 2019-01-10 2019-01-10 图像识别方法和设备及应用、神经网络的训练方法

Country Status (3)

Country Link
US (1) US11244151B2 (zh)
CN (1) CN109753938B (zh)
WO (1) WO2020143255A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10867161B2 (en) * 2017-09-06 2020-12-15 Pixart Imaging Inc. Auxiliary filtering device for face recognition and starting method for electronic device
CN109753938B (zh) * 2019-01-10 2021-11-05 京东方科技集团股份有限公司 图像识别方法和设备及应用、神经网络的训练方法
CN110245621B (zh) * 2019-06-17 2023-10-17 深圳Tcl新技术有限公司 人脸识别装置及图像处理方法、特征提取模型、存储介质
CN110532971B (zh) 2019-09-02 2023-04-28 京东方科技集团股份有限公司 图像处理及装置、训练方法以及计算机可读存储介质
CN111080527B (zh) * 2019-12-20 2023-12-05 北京金山云网络技术有限公司 一种图像超分辨率的方法、装置、电子设备及存储介质
CN111415333B (zh) * 2020-03-05 2023-12-01 北京深睿博联科技有限责任公司 乳腺x射线影像反对称生成分析模型训练方法和装置
CN112085681B (zh) * 2020-09-09 2023-04-07 苏州科达科技股份有限公司 基于深度学习的图像增强方法、系统、设备及存储介质
CN112241718A (zh) 2020-10-23 2021-01-19 北京百度网讯科技有限公司 车辆信息的检测方法、检测模型的训练方法和装置
CN113011253B (zh) * 2021-02-05 2023-04-21 中国地质大学(武汉) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
US20230060459A1 (en) * 2021-09-01 2023-03-02 FootPrintKu Inc. Image object classification optimizing method, system and computer readable medium
CN113470031B (zh) * 2021-09-03 2021-12-03 北京字节跳动网络技术有限公司 息肉分型方法、模型训练方法及相关装置
CN116563450A (zh) * 2022-01-28 2023-08-08 华为技术有限公司 表情迁移方法、模型训练方法和装置
CN114627218B (zh) * 2022-05-16 2022-08-12 成都市谛视无限科技有限公司 一种基于虚拟引擎的人脸细微表情捕捉方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407915A (zh) * 2016-08-31 2017-02-15 广州精点计算机科技有限公司 一种基于svm的人脸特征识别方法及装置
CN107123117A (zh) * 2017-04-26 2017-09-01 广东工业大学 一种基于深度学习的ic引脚焊点质量检测方法及装置
CN107358157A (zh) * 2017-06-07 2017-11-17 阿里巴巴集团控股有限公司 一种人脸活体检测方法、装置以及电子设备
CN107844780A (zh) * 2017-11-24 2018-03-27 中南大学 一种融合zed视觉的人体健康特征大数据智慧计算方法与装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US10346726B2 (en) * 2014-12-15 2019-07-09 Samsung Electronics Co., Ltd. Image recognition method and apparatus, image verification method and apparatus, learning method and apparatus to recognize image, and learning method and apparatus to verify image
US10049307B2 (en) * 2016-04-04 2018-08-14 International Business Machines Corporation Visual object recognition
US10423830B2 (en) * 2016-04-22 2019-09-24 Intel Corporation Eye contact correction in real time using neural network based machine learning
CN106257489A (zh) 2016-07-12 2016-12-28 乐视控股(北京)有限公司 表情识别方法及系统
CN107491726B (zh) * 2017-07-04 2020-08-04 重庆邮电大学 一种基于多通道并行卷积神经网络的实时表情识别方法
CN107918780B (zh) * 2017-09-01 2021-09-03 中山大学 一种基于关键点检测的衣服种类和属性分类方法
CN107609598A (zh) * 2017-09-27 2018-01-19 武汉斗鱼网络科技有限公司 图像鉴别模型训练方法、装置及可读存储介质
US10460214B2 (en) * 2017-10-31 2019-10-29 Adobe Inc. Deep salient content neural networks for efficient digital object segmentation
CN108647625A (zh) 2018-05-04 2018-10-12 北京邮电大学 一种表情识别方法及装置
US10706545B2 (en) * 2018-05-07 2020-07-07 Zebra Medical Vision Ltd. Systems and methods for analysis of anatomical images
CN109753938B (zh) * 2019-01-10 2021-11-05 京东方科技集团股份有限公司 图像识别方法和设备及应用、神经网络的训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407915A (zh) * 2016-08-31 2017-02-15 广州精点计算机科技有限公司 一种基于svm的人脸特征识别方法及装置
CN107123117A (zh) * 2017-04-26 2017-09-01 广东工业大学 一种基于深度学习的ic引脚焊点质量检测方法及装置
CN107358157A (zh) * 2017-06-07 2017-11-17 阿里巴巴集团控股有限公司 一种人脸活体检测方法、装置以及电子设备
CN107844780A (zh) * 2017-11-24 2018-03-27 中南大学 一种融合zed视觉的人体健康特征大数据智慧计算方法与装置

Also Published As

Publication number Publication date
US11244151B2 (en) 2022-02-08
WO2020143255A1 (en) 2020-07-16
CN109753938A (zh) 2019-05-14
US20210133434A1 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
CN109753938B (zh) 图像识别方法和设备及应用、神经网络的训练方法
US10373312B2 (en) Automated skin lesion segmentation using deep side layers
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
Hill et al. Deep convolutional neural networks in the face of caricature
JP7291183B2 (ja) モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品
CN110659725B (zh) 神经网络模型的压缩与加速方法、数据处理方法及装置
US20210150357A1 (en) Smoothing regularization for a generative neural network
KR101882704B1 (ko) 전자 장치 및 그 제어 방법
CN108229280A (zh) 时域动作检测方法和系统、电子设备、计算机存储介质
Wang et al. Face mask extraction in video sequence
US20190205728A1 (en) Method for visualizing neural network models
CN110688897A (zh) 一种基于联合判断与生成学习的行人重识别方法及装置
CN112561060A (zh) 神经网络训练方法及装置、图像识别方法及装置和设备
JP2023143742A (ja) ポイントクラウド処理モデルのトレーニング方法、ポイントクラウドインスタンス分割方法および装置
Almeida et al. Deep networks for human visual attention: A hybrid model using foveal vision
WO2024060839A1 (zh) 对象操作方法、装置、计算机设备以及计算机存储介质
CN112966592A (zh) 手部关键点检测方法、装置、设备和介质
Santos et al. Does removing pooling layers from convolutional neural networks improve results?
CN110659648A (zh) 一种字符识别方法及装置
CN115909009A (zh) 图像识别方法、装置、存储介质及电子设备
Kumari et al. Saliency map and deep learning based efficient facial emotion recognition technique for facial images
US11605001B2 (en) Weight demodulation for a generative neural network
CN115082306A (zh) 一种基于蓝图可分离残差网络的图像超分辨率方法
CN114120416A (zh) 模型训练方法、装置、电子设备及介质
Cui et al. Intelligence Science and Big Data Engineering. Visual Data Engineering: 9th International Conference, IScIDE 2019, Nanjing, China, October 17–20, 2019, Proceedings, Part I

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant