CN111507150A - 利用基于深度神经网络的多重图像块组合识别人脸的方法 - Google Patents
利用基于深度神经网络的多重图像块组合识别人脸的方法 Download PDFInfo
- Publication number
- CN111507150A CN111507150A CN202010010850.5A CN202010010850A CN111507150A CN 111507150 A CN111507150 A CN 111507150A CN 202010010850 A CN202010010850 A CN 202010010850A CN 111507150 A CN111507150 A CN 111507150A
- Authority
- CN
- China
- Prior art keywords
- learning
- size
- features
- face
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000011176 pooling Methods 0.000 claims abstract description 39
- 230000002776 aggregation Effects 0.000 claims abstract description 32
- 238000004220 aggregation Methods 0.000 claims abstract description 32
- 230000001537 neural effect Effects 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims description 24
- 230000004931 aggregating effect Effects 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种人脸识别方法,该人脸识别方法为利用基于深度神经网络的多重图像块组合的方法,包括以下步骤:在获取到具有第一尺寸的人脸图像的情况下,人脸识别装置通过将所述人脸图像输入到特征提取网络,从而使所述特征提取网络对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图,并且通过对所述特征图应用滑动池化运算来生成多个特征,所述特征提取网络的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习,所述第二尺寸小于所述第一尺寸;以及所述人脸识别装置通过将所述多个特征输入到学习到的神经聚合网络,从而使所述神经聚合网络聚合所述多个特征并输出用于人脸识别的至少一个最佳特征。
Description
技术领域
本发明涉及一种人脸识别装置,更具体而言,涉及一种用于使用与人脸图像对应的多个特征来识别人脸的系统。
背景技术
深度学习是基于算法组的机器学习及人工神经网络的一种,该算法试图使用具有多个处理层的深度图表来对高水平的数据提取进行建模。通常的深度学习架构可包含许多神经元层和数百万个参数。可以在安装有高速CPU的计算机上通过大量数据来学习这些参数,并且可通过能够在如整流线性单元(ReLU:rectified linear units)、信号丢失(dropout)、数据增强(data augmentation)和随机梯度下降(SGD:stochastic gradientdescent)等的许多层中操作的新学习技术来指引这些参数。
在现有的深度学习体系结构中,卷积神经网络(CNN:convolutional neuralnetwork)是最广泛使用的深度学习体系结构之一。尽管CNN的基本概念已被众所周知20年以上,但是CNN的真正力量是在近年来开发出深度学习理论以后得到认可。迄今为止,CNN在如人脸识别、图像分类、图像标题生成、视觉问答和自动驾驶汽车等的人工智能及机器学习应用中获得很大的成功。
人脸识别是在许多人脸识别应用中很重要的过程。大部分人脸感测技术能够轻松地感测到人脸的正面。
在输入人脸图像的情况下,这种人脸识别通过特征提取网络从人脸图像中提取特征,并且使用提取出的特征来识别人脸。
特别是,传统的人脸识别装置使用输入增强来提高人脸识别性能。
即,参照图1,在输入人脸图像的情况下,图像块生成部11为了生成与人脸图像对应的多个图像块而使用如变换(translation)或反转(flip)等的方法来处理人脸图像,并且特征提取网络12从已生成的各个图像块中提取特征,并且通过对提取出的特征进行平均化而输出与人脸图像对应的特征来执行关于人脸图像的人脸识别。
但是,对于这种现有的人脸识别装置来说,由于需要在特征提取网络中进行与生成的图像块对应的次数的正向计算(forward computing),因此具有花费较多的时间且使用大量计算资源的缺点。
此外,对于现有的人脸识别装置来说,由于不能保证平均化后的特征是与人脸图像对应的最佳特征,因此具有难以保证人脸识别结果的可靠性的问题。
发明内容
技术问题
本发明的目的是解决上述的所有问题。
本发明的另一目的是在没有图像块生成过程的情况下能够获取多个特征。
本发明的又一目的是在没有图像块生成过程的情况下能够利用一次正向计算来获取多个特征。
本发明的又一目的是能够使人脸识别所消耗的时间最小化并且使计算资源的使用最小化。
本发明的又一目的是能够保证人脸识别结果的可靠性。
用于解决问题的方案
为了达到如上所述的本发明的目的并实现后述的本发明的特征效果,本发明的特征结构如下所述。
根据本发明的一方面,提供一种人脸识别方法,所述人脸识别方法为利用基于深度神经网络(deep neural network)的多重图像块组合(multiple patch combination)的方法,其特征在于,包括以下步骤:(a)在获取到具有第一尺寸的人脸图像的情况下,人脸识别装置通过将所述人脸图像输入到特征提取网络,从而使所述特征提取网络对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图,并且通过对所述特征图应用滑动池化(sliding-pooling)运算来生成多个特征,其中,所述特征提取网络的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习,所述第二尺寸小于所述第一尺寸;以及(b)所述人脸识别装置通过将所述多个特征输入到学习到的神经聚合网络,从而使所述神经聚合网络聚合所述多个特征并输出用于人脸识别的至少一个最佳特征。
在一实施例中,提供一种方法,其特征在于,在所述(a)步骤中,所述人脸识别装置通过将具有所述第一尺寸的所述人脸图像输入到所述特征提取网络的至少一个卷积层,使所述至少一个卷积层对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算,从而生成第1_1尺寸的特征图,通过将所述1_1尺寸的特征图输入到池化层,使所述池化层对所述1_1尺寸的特征图应用滑动池化运算,从而生成第2_1尺寸的多个特征,所述第2_1尺寸为与具有所述第二尺寸的学习用人脸图像对应的学习用特征图的尺寸,所述第2_1尺寸是通过特征提取网络来生成的。
在一实施例中,提供一种方法,其特征在于,所述特征提取网络通过第一学习装置将以下过程(i)和(ii)重复多次来完成学习:(i)向所述至少一个卷积层输入具有所述第二尺寸的所述学习用人脸图像,使所述至少一个卷积层对具有所述第二尺寸的所述学习用人脸图像应用使用所述至少一个卷积层的至少一个以前学习到的卷积参数的至少一次卷积运算来生成所述第2_1尺寸的所述学习用特征图;(ii)通过参照与所述第2_1尺寸的所述学习用特征图对应的学习用特性信息及与所述学习用特性信息对应的GT,更新所述至少一个卷积层的所述至少一个以前学习到的卷积参数,从而使由第一损失层生成的一个以上的第一损失最小化。
在一实施例中,提供一种方法,其特征在于,所述人脸识别装置使所述池化层利用已设定的跨距来对所述第1_1尺寸的特征图应用滑动池化运算。
在一实施例中,提供一种方法,其特征在于,在所述(b)步骤中,所述人脸识别装置通过将所述多个特征输入到所述神经聚合网络的至少两个注意力块,使所述至少两个注意力块聚合所述多个特征并输出所述最佳特征。
在一实施例中,提供一种方法,其特征在于,所述人脸识别装置通过使所述至少两个注意力块聚合所述多个特征来生成与所述多个特征分别对应的各个质量得分,并且利用所述质量得分对所述多个特征进行加权求和(weighted summation)来输出所述最佳特征。
在一实施例中,提供一种方法,其特征在于,所述神经聚合网络通过所述第二学习装置将以下过程(i)、(ii)和(iii)重复多次来完成学习:(i)向所述至少两个注意力块输入与一个人脸的视频或所述一个人脸的图像组对应的多个学习用人脸特征,并且利用所述至少两个注意力块的以前学习到的注意力参数聚合所述学习用人脸特征,从而生成与所述学习用人脸特征分别对应的各个学习用质量得分;(ii)利用所述学习用质量得分对所述学习用人脸特征进行加权求和来输出学习用最佳特征;(iii)通过参照所述学习用最佳特征及与所述学习用最佳特征对应的GT,更新所述至少两个注意力块的所述以前学习到的注意力参数,从而使由第二损失层生成的一个以上的第二损失最小化。
在一实施例中,提供一种方法,其特征在于,进一步包括以下步骤:(c)所述人脸识别装置通过参照所述最佳特征从人脸信息数据库中检索参考特征来识别所述人脸图像上的人脸。
根据本发明的又一方面,提供一种人脸识别装置,所述人脸识别装置为利用基于深度神经网络的多重图像块组合的装置,其特征在于,包括:至少一个存储器,用于存储至少一个指令;以及至少一个处理器,被设定为执行所述指令以执行以下过程:(I)在获取到具有第一尺寸的人脸图像的情况下,通过将所述人脸图像输入到特征提取网络,从而使所述特征提取网络对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图,并且通过对所述特征图应用滑动池化运算来生成多个特征,其中,所述特征提取网络的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习,所述第二尺寸小于所述第一尺寸;以及(II)通过将所述多个特征输入到学习到的神经聚合网络,从而使所述神经聚合网络聚合所述多个特征并输出用于人脸识别的至少一个最佳特征。
在一实施例中,提供一种装置,其特征在于,在所述(I)过程中,所述处理器通过将具有所述第一尺寸的所述人脸图像输入到所述特征提取网络的至少一个卷积层,使所述至少一个卷积层对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算,从而生成第1_1尺寸的特征图,通过将所述1_1尺寸的特征图输入到池化层,使所述池化层对所述1_1尺寸的特征图应用滑动池化运算,从而生成第2_1尺寸的多个特征,所述第2_1尺寸为与具有所述第二尺寸的学习用人脸图像对应的学习用特征图的尺寸,所述第2_1尺寸是通过特征提取网络来生成的。
在一实施例中,提供一种装置,其特征在于,所述特征提取网络通过第一学习装置将以下过程(i)和(ii)重复多次来完成学习:(i)向所述至少一个卷积层输入具有所述第二尺寸的所述学习用人脸图像,使所述至少一个卷积层对具有所述第二尺寸的所述学习用人脸图像应用使用所述至少一个卷积层的至少一个以前学习到的卷积参数的至少一次卷积运算来生成所述第2_1尺寸的所述学习用特征图;(ii)通过参照与所述第2_1尺寸的所述学习用特征图对应的学习用特性信息及与所述学习用特性信息对应的GT,更新所述至少一个卷积层的所述至少一个以前学习到的卷积参数,从而使由第一损失层生成的一个以上的第一损失最小化。
在一实施例中,提供一种装置,其特征在于,所述处理器使所述池化层利用已设定的跨距来对所述第1_1尺寸的特征图应用滑动池化运算。
在一实施例中,提供一种装置,其特征在于,在所述(II)过程中,所述处理器通过将所述多个特征输入到所述神经聚合网络的至少两个注意力块,使所述至少两个注意力块聚合所述多个特征并输出所述最佳特征。
在一实施例中,提供一种装置,其特征在于,所述处理器通过使所述至少两个注意力块聚合所述多个特征来生成与所述多个特征分别对应的各个质量得分,并且利用所述质量得分对所述多个特征进行加权求和来输出所述最佳特征。
在一实施例中,提供一种装置,其特征在于,所述神经聚合网络通过第二学习装置将以下过程(i)、(ii)和(iii)重复多次来完成学习:(i)向所述至少两个注意力块输入与一个人脸的视频或所述一个人脸的图像组对应的多个学习用人脸特征,并且利用所述至少两个注意力块的以前学习到的注意力参数聚合所述学习用人脸特征,从而生成与所述学习用人脸特征分别对应的各个学习用质量得分;(ii)利用所述学习用质量得分对所述学习用人脸特征进行加权求和来输出学习用最佳特征;(iii)通过参照所述学习用最佳特征及与所述学习用最佳特征对应的GT,更新所述至少两个注意力块的所述以前学习到的注意力参数,从而使由第二损失层生成的一个以上的第二损失最小化。
在一实施例中,提供一种装置,其特征在于,所述处理器进一步执行以下过程:(III)通过参照所述最佳特征从人脸信息数据库中检索参考特征来识别所述人脸图像上的人脸。
除此之外,进一步提供一种计算机可读存储介质,用于存储执行本发明的方法的计算机程序。
发明效果
本发明在没有通过输入比学习到的图像更大的图像来生成图像块的过程的情况下能够获取多个特征。
本发明由于在通过输入比学习到的图像更大的图像来提取特征的期间只利用一次正向计算来获取多个特征,因此能够削减用于特征提取的计算时间及计算资源的消耗。
本发明由于通过利用质量得分对多个特征进行加权求和来输出最佳特征,因此能够保证人脸识别结果的可靠性。
附图说明
为了说明本发明的实施例而所附的以下图只是本发明的实施例中的一部分,本发明所属技术领域的具有普通知识的人员“以下,称为“普通技术人员”在未实现发明工作的情况下可以以该图为基础得到其他图。
图1是示意性地表示现有的人脸识别装置的图。
图2是示意性地表示根据本发明的一实施例利用基于深度神经网络的多重图像块组合来识别人脸的人脸识别装置的图。
图3是示意性地表示根据本发明的一实施例利用基于深度神经网络的多重图像块组合来识别人脸的方法的图。
图4是示意性地表示根据本发明的一实施例利用基于深度神经网络的多重图像块组合来识别人脸的方法中的特征提取网络的图。
图5是示意性地表示在根据本发明的一实施例利用基于深度神经网络的多重图像块组合来识别人脸的方法中生成的示例性的多重图像块的图。
图6是示意性地表示根据本发明的一实施例利用基于深度神经网络的多重图像块组合来识别人脸的方法中的神经聚合网络的图。
具体实施方式
关于后述的本发明的详细说明将会参照示例性地图示本发明能够实施的特定实施例的附图。对这些实施例进行详细说明,使得本领域技术人员能够充分实施本发明。应理解为本发明的各种实施例虽然彼此不同但不必相互排斥。例如,在此记载的特定形状、结构及特性与一实施例相关联,在不脱离本发明的思想及范围的情况下也可以以其他实施例实现。此外,应理解为在不脱离本发明的思想及范围的情况下,能够变更所公开的各个实施例内的个别结构要素的位置或布置。因此,后述的详细说明不应视为限定性的,如果适当说明,则本发明的范围仅由与该权利要求所主张的内容均等的所有范围和所附的权利要求来限定。在附图中,相似的附图标记是指在各方面相同或相似的功能。
此外,在本发明的详细说明及权利要求中,“包括”这一词语及其变形并非用来去除其他技术特征、附加物、结构要素或步骤。本领域技术人员能够从本发明的说明书以及本发明的实施中显然可知本发明的其他目的、优点及特性的一部分。以下示例及附图作为实例提供,并不是用来限定本发明。
本发明中提到的各种图像可包括与铺装或未铺装的道路相关的图像,在该情况下能够假定出现在道路环境中的物体(例如,汽车、人类、动物、植物、物体、建筑物、如飞机或无人机等的飞行器以及其他障碍物),但本发明并不一定限定于此,本发明中提到的各种图像还可以是与道路无关的图像(例如,与非铺装道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空或室内相关联的图像),在该情况下能够假定有可能出现在非铺装道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空或室内环境中的物体(例如,汽车、人类、动物、植物、物体、建筑物、如飞机和无人机等的飞行器以及其他障碍物),但并不一定限定于此。
下面,参照附图对本发明的优选实施例进行详细说明,使得本发明所属技术领域的普通技术人员能够容易实施本发明。
图2是示意性地表示根据本发明的一实施例利用基于神经网络的多重图像块来识别人脸的人脸识别装置的图。参照图2,人脸识别装置100可包括:存储器110,用于存储利用基于神经网络的多重图像块组合来识别至少一个人脸图像的人脸识别的指令;和处理器120,对应于存储在存储器110中的指令而利用基于神经网络的多重图像块组合来从人脸图像中识别人脸。在此,神经网络可包括深度学习网络或深度神经网络,但本发明的范围并不限定于此。
具体而言,人脸识别装置100能够典型地利用至少一个计算装置(能够包含计算机处理器、存储器、贮存器、输入装置、输出装置或其他现有的计算装置的结构要素的装置、如路由器或开关等的电子通信装置、如网络附属存储(NAS)及存储区域网络(SAN)的电子信息贮存器系统)和至少一个计算机软件(能够使计算装置以特定方式进行的指令)的组合来实现所需的系统性能。
此外,计算装置的处理器可包括微处理器(MPU:Micro Processing Unit)、中央处理器(CPU)、高速缓冲存储器或数据总线等的硬件结构。此外,计算装置还可以进一步包括操作系统及执行特定目的的应用的软件结构。
但是,即便如此描述了计算装置,也并不排除计算装置包括集成有用于实施本发明的介质、处理器及存储器的形态的集成处理器的情况。
参照图3对根据本发明的一实施例利用人脸识别装置100且利用基于深度神经网络的多重图像块组合来识别人脸的方法进行说明则如下所述。
首先,在获取到具有第一尺寸的人脸图像的情况下,人脸识别装置100通过将所述人脸图像输入到特征提取网络130,使所述特征提取网络130对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图,并且通过对所述特征图应用滑动池化运算来生成多个特征。所述特征提取网络130的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习,所述第二尺寸小于所述第一尺寸。
作为一例,参照图4,在获取到具有第一尺寸的人脸图像的情况下,特征提取网络130利用第一卷积层131_1至第n卷积层131_n对具有第一尺寸的人脸图像应用多次卷积运算而生成第1_1尺寸的特征图。在此,第一卷积层131_1至第n卷积层131_n可以以对具有第一尺寸的学习用人脸图像应用多次卷积运算而生成第2_1尺寸的学习用特征图的方式进行学习,第2_1尺寸可以小于第1_1尺寸。
并且,参照图5,特征提取网络130通过使池化层132使用第2_1尺寸的池化尺寸对第1_1尺寸的特征图应用滑动池化运算来生成第2_1尺寸的多个特征。在此,可利用已设定的跨距来执行滑动池化运算。此外,图5并不图示实际特征图,为了便于说明而图示与特征图对应的人脸图像。
对此进一步详细说明则如下所述。
学习装置可以以通过使特征提取网络130对192×192尺寸的学习用人脸图像应用多次卷积运算来生成6×6尺寸的特征图,并且使池化层对6×6尺寸的特征图应用一次以上的6×6池化运算来输出特征向量的方式进行学习。
在此,特征提取网络130的各个卷积层131_1至131_n能够通过对与自身对应的输入图像或输入特征图应用卷积运算而以与此对应的输入图像或输入特征图的尺寸的1/2尺寸输出各个特征图,并且通过六次卷积运算而将192×192尺寸的学习用人脸图像转换为6×6尺寸的特征图。
并且,在对如此学习到的特征提取网络130输入320×320尺寸的人脸图像的情况下,特征提取网络130能够通过与学习过程类似的过程来执行六次卷积运算而输出10×10尺寸的特征图。
然后,特征提取网络130能够通过使池化层132使用滑动窗口对10×10尺寸的特征图应用6×6池化运算,来生成关于与6×6尺寸对应的至少一个区域的25个特征。即,池化层能够通过使6×6尺寸的窗口按1跨距移动并对10×10尺寸的特征图应用池化运算来生成25个特征。在此,池化层132能够输出对多个特征进行向量化而生成的特征向量。
其结果,与现有不同地,本发明能够通过只利用一次正向计算来获取关于一个人脸图像的多个特征。
另外,特征提取网络130能够通过第一学习装置将以下过程(i)和(ii)重复多次来完成学习:(i)向所述至少一个卷积层输入具有所述第二尺寸的所述学习用人脸图像,从而使所述至少一个卷积层对具有所述第二尺寸的所述学习用人脸图像应用使用至少一个卷积层的至少一个以前学习到的卷积参数的至少一次卷积运行来生成所述第2_1尺寸的所述学习用特征图;(ii)通过参照与所述第2_1尺寸的所述学习用特征图对应的学习用特性信息(characteristic information)及与所述学习用特性信息对应的GT,更新所述至少一个卷积层的所述至少一个以前学习到的卷积参数,从而使由第一损失层生成的一个以上的第一损失最小化。
即,所述至少一个卷积层可以以如下方式进行学习:通过参照以下(i)和(ii)中的两种差异中的至少一个,反复进行通过反向传播来更新至少一个卷积层的至少一个以前学习到的卷积参数的过程,从而输出与所输入的人脸图像对应的准确的人脸特征:(i)(i-1)通过对第2_1尺寸的学习用特征图应用池化运算并利用池化层池化为第2_1尺寸的学习用特征及(i-2)学习用人脸图像的已设定的特征之间的差异;以及(ii)(ii-1)利用学习用特征识别出的人脸信息及(ii-2)与学习用人脸图像对应的已设定的人脸信息之间的差异。
接着,人脸识别装置100通过将获取到的多个特征输入到神经聚合网络140并使神经聚合网络140聚合多个特征来输出用于人脸识别的至少一个最佳特征。
作为一例,参照图6,人脸识别装置100能够通过将多个特征输入到神经聚合网络140的至少两个注意力块,使至少两个注意力块聚合所述多个特征来输出所述最佳特征。
即,人脸识别装置100能够通过使神经聚合网络140的至少两个注意力块聚合所述多个特征来生成与所述多个特征中的每个对应的质量得分,并且利用所述质量得分对所述多个特征进行加权求和来输出所述最佳特征。
在此,神经聚合网络140可以只利用用于对视频影像执行人脸识别的神经聚合网络上的聚合模块。此外,质量得分可以是以神经聚合网络140具有最高的人脸识别性能的方式进行学习的值。
另外,在2017IEEE计算机视觉与模式识别会议(CVPR)中发表的“基于神经网络的视频人脸识别(Neural Aggregation Network for Video Face Recognition)”中记载有对视频影像执行人脸识别的神经聚合网络。
另外,神经聚合网络140能够通过第二学习装置将以下过程(i)、(ii)和(iii)重复多次来完成学习:(i)向所述至少两个注意力块输入与一个人脸的视频或所述一个人脸的图像组对应的多个学习用人脸特征,并且利用所述至少两个注意力块的以前学习到的注意力参数来聚合所述学习用人脸特征,从而生成与所述学习用人脸特征分别对应的各个学习用质量得分;(ii)利用所述学习用质量得分对所述学习用人脸特征进行加权求和来输出学习用最佳特征;(iii)通过参照所述学习用最佳特征及与所述学习用最佳特征对应的GT,更新所述至少两个注意力块的所述以前学习到的注意力参数,从而使由第二损失层生成的一个以上的第二损失最小化。
接着,人脸识别装置100能够通过利用使用质量得分对由多个特征的加权求和生成的用于人脸识别的最佳特征,通过参照所述最佳特征从人脸信息数据库中检索参考特征来识别所述人脸图像上的人脸。
即,本发明在没有生成图像块的过程的情况下,能够只利用一次正向计算来获取多个转换后的特征,并且通过神经聚合网络获取加权求和特征来使人脸识别性能最大化,其中,该加权求和特征对多个转换后的特征中的在人脸识别方面起重要作用的特征施加更高的加权值。
根据这种本发明,特征提取网络能够通过使用比学习处理器所执行的图像更大的图像来生成有效的多个时刻特征,并且神经聚合网络能够输出最佳特征。其结果,能够在移动装置、监视器或无人机等中进行抗波动力强且姿势不变的人脸识别。
此外,以上说明的本发明所涉及的实施例可以以能够通过各种计算机结构要素执行的计算机命令的形态实现,并且存储在计算机可读存储介质中。所述计算机可读存储介质可以单独或组合包含程序命令、数据文件、数据结构等。存储在所述计算机可读存储介质中的程序命令是为本发明而特别设计并构成的,但也可以由计算机软件领域的技术人员公知而能够被使用。计算机可读存储介质的例子包含诸如硬盘、软盘及磁带等的磁介质、诸如CD-ROM、DVD等的光存储介质、诸如软盘(floptical disk)等的磁光介质、以及诸如只读存储器(ROM)、随机存取存储器(RAM)、快闪存储器等的为了存储及执行程序命令而专门构成的硬件装置。作为程序命令的例子不仅包含如由编译器产生的机器语言代码,还包含使用解释器等能够由计算机运行的高级语言代码。为了执行本发明所涉及的处理,所述硬件装置可被构成为以一个以上的软件模块实现操作,反之也同样。
以上,通过如具体结构要素等的特定事项和限定的实施例及附图对本发明进行了说明,但这只是为了有助于对本发明的更全面的理解而提供的,本发明并不限定于上述实施例,本发明所属技术领域的技术人员基于这种记载可进行各种修改及变形。
因此,本发明的思想并非由上述说明的实施例限定,权利要求书及与该权利要求书等同或等价变形的所有内容属于本发明的思想的范围。
Claims (16)
1.一种人脸识别方法,所述人脸识别方法为利用基于深度神经网络的多重图像块组合的方法,其特征在于,包括以下步骤:
(a)在获取到具有第一尺寸的人脸图像的情况下,人脸识别装置通过将所述人脸图像输入到特征提取网络,从而使所述特征提取网络对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图,并且通过对所述特征图应用滑动池化运算来生成多个特征,其中,所述特征提取网络的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习,所述第二尺寸小于所述第一尺寸;以及
(b)所述人脸识别装置通过将所述多个特征输入到学习到的神经聚合网络,从而使所述神经聚合网络聚合所述多个特征并输出用于人脸识别的至少一个最佳特征。
2.根据权利要求1所述的方法,其特征在于,
在所述(a)步骤中,所述人脸识别装置通过将具有所述第一尺寸的所述人脸图像输入到所述特征提取网络的至少一个卷积层,使所述至少一个卷积层对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算,从而生成第1_1尺寸的特征图,通过将所述1_1尺寸的特征图输入到池化层,使所述池化层对所述1_1尺寸的特征图应用滑动池化运算,从而生成第2_1尺寸的多个特征,所述第2_1尺寸为与具有所述第二尺寸的学习用人脸图像对应的学习用特征图的尺寸,所述第2_1尺寸是通过特征提取网络来生成的。
3.根据权利要求2所述的方法,其特征在于,
所述特征提取网络通过第一学习装置将以下过程(i)和(ii)重复多次来完成学习:(i)向所述至少一个卷积层输入具有所述第二尺寸的所述学习用人脸图像,从而使所述至少一个卷积层对具有所述第二尺寸的所述学习用人脸图像应用使用至少一个卷积层的至少一个以前学习到的卷积参数的至少一次卷积运算来生成所述第2_1尺寸的所述学习用特征图;(ii)通过参照与所述第2_1尺寸的所述学习用特征图对应的学习用特性信息及与所述学习用特性信息对应的GT,更新所述至少一个卷积层的所述至少一个以前学习到的卷积参数,从而使由第一损失层生成的一个以上的第一损失最小化。
4.根据权利要求2所述的方法,其特征在于,
所述人脸识别装置使所述池化层利用已设定的跨距来对所述第1_1尺寸的特征图应用滑动池化运算。
5.根据权利要求1所述的方法,其特征在于,
在所述(b)步骤中,所述人脸识别装置通过将所述多个特征输入到所述神经聚合网络的至少两个注意力块,使所述至少两个注意力块聚合所述多个特征并输出所述最佳特征。
6.根据权利要求5所述的方法,其特征在于,
所述人脸识别装置通过使所述至少两个注意力块聚合所述多个特征来生成与所述多个特征分别对应的各个质量得分,并且利用所述质量得分对所述多个特征进行加权求和来输出所述最佳特征。
7.根据权利要求5所述的方法,其特征在于,
所述神经聚合网络通过所述第二学习装置将以下过程(i)、(ii)和(iii)重复多次来完成学习:(i)向所述至少两个注意力块输入与一个人脸的视频或所述一个人脸的图像组对应的多个学习用人脸特征,并且利用所述至少两个注意力块的以前学习到的注意力参数聚合所述学习用人脸特征,从而生成与所述学习用人脸特征分别对应的各个学习用质量得分;(ii)利用所述学习用质量得分对所述学习用人脸特征进行加权求和来输出学习用最佳特征;(iii)通过参照所述学习用最佳特征及与所述学习用最佳特征对应的GT,更新所述至少两个注意力块的所述以前学习到的注意力参数,从而使由第二损失层生成的一个以上的第二损失最小化。
8.根据权利要求1所述的方法,其特征在于,
进一步包括以下步骤:(c)所述人脸识别装置通过参照所述最佳特征从人脸信息数据库中检索参考特征来识别所述人脸图像上的人脸。
9.一种人脸识别装置,所述人脸识别装置为利用基于深度神经网络的多重图像块组合的装置,其特征在于,包括:
至少一个存储器,用于存储至少一个指令;以及
至少一个处理器,被设定为执行所述指令以执行以下过程:(I)在获取到具有第一尺寸的人脸图像的情况下,通过将所述人脸图像输入到特征提取网络,从而使所述特征提取网络对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图,并且通过对所述特征图应用滑动池化运算来生成多个特征,其中,所述特征提取网络的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习,所述第二尺寸小于所述第一尺寸;以及(II)通过将所述多个特征输入到学习到的神经聚合网络,从而使所述神经聚合网络聚合所述多个特征并输出用于人脸识别的至少一个最佳特征。
10.根据权利要求9所述的装置,其特征在于,
在所述(I)过程中,所述处理器通过将具有所述第一尺寸的所述人脸图像输入到所述特征提取网络的至少一个卷积层,使所述至少一个卷积层对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算,从而生成第1_1尺寸的特征图,通过将所述1_1尺寸的特征图输入到池化层,使所述池化层对所述1_1尺寸的特征图应用滑动池化运算,从而生成第2_1尺寸的多个特征,所述第2_1尺寸为与具有所述第二尺寸的学习用人脸图像对应的学习用特征图的尺寸,所述第2_1尺寸是通过特征提取网络来生成的。
11.根据权利要求10所述的装置,其特征在于,
所述特征提取网络通过第一学习装置将以下过程(i)和(ii)重复多次来完成学习:(i)向所述至少一个卷积层输入具有所述第二尺寸的所述学习用人脸图像,使所述至少一个卷积层对具有所述第二尺寸的所述学习用人脸图像应用使用所述至少一个卷积层的至少一个以前学习到的卷积参数的至少一次卷积运算来生成所述第2_1尺寸的所述学习用特征图;(ii)通过参照与所述第2_1尺寸的所述学习用特征图对应的学习用特性信息及与所述学习用特性信息对应的GT,更新所述至少一个卷积层的所述至少一个以前学习到的卷积参数,从而使由第一损失层生成的一个以上的第一损失最小化。
12.根据权利要求10所述的装置,其特征在于,
所述处理器使所述池化层利用已设定的跨距来对所述第1_1尺寸的特征图应用滑动池化运算。
13.根据权利要求9所述的装置,其特征在于,
在所述(II)过程中,所述处理器通过将所述多个特征输入到所述神经聚合网络的至少两个注意力块,使所述至少两个注意力块聚合所述多个特征并输出所述最佳特征。
14.根据权利要求13所述的装置,其特征在于,
所述处理器通过使所述至少两个注意力块聚合所述多个特征来生成与所述多个特征分别对应的各个质量得分,并且利用所述质量得分对所述多个特征进行加权求和来输出所述最佳特征。
15.根据权利要求13所述的装置,其特征在于,
所述神经聚合网络通过第二学习装置将以下过程(i)、(ii)和(iii)重复多次来完成学习:(i)向所述至少两个注意力块输入与一个人脸的视频或所述一个人脸的图像组对应的多个学习用人脸特征,并且利用所述至少两个注意力块的以前学习到的注意力参数聚合所述学习用人脸特征,从而生成与所述学习用人脸特征分别对应的各个学习用质量得分;(ii)利用所述学习用质量得分对所述学习用人脸特征进行加权求和来输出学习用最佳特征;(iii)通过参照所述学习用最佳特征及与所述学习用最佳特征对应的GT,更新所述至少两个注意力块的所述以前学习到的注意力参数,从而使由第二损失层生成的一个以上的第二损失最小化。
16.根据权利要求9所述的装置,其特征在于,
所述处理器进一步执行以下过程:(III)通过参照所述最佳特征从人脸信息数据库中检索参考特征来识别所述人脸图像上的人脸。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962799076P | 2019-01-31 | 2019-01-31 | |
US62/799,076 | 2019-01-31 | ||
US16/721,961 US10740593B1 (en) | 2019-01-31 | 2019-12-20 | Method for recognizing face using multiple patch combination based on deep neural network with fault tolerance and fluctuation robustness in extreme situation |
US16/721,961 | 2019-12-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507150A true CN111507150A (zh) | 2020-08-07 |
CN111507150B CN111507150B (zh) | 2023-08-18 |
Family
ID=69185483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010010850.5A Active CN111507150B (zh) | 2019-01-31 | 2020-01-06 | 利用基于深度神经网络的多重图像块组合识别人脸的方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10740593B1 (zh) |
EP (1) | EP3690721A1 (zh) |
JP (1) | JP6924517B2 (zh) |
KR (1) | KR102362744B1 (zh) |
CN (1) | CN111507150B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860810A (zh) * | 2021-02-05 | 2021-05-28 | 中国互联网络信息中心 | 域名多重图嵌入表示方法、装置、电子设备及介质 |
CN113282721A (zh) * | 2021-04-28 | 2021-08-20 | 南京大学 | 基于网络结构搜索的视觉问答方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11308598B2 (en) * | 2019-02-14 | 2022-04-19 | Sharif University Of Technology | Quality assessment of an image |
US11514713B2 (en) * | 2019-05-31 | 2022-11-29 | Apple Inc. | Face quality of captured images |
JP7396159B2 (ja) * | 2020-03-26 | 2023-12-12 | 富士通株式会社 | 画像処理装置、画像認識システム及び画像処理プログラム |
KR102497805B1 (ko) | 2020-07-31 | 2023-02-10 | 주식회사 펫타버스 | 인공지능 기반 반려동물 신원확인 시스템 및 방법 |
CN112494935B (zh) * | 2020-12-14 | 2023-10-17 | 咪咕互动娱乐有限公司 | 一种云游戏平台池化方法、电子设备及存储介质 |
CN112598045A (zh) * | 2020-12-17 | 2021-04-02 | 中国工商银行股份有限公司 | 训练神经网络的方法、图像识别方法及图像识别装置 |
CN112686178B (zh) * | 2020-12-30 | 2024-04-16 | 中国电子科技集团公司信息科学研究院 | 一种多视角目标轨迹生成方法、装置和电子设备 |
KR102611480B1 (ko) * | 2022-02-08 | 2023-12-08 | 주식회사 트윔 | 뉴럴 네트워크를 이용한 제품 검사 방법 및 장치 |
CN114529785B (zh) * | 2022-02-22 | 2024-06-28 | 平安科技(深圳)有限公司 | 模型的训练方法、视频生成方法和装置、设备、介质 |
CN114821736A (zh) * | 2022-05-13 | 2022-07-29 | 中国人民解放军国防科技大学 | 基于对比学习的多模态人脸识别方法、装置、设备及介质 |
CN115620083B (zh) * | 2022-09-29 | 2023-08-29 | 合肥的卢深视科技有限公司 | 模型训练方法、人脸图像质量评价方法、设备及介质 |
CN115661911B (zh) * | 2022-12-23 | 2023-03-17 | 四川轻化工大学 | 一种人脸特征提取方法、设备及存储介质 |
CN117746209A (zh) * | 2023-12-13 | 2024-03-22 | 山东浪潮超高清智能科技有限公司 | 一种基于高效多类型卷积聚合卷积的图像识别方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040015613A (ko) * | 2002-08-13 | 2004-02-19 | 삼성전자주식회사 | 인공 신경망을 이용한 얼굴 인식 방법 및 장치 |
CN105335714A (zh) * | 2015-10-28 | 2016-02-17 | 小米科技有限责任公司 | 照片处理方法、装置和设备 |
CN107209864A (zh) * | 2015-01-27 | 2017-09-26 | 北京市商汤科技开发有限公司 | 人脸识别方法和系统 |
US20170372174A1 (en) * | 2016-06-28 | 2017-12-28 | Conduent Business Services, Llc | System and method for expanding and training convolutional neural networks for large size input images |
JP2018005520A (ja) * | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | 物体検出装置及び物体検出方法 |
US20180060698A1 (en) * | 2016-09-01 | 2018-03-01 | Microsoft Technology Licensing, Llc | Frame aggregation network for scalable video face recognition |
CN108073898A (zh) * | 2017-12-08 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 人头区域识别方法、装置及设备 |
KR20180080081A (ko) * | 2017-01-03 | 2018-07-11 | 한국과학기술원 | Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200842733A (en) * | 2007-04-17 | 2008-11-01 | Univ Nat Chiao Tung | Object image detection method |
US9767385B2 (en) * | 2014-08-12 | 2017-09-19 | Siemens Healthcare Gmbh | Multi-layer aggregation for object detection |
WO2016054778A1 (en) * | 2014-10-09 | 2016-04-14 | Microsoft Technology Licensing, Llc | Generic object detection in images |
US9996768B2 (en) * | 2014-11-19 | 2018-06-12 | Adobe Systems Incorporated | Neural network patch aggregation and statistics |
US11295140B2 (en) * | 2018-03-14 | 2022-04-05 | Comcast Cable Communications, Llc | Methods and systems for determining object activity within a region of interest |
CN110633604B (zh) * | 2018-06-25 | 2023-04-25 | 富士通株式会社 | 信息处理方法和信息处理装置 |
-
2019
- 2019-12-20 US US16/721,961 patent/US10740593B1/en active Active
-
2020
- 2020-01-06 KR KR1020200001718A patent/KR102362744B1/ko active IP Right Grant
- 2020-01-06 CN CN202010010850.5A patent/CN111507150B/zh active Active
- 2020-01-17 JP JP2020006170A patent/JP6924517B2/ja active Active
- 2020-01-21 EP EP20152842.9A patent/EP3690721A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040015613A (ko) * | 2002-08-13 | 2004-02-19 | 삼성전자주식회사 | 인공 신경망을 이용한 얼굴 인식 방법 및 장치 |
CN107209864A (zh) * | 2015-01-27 | 2017-09-26 | 北京市商汤科技开发有限公司 | 人脸识别方法和系统 |
CN105335714A (zh) * | 2015-10-28 | 2016-02-17 | 小米科技有限责任公司 | 照片处理方法、装置和设备 |
US20170372174A1 (en) * | 2016-06-28 | 2017-12-28 | Conduent Business Services, Llc | System and method for expanding and training convolutional neural networks for large size input images |
JP2018005520A (ja) * | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | 物体検出装置及び物体検出方法 |
US20180060698A1 (en) * | 2016-09-01 | 2018-03-01 | Microsoft Technology Licensing, Llc | Frame aggregation network for scalable video face recognition |
KR20180080081A (ko) * | 2017-01-03 | 2018-07-11 | 한국과학기술원 | Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템 |
CN108073898A (zh) * | 2017-12-08 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 人头区域识别方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
JIAOLONG YANG ET AL.: "Neural Aggregation Network for Video Face Recognition" * |
SHUO YANG ET AL.: "Face Detection through Scale-Friendly Deep Convolutional Networks" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860810A (zh) * | 2021-02-05 | 2021-05-28 | 中国互联网络信息中心 | 域名多重图嵌入表示方法、装置、电子设备及介质 |
CN112860810B (zh) * | 2021-02-05 | 2023-07-14 | 中国互联网络信息中心 | 域名多重图嵌入表示方法、装置、电子设备及介质 |
CN113282721A (zh) * | 2021-04-28 | 2021-08-20 | 南京大学 | 基于网络结构搜索的视觉问答方法 |
CN113282721B (zh) * | 2021-04-28 | 2023-07-21 | 南京大学 | 基于网络结构搜索的视觉问答方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200250402A1 (en) | 2020-08-06 |
KR102362744B1 (ko) | 2022-02-15 |
EP3690721A1 (en) | 2020-08-05 |
CN111507150B (zh) | 2023-08-18 |
JP6924517B2 (ja) | 2021-08-25 |
US10740593B1 (en) | 2020-08-11 |
KR20200095356A (ko) | 2020-08-10 |
JP2020126624A (ja) | 2020-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507150B (zh) | 利用基于深度神经网络的多重图像块组合识别人脸的方法 | |
KR102264394B1 (ko) | 카메라로부터 획득된 이미지와, 이에 대응하는, 레이더 또는 라이더를 통해 획득된 포인트 클라우드 맵을 뉴럴 네트워크의 각각의 컨벌루션 스테이지 별로 통합하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
CN108764063B (zh) | 一种基于特征金字塔的遥感影像时敏目标识别系统及方法 | |
KR102337376B1 (ko) | 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
Wu et al. | Rapid target detection in high resolution remote sensing images using YOLO model | |
Mahmoud et al. | Object detection using adaptive mask RCNN in optical remote sensing images | |
EP3686795B1 (en) | Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same | |
JP6850046B2 (ja) | 重要業績評価指標のようなユーザ要求事項に適したターゲット物体予測ネットワークを用いた、cnn基盤の変動に強い物体検出器を学習する方法及び学習装置、並びにこれを利用したテスティング方法及びテスティング装置 | |
EP4064135B1 (en) | Methods for performing self-supervised learning of deep-learning based detection network by using deep q-network and devices using the same | |
US10387753B1 (en) | Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same | |
CN111488979B (zh) | 设备上持续学习用于分析输入数据的神经网络的方法及装置 | |
CN111462131A (zh) | 一种注意力驱动图像分割的方法和设备 | |
US10402695B1 (en) | Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same | |
CN111508252B (zh) | 利用v2x信息集成技术更新高清地图的方法和装置 | |
CN110991513A (zh) | 一种具有类人连续学习能力的图像目标识别系统及方法 | |
KR102337383B1 (ko) | 하드웨어 최적화에 사용되는 1xK 또는 Kx1 컨벌루션 연산을 이용한 CNN을 학습하는 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치 | |
CN116071701A (zh) | 基于注意力机制和GSConv的YOLOv5行人检测方法 | |
CN112464930A (zh) | 目标检测网络构建方法、目标检测方法、装置和存储介质 | |
EP3690718A1 (en) | Learning method and learning device for allowing cnn having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
US10395140B1 (en) | Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same | |
Castilla-Arquillo et al. | Hardware-accelerated mars sample localization via deep transfer learning from photorealistic simulations | |
Tian | Effective image enhancement and fast object detection for improved UAV applications | |
EP4064126B1 (en) | Methods for training and testing perception network by using images obtained from multiple imaging devices having diverse specifications and learning device and testing device using the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |