CN105981051A - 用于图像解析的分层互连多尺度卷积网络 - Google Patents
用于图像解析的分层互连多尺度卷积网络 Download PDFInfo
- Publication number
- CN105981051A CN105981051A CN201480075091.3A CN201480075091A CN105981051A CN 105981051 A CN105981051 A CN 105981051A CN 201480075091 A CN201480075091 A CN 201480075091A CN 105981051 A CN105981051 A CN 105981051A
- Authority
- CN
- China
- Prior art keywords
- image block
- rank
- image
- resolution
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 210000001508 eye Anatomy 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 20
- 210000004709 eyebrow Anatomy 0.000 claims description 19
- 210000001331 nose Anatomy 0.000 claims description 18
- 238000010191 image analysis Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 6
- 210000000214 mouth Anatomy 0.000 claims 2
- 210000005252 bulbus oculi Anatomy 0.000 claims 1
- 230000008878 coupling Effects 0.000 claims 1
- 238000010168 coupling process Methods 0.000 claims 1
- 238000005859 coupling reaction Methods 0.000 claims 1
- 238000009432 framing Methods 0.000 claims 1
- 230000001815 facial effect Effects 0.000 abstract description 47
- 239000000284 extract Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000000844 transformation Methods 0.000 description 5
- 210000000887 face Anatomy 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 229910002056 binary alloy Inorganic materials 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Geometry (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
所公开的面部识别系统(及方法)包括面部解析。在一种方法中,面部解析基于分层互连多尺度卷积神经网络(HIM)来识别面部图像的组件的位置和/或印迹。HIM从面部图像的不同分辨率图像生成多个级别的图像块,其中不同级别的图像块具有不同的分辨率。而且,HIM合并不同级别的图像块以生成不同级别的互连图像块,其中不同级别的互连图像块具有不同的分辨率。而且,HIM组合互连图像块以识别组件的精确化的位置和/或印迹。
Description
技术领域
本发明一般地涉及图像处理,更具体地,涉及将图像解析成组件。
背景技术
图像解析是将图像标注成组件(或部位)的列表的任务。图像解析是计算机视觉方面的基本问题。关于图像解析,通常采用关键点提取(或者加关键点)或分割。关键点提取被用于定位组件,而分割被用于获得组件的印迹(footprint)或形状。面部图像的图像解析具有挑战性,因为从关键点提取获得的关键点可能不是界限分明的,并且可能难以对关键点(例如鼻梁)中的不确定性进行编码。另外,因为面部部位是可变形的,所以图像解析是具有挑战性的。
关键点提取和分割的结果取决于信息的尺度。以较低(亦即,较精细)尺度的局部外观提供组件的精确轮廓,而以较高(亦即,较粗糙)尺度的全局特征提供组件的可能的外观或者所在位置。因此,多尺度信息的结合使得能够对图像进行准确的解析。
因此,需要良好的方法以利用以不同尺度存在的信息来有效地执行图像解析。
发明内容
本发明通过采用执行图像解析的框架来克服现有技术的限制。在一种方法中,该框架基于用于定位和/或分割图像的组件的分层互连多尺度卷积神经网络(HIM)的结构。HIM使得能够在任何方向上整合不同尺度(亦即,分辨率)的数据,以便更好地使用每个尺度的数据。
一个方面涉及对图像执行图像解析的系统。在一个示例中,该系统通过解析面部图像在面部识别中使用。该系统包括用于从图像中定位和/或生成组件的印迹的HIM。HIM有效地整合不同尺度(亦即,分辨率)的信息。
在一种架构中,HIM包括级别生成器、互连组合器和聚合器。级别生成器接收图像并且从图像生成N个级别的图像块。优选地,N>2,并且不同级别n的图像块具有不同的分辨率R(n)。级别n的图像块从被重新采样至分辨率R(n)的图像生成。在示例性实现方式中,级别生成器为具有较低分辨率R(n)的级别n生成更多的图像块。
互连组合器接收来自级别生成器的N个级别的图像块,并且从N个级别的图像块生成M个级别的互连图像块,其中优选地,2<M≤N。不同级别m的互连图像块具有不同的分辨率R(m),并且级别m的互连图像块从图像块的输入分组m生成。图像块的输入分组m包括:(i)来自R(n)=R(m)的级别n的图像块;以及(ii)来自R(n)≠R(m)的一个或多个级别n的图像块,其中这样的图像块已经被重新采样至分辨率R(m)。
聚合器通过组合M个级别的互连图像块来定位组件。在示例性实现方式中,聚合器接收M个级别的互连图像块并且生成L个级别的输出图像块,其中L<M。不同级别l的输出图像块具有不同的分辨率R(l),其中每个R(l)对应于R(m)中的一个。级别l的输出图像块从图像块的输入分组l生成,图像块的输入分组l包含:(i)来自R(m)=R(l)的级别m的互连图像块;以及(ii)来自具有小于R(l)的分辨率的一个或多个级别的输出图像块,其中这样的输出图像块已经被重新采样至分辨率R(l)。
另一方面涉及被配置为接收由HIM产生的组件位置的分层互连多尺度卷积神经网络的第二级。第二级中的每个分层互连多尺度卷积神经网络被配置为获得所述组件中的一个的经精确化的位置和/或印迹。
其他方面包括与前述有关的组件、设备、系统、改进、方法、处理、应用和其他技术。
附图说明
本发明具有其他优点和特征,根据下面结合附图进行的对本发明的详细描述以及所附的权利要求书,这些其他优点和特征将更加显而易见,附图中:
图1是面部识别系统的简化图;
图2是面部解析模块的图;
图3是由面部解析模块解析输入图像的示例性处理的图;
图4是分层互连多尺度卷积神经网络(HIM)的示例性架构的图;
图5是解析面部图像的流程图;
图6是识别面部部位的位置或印迹的方法的流程图;
图7例示根据一个实施例的用于比较的原始图像和具有所识别的面部部位的经处理的图像;
图8例示具有通过各种方法获得的所识别的面部部位的图像;
图9例示具有通过使用常规加关键点的各种方法获得的所识别的面部部位的面部图像;
图10例示具有通过面部解析模块获得的所识别的面部部位的面部图像。
附图图示本发明的实施例,其仅用于例示的目的。本领域的技术人员从下面的讨论中将容易认识到,可以采用在本文中所例示的结构和方法的替代实施例,而不脱离在本文中所描述的本发明的原理。
具体实施方式
附图和下面的描述仅涉及作为例示的优选实施例。应当注意,根据下面的讨论,在本文中所公开的结构和方法的替代实施例将容易被认为是可以被采用而不背离所要求保护的原理的可行的替代。
所公开的面部识别系统(以及方法)包括面部解析。在一种方法中,面部解析基于分层互连多尺度卷积神经网络(HIM)以识别面部图像的组件的位置和/或印迹。HIM从面部图像的不同分辨率图像中生成多个级别的图像块,其中不同级别的图像块具有不同的分辨率。而且,HIM合并不同级别的图像块以从具有不同分辨率的不同级别中生成互连图像块。而且,HIM将互连图像块组合在一起以识别组件的位置和/或印迹。
面部识别概述
图1是根据一个实施例的面部识别系统100的简化图。面部识别系统100接收输入图像110并且尝试识别面部(亦即,将面部与特定个体相关联)。面部识别系统100从输入图像110中识别组件(例如,面部部位),包括但不局限于眼睛、眉毛、鼻子和嘴。面部识别系统100基于所识别的组件来执行分析以生成度量150。度量150可以指示输入图像110中的所识别的组件或者个体的特征。
面部识别系统100包括面部解析模块120、分析模块130和处理器140。每个模块可以实施为硬件、软件、固件或者前者的组合。这些模块一起执行面部解析以分析输入图像110中的对象。
面部解析模块120接收输入图像110作为输入,并且识别输入图像110的组件的位置和/或印迹。在一种方法中,面部解析模块120实现分层互连多尺度卷积神经网络(HIM)。HIM从输入图像110获得不同分辨率(亦即,尺度)的图像块,并且通过使用HIM中的神经网络来合并图像块。另外,面部解析模块120生成所识别的组件的位置和/或印迹的指示。
分析模块130对来自面部识别模块120的所识别的组件执行分析。在一个方面中,分析模块130确定输入图像110中的对象与参考面部图像(未示出)中的对象是否匹配。分析模块130可以获得所识别的组件的特征,并且比较所识别的组件与参考面部图像中的对应的组件。面部识别系统100可以具有针对不同个体的参考面部图像的大型数据库,并且可以比较输入图像110与许多不同的参考面部图像,以识别关于输入图像110的个体。另外,分析模块130基于输入图像110的表示,来生成关于输入图像110是否属于同一对象(人)的度量150。
处理器140执行指令以在面部识别系统100上执行面部识别。处理器140从存储器(未示出)或者外部电路系统接收指令。指令也可以完全或者至少部分地驻留在处理器140内(例如在处理器的高速缓冲存储器内)。处理器140根据指令来变换或选择输入图像110的一部分,以提供给面部解析模块120。另外,处理器140根据指令来操作面部解析模块120和分析模块130以执行面部识别的功能。
面部解析
图2是示例性面部解析模块120的图。面部解析模块120包括一个或多个HIM。面部解析模块120训练每个HIM中的神经网络,以识别输入图像110中的组件的位置和/或印迹。每个HIM聚合不同分辨率的信息,以有效地利用组件的局部外观和全局特征。
如图2所示,在一种实现方式中,面部解析模块120包括第一图像提取器210、估计HIM 220、第二图像提取器230、精确化HIM 240和输出生成器250。在一个实施例中,面部解析模块120包括两级HIM:估计HIM 220和精确化HIM 240。估计HIM 220获得输入图像110中的组件的位置的估计,而精确化HIM 240进一步精确化组件的所识别的位置。在其他实施例中,面部解析模块120可以仅包括估计HIM 220和精确化HIM 240中的一个,或者可以包括串行或并行配置的多于两级的HIM。
第一图像提取器210接收输入图像110,并且生成面部图像215。优选地,第一图像提取器210从输入图像中提取64x64像素的面部图像215,但是可以提取其他大小(例如,80x80像素)的面部图像215。
估计HIM 220接收面部图像215并且识别面部部位的位置。在一种方法中,估计HIM220识别面部部位的位置,包括眉毛、眼睛、鼻子、上嘴唇、嘴内(inner mouth)、下嘴唇和背景,并且生成对应的二进制标签图(label map)225以指示对应的组件的位置。优选地,估计HIM接收64x64x3像素(其中,x3代表三个色彩通道)的面部图像215。在其他实施例中,估计HIM 220可以识别或多或少数量的组件。例如,估计HIM 220可以忽略背景,并且替代地生成八个二进制标签图。
第二图像提取器230接收面部部位的位置并且生成对应的部分面部图像。第二图像提取器230接收来自估计HIM 220的二进制标签图225中的面部部位的位置,以便提取部分面部图像235A-E和235M。在一种实现方式中,第二图像提取器230基于其对应的二进制标签图225来生成分别包括左眼、右眼、左眉、右眉和鼻子的部分面部图像235A-E中的每一个。另外,第二图像提取器230基于上嘴唇、嘴内和下嘴唇的二进制标签图225来生成包括嘴(包括上嘴唇、嘴内和下嘴唇)的部分面部图像235M。在一种方法中,第二图像提取器230生成64x64像素的部分面部图像235A-E以及80x80像素的部分面部图像235D。第二图像提取器230可以基于面部部位的位置来生成任何大小的、任何数量的部分面部图像235。在一种实现方式中,第一图像提取器210可以被用于执行第二图像提取器230的功能。
精确化HIM 240接收部分面部图像235A并且识别面部部位的精确化的位置。在一种方法中,精确化HIM 240识别包括眉毛、眼睛、鼻子、上嘴唇、嘴内、下嘴唇和背景的面部部位的经精确化的位置,并且生成对应的精确化的二进制标签图245A-E和245M以指示对应的组件的位置。每个精确化的二进制标签图245被用于指示面部部位的精确化的位置和/或印迹。面部部位的精确化的位置和/或印迹可以由分析模块130使用以便对面部部位进行分析。
在一种实现方式中,精确化HIM 240包括四个另外的HIM 242A-D作为用于精确化面部部位的位置的第二级。另外的HIM 242A接收包括眼睛(例如左眼)的部分面部图像235A,并且生成精确化的二进制标签图245A以指示眼睛的精确化的位置。因为眼睛基本上是对称的,所以另外的HIM 242A还接收包括另一只眼睛(例如右眼)的部分面部图像235B,并且生成精确化的二进制标签图245B以指示另一只眼睛的经精确化的位置。在一种方法中,另外的HIM 242A翻转部分面部图像235B以便定位另一只眼睛,并且翻转结果以生成精确化的二进制标签图245B。另外的HIM 242B基于部分面部图像235C和235D,类似地识别眉毛的精确化的位置,并且生成每个眉毛的精确化的二进制标签图245C和245D。另外,另外的HIM 242C接收包括鼻子的部分面部图像235E,并且生成精确化的二进制标签图245E以指示鼻子的精确化的位置。而且,另外的HIM 242D接收包括嘴的部分面部图像235M,并且生成精确化的二进制标签图245M以指示包括上嘴唇、嘴内和下嘴唇的嘴的精确化的位置。在其他实施例中,精确化HIM 240可以包括任何数量的另外的HIM。
输出生成器250接收面部部位的精确化的位置,并且生成经解析的输出图像255。在一个方面中,输出生成器250在输入图像110上重叠面部组件的位置。经解析的输出图像255可以被分析模块130用于对输入图像110进行分析或者被提供给用户以便显示。
图3是使用面部解析模块120解析面部图像215的示例性过程的图。在该示例中,估计HIM 220接收64x64像素的面部图像215,并且生成二进制标签图225A-I以识别分别包括左眼、右眼、左眉、右眉、鼻子、上嘴唇、嘴内、下嘴唇和背景的面部部位的位置。
基于面部部位的所识别的位置,第二图像提取器230提取面部部位的部分面部图像235。在该示例中,第二图像提取器230分别提取左眉、右眉、左眼、右眼和鼻子的64x64像素的部分面部图像235A-E。另外,第二图像提取器230提取包括上嘴唇、嘴内和下嘴唇的嘴的80x80像素的部分面部图像235M。
精确化HIM 240接收部分面部图像235,并且生成精确化的二进制标签图245以分别获得左眉、右眉、左眼、右眼、鼻子和嘴的精确化的位置和/或印迹。嘴的精确化的二进制标签图245M可以包括上嘴唇、嘴内和下嘴唇的二进制标签图。
输出生成器250接收精确化的二进制标签图245,并且生成指示面部图像215的所识别的面部部位的位置和/或印迹的经解析的输出图像255。
面部解析
图4是估计HIM 220的示例性架构的图。HIM 220接收图像作为输入,并且生成目标区域的一个或多个标签图。在一个实施例中,HIM 220包括级别生成器410、互连组合器450和聚合器480。在一种实现方式中,级别生成器410从面部图像215生成N个级别的图像块。互连组合器450整合不同级别的图像块,以生成M个级别的互连图像块。聚合器480组合互连图像块,以生成L个级别的输出图像块。优选地,M=N并且L=M-1。第二级中的另外的HIM 242可以具有与HIM 220相同或相似的架构。取决于被监督的信号,聚合器480可以生成不同数量的输出或标签图。
级别生成器410接收面部图像215,并且从面部图像215生成N个级别的图像块,其中优选地,N>2。每个神经网络执行向下采样、卷积和非线性变换(例如,双曲正切)。不同的CNN级别通常具有不同的深度和输入大小。在一种实现方式中,级别n=1具有与面部图像215的分辨率相同的分辨率R(n=1),并且每个其他级别n具有相对于具有分辨率R(n-1)的前一个级别n-1按照2或更小的常量因子向下采样的分辨率R(n)。级别生成器410生成具有较低分辨率R(n)的级别n的更多的图像块。不同级别n的图像块具有不同的分辨率R(n),并且级别n的图像块通过对被重新采样至分辨率R(n)的图像执行卷积和非线性变化来生成。
在图4中的示例中,N=4,并且不同的CNN级别被标注为“级别1”至“级别4”。在该示例中,64x64或者80x80像素的面部图像215被向下采样成分别具有1/2、1/4和1/8大小的图像402、404和406。另外,对每个级别应用不同的卷积滤波器和双曲正切激活函数。级别1的卷积的输入可以是RGB的。级别生成器410对于级别1以原始尺度生成8个图像块412,对于级别2以1/2尺度生成16个图像块414,对于级别3以1/4尺度生成24个图像块416,而对于级别4以1/8尺度生成32个图像块418。
互连组合器450接收来自级别生成器410的N个级别的图像块,并且从N个级别的图像块生成M个级别的互连图像块,其中优选地,2<M≤N。不同级别m的互连图像块具有不同的分辨率R(m),并且级别m的互连图像块从图像块的输入分组m生成,图像块的输入分组m包含:(i)来自R(n)=R(m)的级别n的图像块;以及(ii)来自个R(n)≠R(m)的一个或多个级别n的图像块,其中这样的图像块已经被重新采样至分辨率R(m)。优选地,级别m的互连图像块来自图像块的输入分组m,包括:(i)来自R(n)=R(m)的级别n的图像块;(ii)来自具有比R(m)次高的分辨率的级别n以及具有比R(m)次低的分辨率的级别n的图像块(如果存在的话)。互连组合器450通过对图像块的输入分组m执行卷积和非线性变换来生成级别m的互连图像块。
在N=M的一种实现方式中,互连组合器450生成级别m的互连图像块,以具有R(n)=R(m)情况下的级别n的相同数量的图像块。在该实施例中,可以级联地使用多个互连组合器450,或者可以递归地多次使用互连组合器450。
在图4中的示例中,N=M=4,并且互连组合器450基于图像块412、414、416和418来生成4个级别的互连图像块452、454、456和458。对于具有R(n)=R(m)的级别m,互连组合器450通过整合来自级别n和级别n的相邻级别的图像块作为图像块的输入分组m以及对图像块的输入分组m执行卷积和非线性变换,来生成来自级别n的相同数量的图像块。为了整合具有不同分辨率的图像块,互连组合器450将来自级别R(n)≠R(m)的图像块重新采样至分辨率R(m)。
例如,为了生成级别1的互连图像块452,互连组合器450将来自级别1的8个图像块412和来自级别2的16个图像块414组合(或者堆叠)成图像块的输入分组1(451),以具有24个图像块。为了匹配分辨率,互连组合器450将来自级别2的16个图像块414向上采样至分辨率R(m=1)。另外,互连组合器450对图像块的输入分组1(451)执行卷积和非线性变换,以生成级别1的8个互连图像块452。
类似地,为了生成级别2的互连图像块454,互连组合器450将来自级别1的8个图像块412、来自级别2的16个图像块414以及来自级别3的24个图像块组合(或者堆叠)成图像块的输入分组2(453),以具有48个图像块。为了匹配分辨率,互连组合器450将来自级别3的24个图像块416向上采样至分辨率R(m=2),并且将来自级别1的8个图像块412向下采样至分辨率R(m=2)。另外,互连组合器450对图像块的输入分组2(453)执行卷积和非线性变换,以生成级别2的16个互连图像块454。
为了生成级别3的互连图像块456,互连组合器450将来自级别2的16个图像块414、来自级别3的24个图像块以及来自级别4的32个图像块418组合(或者堆叠)成图像块的输入分组3(455),以具有72个图像块。为了匹配分辨率,互连组合器450将来自级别4的32个图像块418向上采样至分辨率R(m=3),并且将来自级别2的16个图像块414向下采样至分辨率R(m=3)。另外,互连组合器450对图像块的输入分组3(455)执行卷积和非线性变换,以生成级别3的24个互连图像块456。
为了生成级别4的互连图像块458,互连组合器450将来自级别3的24个图像块416以及来自级别4的32个图像块418组合(或者堆叠)成图像块的输入分组4(457),以具有56个图像块。为了匹配分辨率,互连组合器450将来自级别3的24个图像块416向下采样至分辨率R(m=4)。另外,互连组合器450对图像块的输入分组4(457)执行卷积和非线性变换,以生成级别4的32个互连图像块458。
聚合器480接收来自互连组合器450的M个级别的互连图像块,并且生成L个级别的输出图像块,其中L<M。不同级别l的输出图像块具有不同的分辨率R(l)。每个R(l)对应于R(m)中的一个,并且级别l的输出图像块486通过对图像块的输入分组l执行卷积和非线性变换来生成,图像块的输入分组l包括:(i)来自R(m)=R(l)的级别m的互连图像块;以及(ii)来自具有比R(l)次低的分辨率的级别m的输出图像块,其中,这样的输出图像块已经被重新采样至分辨率R(l)。另外,聚合器480基于最高分辨率的输出图像块486来生成一个或多个标签图488,以定位组件。
在图4中的示例中,N=M=4m L=3,并且聚合器480顺序地组合(或者堆叠)来自不同级别的互连图像块。首先,聚合器480对来自级别4的32个互连图像块458进行向上采样,并且将它们与来自级别3的24个互连图像块456组合(或者堆叠)在一起,以形成56个图像块的输入分组3(481)。聚合器480对图像块的输入分组3(481)执行卷积和非线性变换。以生成级别3的24个输出图像块482。
另外,聚合器480对来自级别3的24个输出图像块482进行向上采样,并且将它们与来自级别2的16个互连图像块454组合(或者堆叠)在一起,以形成40个图像块的输入分组2(483)。聚合器480对图像块的输入分组2(483)执行卷积和非线性变换,以生成级别2的16个输出图像块484。
类似地,聚合器480对来自级别2的16个输出图像块484进行向上采样,并且将它们与来自级别1的8个互连图像块452组合(或者堆叠)在一起,以形成24个图像块的输入分组1(485)。聚合器480对图像块的输入分组1(485)执行卷积和非线性变换,以生成级别1的输出图像块486。在一个方面中,输出图像块486包括8个输出图像块以及另外的输出图像块,优选为标签图的数量的两倍(例如,2*标签图+8)。聚合器480还对来自级别1的输出图像块486执行另外的卷积,以生成二进制标签图488。
HIM 220的一个方面涉及执行卷积和非线性变换。执行卷积和非线性变换允许深度神经网络拟合来自输入的块的非线性函数与深度结构。将具有LI个通道的2d输入数据标记为卷积滤波器为2d输出,关于每个输出层的偏置BI,由HIM 220执行的卷积和非线性变换可以表征如下:
关于被用于获得二进制标签图488的线性卷积,可以省略双曲正切运算符。在一种实现方式中,优选相同大小的输入和输出,因此,输入的可见范围的外部用一圈零来填充(对于可见范围外部的x和y,)。填充位移pad可以被设置成(RW-1)/2,使得输出的各个字段以输入的相同位置为中心。可以在卷积之后、在双曲正切之前应用偏置参数BL。
HIM 220的另一个方面涉及执行向下采样,以使得神经元能够具有更大的相应字段。在一种方法中,最大池化(max pooling)技术用于向下采样。给定NxN输入最大池化取得来自每个MxM子补片的最大值作为其输出。能够设置步幅K,使得子补片可以具有重叠的空间局部性。
然而,HIM 220的另一个方面涉及执行向上采样。在一种方法中,向上采样通过添加冗余性来执行。向上采样以较粗糙的尺度来填充响应图(response map),以使其适合较精细的尺度。例如,2x2向上采样可以如下定义:
另外,HIM 220的另一个方面涉及直接生成逐像素(pixel-wise)的标签图。在一种方法中,作为损失函数的softmax和最大对数似然可以被用于如下那样地生成标签图:
其中,是监督信号,其标注仅1…Lout中的L的正确类别具有值1而其他具有值0。这里,W和H分别表示输出标签的宽度和高度。优选地,聚合器480将应用softmax,并且使用对数似然来计算损失函数。
面部解析的运算
图5是根据一个实施例的解析面部图像的方法的流程图。面部解析模块120采用一个或多个HIM来生成面部图像的表示。面部解析模块120使用HIM来识别面部部位的位置的估计值(510)。面部解析模块120使用图像提取器230,基于部分面部图像的所估计的位置来提取部分面部图像(520)。面部解析模块120使用另外的HIM作为眼睛、眉毛、鼻子和嘴的第二级,基于所提取的部分面部图像,来精确化面部部位的位置(530)。面部解析模块120组合面部图像与所定位的面部部位(540),以指示面部部位的位置和/或印迹。
图6是识别面部部位的位置和/或印迹的方法的流程图。HIM从面部图像生成图像块的级别(610)。HIM通过组合与不同级别相关联的图像块来生成互连图像块(620)。不同级别m的互连图像块具有不同的分辨率R(m),并且级别m的互连图像块从图像块的输入分组m生成,图像块的输入分组m包含:(i)来自R(n)=R(m)的级别n的图像块;以及(ii)来自R(n)≠R(m)的一个或多个级别n的图像块,其中这样的图像块已经被重新采样至分辨率R(m)。优选地,级别m的互连图像块来自图像块的输入分组m,图像块的输入分组m包括:(i)来自R(n)=R(m)的级别n的图像块;(ii)来自具有比R(m)次高的分辨率的级别n以及具有比R(m)次低的分辨率的级别n的图像块(如果存在的话)。HIM通过组合互连图像块以及生成一个或多个二进制标签图,来识别面部部位的位置和/或印迹(630)。
模拟结果
为了验证面部识别系统100和面部解析模块120的性能,测试不同的图像解析方法,包括最大池化完全连接(MPFC)、纯卷积双曲正切(TANH)、不具有互连多尺度的分层CNN(HNOIM)以及包括HIM 220的面部解析模块120。
为了比较,应用来自Helen数据库的2330个面部图像。将2330个面部图像分到3个分组中,其中,2000个图像用于训练,230个用于验证/调谐,并且100个用于测试。因为Helen数据库中的注释是基于关键点的,所以,为了更好地比较,将Helen数据库中的图像重新调节大小并且修改为在像素级地面实况数据上粗略地对齐。为了比较,通过使用手动注释的轮廓作为分割边界,来自动地生成地面实况眼睛、眉毛、鼻子、嘴内、上嘴唇和下嘴唇片段。
图7例示原始图像和具有所识别的面部部位的地面实况的经处理的图像的示例,以便比较。来自Helen数据库的原始图像710在顶行中示出,而具有所识别的面部部位的地面实况图像720在底行中示出。顶行中的图像具有围绕每个组件轮廓的点标记。这些点以标记眼睛、眉毛等的预先定义的次序。处理底行中的地面实况图像,以将这些点柔和地链接,从而生成逐像素的标签区域。
对于训练集和调谐集中的每个图像,提取每个组件的块图像。优选地,块图像大小为64x64像素以在数据集中包括眉毛、眼睛和鼻子中的一个,以及80x80像素以包括嘴。
为了防止过度拟合并且增强面部解析模块120,应用数据论证(dataargumentation)。每当块图像被选择作为输入时,应用随机±15度旋转、随机0.9-1.1x缩放以及在每个方向上的随机±10像素位移。
图8例示包括由各种方法获得的所识别的面部部位中的一个的图像块,以便比较。第一列包括包含鼻子、眉毛、眼睛和上嘴唇的地面实况的图像块。第二列包括具有使用MPFC识别的组件的图像块。第三列包括具有使用TANH识别的组件的图像块。第四列包括具有使用HNOIM识别的组件的图像块。第五列包括如上所述地使用HIM识别的组件的图像块。MPFC、TANH和HNOIM是替代方法。
如图8中所示,尽管MPFC良好地捕获全局特征,但是MPFC在阴影、非刚性变换和看不见的大形变方面表现较差。相比之下,TANH和HNOIM更多地关注于局部外观,但是在全局特征的合并方面欠缺。与MPFC模型不同,TANH和HNOIM在响应中的随机位置处具有随机噪声。因此,TANH和HNOIM产生组件的较差识别。HIM(如上所述的方法)利用全局特征与局部外观之间的良好平衡,从而实现接近第一列中的地面实况的出色结果。
在表格1中列出MPFC、TANH、HNOIM和HIM在图像块上的F1得分。如表格1中所示,在识别眉毛、眼睛、鼻子和上嘴唇方面,HIM胜于MPFC、TANH和HNOIM。在识别嘴内和下嘴唇方面,HNOIM表现稍微好于HIM。然而,对于嘴内唇和下嘴唇,HIM仍然表现良好。
表格1.每个模型在每个组件上的F1得分比较
图9例示具有由使用常规加关键点的各种方法所获得的所识别的面部部位的面部图像。使用常规加关键点代替估计HIM 220来定位面部部位,以便比较MPFC、TANH、HNOIM和HIM的性能。图像910是由MPFC获得的结果,图像920是由TANH获得的结果,图像930是由HNOIM获得的结果,而图像940是由HIM获得的结果。
在表格2中列出使用常规加关键点的MPFC、TANH、HNOIM和HIM在面部图像上的F1得分。如图9中所示,HIM产生令人印象深刻的结果。
表格2.每个模型使用常规加关键点在每个组件上的F1得分比较
图10例示具有由面部解析模块120获得的所识别的面部部位的面部图像。来自Helen数据库的原始图像1010在顶行中示出,而具有所识别的面部部位的图像1020在底行中示出。
如图10中所示,使用HIM的面部解析模块120在捕捉眉毛、鼻梁以及高度可形变的嘴唇的复杂形状时表现良好。面部解析模块120不需要任何预处理,并且在估计HIM 220中自动地获得头部位置和粗略分割。
虽然详细描述包含许多细节,但是这些不应当被解释为限制本发明的范围,而是应当被解释为仅仅是例示本发明的不同示例和方面。应当领会到,本发明的范围包括未在上文详细讨论的其他实施例。例如,除了面部识别和表示之外,在HIM 220或者面部解析模块120中所公开的原理还可以应用于其他区域或对象,例如解析其他类型的图像。可以在本文所公开的本发明的方法和装置的布置、操作和细节方面做出对于本领域的那些技术人员将是显然的各种其他修改、改变和变化,而不背离如在所附的权利要求书中所限定的本发明的精神和范围。因此,本发明的范围应当由所附的权利要求书及其法律等同物来确定。
在替代的实施例中,本发明实现为计算机硬件、固件、软件和/或它们的组合。本发明的装置能够实现为有形地实施在机器可读的存储设备中以便由可编程处理器执行的计算机程序产品;并且本发明的方法步骤能够由通过操作输入数据并且生成输出来执行指令程序以执行本发明的功能的可编程处理器来执行。本发明能够有利地实现为可在可编程系统上执行的一个或多个计算机程序,可编程系统包括至少一个可编程处理器、至少一个输入设备以及至少一个输出设备,所述至少一个可编程处理器被耦合以从数据存储系统接收数据和指令以及向数据存储系统传送数据和指令。每个计算机程序能够以高级程序或者面向对象的编程语言来实现,或者如果期望的话,能够以汇编或机器语言来实现;并且在任何情况下,语言可以是编译或解释语言。作为示例,适当的处理器包括通用和专用微处理器。一般地,处理器将从只读存储器和/或随机存取存储器接收指令和数据。一般地,计算机将包括用于存储数据文件的一个或多个海量存储设备;这样的设备包括诸如内部硬盘和可移动盘这样的磁盘、磁光盘以及光盘。适合于有形地实施计算机程序指令和数据的存储设备包括所有形式的非易失性存储器,例如包括诸如EPROM、EEPROM和闪存设备这样的半导体存储设备、诸如内部硬盘和可移动盘这样的磁盘、磁光盘以及CD-ROM盘。前述中的任何均可由ASIC(专用集成电路)和其他形成的硬件补充或者合并在ASIC以及其他形成的硬件中。
C16W9264.01CN附图翻译
图1
编号或英文 | 中文 |
100 | 面部识别系统 |
110 | 输入图像 |
120 | 面部解析模块 |
130 | 分析模块 |
140 | 处理器 |
150 | 度量 |
图2
编号或英文 | 中文 |
110 | 输入图像 |
120 | 面部解析模块 |
210 | 第一图像提取器 |
215 | 面部图像 |
220 | 估计HIM |
230 | 第二图像提取器 |
240 | 精确化HIM |
250 | 输出生成器 |
图3
图4
编号或英文 | 中文 |
220 | 估计HIM |
410 | 级别生成器 |
450 | 互连组合器 |
480 | 聚合器 |
Level | 级别 |
downsampling | 向下采样 |
layers | 层 |
Label map | 标签图 |
图5
图6
图8
编号或英文 | 中文 |
Ground truth | 地面实况 |
Claims (21)
1.一种将图像解析成组件的系统,该系统包含
用于从图像定位组件的分层互连多尺度卷积神经网络(HIM),该HIM包含:
级别生成器,被配置为接收图像以及从所述图像生成N个级别的图像块,其中N>2,其中,不同级别n的图像块具有不同的分辨率R(n),并且级别n的图像块从被重新采样至分辨率R(n)的所述图像生成;
互连组合器,被配置为接收来自所述级别生成器的所述N个级别的图像块以及从所述N个级别的图像块生成M个级别的互连图像块,其中2<M≤N,其中,不同级别m的互连图像块具有不同的分辨率R(m),并且级别m的互连图像块从图像块的输入分组m生成,所述图像块的输入分组m包含(i)来自R(n)=R(m)的级别n的图像块,以及(ii)来自R(n)≠R(m)的一个或多个级别n的图像块,其中这样的图像块已经被重新采样至分辨率R(m);以及
聚合器,被配置为通过组合所述M个级别的互连图像块来定位组件。
2.根据权利要求1所述的系统,其中,所述级别生成器通过对被重新采样至分辨率R(n)的图像执行卷积和非线性变换来生成级别n的图像块。
3.根据权利要求1所述的系统,其中,所述互连组合器通过对图像块的输入分组m执行卷积和非线性变换来生成级别m的互连图像块。
4.根据权利要求1所述的系统,其中,所述聚合器被配置为接收所述M个级别的互连图像块以及生成L个级别的输出图像块,其中L<M,其中,不同级别l的输出图像块具有不同的分辨率R(l),每个R(l)对应于R(m)中的一个,并且级别l的输出图像块从图像块的输入分组l生成,图像块的输入分组l包含(i)来自R(m)=R(l)的级别m的互连图像块,以及(ii)来自具有小于R(l)的分辨率的一个或多个级别的输出图像块,其中这样的输出图像块已经被重新采样至分辨率R(l)。
5.根据权利要求4所述的系统,其中,所述聚合器通过对图像块的输入分组l执行卷积和非线性变换来生成级别l的输出图像块。
6.根据权利要求4所述的系统,其中,所述聚合器基于最高分辨率的输出图像块来定位组件。
7.根据权利要求1所述的系统,其中,M=N并且L=M-1。
8.根据权利要求7所述的系统,其中,级别n=1具有与所述图像的分辨率相同的分辨率R(n=1),并且每个其他级别n具有相对于具有分辨率R(n-1)的前一个级别n-1按照常量因子被向下采样的分辨率R(n)。
9.根据权利要求8所述的系统,其中,常量因子是2倍或以下的向下采样。
10.根据权利要求8所述的系统,其中,所述级别生成器生成具有较低分辨率R(n)的级别n的更多的图像块。
11.根据权利要求7所述的系统,其中,所述互连组合器从图像块的输入分组m生成级别m的互连图像块,图像块的输入分组m包含(i)来自R(n)=R(m)的级别n的图像块,(ii)存在的来自具有比R(m)次高的分辨率的级别n以及具有比R(m)次低的分辨率的级别n的图像块,其中这样的图像块已经被重新采样至分辨率R(m)。
12.根据权利要求7所述的系统,其中,所述聚合器从图像块的输入分组l生成级别l的输出图像块,图像块的输入分组l包含(i)来自R(m)=R(l)的级别m的互连图像块,以及(ii)来自具有比R(l)次低的分辨率的级别m的输出图像块,其中这样的输出图像块已经被重新采样至分辨率R(l)。
13.根据权利要求1所述的系统,还包含:
分层互连多尺度卷积神经网络的第二级,被配置为接收由所述HIM产生的组件位置,所述第二级中的每个分层互连多尺度卷积神经网络被配置为进一步精确化所述组件中的一个的位置和/或印迹。
14.根据权利要求1所述的系统,其中,所述图像是面部图像,并且所述组件是包括眼睛、眉毛、鼻子和嘴的面部组件。
15.根据权利要求14所述的系统,其中,所述聚合器产生指示所述面部组件的位置的二进制标签图。
16.根据权利要求14所述的系统,还包含:
分层互连多尺度卷积神经网络的第二级,被配置为接收由所述HIM产生的面部组件位置,所述第二级中的分层互连多尺度卷积神经网络中的至少一个被配置为分别进一步精确化眼睛、鼻子和嘴的位置和/或印迹。
17.根据权利要求16所述的系统,还包含:
图像提取器,耦合在所述HIM与所述第二级之间,所述图像提取器用于基于所述面部图像和由所述HIM产生的所述面部组件的所述位置来提取面部组件图像,所提取的面部组件图像被提供给所述第二级。
18.根据权利要求14所述的系统,还包含:
输出生成器,被配置为在面部图像上重叠面部组件的位置。
19.根据权利要求1所述的系统,其中:
M=N并且L=M-1;
级别n=1具有与图像的分辨率相同的分辨率R(n=1),并且每个其他级别n具有相对于具有分辨率R(n-1)的前一个级别n-1按照2或以下的常量因子被向下采样的分辨率R(n);
所述级别生成器通过对被重新采样至分辨率R(n)的图像执行卷积和非线性变换来生成级别n的图像块,并且所述级别生成器生成具有较低分辨率R(n)的级别n的更多的图像块;
所述互连组合器通过对图像块的输入分组m执行卷积和非线性变换来生成级别m的互连图像块,图像块的输入分组m包含(i)来自R(n)=R(m)的级别n的图像块,以及(ii)存在的来自具有比R(m)次高的分辨率的级别n以及具有比R(m)次低的分辨率的级别n的图像块,其中这样的图像块已经被重新采样至分辨率R(m);
所述聚合器被配置为接收所述M个级别的互连图像块以及生成L个级别的输出图像块,其中L<M,其中,不同级别l的输出图像块具有不同的分辨率R(l),每个R(l)对应于R(m)中的一个,并且级别l的输出图像块通过对图像块的输入分组l执行卷积和非线性变换来生成,图像块的输入分组l包含(i)来自R(m)=R(l)的级别m的互连图像块,以及(ii)来自具有比R(l)次低的分辨率的级别m的输出图像块,其中这样的输出图像块已经被重新采样至分辨率R(l);以及
所述聚合器基于最高分辨率的输出图像块来定位所述组件。
20.一种将图像解析成组件的方法,该方法包含:
从图像生成N个级别的图像块,其中N>2,其中,不同级别n的图像块具有不同的分辨率R(n),并且级别n的图像块从被重新采样至分辨率R(n)的所述图像生成;
从所述N个级别的图像块生成M个级别的互连图像块,其中2<M≤N,其中,不同级别m的互连图像块具有不同的分辨率R(m),并且级别m的互连图像块从图像块的输入分组m生成,所述图像块的输入分组m包含(i)来自R(n)=R(m)的级别n的图像块,以及(ii)来自R(n)≠R(m)的一个或多个级别n的图像块,其中这样的图像块已经被重新采样至分辨率R(m);以及
通过组合所述M个级别的互连图像块来定位组件。
21.一种非临时性计算机可读介质,被配置为存储程序代码,该程序代码包含用于将图像解析成组件的指令,所述指令在被处理器执行时使处理器:
从图像生成N个级别的图像块,其中N>2,其中,不同级别n的图像块具有不同的分辨率R(n),并且级别n的图像块从被重新采样至分辨率R(n)的图像生成;
从所述N个级别的图像块生成M个级别的互连图像块,其中2<M≤N,其中,不同级别m的互连图像块具有不同的分辨率R(m),并且级别m的互连图像块从图像块的输入分组m生成,所述图像块的输入分组m包含(i)来自R(n)=R(m)的级别n的图像块,以及(ii)来自R(n)≠R(m)的一个或多个级别n的图像块,其中这样的图像块已经被重新采样至分辨率R(m);以及
通过组合所述M个级别的互连图像块来定位组件。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2014/088285 WO2016054802A1 (en) | 2014-10-10 | 2014-10-10 | Hierarchical interlinked multi-scale convolutional network for image parsing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105981051A true CN105981051A (zh) | 2016-09-28 |
CN105981051B CN105981051B (zh) | 2019-02-19 |
Family
ID=55652490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480075091.3A Active CN105981051B (zh) | 2014-10-10 | 2014-10-10 | 用于图像解析的分层互连多尺度卷积网络 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9530071B2 (zh) |
EP (1) | EP3161728B1 (zh) |
CN (1) | CN105981051B (zh) |
WO (1) | WO2016054802A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709532A (zh) * | 2017-01-25 | 2017-05-24 | 京东方科技集团股份有限公司 | 图像处理方法和装置 |
TWI616840B (zh) * | 2016-11-14 | 2018-03-01 | 耐能股份有限公司 | 卷積運算裝置及方法 |
CN110022753A (zh) * | 2016-09-29 | 2019-07-16 | 奇跃公司 | 用于眼睛图像分割和图像质量估计的神经网络 |
CN110647793A (zh) * | 2018-06-27 | 2020-01-03 | 国际商业机器公司 | 用于对象识别和检测的多尺度特征表示 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10387773B2 (en) * | 2014-10-27 | 2019-08-20 | Ebay Inc. | Hierarchical deep convolutional neural network for image classification |
US9418458B2 (en) * | 2015-01-05 | 2016-08-16 | Superfish Ltd. | Graph image representation from convolutional neural networks |
US9773196B2 (en) * | 2016-01-25 | 2017-09-26 | Adobe Systems Incorporated | Utilizing deep learning for automatic digital image segmentation and stylization |
US10089717B2 (en) * | 2016-04-05 | 2018-10-02 | Flipboard, Inc. | Image scaling using a convolutional neural network |
US10664949B2 (en) | 2016-04-22 | 2020-05-26 | Intel Corporation | Eye contact correction in real time using machine learning |
US10423830B2 (en) * | 2016-04-22 | 2019-09-24 | Intel Corporation | Eye contact correction in real time using neural network based machine learning |
KR102450441B1 (ko) | 2016-07-14 | 2022-09-30 | 매직 립, 인코포레이티드 | 홍채 식별을 위한 딥 뉴럴 네트워크 |
US10296792B2 (en) | 2016-07-14 | 2019-05-21 | Magic Leap, Inc. | Iris boundary estimation using cornea curvature |
WO2018039269A1 (en) | 2016-08-22 | 2018-03-01 | Magic Leap, Inc. | Augmented reality display device with deep learning sensors |
WO2018052586A1 (en) | 2016-09-14 | 2018-03-22 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks |
IL281321B (en) | 2016-10-04 | 2022-07-01 | Magic Leap Inc | Efficient data layouts for convolutional neural networks |
CN110168477B (zh) | 2016-11-15 | 2022-07-08 | 奇跃公司 | 用于长方体检测的深度学习系统 |
JP7112399B2 (ja) | 2016-12-05 | 2022-08-03 | マジック リープ, インコーポレイテッド | 複合現実環境における仮想ユーザ入力制御 |
AU2018236433B2 (en) | 2017-03-17 | 2022-03-03 | Magic Leap, Inc. | Room layout estimation methods and techniques |
US10902244B2 (en) | 2017-03-27 | 2021-01-26 | Samsung Electronics Co., Ltd. | Apparatus and method for image processing |
US10783394B2 (en) | 2017-06-20 | 2020-09-22 | Nvidia Corporation | Equivariant landmark transformation for landmark localization |
JP7146372B2 (ja) * | 2017-06-21 | 2022-10-04 | キヤノン株式会社 | 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体 |
EP3659017B1 (en) | 2017-07-26 | 2023-04-05 | Magic Leap, Inc. | Training a neural network with representations of user interface devices |
CN108229497B (zh) * | 2017-07-28 | 2021-01-05 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
FR3069940B1 (fr) | 2017-08-03 | 2019-09-06 | Universite D'orleans | Procede et systeme de cartographie de l’etat sanitaire de cultures |
US10628919B2 (en) * | 2017-08-31 | 2020-04-21 | Htc Corporation | Image segmentation method and apparatus |
US10521661B2 (en) | 2017-09-01 | 2019-12-31 | Magic Leap, Inc. | Detailed eye shape model for robust biometric applications |
JP7162020B2 (ja) | 2017-09-20 | 2022-10-27 | マジック リープ, インコーポレイテッド | 眼追跡のための個人化されたニューラルネットワーク |
US9984325B1 (en) * | 2017-10-04 | 2018-05-29 | StradVision, Inc. | Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same |
KR102602117B1 (ko) | 2017-10-26 | 2023-11-13 | 매직 립, 인코포레이티드 | 딥 멀티태스크 네트워크들에서 적응적 손실 밸런싱을 위한 그라디언트 정규화 시스템들 및 방법들 |
CN108305214B (zh) * | 2017-12-28 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、存储介质和计算机设备 |
US11119915B2 (en) | 2018-02-08 | 2021-09-14 | Samsung Electronics Co., Ltd. | Dynamic memory mapping for neural networks |
CN108399382A (zh) | 2018-02-13 | 2018-08-14 | 阿里巴巴集团控股有限公司 | 车险图像处理方法和装置 |
US10915606B2 (en) | 2018-07-17 | 2021-02-09 | Grupiks Llc | Audiovisual media composition system and method |
CN110689061B (zh) * | 2019-09-19 | 2023-04-28 | 小米汽车科技有限公司 | 一种基于对齐特征金字塔网络的图像处理方法、装置及系统 |
US11514292B2 (en) | 2019-12-30 | 2022-11-29 | International Business Machines Corporation | Grad neural networks for unstructured data |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040183451A1 (en) * | 2003-02-27 | 2004-09-23 | International Business Machines Corporation | Fast lighting processors |
CN101425177A (zh) * | 2007-10-29 | 2009-05-06 | 三星电子株式会社 | 划分图像处理设备和方法以及控制因数计算设备 |
CN103345774A (zh) * | 2013-07-17 | 2013-10-09 | 中国人民解放军第三军医大学 | 一种三维多尺度矢量化的建模方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3276547B2 (ja) * | 1995-12-01 | 2002-04-22 | シャープ株式会社 | 画像認識方法 |
KR100341079B1 (ko) * | 1997-01-10 | 2002-06-20 | 마츠시타 덴끼 산교 가부시키가이샤 | 화상 처리 방법 및 화상 처리 장치, 및 데이터 기록 매체 |
EP0993190A2 (en) * | 1998-10-09 | 2000-04-12 | Sony Corporation | Image data recording and reproducing method, apparatus and medium |
JP4370080B2 (ja) * | 2002-07-25 | 2009-11-25 | オリンパス株式会社 | 画像記録装置 |
US7974497B2 (en) * | 2005-02-14 | 2011-07-05 | Canon Kabushiki Kaisha | Method of modifying the region displayed within a digital image, method of displaying an image at plural resolutions, and associated device |
KR20120088350A (ko) * | 2011-01-31 | 2012-08-08 | 한국전자통신연구원 | 고해상도 영상 생성 장치 |
EP2728547A4 (en) * | 2011-06-29 | 2015-04-15 | Konica Minolta Inc | SEARCH DEVICE FOR CORRESPONDING POINTS |
JP5474887B2 (ja) * | 2011-08-01 | 2014-04-16 | 株式会社ソニー・コンピュータエンタテインメント | 動画データ生成装置、動画像表示装置、動画データ生成方法、動画像表示方法、および動画像ファイルのデータ構造 |
KR101811718B1 (ko) * | 2013-05-31 | 2018-01-25 | 삼성전자주식회사 | 영상 처리 방법 및 장치 |
CN103824052B (zh) * | 2014-02-17 | 2017-05-03 | 北京旷视科技有限公司 | 一种基于多层次语义特征的人脸特征提取方法及识别方法 |
-
2014
- 2014-10-10 CN CN201480075091.3A patent/CN105981051B/zh active Active
- 2014-10-10 US US14/402,030 patent/US9530071B2/en active Active
- 2014-10-10 WO PCT/CN2014/088285 patent/WO2016054802A1/en active Application Filing
- 2014-10-10 EP EP14903685.7A patent/EP3161728B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040183451A1 (en) * | 2003-02-27 | 2004-09-23 | International Business Machines Corporation | Fast lighting processors |
CN101425177A (zh) * | 2007-10-29 | 2009-05-06 | 三星电子株式会社 | 划分图像处理设备和方法以及控制因数计算设备 |
CN103345774A (zh) * | 2013-07-17 | 2013-10-09 | 中国人民解放军第三军医大学 | 一种三维多尺度矢量化的建模方法 |
Non-Patent Citations (2)
Title |
---|
ERJIN ZHOU ETC.: ""Extensive Facial Landmark Localization with Coarse-to-fine Convolutional Network Cascade"", 《2013 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS》 * |
MOJTABA SEYEDHOSSEINI ETC.: ""Image Segmentation with Cascaded Hierarchical Models and Logistic Disjunctive Normal Networks"", 《2013 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110022753A (zh) * | 2016-09-29 | 2019-07-16 | 奇跃公司 | 用于眼睛图像分割和图像质量估计的神经网络 |
CN110022753B (zh) * | 2016-09-29 | 2022-02-25 | 奇跃公司 | 用于眼睛图像分割和图像质量估计的神经网络 |
TWI616840B (zh) * | 2016-11-14 | 2018-03-01 | 耐能股份有限公司 | 卷積運算裝置及方法 |
CN106709532A (zh) * | 2017-01-25 | 2017-05-24 | 京东方科技集团股份有限公司 | 图像处理方法和装置 |
US10395167B2 (en) | 2017-01-25 | 2019-08-27 | Boe Technology Group Co., Ltd. | Image processing method and device |
CN106709532B (zh) * | 2017-01-25 | 2020-03-10 | 京东方科技集团股份有限公司 | 图像处理方法和装置 |
CN110647793A (zh) * | 2018-06-27 | 2020-01-03 | 国际商业机器公司 | 用于对象识别和检测的多尺度特征表示 |
US11651206B2 (en) | 2018-06-27 | 2023-05-16 | International Business Machines Corporation | Multiscale feature representations for object recognition and detection |
Also Published As
Publication number | Publication date |
---|---|
EP3161728A4 (en) | 2017-12-20 |
EP3161728A1 (en) | 2017-05-03 |
US9530071B2 (en) | 2016-12-27 |
US20160104053A1 (en) | 2016-04-14 |
CN105981051B (zh) | 2019-02-19 |
WO2016054802A1 (en) | 2016-04-14 |
EP3161728B1 (en) | 2023-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105981051A (zh) | 用于图像解析的分层互连多尺度卷积网络 | |
CN108537742B (zh) | 一种基于生成对抗网络的遥感图像全色锐化方法 | |
CN110909651B (zh) | 视频主体人物的识别方法、装置、设备及可读存储介质 | |
CN109389153B (zh) | 一种全息防伪码校验方法及装置 | |
CN109711316A (zh) | 一种行人重识别方法、装置、设备及存储介质 | |
CN109191369A (zh) | 2d图片集转3d模型的方法、存储介质和装置 | |
CN106228528B (zh) | 一种基于决策图与稀疏表示的多聚焦图像融合方法 | |
CN106104573A (zh) | 霍夫处理器 | |
Weinman et al. | Deep neural networks for text detection and recognition in historical maps | |
CN103177269A (zh) | 用于估计对象姿态的设备和方法 | |
CN104298974A (zh) | 一种基于深度视频序列的人体行为识别方法 | |
CN101673338A (zh) | 基于多角度投影的模糊车牌识别方法 | |
CN105373777A (zh) | 一种用于人脸识别的方法及装置 | |
CN106778768A (zh) | 基于多特征融合的图像场景分类方法 | |
CN104077742B (zh) | 基于Gabor特征的人脸素描合成方法及系统 | |
CN113822314A (zh) | 图像数据处理方法、装置、设备以及介质 | |
CN110648309B (zh) | 基于条件生成对抗网络合成红细胞图像的方法及相关设备 | |
CN114998220A (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN107506769A (zh) | 一种城市水体信息的提取方法及系统 | |
CN113269224A (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN114926892A (zh) | 一种基于深度学习的眼底图像匹配方法、系统和可读介质 | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
CN109740674A (zh) | 一种图像处理方法、装置、设备和存储介质 | |
CN114821466A (zh) | 一种基于改进yolo模型的轻型室内火灾识别方法 | |
CN114168768A (zh) | 图像检索方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |