CN110022753A - 用于眼睛图像分割和图像质量估计的神经网络 - Google Patents
用于眼睛图像分割和图像质量估计的神经网络 Download PDFInfo
- Publication number
- CN110022753A CN110022753A CN201780073170.4A CN201780073170A CN110022753A CN 110022753 A CN110022753 A CN 110022753A CN 201780073170 A CN201780073170 A CN 201780073170A CN 110022753 A CN110022753 A CN 110022753A
- Authority
- CN
- China
- Prior art keywords
- layer
- eye image
- segmentation
- image
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003709 image segmentation Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 title description 12
- 210000001508 eye Anatomy 0.000 claims abstract description 666
- 230000011218 segmentation Effects 0.000 claims abstract description 173
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 162
- 210000001747 pupil Anatomy 0.000 claims abstract description 136
- 210000003786 sclera Anatomy 0.000 claims abstract description 38
- 238000013507 mapping Methods 0.000 claims description 91
- 238000010606 normalization Methods 0.000 claims description 37
- 238000005070 sampling Methods 0.000 claims description 35
- 210000000554 iris Anatomy 0.000 claims description 8
- 230000001965 increasing effect Effects 0.000 claims description 7
- 238000003384 imaging method Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 abstract description 156
- 230000003190 augmentative effect Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 77
- 238000012545 processing Methods 0.000 description 59
- 238000003780 insertion Methods 0.000 description 29
- 230000037431 insertion Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 29
- 230000001537 neural effect Effects 0.000 description 27
- 230000006870 function Effects 0.000 description 25
- 210000005252 bulbus oculi Anatomy 0.000 description 19
- 230000004087 circulation Effects 0.000 description 13
- 210000000744 eyelid Anatomy 0.000 description 12
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 210000000720 eyelash Anatomy 0.000 description 5
- 210000003491 skin Anatomy 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 210000001525 retina Anatomy 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 241000150100 Margo Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 241000256856 Vespidae Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000000613 ear canal Anatomy 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 244000144992 flock Species 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 102000002322 Egg Proteins Human genes 0.000 description 1
- 108010000912 Egg Proteins Proteins 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000002197 limbic effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 210000004681 ovum Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Ophthalmology & Optometry (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
- Eye Examination Apparatus (AREA)
Abstract
公开了用于眼睛图像分割和图像质量估计的系统和方法。在一个方面,在接收眼睛图像之后,诸如增强现实装置的装置可以使用具有合并架构的卷积神经网络来处理眼睛图像,以生成分割的眼睛图像和眼睛图像的质量估计。分割的眼睛图像可以包括背景区域、巩膜区域、虹膜区域或瞳孔区域。在另一方面,可以训练具有合并架构的卷积神经网络用于眼睛图像分割和图像质量估计。在又一方面,该装置可以使用分割的眼睛图像来确定例如瞳孔外形和虹膜外形的眼睛外形。该装置可以使用眼睛外形来创建虹膜区域的极性图像,用于计算虹膜代码或生物认证。
Description
相关申请的交叉引用
本申请要求2016年9月29日提交的名称为“NEURAL NETWORK FOR EYE IMAGESEGMENTATION AND IMAGE QUALITY ESTIMATION(用于眼睛图像分割和图像质量估计的神经网络)”的申请号为2016138608的俄罗斯专利的优先权,其全部内容通过引用整体并入本文。
技术领域
本公开一般涉及用于眼睛图像分割的系统和方法,并且更特别地,涉及使用用于眼睛图像分割和图像质量估计的卷积神经网络。
背景技术
在个人生物识别领域,最有效的已知方法之一是使用人眼中的自然发生的图案,主要是虹膜或视网膜。在虹膜和视网膜中,在虹膜的情况下来自基质的纤维的颜色图案或者在视网膜的情况下来自血管的图案的颜色图案用于个人生物识别。在任何一种情况下,这些图案是由该组织形态发生中的随机事件表观遗传地生成的;这意味着即使对于遗传上相同的(同卵的)双胞胎,它们也是不同的。
常规的虹膜代码是从虹膜的图像中提取的位串。为了计算虹膜代码,将眼睛图像分割以将虹膜与瞳孔和巩膜分开,分割的眼睛图像被映射(map)到极坐标或伪极坐标,以及使用复值二维小波(例如,盖伯(Gabor)或哈尔(Haar))提取相位信息。典型的虹膜代码是基于小波卷积的符号的位串并且具有2048位。虹膜代码可以伴随有具有相同数量的位的掩码(mask),其表示分析的区域是否被眼睑、睫毛、镜面反射所遮挡或被噪声破坏。使用这种虹膜代码是许多常见的基于虹膜的生物识别任务(例如从护照数据中识别乘客)的标准。
发明内容
分割眼睛图像以将虹膜与瞳孔和巩膜分开的方法具有许多挑战。
在一个方面,公开了一种用于眼睛图像分割和图像质量估计的方法。该方法受硬件处理器控制并包括:接收眼睛图像;使用卷积神经网络处理眼睛图像以生成眼睛图像的分割;以及使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计,其中卷积神经网络包括分割塔(tower)和质量估计塔,其中分割塔包括分割层和共享层,其中质量估计塔包括质量估计层和共享层,其中共享层的第一输出层连接到分割塔的第一输入层和分割塔的第二输入层,其中共享层的第一输出层连接到质量估计层的输入层,以及其中接收眼睛图像包括由共享层的输入层接收眼睛图像。
在另一方面,公开了一种用于眼睛图像分割和图像质量估计的方法。该方法受硬件处理器控制并包括:接收眼睛图像;使用卷积神经网络处理眼睛图像以生成眼睛图像的分割;以及使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计。
在又一方面,公开了一种用于训练卷积神经网络以进行眼睛图像分割和图像质量估计的方法。该方法受硬件处理器控制并包括:获得眼睛图像的训练组;提供使用眼睛图像的训练组的卷积神经网络;以及使用眼睛图像的训练组训练卷积神经网络,其中卷积神经网络包括分割塔和质量估计塔,其中分割塔包括分割层和共享层,其中质量估计塔包括质量估计层和共享层,其中共享层的输出层连接到分割塔的第一输入层和分割塔的第二输入层,以及其中共享层的输出层连接到质量评估层的输入层。
在再一方面,公开了一种用于确定语义分割的眼睛图像中的眼睛外形的方法。该方法受硬件处理器控制并包括:接收包括多个像素的眼睛图像的语义分割的眼睛图像,其中语义分割的眼睛图像的像素具有颜色值,其中语义分割的眼睛图像的像素的颜色值是第一颜色值、第二颜色值、第三颜色值和第四颜色值,其中第一颜色值对应于眼睛图像中的背景,其中第二颜色值对应于眼睛图像中眼睛的巩膜,其中第三颜色值对应于眼睛图像中眼睛的虹膜,以及其中第四颜色值对应于眼睛图像中眼睛的瞳孔;使用语义分割的眼睛图像确定瞳孔外形;使用语义分割的眼睛图像确定虹膜外形;以及确定语义分割的眼睛图像中的用于不相关的区域的掩码。
在另一方面,公开了一种用于确定语义分割的眼睛图像中的眼睛外形的方法。该方法受硬件处理器控制并包括:接收眼睛图像的语义分割的眼睛图像;使用语义分割的眼睛图像确定眼睛图像中眼睛的瞳孔外形;使用语义分割的眼睛图像确定眼睛图像中眼睛的虹膜外形;以及确定眼睛图像中的用于不相关的区域的掩码。
此说明书所述主题的一个或多个实施方式的细节在下面的附图和描述中阐述。从描述、附图和权利要求中,其他特征、方面以及优势将变得显而易见。本发明内容和之后的具体实施方式都不旨在限定或限制本发明主题的范围。
附图说明
图1是具有合并架构的示例卷积神经网络的框图,该合并架构包括共享共享层的分割塔和质量估计塔。
图2示意性地示出了眼睛图像中的示例眼睛。
图3A-3C描绘了具有合并架构的示例卷积神经网络。
图4示出了使用图3中所示的具有合并卷积网络架构的卷积神经网络来分割眼睛图像的示例结果。
图5是创建具有合并架构的卷积神经网络的示例过程的流程图。
图6是使用具有合并架构的卷积神经网络分割眼睛图像的示例过程的流程图。
图7是确定分割的眼睛图像中的瞳孔外形、虹膜外形和用于不相关的图像区域的掩码的示例过程的流程图。
图8示意性地示出了示例语义分割的眼睛图像。
图9是确定分割的眼睛图像中的瞳孔外形或虹膜外形的示例过程的流程图。
图10A-10C示意性地示出了示例瞳孔外形确定。
图11示出了使用图7和9中所示的示例方法确定瞳孔外形、虹膜外形和用于不相关的图像区域的掩码的示例结果。
图12A-12B示出了在使用图7和9中所示的示例方法拟合瞳孔外形和虹膜外形之后获得的极坐标中的虹膜图像上训练具有三元组网络架构的卷积神经网络的示例结果。
图13是具有三元组网络架构的示例卷积神经网络的框图。
图14示意性地示出了可穿戴显示系统的示例。
在整个附图中,可以重复使用附图标记来指示所引用的元件之间的对应关系。提供附图是为了说明本文描述的示例实施例,而不是为了限制本公开的范围。
具体实施方式
概述
具有2048位的常规的基于小波的虹膜代码可以用于虹膜识别。然而,虹膜代码可能对变化敏感,该变化包括图像裁剪、图像模糊、捕获图像时的光照条件、眼睑和睫毛的遮挡以及图像视角。另外,在计算虹膜代码之前,需要对眼睛图像进行分割以将虹膜区域与瞳孔区域和周围的巩膜区域分开。
卷积神经网络(CNN)可以用于分割眼睛图像。眼睛图像可以包括眼睛的眼周区域,其包括眼睛和眼睛周围的部分,眼睛周围的部分例如眼睑、眉毛、睫毛和眼睛周围的皮肤。可以对眼睛图像进行分割以生成眼睛图像中眼睛的瞳孔区域、虹膜区域或巩膜区域。还可以对眼睛图像进行分割以生成眼睛图像的背景,包括眼睛图像中眼睛周围的诸如眼睑的皮肤。分割的眼睛图像可以用于计算虹膜代码,虹膜代码进而可以用于虹膜识别。为了生成有用于或适合虹膜识别的眼睛图像分割,可以确定或估计眼睛图像或分割的眼睛图像的质量。在确定眼睛图像或分割的眼睛图像的质量的情况下,可以确定可能不有用于或不适合虹膜识别的眼睛图像并将其从随后的虹膜识别中滤除。例如,捕获眨眼的眼睛的眼睛图像、模糊的眼睛图像或被不适当地分割的眼睛图像可能不有用于或不适合虹膜识别。通过滤除质量差的眼睛图像或分割的眼睛图像,可以改善虹膜识别。生成被不适当分割的眼睛图像的一个可能原因是在训练卷积神经网络以分割眼睛图像时具有与被不适当分割的眼睛图像类似的眼睛图像的数量不足。
本文公开的系统和方法解决了与眼睛图像分割和图像质量估计有关的各种挑战。例如,诸如深度神经网络(DNN)的卷积神经网络可以用于执行眼睛图像分割和图像质量估计两者。用于执行眼睛图像分割和图像质量估计的CNN可以具有合并的架构。具有合并架构的CNN可以包括分割眼睛图像的分割塔和确定眼睛图像的质量估计从而可以滤除质量差的眼睛图像的质量估计塔。分割塔可以包括连接到共享层的分割层。分割层可以是分割塔独有的且不与质量估计塔共享的CNN层。质量估计塔可以包括连接到共享层的质量估计层。质量估计层可以是质量估计塔独有的且不是与分割塔共享的CNN层。共享层可以是由分割塔和质量估计塔共享的CNN层。
分割塔可以分割眼睛图像以生成眼睛图像的分割。分割塔(或质量估计塔)的共享层可以接收眼睛图像作为其输入,例如120×160灰度图像。分割塔可以生成分割塔输出。分割塔输出可以包括多个图像,例如四个图像,每个图像用于眼睛图像的瞳孔区域、虹膜区域、巩膜区域或背景区域中的每一个。质量估计塔可以生成眼睛图像或分割的眼睛图像的质量估计。
当训练具有合并架构的卷积神经网络时,可以学习许多内核。当内核应用于其输入时,内核会产生结果特征映射,该结果特征映射示出对该特定学习的内核的响应。然后,该结果特征映射可以由CNN的另一层的内核处理,该内核通过池化操作对结果特征映射进行下采样以生成较小的特征映射。然后可以重复该过程以学习用于计算其结果特征映射的新内核。
合并的CNN架构中的分割塔(或质量估计塔)可以实现编码-解码架构。诸如共享层的分割塔(或质量估计塔)的早期层可以通过逐渐减小特征映射的空间尺寸并增加由层计算的特征映射的数量来对眼睛图像进行编码。分割塔(或质量估计塔)的一些层(诸如分割层(或质量估计层)的最后层)可以通过将特征映射的空间尺寸逐渐增加回原始眼睛图像大小并减少由层计算的特征映射的数量来对编码的眼睛图像进行解码。
包括分割塔和质量估计塔的合并CNN架构的可能的优点在于,在训练期间,CNN的共享层找到对分割和图像质量都有用的特征映射。因此,与使用单独的CNN(一个用于分割,另一个用于质量估计)(其中每个单独的CNN的特征映射可能具有很少的关系或没有关系)相比,这样的CNN可能是有益的。
示例卷积神经网络
图1是具有合并架构的示例卷积神经网络100的框图,该合并架构包括共享共享层112的分割塔104和质量估计塔108。诸如深度神经网络(DNN)的卷积神经网络100能够用于执行眼睛图像分割和图像质量估计两者。具有合并架构的CNN 100可以包括分割塔104和质量估计塔108。分割塔104可以包括连接到共享层112的分割层116。共享层112可以是由分割塔104和质量估计塔108共享的CNN层。共享层112的输出层可以连接到分割层116的输入层。共享层112的一个或多个输出层可以连接到分割层116的一个或多个输入层。分割层116可以是分割塔104独有的且不与质量估计塔108共享的CNN层。
质量估计塔108可以包括质量估计层120和共享层112。质量估计层120可以是质量估计塔108独有的且不与分割塔104共享的CNN层。共享层112的输出层可以是连接到质量估计层120的输入层的共享层112。质量估计层120的输入层可以连接到共享层112的输出层。共享层112的一个或多个输出层可以连接到质量估计层120的一个或多个输入层。
在不同的实施方式中,共享层112可以不同地连接到分割层116或质量估计层120。例如,共享层112的输出层可以连接到分割层116的一个或多个输入层或质量估计层120的一个或多个输入层。作为另一示例,共享层112的输出层可以连接到分割层116的一个或多个输入层和质量估计层120的一个或多个输入层。共享层112的不同数量的输出层(例如1个、2个、3个或更多个输出层)可以连接到分割层116或质量估计层120的输入层。分割层116或质量估计层120的不同数量的输入层(例如1个、2个、3个或更多个输入层)可以连接到共享层112的输出层。
分割塔104可以处理眼睛图像124以生成眼睛图像的分割。图2示意性地示出了眼睛图像124中的示例性眼睛200。眼睛200包括眼睑204、巩膜208、虹膜212和瞳孔216。曲线216a示出了瞳孔216和虹膜212之间的瞳孔边界,曲线212a示出了虹膜212和巩膜208(眼睛的“白色”)之间的边缘(limbic)边界。眼睑204包括上眼睑204a和下眼睑204b。
参考图1,分割塔104(或质量估计塔108)的共享层112的输入层可以接收眼睛图像124作为其输入,例如120×160灰度图像。分割塔104可以生成分割塔输出128。分割塔输出128可以包括多个图像,例如,四个图像,一个用于与眼睛图像124中的瞳孔216、虹膜212、巩膜208或背景对应的每个区域。眼睛图像的背景可以包括与眼睛图像124中的眼睛周围的眼睑、眉毛、睫毛或皮肤对应的区域。在一些实施方式中,分割塔输出128可以包括分割的眼睛图像。分割的眼睛图像可以包括分割的瞳孔、虹膜、巩膜或背景。
质量估计塔108可以处理眼睛图像124以生成质量估计塔输出,该质量估计塔输出诸如眼睛图像124的质量估计。眼睛图像124的质量估计可以是二元分类:良好的质量估计分类或差的质量估计分类。眼睛图像124的质量估计可以包括眼睛图像124具有良好的质量估计分类的概率。如果眼睛图像124是良好的概率超过高质量阈值(例如75%、85%、95%),则可以将图像分类为良好的。相对地,在一些实施例中,如果概率低于低质量阈值(例如25%、15%、5%),则可以将眼睛图像124分类为差的。
当训练卷积神经网络100时,学习了许多内核。当内核应用于输入眼睛图像124或由先前CNN层计算的特征映射时,内核产生结果特征映射,该结果特征映射示出其输入对该特定内核的响应。然后,该结果特征映射可以由卷积神经网络100的另一层的内核处理,该内核通过池化操作对结果特征映射进行下采样以生成较小的特征映射。然后可以重复该过程以学习用于计算其结果特征映射的新内核。因此,当训练分割塔104和质量估计塔108时,可以有利地同时训练共享层。
分割塔104(或质量估计塔108)可以实现编码-解码架构。诸如共享层112的分割塔104(或质量估计塔108)的早期层可以通过逐渐减小特征映射的空间尺寸并增加由层计算的特征映射的数量来对眼睛图像124进行编码。减小空间尺寸可以有利地导致全局背景感知(global context aware)分割塔104(或质量估计塔108)的中间层的特征映射。
然而,减小空间尺寸可能导致例如在诸如瞳孔边界或边缘边界的分割边界处的准确度降低。在一些实施方式中,分割塔104(或质量估计塔108)的层可以链接(concatenate)来自例如共享层104的输出层的不同层的特征映射。得到的链接特征映射可以有利地是多尺度的,因为在多个尺度上提取的特征可以用于提供局部和全局背景,并且较早层的特征映射可以保留更多高频细节,从而产生更清晰的分割边界。
在一些实施方式中,具有大于3像素×3像素的内核大小的卷积层可以被连续的3像素×3像素的卷积层替换。在连续的3像素×3像素卷积层的情况下,卷积神经网络100可以有利地更小或更快。
分割塔104(或质量估计塔108)的一些层(诸如分割层116(或质量估计层120)的最后层)可以通过将特征映射的空间尺寸逐渐增加回原始眼睛图像大小并减少特征映射的数量来对编码的眼睛图像进行解码。卷积神经网络100的一些层(例如质量估计层120的最后两层)可以被完全连接。
示例卷积神经网络层
卷积神经网络100可以包括一个或多个神经网络层。神经网络层可以对其输入应用线性或非线性变换以生成其输出。神经网络层可以是卷积层、标准化层(例如,亮度标准化层、批量标准化(BN)层、局部对比度标准化(LCN)层或局部响应标准化(LRN)层)、整流线性层、上采样层、链接层、池化层、完全连接层、线性完全连接层、软标记(softsign)层、回归(recurrent)层或其任何组合。
卷积层可以应用一组内核,这些内核将卷积卷积或应用于其输入以生成其输出。标准化层可以是亮度标准化层,其使用例如L2标准化对其输入的亮度进行标准化以生成其输出。标准化层可以是批量标准化(BN)层,其可以一次将多个图像的亮度相对于彼此标准化以生成多个标准化图像作为其输出。用于使亮度标准化的方法的非限制性示例包括局部对比度标准化(LCN)或局部响应标准化(LRN)。局部对比度标准化可以通过在每个像素的基础上使图像的局部区域标准化来非线性地使图像的对比度标准化,以具有0的均值和1的方差。局部响应标准化可以使局部输入区域之上的图像标准化,以具有0的均值和1的方差。标准化层可以使眼睛分割和质量估计的计算加速。
整流线性层可以是整流线性层单元(ReLU)层或参数化的整流线性层单元(PReLU)层。ReLU层可以将ReLU函数应用于其输入以生成其输出。ReLU函数ReLU(x)可以是例如max(0,x)。PReLU层可以将PReLU函数应用于其输入以生成其输出。例如,如果x≥0,则PReLU函数PReLU(x)可以是x,如果x<0,则可以是ax,其中a是正数。
上采样层可以对其输入进行上采样以生成其输出。例如,上采样层可以使用诸如最近邻方法或双三次插值方法的上采样方法对4像素×5像素输入进行上采样,以生成8像素×10像素输出。链接层可以链接其输入以生成其输出。例如,链接层可以链接四个5像素×5像素特征映射以生成一个20像素×20像素特征映射。作为另一示例,链接层可以链接四个5像素×5像素特征映射和四个5像素×5像素特征映射以生成8个5像素×5像素特征映射。池化层可以应用池化函数,该函数对其输入进行下采样以生成其输出。例如,池化层可以将20像素×20像素图像下采样为10像素×10像素图像。池化函数的非限制性示例包括最大池化、平均池化或最小池化。
完全连接层中的节点连接到前一层中的所有节点。与线性分类器类似的线性完全连接层可以是具有例如良好质量或差质量的两个输出值的完全连接层。软标记层可以将软标记函数应用于其输入。软标记函数(softsign(x))可以是例如(x/(1+|x|))。软标记层可能会忽略每元素异常值的影响。由于眼睛图像中的眼睑遮挡或意外的亮点,可能发生每元素异常值。
在时间点t,回归层可以计算隐藏状态s(t),并且回归连接可以将时间t处的隐藏状态s(t)在后续时间点t+1处提供给回归层作为输入。回归层可以基于时间t处的隐藏状态s(t)计算其在时间t+1处的输出。例如,回归层可以将软标记函数应用于时间t处的隐藏状态s(t)以计算其在时间t+1处的输出。时间t+1处的回归层的隐藏状态具有时间t处的回归层的隐藏状态作为输入。回归层可以通过例如将ReLU函数应用于其输入来计算隐藏状态s(t+1)。
在不同的实施方式中,卷积神经网络100中的神经网络层的数量可以是不同的。例如,卷积神经网络100中的神经网络层的数量可以是100。在不同的实施方式中,神经网络层的输入类型可以是不同的。例如,神经网络层可以接收神经网络层的输出作为其输入。在不同的实施方式中,神经网络层的输入可以是不同的。例如,神经网络层的输入可以包括神经网络层的输出。
神经网络层的输入大小或输出大小可能非常大。神经网络层的输入大小或输出大小可以是n×m,其中n表示输入或输出的以像素为单位的高度,m表示输入或输出的以像素为单位的宽度。例如,n×m可以是120像素×160像素。在不同的实施方式中,神经网络层的输入或输出的通道大小可以是不同的。例如,神经网络层的输入或输出的通道大小可以是8。因此,神经网络层可以接收8个通道或特征映射作为其输入或者生成8个通道或特征映射作为其输出。在不同的实施方式中,神经网络层的内核大小可以不同。内核大小可以是n×m,其中n表示内核的以像素为单位的高度,m表示内核的以像素为单位的宽度。例如,n或m可以是3个像素。在不同的实施方式中,神经网络层的步幅大小可以不同。例如,神经网络层的步幅大小可以是3。神经网络层可以将填充应用于其输入,例如n×m填充,其中n表示填充的高度,m表示填充的宽度。例如,n或m可以是一个像素。
示例共享层
图3A-3C描绘了具有合并架构的示例卷积神经网络100。图3A描绘了卷积神经网络100的分割塔104的共享层112的示例架构。共享层112的输入层可以是在添加1×1填充(1像素×1像素)之后将输入眼睛图像124(120×160灰度图像)与3×3内核(3像素×3像素)卷积的卷积层302a。在添加填充并对其输入进行卷积之后,卷积层302a生成8个通道的输出,每个通道是120×160特征映射,在表示卷积层302a的框中表示为8×120×160。8个通道的输出可以由局部响应标准化(LRN)层302b、批量标准化(BN)层302c和整流线性层单元(ReLU)层302d处理。
ReLU层302d可以连接到卷积层304a,卷积层304a在添加1×1填充之后将ReLU层302d的输出与3×3内核卷积,以生成8个通道的输出(120×160特征映射)。8个通道的输出可以由批量标准化层304c和ReLU层304d处理。ReLU层304d可以连接到最大池化(MAXPOOLING)层306a,该最大池化层使用2×2步幅(2像素×2像素)将ReLU层304d的输出与2×2内核池化,以生成8个通道的输出(60×80特征映射)。
最大池化层306a可以连接到卷积层308a,卷积层308a在添加1×1填充之后将最大池化层306a的输出与3×3内核卷积,以生成16个通道的输出(60×80特征映射)。16个通道的输出可以由批量标准化层308c和ReLU层308d处理。
ReLU层308d可以连接到卷积层310a,卷积层310a在添加1×1填充之后将ReLU层308d的输出与3×3内核卷积,以生成16个通道的输出(60×80特征映射)。16个通道的输出可以由批量标准化层310c和ReLU层310d处理。ReLU层310d可以连接到最大池化层312a,该最大池化层312a使用2×2步幅将ReLU层310d的输出与2×2内核池化,以生成16个通道的输出(30×40特征映射)。
最大池化层312a可以连接到卷积层314a,该卷积层314a在添加1×1填充之后将最大池化层312a的输出与3×3内核卷积,以生成32个通道的输出(30×40特征映射)。在训练卷积神经网络100时的训练循环期间,卷积层314a的30%的权重值可以被随机地设置为0值,丢失(dropout)比率为0.3。32个通道的输出可以由批量标准化层314c和ReLU层314d处理。
ReLU层314d可以连接到卷积层316a,卷积层316a在添加1×1填充之后将ReLU层314d的输出与3×3内核卷积,以生成32个通道的输出(30×40特征映射)。32个通道的输出可以由批量标准化层316c和ReLU层316d处理。ReLU层316d可以连接到最大池化层318a,该最大池化层318a使用2×2步幅将ReLU层316d的输出与2×2内核池化,以生成32个通道的输出(15×20特征映射)。
最大池化层318a可以连接到卷积层320a,卷积层320a在添加1×1填充之后将最大池化层318a的输出与3×3内核卷积,以生成32个通道的输出(15×20特征映射)。在训练卷积神经网络100时的训练循环期间,卷积层320a的30%的权重值可以被随机地设置为0值,丢失比率为0.3。32个通道的输出可以由批量标准化层320c和ReLU层320d处理。
ReLU层320d可以连接到卷积层322a,卷积层322a在添加1×1填充之后将ReLU层320d的输出与3×3内核卷积,以生成32个通道的输出(15×20特征映射)。32个通道的输出可以由批量标准化层322c和ReLU层322d处理。ReLU层322d可以连接到最大池化层324a,该最大池化层324a在添加1×0填充之后使用2×2步幅将ReLU层322d的输出与2×2内核池化,以生成32个通道的输出(8×10特征映射)。最大池化层324a可以连接到分割层116的输入层。
最大池化层324a可以连接到卷积层326a,该卷积层326a在添加1×1填充之后将最大池化层324a的输出与3×3内核卷积,以生成32个通道的输出(8×10特征映射)。在训练卷积神经网络100时的训练循环期间,卷积层326a的30%的权重值可以被随机地设置为0值,丢失比率为0.3。32个通道的输出可以由批量标准化层326c和ReLU层326d处理。最大池化层324a可以连接到分割层116。
ReLU层326d可以连接到卷积层328a,卷积层328a在添加1×1填充之后将ReLU层326d的输出与3×3内核卷积,以生成32个通道的输出(8×10特征映射)。32个通道的输出可以由批量标准化层328c和ReLU层328d处理。ReLU层328d可以连接到最大池化层330a,该最大池化层330a使用2×2步幅将ReLU层328d的输出与2×2内核池化,以生成32个通道的输出(4×5特征映射)。最大池化层330a可以连接到分割层116和质量估计层120。
图3A中的示例共享层112实现了编码架构。示例共享层112通过逐渐减小特征映射的空间尺寸并增加由层计算的特征映射的数量来对眼睛图像124进行编码。例如,卷积层302a生成8个通道的输出,每个通道是120×160特征映射,而卷积层326a生成32个通道的输出,每个通道是8×10特征映射。
示例分割层
图3B描绘了卷积神经网络100的分割塔104的分割层116的示例架构。分割层116的输入层可以是平均池化层332a,该平均池化层332a连接到共享层112的最大池化层330a。平均池化层332a可以将最大池化层330a的输出与4×5内核(4像素×5像素)池化,以生成32个通道的输出(1×1特征映射,即,每个具有1像素×1像素的尺寸的特征映射)。平均池化层332a可以连接到具有-1×0填充(-1像素×0像素)且使用最近邻方法的上采样层334a,以生成32个通道的输出(4×5特征映射)。
链接层336a可以是分割层116的输入层,其连接到共享层112的最大池化层330a。链接层336a也可以连接到上采样层334a。在链接层336a对从最大池化层330a和上采样层334a接收的其的输入进行链接之后,链接层336a可以生成64个通道的输出(4×5特征映射)。通过链接来自两个层的输出,在多个尺度上提取的特征可以用于提供局部和全局背景,并且较早层的特征映射可以保留更多高频细节,从而产生更清晰的分割边界。因此,由链接层336a生成的所得到的链接特征映射可以有利地是多尺度的。链接层336a可以连接到使用最近邻方法的上采样层338a,以生成64个通道的输出(8×10特征映射)。在训练卷积神经网络100时的训练循环期间,上采样层338a的30%的权重值可以被随机地设置为0值,丢失比率为0.3。
上采样层338a可以连接到卷积层340a,卷积层340a在添加1×1填充之后将上采样层338a的输出与3×3内核卷积,以生成32个通道的输出(8×10特征映射)。32个通道的输出可以由批量标准化层340c和ReLU层340d处理。ReLU层340d可以连接到卷积层342a,卷积层342a在添加1×1填充之后将ReLU层340d的输出与3×3内核卷积,以生成32个通道的输出(8×10特征映射)。32个通道的输出可以由批量标准化层342c和ReLU层342d处理。
链接层344a可以是分割层116的输入层,其连接到共享层112的最大池化层324a。链接层344a也可以连接到ReLU层342a。在链接层344a对从ReLU层342a和最大池化层324a接收的其的输入进行链接之后,链接层344a生成64个通道的输出(64个8×10特征映射)。链接层344a可以连接到使用最近邻方法的上采样层346a,以生成64个通道的输出(15×20特征映射)。在训练卷积神经网络100时的训练循环期间,上采样层346a的30%的权重值可以被随机地设置为0值,丢失比率为0.3。
上采样层346a可以连接到卷积层348a,该卷积层348a在添加1×1填充之后将上采样层346a的输出与3×3内核卷积,以生成32个通道的输出(15×20特征映射)。32个通道的输出可以由批量标准化层348c和ReLU层348d处理。ReLU层348d可以连接到卷积层350a,卷积层350a在添加1×1填充之后将ReLU层348d的输出与3×3内核卷积,以生成32个通道的输出(15×20特征映射)。32个通道的输出可以由批量标准化层350c和ReLU层350d处理。
ReLU层350d可以连接到使用最近邻方法的上采样层352a,以生成32个通道的输出(30×40特征映射)。在训练卷积神经网络100时的训练循环期间,上采样层352a的30%的权重值可以被随机地设置为0值,丢失比率为0.3。
上采样层352a可以连接到卷积层354a,卷积层354a在添加1×1填充之后将上采样层352a的输出与3×3内核卷积,以生成32个通道的输出(30×40特征映射)。32个通道的输出可以由批量标准化层354c和ReLU层354d处理。ReLU层354d可以连接到卷积层356a,卷积层356a在添加1×1填充之后将ReLU层354d的输出与3×3内核卷积,以生成32个通道的输出(30×40特征映射)。32个通道的输出可以由批量标准化层356c和ReLU层356d处理。
ReLU层356d可以连接到使用最近邻方法的上采样层358a,以生成32个通道的输出(60×80特征映射)。上采样层358a可以连接到卷积层360a,该卷积层360a在添加1×1填充之后将上采样层358a的输出与3×3内核卷积,以生成16个通道的输出(60×80特征映射)。16个通道的输出可以由批量标准化层360c和ReLU层360d处理。ReLU层360d可以连接到卷积层362a,卷积层362a在添加1×1填充之后将ReLU层360d的输出与3×3内核卷积,以生成16个通道的输出(60×80特征映射)。16个通道的输出可以由批量标准化层362c和ReLU层362d处理。
ReLU层362d可以连接到使用最近邻方法的上采样层364a,以生成16个通道的输出(120×160特征映射)。上采样层364a可以连接到卷积层366a,卷积层366a在添加2×2填充之后将上采样层364a的输出与5×5内核卷积,以生成4个通道的输出(120×160特征映射)。卷积层366a可以是分割层116的输出层。4个输出图像可以是分割塔输出128,关于与眼睛图像124中的瞳孔216、虹膜212、巩膜208或者背景对应的每个区域有一个。在一些实施方式中,分割塔输出128可以是具有四个颜色值的图像,关于与眼睛图像124中的瞳孔216、虹膜212、巩膜208或者背景对应的每个区域有一个。
图3B中的示例分割层116实现了解码架构。示例分割层116通过将特征映射的空间尺寸逐渐增加回原始眼睛图像大小并减少特征映射的数量来对编码的眼睛图像进行解码。例如,平均池化层332a生成32个通道的输出,每个通道是1×1特征映射,而卷积层366a生成4个通道的输出,每个通道是120×160特征映射。
示例质量估计层
图3C描绘了卷积神经网络100的质量估计塔108的质量估计层120的示例架构。质量估计层120的输入层可以是卷积层368a。在添加1×1填充(1像素×1像素)之后,卷积层368a可以将共享层112的最大池化层330a的输出与3×3内核(3像素×3像素)卷积,以生成32个通道的输出(4×5特征映射,即,具有4像素×5像素的尺寸的特征映射)。在训练卷积神经网络100时的训练循环期间,卷积层368a的50%的权重值可以被随机地设置为0值,丢失比率为0.5。32个通道的输出可以由批量标准化层368c和ReLU层368d处理。
ReLU层368d可以连接到卷积层370a,卷积层370a在添加1×1填充之后将ReLU层368d的输出与3×3内核卷积,以生成16个通道的输出(4×5特征映射)。16个通道的输出可以由批量标准化层370c和ReLU层370d处理。ReLU层370d可以连接到平均池化层372a,该池化层372a可以将ReLU层370d的输出与4×5内核池化,以生成16个通道的输出(1×1特征映射)。
平均池化层370d可以连接到线性完全连接层374a,该线性完全连接层374a生成8个通道的输出(1像素×1像素特征映射)。在训练卷积神经网络100时的训练循环期间,线性完全连接层374a的50%的权重值可以被随机地设置为0值,丢失比率为0.5。8个通道的输出可以由批量标准化层374c和ReLU层374d处理。ReLU层374d可以连接到线性完全连接层376a,该线性完全连接层376a生成至少两个通道的输出(1×1特征映射)。线性完全连接层376a可以是质量估计层120的输出层。至少两个通道的输出可以是质量估计塔输出128,其中一个通道对应于良好的质量估计,一个通道对应于差的质量估计。
卷积神经网络的示例训练
不同的卷积神经网络(CNN)可以以两种方式彼此不同。例如层的数量以及层如何互连的CNN的架构可以是不同的。可以影响从一层传播到另一层的效果强度的权重可以是不同的。层的输出可以是其输入的加权和的一些非线性函数。CNN的权重可以是出现在这些求和中的权重并且可以近似地类似于生物系统中神经连接的突触强度。
训练CNN 100的过程是通过眼睛图像124的训练组呈现(presenting)CNN 100的过程。训练组可以包括输入数据和对应的参考输出数据。该训练组可以包括示例输入和对应的参考输出两者。通过训练的过程,可以递增地学习CNN 100的权重,使得在给定来自训练组的特定输入数据的情况下,网络的输出跟与该输入数据对应的参考输出匹配(尽可能接近)。
因此,在一些实施方式中,使用眼睛图像124的训练组来训练具有合并架构的CNN100,以学习眼睛图像124的分割和质量估计。在训练循环期间,正被训练的分割塔104可以处理训练组的眼睛图像124,以生成分割塔输出128,该分割塔输出128可以包括4个输出图像,其中与眼睛图像124中的瞳孔216、虹膜212、巩膜208或背景对应的每个区域具有一个。正被训练的质量估计塔108可以处理训练组的眼睛图像124,以生成眼睛图像124的质量估计塔输出132。可以计算眼睛图像124的分割塔输出128与眼睛图像124的参考分割塔输出之间的差异。眼睛图像124的参考分割塔输出可以包括四个参考输出图像,其中与眼睛图像124中的瞳孔216、虹膜212、巩膜208或背景对应的每个区域具有一个。可以计算眼睛图像124的质量估计塔输出132与眼睛图像124的参考质量估计塔输出之间的差异。
可以基于差异中的一个或两个来更新CNN 100的参数。例如,可以基于眼睛图像124的分割塔输出128与眼睛图像124的参考分割塔输出之间的差异来更新CNN 100的分割层116的参数。作为另一示例,可以基于眼睛图像124的质量估计塔输出132与眼睛图像124的参考质量估计塔输出之间的差异来更新CNN 100的质量估计层120的参数。作为又一示例,可以基于两个差异来更新共享层112的参数。作为另一示例,可以基于两个差异来更新CNN 100的分割层116的参数或CNN 100的质量估计层120的参数。在不同的实施方式中,这两个差异可以不同地影响共享层112、分割层116或质量估计层130的参数。例如,与质量估计塔输出132和参考质量估计塔输出之间的差异的影响相比,分割塔输出128与参考分割塔输出之间的差异可以更大程度地影响共享层112或分割层116的参数。
在训练循环期间,卷积神经网络100的参数的百分比可以被设置为0值。例如,百分比可以是5%-50%,丢失比率为0.05-0.50。在不同的实施方式中,在训练循环期间设置为0值的CNN 100的参数可以是不同的。例如,可以随机选择设置为0值的CNN 100的参数。作为另一示例,如果CNN 100的30%的参数被设置为0值,则CNN 100的每个层的大约30%的参数可以被随机地设置为0值。
当训练具有合并架构的卷积神经网络100时,学习了许多内核。当内核应用于其输入时,内核产生显示对该特定学习内核的响应的结果特征映射。然后,结果特征映射可以由CNN的另一层的内核处理,该内核通过池化操作对结果特征映射进行采样以生成较小的特征映射。然后可以重复该过程以学习用于计算其结果特征映射的新内核。
示例眼睛图像和分割眼睛图像
图4示出了使用图3中所示的具有合并卷积网络架构的卷积神经网络100分割眼睛图像124的示例结果。在图4中,板a示出了图4中板b所示的眼睛图像的分割。眼睛图像的分割包括眼睛图像中的背景区域404a、巩膜区域408a、虹膜区域412a或瞳孔区域416a。图4中板b所示的眼睛图像的质量估计是1.000的良好的质量估计。因此,眼睛图像的质量估计是良好的质量估计。
在图4中,板c示出了图4中板d所示的眼睛图像的分割。眼睛图像的分割包括眼睛图像中的背景区域404c、巩膜区域408c、虹膜区域412c或瞳孔区域416c。图4中板d所示的眼睛图像的质量估计是0.997的良好的质量估计。因此,眼睛图像的质量估计是良好的质量估计。
在图4中,板e示出了图4中板f所示的眼睛图像的分割。图4中板f所示的眼睛图像中眼睛的巩膜、虹膜和瞳孔被眼睛的眼睑遮挡。眼睛图像的分割包括眼睛图像中的背景区域404e、巩膜区域408e、虹膜区域412e或瞳孔区域416e。图4中板f所示的眼睛图像的质量估计是0.009的良好的质量估计。因此,眼睛图像的质量估计是差的质量估计。
在图4中,板g示出了图4中板h所示的眼睛图像的分割。图4中板h所示的眼睛图像中的眼睛的巩膜、虹膜和瞳孔被眼睛的眼睑遮挡。此外,眼睛图像是模糊的。眼睛图像的分割包括眼睛图像中的背景区域404g、巩膜区域408g、虹膜区域412g或瞳孔区域416g。图4中板h所示的眼睛图像的质量是0.064的良好的质量评估。因此,眼睛图像的质量估计是差的质量估计。
用于眼睛图像分割和图像质量估计的示例过程
图5是创建具有合并架构的卷积神经网络100的示例过程500的流程图。过程500在框504处开始。在框508处,创建卷积神经网络(CNN)100的共享层112。共享层112可以包括多个层和多个内核。创建共享层112可以包括创建多个层、创建具有适当的内核大小、步幅或填充的多个内核或者连接具有多个层的连续层。
在框512处,创建CNN 100的分割层116。分割层116可以包括多个层和多个内核。创建分割层116可以包括创建多个层、创建具有适当的内核大小、步幅或填充的多个内核或者连接具有多个层的连续层。在框516处,共享层112的输出层可以连接到分割层116的输入层,以生成CNN 100的分割塔104。
在框520处,创建CNN 100的质量估计层120。质量估计层120可以包括多个层和多个内核。创建质量估计层120可以包括创建多个层、创建具有适当的内核大小、步幅或填充的多个内核或者连接具有多个层的连续层。在框524处,共享层112的输出层可以连接到质量估计层120的输入层,以生成CNN 100的质量估计塔108。过程500在框528处结束。
图6是使用具有合并架构的卷积神经网络100分割眼睛图像124的示例过程600的流程图。过程600在框604处开始。在框608处,神经网络接收眼睛图像124。例如,CNN 100的共享层112的输入层可以接收眼睛图像124。用户装置的图像传感器(例如,数字相机)可以捕获用户的眼睛图像124,并且神经网络可以从图像传感器接收眼睛图像124。
在框608处接收眼睛图像124之后,神经网络在框612处分割眼睛图像124。例如,CNN 100的分割塔104可以生成眼睛图像124的分割。分割塔104的输出层可以与分割塔104的其他层一起计算眼睛图像124的分割,包括眼睛图像124中眼睛的瞳孔区域、虹膜区域、巩膜区域或背景区域。
在框616处,神经网络计算眼睛图像124的质量估计。例如,CNN 100的质量估计塔108可以生成眼睛图像124的质量估计。质量估计塔108的输出层可以与质量估计塔108的其他层一起计算眼睛图像124的质量估计,例如良好的质量估计或差的质量估计。
确定瞳孔外形、虹膜外形和用于不相关图像区域的掩码的示例过程
常规的虹膜代码是从虹膜的图像中提取的位串。为了计算虹膜代码,例如使用图1中所示的具有合并架构的卷积神经网络100来分割眼睛图像,以将虹膜与瞳孔和巩膜分开。然后,可以在使用复值二维小波(例如,嘉伯或哈尔)提取相位信息之前将分割的眼睛图像映射到极坐标或伪极坐标。创建虹膜的极性(或伪极性)图像的一种方法可以包括确定瞳孔外形、确定虹膜外形以及使用所确定的瞳孔外形和所确定的虹膜外形来创建极性图像。
图7是确定分割的眼睛图像中的瞳孔外形、虹膜外形和用于不相关的图像区域的掩码的示例过程700的流程图。过程700在框704处开始。在框708处,接收分割的眼睛图像。分割的眼睛图像可以包括分割的瞳孔、虹膜、巩膜或背景。用户装置可以捕获用户的眼睛图像124并计算分割的眼睛图像。用户装置可以实现图3A-3C中所示的具有合并架构的示例卷积神经网络(CNN)100或者图6中所示的示例过程600,以计算分割的眼睛图像。
分割的眼睛图像可以是语义分割的眼睛图像。图8示意性地示出了示例语义分割的眼睛图像800。语义分割的眼睛图像800可以从图2中所示的眼睛200的图像计算出。语义分割的眼睛图像800可以具有n像素×m像素的尺寸,其中n表示语义分割的眼睛图像800的以像素为单位的高度,m表示语义分割的眼睛图像800的以像素为单位的宽度。
语义分割的眼睛图像800的像素可以具有四个颜色值中的一个。例如,语义分割的眼睛图像800的像素804可以具有对应于眼睛图像中的背景808的颜色值(在图8中表示为“第一颜色值”)。对应于眼睛图像中的背景808的颜色值可以具有诸如1的数值。眼睛图像中的背景808可以包括对应于眼睛200周围的眼睑、眉毛、睫毛或皮肤的区域。作为另一示例,语义分割的眼睛图像800的像素可以具有对应于眼睛图像中的眼睛200的巩膜208的颜色值(在图8中表示为“第二颜色值”)。对应于眼睛图像中的眼睛200的巩膜208的颜色值可以具有诸如2的数值。作为又一示例,语义分割的眼睛图像800的像素可以具有对应于眼睛图像中的眼睛200的虹膜212的颜色值(在图8中表示为“第三颜色值”)。对应于眼睛图像中的眼睛200的虹膜212的颜色值可以具有诸如3的数值。作为另一示例,语义分割的眼睛图像800的像素812可以具有对应于眼睛图像中的眼睛200的瞳孔216的颜色值(在图8中表示为“第四颜色值”)。对应于眼睛图像中的眼睛200的瞳孔216的颜色值可以具有诸如4的数值。在图8中,曲线216a示出了瞳孔216和虹膜212之间的瞳孔边界,曲线212a示出了虹膜212和巩膜208(眼睛的“白色”)之间的边缘边界。
参照图7,在框712处,可以确定眼睛图像中的眼睛200的瞳孔外形。瞳孔外形可以是示出瞳孔216和虹膜212之间的瞳孔边界的曲线216a。可以使用图9中所示的示例过程900(下面更详细地描述)来确定瞳孔外形。在框716处,可以确定眼睛图像中的眼睛200的虹膜外形。虹膜外形可以是示出了虹膜212和巩膜208之间的边缘边界的曲线212a。可以使用图9中所示的示例过程900(下面更详细地描述)来确定虹膜外形。用于确定瞳孔外形和虹膜外形的过程可以相同或者可以针对每次确定进行优化,因为例如瞳孔大小和虹膜大小可以不同。
在框720处,可以确定眼睛图像中的不相关的区域的掩码图像。掩码图像可以具有n像素×m像素的尺寸,其中n表示掩码图像的以像素为单位的高度,m表示掩码图像的以像素为单位的宽度。语义分割的眼睛图像800的尺寸和掩码图像的尺寸可以相同或可以不同。掩码可以是二值掩码图像。二值掩码图像的像素可以具有0的值或1的值。如果语义分割的眼睛图像800中的对应像素具有大于或等于例如第三颜色值(例如,3的数值)的值,则二值掩码图像的像素可以具有0的值。如果语义分割的眼睛图像800中的对应像素不具有大于或等于例如第三颜色值(例如,3的数值)的值,则二值掩码图像的像素可以具有1的值。在一些实施方式中,过程700可以任选地使用语义分割的眼睛图像中的瞳孔外形、虹膜外形和用于不相关的区域的掩码创建眼睛图像中的眼睛200的虹膜212的极性图像。过程700在框724处结束。
确定瞳孔外形或虹膜外形的示例过程
图9是确定分割的眼睛图像中的瞳孔外形或虹膜外形的示例过程900的流程图。过程900在框904处开始。在框908处,可以从诸如语义分割的眼睛图像800的分割的眼睛图像创建二值图像。图10A示意性地示出了在框904处创建的示例二值图像1000A。二值图像1000A可以具有n像素×m像素的尺寸,其中n表示二值图像1000A的以像素为单位的高度,m表示二值图像1000A的以像素为单位的宽度。分割的眼睛图像或语义分割的眼睛图像800的尺寸和二值图像1000A的尺寸可以相同或可以不同。
如果语义分割的眼睛图像800中的对应像素具有不大于或等于阈值颜色值(例如“第四颜色值”)的值,则二值图像1000A的像素1004a可以具有0的颜色值。如果语义分割的眼睛图像800中的对应像素具有大于或等于阈值颜色值(例如“第四颜色值”)的值,则二值图像1000A的像素1012a可以具有1的颜色值。在一些实施方式中,二值图像1000A的像素可以具有除了0或1之外的值。例如,二值图像1000A的像素1004a可以具有“第三颜色值”(例如数值3)的颜色值。二值图像1000A的像素1012a可以具有“第四颜色值”(例如数值4)的颜色值,其中“第四颜色值”大于“第三颜色值”。
参照图9,在框912处,确定二值图像1000A中的外形。例如,可以使用例如OpenCV寻找外形(findContours)函数(可以从opencv.org获得)来确定二值图像1000A中的外形。图10B示意性地示出了二值图像1000A中的示例外形1016。参考图9,在框916处,可以确定外形边界(border)。外形边界可以是二值图像1000A中的最长外形。二值图像1000A中的外形1016可以是二值图像1000A中的最长外形。外形1016可以包括二值图像1000A中的多个像素,例如像素1024a。
在框920处,确定外形点定界(bound)框(例如,图10B中的外形点定界框1020)。外形点定界框1020可以是包围最长外形边界(例如外形边界1016)的最小矩形。在框924处,可以确定点区域大小。点区域大小可以是图10B中的二值图像1000A的外形点定界框1020的对角线1028。
在框928处,可以从例如语义分割的眼睛图像800的分割的眼睛图像创建第二二值图像。图10C示意性地示出了示例第二二值图像1000C。第二二值图像1000C可以具有n像素×m像素的尺寸,其中n表示第二二值图像1000C的以像素为单位的高度,m表示第二二值图像1000C的以像素为单位的宽度。二值图像1000A的尺寸和二值图像1000A的尺寸可以相同或可以不同。
如果语义分割的眼睛图像800中的对应像素具有不大于或等于阈值颜色值(例如“第三颜色值”)的值,则第二二值图像1000C的像素1004c可以具有0的颜色值。如果语义分割的眼睛图像800中的对应像素具有大于或等于阈值颜色值(例如“第三颜色值”)的值,则第二二值图像1000C的像素1012c可以具有1的颜色值。在一些实施方式中,第二二值图像1000C的像素可以具有除了0或1之外的值。例如,第二二值图像1000C的像素1004c可以具有“第二颜色值”(例如数值2)的颜色值。第二二值图像1000B的像素1012c可以具有“第三颜色值”(例如数值3)的颜色值,其中“第三颜色值”大于“第二颜色值”。
参考图9,在框932处,确定第二二值图像1000C中的与二值图像1000A中的像素1024a对应的像素(例如,图10中的像素1024c)。如果第二二值图像1000C的尺寸和二值图像1000A的尺寸相同,则像素1024c可以在第二二值图像1000C中具有(m1;n1)的坐标,以及像素1024a可以在二值图像1000A中具有(m1;n1)的坐标,其中m1表示宽度方向上的坐标,n1表示高度方向上的坐标。确定像素1024c与第二二值图像1000C中的具有0的颜色值并且最接近像素1024c的像素之间的距离。例如,该距离可以是图10C中的距离1032,该距离1032是像素1024c与第二二值图像1000C中的具有0的颜色值并且最接近像素1024c的像素1036之间的距离。可以使用例如OpenCV距离变换(distanceTransform)函数来确定距离1032。
在框936处,如果像素1024a不适合于确定瞳孔外形,则可以从外形1016的像素中移除像素1024a。如果距离1032小于预定阈值,则像素1024a可能不适合于确定瞳孔外形。预定阈值可以是与外形点定界框1020的大小相乘的分数(fraction),该外形点定界框1020的大小例如为图10B中的点区域大小或外形点定界框1020的对角线1028的大小。该分数可以在0.02至0.20的范围内。例如,分数可以是0.08。
在框940处,可以通过将曲线(例如椭圆)拟合到剩余像素,从外形边界1016的剩余像素确定瞳孔外形。可以使用例如OpenCV拟合椭圆(fitEllipse)函数来确定椭圆。过程900在框944处结束。虽然图10A-10C已用于说明使用过程900来确定瞳孔外形,但是过程900也可以用于确定虹膜外形。
示例瞳孔外形和虹膜外形确定
图11示出了使用图7和9中所示的示例过程700和900确定虹膜外形、瞳孔外形和用于不相关图像区域的掩码的示例结果。在图11中,板a-f示出了确定眼睛图像的虹膜外形、瞳孔外形和用于不相关图像区域的掩码的示例结果。在图11中,板a示出了眼睛图像。在图11中,板b示出了使用图3中所示的具有合并卷积网络架构的卷积神经网络100的图11板a中的眼睛图像的语义分割的眼睛图像。语义分割的眼睛图像包括眼睛图像中的具有1的数值颜色值的背景区域1104a、具有2的数值颜色值的巩膜区域1108a、具有3的数值颜色值的虹膜区域1112a或者具有4的数值颜色值的瞳孔区域1116a。
在图11中,板c示出了使用框936处的过程900确定的覆盖在图11板a中所示的眼睛图像上的瞳孔的外形边界的剩余像素1120a和虹膜的外形边界的剩余像素1124a。在图11中,板d示出了覆盖在图11中板b所示的语义分割的眼睛图像上的瞳孔的外形边界的剩余像素1120a和虹膜的外形边界的剩余像素1124a。在图11中,板e示出了通过框940处的过程900拟合瞳孔1120a的外形边界的剩余像素和虹膜1124a的外形边界来确定的瞳孔1128a的椭圆和虹膜1132a的椭圆。在图11中,板f示出了通过框720处的过程700的用于眼睛图像中的不相关的区域的二值掩码图像。二值掩码图像包括与图11中板b所示的语义分割的眼睛图像中的虹膜区域1112a和瞳孔区域1116a对应的区域1136a。二值掩码图像还包括与背景区域1104a和巩膜区域1108a对应的区域1140a。
类似于图11中的板a-f,图11中的板g-l示出了确定另一眼睛图像的虹膜外形、瞳孔外形和用于不相关图像区域的掩码的示例结果。
使用具有在分割的极性图像上训练的三元组网络架构的CNN的示例虹膜认证
图12A-12B示出了在使用图7和9中所示的示例过程拟合瞳孔外形和虹膜外形之后获得的极坐标中的虹膜图像上训练具有三元组网络架构的卷积神经网络(CNN)的示例结果。三元组网络架构在图13中示出并在下面更详细地描述。
图12A是概率密度与嵌入距离的直方图。相同主体的虹膜图像在嵌入空间中更靠近在一起,不同主体的虹膜图像在嵌入空间中彼此远离。图12B是真阳性率(TPR)与假阳性率(FPR)的接收器特征(ROC)曲线。ROC曲线下方的面积为99.947%。使用极坐标中的虹膜图像来训练具有三元组网络架构的CNN,实现了0.884%的EER。
三元组网络架构
使用人眼的图像,可以训练具有三元组网络架构的卷积神经网络(CNN),以学习从较高维度眼睛图像空间映射到较低维度嵌入空间的嵌入。眼睛图像空间的维度可以非常大。例如,256像素乘256像素的眼睛图像能够潜在地包括数千或数万个自由度。图13是具有三元网络架构的示例卷积神经网络1300的框图。可以训练CNN 1300以学习嵌入1304(Emb)。嵌入1304可以是将较高维度眼睛图像空间中的眼睛图像(Img)1308映射到较低维度嵌入空间中的眼睛图像的嵌入空间表示(EmbImg)的函数。例如,Emb(Img)=EmbImg。眼睛图像(Img)1308可以是使用图7和9中所示的示例过程确定的瞳孔外形和虹膜外形计算的极坐标中的虹膜图像。
嵌入空间表示(嵌入空间中的眼睛图像的表示)可以是n维实数向量。眼睛图像的嵌入空间表示可以是n维眼睛描述。在不同的实施方式中,嵌入空间中的表示的维度可以是不同的。例如,维度可以在16到2048的范围内。在一些实施方式中,n是128。嵌入空间表示的元素可以由实数表示。在一些架构中,嵌入空间表示在训练期间表示为n个浮点数,但是可以将其量化为n个字节以用于认证。因此,在一些情况下,每个眼睛图像由n字节表示来表示。具有较大维度的嵌入空间中的表示可以比具有较低维度的嵌入空间中的表示更好地执行,但可能需要更多训练。嵌入空间表示可以具有例如单位长度。
可以训练CNN 1300以学习嵌入1304,使得嵌入空间中一个人(或一个人的左眼或右眼)的独立于成像条件的眼睛图像之间的距离小,因为它们在嵌入空间中聚集在一起。相对地,嵌入空间中的不同人(或人的不同眼睛)的眼睛图像的对之间的距离可能大,因为它们在嵌入空间中没有聚集在一起。因此,嵌入空间中的来自同一人的眼睛图像之间的距离(嵌入距离)可以小于嵌入空间中的来自不同人的眼睛图像之间的距离。两个眼睛图像之间的距离可以是例如两个眼睛图像的嵌入空间表示之间的欧几里德距离(L2范数)。
一个人的两个眼睛图像(例如锚(anchor)眼睛图像(ImgA)1312a和正(positive)眼睛图像(ImgP)1312p)之间的距离在嵌入空间中可以是小的。在嵌入空间中,不同人的两个眼睛图像(例如锚眼睛图像(ImgA)1312a和负(negative)眼睛图像(ImgN)1312n)之间的距离可以更大。ImgA 1312a是“锚”图像,因为其嵌入空间表示可以与同一人(例如,ImgP1312p)和不同人(例如,ImgN 1312n)的眼睛图像的嵌入空间表示进行比较。ImgA1312p是“正”图像,因为ImgP 1312p和ImgA 1312a是同一个人的眼睛图像。ImgN 1312n是“负”图像,因为ImgN 1312n和ImgA1312a是不同人的眼睛图像。因此,嵌入空间中ImgA1312a和ImgP 1312p之间的距离可以小于嵌入空间中ImgA 1312a和ImgN 1312N之间的距离。
嵌入网络(Emb)1304可以将较高维眼睛图像空间中的ImgA 1312a、ImgP 1312p和ImgN 1312n映射到锚嵌入图像(EmbA)1316a、正嵌入图像(EmbP)1316a和负嵌入图像(EmbN)1316n。例如,Emb(ImgA)=EmbA;Emb(ImgP)=EmbP;以及Emb(ImgN)=EmbN。因此,嵌入空间中EmbA1316a和EmbP 1316a之间的距离可以小于嵌入空间中EmbP 1316a和EmbN 1316n之间的距离。
为了学习嵌入1304,可以使用眼睛图像1308的训练组T1。眼睛图像1380可以是使用图7-9中所示的示例过程确定的瞳孔外形和虹膜外形计算的极坐标中的虹膜图像。眼睛图像1308可以包括左眼和右眼的图像。眼睛图像1308可以与标签相关联,其中标签将一个人的眼睛图像与另一个人的眼睛图像区分开。标签还可以区分人的左眼和右眼的眼睛图像。训练组T1可以包括眼睛图像和标签(Img;标签)的对。可以从眼睛图像数据存储处接收(Img;标签)对的训练组T1。
为了学习嵌入1304,具有三元组网络架构的CNN 1300可以包括三个相同的嵌入网络,例如锚嵌入网络(ENetworkA)1320a、正嵌入网络(ENetworkP)1320p和负嵌入网络(ENetworkN)1320n。嵌入网络1320a、1320p或1320n可以将来自眼睛图像空间的眼睛图像映射到嵌入空间中的眼睛图像的嵌入空间表示。例如,ENetworkA 1320a可以将ImgA 1312a映射到EmbA 1316a。ENetworkA 1320p可以将ImgP 1312p映射到EmbP1316p。ENetworkN 1320n可以将ImgN 1312n映射到EmbN 1316n。
具有三元组网络架构的卷积神经网络1300可以利用包括眼睛图像的三元组的三元组训练组T2来学习嵌入1304。三元组的两个眼睛图像来自同一个人,例如ImgA 1312a和ImgP 1312p。三元组的第三眼睛图像来自不同的人,例如ImgN 1312n。ENetworkA 1320a、ENetworkP 1320p和ENetworkN 1320n可以将(ImgA;ImgP;ImgN)的三元组映射到(EmbA;EmbP;EmbN)的三元组。眼睛认证训练器1304可以从(Img;标签)对的训练组T1生成三元组训练组T2。
在不同的实施方式中,ImgA 1312a、ImgP 1312p或ImgN 1312n可以是不同的。例如,ImgA 1312a和ImgP 1312p可以是一个人的眼睛图像,ImgN 1312n可以是另一个人的眼睛图像。作为另一示例,ImgA 1312a和ImgP 1312p可以是一个人左眼的图像,ImgN 1312n可以是人的右眼的图像或另一个人的眼睛图像。
三元组网络架构可以用于学习嵌入1304,使得嵌入空间中的人的眼睛图像更接近嵌入空间中的同一个人的所有其他眼睛图像而不是更接近嵌入空间中的任何其他人的眼睛图像。例如,|EmbA-EmbP|<|EmbA-EmbN|,其中|EmbA-EmbP|表示嵌入空间中EmbA 1316a和EmbP 1316p之间的绝对距离,|EmbA-EmbN|表示嵌入空间中EmbA 1316a和EmbN 1316n之间的绝对距离。
在一些实施方式中,三元组网络架构可以用于学习嵌入1304,使得嵌入空间中人的左眼的图像更接近嵌入空间中相同人的左眼的所有图像而不是更接近嵌入空间中人右眼的任何图像或另一个人的任何眼睛图像。
在不同的实施方式中,嵌入空间表示的维度可以是不同的。EmbA1316a、EmbP1316p和EmbN 1316n的维度可以相同,例如是431。在不同的实施方式中,嵌入空间表示的长度可以是不同的。例如,可以使用L2标准化将EmbA 1316a、EmbP 1316p或EmbN 1316n标准化以在嵌入空间中具有单位长度。因此,眼睛图像的嵌入空间表示在嵌入空间中处于超球面(hypersphere)上。
三元组网络架构可以包括三元组损失层1324,该三元组损失层1324被配置为比较EmbA 1316a、EmbP 1316p和EmbN 1316n。利用三元组损失层1324学习的嵌入1304可以将一个人的眼睛图像映射到嵌入空间中的单个点或紧邻的点的聚类(cluster)。三元组损失层1324可以使嵌入空间中同一人的眼睛图像(例如EmbA 1316a和EmbP 1316p)之间的距离最小化。三元组损失层1324可以使嵌入空间中的不同人的眼睛图像(例如EmbA 1316a和EmbN1316n)之间的距离最大化。
三元组损失层1324可以以多种方式比较EmbA 1316a、EmbP 1316p和EmbN 1316n。例如,三元组损失层1324可以通过计算以下式子来比较EmbA 1316a、EmbP 1316p和EmbN1316n:
最大值(0,|EmbA-EmbP|2-|EmbA-EmbN|2+m)式子(1)
其中|EmbA-EmbP|表示嵌入空间中EmbA 1316a和EmbP 1316p之间的绝对距离,|EmbA-EmbN|表示EmbA 1316a和EmbN 1316n之间的绝对距离,m表示裕度(margin)。在不同的实施方式中,裕度可以不同。例如,裕度可以是0.01到1.0范围内的0.16或另一个数字。因此,在一些实施方式中,可以从多个人的眼睛图像中学习嵌入1304,使得来自同一个人的眼睛图像之间的嵌入空间中的距离小于来自不同的人的眼睛图像之间的嵌入空间中的距离。就式子(1)的特定实施方式而言,来自同一个人的所有眼睛图像之间的嵌入空间中的平方距离小,来自不同人的一对眼睛图像之间的嵌入空间中的平方距离大。
在不同的实施方式中,用于比较EmbA 1316a、EmbP 1316p和EmbN1316n的裕度m的函数可以是不同的。例如,裕度m可以加强(enforce)嵌入空间中一个人的眼睛图像和所有其他人的眼睛图像的每一个对之间的裕度。因此,一个人的眼睛图像的嵌入空间表示可以在嵌入空间中紧密地聚集在一起。同时,可以维持或最大化不同人的眼睛图像的嵌入空间表示。作为另一示例,裕度m可以加强一个人的左眼的图像和人的右眼的图像或所有其他人的眼睛图像的每一个对之间的裕度。
在嵌入1304的学习的迭代期间,三元组损失层1324可以为不同数量的三元组比较EmbA 1316a、EmbP 1316p和EmbN 1316n。例如,三元组损失层1324可以为三元组训练组T2中的所有三元组(EmbA;EmbP;EmbN)比较EmbA 1316a、EmbP 1316p和EmbN 1316n。作为另一示例,三元组损失层1324可以为三元组训练组T2中的一批三元组(EmbA;EmbP;EmbN)比较EmbA1316a、EmbP 1316p和EmbN 1316n。在不同的实施方式中,该批中的三元组的数量可以不同。例如,该批可以包括64个(EmbA;EmbP;EmbN)三元组。作为另一示例,该批可以包括三元组训练组T2中的所有三元组(EmbA;EmbP;EmbN)。
在学习嵌入1304的迭代期间,三元组损失层1324可以通过计算三元组损失为一批三元组(EmbA;EmbP;EmbN)比较EmbA 1316a、EmbP1316p和EmbN 1316n。例如,三元组损失可以是
其中n表示该批三元组中三元组的数量;以及EmbA(i)、EmbP(i)和EmbN(i)表示该批三元组中的第i个EmbA 1316a、EmbP 1316p和EmbN1316n。
在嵌入1304的学习期间,眼睛认证训练器1304可以基于一批三元组(EmbA;EmbP;EmbN)之间的比较(例如一批三元组(EmbA;EmbP;EmbN)之间的三元组损失)来更新ENetworkA 1320a、ENetworkP 1320p和ENetworkN 1320n。眼睛认证训练器1304可以周期性地(例如每次迭代或每1000次迭代)更新ENetworkA 1320a、ENetworkP 1320p和ENetworkN1320n。眼睛认证训练器1304可以更新ENetworkA 1320a、ENetworkP 1320p和ENetworkN1320n以优化嵌入空间。在不同的实施方式中,优化嵌入空间可以是不同的。例如,优化嵌入空间可以包括最小化式子(2)。作为另一示例,优化嵌入空间可以包括使EmbA 1316a和EmbP1316p之间的距离最小化并使EmbA 1316a和EmbN 1316n之间的距离最大化。
在优化嵌入空间的迭代之后,可以计算以下中的一个或多个:嵌入1304,其将来自较高维度眼睛图像空间的眼睛图像映射到较低维度嵌入空间中的眼睛图像的表示;或者阈值1328,其用于用户装置以确定用户的眼睛图像的嵌入空间表示是否与嵌入空间中的授权用户的眼睛图像足够类似,使得用户应该被认证为授权用户。可以在不指定在计算嵌入1304或阈值1328时可以或应该使用的眼睛图像的特征的情况下确定嵌入1304或阈值1328。
在不同的实施方式中,阈值1328可以是不同的。例如,阈值1328可以是在学习嵌入1304的最后一次迭代期间从(ImgA;ImgP;ImgN)三元组确定的同一人的眼睛图像之间的最大距离。作为另一示例,阈值1328可以是在学习嵌入1304的最后一次迭代期间从(ImgA;ImgP;ImgN)三元组确定的同一人的眼睛图像之间的中值距离。作为又一个示例,阈值1328可以小于在学习嵌入1304的最后一次迭代期间从(ImgA;ImgP;ImgN)三元组确定的不同人的眼睛图像之间的最大距离。
在不同的实施方式中,学习嵌入1304所需的迭代次数可以是不同的。例如,迭代次数可以是100000。作为另一示例,迭代次数可以不是预定的并且可以取决于学习具有令人满意的特性(例如具有2%的等错误率(EER))的嵌入1304所需的迭代。作为又一示例,迭代次数可以取决于获得令人满意的三元组损失所需的迭代。
在不同的实施方式中,嵌入1304区分未授权用户和授权用户的能力可以是不同的。例如,嵌入1304的假阳性率(FPR)可以是0.01%;嵌入1304的真阳性率(TPR)可以是99.99%。作为另一示例,嵌入1304的假阴性率(FNR)可以是0.01%;嵌入1304的真阴性率(TNR)可以是99.99%。例如,嵌入1304的等错误率(EER)可以是1%。
示例可穿戴显示系统
在一些实施例中,用户装置可以是可穿戴显示装置或可以被包括在可穿戴显示装置中的,其可以有利地提供更加沉浸式的虚拟现实(VR)、增强现实(AR)体验或混合现实(MR),其中数字再现的图像或其部分以它们看起来是或可以被感知为真实的方式呈现给佩戴者。
不受理论的限制,据信人类眼睛通常可以解释有限数量的深度平面以提供深度感知。因此,通过向眼睛提供与这些有限数量的深度平面中的每一个深度平面对应的图像的不同呈现,可以实现高度可以信的感知深度模拟。例如,包括波导堆叠的显示器可以被配置为佩戴定位在用户或观看者的眼睛前方。波导堆叠可以被用于通过使用多个波导将来自图像注入装置(例如,通过经由一个或多个光纤用管输送图像信息的离散显示器或多路复用显示器的输出端)的光以与特定波导相关联的深度平面对应的特定角度(和发散量)引导至观看者的眼睛,来向眼睛/大脑提供三维感知。
在一些实施例中,可以利用两个波导堆叠向每只眼睛提供不同的图像,一个波导堆叠用于观察者的每只眼睛。作为一个示例,增强现实场景可以使得AR技术的佩戴者看到以人、树木、背景中的建筑物和混凝土平台为特征的真实世界公园状设置。除了这些项目之外,AR技术的佩戴者同样可以感知到他“看到”站在真实世界平台上的机器人雕像,以及飞过的卡通式化身角色,该化身角色看起来是大黄蜂的化身,即使这些机器人雕像和大黄蜂在真实世界中不存在。波导堆叠可以用于产生与输入图像对应的光场,并且在一些实施方式中,可穿戴显示器包括可穿戴光场显示器。用于提供光场图像的可穿戴显示装置和波导堆叠的示例在美国专利公开No.2015/0016777中描述,其全部内容通过引用整体并入本文。
图14示出了可穿戴显示系统1400的示例,其可以用于向显示系统佩戴者或观看者1404呈现VR、AR或MR体验。可穿戴显示系统1400可以被编程为执行本文描述的任何应用或实施例(例如,眼睛图像分割、眼睛图像质量估计、瞳孔外形确定或虹膜外形确定)。显示系统1400包括显示器1408、以及支持该显示器1408的功能的各种机械和电子模块和系统。显示器1408可以与框架1412耦接,该框架可以由显示系统佩戴者或观看者1404佩戴并且被配置为将显示器1408定位在佩戴者1404的眼睛前方。显示器1408可以光场显示器。在一些实施例中,扬声器1416被耦接到框架1412并且位于用户的耳道附近,在一些实施例中,另一扬声器(未示出)位于用户的另一耳道附近以提供立体声/可以塑形声音控制。显示器1408可以可以操作地(诸如通过有线引线或无线连接)被耦接1420到本地数据处理和模块1424,本地数据处理和模块1424可以以各种配置安装,诸如被固定地附到框架1412上、被固定地附到由用户佩戴的头盔或帽子上、被嵌入头戴耳机内、或者其它的可以拆卸地附到用户1404(例如,以背包式配置、以带耦接式配置)。
本地处理和数据模块1424可以包括硬件处理器以及诸如非易失性存储器(例如,闪速存储器)的非暂时性数字存储器,这两者都可以用于辅助处理、高速缓存和存储数据。该数据包括:(a)从传感器(其例如可以可以操作地耦接到框架1412或者其它的可以操作地附到佩戴者1404)捕捉的数据,所述传感器例如为图像捕捉装置(例如,相机)、麦克风、惯性测量单元、加速度计、罗盘、GPS单元、无线电设备和/或陀螺仪;和/或(b)使用远程处理模块1428和/或远程数据储存库1432获得和/或处理的数据,这些数据可以在这样的处理或检索之后被传输到显示器1408。本地处理和数据模块1424可以诸如经由有线或无线通信链路可以操作地通过通信链路1436、1440耦接到远程处理模块1428或远程数据储存库1432,使得这些远程模块1428、1432可以操作地耦接到彼此并且可以用作本地处理和数据模块1424的资源。图像捕捉装置可以用于捕捉在眼睛图像分割、眼睛图像质量估计、瞳孔外形确定或虹膜外形确定过程中使用的眼睛图像。
在一些实施例中,远程处理模块1428可以包括一个或多个处理器,这些处理器被配置为分析和处理数据和/或图像信息,例如由图像捕捉装置捕捉的视频信息。视频数据可以被本地存储在本地处理和数据模块1424中和/或远程数据储存库1432中。在一些实施例中,远程数据储存库1432可以包括数字数据存储设施,该设施可以通过因特网或“云”资源配置中的其它网络配置而可以用。在一些实施例中,在本地处理和数据模块1424中存储所有数据并且执行所有计算,从而允许从远程模块完全自主的使用。
在一些实施方式中,本地处理和数据模块1424和/或远程处理模块1428被编程以执行本文公开的眼睛图像分割、眼睛图像质量估计、瞳孔外形确定或虹膜外形确定的实施例。例如,本地处理和数据模块1424和/或远程处理模块1428可以被编程以执行参考图5、6、7或9描述的过程500、600、700或900的实施例或以执行上面的示例伪代码。本地处理和数据模块1424和/或远程处理模块1428可以被编程以在生物提取中使用本文公开的眼睛图像分割、眼睛图像质量估计、瞳孔外形确定或虹膜外形确定技术,例如以识别或认证佩戴者1404的身份。图像捕捉装置可以捕捉用于特定应用的视频(例如,用于眼睛跟踪应用的佩戴者眼睛的视频或者用于手势识别应用的佩戴者的手或手指的视频)。可以通过处理模块1424、1428中的一个或两个使用CNN 100来分析视频。在一些实施方式中,将眼睛图像分割、眼睛图像质量估计、瞳孔外形确定或虹膜外形确定中的至少一些卸到远程处理模块(例如,在“云”中)可以提高计算的效率或速度。CNN 100的参数(例如,权重、偏置项、用于池化层(pooling layer)的二次采样因子、不同层中的内核的数量和大小、特征映射的数量等)可以存储在数据模块1424和/或1432中。
视频分析的结果(例如,CNN 100的输出)可以由处理模块1424、1428中的一个或两个用于附加操作或处理。例如,在各种CNN应用中,可穿戴显示系统1400可以使用手势、对象、姿态等的生物识别、眼睛跟踪、识别或分类。例如,佩戴者的眼睛的视频可以是用于眼睛图像分割或图像质量估计,该眼睛图像分割或图像质量估计进而可以由处理模块1424、1428用于通过显示器1408的佩戴者1404的虹膜外形确定或瞳孔外形确定。可穿戴显示系统1400的处理模块1424、1428可以被编程以使用眼睛图像分割、眼睛图像质量估计、瞳孔外形确定或虹膜外形确定中的一个或多个实施例,以执行本文所述的视频或图像处理应用中的任何一者。
CNN 100的实施例可以用于在其他生物应用中分割眼睛图像并提供图像质量估计。例如,用于扫描和分析用户(例如,安全设施处的乘客或工作人员)的眼睛的生物安全系统(例如,在诸如机场、火车站等的运输仓库中或在安全设施中使用的那些)中的眼睛扫描仪可以包括眼睛成像相机和被编程为使用CNN 100的实施例处理眼睛图像的硬件。CNN 100的其他应用是可能的,例如用于生物识别(例如,生成虹膜代码)、眼睛凝视跟踪等等。
附加方面
在第1方面,公开了一种用于眼睛图像分割和图像质量估计的方法。该方法受硬件处理器的控制,并包括:接收眼睛图像;使用卷积神经网络处理眼睛图像以生成眼睛图像的分割;以及使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计,其中卷积神经网络包括分割塔和质量估计塔,其中分割塔包括分割层和共享层,其中质量估计塔包括质量估计层和共享层,其中共享层的第一输出层连接到分割塔的第一输入层和分割塔的第二输入层,其中共享层的第一输出层连接到质量估计层的输入层,以及其中接收眼睛图像包括通过共享层的输入层接收眼睛图像。
在第2方面,根据方面1所述的方法,其中共享层的第二输出层连接到分割塔的第三输入层。
在第3方面,根据方面1-2中任一方面所述的方法,其中使用卷积神经网络处理眼睛图像以生成眼睛图像的分割包括使用分割塔生成眼睛图像的分割,其中分割塔的输出层的输出是眼睛图像的分割。
在第4方面,根据方面3所述的方法,其中眼睛图像的分割包括眼睛图像的背景、巩膜、虹膜或瞳孔。
在第5方面,根据方面1-4中任一方面所述的方法,其中使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计包括使用质量估计塔生成眼睛图像的质量估计,其中质量估计塔的输出层的输出包括眼睛图像的质量估计。
在第6方面,根据方面1-5中任一方面所述的方法,其中眼睛图像的质量估计是良好的质量估计或差的质量估计。
在第7方面,根据方面1-6中任一方面所述的方法,其中共享层、分割层或质量估计层包括卷积层、亮度标准化层、批量标准化层,整流线性层、上采样层、链接层、池化层、完全连接层、线性完全连接层、软标记层或其任何组合。
在第8方面,公开了一种用于眼睛图像分割和图像质量估计的方法。该方法受硬件处理器的控制,并包括:接收眼睛图像;使用卷积神经网络处理眼睛图像以生成眼睛图像的分割;以及使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计。
在第9方面,根据方面8所述的方法,其中卷积神经网络包括分割塔和质量估计塔,其中分割塔包括分割层和共享层,其中质量估计塔包括质量估计层和共享层,以及其中接收眼睛图像包括通过共享层的输入层接收眼睛图像。
在第10方面,根据方面9所述的方法,其中共享层的第一输出层连接到分割塔的第一输入层。
在第11方面,根据方面10所述的方法,其中共享层的第一输出层连接到分割塔的第二输入层。
在第12方面,根据方面10-11中任一方面所述的方法,其中共享层的第一输出层连接到质量估计塔的输入层。
在第13方面,根据方面9-12中任一方面所述的方法,其中使用卷积神经网络处理眼睛图像以生成眼睛图像的分割包括使用分割塔生成眼睛图像的分割,其中分割塔的输出层的输出是眼睛图像的分割。
在第14方面,根据方面9-13中任一方面所述的方法,其中眼睛图像的分割包括眼睛图像的背景、巩膜、虹膜或瞳孔。
在第15方面,根据方面9-14中任一方面所述的方法,其中使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计包括使用质量估计塔生成眼睛图像的质量估计,其中质量估计塔的输出层的输出是眼睛图像的质量估计。
在第16方面,根据方面9-15中任一方面所述的方法,其中共享层、分割层或质量估计层包括卷积层、批量标准化层、整流线性层、上采样层、链接层、池化层、完全连接层、线性完全连接层或其任何组合。
在第17方面,根据方面16所述的方法,其中批量标准化层是批量局部对比度标准化层或批量局部响应标准化层。
在第18方面,根据方面9-17中任一方面所述的方法,其中共享层、分割层或质量估计层包括亮度标准化层、软标记层或其任何组合。
在第19方面,根据方面8-18中任一方面所述的方法,其中眼睛图像由用户装置的图像传感器捕获以用于认证。
在第20方面,根据方面8-19中任一方面所述的方法,其中眼睛图像的分割主要包括眼睛图像的虹膜部分。
在第21方面,根据方面8-19中任一方面所述的方法,其中眼睛图像的分割主要包括眼睛图像的视网膜部分。
在第22方面,公开了一种用于训练用于眼睛图像分割和图像质量估计的卷积神经网络的方法。该方法受硬件处理器的控制,并包括:获得眼睛图像的训练组;提供使用眼睛图像的训练组的卷积神经网络;以及使用眼睛图像的训练组训练卷积神经网络,其中卷积神经网络包括分割塔和质量估计塔,其中分割塔包括分割层和共享层,其中质量估计塔包括质量估计层和共享层,其中共享层的输出层连接到分割塔的第一输入层和分割塔的第二输入层,其中共享层的输出层连接到质量估计层的输入层。
在第23方面,根据方面22所述的方法,其中使用眼睛图像的训练组训练卷积神经网络包括:使用分割塔处理训练组的眼睛图像以生成眼睛图像的分割;使用质量估计塔处理训练组的眼睛图像以生成眼睛图像的质量估计;计算眼睛图像的分割与眼睛图像的参考分割之间的第一差异;计算眼睛图像的质量估计与眼睛图像的参考质量估计之间的第二差异;以及使用第一差异和第二差异更新卷积神经网络的参数。
在第24方面,根据方面23所述的方法,其中使用第一差异和第二差异更新卷积神经网络的参数包括在训练卷积神经网络时的第一训练循环期间将卷积神经网络的参数的第一百分比设置为0的值。
在第25方面,根据方面24所述的方法,其中在训练卷积神经网络时的第一训练循环期间将卷积神经网络的参数的第一百分比设置为0的值包括在训练卷积神经网络时的第一训练循环期间将卷积神经网络的参数的第一百分比随机设置为0的值。
在第26方面,根据方面24-25中任一方面所述的方法,其中使用第一差异和第二差异更新卷积神经网络的参数还包括在训练卷积神经网络时的第二训练循环期间将卷积神经网络的参数的第二百分比设置为0的值。
在第27方面,根据方面26所述的方法,其中,在训练卷积神经网络时的第二训练循环期间将卷积神经网络的参数的第二百分比设置为0的值包括在训练卷积神经网络时的第二训练循环期间将卷积神经网络的参数的第二百分比随机设置为0的值。
在第28方面,根据方面27所述的方法,其中第一百分比或第二百分比在50%和30%之间。
在第29方面,根据方面23-28中任一方面所述的方法,其中眼睛图像的分割包括眼睛图像的背景、巩膜、虹膜或瞳孔,其中眼睛图像的参考分割包括眼睛图像的参考背景、参考巩膜、参考虹膜或参考瞳孔。
在第30方面,根据方面22-28中任一方面所述的方法,其中共享层、分割层或质量估计层包括卷积层、亮度标准化层、批量标准化层、整流线性层、上采样层、链接层、池化层、完全连接层、线性完全连接层、软标记层或其任何组合。
在第31方面,公开了一种计算机系统。该计算机系统包括:硬件处理器;以及非暂时性存储器,其具有存储在其上的指令,当由硬件处理器执行指令时,使处理器执行方面1-30中任一方面所述的方法。
在第32方面,根据方面31所述的计算机系统,其中计算机系统包括移动装置。
在第33方面,根据方面32所述的计算机系统,其中移动装置包括可穿戴显示系统。
在第34方面,公开了一种用于确定语义分割的眼睛图像中的眼睛外形的方法。该方法受硬件处理器控制,并且包括:接收眼睛图像的语义分割的眼睛图像,该语义分割的眼睛图像包括多个像素,其中语义分割的眼睛图像的像素具有颜色值,其中语义分割的眼睛图像的像素的颜色值是第一颜色值、第二颜色值、第三颜色值和第四颜色值,其中第一颜色值对应于眼睛图像的背景,其中第二颜色值对应于眼睛图像中眼睛的巩膜,其中第三颜色值对应于眼睛图像中眼睛的虹膜,以及其中第四颜色值对应于眼睛图像中眼睛的瞳孔;使用语义分割的眼睛图像确定瞳孔外形;使用语义分割的眼睛图像确定虹膜外形;以及确定语义分割的眼睛图像中的用于不相关区域的掩码。
在第35方面,根据方面34所述的方法,其中第一颜色值大于第二颜色值,其中第二颜色值大于第三颜色值,以及其中第三颜色值大于第四颜色值。
在第36方面,根据方面34-35中任一方面所述的方法,其中使用语义分割的眼睛图像确定瞳孔外形包括:创建包括多个像素的第一二值图像,其中如果语义分割的眼睛图像中的对应像素具有大于或等于第四颜色值的值,则第一二值图像的第一二值图像像素的颜色值是第四颜色值,以及如果语义分割的眼睛图像中的对应像素具有不大于或等于第四颜色值的值,则第一二值图像的第一二值图像像素的颜色值是第三颜色值;选择第一二值图像中的确定的外形中的最长外形作为瞳孔外形边界;确定包围瞳孔外形边界的瞳孔外形点定界框;计算作为瞳孔外形点定界框的对角线的瞳孔点区域大小;创建包括多个像素的第二二值图像,其中如果语义分割的眼睛图像中的对应像素具有大于或等于第三颜色值的值,则第二二值图像的多个像素中的第二二值图像像素的颜色值是第三颜色值,以及如果语义分割的眼睛图像中的对应像素具有不大于或等于第三颜色值的值,则第二二值图像的多个像素中的第二二值图像像素的颜色值是第二颜色值;对于瞳孔外形边界的瞳孔外形边界像素:确定第二二值图像中具有第二颜色值的颜色值并且最接近瞳孔外形边界像素的最接近的像素;确定瞳孔外形边界像素与第二二值图像中最接近的像素之间的距离;以及如果瞳孔外形边界像素与第二二值图像中的最接近的像素之间的距离小于预定瞳孔外形阈值,则从瞳孔外形边界移除瞳孔外形边界像素;以及从瞳孔外形边界的剩余像素确定作为椭圆的瞳孔外形。
在第37方面,根据方面34-36中任一方面所述的方法,其中使用语义分割的眼睛图像确定虹膜外形包括:创建包括多个像素的第三二值图像,其中如果语义分割的眼睛图像中的对应像素具有大于或等于第三颜色值的值,则第三二值图像的多个像素中的第三二值图像像素的颜色值是第三颜色值,以及如果语义分割的眼睛图像中的对应像素具有不大于或等于第三颜色值的值,则第三二值图像的多个像素中的第三二值图像像素的颜色值是第二颜色值;确定第三二值图像中的外形;选择第三二值图像中的确定的外形中的最长外形作为虹膜外形边界;确定包围虹膜外形边界的虹膜外形点定界框;计算作为虹膜外形点定界框的对角线的虹膜点区域大小;创建包括多个像素的第四二值图像,其中如果语义分割的眼睛图像中的对应像素具有大于或等于第二颜色值的值,则第四二值图像的多个像素中的第四二值图像像素的颜色值是第二颜色值,以及如果语义分割的眼睛图像中的对应像素具有不大于或等于第二颜色值的值,则第四二值图像的多个像素中的第四二值图像像素的颜色值是第一颜色值;对于外形边界的虹膜外形边界像素:确定第四二值图像中具有第一颜色值的颜色值并且最接近虹膜外形边界像素的最接近的像素;确定虹膜外形边界像素与第四二值图像中的最接近的像素之间的距离;以及如果虹膜外形边界像素与第四二值图像中的最接近的像素之间的距离小于预定虹膜外形阈值,则从虹膜外形边界移除虹膜外形边界像素;以及通过从虹膜外形边界的剩余像素确定椭圆来确定虹膜外形。
在第38方面,根据方面34-37中任一方面所述的方法,确定眼睛图像中的用于不相关的区域的掩码包括:创建包括多个像素的二值掩码图像,其中二值掩码图像的二值掩码图像像素具有颜色值;如果语义分割的眼睛图像中的对应像素具有大于或等于第三颜色值的值,则将二值掩码图像像素的颜色值设置为第三颜色值;以及如果语义分割的眼睛图像中的对应像素具有不大于或等于第三颜色值的值,则将二值掩码图像像素的颜色值设置为第二颜色值。
在第39方面,根据方面36-38中任一方面所述的方法,其中预定瞳孔外形阈值是被乘以瞳孔点区域大小的分数,其中该分数在0.02到0.20的范围内。
在第40方面,根据方面37-39中任一方面所述的方法,其中预定虹膜外形阈值是被乘以虹膜点区域大小的分数,其中该分数在0.02到0.20的范围内。
在第41方面,根据方面34-40中任一方面所述的方法,还包括使用语义分割的眼睛图像中的瞳孔外形、虹膜外形和用于不相关的区域的掩码从眼睛图像创建眼睛图像中眼睛的虹膜的极性图像。
在第42方面,根据方面34-41中任一方面所述的方法,其中接收包括多个像素的眼睛图像的语义分割的眼睛图像包括:接收眼睛图像;使用卷积神经网络处理眼睛图像以生成语义分割的眼睛图像;以及使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计,其中卷积神经网络包括分割塔和质量估计塔,其中分割塔包括分割层和共享层,其中质量估计塔包括质量估计层和共享层,其中共享层的第一输出层连接到分割塔的第一输入层和分割塔的第二输入层,其中共享层的第一输出层连接到质量估计层的输入层,以及其中接收眼睛图像包括通过共享层的输入层接收眼睛图像。
在第43方面,公开了一种用于确定语义分割的眼睛图像中的眼睛外形的方法。该方法受硬件处理器控制,并包括:接收眼睛图像的语义分割的眼睛图像;使用语义分割的眼睛图像确定眼睛图像中眼睛的瞳孔外形;使用语义分割的眼睛图像确定眼睛图像中眼睛的虹膜外形;以及确定眼睛图像中用于不相关的区域的掩码。
在第44方面,根据方面43所述的方法,其中语义分割的眼睛图像的尺寸和掩码图像的尺寸相同。
在第45方面,根据方面43-44中任一方面所述的方法,其中语义分割的眼睛图像包括多个像素,以及其中语义分割的眼睛图像的像素的颜色值对应于眼睛图像中的背景、眼睛图像中眼睛的巩膜、眼睛图像中眼睛的虹膜或眼睛图像中眼睛的瞳孔。
在第46方面,根据方面45所述的方法,其中语义分割的眼睛图像的像素的颜色值是第一颜色值、第二颜色值、第三颜色值或第四颜色,其中第一颜色值对应于眼睛图像的背景,其中第二颜色值对应于眼睛图像中眼睛的巩膜,其中第三颜色值对应于眼睛图像中眼睛的虹膜,以及其中第四颜色值对应在眼睛图像中眼睛的瞳孔。
在第47方面,根据方面46所述的方法,其中第一颜色值大于第二颜色值,其中第二颜色值大于第三颜色值,以及其中第三颜色值大于第四颜色值。
在第48方面中,根据方面46-47中任一方面所述的方法,其中使用语义分割的眼睛图像确定瞳孔外形包括:从语义分割的眼睛图像创建第一二值图像;确定第一二值图像中的最长瞳孔外形;从分割的眼睛图像创建第二二值图像;使用不适于确定瞳孔外形的第二二值图像移除最长瞳孔外形的最长瞳孔外形像素;以及从第一二值图像中最长瞳孔外形的剩余像素将瞳孔外形确定作为椭圆。
在第49方面,根据方面48所述的方法,其中如果语义分割的眼睛图像中的对应像素具有大于或等于第四颜色的值,则第一二值图像的像素具有第一二值图像颜色值,否则具有第二二值图像颜色值,其中第一二值图像颜色值大于第二二值图像颜色值,以及其中如果语义分割的眼睛图像中的对应像素具有大于或等于第三颜色值的值,则第二二值图像的像素具有第一二值图像颜色值,否则具有第二二值图像颜色值。
在第50方面,根据方面48-49中任一方面所述的方法,其中使用不适于确定瞳孔外形的第二二值图像移除最长瞳孔外形中的最长瞳孔外形像素包括:确定最长瞳孔外形像素与第二二值图像中的具有第二二值图像颜色值并且最接近最长瞳孔外形像素的像素之间的距离;以及如果该距离小于预定瞳孔外形阈值,则从最长的瞳孔外形中移除最长的瞳孔外形像素。
在第51方面,根据方面50所述的方法,其中确定最长瞳孔外形像素与第二二值图像中的具有第二二值图像颜色值并且最接近最长瞳孔外形像素的像素之间的距离包括:确定第二二值图像中的与最长瞳孔外形像素对应的像素与第二二值图像中的具有第二二值图像颜色值并且最接近第二二值图像中的与最长瞳孔外形像素对应的像素之间距离。
在第52方面,根据方面48-49中任一方面所述的方法,还包括确定第一二值图像中包围最长瞳孔外形的最小定界框。
在第53方面,根据方面52所述的方法,还包括确定第一二值图像中包围最长瞳孔外形的最小定界框的大小。
在第54方面,根据方面53所述的方法,其中第一二值图像中包围最长瞳孔外形的最小定界框的大小是第一二值图像中包围最长瞳孔外形的最小定界框的对角线。
在第55方面,根据方面53-54中任一方面所述的方法,其中预定瞳孔外形阈值是与第一二值图像中包围最长瞳孔外形的最小定界框的大小相乘的分数,其中该分数在0.02至0.20的范围内。
在第56方面,根据方面48-55中任一方面所述的方法,其中使用语义分割的眼睛图像确定虹膜外形包括:从语义分割的眼睛图像创建第三二值图像;确定第一二值图像中的最长虹膜外形;从语义分割的眼睛图像创建第四二值图像;使用不适于确定虹膜外形的第四二值图像移除最长虹膜外形中的最长虹膜外形像素;以及从第一二值图像的最长虹膜外形中的剩余像素将虹膜外形确定作为椭圆。
在第57方面,根据方面56所述的方法,其中如果语义分割的眼睛图像中的对应像素具有大于或等于第三颜色值的值,则第三二值图像的像素具有第一二值图像颜色值,否则具有第二二值图像颜色值,以及其中如果语义分割的眼睛图像中的对应像素具有大于或等于第二颜色值的值,则第四二值图像的像素具有第一二值图像颜色值,否则具有第二二值图像颜色值。
在第58方面,根据方面56-57中任一方面所述的方法,其中使用不适于确定虹膜外形的第四二值图像移除最长虹膜外形中的最长虹膜外形像素包括:确定最长虹膜外形像素与第四二值图像中具有第二二值图像颜色值并且最接近最长虹膜外形像素的像素之间的距离;以及如果最长虹膜外形像素与第四二值图像中的像素之间的距离小于预定虹膜外形阈值,则从最长虹膜外形移除最长虹膜外形像素。
在第59方面,根据方面58所述的方法,其中确定最长虹膜外形像素与第四二值图像中具有第二二值图像颜色值并且最接近最长虹膜外形像素的像素之间的距离包括:确定第四二值图像中与最长虹膜外形像素对应的像素与第四二值图像中具有第二二值图像颜色值并且最接近第四二值图像中与最长虹膜外形像素对应的像素的像素之间的距离。
在第60方面,根据方面56-57中任一方面所述的方法,还包括确定第三二值图像中包围最长虹膜外形的最小定界框。
在第61方面,根据方面60所述的方法,还包括确定第三二值图像中包围最长虹膜外形的最小定界框的大小。
在第62方面,根据方面61所述的方法,其中第三二值图像中包围最长虹膜外形的最小定界框的大小是第三二值图像中包围最长虹膜外形的最小定界框的对角线。
在第63方面,根据方面61-62中任一方面所述的方法,其中预定虹膜外形阈值是与第一二值图像中包围最长虹膜外形的最小定界框的大小相乘的分数,其中分数在0.02至0.20的范围内。
在第64方面,根据方面49-63中任一方面所述的方法,其中确定眼睛图像中用于不相关的区域的掩码包括创建包括多个像素的二值掩码图像,其中如果语义分割的眼睛图像中的对应像素具有大于或等于第三颜色值的值,则二值掩模的像素具有第一二值图像颜色值,否则具有第二二值图像颜色值。
在第65方面,根据方面43-64中任一方面所述的方法,还包括使用语义分割的眼睛图像中的瞳孔外形、虹膜外形和用于不相关的区域的掩码从眼睛图像创建眼睛图像中眼睛的虹膜的极性图像。
在第66方面,根据方面43-65中任一方面所述的方法,其中接收眼睛图像的语义分割的眼睛图像包括:接收眼睛图像;使用卷积神经网络处理眼睛图像以生成眼睛图像的分割;以及使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计。
在第67方面,根据方面43-66中任一方面所述的方法,其中接收眼睛图像的语义分割的眼睛图像包括:接收眼睛图像;使用卷积神经网络处理眼睛图像以生成语义分割的眼睛图像;以及使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计。
在第68方面,公开了一种计算机系统。该计算机系统包括:硬件处理器;非暂时性存储器,其具有存储在其上的指令,当由硬件处理器执行指令时,得处理器执行方面34-67中任一方面所述的方法。
在第69方面,根据方面68所述的计算机系统,其中计算机系统包括移动装置。
在第70方面,根据方面69所述的计算机系统,其中移动装置包括可穿戴显示系统。可穿戴显示系统可以包括头戴式增强或虚拟现实显示系统。
在第71方面,一种用于眼睛图像分割和图像质量估计的系统,该系统包括:眼睛成像相机,其被配置为获得眼睛图像;非暂时性存储器,其被配置为存储眼睛图像;硬件处理器,其与非暂时性存储器通信,该硬件处理器被编程为:接收眼睛图像;使用卷积神经网络处理眼睛图像以生成眼睛图像的分割;以及使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计,其中卷积神经网络包括分割塔和质量估计塔,其中分割塔包括分割层和共享层,其中质量估计塔包括质量估计层和共享层,其中共享层的第一输出层连接到分割塔的第一输入层和分割塔的第二输入层,第一输入层或第二输入层中的至少一个包括链接层,其中共享层的第一输出层连接到质量估计层的输入层,以及其中眼睛图像由共享层的输入层接收。
在第72方面,根据方面71所述的系统,其中共享层的第二输出层连接到分割塔的第三输入层,第三输入层包括链接层。
在第73方面,根据方面71或72中任一方面所述的系统,其中为了使用卷积神经网络处理眼睛图像以生成眼睛图像的分割,硬件处理器被编程为:使用分割塔生成眼睛图像的分割,其中分割塔的输出层的输出包括眼睛图像的分割。
在第74方面,根据方面71至73中任一方面所述的系统,其中眼睛图像的分割包括眼睛图像的背景、巩膜、虹膜或瞳孔。
在第75方面,根据方面74所述的系统,其中硬件处理器还被编程为:使用眼睛图像的分割来确定眼睛图像中眼睛的瞳孔外形;使用眼睛图像的分割确定眼睛图像中眼睛的虹膜外形;以及确定眼睛图像中用于不相关的区域的掩码。
在第76方面,根据方面71至75中任一方面所述的系统,其中共享层被配置为通过减小特征映射的空间尺寸并增加由共享层计算的特征映射的数量来对眼睛图像进行编码。
在第77方面,根据方面76所述的系统,其中分割层被配置为通过增加特征映射的空间尺寸并减少特征映射的数量来对由共享层编码的眼睛图像进行解码。
在第78方面,根据方面71至77中任一方面所述的系统,其中为了使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计,硬件处理器被编程为:使用质量估计塔生成眼睛图像的质量估计,其中质量估计塔的输出层的输出包括眼睛图像的质量估计。
在第79方面,根据方面71至78中任一方面所述的系统,其中质量估计塔被配置为输出至少两个通道的输出,其中该至少两个通道中的第一通道包括良好的质量估计,该至少两个通道中的第二通道包括差的质量估计。
在第80方面,根据方面71至79中任一方面所述的系统,其中共享层、分割层或质量估计层包括卷积层、亮度标准化层、批量标准化层、整流线性层、上采样层、链接层、池化层、完全连接层、线性完全连接层、软标记层或其任何组合。
在第81方面,一种用于眼睛图像分割和图像质量估计的系统,该系统包括:眼睛成像相机,器被配置为获得眼睛图像;非暂时性存储器,其被配置为存储眼睛图像;硬件处理器,其与非暂时性存储器通信,该硬件处理器被编程为:接收眼睛图像;使用卷积神经网络处理眼睛图像以生成眼睛图像的分割;以及使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计,其中卷积神经网络包括分割塔和质量估计塔,其中分割塔包括分割层和共享层,其中质量估计塔包括质量估计层和共享层,其中分割层不与质量估计塔共享,其中质量估计层不与分割塔共享,以及其中眼睛图像通过共享层的输入层接收。
在第82方面,根据方面81所述的系统,其中共享层的第一输出层连接到分割塔的第一输入层。
在第83方面,根据方面82所述的系统,其中共享层的第一输出层连接到分割塔的第二输入层,其中第一输入层或第二输入层包括链接层。
在第84方面,根据方面82或83所述的系统,其中共享层的第一输出层还连接到质量估计塔的输入层。
在第85方面,根据方面81至84中任一方面所述的系统,其中为了使用卷积神经网络处理眼睛图像以生成眼睛图像的分割,硬件处理器被编程为:使用分割塔生成眼睛图像的分割,其中分割塔的输出层的输出包括眼睛图像的分割。
在第86方面,根据方面81至85中任一方面所述的系统,其中眼睛图像的分割包括眼睛图像的背景、巩膜、虹膜或瞳孔。
在第87方面,根据方面81至86中任一方面所述的系统,其中为了使用卷积神经网络处理眼睛图像以生成眼睛图像的质量估计,硬件处理器被编程为:使用质量估计塔生成眼睛图像的质量估计,其中质量估计塔的输出层的输出包括眼睛图像的质量估计。
在第88方面,根据方面81至87中任一方面所述的系统,其中共享层、分割层或质量估计层包括卷积层、批量标准化层、整流线性层、上采样层、链接层、池化层、完全连接层、线性完全连接层或其任何组合。
在第89方面,根据方面88所述的系统,其中批量标准化层是批量局部对比度标准化层或批量局部响应标准化层。
在第90方面,根据方面81至89中任一方面所述的系统,其中共享层、分割层或质量估计层包括亮度标准化层、软标记层或其任何组合。
在第91方面,根据方面71至90中任一方面所述的系统,还包括:显示器,其被配置为向系统的用户显示虚拟图像。
在第92方面,根据方面91所述的系统,其中显示器包括光场显示器或被配置为在多个深度平面处显示虚拟图像的显示器。
在第93方面,根据方面71至92中任一方面所述的系统,其中硬件处理器还被编程为从眼睛图像的分割来计算生物签名,其中分割由卷积神经网络的分割塔生成。
在第94方面,根据方面93所述的系统,其中生物签名包括虹膜代码。
结论
本文描述的和/或附图描绘的过程、方法以及算法中的每一者可以体现在以下项中并通过以下项被全部或部分自动化:代码模块,其由一个或多个物理计算系统、硬件计算机处理器、专用电路执行;和/或电子硬件,其被配置为执行具体和特定计算机指令。例如,计算系统能包括用具体计算机指令或专用计算机编程的通用计算机(例如服务器)、专用电路等。代码模块可以被编译并链接到可以执行程序中,安装在动态链接库中,或可以用解释性编程语言编写。在一些实施方式中,特定操作和方法可以由特定于给定功能的电路来执行。
此外,本公开的功能的特定实施方式在数学上、计算上或技术上都足够复杂,以至于为了执行所述功能(例如由于所涉及的计算量或复杂性)或为了基本实时地提供结果,专用硬件或者一个或多个物理计算设备(利用适当的专有可以执行指令)可以是必需的。例如,视频可以包括多个帧,每帧具有数百万个像素,为了处理视频数据以在商业合理的时间量内提供期望的图像处理任务(例如,使用具有合并架构的CNN 100的眼睛图像分割和质量估计)或应用,专用编程计算机硬件是必需的。
代码模块或任何类型的数据可以被存储在任何类型的非暂时性计算机可以读介质上,诸如物理计算机存储器,包括硬盘驱动器、固态存储器、随机存取存储器(RAM)、只读存储器(ROM)、光盘、易失性或非易失性存储器以及相同和/或相似元件的组合。方法和模块(或数据)也可以在各种计算机可以读传输介质上作为生成的数据信号(例如,作为载波或其他模拟或数字传播信号的一部分)传输,所述传输介质包括基于无线的介质和基于有线/电缆的介质,且可以采取多种形式(例如,作为单一或多路复用模拟信号的一部分,或者作为多个离散数字数据包或帧)。所公开的过程或处理步骤的结果可以持久地或以其他方式存储在任何类型的非暂时性实体计算机存储器中,或可以经由计算机可以读传输介质进行传送。
本文所描述和/或附图所描绘的流程图中的任何过程、框、状态、步骤或功能应当被理解为潜在地表示代码模块、代码段或代码部分,它们包括在过程中实现具体功能(例如逻辑功能或算术功能)或步骤的一个或多个可以执行指令。各种过程、框、状态、步骤或功能能够根据本文提供的说明性示例进行组合、重新排列、添加、删除、修改或其他改变。在一些实施例中,额外或不同的计算系统或代码模块可以执行本文所述的一些或全部功能。本文所述方法和过程也不限于任何具体的顺序,且与其相关的框、步骤或状态能以适当的其他顺序来执行,例如以串行、并行或某种其他方式。可以向所公开的示例实施例添加或从中移除任务或事件。此外,本文所述的实施方式中的分离各种系统组件是出于说明的目的,且不应被理解为在所有实施方式中都需要这样的分离。应该理解,所描述的程序组件、方法以及系统一般能一起集成在单个计算机产品中或封装到多个计算机产品中。许多实施方式变体是可以行的。
过程、方法以及系统可以在网络(或分布式)计算环境中实施。网络环境包括企业范围的计算机网络、内联网、局域网(LAN)、广域网(WAN)、个人区域网络(PAN)、云计算网络、众包计算网络、因特网以及万维网。网络可以是有线或无线网络或者任何其他类型的通信网络。
本公开的系统和方法各自具有若干创新性方面,这些方面中的任一单个方面不单独负责本文所公开的期望待性或不是本文所公开的期望待性所必需的。上述各种特征和过程可以彼此独立使用或可以以各种方式组合使用。所有可能的组合和子组合均旨在落入此公开的范围内。对此公开所述的实施方式的各种修改对于本领域技术人员而言可以是显而易见的,且在不脱离此公开的精神或范围的情况下,可以将本文中限定的一般原理应用于其他实施方式。因此,权利要求不旨在限于本文所示的实施方式,而是应被赋予与本文所公开的此公开、原理和新颖特征一致的最宽范围。
在单独实施方式的上下文中在此说明书所述的某些特征也能在单个实施方式中组合实现。相反,在单个实施方式的上下文中所述的各种特征也能在多个实施方式中单独地或以任何合适的子组合实现。此外,尽管上文可以将特征描述为以某些组合执行,甚至最初这样要求保护,但在一些情况下,来自所要求保护的组合的一个或多个特征能被从该组合中删除,且所要求保护的组合可以涉及子组合或子组合的变体。任何单个特征或特征组对于每个实施例都不是必需或不可以或缺的。
本文中使用的条件语,诸如(除其他项外)“能”、“能够”、“可能”、“可以”、“例如”等一般旨在表达某些实施例包括而其他实施例不包括某些特征、元素和/或步骤,另有具体说明或在上下文中另有理解除外。因此,这样的条件语一般不旨在暗示特征、元素和/或步骤以任何方式对于一个或多个实施例是必需的,或者一个或多个实施例必然包括用于在具有或没有程序设计者输入或提示的情况下决定这些特征、元素和/或步骤是否包括在或者是否将在任何具体实施例中执行的逻辑。术语“包括”、“包含”、“具有”等是同义词,且以开放式的方式包含性地使用,且不排除额外的元素、特征、动作、操作等。此外,术语“或”以其包含性含义(而不是其专有性含义)使用,因此,当被用于例如连接元素列表时,术语“或”意味着列表中的一个、一些或全部元素。另外,本申请和所附权利要求书中使用的冠词“一”、“一个”和“所述”应被解释为意味着“一个或多个”或“至少一个”,另有具体说明除外。
如本文所使用的,涉及项目列表的“至少一个”的短语指这些项目的任何组合,包括单个成员。作为示例,“A、B或C中的至少一个”旨在覆盖:A、B、C、A和B、A和C、B和C以及A、B和C。诸如短语“X、Y以及Z中的至少一个”的连接语(除非另有声明)以通常使用的上下文来理解,以表达项目、术语等可以是X、Y或Z中的至少一个。因此,这样的连接语一般并不旨在暗示某些实施例要求X中的至少一个、Y中的至少一个以及Z中的至少一个中的每个都存在。
类似地,虽然操作在附图中可以以特定顺序描绘,但应认识到,这样的操作不需要以所述特定顺序或以相继顺序执行,或执行所有例示的操作以实现期望的结果。此外,附图可以以流程图的形式示意性地描绘一个或多个示例过程。然而,未示出的其他操作能并入示意性地示出的示例方法和过程中。例如,能在任何所示操作之前、之后、同时或期间执行一个或多个附加操作。另外,在其他实施方式中,操作可以被重新排列或重新排序。在某些情况下,多任务和并行处理可以具有优势。此外,上述实施方式描述的各种系统组件的分离不应被理解为在所有实施方式中都需要这种分离,且应该理解,所述程序组件和系统一般能被一起集成在单个软件产品中或封装到多个软件产品中。另外,其他实施方式处于以下权利要求的范围内。在一些情况下,权利要求中列举的动作能以不同的顺序执行,且仍实现期望的结果。
Claims (20)
1.一种用于眼睛图像分割和图像质量估计的系统,所述系统包括:
眼睛成像相机,其被配置为获得眼睛图像;
非暂时性存储器,其被配置为存储所述眼睛图像;
硬件处理器,其与所述非暂时性存储器通信,所述硬件处理器被编程为:
接收所述眼睛图像;
使用卷积神经网络处理所述眼睛图像以生成所述眼睛图像的分割;以及
使用所述卷积神经网络处理所述眼睛图像以生成所述眼睛图像的质量估计,
其中所述卷积神经网络包括分割塔和质量估计塔,
其中所述分割塔包括分割层和共享层,
其中所述质量估计塔包括质量估计层和所述共享层,
其中所述共享层的第一输出层连接到所述分割塔的第一输入层和所述分割塔的第二输入层,所述第一输入层或所述第二输入层中的至少一个包括链接层,
其中所述共享层的所述第一输出层连接到所述质量估计层的输入层,以及
其中所述眼睛图像由所述共享层的输入层接收。
2.根据权利要求1所述的系统,其中所述共享层的第二输出层连接到所述分割塔的第三输入层,所述第三输入层包括链接层。
3.根据权利要求1所述的系统,其中为了使用所述卷积神经网络处理所述眼睛图像以生成所述眼睛图像的所述分割,所述硬件处理器被编程为使用所述分割塔生成所述眼睛图像的所述分割,
其中所述分割塔的输出层的输出包括所述眼睛图像的所述分割。
4.根据权利要求3所述的系统,其中所述眼睛图像的所述分割包括所述眼睛图像的背景、巩膜、虹膜或瞳孔。
5.根据权利要求4所述的系统,其中所述硬件处理器还被编程为:
使用所述眼睛图像的所述分割来确定所述眼睛图像中眼睛的瞳孔外形;
使用所述眼睛图像的所述分割确定所述眼睛图像中所述眼睛的虹膜外形;以及
确定所述眼睛图像中用于不相关的区域的掩码。
6.根据权利要求1所述的系统,其中所述共享层被配置为通过减小特征映射的空间尺寸并增加由所述共享层计算的特征映射的数量来对所述眼睛图像进行编码。
7.根据权利要求6所述的系统,其中所述分割层被配置为通过增加所述特征映射的所述空间尺寸并减少所述特征映射的数量来对由所述共享层编码的所述眼睛图像进行解码。
8.根据权利要求1所述的系统,其中为了使用所述卷积神经网络处理所述眼睛图像以生成所述眼睛图像的所述质量估计,所述硬件处理器被编程为:
使用所述质量估计塔生成所述眼睛图像的所述质量估计,
其中所述质量估计塔的输出层的输出包括所述眼睛图像的所述质量估计。
9.根据权利要求1所述的系统,其中所述质量估计塔被配置为输出至少两个通道的输出,其中所述至少两个通道中的第一通道包括良好的质量估计,所述至少两个通道中的第二通道包括差的质量估计。
10.根据权利要求1所述的系统,其中所述共享层、所述分割层或所述质量估计层包括卷积层、亮度标准化层、批量标准化层、整流线性层、上采样层、链接层、池化层、完全连接层、线性完全连接层、软标记层或其任何组合。
11.一种用于眼睛图像分割和图像质量估计的系统,所述系统包括:
眼睛成像相机,其被配置为获得眼睛图像;
非暂时性存储器,其被配置为存储所述眼睛图像;
硬件处理器,其与所述非暂时性存储器通信,所述硬件处理器被编程为:
接收所述眼睛图像;
使用卷积神经网络处理所述眼睛图像以生成所述眼睛图像的分割;以及
使用所述卷积神经网络处理所述眼睛图像以生成所述眼睛图像的质量估计,
其中所述卷积神经网络包括分割塔和质量估计塔,
其中所述分割塔包括分割层和共享层,
其中所述质量估计塔包括质量估计层和所述共享层,
其中所述分割层不与所述质量估计塔共享,
其中所述质量估计层不与所述分割塔共享,以及
其中所述眼睛图像由所述共享层的输入层接收。
12.根据权利要求11所述的系统,其中所述共享层的第一输出层连接到所述分割塔的第一输入层。
13.根据权利要求12所述的系统,其中所述共享层的所述第一输出层连接到所述分割塔的第二输入层,
其中所述第一输入层或所述第二输入层包括链接层。
14.根据权利要求12所述的系统,其中所述共享层的所述第一输出层还连接到所述质量估计塔的输入层。
15.根据权利要求11所述的系统,
其中为了使用所述卷积神经网络处理所述眼睛图像以生成所述眼睛图像的所述分割,所述硬件处理器被编程为:
使用所述分割塔生成所述眼睛图像的所述分割,
其中所述分割塔的输出层的输出包括所述眼睛图像的所述分割。
16.根据权利要求11所述的系统,其中所述眼睛图像的所述分割包括所述眼睛图像的背景、巩膜、虹膜或瞳孔。
17.根据权利要求11所述的系统,其中为了使用所述卷积神经网络处理所述眼睛图像以生成所述眼睛图像的所述质量估计,所述硬件处理器被编程为:
使用所述质量估算塔生成所述眼睛图像的所述质量估计,
其中所述质量估计塔的输出层的输出包括所述眼睛图像的所述质量估计。
18.根据权利要求11所述的系统,其中所述共享层、所述分割层或所述质量估计层包括卷积层、批量标准化层、整流线性层、上采样层、链接层、池化层、完全连接层、线性完全连接层或其任何组合。
19.根据权利要求18所述的系统,其中所述批量标准化层是批量局部对比度标准化层或批量局部响应标准化层。
20.根据权利要求11所述的系统,其中所述共享层、所述分割层或所述质量估计层包括亮度标准化层、软标记层或其任何组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210134787.5A CN114495250A (zh) | 2016-09-29 | 2017-05-25 | 用于眼睛图像分割和图像质量估计的神经网络 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016138608A RU2016138608A (ru) | 2016-09-29 | 2016-09-29 | Нейронная сеть для сегментации изображения глаза и оценки качества изображения |
RU2016138608 | 2016-09-29 | ||
PCT/US2017/034482 WO2018063451A1 (en) | 2016-09-29 | 2017-05-25 | Neural network for eye image segmentation and image quality estimation |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210134787.5A Division CN114495250A (zh) | 2016-09-29 | 2017-05-25 | 用于眼睛图像分割和图像质量估计的神经网络 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110022753A true CN110022753A (zh) | 2019-07-16 |
CN110022753B CN110022753B (zh) | 2022-02-25 |
Family
ID=61686461
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210134787.5A Pending CN114495250A (zh) | 2016-09-29 | 2017-05-25 | 用于眼睛图像分割和图像质量估计的神经网络 |
CN201780073170.4A Active CN110022753B (zh) | 2016-09-29 | 2017-05-25 | 用于眼睛图像分割和图像质量估计的神经网络 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210134787.5A Pending CN114495250A (zh) | 2016-09-29 | 2017-05-25 | 用于眼睛图像分割和图像质量估计的神经网络 |
Country Status (10)
Country | Link |
---|---|
US (4) | US10445881B2 (zh) |
EP (1) | EP3518731A4 (zh) |
JP (3) | JP6785952B2 (zh) |
KR (4) | KR102456024B1 (zh) |
CN (2) | CN114495250A (zh) |
AU (1) | AU2017337317B2 (zh) |
CA (1) | CA3038031A1 (zh) |
IL (2) | IL308022A (zh) |
RU (1) | RU2016138608A (zh) |
WO (1) | WO2018063451A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490083A (zh) * | 2019-07-23 | 2019-11-22 | 苏州国科视清医疗科技有限公司 | 一种基于快速人眼语义分割网络的瞳孔精确检测方法 |
CN111353060A (zh) * | 2020-03-16 | 2020-06-30 | 杨仙莲 | 基于区块链的云计算大数据图片存储方法及系统 |
WO2022156640A1 (zh) * | 2021-01-22 | 2022-07-28 | 腾讯科技(深圳)有限公司 | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
CN114945943A (zh) * | 2020-01-13 | 2022-08-26 | 谷歌有限责任公司 | 基于虹膜大小估计深度 |
CN116110574A (zh) * | 2023-04-14 | 2023-05-12 | 武汉大学人民医院(湖北省人民医院) | 一种基于神经网络实现的眼科智能问诊方法和装置 |
Families Citing this family (87)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11493998B2 (en) | 2012-01-17 | 2022-11-08 | Ultrahaptics IP Two Limited | Systems and methods for machine control |
US8693731B2 (en) | 2012-01-17 | 2014-04-08 | Leap Motion, Inc. | Enhanced contrast for object detection and characterization by optical imaging |
US9495590B1 (en) * | 2015-04-23 | 2016-11-15 | Global Bionic Optics, Ltd. | Extended depth-of-field biometric system |
KR102648770B1 (ko) | 2016-07-14 | 2024-03-15 | 매직 립, 인코포레이티드 | 홍채 식별을 위한 딥 뉴럴 네트워크 |
US10802992B2 (en) | 2016-08-12 | 2020-10-13 | Xilinx Technology Beijing Limited | Combining CPU and special accelerator for implementing an artificial neural network |
US10643124B2 (en) * | 2016-08-12 | 2020-05-05 | Beijing Deephi Intelligent Technology Co., Ltd. | Method and device for quantizing complex artificial neural network |
RU2016138608A (ru) | 2016-09-29 | 2018-03-30 | Мэджик Лип, Инк. | Нейронная сеть для сегментации изображения глаза и оценки качества изображения |
AU2017361061B2 (en) | 2016-11-15 | 2022-02-03 | Magic Leap, Inc. | Deep learning system for cuboid detection |
WO2018102918A1 (en) * | 2016-12-05 | 2018-06-14 | Avigilon Corporation | System and method for cnn layer sharing |
EP3549109B1 (en) | 2016-12-05 | 2023-04-19 | Magic Leap, Inc. | Virtual user input controls in a mixed reality environment |
US10963676B2 (en) * | 2016-12-23 | 2021-03-30 | Samsung Electronics Co., Ltd. | Image processing method and apparatus |
US10657376B2 (en) | 2017-03-17 | 2020-05-19 | Magic Leap, Inc. | Room layout estimation methods and techniques |
JP6930223B2 (ja) * | 2017-05-31 | 2021-09-01 | 富士通株式会社 | 瞳孔検出用コンピュータプログラム、瞳孔検出装置及び瞳孔検出方法 |
WO2018222897A1 (en) * | 2017-06-01 | 2018-12-06 | University Of Washington | Smartphone-based digital pupillometer |
AU2018308418A1 (en) | 2017-07-26 | 2020-01-16 | Magic Leap, Inc. | Training a neural network with representations of user interface devices |
US10719951B2 (en) | 2017-09-20 | 2020-07-21 | Magic Leap, Inc. | Personalized neural network for eye tracking |
CN107633295B (zh) * | 2017-09-25 | 2020-04-28 | 南京地平线机器人技术有限公司 | 用于适配神经网络的参数的方法和装置 |
CA3078530A1 (en) | 2017-10-26 | 2019-05-02 | Magic Leap, Inc. | Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks |
US10853691B1 (en) * | 2018-01-25 | 2020-12-01 | Apple Inc. | Neural network architecture |
US11556741B2 (en) | 2018-02-09 | 2023-01-17 | Pupil Labs Gmbh | Devices, systems and methods for predicting gaze-related parameters using a neural network |
WO2019154510A1 (en) | 2018-02-09 | 2019-08-15 | Pupil Labs Gmbh | Devices, systems and methods for predicting gaze-related parameters |
WO2019154509A1 (en) | 2018-02-09 | 2019-08-15 | Pupil Labs Gmbh | Devices, systems and methods for predicting gaze-related parameters |
US10949969B1 (en) * | 2018-03-20 | 2021-03-16 | Welch Allyn, Inc. | Pupil edge region removal in digital imaging |
JP7013017B2 (ja) * | 2018-03-20 | 2022-01-31 | 国立研究開発法人産業技術総合研究所 | 演算システム |
JP2019177032A (ja) * | 2018-03-30 | 2019-10-17 | 株式会社ニデック | 眼科画像処理装置、および眼科画像処理プログラム |
CN108629744B (zh) * | 2018-04-09 | 2021-07-30 | 北京无线电计量测试研究所 | 一种图像增强方法 |
US10671855B2 (en) * | 2018-04-10 | 2020-06-02 | Adobe Inc. | Video object segmentation by reference-guided mask propagation |
CN108875787B (zh) * | 2018-05-23 | 2020-07-14 | 北京市商汤科技开发有限公司 | 一种图像识别方法及装置、计算机设备和存储介质 |
JP2019208851A (ja) * | 2018-06-04 | 2019-12-12 | 株式会社ニデック | 眼底画像処理装置および眼底画像処理プログラム |
JP7079483B2 (ja) * | 2018-06-18 | 2022-06-02 | 国立研究開発法人産業技術総合研究所 | 情報処理方法、システム及びプログラム |
CN112400148A (zh) | 2018-06-22 | 2021-02-23 | 奇跃公司 | 使用离轴相机执行眼睛跟踪的方法和系统 |
WO2020023399A1 (en) | 2018-07-23 | 2020-01-30 | Magic Leap, Inc. | Deep predictor recurrent neural network for head pose prediction |
CN109087310B (zh) * | 2018-07-24 | 2022-07-12 | 深圳大学 | 睑板腺纹理区域的分割方法、系统、存储介质及智能终端 |
US10713491B2 (en) * | 2018-07-27 | 2020-07-14 | Google Llc | Object detection using spatio-temporal feature maps |
US11227435B2 (en) | 2018-08-13 | 2022-01-18 | Magic Leap, Inc. | Cross reality system |
CN109360183B (zh) * | 2018-08-20 | 2021-05-11 | 中国电子进出口有限公司 | 一种基于卷积神经网络的人脸图像质量评估方法和系统 |
CN109377498B (zh) * | 2018-08-31 | 2021-08-20 | 大连理工大学 | 基于循环神经网络的交互式抠图方法 |
US10229346B1 (en) * | 2018-09-04 | 2019-03-12 | StradVision, Inc. | Learning method, learning device for detecting object using edge image and testing method, testing device using the same |
CN109325954B (zh) * | 2018-09-18 | 2021-08-10 | 北京旷视科技有限公司 | 图像分割方法、装置及电子设备 |
US11048977B1 (en) * | 2018-09-27 | 2021-06-29 | Apple Inc. | Method and device for pixel-level object segmentation |
JP7503542B2 (ja) | 2018-10-05 | 2024-06-20 | マジック リープ, インコーポレイテッド | 任意の場所における場所特有の仮想コンテンツのレンダリング |
EP3644275A1 (en) * | 2018-10-22 | 2020-04-29 | Koninklijke Philips N.V. | Predicting correctness of algorithmic segmentation |
WO2020093042A1 (en) * | 2018-11-02 | 2020-05-07 | Deep Lens, Inc. | Neural networks for biomedical image analysis |
US10977548B2 (en) | 2018-12-05 | 2021-04-13 | Bank Of America Corporation | Generation of capsule neural networks for enhancing image processing platforms |
US11263419B2 (en) * | 2018-12-11 | 2022-03-01 | Shanghai Harvest Intelligence Technology Co., Ltd | Biometric analysis structure, method and neural network with coded mask |
WO2020147948A1 (en) | 2019-01-16 | 2020-07-23 | Pupil Labs Gmbh | Methods for generating calibration data for head-wearable devices and eye tracking system |
US10325179B1 (en) * | 2019-01-23 | 2019-06-18 | StradVision, Inc. | Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same |
JP7260884B2 (ja) | 2019-02-21 | 2023-04-19 | ケース ウエスタン リザーブ ユニバーシティ | 三次元(3d)超音波画像の処理 |
CN110059586B (zh) * | 2019-03-29 | 2022-03-15 | 电子科技大学 | 一种基于空洞残差注意力结构的虹膜定位分割系统 |
EP3953859B1 (en) * | 2019-04-10 | 2024-10-02 | Eyeware Tech SA | Method and system for estimating eye-related geometric parameters of a user |
CN110046588B (zh) * | 2019-04-22 | 2019-11-01 | 吉林大学 | 一种具有盗取攻击应对机制的异质虹膜认证方法 |
US11435820B1 (en) * | 2019-05-16 | 2022-09-06 | Facebook Technologies, Llc | Gaze detection pipeline in an artificial reality system |
US11676422B2 (en) | 2019-06-05 | 2023-06-13 | Pupil Labs Gmbh | Devices, systems and methods for predicting gaze-related parameters |
US11176368B2 (en) | 2019-06-13 | 2021-11-16 | International Business Machines Corporation | Visually focused first-person neural network interpretation |
US11301677B2 (en) * | 2019-06-14 | 2022-04-12 | Tobil AB | Deep learning for three dimensional (3D) gaze prediction |
CN110309914A (zh) * | 2019-07-03 | 2019-10-08 | 中山大学 | 基于边缘服务器与移动端设备协同的深度学习模型推理加速方法 |
FR3098960B1 (fr) * | 2019-07-16 | 2021-07-16 | Idemia Identity & Security France | Procédé d’extraction d’un vecteur caractéristique à partir d’une image d’entrée représentative d’un iris au moyen d’un réseau de neurones entrainable de bout-en-bout |
WO2021034961A1 (en) * | 2019-08-19 | 2021-02-25 | Magic Leap, Inc. | Eye tracking and gaze estimation using off-axis camera |
WO2021048682A1 (ja) * | 2019-09-12 | 2021-03-18 | 株式会社半導体エネルギー研究所 | 分類方法 |
WO2021076754A1 (en) | 2019-10-15 | 2021-04-22 | Magic Leap, Inc. | Cross reality system with localization service |
JP2022551734A (ja) * | 2019-10-15 | 2022-12-13 | マジック リープ, インコーポレイテッド | 複数のデバイスタイプをサポートするクロスリアリティシステム |
RU2716914C1 (ru) * | 2019-10-22 | 2020-03-17 | Федеральное государственное бюджетное образовательное учреждение высшего образования "Юго-Западный государственный университет" (ЮЗГУ) | Способ автоматической классификации рентгеновских изображений с использованием масок прозрачности |
EP4052086A4 (en) | 2019-10-31 | 2023-11-15 | Magic Leap, Inc. | EXTENDED REALITY SYSTEM PROVIDING QUALITY INFORMATION ABOUT PERSISTENT COORDINATE FRAMES |
CN110929672B (zh) * | 2019-11-28 | 2024-03-01 | 联想(北京)有限公司 | 瞳孔定位方法和电子设备 |
JP2023504570A (ja) | 2019-12-09 | 2023-02-03 | マジック リープ, インコーポレイテッド | 仮想コンテンツの簡略化されたプログラミングを伴うクロスリアリティシステム |
US11869535B1 (en) * | 2019-12-12 | 2024-01-09 | Amazon Technologies, Inc. | Character-level emotion detection |
CN111191605A (zh) * | 2019-12-31 | 2020-05-22 | 上海电力大学 | 一种基于级联神经网络的多任务虹膜快速定位方法 |
WO2021163300A1 (en) | 2020-02-13 | 2021-08-19 | Magic Leap, Inc. | Cross reality system with map processing using multi-resolution frame descriptors |
CN111553880A (zh) * | 2020-03-26 | 2020-08-18 | 北京中科虹霸科技有限公司 | 模型生成方法、标签标注方法、虹膜图像质量评价方法及装置 |
WO2021192311A1 (ja) * | 2020-03-27 | 2021-09-30 | 日本電気株式会社 | 判定装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
US10996753B1 (en) | 2020-04-07 | 2021-05-04 | Eyetech Digital Systems, Inc. | Multi-mode eye-tracking with independently operable illuminators |
US11921917B2 (en) | 2020-04-07 | 2024-03-05 | Eyetech Digital Systems, Inc. | Compact eye-tracking camera systems and methods |
KR102497990B1 (ko) * | 2020-08-13 | 2023-02-09 | 순천향대학교 산학협력단 | 전이학습을 이용한 안저 이미지 품질 평가 장치 및 방법 |
WO2022050902A1 (en) * | 2020-09-02 | 2022-03-10 | Singapore Health Services Pte Ltd | Image segmentation system and method |
EP4211899A4 (en) * | 2020-12-24 | 2023-11-22 | Huawei Technologies Co., Ltd. | DECODING WITH FEATURE MAP DATA SIGNALING |
US11688200B2 (en) * | 2020-12-28 | 2023-06-27 | Fortinet, Inc. | Joint facial feature extraction and facial image quality estimation using a deep neural network (DNN) trained with a custom-labeled training dataset and having a common DNN backbone |
CN112669289A (zh) * | 2020-12-30 | 2021-04-16 | 科大讯飞股份有限公司 | 影像质量评估方法、装置、电子设备及存储介质 |
WO2022204666A1 (en) * | 2021-03-25 | 2022-09-29 | Sri International | Polarized image enhancement using deep neural networks |
JP2022172755A (ja) * | 2021-05-07 | 2022-11-17 | 富士通株式会社 | 生成プログラム、生成方法、および情報処理装置 |
US20230081128A1 (en) * | 2021-09-16 | 2023-03-16 | Samsung Electronics Co., Ltd. | Picture quality-sensitive semantic segmentation for use in training image generation adversarial networks |
CN113780234B (zh) * | 2021-09-24 | 2024-03-12 | 北京航空航天大学 | 一种边缘指导的人眼图像解析方法 |
JPWO2023157070A1 (zh) | 2022-02-15 | 2023-08-24 | ||
US12002290B2 (en) | 2022-02-25 | 2024-06-04 | Eyetech Digital Systems, Inc. | Systems and methods for hybrid edge/cloud processing of eye-tracking image data |
SE2251254A1 (en) * | 2022-10-28 | 2024-04-29 | Kontigo Care Ab | Method for estimating pupil size |
CN115807685B (zh) * | 2023-01-20 | 2023-04-28 | 太原理工大学 | 矿用锚护装备钻锚作业的自动控制系统 |
CN117523208B (zh) * | 2024-01-08 | 2024-04-16 | 暨南大学 | 基于图像语义分割与分类的身份识别方法与系统 |
CN118351589B (zh) * | 2024-06-12 | 2024-08-27 | 湖南火眼医疗科技有限公司 | 图像处理方法、装置、设备、存储介质及程序产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010011785A1 (en) * | 2008-07-23 | 2010-01-28 | Indiana University Research & Technology Corporation | System and method for a non-cooperative iris image acquisition system |
EP2416279A2 (en) * | 2010-08-06 | 2012-02-08 | Honeywell International Inc. | Ocular and iris processing system and method |
US20120163678A1 (en) * | 2009-01-14 | 2012-06-28 | Indiana University Research & Technology Corporation | System and method for identifying a person with reference to a sclera image |
CN103390153A (zh) * | 2012-08-10 | 2013-11-13 | 眼验有限责任公司 | 用于生物特征验证的纹理特征的方法和系统 |
CN103632137A (zh) * | 2013-11-15 | 2014-03-12 | 长沙理工大学 | 一种人眼虹膜图像分割方法 |
CN105303185A (zh) * | 2015-11-27 | 2016-02-03 | 中国科学院深圳先进技术研究院 | 虹膜定位方法及装置 |
US20160098844A1 (en) * | 2014-10-03 | 2016-04-07 | EyeEm Mobile GmbH | Systems, methods, and computer program products for searching and sorting images by aesthetic quality |
CN105981051A (zh) * | 2014-10-10 | 2016-09-28 | 北京旷视科技有限公司 | 用于图像解析的分层互连多尺度卷积网络 |
Family Cites Families (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5291560A (en) | 1991-07-15 | 1994-03-01 | Iri Scan Incorporated | Biometric personal identification system based on iris analysis |
US6222525B1 (en) | 1992-03-05 | 2001-04-24 | Brad A. Armstrong | Image controllers with sheet connected sensors |
US5583795A (en) | 1995-03-17 | 1996-12-10 | The United States Of America As Represented By The Secretary Of The Army | Apparatus for measuring eye gaze and fixation duration, and method therefor |
US5670988A (en) | 1995-09-05 | 1997-09-23 | Interlink Electronics, Inc. | Trigger operated electronic device |
US7856055B2 (en) | 2002-03-13 | 2010-12-21 | Imax Corporation | Systems and methods for digitally re-mastering or otherwise modifying motion pictures or other image sequences data |
JP2004206444A (ja) | 2002-12-25 | 2004-07-22 | Matsushita Electric Ind Co Ltd | 個人認証方法および虹彩認証装置 |
US8098901B2 (en) | 2005-01-26 | 2012-01-17 | Honeywell International Inc. | Standoff iris recognition system |
KR20050025927A (ko) | 2003-09-08 | 2005-03-14 | 유웅덕 | 홍채인식을 위한 동공 검출 방법 및 형상기술자 추출방법과 그를 이용한 홍채 특징 추출 장치 및 그 방법과홍채인식 시스템 및 그 방법 |
US7248720B2 (en) | 2004-10-21 | 2007-07-24 | Retica Systems, Inc. | Method and system for generating a combined retina/iris pattern biometric |
US8696113B2 (en) | 2005-10-07 | 2014-04-15 | Percept Technologies Inc. | Enhanced optical and perceptual digital eyewear |
US11428937B2 (en) | 2005-10-07 | 2022-08-30 | Percept Technologies | Enhanced optical and perceptual digital eyewear |
US20070081123A1 (en) | 2005-10-07 | 2007-04-12 | Lewis Scott W | Digital eyewear |
JP4824420B2 (ja) | 2006-02-07 | 2011-11-30 | アイテック株式会社 | 視線ベクトル検出方法及び同装置 |
DE602007007062D1 (de) | 2006-03-03 | 2010-07-22 | Honeywell Int Inc | Iriserkennungssystem mit bildqualitätsmetrik |
US7970179B2 (en) | 2006-09-25 | 2011-06-28 | Identix Incorporated | Iris data extraction |
US8363783B2 (en) | 2007-06-04 | 2013-01-29 | Oraya Therapeutics, Inc. | Method and device for ocular alignment and coupling of ocular structures |
US8098891B2 (en) | 2007-11-29 | 2012-01-17 | Nec Laboratories America, Inc. | Efficient multi-hypothesis multi-human 3D tracking in crowded scenes |
WO2010003044A2 (en) | 2008-07-03 | 2010-01-07 | Nec Laboratories America, Inc. | Epithelial layer detector and related methods |
WO2011091326A1 (en) | 2010-01-22 | 2011-07-28 | Optimedica Corporation | Apparatus for automated placement of scanned laser capsulorhexis incisions |
US8345984B2 (en) | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
US9304319B2 (en) | 2010-11-18 | 2016-04-05 | Microsoft Technology Licensing, Llc | Automatic focus improvement for augmented reality displays |
US10156722B2 (en) | 2010-12-24 | 2018-12-18 | Magic Leap, Inc. | Methods and systems for displaying stereoscopy with a freeform optical system with addressable focus for virtual and augmented reality |
CA2822978C (en) | 2010-12-24 | 2019-02-19 | Hong Hua | An ergonomic head mounted display device and optical system |
JP6316186B2 (ja) | 2011-05-06 | 2018-04-25 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 広範囲同時遠隔ディジタル提示世界 |
JP2013038602A (ja) | 2011-08-08 | 2013-02-21 | Sony Corp | 画像処理装置、および画像処理方法、並びにプログラム |
US10795448B2 (en) | 2011-09-29 | 2020-10-06 | Magic Leap, Inc. | Tactile glove for human-computer interaction |
RU2017115669A (ru) | 2011-10-28 | 2019-01-28 | Мэджик Лип, Инк. | Система и способ для дополненной и виртуальной реальности |
KR102116697B1 (ko) | 2011-11-23 | 2020-05-29 | 매직 립, 인코포레이티드 | 3차원 가상 및 증강 현실 디스플레이 시스템 |
KR102028732B1 (ko) | 2012-04-05 | 2019-10-04 | 매직 립, 인코포레이티드 | 능동 포비에이션 능력을 갖는 와이드-fov(field of view) 이미지 디바이스들 |
US9310559B2 (en) | 2012-06-11 | 2016-04-12 | Magic Leap, Inc. | Multiple depth plane three-dimensional display using a wave guide reflector array projector |
US9671566B2 (en) | 2012-06-11 | 2017-06-06 | Magic Leap, Inc. | Planar waveguide apparatus with diffraction element(s) and system employing same |
US9141916B1 (en) | 2012-06-29 | 2015-09-22 | Google Inc. | Using embedding functions with a deep network |
EP2826414B1 (en) | 2012-07-31 | 2016-11-30 | Japan Science and Technology Agency | Point-of-gaze detection device, point-of-gaze detection method, personal parameter calculating device, personal parameter calculating method, program, and computer-readable storage medium |
AU2013315607A1 (en) | 2012-09-11 | 2015-04-02 | Magic Leap, Inc | Ergonomic head mounted display device and optical system |
US20150324974A1 (en) * | 2012-12-05 | 2015-11-12 | Eye-Cu Life Systems Ltd. | Computerized iridodiagnosis |
US9195890B2 (en) * | 2012-12-10 | 2015-11-24 | Sri International | Iris biometric matching system |
IL293789B2 (en) | 2013-01-15 | 2023-08-01 | Magic Leap Inc | A system for scanning electromagnetic imaging radiation |
CN105188516B (zh) | 2013-03-11 | 2017-12-22 | 奇跃公司 | 用于增强和虚拟现实的系统与方法 |
US9147154B2 (en) | 2013-03-13 | 2015-09-29 | Google Inc. | Classifying resources using a deep network |
KR102458124B1 (ko) | 2013-03-15 | 2022-10-21 | 매직 립, 인코포레이티드 | 디스플레이 시스템 및 방법 |
WO2014182769A1 (en) * | 2013-05-07 | 2014-11-13 | The Johns Hopkins University | Automated and non-mydriatic fundus-perimetry camera for irreversible eye diseases |
US9275308B2 (en) | 2013-05-31 | 2016-03-01 | Google Inc. | Object detection using deep neural networks |
US10262462B2 (en) | 2014-04-18 | 2019-04-16 | Magic Leap, Inc. | Systems and methods for augmented and virtual reality |
US9874749B2 (en) | 2013-11-27 | 2018-01-23 | Magic Leap, Inc. | Virtual and augmented reality systems and methods |
US20140380249A1 (en) | 2013-06-25 | 2014-12-25 | Apple Inc. | Visual recognition of gestures |
CN103431840B (zh) * | 2013-07-31 | 2016-01-20 | 北京智谷睿拓技术服务有限公司 | 眼睛光学参数检测系统及方法 |
IL302408B2 (en) | 2013-10-16 | 2024-09-01 | Magic Leap Inc | An augmented or virtual reality head device with intrapupillary distance adjustment |
US9202144B2 (en) | 2013-10-30 | 2015-12-01 | Nec Laboratories America, Inc. | Regionlets with shift invariant neural patterns for object detection |
US10095917B2 (en) | 2013-11-04 | 2018-10-09 | Facebook, Inc. | Systems and methods for facial representation |
JP6236296B2 (ja) | 2013-11-14 | 2017-11-22 | 株式会社デンソーアイティーラボラトリ | 学習装置、学習プログラム、及び学習方法 |
US9857591B2 (en) | 2014-05-30 | 2018-01-02 | Magic Leap, Inc. | Methods and system for creating focal planes in virtual and augmented reality |
CN110542938B (zh) | 2013-11-27 | 2023-04-18 | 奇跃公司 | 虚拟和增强现实系统与方法 |
US9430829B2 (en) | 2014-01-30 | 2016-08-30 | Case Western Reserve University | Automatic detection of mitosis using handcrafted and convolutional neural network features |
NZ722903A (en) | 2014-01-31 | 2020-05-29 | Magic Leap Inc | Multi-focal display system and method |
CN106461955B (zh) | 2014-01-31 | 2019-08-13 | 奇跃公司 | 显示增强现实的方法 |
US10203762B2 (en) | 2014-03-11 | 2019-02-12 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
IL231862A (en) | 2014-04-01 | 2015-04-30 | Superfish Ltd | Image representation using a neural network |
WO2015164807A1 (en) | 2014-04-25 | 2015-10-29 | Texas State University | Detection of brain injury and subject state with eye movement biometrics |
WO2016018488A2 (en) | 2014-05-09 | 2016-02-04 | Eyefluence, Inc. | Systems and methods for discerning eye signals and continuous biometric identification |
CN113253476B (zh) | 2014-05-30 | 2022-12-27 | 奇跃公司 | 采用虚拟或增强现实装置生成虚拟内容显示的方法和系统 |
US9536293B2 (en) | 2014-07-30 | 2017-01-03 | Adobe Systems Incorporated | Image assessment using deep convolutional neural networks |
US20160034811A1 (en) | 2014-07-31 | 2016-02-04 | Apple Inc. | Efficient generation of complementary acoustic models for performing automatic speech recognition system combination |
EP3204888A4 (en) | 2014-10-09 | 2017-10-04 | Microsoft Technology Licensing, LLC | Spatial pyramid pooling networks for image processing |
CN104408717A (zh) | 2014-11-24 | 2015-03-11 | 北京航空航天大学 | 一种基于着色分离的病理图像颜色质量综合评价方法 |
KR102276339B1 (ko) | 2014-12-09 | 2021-07-12 | 삼성전자주식회사 | Cnn의 근사화를 위한 학습 장치 및 방법 |
USD758367S1 (en) | 2015-05-14 | 2016-06-07 | Magic Leap, Inc. | Virtual reality headset |
CN112836664A (zh) | 2015-08-21 | 2021-05-25 | 奇跃公司 | 使用眼睛姿态测量的眼睑形状估计 |
KR102442569B1 (ko) | 2016-07-14 | 2022-09-08 | 매직 립, 인코포레이티드 | 각막 곡률을 이용한 홍채 경계 추정 |
KR102648770B1 (ko) | 2016-07-14 | 2024-03-15 | 매직 립, 인코포레이티드 | 홍채 식별을 위한 딥 뉴럴 네트워크 |
RU2016138608A (ru) | 2016-09-29 | 2018-03-30 | Мэджик Лип, Инк. | Нейронная сеть для сегментации изображения глаза и оценки качества изображения |
-
2016
- 2016-09-29 RU RU2016138608A patent/RU2016138608A/ru not_active Application Discontinuation
-
2017
- 2017-05-25 KR KR1020217006298A patent/KR102456024B1/ko active IP Right Grant
- 2017-05-25 IL IL308022A patent/IL308022A/en unknown
- 2017-05-25 WO PCT/US2017/034482 patent/WO2018063451A1/en unknown
- 2017-05-25 IL IL265534A patent/IL265534B2/en unknown
- 2017-05-25 KR KR1020227035459A patent/KR102583040B1/ko active IP Right Grant
- 2017-05-25 CN CN202210134787.5A patent/CN114495250A/zh active Pending
- 2017-05-25 US US15/605,567 patent/US10445881B2/en active Active
- 2017-05-25 JP JP2019516390A patent/JP6785952B2/ja active Active
- 2017-05-25 CA CA3038031A patent/CA3038031A1/en active Pending
- 2017-05-25 AU AU2017337317A patent/AU2017337317B2/en not_active Expired - Fee Related
- 2017-05-25 KR KR1020237032251A patent/KR20230137500A/ko not_active Application Discontinuation
- 2017-05-25 EP EP17856946.3A patent/EP3518731A4/en active Pending
- 2017-05-25 KR KR1020197011904A patent/KR102225527B1/ko active IP Right Grant
- 2017-05-25 CN CN201780073170.4A patent/CN110022753B/zh active Active
-
2019
- 2019-09-13 US US16/570,418 patent/US11100644B2/en active Active
-
2020
- 2020-05-22 JP JP2020089392A patent/JP7035110B2/ja active Active
-
2021
- 2021-08-20 US US17/407,763 patent/US11776131B2/en active Active
-
2022
- 2022-03-02 JP JP2022031663A patent/JP7253087B2/ja active Active
-
2023
- 2023-08-24 US US18/455,093 patent/US20240029269A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010011785A1 (en) * | 2008-07-23 | 2010-01-28 | Indiana University Research & Technology Corporation | System and method for a non-cooperative iris image acquisition system |
US20120163678A1 (en) * | 2009-01-14 | 2012-06-28 | Indiana University Research & Technology Corporation | System and method for identifying a person with reference to a sclera image |
EP2416279A2 (en) * | 2010-08-06 | 2012-02-08 | Honeywell International Inc. | Ocular and iris processing system and method |
CN103390153A (zh) * | 2012-08-10 | 2013-11-13 | 眼验有限责任公司 | 用于生物特征验证的纹理特征的方法和系统 |
CN103632137A (zh) * | 2013-11-15 | 2014-03-12 | 长沙理工大学 | 一种人眼虹膜图像分割方法 |
US20160098844A1 (en) * | 2014-10-03 | 2016-04-07 | EyeEm Mobile GmbH | Systems, methods, and computer program products for searching and sorting images by aesthetic quality |
CN105981051A (zh) * | 2014-10-10 | 2016-09-28 | 北京旷视科技有限公司 | 用于图像解析的分层互连多尺度卷积网络 |
CN105303185A (zh) * | 2015-11-27 | 2016-02-03 | 中国科学院深圳先进技术研究院 | 虹膜定位方法及装置 |
Non-Patent Citations (2)
Title |
---|
BRENDAN JOU ET AL: "Deep Cross Residual Learning for Multitask Visual Recognition", 《CORNELL UNIVERSITY LIBRARY》 * |
MARCELO MOTTALLI ET AL: "Flexible image segmentation and quality assessment for real-time iris recogniton", 《2009 16TH IEEE INTERNATIONAL CONFERENCE ON IEEE 》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490083A (zh) * | 2019-07-23 | 2019-11-22 | 苏州国科视清医疗科技有限公司 | 一种基于快速人眼语义分割网络的瞳孔精确检测方法 |
CN114945943A (zh) * | 2020-01-13 | 2022-08-26 | 谷歌有限责任公司 | 基于虹膜大小估计深度 |
CN111353060A (zh) * | 2020-03-16 | 2020-06-30 | 杨仙莲 | 基于区块链的云计算大数据图片存储方法及系统 |
WO2022156640A1 (zh) * | 2021-01-22 | 2022-07-28 | 腾讯科技(深圳)有限公司 | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
CN116110574A (zh) * | 2023-04-14 | 2023-05-12 | 武汉大学人民医院(湖北省人民医院) | 一种基于神经网络实现的眼科智能问诊方法和装置 |
US11955240B1 (en) | 2023-04-14 | 2024-04-09 | Renmin Hospital Of Wuhan University (hubei General Hospital) | Neural-network-based-implemented ophthalmologic intelligent consultation method and apparatus |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110022753A (zh) | 用于眼睛图像分割和图像质量估计的神经网络 | |
JP7237137B2 (ja) | 虹彩識別のためのディープニューラルネットワーク | |
CN110555434A (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN113850168A (zh) | 人脸图片的融合方法、装置、设备及存储介质 | |
KR102091643B1 (ko) | 인공신경망을 이용한 안경 착용 영상을 생성하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN115210773A (zh) | 利用对象实时检测模型实时检测对象的方法及优化方法 | |
CN117635771A (zh) | 一种基于半监督对比学习的场景文本编辑方法和装置 | |
WO2024059374A1 (en) | User authentication based on three-dimensional face modeling using partial face images | |
WO2023124697A1 (zh) | 图像增强方法和装置、存储介质和电子设备 | |
KR102039166B1 (ko) | 순환 구조 인공신경망을 이용한 가상 피팅을 수행하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 | |
NZ788647A (en) | Neural network for eye image segmentation and image quality estimation | |
Manaa et al. | A systematic review for image enhancement using deep learning techniques | |
US20240029354A1 (en) | Facial texture synthesis for three-dimensional morphable models | |
CN113221799B (zh) | 一种多头部姿态人脸表情识别方法及其应用 | |
CN118486067A (zh) | 基于脉冲神经网络和多模态协同知识蒸馏的单眼情绪识别方法 | |
CN117853723A (zh) | 一种基于SBM-Net模型的视网膜血管图像分割方法 | |
WO2023056149A1 (en) | Image processing framework for performing object depth estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |