CN112368708A - 使用伪图像的面部图像识别 - Google Patents

使用伪图像的面部图像识别 Download PDF

Info

Publication number
CN112368708A
CN112368708A CN201980044730.2A CN201980044730A CN112368708A CN 112368708 A CN112368708 A CN 112368708A CN 201980044730 A CN201980044730 A CN 201980044730A CN 112368708 A CN112368708 A CN 112368708A
Authority
CN
China
Prior art keywords
image
pseudo
images
matrix
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980044730.2A
Other languages
English (en)
Other versions
CN112368708B (zh
Inventor
C·R·俞
R·拉杰
D·W·达伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stowers Institute for Medical Research
Original Assignee
Stowers Institute for Medical Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stowers Institute for Medical Research filed Critical Stowers Institute for Medical Research
Publication of CN112368708A publication Critical patent/CN112368708A/zh
Application granted granted Critical
Publication of CN112368708B publication Critical patent/CN112368708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21345Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis enforcing sparsity or involving a domain transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

本公开涉及使用“伪图像”来执行图像识别,例如,执行面部图像识别。在一个实施例中,通过如下操作来获得伪图像:以现实世界图像开始,并且在可任选的预处理之后,使图像经过非线性变换,该非线性变换将该图像转换成伪图像。虽然现实世界对象(或更一般而言,现实世界模式)可能在起始图像中是可感知的,但它们在伪图像中无法被感知。图像识别通过将伪图像与已知伪图像的库进行比较来发生,即,图像识别在伪图像空间中发生而无需返回到现实世界空间。以此方式,即使对于非理想现实世界图像(诸如,已因噪声、不良光照、不均匀照明和/或遮挡(例如,在面部图像的情形中存在眼镜、围巾等等)而降级的现实世界图像)也实现稳健的图像识别。

Description

使用伪图像的面部图像识别
相关申请的交叉引用
本申请根据35U.S.C.§119(e)要求于2018年7月2日提交的美国临时申请No.62/693,136的权益,该临时申请的内容通过援引整体纳入于此。
政府资助
本发明是在美国国立卫生研究院(National Institutes of Health)授予的资助号R01DC 014701下由政府支持完成的。政府具有本发明中的某些权利。
领域
本公开涉及用于执行图像识别的计算机系统和计算机实现的方法。在特别重要的实施例中,各系统和方法被用于通过面部识别来标识图像内的人类主体。更一般而言,本公开提供了用于处理由像素构成的图像、或者更一般而言由分量构成的图像以寻找被嵌入在图像中的对象、模式或特征的计算机实现的方法和计算机系统,其可以用于分类、标识或其他目的。
背景
由计算机设备进行的面部识别不仅历史上在重要的领域(诸如国家安全和刑事司法系统)中、而且近年来在商业环境和社交媒体交互中都具有广泛应用。因此,面部识别已经并将继续成为深入研究的主体,其中各种科学期刊致力于该问题(例如,InternationalJournal of Computer Vision(国际计算机视觉杂志)以及名为IEEE Transactions on Image Processing(IEEE 图像处理会刊)和IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE模式分析和机器智能会刊)的IEEE出版物)并定期召开国际会议以报告所取得的进展(例如,国际模式识别协会的年度会议、和计算机视觉和模式识别IEEE计算机协会会议、以及自动面部识别和手势识别IEEE国际会议)。
已在实验室环境中实现了成功的面部识别。然而,面部识别在实际应用中仍然是挑战,在实际应用中图像通常是从非理想源(诸如监控相机、因特网或移动设备)收集的。在这种现实世界条件下获得的面部图像通常因噪声、不良光照、不均匀照明和/或遮挡而降级,从而使得难以识别其面部出现在图像中的一个或多个人员。面部表情、姿势和相机角度的变化通常带来附加困难。面部识别的主要挑战由此是在变化的条件下以及降级图像的情况下实现对同一面部的稳健且不变的识别。此类图像在本文中将称为“非理想图像”。
计算机化的面部识别通常使用以某种形式表示面部、之后进行匹配过程的系统来执行。实现成功识别的一些系统涉及使用基于学习的办法或手动标记的特征从图像中提取特征。随后使图像的表示经过通常涉及统计办法的匹配以对面部进行分类和/或标识。虽然手动标记的特征可以提供稳健性,但枚举所有可能特征是禁止的。深度学习办法可以允许系统使用监督式或无监督式算法来执行特征提取。然而,它们一般需要涵盖众多可能条件的较大训练集。如果有条件未被包括在训练集中,则该系统很可能在实践中无法执行。
概述和一般描述
本公开涉及面部图像识别中的上述问题。更一般而言,本公开涉及提供用于处理由分量(例如,像素)构成的图像以找到被嵌入其中的对象、模式或特征的稳健方法。
根据第一方面,本公开提供了一种执行计算机实现的图像识别的方法,包括:
(a)提供具有M个分量的第一图像;
(b)提供预定变换矩阵,其中:
(i)该预定变换矩阵是M×K矩阵,其中K列构成K个字典元素的集合,并且
(ii)该预定变换矩阵是通过包括以下操作的方法来构造的:对M×N矩阵执行稀疏非负分解,其中N列构成N个训练图像的集合,每个训练图像具有M个分量;以及
(c)通过使用预定变换矩阵对第一图像执行稀疏非负变换来构造该第一图像的伪图像,该第一图像的所述伪图像包括K个元素权重,每个元素权重用于K个字典元素中的一者;
其中M×N矩阵具有秩R,并且K满足以下关系中的一者或两者:
(i)K大于或等于M;以及
(ii)K大于或等于R。
如已知的,矩阵的行秩是矩阵中线性独立的行数,而列秩是线性独立的列数。行秩总是等于列秩,并且由此线性独立的行数或列数构成矩阵的“秩”。如果矩阵的秩等于对于维度相同的矩阵而言最大的可能秩,即,如果矩阵的秩是行数和列数中的较小者,则该矩阵是“满秩矩阵”。
M×N矩阵经常会是满秩矩阵并且通常还具有N>M。在这些条件下,R等于M,以使得第二关系变成与第一关系相同,即,K≥M。由此,在许多情形中,上述关系等效于预定变换矩阵是方形矩阵(K=M),或者更通常而言,列多于行的矩形矩阵(K>M)。
在本公开的第一方面的某些实施例中,该方法进一步包括以下步骤(d)和(e):
(d)提供已知图像的S个伪图像的集合,所述S个伪图像中的每一者包括K个元素权重,每个元素权重用于K个字典元素中的一者;以及
(e)将步骤(c)的伪图像与步骤(d)的S个伪图像的集合进行比较,以例如确定第一图像是以下一项或多项的可能性:
(i)在已知图像的一个或多个种类或类别中,
(ii)特定的已知图像,
(iii)不在已知图像的一个或多个种类或类别中,以及
(iv)不是已知图像。
在本公开的第一方面的其他实施例中,该方法包括以下进一步步骤:报告步骤(e)的比较结果,或者以其他方式使用那些结果,例如,使用比较结果在所公开方法的机器视觉应用中控制机器人的操作。
根据第二方面,本公开提供了一种执行计算机实现的图像识别的方法,包括:
(a)提供具有M个分量的第一图像;
(b)提供预定变换矩阵,其中:
(i)该预定变换矩阵是M×K矩阵,其中K列构成K个字典元素的集合,并且
(ii)该预定变换矩阵是通过包括以下操作的方法来构造的:对M×N矩阵执行稀疏非负分解,其中N列构成N个训练图像的集合,每个训练图像具有M个分量;
(c)通过使用预定变换矩阵对第一图像执行稀疏非负变换来构造该第一图像的伪图像,该第一图像的所述伪图像包括K个元素权重,每个元素权重用于K个字典元素中的一者;
(d)提供已知图像的S个伪图像的集合,所述S个伪图像中的每一者包括K个元素权重,每个元素权重用于K个字典元素中的一者;以及
(e)将步骤(c)的伪图像与步骤(d)的S个伪图像的集合进行比较,以例如确定第一图像是以下一项或多项的可能性:
(i)在已知图像的一个或多个种类或类别中,
(ii)特定的已知图像,
(iii)不在已知图像的一个或多个种类或类别中,以及
(iv)不是已知图像。
在本公开的第二方面的某些实施例中,该方法包括以下进一步步骤:报告步骤(e)的比较结果,或者以其他方式使用那些结果,例如,使用比较结果在所公开方法的机器视觉应用中控制机器人的操作。
根据第三方面,本公开提供了一种执行计算机实现的图像识别的方法,包括:
(a)提供具有M个分量的第一图像,其中每个分量具有两个可能值中的仅一者;
(b)提供预定变换矩阵,其中:
(i)该预定变换矩阵是M×K矩阵,其中K列构成K个字典元素的集合,并且
(ii)该预定变换矩阵是通过包括以下操作的方法来构造的:对M×N矩阵执行稀疏非负分解,在该M×N矩阵中N列构成N个训练图像的集合,每个训练图像具有M个分量,每个分量具有所述两个可能值中的仅一者;以及
(c)通过使用预定变换矩阵对第一图像执行稀疏非负变换来构造该第一图像的伪图像,该第一图像的所述伪图像包括K个元素权重,每个元素权重用于K个字典元素中的一者。
在本公开的第三方面的某些实施例中,该方法进一步包括以下步骤(d)和(e):
(d)提供已知图像的S个伪图像的集合,这些已知图像的分量具有所述两个可能值中的仅一者,所述S个伪图像中的每一者包括K个元素权重,每个元素权重用于K个字典元素中的一者;以及
(e)将步骤(c)的伪图像与步骤(d)的S个伪图像的集合进行比较,以例如确定第一图像是以下一项或多项的可能性:
(i)在已知图像的一个或多个种类或类别中,
(ii)特定的已知图像,
(iii)不在已知图像的一个或多个种类或类别中,以及
(iv)不是已知图像。
在本公开的第三方面的其他实施例中,该方法包括以下进一步步骤:报告步骤(e)的比较结果,或者以其他方式使用那些结果,例如,使用比较结果在所公开方法的机器视觉应用中控制机器人的操作。
关于本公开的第一、第二和第三方面的步骤(a),第一图像可以是从例如数字成像设备(例如,独立的数字相机或实现在另一设备(例如,蜂窝电话)中的数字相机)获得的图像。此类图像是如下定义的“原始图像”的示例。在某些实施例中,第一图像可以是已经经过一级或多级预处理的原始图像。为了促进呈现,步骤(a)的第一图像在下文被称为“感兴趣第一图像”或“步骤(a)第一图像”,以将步骤(a)的第一图像与在整个过程的其他部分中使用的其他第一图像(例如,被用作训练图像的第一图像以及用于制备伪图像库的第一图像)进行区分。
关于本公开的第一、第二和第三方面的步骤(b),在该步骤中使用的预定变换矩阵可以被视为所公开的图像识别过程的“引擎”。在一个实施例中,在获得预定变换矩阵中使用的稀疏非负分解采用至少一个Frobenius范数。(如本文所使用的,矩阵的Frobenius范数是矩阵分量的平方和的平方根。)重要的是,在获得预定变换矩阵中使用的训练图像的矩阵(在本文中被称为“训练图像集”或简称为“训练集”)不需要包括感兴趣第一图像并且通常将不包括感兴趣第一图像。即,所公开的方法能够对并非该方法的训练集的一部分的图像执行图像识别。这是该过程的重要优势,因为这尤其允许对并非训练集的一部分的非理想图像(包括遭受例如噪声、损坏或遮挡中的一者或多者的图像)执行图像识别。在一个实施例中,一旦构造了预定变换矩阵,就将该预定变换矩阵存储在非瞬态计算机可读介质中以供稍后使用。
为了促进呈现,步骤(c)的伪图像在下文被称为“感兴趣伪图像”或“步骤(c)伪图像”,以将步骤(c)的伪图像与在整个过程的其他部分中使用的其他伪图像(例如,在产生预定变换矩阵期间生成的伪图像以及用于制备伪图像库的伪图像)进行区分。在一个实施例中,一旦构造了步骤(c)伪图像,就将该步骤(c)伪图像存储在非瞬态计算机可读介质中以供稍后分析和/或使用。在一个实施例中,在构造伪图像(不同于在产生预定变换矩阵期间生成的伪图像)中使用的稀疏非负变换采用至少一个L2范数。(如本文所使用的,向量的L2范数是向量分量的平方和的平方根。)
关于本公开的第一和第三方面的可任选步骤(d)和(e)以及本公开的第二方面所需要的步骤(d)和(e),在一个实施例中,在这些步骤中使用的已知图像的伪图像集合(“伪图像库”或简称为“库”)是使用与步骤(c)中使用的相同预定变换矩阵来获得的。重要的是,在步骤(e)中,比较是在伪图像之间而非第一图像之间。提供与用于执行图像识别的现有技术相比具有改进的稳健性的所公开过程的关键要素在于对伪图像的该比较(与对第一图像的比较相对)。
一旦完成步骤(e)的比较,就可以将比较结果直接报告给用户或存储以供后续使用、报告或分析。当步骤(e)的比较用于分类时,报告可以如标识感兴趣第一图像(并且由此原始图像;参见下文)的单个类别和/或单个种类那么简单。例如,在面部识别的情形中,分类可以如将感兴趣第一图像分类为男性面部或女性面部那么基本。报告通常将更加详细,例如,报告通常将提供关于感兴趣的多个类别和/或多个种类的信息。可任选地,对于为其执行比较的一个、一个以上、或所有类别或种类,报告可以包括对分类的置信度水平的指示。
当步骤(e)的比较用于标识时,报告可以如向用户通知已找到“匹配”那么简单。通常,通知将伴有至少已知图像的名称。通常,除了名称之外,报告还将包括关于已知图像的其他相关数据、以及已知图像的副本。可任选地,报告可以包括对标识的置信度水平的指示,例如,报告可以包括相似度或比较分数。在一个实施例中,对置信度的指示可以包括与具有最高置信度水平的已知图像相比具有较低置信度水平(对应于感兴趣第一图像的较低可能性)的一个或多个已知图像的副本。
如上面提到的,本文所公开的图像识别方法的重要特征在于,一旦处于伪图像空间中,该方法就保留在伪图像空间中并且不返回到第一图像空间以例如执行步骤(e)的比较。以此方式,该方法的稳健性(例如,处置非理想图像的能力)显著提高。还发现稳健性取决于K的值,其中较大的K值导致较大的稳健性,但以较长的计算时间和/或较大的存储要求为代价。
具体而言,如下面将更详细讨论的,已发现稳健性随着K与M和K与R的比率而增加。(如上面提到的,在许多情形中,R将等于M。)定量地说,在某些实施例中,K/M和K/R比率中的一者或两者大于或等于1.0,或者大于或等于2.0,或者大于或等于3.0,或者大于或等于4.0,或者大于或等于5.0。
如上面提到的,M×N矩阵经常会是满秩矩阵并且通常还具有N>M。在这些条件下,R等于M以使得针对稳健图像识别的K≥R标准变成K≥M,即,对于N>M的满秩M×N矩阵,伪图像在K空间中的维度需要大于或等于第一图像在M空间中的维度。在这些情况下,使用预定变换矩阵从第一图像变换到伪图像可以被视为将第一图像从M个分量“扩展”或“解压缩”到K个分量。即,预定变换矩阵取得具有给定数目分量(M个分量)的图像并将该图像变换(将该图像扩展或解压缩)成具有更多分量(K个元素权重)的图像。先验地,不会认为这会有助于执行图像识别。根据本公开,已发现恰恰相反的情况—该变换在执行图像识别中极其有效,并且如果扩展足够大,则在对非理想图像执行图像识别时产生高的稳健性水平。
表面上,本文所公开的图像识别技术的M→K解压缩策略与图像处理应当实现数据压缩而非扩展的常规观点相反。然而,由于在生成伪图像期间施加的稀疏性条件,因此在大多数情形中解压缩并非意味着针对伪图像需要比第一图像多的存储,这是因为构成伪图像的K个元素权重中相对少量的元素权重将具有需要被存储以表示该伪图像的值。即,许多并且在大部分情形中大多数元素权重将为零或者基本上为零,并且由此需要存储的全部内容是非零或并非基本上为零的元素权重在伪图像中的值和位置。相应地,在大部分情形中,本文所公开的图像识别技术同时实现了有效的图像识别和降低的存储要求两者。(尽管通常不会影响存储要求,但可以注意到,由于从第一图像到伪图像的变换是非负变换,因此所存储的所有元素权重都是正数。)定量地说,在将需要存储的元素权重数目指定为K'的情况下,K'与M的比率一般将小于1.0,或者小于或等于0.75,或者小于或等于0.50,或者小于或等于0.25,或者小于或等于0.10,或者小于或等于0.05,或者等于1/M。
在灰度第一图像的情形中,已发现使K≥M和/或K≥R是稳健图像识别的基本要求。对于图像分量只能具有两个值(例如,开或关)之一(与许多值相对,例如,8比特灰度中的256个值)的第一图像,已发现,即使在K≥M和K≥R关系都不满足的情况下,也可以通过在比较步骤(e)中使用伪图像来实现可接受的稳健性水平。示例10以及具体而言图33和34解说了二值图像(二进制图像)与灰度图像相比的这种区别。具体而言,在该示例中,在K大于M(图33)和K小于M(图34)两种情况下都实现对符号(具体而言,字母和字符)的非理想图像的可接受稳健图像识别。如该示例中所解说的,K大于M使该过程显著地更加稳健,但当K小于M并且第一图像是二进制图像时,稳健性对于实际应用是足够的。当K与R相比时得到相同的结果。
根据本公开的第四方面,K的值和/或K与M和R中的一者或两者的比值发生变化,直至针对正在解决的特定图像识别问题标识适当的稳健性水平。下文的示例1-8解说了本公开的该方面,其中发现0.8的K/M比率对于对还未经过面部修饰的面部执行面部识别是足够的,但对于已经经过修饰的面部是不足的。另一方面,2.4的K/M比率成功提供了对未经修饰和经修饰面部两者的正确标识,并且4.0的K/M比率甚至更好。
根据第五方面,本公开提供了用于执行本文所公开的图像识别方法的非瞬态计算机可读介质和计算机系统。可以作为商品销售和/或分发的非瞬态计算机可读介质可以包含计算机指令(计算机代码),这些计算机指令能够在计算机系统上被执行以执行部分或全部所公开的图像识别技术。
根据第六方面,本公开提供了供在步骤(d)和(e)中用作伪图像库的一个或多个伪图像数据集。数据集或集合可以被包含在作为商品销售和/或分发的非瞬态计算机可读介质中。同样地,供在步骤(b)中使用的一个或多个预定变换矩阵和/或用于获得预定变换矩阵的一个或多个训练集可以被包含在作为商品销售和/或分发的非瞬态计算机可读介质中。该分发例如可以通过因特网,这尤其可以促进对伪图像库的更新,以例如添加新的伪图像或去除与所执行的图像识别不再相关的伪图像。非瞬态计算机可读介质可以在“云”中或在用户位置处。
本公开的附加方面在下文标题“公开的特征”下阐述。
本文所公开的图像识别技术的优选应用是面部识别。其他应用包括对象识别和符号识别(机器读取)。更一般而言,所公开的图像识别技术可以用于所有形式的机器视觉。可以使用本文所公开的技术来分析的各种图像的非限制性示例、以及该技术的应用的非限制性示例在下文标题“工业实用性”下讨论。
本文所公开的技术的附加属性和优点在以下详细描述中阐述,并且这些属性和优点部分地通过该描述对于本领域技术人员而言将是显而易见的,或者通过实践如本文所述的技术被认识。包括附图是为了提供对技术的进一步理解,且附图被纳入本说明书中并构成其一部分。应理解,本说明书中和附图中所公开的技术的各个方面可以单独地使用以及在任何和所有组合中使用。还应理解,上面所阐述的一般描述以及下面的详细描述仅仅是本发明的示例,并且旨在提供对理解如由权利要求所限定的本发明的性质和特性的概览或框架。
附图简述
图1示出了感兴趣人员的原始图像。
图2A示出了在第一轮第一级预处理(具体而言,裁剪)之后图1的感兴趣原始图像。
图2B示出了在第二轮第一级预处理(具体而言,下采样)之后的感兴趣原始图像。该图的图像被用作感兴趣第一图像,其包含25×25阵列中的625个像素(M=625)。
图3示出了2,000个第一图像的训练集(N=2,000)中的5个第一图像。这些第一图像是使用与用于获得图2B的感兴趣第一图像的第一级预处理相同的第一级预处理来获得的。
图4示出了使用从中取得图3的训练集部分的完整训练集获得的预定变换矩阵的一部分字典元素。在该实例中,每个伪图像具有用于1,500个字典元素的1,500个元素权重(K=1,500),每个字典元素一个权重。示出了1,500个字典元素中的36个字典元素。每个字典元素具有625个分量,这些分量在该图中被示为25×25二维阵列。
图5示出了训练集的伪图像库(S=2,000)的一部分。示出了与图3中所示的每个第一图像相对应的五个伪图像。
图6示出了图2B的感兴趣第一图像的感兴趣伪图像。还示出了伪图像的字典元素并突出显示具有最大元素权重的字典元素。感兴趣伪图像是使用其一些字典元素在图4中示出的预定变换矩阵来获得的。示出了所有1500个字典元素及其元素权重。
图7示出了图6的感兴趣伪图像的有效元素权重(系数值)。每个元素的系数值由与该元素相对应的线条的高度来指示。
图8示出了图6的感兴趣伪图像与从训练集的2,000个第一图像获得的伪图像库的相似度分数。由余弦距离来测量相似度。该图是通过感兴趣伪图像与伪图像库的比较来对感兴趣第一图像以及由此感兴趣原始图像进行标识的报告的示例。示出了训练集内具有最高相似度分数的面部的第一图像。该图像与感兴趣第一图像相同。
图9示出了使用从中取得图3的训练集部分的完整训练集获得的预定变换矩阵的一部分字典元素。在该实例中,每个伪图像具有用于500个字典元素的500个元素权重(K=500)。示出了500个字典元素中的36个字典元素。
图10示出了在被变换成500维的伪图像时训练集的一部分伪图像库。示出了与图3中所示的每个第一图像相对应的五个伪图像。
图11针对K等于500示出了图2B的感兴趣第一图像的感兴趣伪图像。感兴趣伪图像是使用其一些字典元素在图9中示出的预定变换矩阵来获得的。伪图像的每个元素权重(每个分量)用于预定变换矩阵的字典元素,即,伪图像的每个元素权重用于预定变换矩阵的一列。在该图的底部面板中突出显示了具有最高(最大)12个元素权重的字典元素。伪图像中的每个元素权重的灰度指示该元素权重的幅值。示出了所有500个元素权重和字典元素。
图12示出了图11的伪图像的12个有效字典元素。每个有效字典元素的元素权重(系数值)由与该元素相对应的线条的高度来指示。在底部面板中示出了这12个字典元素的较大图片。
图13示出了通过图11的感兴趣伪图像与从中取得图10的伪图像库部分的完整伪图像库的比较来对感兴趣第一图像以及由此原始图像进行标识的报告。示出了伪图像库内具有最高相似度值的面部的第一图像。
图14示出了在伪图像库中对面部的标识,但该面部戴有一副眼镜,该副眼镜改变并在某种程度上遮挡了原始面部。戴有眼镜的面部不在伪图像库中,但该过程将该面部正确地标识为未戴眼镜的确切人员。对于该图K等于1,500。
图15示出了在伪图像库中对面部的标识,但该面部戴有完全遮挡主体眼睛的一副太阳镜。戴有太阳镜的面部不在伪图像库中,但该过程将该面部正确地标识为不戴太阳镜的确切人员。对于该图K等于1,500。
图16示出了对具有不同于伪图像库中的表情的面部的标识。顶部面板示出了其笑脸在训练集中的人员。该人员的非笑脸(“新”面部)即使在不在训练集中并且由此不在从训练集制备的伪图像库中的情况下也被正确地标识。底部面板示出了其非笑脸不在训练集中并且由此不在从训练集制备的伪图像库中的人员。该人员的笑脸被正确地标识。对于该图K等于1,500。
图17解说了对具有不同面部修饰的面部的正确标识。戴有太阳镜的面部(左上)、用胡子乔装的面部(右上)、以及具有太阳镜和胡子两者的面部(左下)各自生成伪图像,该伪图像在与包含未经掺改面部的伪图像库进行比较时针对该未经掺改面部给出最高相似度分数。对于该图K等于1,500。
图18解说了在女性面部的不同部分被遮挡时对该面部的标识。具有最高相似度分数的面部包括待标识的原始面部。尽管不希望受到任何特定工作理论的束缚,但认为女性面部会比男性面部更难以标识,并且因此,在这四种情形中的两种情形中伪图像库中具有最高相似度分数的面部不是正确的面部。对于该图K等于1,500。如图27中所示,当K增加到2,500时,在所有四种情形中正确的面部被标识。
图19解说了在男性面部的不同部分被遮挡时对该面部的标识。在所有情形中具有最高相似度分数的面部是待标识的原始面部。对于该图K等于1,500。
图20示出了在伪图像库中对面部的标识,但该面部添加有一副眼镜,如图14中一样。对于该图K等于500,而不是如图14中的1,500。与图14形成对比,错误的面部被标识。
图21示出了在伪图像库中对面部的标识,但该面部戴有一副太阳镜,从而遮挡该女性面部的眼睛,如图15中一样。对于该图K等于500,而不是如图15中的1,500。与图15形成对比,错误的面部被标识。
图22示出了在伪图像库中对两个面部的标识,但这些面部具有不同的面部表情,如图16中一样。对于该图K等于500,而不是如图16中的1,500。与图16形成对比,错误的面部被标识。
图23示出了在伪图像库中对面部的标识,但该面部具有附加的面部装饰,包括一副太阳镜、胡子、或两者,如图17中一样。对于该图K等于500,而不是如图17中的1,500。与图17形成对比,错误的面部被标识。
图24示出了在伪图像库中对女性面部的标识,但该女性面部的不同部分被遮挡,如图18中一样。对于该图K等于500,而不是如图18中的1,500。与图18形成对比,在所有情形中错误的面部被标识。
图25示出了在伪图像库中对男性面部的标识,但该男性面部的不同部分被遮挡,如图19中一样。对于该图K等于500,而不是如图19中的1,500。与图19形成对比,错误的面部被标识。
图26示出了在伪图像库中对面部的标识,但该面部具有附加的面部装饰,包括一副太阳镜、胡子、或两者,如图17和图23中一样。对于该图K等于2,500,并且在所有情形中以与库中的其他面部相比具有显著更高的相似度分数标识正确的面部。
图27示出了在伪图像库中对女性面部的标识,但该女性面部的不同部分被遮挡,如图18和24中一样。对于该图K等于2,500,并且在所有情形中以与库中的其他面部相比显著更高的相似度分数标识正确的面部。
图28示出了不在用于产生示例1的伪图像库的训练集中的面部集合。这些面部来自耶鲁(Yale)面部图像数据库。在该图中示出了15个不同个人的面部,其中每个面部具有11种不同的面部表情和照明条件。
图29解说了使用示例1的预定变换矩阵对图28中所示面部的标识。图形示出了针对来自图28的耶鲁数据库的面部的各对伪图像之间的成对相似度分数。暗灰度指示高的相似度分数。属于同一人员的面部被编群并由沿轴的数字来指示。该图形表明,尽管面部表情和照明条件不同,但属于同一人员的面部的伪图像高度相似,但属于不同人员的那些面部并非如此。
图30解说了针对来自图28的耶鲁数据库的面部的伪图像与示例1的训练集的面部的伪图像之间的成对相似度分数。与属于同一人员的耶鲁面部的伪图像相似度形成对比,耶鲁面部与训练集中的那些面部呈现出极小相似度。
图31示出了根据本文所公开的技术的被用作图像识别的训练集的1,000个符号(字母和字符)。每个符号被数字化为16×16第一图像。
图32解说了为图31的训练集的符号生成伪图像以及大写字母“H”和中文“並(bing)”字符的伪图像与被用作伪图像库的那些伪图像的相似度分数。对于该图K等于800。
图33解说了在字母和字符因缺失像素而受损的情况下(在原始符号旁边示出)对大写字母“H”和中文“並”字符的标识。对于该图K等于800。示出了受损字母/字符的伪图像与伪图像库中的每个伪图像之间的相似度分数。正确的字母/字符被标识。
图34解说了在字母和字符因缺失像素而受损的情况下(在原始符号旁边示出)对大写字母“H”和中文“並”字符的标识。该损坏与图33中相同。对于该图K等于100。正确的符号被标识,但现在许多伪图像具有高的相似度分数值。
图35示出了对于由从原始图像中随机选择的不同数目的像素构成的图像使用K等于800(顶部面板)与K等于200(底部面板)的余弦误差率(1-余弦距离)。对于较大的K值,误差率随着像素数增加下降得较快。
图36示出了在比较用于创建经扩充预定变换矩阵的从头和顺序办法中使用的第一图像(N=1,000)。这些第一图像中的每一者是16×16的二进制像素阵列(M=256)。该图的第一图像与图31的那些第一图像相同,但具有不同的格式。
图37示出了使用用于创建经扩充预定变换矩阵的从头办法来产生的字典元素(K=1,000)。每个字典元素是16×16的二进制像素阵列(M=256)。
图38示出了使用用于创建经扩充预定变换矩阵的顺序办法来产生的字典元素(K=1,000)。每个字典元素是16×16的二进制像素阵列(M=256)。
图39示出了通过从头学习产生的图37的字典元素与通过顺序学习产生的图38的字典元素之间的余弦相似度。
图40示出了通过顺序学习产生的图38的字典元素的各分量之间的成对相关性。
图41示出了图36的第一图像的伪图像的各分量之间的成对相关性,其中伪图像是通过顺序学习产生的。
图42是解说本公开的产生预定变换矩阵和训练集的伪图像集的示例性实施例的流程图。
图43是解说本公开的从感兴趣第一图像产生感兴趣伪图像并将该感兴趣伪图像与伪图像库进行比较的示例性实施例的流程图。
图44是解说本公开的从已知图像产生伪图像并将该伪图像纳入一个或多个伪图像库中的示例性实施例的流程图。
图45是解说本公开的用于确定预定变换矩阵是否需要扩充的示例性实施例的流程图。
图46是解说本公开的用于通过顺序办法来扩充预定变换矩阵的示例性实施例的流程图。对Φi和Ai的更新可以使用例如下面的算法3来执行。
图47是解说供在实践本公开的方法的各实施例中使用的计算机系统的代表性示例的各组件的功能框图。
术语和记法
在说明书中和权利要求书中使用以下术语及其相关联的单数和复数形式以及以下记法。
(A)原始图像和第一级、第二级以及其他预处理
“原始图像”是分量(例如,像素)的有序序列,每个分量在该序列内具有值和位置。通常,人们将能够在原始图像中感知来自现实世界的一个或多个对象(例如,在面部识别的情形中为人类面部),但不一定在所有情形中,例如,原始图像可以是计算机生成的图像(诸如UPC或矩阵条形码)。原始图像可以由数字成像设备(例如,独立的数字相机或实现在另一设备(例如,蜂窝电话)中的数字相机)生成。原始图像也可以是已被数字化的模拟图像。
在彩色原始图像的情形中,图像可以被分解为复合色彩,例如,由数字相机产生的图像的红色、绿色和蓝色子分量(例如,子像素),并且每个复合色彩作为单独的原始图像来处理。替换地,复合色彩可以被级联成单个原始图像。例如,在25×25RGB彩色图像的情形中,经级联的原始图像将具有1,875个分量,而不是在图像并非彩色情况下的625个分量。
如果期望,原始图像在被转换成伪图像之前可以经过“第一级预处理”。不同于下面讨论的第二级预处理,第一级预处理在各分量在分量序列中的相对值和相对位置方面都保持图像分量之间的相对关系。第一级预处理的示例包括但不限于:减少分量数目(下采样)、裁剪图像的一部分、对图像的仿射变换(诸如旋转、平移、拉伸和/或缩小全部或部分图像)、归一化等等。
与原始图像一样,经第一级预处理图像是分量的有序序列,每个分量在序列内具有值和位置。在人们可以从中感知来自现实世界的一个或多个对象的原始图像的情形中,在第一级预处理之后,人类通常将仍可感知来自现实世界的一个或多个对象,除非所有此类对象通过例如裁剪被去除。经第一级预处理图像中的分量数目可以等于或小于从中导出该经第一级预处理图像的图像中的分量数目。
对于一些应用,可以对原始图像或经第一级预处理图像(被称为第二级预处理的“起始图像”)执行第二级预处理。在一个实施例中,第二级预处理可以包括:对起始图像执行傅立叶变换并将所得到的傅立叶系数用作第一图像的分量。沿着这些相同思路,可以使用小波变换,并将所得到的小波系数用作第一图像的分量。这些类型的预处理可以产生“经缩小图像”,该经缩小图像是分量的有序序列,每个分量在序列内具有值和位置,其中经缩小图像中的分量数目小于起始图像中的分量数目。分量数目的减小降低了存储要求,并且取决于生成经缩小图像所需的计算次数,可以减少总体处理时间。
像原始图像或经第一级预处理图像一样,经第二级预处理图像是分量的有序序列,每个分量在序列内具有值和位置。然而,不同于第一级预处理,第二级预处理确实会改变分量之间的关系。分量之间的关系的改变可以是以下方面:分量在分量序列中的相对值、相对位置、或者在分量序列中的相对值和相对位置两者。因此,在包含来自现实世界的对象的图像情形中,人们会发现在已经经过第二级预处理的图像中更加难以或者在一些情形中不可能感知那些对象。
尽管已经单独定义了第一级和第二级预处理以促进呈现,但在实践中,这两种类型的预处理可以彼此集成为整个图像识别过程中的单个预处理步骤。此外,第一级和第二级预处理步骤中的每一者可以按任何次序执行多次。在包含来自现实世界的对象的图像情形中,当第一级预处理是对已经经过第二级预处理的图像执行时,人们会发现在所得到的经第二级继以第一级预处理图像中更加难以或不可能感知现实世界对象。
另外,可以使用未专门被表征为第一级预处理或第二级预处理的预处理。例如,低通、高通或带通空间滤波可以改变分量之间的相对值。这种滤波可以产生人们会发现更加易于(而非更加难以)感知来自现实世界的对象的图像,这是因为例如在低通滤波的情形中高频噪声已被去除或在高通滤波的情形中对象的边缘已被增强。预处理由此包括但不限于第一级和第二级预处理。
(B)第一图像
“第一图像”是原始图像或已经经过预处理的原始图像。由此,第一图像是分量(例如,像素)的有序序列,每个分量在序列内具有值和位置。如上面讨论的,对于典型的原始图像,人们将能够在该原始图像中感知来自现实世界的一个或多个对象(例如,人类面部)。对于是原始图像或者仅经过第一级预处理的原始图像的第一图像,情况将继续如此。对于其他类型的预处理,人们会发现难以或不可能在第一图像中感知来自现实世界的对象。
在下面的讨论中,第一图像被视为向量,其中个体第一图像由xn表示,并且第一图像的集合被布置为由X表示的矩阵的列。第一图像中的分量数目(第一图像的“维度”)由字母M表示,并且矩阵X的列数(第一图像的数目)由字母N表示。由此,在上述记法中,n可以具有1至N之间的值,每个xn具有M个分量,并且X是M×N矩阵。
尽管在下面的讨论中,第一图像和分量的其他有序序列被视为向量(一维阵列),但在计算机中,如果期望,分量的有序序列可以作为更高维阵列(例如,二维或三维阵列)来存储和/或处理。
(C)预定变换矩阵和字典元素
“预定变换矩阵”是具有M行和K列的矩阵。K列中的每一列被称为“字典元素”或简称为“元素”。每个字典元素是M个分量的有序序列,每个分量在序列内具有值和位置。由此,如果期望,每个字典元素可以被显示为图像(参见例如图4)。在下面的讨论中,预定变换矩阵由矩阵Φ表示。
如上所述并且在下面更详细讨论的,预定变换矩阵是通过包括以下操作的方法来获得的:对训练图像的矩阵执行稀疏非负分解。如下面讨论的,关于产生预定变换矩阵以及从第一图像产生伪图像两者的稀疏性可以使用L1范数、L0范数或Lp范数来测量,其中p大于0并且小于1,L1范数在大多数情形中是优选的。也可以使用稀疏性的其他度量(参见下文)。训练图像的矩阵是已知图像的矩阵,具体而言,已知第一图像的矩阵。这些已知第一图像可能已经经过预处理。在这种情形中,在一个实施例中,感兴趣第一图像(步骤(a)第一图像)可以经过与构成训练集的第一图像相同的预处理。在其他实施例中,用于产生感兴趣第一图像的预处理可以不同于用于产生训练集的第一图像的预处理(或者感兴趣第一图像可以是没有预处理原始图像),条件是,尽管预处理不同,但经预处理感兴趣第一图像和构成训练集的经预处理第一图像具有相同的分量数目(即,相同的M值)。
通过分解产生预定变换矩阵和训练图像的伪图像。预定变换矩阵和伪图像两者都被约束为非负的。伪图像还被约束为稀疏的。然而,预定变换矩阵未被约束为稀疏的。由此,在短语“稀疏非负分解”中,非负性适用于通过分解产生的预定变换矩阵和伪图像两者,而稀疏性仅适用于伪图像。产生预定变换矩阵的过程是非线性的(与线性相对),这尤其是因为可以被视为类似于整流(其是固有的非线性过程)的非负性约束。同样地,使用预定变换矩阵从第一图像产生伪图像也是非线性过程。
使用上面针对第一图像所采用的矩阵记法,训练图像的矩阵可以由矩阵X表示。在该记法中,预定变换矩阵Φ是通过执行对M行N列矩阵X的稀疏非负分解获得的M行K列矩阵。在一个实施例中,该分解采用至少一个Frobenius范数的最小化。在下面的讨论中,使用预定变换矩阵产生的个体伪图像由a表示,而伪图像集合被布置为由A表示的矩阵中的列。使用该记法,用于产生预定变换矩阵Φ的训练图像的矩阵X与在确定Φ的过程期间产生的训练图像的伪图像集合A的关系可以被写为:
X=ΦA,
其中A具有K行和N列。由此,预定变换矩阵可以被视为执行从具有M维(X矩阵的行数)的基底到具有K维(A矩阵的行数)的基底的变换。
尽管不希望受到任何特定的工作理论的束缚,但认为对Φ和A的非负性约束结合对A的稀疏性约束的组合迫使训练集图像的关键特征(例如,在面部图像的情形中,眼睛形状)包括在Φ中,从而使得Φ在图像识别方面是稳健的。Frobenius范数的使用也会对该技术的稳健性有贡献。由于这些范数是平方范数,因此它们可以被认为与“能量”相关,能量进而可以被认为与“信息内容”相关。关键特征是具有最多信息内容的特征,并且通过使用Frobenius范数,可以迫使Φ捕获这些特征。非负性约束随后防止以非关键特征来稀释关键特征,而稀疏性约束将关键特征一起绑定在字典元素中。结果是字典元素可以具有特定的感受野(receptor field),即,它们可以捕获训练集图像中的特定形状和形状组合,并且通过具有足够数目的字典元素,可以实现稳健的图像识别。
用于实现稳健性的M(第一图像中的分量数目)、N(训练集中的第一图像数目)和K(伪图像中的字典元素的元素权重数目)的适当值可以容易地由本领域技术人员基于本公开来确定。一般而言,训练集中的第一图像数目(N)随着第一图像中的分量数目(M)而缩放,即,当第一图像中的分量数目(例如,像素数目)增加时,通常需要更大的训练集。同样一般而言,N近似等于K并且通常大于K。
如上面讨论的,K自身取决于M和/或R,其中在某些实施例中,K满足关系K/M≥1.0和K/R≥1.0中的一者或两者,其中,如上文那样,R是X矩阵的秩。更具体而言,同样如上面讨论的,在某些实施例中,K/M和K/R比率中的一者或两者大于或等于2.0,或者大于或等于3.0,或者大于或等于4.0,或者大于或等于5.0。这些比率在灰度图像的情形中特别重要,并且如果期望,在二进制图像的情形中可以放宽。此外,一般而言,K的值随着N而缩放,即,当N增加时,一般期望使K增加。然而,增加K也增加对计算资源(包括计算(CPU)时间和/或存储器要求)的需求。此外,增加K的有效性在K变得太大时会消失。由此,如对于本领域技术人员将显而易见的,当针对本文所公开的图像识别技术的任何特定应用选择K、M和N的值时,在准确性和计算成本方面作出折衷。
如上面讨论并且在下面更充分讨论的,K是使用预定变换矩阵从M维第一图像获得的伪图像的维度,并且由此,为了实现稳健性,在一个实施例中,当M×N矩阵满秩并且N>M时,伪图像的维度将大于第一图像的维度,二进制图像的情形除外,在二进制图像的情形中,如果期望,伪图像的维度可以小于第一图像的维度。M×N矩阵通常将不会太偏离满秩,即,R将不会远小于M,并且由此满足K≥M将不会比满足K≥R显著更严格。虽然在K大于或等于R但小于M时从M空间到K空间的变换在形式上将不会是对用于捕获第一图像的信息内容的维数的扩展,但该变换将不会是显著压缩。在二进制图像的情形中同样如此,其中变换可以在某种程度上减小维数,但通常不会减小很大程度。如上面提到的,本文所公开的图像识别技术的M→K解压缩策略与图像处理基于数据压缩而非扩展的常规观点相反。同样地,仅仅小的压缩与常规观点相反。
(D)伪图像和元素权重
“伪图像”是K个分量的有序序列,每个分量在序列内具有值和位置。由此,如果期望,伪图像可以被显示为图像(参见例如图5和图6的灰度伪图像)。在实践中,即,出于计算机编码的目的,伪图像可以被视为向量。
如上面讨论的,伪图像是通过对第一图像的非线性变换(具体而言,使用上面讨论的预定变换矩阵对第一图像执行的稀疏非负变换)从该第一图像获得的。由于该变换施加了非负性约束,因此伪图像的K个分量中的每个分量的值都是零或正数。
K个分量中的每个分量充当在从第一图像构造伪图像时所使用的预定变换矩阵的K个字典元素(K列)中的一个字典元素的“元素权重”。由于从第一图像到伪图像的变换对伪图像施加了稀疏性约束,因此通常仅有少量具有较大值的分量(元素权重)和许多具有较小值或零值的分量(元素权重)(参见例如图6和7)。在实践中,仅需要存储具有较大值的分量,并将这些分量用于感兴趣伪图像与已知图像的伪图像的比较。相应地,术语“伪图像”包括其中所存储和/或所使用的伪图像包括所有K个分量的情形以及其中伪图像包括少于所有K个分量的情形,较少的分量未被显式地包括在如所存储和/或所使用的伪图像中。
当被显示为二维阵列时,人们不会将伪图像感知为示出来自现实世界的对象(参见例如图5和图6的灰度伪图像)。即使在将第一图像变换成伪图像之前人们可以在第一图像中感知来自现实世界的对象的情形中(即,即使在第一图像是原始图像或者仅经过第一级预处理的原始图像的情况下)也是如此(参见例如图5和图6的灰度第一图像)。这是本发明技术的重要区别,因为图像的分类和/或标识是使用不包含人类可感知对象的图像来执行的。这尤其避免了存储特定个人的人类可感知图像,并且由此避免与此类存储相关联的隐私问题。
(E)伪图像库
“伪图像库”是用于对从感兴趣第一图像(步骤(a)第一图像)获得的感兴趣伪图像(步骤(c)伪图像)进行分类和/或标识的伪图像集合。
(F)分类和标识
“分类”是将图像与具有含一个或多个共同特性的至少两个成员的集合(例如,种类或类别)进行关联,而“标识”是将图像与具有一个成员的集合(例如,个人)进行关联。
详细描述和优选实施例
图1-8解说了本公开的图像识别技术的实施例。具体而言,图1-8解说了将各技术应用于面部识别问题的实施例。下文并且在示例1中讨论了在产生各附图时所采用的特定规程。
在本描述中在该点引入附图以便为后续一般讨论提供上下文。应理解,使用面部识别作为解释该技术的工具不应当被认为是限制性的,并且本文所公开的伪图像技术同样适用于其他图像识别问题,诸如涉及对象识别、符号识别等图像识别问题(关于本文所公开技术的其他非限制性应用请参见下文的“工业实用性”章节)。
在图1-8中解说的所公开图像识别技术的各方面如下:
(1)图1示出了感兴趣人员的原始图像。
(2)图2A和2B示出了在两轮第一级预处理之后图1的原始图像,具体而言,图2A示出了在裁剪之后的原始图像,并且图2B示出了在下采样之后的原始图像。图2B的图像是感兴趣第一图像(步骤(a)第一图像),其随后被变换成伪图像,具体而言为步骤(c)伪图像。
(3)图3示出了使用与用于获得图2B的感兴趣第一图像相同的两轮第一级预处理获得的第一图像的一部分训练集。
(4)图4示出了使用从中取得图3的训练集部分的完整训练集获得的预定变换矩阵的一部分字典元素。
(5)图5示出了伪图像库的一部分。
(6)图6示出了图2B的感兴趣第一图像的感兴趣伪图像。感兴趣伪图像是使用其一些字典元素在图4中示出的预定变换矩阵来获得的。
(7)图7示出了图6的感兴趣伪图像中具有最大元素权重(系数值)的字典元素。
(8)图8示出了通过将图6的感兴趣伪图像与从中取得图5的伪图像库部分的完整伪图像库进行比较来对感兴趣第一图像以及由此原始图像进行标识的报告。
如上面讨论的,本公开采用伪图像来执行图像识别。该过程开始于原始图像(参见例如图1),该原始图像通常经过至少某种预处理(例如,裁剪和下采样)以产生感兴趣第一图像(参见例如图2B)。替换地,可以将原始图像直接用作感兴趣第一图像而不进行预处理。如上面在“术语和记法”章节中讨论的,感兴趣第一图像方便地表示为向量x。
感兴趣第一图像使用预定变换矩阵被变换成感兴趣伪图像(参见例如图6和7),该预定变换矩阵由使用第一图像的训练集(参见例如图3)获得的字典元素(参见例如图4)构成。如上面在“术语和记法”章节中讨论的,感兴趣伪图像方便地由向量a表示,预定变换矩阵由矩阵Φ表示,第一图像的训练集(即,训练图像的一组x向量的集合)由矩阵X表示,并且训练集的伪图像由矩阵A表示。
随后通过将感兴趣伪图像与伪图像库进行比较(参见例如图5)来执行对感兴趣第一图像以及由此原始图像的分类和/或标识。可以例如通过显示与库中找到匹配的条目相对应的已知图像或者在分类的情形中显示种类或类别的标识符来向用户报告比较结果。比较结果可以包括对分类和/或标识是准确的可能性的指示,例如,对感兴趣第一图像对应于种类、类别或个人的可能性的指示。该指示可以是相似度或比较分数(参见例如图8)。
预定变换矩阵是通过包括以下操作的方法来获得的:对向量化第一图像(训练集)的矩阵执行稀疏非负分解。训练集的大小将取决于要执行的分类和/或标识。例如,在面部识别的情形中,如果要对个人的有限集合(例如,允许访问特定设施的个人)执行分类和/或标识,则相对小的训练集可以是足够的,只要足够多的个人被包括在该集合中,以使得预定变换矩阵能够对该有限集合的个人进行分类和/或标识并将这些个人与不在该有限集合中的个人进行区分。在另一种极端情形中,在一般人群中对个人的分类和/或标识通常将需要大的训练集,以使得足够的特征被嵌入在预定转换矩阵中以执行分类和/或标识。通过基于本公开的常规实验,针对本文所公开的图像识别技术的任何特定应用可以容易地找到训练集的合适大小。
在某些实施例中,对非理想图像的图像识别是在训练集中非理想图像有限且在一些情形中没有非理想图像的情况下执行的。具体而言,已经发现,可以执行对非理想图像的图像识别(以及具体而言,对非理想面部图像的面部识别)而无需在训练集中有意包括大量非理想图像。如果期望,可以在训练集中包括非理想图像,并且在一些情形中,训练集中有限数目的非理想图像可能是有用的。例如,在训练集中包括非理想图像(其中该非理想是例如姿势和/或面部表情)在一些情形中可以使预定变换矩阵在分类和/或标识方面更加稳健。
不同于先前的图像识别技术、并且具体而言先前的面部识别技术,大量非理想图像并不是成功图像识别所要求的。缺乏这种要求允许使用比原本会需要的训练集要小的训练集。这种较小的训练集进而改进了用于生成预定变换矩阵的过程的速度和/或存储要求。这些较高的速度和/或较小的存储考虑因素也适用于伪图像库,无论该库是基于训练集、训练集加上附加伪图像、还是排除训练集的伪图像集合(参见下文)。同样地,较高的速度和/或较小的存储考虑因素适用于感兴趣伪图像与一个或多个伪图像库的比较。
如上面讨论的,在一些实施例中,感兴趣第一图像是已经经过预处理的原始图像,其中该预处理可以是第一级预处理、第二级预处理、或第一级和第二级预处理的组合。当要使用预处理时,优选地在将训练集用于产生预定变换矩阵之前对该训练集执行相同的预处理。虽然这种预处理共同性是优选的,因为它可以提供改进的图像识别,但这并不是成功图像识别所要求的。在许多情况下,训练集的第一图像与感兴趣第一图像之间共同预处理要求的这种缺乏可能是有益的。具体而言,它通过允许给定训练集与已经经过不同程度预处理的感兴趣第一图像联用来向整个过程提供灵活性。
感兴趣第一图像的感兴趣伪图像是通过使用预定变换矩阵对感兴趣第一图像执行稀疏非负变换来获得的。生成预定变换矩阵的分解还生成训练集成员的伪图像。在某些实施例中,可以通过将感兴趣伪图像与训练集成员的伪图像进行比较来执行对原始图像的分类和/或标识。在这种情形中,训练集成员的伪图像用作用于执行分类和/或标识的伪图像库。
感兴趣伪图像也可以用于除了分类和/或标识以外的目的。例如,如果感兴趣第一图像是针对其类别、种类或身份已知但还不是伪图像库的一部分的人员、对象、符号等等,则感兴趣伪图像可以被用于扩充一个或多个库,即,感兴趣伪图像可以被添加到一个或多个库。由此扩展的一个或多个库随后可以在将来被用于对感兴趣第一图像以及由此原始图像进行分类和/或标识。以此方式,伪图像库随着时间流逝对于图像分类和/或标识会变得更有价值。
在一些实施例中,可以在分类和/或标识过程中使用多个伪图像库,包括不同大小的库。分类和/或标识过程可以将感兴趣伪图像与所有库或库的子集进行比较。例如,比较过程可以按选定次序行进经过各个库(例如,从最小的库到最大的库),直至找到具有足够置信度水平的匹配,在找到该匹配之际该比较过程可以结束。
在一些实施例中,伪图像库不需要包括训练集成员的伪图像,即,库可以排除一些或所有训练集成员。例如,结合面部识别,可能存在这种情形:训练集提供面部特征的足够可变性以产生预定变换矩阵,该预定变换矩阵能够从各个个人中提取面部特征,而不管这些个人是否在训练集中。
在此类实施例中,无论对于面部识别还是其他类型的图像识别,训练集都可以被视为播种(seeding)预定变换矩阵,该预定变换矩阵有能力产生包含足以执行分类和/或标识的信息的感兴趣伪图像。一旦预定变换矩阵被很好地播种,训练集就可以被视为已经达到其目的并且由此对于比较步骤而言不再需要。作为刑法领域的特定示例,训练集可以由没有犯罪记录的个人构成,而伪图像库可以仅包括具有犯罪记录的个人。
前述内容仅仅是在本文所公开的图像识别技术的实践中可以使用的各种各样伪图像库的一些非限制性示例。一般而言,将调整在比较步骤中使用的一个或多个伪图像库以满足特定图像识别情况的需求。对该一个或多个库的调整也可以随着时间流逝在需求变化时发生。由此,可以添加或减去伪图像,并且可以基于初始或后续需求将库彼此组合或细分成各部分。在为任何特定应用选择库或库的集合时可以考虑的参数是使用一个或多个库实现的图像识别的准确性(置信度水平)、一个或多个库的全面性、处理速度、以及存储器要求。通常,在这些竞争的考虑因素之间将经常需要折衷。
可以按各种方式来执行感兴趣伪图像与一个或多个伪图像库的比较。例如,可以在感兴趣伪图像与库的伪图像之间计算欧几里得距离,其中较小的距离指示感兴趣伪图像与库的特定伪图像之间的对应性。作为另一示例,可以计算余弦相似度值(分数),即,可以计算cos(θ)值,其中θ是感兴趣伪图像与库的特定伪图像(两者都被视为向量)之间的角度。当感兴趣伪图像与库的特定伪图像对准或几乎对准时,θ等于零或接近零,以使得余弦相似度值为1.0或接近1.0,从而指示感兴趣伪图像与库的该特定伪图像之间的对应性。
无论使用哪种或哪些度量,由于库的伪图像是针对已知图像的,因此比较结果可以例如被用于确定与感兴趣伪图像相对应的第一图像是否是以下一项或多项:
(i)在已知图像的一个或多个种类或类别中,
(ii)特定的已知图像,
(iii)不在已知图像的一个或多个种类或类别中,以及
(iv)不是已知图像。
可以按各种方式来采用比较结果。一种基本用途是向用户提供关于已找到或还未找到“匹配”的视觉、口头或其他类型的通知。该通知通常将伴有报告,该报告可以如已知图像的名称那么简单,或者可以包括其他数据,包括对标识的置信度水平的指示。该报告可以具有视觉、口头或其他形式。在机器视觉的情形中,比较结果可以是例如由机器人执行的指令集,例如,用于以特定方式与所标识对象进行交互的指令。可以使用比较结果的其他方式通过本公开对于本领域技术人员而言将是显而易见的。
可以使用各种算法,通过对训练图像的矩阵X的分解来获得预定变换矩阵Φ。类似地,可以使用各种算法将感兴趣第一图像x变换成感兴趣第一伪图像a。下面是可以使用的适当算法的非限制性示例。
用于使用训练图像集来生成预定变换矩阵的算法
所公开方法的模式识别中稳健性的关键是预定变换矩阵。如上面讨论的,预定变换矩阵是从被用作训练集的第一图像集获得的。生成预定变换矩阵的过程包括将包含第一图像的训练集的矩阵分解成两个单独矩阵。将矩阵分解成两个单独矩阵是通常被表征为盲源分离(BSS)的办法,该办法在历史上被形成以标识或近似独立信号源。对BSS的一般讨论可以在Comon和Jutten(2010)以及Yu、Hu等人(2014)中找到。本文所公开的方法采用线性代数,包括对矩阵和(列)向量的运算以及对线性方程组的求解,对这些内容的一般讨论可以在Gill、Murray等人(1991)和Strang(2006)中找到。各方法还采用优化技术,对优化技术的一般讨论可以在文献(Gill、Murray等人(1991),Dantzig和Thapa(1997),Chen、Donoho等人(2001),Boyd和Vandenberghe(2004),Candes和Tao(2005),Donoho(2006),Comon和Jutten(2010),Donoho、Tsaig等人(2012),Yu、Hu等人(2014))中找到。
一般而言,预定变换矩阵的生成可以通过两步骤过程来实现。第一,训练集中还未数字化的每个图像被数字化并且根据需要被预处理成维度为m1×m2(例如,25×25=625)的第一图像。如上面讨论的,预处理优选地与将对要进行图像识别的原始图像执行的预处理相同。第一图像被进一步表示为M维向量(M=m1·m2),以使得每个第一图像可以形成训练集矩阵X的列向量。对于包括N个第一图像(例如,N个面部)的训练集,训练集矩阵X因此是M×N维矩阵。
在第二步骤中,矩阵X被分解成两个矩阵A和Φ。此处,Φ是预定变换矩阵。Φ的维度是M×K。A是K×N矩阵,其表示N个K维的第一图像。A的每一列是训练集的对应第一图像到其伪图像的变换,其中该伪图像的维度为K。=
使用第一图像的训练集,以使得与训练集的第一图像相对应的伪图像是稀疏的方式来生成预定变换矩阵。注意,伪图像不是唯一性的,而是取决于构成训练集的图像、以及如下面算法1中A和Φ的初始化步骤。然而,一旦已确定Φ,使用Φ生成的伪图像(例如,使用下面算法2生成的伪图像)就仅取决于Φ并且独立于伪图像生成过程中所使用的初始化,例如,如下面结合算法2所讨论的,伪图像生成过程中所使用的初始化可以是例如随机的。
在本文所公开的方法中,对BSS问题施加两个限制。第一,Φ和A中的所有元素都需要是非负的。第二,A需要是稀疏的。这些约束在获得用于生成伪图像的预定变换矩阵中是重要的。具体而言,这些约束对于稳健的图像识别是重要的。稀疏性约束导致将第一图像的不同形态特征编群成字典元素,以使得具有不同形态的第一图像不共享相同的有效系数。非负性约束迫使将一起出现在训练集中的特征编群在一起。这是通过防止使用可能导致从复杂特征组合中减去特征的负系数来实现的。非负性约束由此防止字典元素变得过于复杂,即,它防止在实际图像中未同时出现的复杂特征组合保留在分析中,如在允许负系数的情况下可能发生的那样。这两个约束的结果在于,可能会一起出现在第一图像中的特征被提取以获得少量字典元素,这些字典元素绑定这种共同出现,并且因此将第一图像中的特征组合定义为不同的字典元素。该布置由此使这些特征的字典元素与同样倾向于一起出现在第一图像中的其他特征的字典元素之间的区别最大化。
换言之,这两个约束在基于源特征之间的统计关系对源特征进行分类(聚集)中非常有效。例如,基于训练集中所使用的面部,鼻子的特定轮廓最终可能处于具有某些脸颊特征的一个字典元素中,而耳朵形状加上眉毛特征处于另一字典元素中。例如,如果训练集中的所有面部恰好具有比如说基本上相同的耳朵,则稀疏性约束将趋向于使耳朵与字典元素中捕获的其他特征捆绑,这是因为“耳朵”几乎没有信息内容来区分该特定训练集中的面部。相应地,在选择训练集时,针对广泛范围的特征具有足够的多样性以使得信息特征不会因施加于A的稀疏性约束而从字典元素中排除会是有价值的。注意,虽然稀疏性在驱使独立字典元素的形成中是有效的,但无法保证最大独立性。
在训练集矩阵X的分解中,目标是产生使以下方程两侧之间的误差最小化的矩阵A和Φ,而同时要求Φ和A中的所有元素是非负的(即,Φ≥0且A≥0)并且A是稀疏的:
X=ΦA
可以按不同形式来测量稀疏性。最常见的度量是L1和L0范数。当使用稀疏性的L1度量时,则伪图像的分量绝对值的总和将被最小化,而如果使用稀疏性的L0度量,则伪图像将具有最小数目的元素,即,由于非负性约束而将具有最小数目的正元素。当稀疏性由其L1范数定义时,最小化问题采取以下形式:
Figure BDA0002879147060000381
受制于A≥0;Φ≥0
此处,‖.‖p标示Lp范数,即,绝对值的p次幂之和的p次根(p>0)。在该记法中,‖.‖1标示向量a或矩阵A的L1范数,即,a或A中所有系数值的绝对值之和。由此,用于求解该问题的过程需要使方程两侧之间的Frobenius范数差值(即,欧几里得距离)最小化并使L1范数最小化。
对于L0范数(其是非零元素的数目),最小化问题采取以下形式:
Figure BDA0002879147060000382
受制于A≥0;Φ≥0
注意,L0范数不是典型的范数定义。此外,L0范数在实践中通常不使用,这是由于L0最小化是NP难解问题。使用L1范数不仅提供对自己稀疏性的度量,而且在解决最小化问题时还提供L0范数的最接近凸替代。还可以使用Lp范数来定义稀疏性,其中p大于0并且小于1,并且通常较小(例如,p=10-5)。除了L0、L1和Lp(0<p<1)之外,稀疏性度量还可以采取其他形式,诸如由Hoyer(Hoyer(2004))定义的稀疏性度量或者被称为基尼指数(Hurley和Rickard(2009))的稀疏性度量。注意,在上面的表达式中,λ是用于调节稀疏性约束的严格性的参数。在实践中,λ的值可以在过程行进时通过算法来选择。下面阐述了用于因变于迭代次数来选择λ的适当算法的代表性而非限制性示例。
在实践中,用于执行稀疏非负BSS的过程是凸优化问题。下面在算法1中阐述了适当算法的概要,该算法1首先将Φ和A初始化为非负随机矩阵以播种计算,并且随后迭代计算过程以满足所施加的约束直至达到收敛(针对该特定算法通过函数梯度净移动的缺乏来定义)。在各示例中,具体而言,在生成各示例中所使用的Φ矩阵中,使用非负盲源分离算法nGMCA(Rapin、Bobin等人(2013),Rapin、Bobin等人(2013))。该BSS算法是算法1的特定示例。使用L1范数来测量稀疏性。在每次迭代i,上一次迭代的A值(Ai-1)被用作用于确定(Ai)的初始值,并且同样地,上一次迭代的Φ值(Φi-1)被用作用于确定(Φi)的初始值。
算法1:
Figure BDA0002879147060000391
在该算法中λ(lambda)的值随着迭代次数i而变化。通常,λ开始于较大值以在过程开始时迫使高的稀疏性水平,并且随后随着较高的迭代而减小,最终值通常小于或等于1.0。例如,λ可以从以下类型的公式计算,应理解,如果期望,可以使用其他公式:
Figure BDA0002879147060000392
λi+1=λi-θ(λires)
Figure BDA0002879147060000393
在该公式中,i是迭代次数,并且σres是X-ΦiAi的元素的标准差,其中元素被视为数字集。
关于初始化I(即,最大迭代次数),在下面阐述的示例中,I被设置在500。本领域技术人员可以通过使用图像训练集执行初步计算来针对算法1的任何特定应用或可以用于获得Φ的其他算法确定I的适当值。在各示例中,当达到I或者梯度下降停止时,X的列与ΦA的列之间的L2差值被计算为误差度量,并且这些差值的中值被用作下面算法2中的误差阈值(ε)。
用于从第一图像生成伪图像的算法
生成第一图像的伪图像的过程是基于预定变换矩阵Φ的最小化过程。该过程被公式化为以下问题x=Φa的解,其中向量x是表示第一图像的M维向量,并且向量a是构成第一图像的伪图像的K维向量。目标是找到最稀疏的K维向量a,同时维持x=Φa方程两侧之间的最小误差。
例如在上面的线性代数教科书(Gill、Murray等人(1991),Strang(2006))中讨论的,该问题的唯一解的必要非充分条件是M≥K。如果M>K,则存在唯一解或者没有解;如果M=K并且Φ是满秩,则存在唯一解;如果M=K并且Φ不是满秩,则不存在唯一解;如果M<K,则不存在唯一解。
当K(第一图像的伪图像中的元素权重数目)被选择为大于M(第一图像中的分量数目)时,该系统是欠定的并且使用典型的线性代数方法没有唯一解。然而,由于稀疏性和非负性约束,令人惊讶地,该系统实现有效的图像识别。
在所公开的方法中,在产生预定变换矩阵期间所产生的伪图像的关键属性在于它们是稀疏的,这意味着在训练集的第一图像的给定伪图像中,仅有一小部分元素(例如,小于或等于20%,或者小于或等于10%,或者小于或等于5%,或者小于或等于1%)是活跃的(即,显著大于零,例如,大于或等于最大元素权重的1%,或者大于或等于最大元素权重的5%,或者大于最大元素权重的10%)。利用该属性,由Donoho(Chen、Donoho等人(2001),Donoho和Elad(2003),Donoho(2006),Donoho、Tsaig等人(2012))以及由Candes和Tao(Candes和Tao(2005),Candès、Romberg等人(2006),Candes、Romberg等人(2006))独立开发的理论表明,可以通过在求解最小化问题时施加稀疏性约束来获得唯一解。而稀疏性度量可以采取不同形式,如上面讨论的,最常用的稀疏性定义是L0和L1
使用L1最小化(Donoho(2006))的过程的示例是为了求解下式:
mina‖a‖1受制于‖x-Φa‖2≤∈
其中ε是x与Φa之间的差值的误差度量。
L1最小化问题可以通过凸优化规程,例如基于单纯形法来实现。这些技术可以在各种书籍和研究出版物(Gill、Murra等人(1991),Dantzig和Thapa(1997),Chen、Donoho等人(2001),Boyd和Vandenberghe(2004),Candes和Tao(2005),Donoho(2006),Donoho、Tsaig等人(2012))中找到。
值得注意的是,本文所公开的方法具有非负约束,这要求向量a的所有系数(元素权重)是非负的。由此,该问题被恰当地写为:
Figure BDA0002879147060000421
受制于x=Φa,a≥0
其中术语a≥0意味着a的所有分量为零或为正。
可以用于使用预定变换矩阵Φ来获得由向量a表示的伪图像的算法的代表性非限制性示例是Candes和Romberg(2005)的“l1 MAGIC”技术。在下面的示例中,使用Candes和Romberg的具有二次约束的Min-l1办法并带有修订,修订在于取逆时矩阵不需要为正定的,并且向量a的系数值需要为正,这是通过在算法结束时将负系数设置为零来实现的。算法1的∈值被用作误差度量。
在示例中所使用的算法结构如下:
算法2:
Figure BDA0002879147060000422
Figure BDA0002879147060000431
在示例中所使用的τ1、μ、η参数的值如下:
Figure BDA0002879147060000432
μ=10
η=0.001
该算法的目标是使满足约束‖x-Φa‖2≤∈的向量a的稀疏性最小化。这是优化问题,该优化问题规定在求解该问题时保留在受约束区域中。这意味着ai需要满足‖x-Φai2≤∈或
Figure BDA0002879147060000433
然而,应当注意,由于目标是稀疏性,因此仅仅满足‖x-Φai2≤∈并不指示已经到达具有经优化稀疏性的ai。确切而言,当被称为对偶间隙
Figure BDA0002879147060000441
的参数小于预定值(在下面的示例中为0.001)时达到优化结束。然而,在算法中未进行与对偶间隙的直接比较。替代地,使用对偶间隙参数来计算充当收敛保证的迭代次数(I),并且随后针对这些多次迭代运行该算法。
可以使用成本函数f将ai移向期望解。适当成本函数的示例是在各示例中使用的以下函数:
Figure BDA0002879147060000442
为了使该成本函数最小化并且由此找到满足‖x-Φa‖2≤∈并且是稀疏的期望向量a,可以使用以下步骤:
(1)使用对偶间隙参数来计算使成本函数最小化所需要的步骤次数;
(2)选择可行的起始点a0,即,满足约束‖x-Φa‖2≤∈约束的起始点(注意,尽管在示例中未使用,但如果期望,a0可以是可行区域中的随机起始点);
(3)为了从起始点到达成本函数的最小值,需要在函数值小于起始点处的值的方向上移动;为了找到该方向,以抛物线来近似起始点处的成本函数(二阶近似);
(4)随后以分析方式找到抛物线的最小值,并且a0在该方向上最大程度地移动而同时保持在可行区域中;
(5)在执行步骤(4)时,检查成本函数的下降以确定该下降是否在预先选择的百分比内,例如,在各示例中由起始点处的成本函数的线性模型预测的1.0%下降;
(6)如果下降不在预先选择的百分比内,则减小步长直至成本函数的下降落入预先选择的百分比范围内;
(7)从步骤(4)得到的新的点随后被用作起始点,并且重复步骤(3)到(6)直至成本函数的斜率低于预先选择的水平(例如,在各示例中为0.001);
(8)一旦斜率低于预先选择的水平,就改变τi的值(例如,乘以10),并且重复步骤(3)到(7)。
应当注意,可能花费多于一步骤来达到抛物线的最小值。在各示例中,使用50步骤的最大值,即,要么在50步骤之前达到抛物线的最小值,要么将在50步骤时所达到的点用作最小值。
算法2的上述结构使用了“for循环”;以下结构使用“while循环”,其中τ1、μ、η参数的值与上面相同。用于对用于获得a的上述规程以及用于寻找满足x=Φa方程的稀疏非负向量的其他规程进行编程的众多其他办法通过本公开对于本领域技术人员而言将是显而易见的。
Figure BDA0002879147060000451
Figure BDA0002879147060000461
在典型情形中,第一图像是其像素具有众多值的灰度图像。在一些情形中,第一图像可以是其像素只能具有两个可能值(例如,开或关)中的一者的二进制图像。在该情形中,K可以被选择成小于M以使得存在唯一解,如在上述线性代数教科书中讨论的(Gill、Murray等人(1991),Strang(2006))。当向K小于M的二进制图像应用上述技术时,这些技术找到该唯一解。然而,尽管施加了稀疏性,但唯一解结果并不是特别稀疏。符号的第一图像通常落入其中唯一解是可能的该类别中。
应当注意,所公开的方法不同于在压缩感测和稀疏信号恢复中所使用的那些方法(Donoho(2006),Elad(2010),Eldar和Kutyniok(2012)),这是因为在那些方法中,目标是基准地重构或近似原始信号。在所公开的方法中,所创建的伪图像与原始图像不相似并且以不同的维度创建。使用稀疏非负变换,从第一图像的变型以及受损或被遮挡第一图像生成的伪图像可以与未经掺改第一图像的伪图像几乎相同,如各示例中所示。
图42-44阐述了可以在本公开的实践中使用的代表性流程图。当然,这些流程图以及下面讨论的图45-46的那些流程图仅仅是出于解说本公开的实施例的目的而提供的,并非旨在以任何方式限制如由权利要求书限定的本发明的范围。
图42阐述了可以用于构造预定变换矩阵以用于将第一图像变换成伪图像的流程图。该流程图包括以下步骤:(1)获得面部图像集合,并且如果需要,将这些面部图像预处理成指定维度M=m1×m2的第一图像,(2)将第一图像组织成X矩阵,以及(3)对X矩阵执行稀疏非负分解,以获得预定变换矩阵Φ和训练集的伪图像的矩阵A。之后,如果期望,可以将A的列组织为伪图像库。此外,如果期望,可以对矩阵A执行统计分析(诸如,PCA、分层聚类、和/或使用支持向量机的分析)以对伪图像进行分类。仅作为一个示例,使用该类型的技术,人类面部可以被分类为男性或女性面部。
图43阐述了可以用于执行图像识别、具体而言面部识别的流程图。该流程图包括以下步骤:(1)获得感兴趣面部图像(感兴趣原始图像),(2)如果需要,将原始图像预处理成指定维度M=m1×m2的感兴趣第一图像,(3)使用预定变换矩阵对感兴趣第一图像执行稀疏非负变换以产生感兴趣伪图像,(4)将感兴趣伪图像与至少一个伪图像库进行比较,以及(5)报告比较结果。
图44阐述了可以用于制备或扩充一个或多个伪图像库的流程图。该流程图包括以下步骤:(1)获得要被包括在该一个或多个伪图像库中的面部图像,(2)如果需要,将面部图像预处理成指定维度M=m1×m2的第一图像,(3)使用预定变换矩阵来对第一图像执行稀疏非负变换以产生伪图像,以及(4)将伪图像连同至少一些索引/标识信息纳入该一个或多个伪图像库中。
在上面讨论的图42-44和下面讨论的图45-46的流程图中或在基于本公开来开发的其他流程图中阐述的步骤可以容易地使用各种计算机装备和各种软件编程语言(例如,非常适合于矩阵运算的MATLAB或OCTAVE)来实现。可以在本公开的实践中使用的其他编程语言包括但不限于FORTRAN、C、C++、PYTHON、PASCAL,BASIC等等。如果期望,可以在本公开的实践中使用一种以上编程语言。
来自计算的输出可以是电子和/或硬拷贝形式,并且可以按多种格式(包括表格和图形形式)显示。例如,可以使用市售的数据表示软件(诸如,作为MATLAB和OCTAVE的一部分的那些数据表示软件或MICROSOFT的EXCEL程序、R或其他软件包的那些数据表示软件)来制备图形。
可以在其上存储有指令的非瞬态计算机可读介质上向用户提供用于实现本公开的程序,这些指令能够由计算机处理器执行以执行该过程的步骤。这种介质的非限制性示例包括磁盘、CD、闪存驱动器等等。也可以通过因特网将程序下载到用户。另外,本公开的过程可以通过例如“云”计算在线提供给用户。该过程可以在各种计算平台上执行,这些计算平台包括个人计算机、工作站、大型机、超级计算机等等。
预定变换矩阵可以被实现为计算机硬件,包括现场可编程的计算机硬件。例如,预定变换矩阵可以被直接编程到计算机芯片(例如,微芯片)中,并且可以通过使用可编程器件(例如,FPGA)在现场更改。一旦采用了足够大的训练集来确定预定变换矩阵,通常将不需要附加的学习,并且固定的预定变换矩阵可以跨不同平台(不同机器)使用,并提供作为硬实现的设备(例如,固件)。硬件实现可能特别适合于已建立的图像识别系统。
如紧挨的上文提到的,一旦通过上面讨论的方法确定预定变换矩阵,该预定变换矩阵通常将不需要附加的学习。然而,在需要附加学习的情形中(例如,为了提高稳健性或准确性),可以使用两种办法来产生“经扩充”预定变换矩阵。这两种办法将被称为“从头(denovo)”和“顺序(sequential)”办法。由于在执行图像识别时可以按与现有的预定变换矩阵相同的方式来使用通过附加学习得到的经扩充预定变换矩阵,因此术语“预定变换矩阵”将理解为包括现有(例如,原始)预定变换矩阵和通过附加学习产生的经扩充预定变换矩阵两者。还将理解,如果期望,可以使用从头办法、顺序办法、或这些办法的组合执行扩充多次。
附加学习的从头办法使用上面讨论的用于产生原始预定变换矩阵的方法来产生经扩充预定变换矩阵。根据上面讨论的方法,通过形成第一图像的M×N维X矩阵并且随后将该X矩阵分解成M×K维预定变换矩阵(Φ矩阵)和与训练集的第一图像相对应的伪图像的K×N维A矩阵来一次利用所有训练图像。
根据从头办法,一次使用训练集的所有第一图像的该过程进行重复,但以较大(经扩充)训练集(即,具有更多列的X矩阵)进行重复。具体而言,形成M×(N+N’)维X矩阵,其中N’是新纳入的图像的数目(N’≥1)。该矩阵随后被分解成M×K维预定变换矩阵(经扩充Φ矩阵)以及与经扩充训练集的第一图像相对应的伪图像的K×N+N’维A矩阵。由于该过程涉及使用非负随机数对A矩阵(以及Φ矩阵)进行初始播种(参见上面算法1),因此所得到的经扩充预定变换矩阵一般将与现有(先前)变换矩阵充分不同,以要求重新计算曾使用先前矩阵生成的伪图像库。由此,除了耗时之外,该办法还可能损坏伪图像与其他数据集(例如,犯罪记录等等)之间的先前指定关联。
根据第二种办法(顺序办法),可以大幅减小或完全消除针对这种重新计算的需求。如其名称所暗示的,顺序办法执行顺序学习,其中Φ矩阵和A矩阵基于被纳入训练集中的一个或多个新的第一图像进行更新,而无需如从头办法中那样从头重新开始。该方法提供比从头学习更高效的优势。重要的是,一般而言,它能够更新训练集的伪图像,而不会影响其身份。
作为在使用从头或顺序办法来扩充现有预定转换矩阵之前的初步步骤,确定该矩阵实际上是否需要扩充以便能够生成新的第一图像或新的第一图像集合的伪图像通常将是恰适的。图45阐述了用于执行这种初步查询的示例性流程图。如该图的第一框中所示,该过程的输入是现有预定变换矩阵Φ0和新的第一图像集合Y(其可以是单个新的第一图像)。如下面讨论的,由于顺序办法使用与用于产生Φ0的训练集相对应的现有伪图像集A0,因此A0也被示为图45中的输入,但在采用从头办法时不使用A0
如图45的计算步骤(该图的第二框)中所示,使用Φ0和Y,使用与上面算法1的那些规程类似的规程针对Y计算伪图像集
Figure BDA0002879147060000501
但仅具有针对A的最小化,而不是针对A和Φ两者的最小化。由此,λ和I与算法1中一样,图45的判定框(是/否框)中所使用的ε也与算法1中一样。如判定框中所示,当误差E0小于或等于ε时,可以继续使用Φ0而无需扩充。该过程还生成该一个或多个新的第一图像的伪图像
Figure BDA0002879147060000502
该伪图像
Figure BDA0002879147060000503
例如可以被用于扩充一个或多个伪图像库。由此,虽然Φ未被扩充,但伪图像通过
Figure BDA0002879147060000513
的计算被扩充。
当图45的计算框产生大于ε的E0值时,该过程行进至图46。(注意,如果期望,可以在不首先执行图45的过程的情况下执行图46的过程;同样地,可以在不首先执行图45的过程的情况下开始从头办法。)图46的过程假定已使用N个第一图像的集合来产生预定变换矩阵Φ0和对应的伪图像集合A0。当新的第一图像或新的第一图像集合Y要被纳入该系统中时,该方法使用L1最小化搜索使以下成本函数最小化的新预定变换矩阵Φ(经扩充预定变换矩阵)和伪图像A:
Figure BDA0002879147060000511
在图46中阐述用于执行该最小化的过程的概要,并且下面在算法3中阐述可以与该概要联用的算法的代表性非限制性示例。如通过本公开对于本领域技术人员而言将显而易见的,如果期望,可以使用用于执行顺序过程的其他算法和概要。
算法3:
Figure BDA0002879147060000512
Figure BDA0002879147060000521
算法3中所使用的I和λ的值是以与上面结合算法1所讨论的相同方式来确定的。如在算法1中一样,在每次迭代i,上一次迭代的A值(Ai-1)被用作用于确定(Ai)的初始值,并且同样地,上一次迭代的Φ值(Φi-1)被用作用于确定(Φi)的初始值。
图46和算法3的过程能够基本上保留训练集的先前成员的现有伪图像以及现有伪图像库。在现有预定变换矩阵Φ0是稳健的情况下尤其如此。对算法3的检查表明,并非将Y与第一图像的原始训练集(X矩阵)级联,而是将Y与作为X的代理的Φ0A0级联。由此,Φ0在该过程中活跃地使用,并且藉此可以影响经扩充预定变换矩阵的内容以及由此影响使用该经扩充矩阵产生的伪图像。在Φ0是稳健的情况下,经扩充预定变换矩阵不需要与Φ0过度不同以涵盖在扩充过程中被引入训练集的新的第一图像。因此,使用原始预定变换矩阵(Φ0)和经扩充预定变换矩阵生成的伪图像不需要过度不同,从而使得更有可能保留现有伪图像与其他数据集之间的先前指定关联。
图47示意性地解说了用于使用本文所公开的方法执行图像识别的计算机系统200的各组件的非限制性架构。在该非限制性示例性实施例中,系统200包括一个或多个计算机处理器201以及其中存储有数据和指令的一个或多个存储器203,这些数据和指令在由该一个或多个计算机处理器使用时可以执行以下步骤:将第一图像变换成伪图像,并且随后将该伪图像与伪图像库进行比较和/或将该伪图像纳入一个或多个伪图像库中。该一个或多个计算机处理器以及一个或多个存储器还可以被用于将原始图像变换成第一图像。可以使用相同或单独的计算机系统来计算一个或多个预定变换矩阵以用于执行从第一图像到伪图像的变换。在图47中分开地示出了预定变换矩阵205和伪图像库207,应理解,它们可以是一个或多个存储器203的一部分或者可以被硬编码到该一个或多个计算机处理器201中。
除了其处理器/存储器单元209之外,计算机系统200还可以包括I/O设备211,该I/O设备211通过I/O接口213将所获取的信号传送到处理器/存储器单元。这些I/O设备可以被用于例如将原始图像、第一图像、伪图像库和/或预定变换矩阵加载到系统存储器中。这些设备还可以被用于将操作者命令传送到系统。由处理器/存储器单元209执行的计算结果(例如,伪图像、预定变换矩阵、伪图像库、比较报告等等)可以通过输出/显示单元215来输出和/或存储在非瞬态计算机可读存储介质217中。
在不旨在以任何方式限制本发明的范围的情况下,通过以下非限制性示例进一步解说本发明。
示例1
该示例解说了本文所公开的图像识别技术针对面部识别问题的应用。
图1示出了期望获得其身份的感兴趣人员的原始图像。感兴趣人员处于一群其他人中,如在本文所公开的面部识别技术的应用中通常将是这种情形。图2A示出了初始(第一轮)第一级预处理,其中图1被裁剪以仅仅突出显示感兴趣人员的面部。经裁剪面部的维度具有相同数目的垂直和水平像素;具体而言,经裁剪图像具有10,000像素(100×100)。裁剪是使用开源软件OPEN-CV来执行的,但也可以使用面部检测软件(诸如GOOGLE VISION API或CLANDMARK)来进行。
图2B示出了进一步的第一级预处理,其中图2A图像被下采样到预先指定的维度(m1×m2=25×25)。在该示例中,下采样是通过在4×4像素子区域上进行局部平均来实现的。该下采样将图2A的100×100像素减小到图2B的25×25像素。像素的灰度值被归一化为处于0至1之间。图2B图像是该示例的感兴趣第一图像(步骤(a)第一图像),并且由此对于该示例M为625。
从自动的基于web的图像搜索获得2,000个面部图像的训练集(N=2,000)并使其经过用于从图2A获得图2B的相同第一级预处理。图3示出了该训练集中的五个面部图像。
使用2,000个训练图像的完整集合和上面的算法1,获得由1,500个字典元素构成的Φ矩阵(即,预定变换矩阵)(即,K=1,500并且Φ是625×1,500矩阵)。图4示出了以此方式获得的1,500个字典元素中的36个字典元素。在图4中,字典元素被显示为二维阵列,而不是预定变换矩阵的列。
如上面讨论的,产生预定变换矩阵Φ的过程为训练集中的每个图像生成伪图像。每个伪图像具有与Φ中的列数(字典元素数目)相同数目的元素权重(分量),即,每个伪图像具有K个元素权重,其在该示例中为1,500。图5示出了以此方式生成的2,000个伪图像中的5个伪图像。在该图中,伪图像的元素权重被显示为二维灰度阵列,而不是如它们在计算机系统中的典型形式那样的数值向量。可以看到,来自现实世界的对象(即,人类面部)可以在第一图像中被感知但在伪图像中无法感知。
图6示出了与图2B中所示的面部相对应的伪图像的活跃元素,其中活跃元素是具有显著大于零的系数(元素权重)的字典元素。该图的伪图像是使用算法2和其一些字典元素在图4中示出的预定变换矩阵来获得的。
伪图像的最高12个字典元素(即,具有最大元素权重的12个字典元素)在图6(其示出了所有1,500个字典元素)的底部面板中由暗框标记。伪图像中每个元素的灰度指示该元素的系数值。
图7中示出了活跃元素的替换视图,包括有效字典元素的系数值(元素权重)。每个元素的系数值由与该元素相对应的线条的高度来指示。
对图2B中以及由此图1中所示面部的标识是通过计算感兴趣伪图像(即,图6的伪图像)与伪图像库的每个成员之间的相似度分数来执行的。出于该示例的目的,伪图像库是训练集的伪图像集,如上面讨论的,该伪图像集是在生成预定变换矩阵Φ的相同时间生成的。相应地,伪图像库的S值为2,000。函数cos(θ)对于该示例以及在示例2-10中被用作相似度分数。
图8示出了通过将图6的感兴趣伪图像与从中取得图5的伪图像库部分的完整伪图像库进行比较来对感兴趣第一图像以及由此原始图像进行标识的报告。具有最高分数的第一图像与感兴趣第一图像相同。可以看到,其相似度分数显著大于下一最高分数,由此说明在K/M为2.4(K=1,500;M=625)的情况下该系统的标识稳健性。如由MATLAB中的RANK()函数确定的X矩阵的秩为625,以使得该示例的K/R和K/M值两者都为2.4,其中每一者指示稳健性。该示例1的K/M和K/R值也是下面示例3-6的K/M和K/R值。
示例2
该示例解说了减小K/M和K/R比率的值如何损害图像识别规程的稳健性。
使用与示例1中相同的规程和训练集,其中K值被设置在500而不是1,500,并且由此,尽管伪图像库仍然具有2,000个伪图像,但由于K不同,因此伪图像不同。K/M和K/R值均为0.8,这是由于X矩阵与示例1中的相同,并且由此与示例1中一样具有与M值相等的相同R,即,625。该示例2的0.8的K/M和K/R值也是下面示例7的K/M和K/R值。
图9-13示出了结果。将图9与示例1的图4进行比较,可以看到,减小K改变了字典元素。对于较小的K值,字典元素纳入较少特征,并且比图4中的那些字典元素粗略,但仍然类似于面部。
将图10-12与示例1的图5-7进行比较,可以看到,减小K值导致更多活跃元素,这意味着伪图像不那么稀疏。稀疏性的降低对感兴趣伪图像与伪图像库的比较有影响。具体而言,与图8中的少量面部具有中等值相比,如图13中所示,伪图像库中多得多的面部具有相似度分数的中等值。尽管相同的正确面部被标识,但减小K值导致正确面部的相似度分数与最接近的第二名的相似度分数之间的差值(对比度)对于该示例而言比示例1要小得多。因此,稳健性受到损害。
下面通过示例3-6和示例7进一步展示了稳健性的这种降低,在示例3-6中,当K为1,500时,各种类型的非理想面部图像被成功标识,在示例7中,当K被减小到500时(由此将K/M和K/R比率从示例3-6的高于1.0变成示例7的低于1.0),无法实现成功标识。
示例3
该示例解说了该技术对其面部的一部分被遮挡(在该情形中,被眼镜或太阳镜遮挡)的人执行面部识别的能力。使用与示例1中相同的规程、训练集和伪图像库,不同之处在于,对于该示例,感兴趣第一图像是来自训练集的、通过在眼睛周围包括一副眼镜或太阳镜进行修饰的面部。训练集中的面部保持相同;仅寻求其身份的感兴趣第一图像被改变。
图14和15示出了结果。使用示例1的预定变换矩阵Φ和算法2获得的伪图像示出更多活跃元素,具体而言,对于图14和15,针对最大元素权重的0.3%的阈值分别示出原始第一图像的4.3%和2.6%活跃元素,相对于在使用用于原始图像的阈值(即,基于原始第一图像的最大元素权重的阈值)情况下经修饰(非理想)第一图像的18.9%和19.1%活跃元素。然而,附加元素的系数值相对较小,即,在图14和15的中间栏中基本上不可见。由此,尽管非理想第一图像的伪图像的稀疏性受到损害,但仍然存在相当大的稀疏性。重要的是,如在这些中间栏中可以看到,主要的高元素权重(高系数值)字典元素在经修饰面部图像与原始面部图像之间相同。
如图14和15的右栏中所示,尽管在分析中使用的感兴趣第一图像戴眼镜的事实,但相似度分数清楚地将原始面部标识为正确面部。
示例4
该示例解说了该技术对具有不在训练集中的面部表情的人执行面部识别的能力。使用与示例1中相同的规程、训练集和伪图像库。训练集中的面部通过从微笑变为非微笑(图16的顶部面板)或从非微笑变为微笑(图16的底部面板)来修饰。经修饰面部随后被用作感兴趣第一图像,训练集中的图像不变,即,预定变换矩阵Φ和用于比较的伪图像库不变。
图16的右栏示出了具有不同表情的面部与库中的伪图像之间的相似度分数。最高分数正确地标识原始面部。
示例5
该示例解说了该技术对其面部的多个部分被遮挡(在该情形中,被太阳镜、面部毛发、或两者遮挡)的人执行面部识别的能力。使用与示例1中相同的规程、训练集和伪图像库。对于该示例,感兴趣第一图像是来自训练集中的通过在眼睛周围包括一副太阳镜、在嘴上方包括胡子、或两者来修饰的面部。训练集中的面部保持相同;仅寻求其身份的感兴趣第一图像被改变。
图17示出了结果。尽管在分析中使用的感兴趣第一图像是眼睛周围戴有太阳镜、在嘴上方有胡子、或两者的事实,但经修饰面部与训练集的伪图像库之间的最大相似度分数是原始面部。
示例6
该示例解说了该技术对其面部的一部分被物体(其在实践中可以是帽子、围巾、面罩等等)遮挡的人执行面部识别的能力。使用与示例1中相同的规程、训练集和伪图像库。对于该示例,感兴趣第一图像是来自训练集的、被黑色面罩遮挡的面部,该黑色面罩使面部的一半无法被看到。面罩被放置成遮挡面部的不同部分(即,上半部、下半部、左半部或右半部)。图18和19示出了被遮挡面部与训练集的伪图像库之间的相似度分数。在这些情形中的两种情形中(图18中的左手侧情形),正确面部是具有高相似度分数的面部之一,但不是具有最高分数的面部;在其他六种情形中(图18中的右手侧情形和图19中的所有情形),原始面部是具有最高分数的面部。
示例7
该示例示出了将示例3-6中所使用的1,500的K值减小到500的影响。如上面提到的,随着K的减小,该示例的K/M和K/R值为0.8。
具体而言,图20和21对应于示例3的图14和15,图22对应于示例4的图16,图23对应于示例5的图17,并且图24和25对应于示例6的图18和19。使用与示例1中相同的规程和训练集,不同之处在于,对于该示例,K是500而不是1,500,并且由此,尽管伪图像库仍然具有2,000个伪图像,但由于K不同,因此伪图像不同。
如在图20-25中可以看到,在每种情形中错误的面部被标识,从而说明当K/M和K/R值小于1.0时缺乏标识非理想图像的稳健性。
示例8
该示例解说了通过增加K的值并且由此增加K/M和K/R的值来实现对非理想第一图像执行的图像识别的甚至更大稳健性的能力。
重复示例5和示例6的女性面部,其中K等于2,500而不是1,500,以使得K/M和K/R比率均为4.0而不是2.4。图26和27示出了分析结果。
从这些图中可以看到,正确面部的相似度分数现在远大于最接近的第二名,即,相似度分数之间的对比度更大。与K为1,500的图17和18相比,其中K等于2,500的图26和27的正确面部现在在相似度分数方面基本上是孤立的。此外,对于示例6的女性面部,正确面部现在被标识,而不管被遮挡的面部部分。已发现,女性面部倾向于比男性面部更难以标识,并且由此可能需要某种程度上更大的K/M和K/R值来实现稳健的标识,如该示例和示例6的结果所解说的。
示例9
该示例解说了该技术对不在训练集中的人执行面部识别的能力。
所使用的图像来自耶鲁面部图像数据库,该数据库可以在http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html找到。具体而言,使用了15个人,每人具有11种不同的面部表情或照明条件。图28示出了所使用的165个面部。图28中的每一行针对一不同的个人,其中当横跨一行移动时示出了该个人的不同面部表情或照明条件。
图28中的每个面部图像被视为感兴趣第一图像,并使用与示例1中的相同规程和训练集被变换成感兴趣伪图像,但其中K等于2,500而不是1,500,从而使K/M和K/R比率是4.0而不是2.4。随后计算所得到的成对感兴趣伪图像之间的相似度分数。
图29示出了这15个人及其11个面部之中的成对分数(总共27,225次比较)。较暗的灰度指示较高的相似度分数。属于同一人的面部被编群并通过沿轴的数字来指示。该图中沿对角线的编群表明,即使在不同的表情和照明条件下,给定人员在他/她自己的面部图像之间具有高相似度分数。另一方面,不同的人的伪图像之间的相似度分数较低。该图形由此表明,尽管面部表情和照明条件不同,但属于同一人员的面部的其伪图像高度相似,但对于属于不同人员的那些面部而言不相似。
图30示出了来自图28的耶鲁数据库的面部的伪图像与示例1的训练集面部的伪图像之间的相似度分数。这两组不相关面部的伪图像之间的相似度分数较低。
由此,该技术能够确定给定的个人是否是伪图像库的一部分并且还能够将具有不同面部表情和不同照明条件的特定个人的第一图像编群,即使该个人不是用于生成在产生伪图像时所使用的预定变换矩阵的训练集的一部分亦如此。
示例10
该示例解说了该技术执行符号识别的能力。
图31示出了来自世界语言的1,000个字母和字符。这1,000个符号被用作训练集(即,N=1000)以产生具有800个字典元素的预定变换矩阵Φ(即,K=800),该预定变换矩阵随后被用于生成英文大写字母“H”和中文“並”字符(在掺改和未掺改的情况下)的伪图像。
训练集中的每个符号以及测试中所使用的“H”和“並”字符具有256个像素(即,M=256),从而给出Φ矩阵的K/M比率为3.1。预定变换矩阵由此将每个符号从256维空间变换到800维空间。如使用上面在示例1中述及的MATLAB RANK()函数确定的X矩阵的秩为253,因此K/R比率为3.2。在计算Φ期间所产生的A矩阵被用作伪图像库(S=1,000)以供与“H”字母和“並”字符的伪图像(在其经掺改和未经掺改两种形式中)进行比较。如在先前示例中一样,算法1被用于生成Φ矩阵,并且算法2被用于将第一图像变换成伪图像。
图32示出了针对未经掺改字母“H”(顶部面板)和未经掺改“並”字符(下部面板)的结果。该图中所示的相似度分数是感兴趣伪图像的元素权重与伪图像库的伪图像的元素权重的cos(θ)函数值。可以看到,在每种情形中都找到正确的字母/字符。在英文大写字母“H”的情形中,第二高的相似度分数是希腊大写字母“eta”,其出现在图31的第三行最后一列中。可以看到,该希腊字母与英文字母之间的差异很小,但本文所公开的图像识别规程能够区分这两个字母。
图33示出了针对受损第一图像(具体而言,像素缺失(像素值被设置为等于零)的第一图像)的结果。再次,尽管图像受损,但该规程容易地标识正确的字母/字符。
如上面提到的,对于二进制图像(诸如图31的符号),为了稳健的图像识别而对K的要求通常可以放宽。该影响在图34中解说,其中图34重复图33,但其中K等于100而不是800。由此,作为图33的3.1的K/M比率和3.2的K/R比率的替代,图34具有仅为0.4的K/M和K/R比率。
从图34中可以看到,即使在该低K值情况下,该规程也能够标识受损字母“H”和受损“並”字符。与图33相比,稳健性明显受到损害,如由大量具有显著相似度分数的符号所证明的,但该系统仍然足够稳健以找到正确符号。
图35进一步表征将K从800变为100的影响。该图的面板标绘了感兴趣伪图像与正确伪图像之间应变于感兴趣第一图像中的像素数的误差(具体而言,1-cos(θ)值)。具体而言,来自图31的1,000个符号中的每个符号的随机像素集合被用作感兴趣第一图像,这些感兴趣第一图像被转换为感兴趣伪图像,并且随后将这些感兴趣伪图像与未经掺改符号的伪图像进行比较。随机集合中的像素数沿水平轴标绘,而1-cos(θ)值沿垂直轴标绘。具体而言,数据点是这1,000个符号的均值,实线是中值,而阴影是余弦误差的方差。上部面板针对K=800,而下部面板针对K=100。
如在图35的下部面板中可以看到,即使对于K=100,当像素数大于总像素数的约50%时,正确标识的可能性也大于约80%。对于K=800,稳健性显著更好,其中在感兴趣第一图像中仅存在256个像素中的40个像素(15.6%)的情况下,中值正确标识达到100%。该结果解说了使用伪图像(具体而言,其中感兴趣第一图像已被变换到较高维空间中的伪图像)来执行图像识别的意外能力(意外稳健性)。
示例11
该示例比较了用于创建经扩充预定变换矩阵的从头办法和顺序办法。该示例使用图36的1,000个字母和字符作为第一图像(N=1,000),每个第一图像是16×16的二进制像素阵列(M=256)。该示例中所使用的K值为1,000,从而给出K/M比率为3.9。
M K维预定变换矩阵是以两种方式来计算的。第一,一次使用图36的所有字母和字符,如在使用用于扩充预定变换矩阵的从头办法情况下所做的那样。算法1被用于计算预定变换矩阵。
第二,作为顺序办法的极端示例,依次使用图36的各字母和字符。算法1被用于第一字母/字符,并且之后重复使用算法3(999次),其中上一次计算的预定变换矩阵被用作后续计算的现有预定变换矩阵。
图37和38中示出了这两种办法所得到的1,000个字典元素,其中图37是针对从头办法,而图38是针对顺序办法。目视检查揭示了通过这两种方法计算的预定变换矩阵的字典元素之间的高的相似度水平。
图39量化了图37和38的字典元素之间的相似度。具体而言,该图标绘了通过顺序学习和通过头学习学到的字典元素之间的余弦相似度。热图指示这两种学习方法之间的成对相似度分数。高分数(较暗色彩)指示高的相似度水平。对角暗线指示几乎相同的元素。可以看到,这两种学习方法对于前面约850个元素产生几乎相同的字典元素集合。后150个左右元素区别较大。可以认为这是因为前850个元素可能捕获了所有重要特征组合,而后150个左右元素仅捕获了准确性并且对于稳健性而言是不需要的。
图40和41解说了使用顺序办法获得的预定变换矩阵的进一步特性。图40是对预定变换矩阵的字典元素的256个分量之间的成对相关性的标绘。大量非对角线值的存在指示字典元素的各个分量中的大量信息内容,这对于稳健的图像识别是期望的。图41是针对训练集(图36)使用顺序办法产生的伪图像的分量之间的成对相关性的标绘。缺乏大量非对角线值指示第一图像在被变换到伪图像空间中时具有实质上唯一性表示,这对于稳健的图像识别是期望的。
工业实用性
如上面讨论的,本文所公开的图像识别技术和相关联计算机系统的主要应用之一在于人类面部识别。结合该申请,在一个实施例中,本文所公开的面部识别技术可以被用于使用从图像捕获设备(诸如相机和视频记录器)捕获的图像以及用以检索相关信息的一个或多个数据库来标识人员。例如,在安全检查点的环境中,可以直接从面部图像标识步行通过检查点的人员。替换地,本文所公开的图像识别技术可以被用于从捕获人员的步态结构的身体图像或图像序列中标识该人员。作为进一步替换方案,可以使用面部图像数据、身体图像数据和步态数据中的两个或更多个数据的组合来标识人员。
在这些类型的实现中,将标识人员而不必产生个人标识。此类实现将减少对其他形式的标识的需求。在刑事司法系统的情形中,面部图像、身体图像和/或步态图像可以与现有犯罪数据库联用来标识犯罪者,以确定已知犯罪分子在特定时间是否出现在特定地点。在消费者标识的情形中,可以识别再次光顾的顾客走进商店,以允许销售员基于该顾客的购买历史来推荐产品。在电子商务环境中,所公开的技术可以允许使用面部图像、身体图像、步态图像或其组合作为标识,从而消除对其他形式的标识的需求。在知晓人员身份的情况下,可以直接向该人员的信用卡或借记卡帐户开具账单,从而消除对现金或信用卡或借记卡的需求。
除了面部识别之外,所公开的技术还可以用于其他形式的成像。例如,可以按与面部图像相同的方式来处理动物或其他生物(例如,植物、细胞、器官、组织或病毒)的图像以产生伪图像,该伪图像随后可以与已知伪图像的库(数据库)进行比较。可以通过医学成像设备(诸如MRI、fMRI、X射线、CT以及类似设备)来生成受分析图像。由显微镜产生的图像(例如,血液和组织样本的图像)以及序列形式(例如,遗传序列)或轨迹形式(例如,EKG和EEG轨迹)的图像也可以被用作原始图像。感兴趣伪图像与伪图像库的比较结果可以例如被用作疾病诊断的一部分和/或用于医疗规程中。
本文所公开的技术的其他应用包括出于生物特征识别目的而单独或组合地使用人员的签名、视网膜、指纹或其他生物特征。可以与面部图像相同的方式来对待对象组装件(例如,由艺术家创作的拼贴作品)。实际上,伪图像可以被用于鉴定艺术家的作品或证实声称由特定制造商生产的物品(例如,现代或古董家具)的真实性。
所公开的方法可以应用于军事情况,以提供对潜在威胁的高置信度识别,并在高度变化的条件下区分友好和敌对设施。例如,该方法可以应用于在诸如雾、沙尘暴、烟雾、暮色或夜晚等条件下标识敌方坦克,其中坦克处于伪装或部分隐藏。
所公开的方法可以被用于例如使用通过检测到人眼无法直接可见的模式的传感器获取的图像来进行远程感测。例如,声纳或红外光谱图像可以被用于例如识别矿物、气体或油沉积物。
更一般而言,对于本领域技术人员将显而易见的是,所公开的图像识别技术可以用于所有形式的机器视觉中。例如,所公开的方法可以应用于图像或图像序列,以在自主机器人设备、车辆或船只中标识车辆、障碍物、交通标志和通行状况,并向中央决策方(例如,计算机)通知现有状况。所公开的方法可以用于在机械、电气和电子制造中标识故障零件。例如,通过将伪图像用于故障电子电路与完好电子电路,所公开的方法可以用于正确且快速地标识有缺陷电路。
这些技术不仅可以用于静止图像,而且通过将序列中捕获的图像视为级联图像,这些技术还可以用于识别图像序列中的人员、动物、对象或模式。即,感兴趣对象的图像序列可以被级联或变换成新图像,并且可以使用所公开的方法对该新图像进行变换和分析。
伪图像还可以被组合以构造新的第一图像,该新的第一图像随后可以被变换成新的较高层级伪图像。该多层办法可以例如用于本文所公开的图像识别技术的人工智能应用中。仅作为一个示例,在质量控制环境中,通过将伪图像用于成品机器的零件,制造商可以通过以下操作来确定是否所有零件已被包括在特定的成品机器中:(i)将各零件的伪图像组合成第一图像,(ii)获得该第一图像的伪图像,以及(iii)将该伪图像与实际成品机器的伪图像进行比较以确定是否所有零件都存在。。
所公开的技术可以结合搜索引擎来使用,以促进学习、标识人员和对象、以及检索相关信息。例如,搜索引擎可以被用于生成伪图像库,其随后可以与由图像捕获设备所捕获的图像进行比较。搜索引擎可以通过标识作为查询主体的人或对象来对查询进行响应。在一个场景中,某人可以获得植物的图像并将该图像发送到搜索引擎,搜索引擎随后将返回正确标识的植物和相关联信息。在另一场景中,可以将主体可能希望了解更多信息的人员的图像发送到搜索引擎,搜索引擎随后将返回期望的信息。例如,在社交环境中,检索到的信息可以是简单地对与该人员较早相遇的时间和情况的快速提醒。在这些和其他应用中,由与计算机相关联的图像捕获设备(例如,智能电话的相机或被纳入一副眼镜中的相机)产生的图像可以被用于实时搜索现有数据库(通过搜索引擎提供商或存储在设备上的个人数据库),以通过伪图像比较的手段来检索期望的信息。
本公开的特征
基于前述内容,除了上面在“概述和一般描述”中阐述的本公开的六个方面之外,本发明还包括但不限于以下特征。这六个方面和以下特征以及它们的各个段落和子段落可以在任何和所有组合中使用。
特征1:一种方法,包括:
(a)在计算机系统中接收图像;
(b)使用该计算机系统,通过使用预定变换矩阵对该图像执行稀疏非负变换以将该图像变换成伪图像;
(c)使用该计算机系统将该伪图像与已知图像的伪图像库进行比较;以及
(d)使用该计算机系统输出该伪图像与该已知图像的伪图像库的比较结果;
其中该图像具有M个分量,该伪图像具有K个分量,并且K大于或等于M。
特征2:一种方法,包括:
(a)在计算机系统中接收图像;
(b)使用该计算机系统,通过使用预定变换矩阵对该图像执行稀疏非负变换以将该图像变换成伪图像;
(c)使用该计算机系统将该伪图像与已知图像的伪图像库进行比较;以及
(d)使用该计算机系统输出该伪图像与该已知图像的伪图像库的比较结果;
其中该图像具有M个分量,每个分量具有两个可能值中的仅一者。
特征3:如特征1或2所述的方法,其中,该计算机系统使用至少一个L2范数来执行该稀疏非负变换。
特征4:如特征1、2或3所述的方法,其中,该预定变换矩阵是通过包括以下操作的方法来获得的矩阵:使用该计算机系统对训练图像的矩阵执行稀疏非负分解。
特征5:如特征4所述的方法,其中,该训练图像的矩阵是M×N矩阵,其中N大于或等于M。
特征6:如特征4或5所述的方法,其中,该计算机系统使用至少一个Frobenius范数来执行该稀疏非负分解。
特征7:如任何前述特征所述的方法,其中,步骤(a)的图像是经预处理的图像。
特征8:如任何前述特征所述的方法,其中,该计算机系统使用欧几里得距离和余弦距离中的至少一者来执行步骤(c)的比较。
特征9:如特征1、3、4、5、6、7、8或9中的任何特征所述的方法,其中,步骤(a)的图像包括人类面部。
特征10:一种执行计算机实现的图像识别的方法,包括:
(a)向一个或多个计算机处理器提供具有M个分量的第一图像;
(b)向该一个或多个计算机处理器提供预定变换矩阵,其中:
(i)该预定变换矩阵是M×K矩阵,其中K列构成K个字典元素的集合,并且
(ii)该预定变换矩阵是由包括以下操作的方法来构造的:对M×N矩阵执行稀疏非负分解,其中N列构成N个训练图像的集合,每个训练图像具有M个分量,该稀疏非负分解采用至少一个Frobenius范数;
(c)使用该一个或多个计算机处理器,通过使用该预定变换矩阵对第一图像执行稀疏非负变换来构造该第一图像的伪图像,该第一图像的所述伪图像包括K个元素权重,每个元素权重是该K个字典元素中的一者,该稀疏非负变换采用至少一个L2范数;
(d)使用该一个或多个计算机处理器,通过使用欧几里得距离和余弦距离中的至少一者来将该第一图像的伪图像与已知图像的伪图像库进行比较;以及
(e)使用该一个或多个计算机处理器输出该伪图像与该已知图像的伪图像库的比较结果;
其中该M×N矩阵具有秩R,并且K满足以下关系中的一者或两者:
(i)K大于或等于M;以及
(ii)K大于或等于R。
特征11:一种制备供在图像识别中使用的预定变换矩阵的方法,包括:
(a)向计算机系统提供N个训练图像的集合,每个训练图像具有M个分量;
(b)使用该计算机系统,通过对M×N矩阵执行稀疏非负分解来产生预定变换矩阵,其中该矩阵的N列中的每一列构成训练图像中的一个训练图像,该稀疏非负分解采用至少一个Frobenius范数;以及
(c)将该预定变换矩阵存储在非瞬态计算机可读介质中;
其中:
(i)该预定变换矩阵是M×K矩阵;
(ii)该M×N矩阵具有秩R;并且
(iii)K满足以下关系中的一者或两者:
(A)K大于或等于M;以及
(B)K大于或等于R。
特征12:如特征11所述的方法,其中,该N个训练图像的伪图像集合是在步骤(b)中产生的,并且该方法进一步包括:使用该计算机系统将伪图像中的至少一些伪图像作为伪图像库的至少一部分存储在非瞬态计算机可读介质中。
特征13:如特征11所述的方法,进一步包括:将该预定变换矩阵作为商品进行分发。
特征14:如特征1、10或11(或从属于这些特征的任何特征)所述的方法,其中,K大于M。
特征15:一种用于通过先前预定变换矩阵来制备供在图像识别中使用的预定变换矩阵的方法,包括:
(a)向计算机系统提供先前预定变换矩阵Φ0,所述先前预定变换矩阵已使用N个训练图像的集合来获得;
(b)向该计算机系统提供该N个训练图像的伪图像集合A0
(c)向该计算机系统提供N’个训练图像的集合Y,其中N’大于或等于1,并且所述集合中的至少一个成员为并非该N个训练图像的集合的一部分的训练图像;
(d)使用该计算机系统,通过使用Y与矩阵乘积Φ0A0的级联来产生预定变换矩阵,其中该矩阵乘积Φ0A0用作该N个训练图像的集合的代理;以及
(e)将步骤(d)的该预定变换矩阵存储在非瞬态计算机可读介质中。
特征16:如特征15所述的方法,其中,该N’个训练图像的伪图像集合是在步骤(d)中产生的,并且该方法进一步包括:使用该计算机系统将伪图像中的至少一些伪图像作为伪图像库的至少一部分存储在非瞬态计算机可读介质中。
特征17:如特征15所述的方法,进一步包括:将步骤(d)的该预定变换矩阵作为商品进行分发。
特征18:一种制备或扩充供在图像识别中使用的伪图像库的方法,包括:
(a)向计算机系统提供已知图像集合;
(b)使用该计算机系统对已知图像执行稀疏非负变换,该稀疏非负变换使用预定变换矩阵将该已知图像变换成伪图像;以及
(c)使用该计算机系统将伪图像中的至少一些伪图像作为伪图像库的至少一部分存储在非瞬态计算机可读介质中。
特征19:如特征12、16或18所述的方法,进一步包括:将该伪图像库作为商品进行分发。
特征20:一种非瞬态计算机可读介质,该非瞬态计算机可读介质中存储有由特征11或15所述的方法制备的预定变换矩阵。
特征21:一种非瞬态计算机可读介质,该非瞬态计算机可读介质中存储有至少部分地由特征12、16或18所述的方法制备的伪图像库。
特征22:一种非瞬态计算机可读介质,包括用于与未知图像的伪图像进行比较的已知图像的伪图像库,其中该已知图像的伪图像是通过包括以下操作的方法来获得的:对该已知图像执行稀疏非负变换,该稀疏非负变换使用预定变换矩阵将该已知图像变换成伪图像。
特征23:一种其中存储有指令的非瞬态计算机可读介质,该指令能由计算机处理器执行以执行以下步骤:
(a)将图像变换成伪图像;
(b)将该伪图像与已知图像的伪图像库进行比较;以及
(c)输出该伪图像与该已知图像的伪图像库的比较结果;
其中步骤(a)的变换是使用预定变换矩阵的稀疏非负变换。
特征24:一种计算机系统,包括特征23所述的非瞬态计算机可读介质以及用于执行存储在该非瞬态计算机可读介质中的指令的计算机处理器。
特征25:一种系统,包括:
计算机处理器;
至少一个计算机存储器(例如,RAM);
至少一个计算机存储设备(例如,硬盘驱动器、闪存驱动器和/或云);
计算机接口,该计算机接口接收图像并将该图像存储在该至少一个计算机存储器中;以及
计算机程序,该计算机程序能由该计算机处理器执行以生成所接收图像的伪图像并将该伪图像存储在该至少一个计算机存储设备中;
其中该计算机程序能够通过包括以下操作的方法来生成该伪图像:使用预定变换矩阵对图像执行稀疏非负变换。
特征26:如特征25所述的系统,其中,该计算机程序能够将该伪图像与伪图像库进行比较并输出该比较的结果。
特征27:如特征25或26所述的系统,其中,该计算机程序能够将该伪图像包括在伪图像库中。
特征28:如特征25所述的系统,进一步包括图像捕获设备,该图像捕获设备能够向该计算机接口提供图像。
不脱离本发明的范围和精神的各种修改通过前述公开对于本领域普通技术人员而言将是显而易见的。所附权利要求旨在涵盖本文所阐述的特定实施例以及那些实施例的修改、变型和等效物。
参考文献
Boyd,S.P.和L.Vandenberghe(2004).Convex optimization.Cambridge,UK;NewYork,Cambridge University Press.
Candes,E.和Romberg,J.(2005).l1-magic:Recovery of sparse signals viaconvex programming.URL:www.acm.caltech.edu/l1magic/downloads/l1magic.pdf,4,14.
Candès,E.J.、J.Romberg和T.Tao(2006)."Robust uncertainty principles:Exact signal reconstruction from highly incomplete frequency information."Information Theory,IEEE Transactions on 52:489–509.
Candes,E.J.、J.K.Romberg和T.Tao(2006)."Stable signal recovery fromincomplete and inaccurate measurements."Communications on pure and applied mathematics 59(8):1207-1223.
Candes,E.J.和T.Tao(2005)."Decoding by linear programming."IEEE transactions on information theory 51(12):4203-4215.
Chen,S.S.、D.L.Donoho和M.A.Saunders(2001)."Atomic decomposition bybasis pursuit."SIAM review 43(1):129-159.
Comon,P.和C.Jutten(2010).Handbook of blind source separation: independent component analysis and applications.Amsterdam;Boston,Elsevier.
Dantzig,G.B.和M.N.Thapa(1997).Linear programming.New York,Springer.
Donoho,D.L.(2006)."Compressed sensing."Information Theory,IEEE Transactions on 52(4):1289-1306.
Donoho,D.L.(2006)."For most large underdetermined systems of linearequations the minimal l1-norm solution is also the sparsest solution."Communications on pure and applied mathematics 59:797–829.
Donoho,D.L.和M.Elad(2003)."Optimally sparse representation in general(nonorthogonal)dictionaries via
Figure BDA0002879147060000761
minimization."Proceedings of the National Academy of Sciences 100(5):2197-2202.
Donoho,D.L.、Y.Tsaig、I.Drori和J.-L.Starck(2012)."Sparse solution ofunderdetermined systems of linear equations by stagewise orthogonal matchingpursuit."IEEE Transactions on Information Theory 58(2):1094-1121.
Elad,M.(2010).Sparse and redundant representations:from theory to applications in signal and image processing.New York,Springer.
Eldar,Y.C.和G.Kutyniok(2012).Compressed sensing:theory and applications.Cambridge;New York,Cambridge University Press.
Gill,P.E.、W.Murray和M.H.Wright(1991).Numerical linear algebra and optimization.Redwood City,Calif.,Addison-Wesley Pub.Co.
Hoyer,P.O.(2004)."Non-negative matrix factorization with sparsenessconstraints."The Journal of Machine Learning Research 5:1457–1469.
Hurley,N.和S.Rickard(2009)."Comparing measures of sparsity."Information Theory,IEEE Transactions on 55:4723–4741.
Rapin,J.、J.Bobin、A.Larue和J.-L.Starck(2013)."Sparse and non-negativeBSS for noisy data."Signal Processing,IEEE Transactions on 61:5620–5632.
Rapin,J.、J.Bobin、A.Larue和J.-L.Starck(2013)."Sparse Regularizationsand Non-negativity in BSS."Proceedings of SPARS,Lausanne,Switzerland:83.
Strang,G.(2006).Linear algebra and its applications.Belmont,CA,Thomson,Brooks/Cole.
Yu,X.、D.Hu和J.Xu(2014).Blind source separation:theory and applications.Singapore,John Wiley&Sons Singapore Pte.Ltd.

Claims (28)

1.一种方法,包括:
(a)在计算机系统中接收图像;
(b)使用所述计算机系统,通过使用预定变换矩阵对所述图像执行稀疏非负变换以将所述图像变换成伪图像;
(c)使用所述计算机系统将所述伪图像与已知图像的伪图像库进行比较;以及
(d)使用所述计算机系统输出所述伪图像与所述已知图像的伪图像库的比较结果;
其中所述图像具有M个分量,所述伪图像具有K个分量,并且K大于或等于M。
2.一种方法,包括:
(a)在计算机系统中接收图像;
(b)使用所述计算机系统,通过使用预定变换矩阵对所述图像执行稀疏非负变换以将所述图像变换成伪图像;
(c)使用所述计算机系统将所述伪图像与已知图像的伪图像库进行比较;以及
(d)使用所述计算机系统输出所述伪图像与所述已知图像的伪图像库的比较结果;
其中所述图像具有M个分量,所述M个分量中的每个分量具有两个可能值中的仅一者。
3.如权利要求1或2所述的方法,其特征在于,所述计算机系统使用至少一个L2范数来执行所述稀疏非负变换。
4.如权利要求1或2所述的方法,其特征在于,所述预定变换矩阵是通过包括以下操作的方法来获得的矩阵:使用计算机系统对训练图像的矩阵执行稀疏非负分解。
5.如权利要求4所述的方法,其特征在于,所述训练图像的矩阵是M×N矩阵,其中N大于或等于M。
6.如权利要求4所述的方法,其特征在于,所述计算机系统使用至少一个Frobenius范数来执行所述稀疏非负分解。
7.如权利要求1或2所述的方法,其特征在于,步骤(a)的所述图像是经预处理的图像。
8.如权利要求1或2所述的方法,其特征在于,所述计算机系统使用欧几里得距离和余弦距离中的至少一者来执行步骤(c)的所述比较。
9.如权利要求1所述的方法,其特征在于,步骤(a)的所述图像包括人类面部。
10.一种执行计算机实现的图像识别的方法,包括:
(a)向一个或多个计算机处理器提供具有M个分量的第一图像;
(b)向所述一个或多个计算机处理器提供预定变换矩阵,其中:
(i)所述预定变换矩阵是M×K矩阵,其中K列构成K个字典元素的集合,并且
(ii)所述预定变换矩阵是通过包括以下操作的方法来构造的:对M×N矩阵执行稀疏非负分解,其中N列构成N个训练图像的集合,每个训练图像具有M个分量,所述稀疏非负分解采用至少一个Frobenius范数;
(c)使用所述一个或多个计算机处理器,通过使用所述预定变换矩阵对所述第一图像执行稀疏非负变换来构造所述第一图像的伪图像,所述第一图像的所述伪图像包括K个元素权重,每个元素权重用于所述K个字典元素中的一者,所述稀疏非负变换采用至少一个L2范数;
(d)使用所述一个或多个计算机处理器,通过使用欧几里得距离和余弦距离中的至少一者来将所述第一图像的所述伪图像与已知图像的伪图像库进行比较;以及
(e)使用所述一个或多个计算机处理器输出所述伪图像与所述已知图像的伪图像库的比较结果;
其中所述M×N矩阵具有秩R,并且K满足以下关系中的一者或两者:
(i)K大于或等于M;以及
(ii)K大于或等于R。
11.一种制备供在图像识别中使用的预定变换矩阵的方法,包括:
(a)向计算机系统提供N个训练图像的集合,每个训练图像具有M个分量;
(b)使用所述计算机系统,通过对M×N矩阵执行稀疏非负分解来产生预定变换矩阵,其中所述矩阵的N列中的每一列构成所述训练图像中的一个训练图像,所述稀疏非负分解采用至少一个Frobenius范数;以及
(c)将所述预定变换矩阵存储在非瞬态计算机可读介质中;
其中:
(i)所述预定变换矩阵是M×K矩阵;
(ii)所述M×N矩阵具有秩R;并且
(iii)K满足以下关系中的一者或两者:
(A)K大于或等于M;以及
(B)K大于或等于R。
12.如权利要求11所述的方法,其特征在于,所述N个训练图像的伪图像集合是在步骤(b)中产生的,并且所述方法进一步包括:使用所述计算机系统将所述伪图像中的至少一些伪图像作为伪图像库的至少一部分存储在非瞬态计算机可读介质中。
13.如权利要求11所述的方法,其特征在于,进一步包括:将所述预定变换矩阵作为商品进行分发。
14.如权利要求1、10或11所述的方法,其特征在于,K大于M。
15.一种用于通过先前预定变换矩阵来制备供在图像识别中使用的预定变换矩阵的方法,包括:
(a)向计算机系统提供先前预定变换矩阵Φ0,所述先前预定变换矩阵已使用N个训练图像的集合来获得;
(b)向所述计算机系统提供所述N个训练图像的伪图像集合A0
(c)向所述计算机系统提供N’个训练图像的集合Y,其中N’大于或等于1,并且所述集合中的至少一个成员为并非所述N个训练图像的集合的一部分的训练图像;
(d)使用所述计算机系统,通过使用Y与矩阵乘积Φ0A0的级联来产生预定变换矩阵,其中所述矩阵乘积Φ0A0用作所述N个训练图像的集合的代理;以及
(e)将步骤(d)的所述预定变换矩阵存储在非瞬态计算机可读介质中。
16.如权利要求15所述的方法,其特征在于,所述N’个训练图像的伪图像集合是在步骤(d)中产生的,并且所述方法进一步包括:使用所述计算机系统将所述伪图像中的至少一些伪图像作为伪图像库的至少一部分存储在非瞬态计算机可读介质中。
17.如权利要求15所述的方法,其特征在于,进一步包括:将步骤(d)的所述预定变换矩阵作为商品进行分发。
18.一种制备或扩充供在图像识别中使用的伪图像库的方法,包括:
(a)向计算机系统提供已知图像的集合;
(b)使用所述计算机系统对所述已知图像执行稀疏非负变换,所述稀疏非负变换使用预定变换矩阵将所述已知图像变换成伪图像;以及
(c)使用所述计算机系统将所述伪图像中的至少一些伪图像作为伪图像库的至少一部分存储在非瞬态计算机可读介质中。
19.如权利要求12、16或18所述的方法,其特征在于,进一步包括:将所述伪图像库作为商品进行分发。
20.一种非瞬态计算机可读介质,所述非瞬态计算机可读介质中存储有由权利要求11或15所述的方法制备的预定变换矩阵。
21.一种非瞬态计算机可读介质,所述非瞬态计算机可读介质中存储有至少部分地由权利要求12、16或18所述的方法制备的伪图像库。
22.一种非瞬态计算机可读介质,包括用于与未知图像的伪图像进行比较的已知图像的伪图像库,其中所述已知图像的伪图像是通过包括以下操作的方法来获得的:对所述已知图像执行稀疏非负变换,所述稀疏非负变换使用预定变换矩阵将所述已知图像变换成伪图像。
23.一种其中存储有指令的非瞬态计算机可读介质,所述指令能由计算机处理器执行以执行以下步骤:
(a)将图像变换成伪图像;
(b)将所述伪图像与已知图像的伪图像库进行比较;以及
(c)输出所述伪图像与所述已知图像的伪图像库的比较结果;
其中步骤(a)的所述变换是使用预定变换矩阵的稀疏非负变换。
24.一种计算机系统,包括如权利要求23所述的非瞬态计算机可读介质以及用于执行存储在所述非瞬态计算机可读介质中的指令的计算机处理器。
25.一种系统,包括:
计算机处理器;
至少一个计算机存储器(例如,RAM);
至少一个计算机存储设备(例如,硬盘驱动器、闪存驱动器和/或云);
计算机接口,所述计算机接口接收图像并将所述图像存储在所述至少一个计算机存储器中;以及
计算机程序,所述计算机程序能由所述计算机处理器执行以生成所接收图像的伪图像并将所述伪图像存储在所述至少一个计算机存储设备中;
其中所述计算机程序能够通过包括以下操作的方法来生成所述伪图像:使用预定变换矩阵对所述图像执行稀疏非负变换。
26.如权利要求25所述的系统,其特征在于,所述计算机程序能够将所述伪图像与伪图像库进行比较并输出所述比较的结果。
27.如权利要求25或26所述的系统,其特征在于,所述计算机程序能够将所述伪图像包括在伪图像库中。
28.如权利要求25所述的系统,其特征在于,进一步包括图像捕获设备,所述图像捕获设备能够向所述计算机接口提供图像。
CN201980044730.2A 2018-07-02 2019-06-26 使用伪图像的面部图像识别 Active CN112368708B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862693136P 2018-07-02 2018-07-02
US62/693,136 2018-07-02
PCT/US2019/039313 WO2020009877A1 (en) 2018-07-02 2019-06-26 Facial image recognition using pseudo-images

Publications (2)

Publication Number Publication Date
CN112368708A true CN112368708A (zh) 2021-02-12
CN112368708B CN112368708B (zh) 2024-04-30

Family

ID=69055232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980044730.2A Active CN112368708B (zh) 2018-07-02 2019-06-26 使用伪图像的面部图像识别

Country Status (6)

Country Link
US (2) US11157721B2 (zh)
EP (1) EP3818693A4 (zh)
JP (1) JP7357010B2 (zh)
KR (1) KR20210025020A (zh)
CN (1) CN112368708B (zh)
WO (1) WO2020009877A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693684A (zh) * 2022-06-01 2022-07-01 领伟创新智能系统(浙江)有限公司 一种机载式风机叶片缺陷检测方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037330B2 (en) * 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression
WO2020009877A1 (en) * 2018-07-02 2020-01-09 Stowers Institute For Medical Research Facial image recognition using pseudo-images
WO2020246010A1 (ja) * 2019-06-06 2020-12-10 日本電信電話株式会社 画像認識システム、画像認識サーバ、及び画像認識方法
CN111368662B (zh) * 2020-02-25 2023-03-21 华南理工大学 一种人脸图像属性编辑方法、装置、存储介质及设备
CN112132133B (zh) * 2020-06-16 2023-11-17 中国科学院计算技术研究所数字经济产业研究院 标识图像数据增强方法及真伪智能鉴定方法
CN112085112A (zh) * 2020-09-14 2020-12-15 苏州大学 一种图像类别检测方法、系统、电子设备及存储介质
CN112906656A (zh) * 2021-03-30 2021-06-04 自然资源部第三海洋研究所 水下照片珊瑚礁识别方法、系统及存储介质
CN113591607B (zh) * 2021-07-12 2023-07-04 辽宁科技大学 一种车站智能疫情防控系统及方法
CN115203663B (zh) * 2022-06-25 2023-08-22 北京基智科技有限公司 小视角远距离视频步态精准识别身份认证系统
CN114926890B (zh) * 2022-07-20 2022-09-30 北京远鉴信息技术有限公司 一种人脸真伪的区分方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1701339A (zh) * 2002-09-19 2005-11-23 汤晓鸥 画像-照片识别
CN101779461A (zh) * 2007-04-25 2010-07-14 彼科森成像有限责任公司 使用pixon方法的图像压缩和解压缩
CN101965588A (zh) * 2008-01-31 2011-02-02 伊利诺伊大学评议会 经高维数据分类的识别
US20130039548A1 (en) * 2009-11-27 2013-02-14 Technical University Of Denmark Genome-Wide Association Study Identifying Determinants Of Facial Characteristics For Facial Image Generation
CN103268484A (zh) * 2013-06-06 2013-08-28 温州大学 用于高精度人脸识别的分类器设计方法
CN104603673A (zh) * 2012-09-03 2015-05-06 Smi创新传感技术有限公司 头戴式系统以及使用头戴式系统计算和渲染数字图像流的方法
US20160283858A1 (en) * 2015-03-24 2016-09-29 International Business Machines Corporation Multimodal Data Fusion by Hierarchical Multi-View Dictionary Learning

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353688B1 (en) 1993-06-08 2002-03-05 The Regents Of The University Of California Accelerated signal encoding and reconstruction using pixon method
US5668897A (en) * 1994-03-15 1997-09-16 Stolfo; Salvatore J. Method and apparatus for imaging, image processing and data compression merge/purge techniques for document image databases
US6690830B1 (en) 1998-04-29 2004-02-10 I.Q. Bio Metrix, Inc. Method and apparatus for encoding/decoding image data
US6292575B1 (en) 1998-07-20 2001-09-18 Lau Technologies Real-time facial recognition and verification system
US7734652B2 (en) 2003-08-29 2010-06-08 Oracle International Corporation Non-negative matrix factorization from the data in the multi-dimensional data table using the specification and to store metadata representing the built relational database management system
US7646924B2 (en) 2004-08-09 2010-01-12 David Leigh Donoho Method and apparatus for compressed sensing
JP4881230B2 (ja) * 2007-06-14 2012-02-22 株式会社東芝 パターン認識装置及びその方法
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
JP5407723B2 (ja) 2009-10-07 2014-02-05 株式会社デンソーアイティーラボラトリ 認識装置、認識方法及びプログラム
US8787682B2 (en) 2011-03-22 2014-07-22 Nec Laboratories America, Inc. Fast image classification by vocabulary tree based image retrieval
SG194169A1 (en) 2011-04-15 2013-11-29 Imagerecon Llc Method to determine a pixon map in iterative image reconstruction
US20120287031A1 (en) 2011-05-12 2012-11-15 Apple Inc. Presence sensing
CN103164713B (zh) 2011-12-12 2016-04-06 阿里巴巴集团控股有限公司 图像分类方法和装置
FR2989494B1 (fr) 2012-04-16 2014-05-09 Commissariat Energie Atomique Procede de reconnaissance d'un contexte visuel d'une image et dispositif correspondant
WO2014203531A1 (ja) * 2013-06-21 2014-12-24 富士フイルム株式会社 画像表示装置、画像表示方法および画像表示プログラム
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US20150269314A1 (en) 2014-03-20 2015-09-24 Rudjer Boskovic Institute Method and apparatus for unsupervised segmentation of microscopic color image of unstained specimen and digital staining of segmented histological structures
US9519826B2 (en) 2014-05-08 2016-12-13 Shutterfly, Inc. Automatic image product creation for user accounts comprising large number of images
US9582890B2 (en) 2014-05-19 2017-02-28 Ricoh Company, Ltd. Superpixel-based image segmentation using shading and albedo decomposition
CN106415594B (zh) 2014-06-16 2020-01-10 北京市商汤科技开发有限公司 用于面部验证的方法和系统
US9275309B2 (en) 2014-08-01 2016-03-01 TCL Research America Inc. System and method for rapid face recognition
US9251427B1 (en) 2014-08-12 2016-02-02 Microsoft Technology Licensing, Llc False face representation identification
US9710729B2 (en) 2014-09-04 2017-07-18 Xerox Corporation Domain adaptation for image classification with class priors
US9639954B2 (en) 2014-10-27 2017-05-02 Playsigh Interactive Ltd. Object extraction from video images
US9430694B2 (en) 2014-11-06 2016-08-30 TCL Research America Inc. Face recognition system and method
US10304008B2 (en) 2015-03-20 2019-05-28 Nec Corporation Fast distributed nonnegative matrix factorization and completion for big data analytics
US9704020B2 (en) 2015-06-16 2017-07-11 Microsoft Technology Licensing, Llc Automatic recognition of entities in media-captured events
US9430697B1 (en) 2015-07-03 2016-08-30 TCL Research America Inc. Method and system for face recognition using deep collaborative representation-based classification
US9704025B2 (en) 2015-07-31 2017-07-11 King Abdulaziz City For Science And Technology Identifying non-occluded faces by learning from partially occluded faces
US10884503B2 (en) 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
WO2020009877A1 (en) * 2018-07-02 2020-01-09 Stowers Institute For Medical Research Facial image recognition using pseudo-images

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1701339A (zh) * 2002-09-19 2005-11-23 汤晓鸥 画像-照片识别
CN101779461A (zh) * 2007-04-25 2010-07-14 彼科森成像有限责任公司 使用pixon方法的图像压缩和解压缩
CN101965588A (zh) * 2008-01-31 2011-02-02 伊利诺伊大学评议会 经高维数据分类的识别
US20130039548A1 (en) * 2009-11-27 2013-02-14 Technical University Of Denmark Genome-Wide Association Study Identifying Determinants Of Facial Characteristics For Facial Image Generation
CN104603673A (zh) * 2012-09-03 2015-05-06 Smi创新传感技术有限公司 头戴式系统以及使用头戴式系统计算和渲染数字图像流的方法
CN103268484A (zh) * 2013-06-06 2013-08-28 温州大学 用于高精度人脸识别的分类器设计方法
US20160283858A1 (en) * 2015-03-24 2016-09-29 International Business Machines Corporation Multimodal Data Fusion by Hierarchical Multi-View Dictionary Learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
步文斌 等: "二维非负稀疏偏最小二乘在人脸识别中的应用", 土木建筑与环境工程, vol. 35 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693684A (zh) * 2022-06-01 2022-07-01 领伟创新智能系统(浙江)有限公司 一种机载式风机叶片缺陷检测方法

Also Published As

Publication number Publication date
EP3818693A1 (en) 2021-05-12
JP2021528728A (ja) 2021-10-21
US11769316B2 (en) 2023-09-26
JP7357010B2 (ja) 2023-10-05
US20200005023A1 (en) 2020-01-02
CN112368708B (zh) 2024-04-30
WO2020009877A1 (en) 2020-01-09
US20210374388A1 (en) 2021-12-02
EP3818693A4 (en) 2021-10-13
KR20210025020A (ko) 2021-03-08
US11157721B2 (en) 2021-10-26

Similar Documents

Publication Publication Date Title
CN112368708B (zh) 使用伪图像的面部图像识别
US11645835B2 (en) Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
Ou et al. Robust face recognition via occlusion dictionary learning
Bebis et al. Face recognition by fusing thermal infrared and visible imagery
Andrés et al. Face recognition on partially occluded images using compressed sensing
Mallouh et al. Utilizing CNNs and transfer learning of pre-trained models for age range classification from unconstrained face images
Qian et al. Local structure-based image decomposition for feature extraction with applications to face recognition
Mehrabi et al. Age estimation based on facial images using hybrid features and particle swarm optimization
Biswas et al. Face recognition in low-resolution videos using learning-based likelihood measurement model
Qiu et al. Learning transformations for classification forests
Wu et al. Group sparse feature selection on local learning based clustering
Scott II Block-level discrete cosine transform coefficients for autonomic face recognition
Jagadeesh et al. DBC based Face Recognition using DWT
Al-Wajih et al. A new application for gabor filters in face-based gender classification.
Buciu et al. Non-negative matrix factorization methods for face recognition under extreme lighting variations
Gong et al. Application to Three-Dimensional Canonical Correlation Analysis for Feature Fusion in Image Recognition.
Ghorbel et al. Hybrid approach for face recognition from a single sample per person by combining VLC and GOM
Najim et al. Face recognition using various feature extraction approaches
Bukar Automatic age progression and estimation from faces
Mydam et al. Low rank representation based discriminative multi manifold analysis for low-resolution face recognition
Borgi et al. Sparse multi-regularized shearlet-network using convex relaxation for face recognition
Shelke et al. Face recognition and gender classification using feature of lips
Ciocoiu Occluded face recognition using parts-based representation methods
Yin et al. Face Recognition System using Self-Organizing Feature Map and Appearance-Based Approach
Abbas et al. COMBINING FEATURE DESCRIPTOR TECHNIQUES WITH CONVOLUTIONAL NEURAL NETWORK FOR MASKED FACIAL RECOGNITION

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant