CN102804208A - 为视觉搜索应用自动挖掘名人的个人模型 - Google Patents
为视觉搜索应用自动挖掘名人的个人模型 Download PDFInfo
- Publication number
- CN102804208A CN102804208A CN2010800612031A CN201080061203A CN102804208A CN 102804208 A CN102804208 A CN 102804208A CN 2010800612031 A CN2010800612031 A CN 2010800612031A CN 201080061203 A CN201080061203 A CN 201080061203A CN 102804208 A CN102804208 A CN 102804208A
- Authority
- CN
- China
- Prior art keywords
- image
- face
- names
- list
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005065 mining Methods 0.000 title description 6
- 230000000007 visual effect Effects 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 24
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 14
- 230000001815 facial effect Effects 0.000 claims description 81
- 238000001514 detection method Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 6
- 244000188472 Ilex paraguariensis Species 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 34
- 238000012549 training Methods 0.000 description 31
- 238000004891 communication Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000007670 refining Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 101000746134 Homo sapiens DNA endonuclease RBBP8 Proteins 0.000 description 1
- 101000969031 Homo sapiens Nuclear protein 1 Proteins 0.000 description 1
- 102100021133 Nuclear protein 1 Human genes 0.000 description 1
- 241000405217 Viola <butterfly> Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
- G06V40/173—Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
提供了用于自动识别名人面部图像的方法和系统,其生成著名名人的姓名列表;为每一个姓名获取图像集和对应的特征向量;检测在图像集内的面部;以及移除非面部图像。使用模型内分析、模型间分析和光谱分析来执行对图像的分析,以为姓名列表中存在的个人中的每一个返回高度准确的生物模型。然后,基于查准率和查全率来执行辨识,以将面部图像识别为属于名人或指示面部是未知的。
Description
技术领域
本发明的实施例涉及辨识视觉内容中的人。
背景技术
因特网托管大量不同类型的内容,包括文本、图像和视频。利用该内容要求内容是可搜索的并且被组织。图像一般基于用户手动分配的标识符来搜索和组织。
具体地,当图像是人的面部的图像时,尽管有在外表、灯光和表情上的较大变化,但是人对面部的辨识可以以极高准确度来完成。在另一方面,计算机视觉系统在以人类的准确度水平来执行辨识中具有困难。尽管面部辨识一直是计算机视觉和其他领域中长期存在的问题,然而,该行业的主要焦点一直是用相当小的数据集对受控环境中的面部的识别。随着数据集增加成数千,由于照明、姿势和表情,每一个具有外表变化,故一直缺乏成功验证和辨识的任务。
因为著名人物的较小数据集已变得可用,也出现了辨识新闻中的名人的努力。已开发了用于面部识别、验证和辨识的算法,其典型地包含限制到通常高质量的、在受控环境中以及以受控姿势拍摄的新闻图片的数据集。相比之下,在非受控环境中的感兴趣的人的一般图像缺乏被自动辨识和验证的能力。
因此,所需要的是,为视觉搜索应用自动挖掘名人的个人模型的方法和系统。
发明内容
在一个实施例中,提供了一种用于识别名人面部图像的计算机实现的方法,该方法:生成著名名人的姓名列表;为每一个姓名获取图像集和对应的特征向量;检测在图像集内的面部;以及移除非面部图像。使用模型内分析、模型间分析和光谱分析来执行对图像的分析,以为姓名列表中存在的个人中的每一个返回高度准确的生物模型。然后,基于查准率(precision)和查全率(recall)来执行辨识,以将面部图像识别为属于名人或识别面部是未知的。
在另一个实施例中,提供了用于识别名人的面部的系统,其包括:姓名列表生成器,其产生著名名人的姓名;面部签名检测器,其为每一个姓名获取图像集和对应的特征向量、检测图像集内的面部以及移除非面部图像。个人模型学习系统使用模型内分析、模型间分析和光谱分析来执行对图像的分析,以为每一个面部图像返回高度准确的生物模型。然后,基于查准率和查全率来执行辨识,以将面部图像识别为属于名人或指示面部是未知的。
在下面参考附图详细描述本发明的进一步特征和优势,以及其各个实施例的结构和操作。注意的是,本发明不限于在本文中描述的特定实施例。仅出于说明性目的,在本文中提供了这样的实施例。基于在本文中包含的教导,另外的实施例对相关领域技术人员将是显而易见的。
附图说明
将参考本发明的实施例,其示例可以在附图中图示。这些附图意在是说明性而非限制性的。尽管一般在这些实施例的情景下描述了本发明,然而,应当理解的是,其并不意在将本发明的范围限制在这些特定实施例。
图1示出根据本发明的实施例的成对相似的两个图例。
图2示出根据本发明的实施例的在中间阶段的辨识性能的图示。
图3示出根据本发明的实施例的关于特定数据集的辨识性能的图示。
图4是根据本发明的一个实施例的系统视图。
图5示出根据本发明的实施例的姓名列表生成器的组件。
图6示出根据本发明的实施例的面部签名检测器的组件。
图7示出根据本发明的实施例的个人模型学习系统的组件。
图8示出根据本发明的实施例的用于自动挖掘名人的个人模型的方法。
图9图示根据本发明的实施例的执行对名人的个人模型的自动挖掘的计算机系统。
具体实施方式
虽然在本文中参考用于特定应用的说明性实施例描述了本发明,但是应当理解的是,本发明并不限于此。本领域技术人员通过使用在本文中的教导将认识到在其范围内的另外修改、应用和实施例以及本发明在其中将是有重大功用的另外领域。
凭借图像捕捉设备的广泛可用性所激励的内容的增殖,以及因特网所提供的连通性,越来越大的图像集合正变得可用。通过对互连网络和共享图像集合的使用,在任何时刻,单个用户可以访问遍布世界的人所创作的关于各种主题的较大内容集合。可以自动识别和辨识在包含在自然环境中的成千上万的个人的数据集中的面部的系统是非常有用的。在本文中描述的方法和系统使用例如在因特网上可用的大量文章和图像语料库来自动关联名人的姓名和面部。在本发明的实施例中,系统可以通过对web进行爬取并且从面部的图像和其注释进行学习来学习生物模型并且辨识面部。这样的图像可以从任何类型的图像内容获取,包括静止图像、视频、全息图以及其他媒体类型或呈现方法。利用云计算的框架,可以用移动设备获得查询图像,其中将图像中的所查询的面部的姓名返回到该设备。
训练数据集合
在Web上的姓名列表和图像
在本发明的实施例中,非监督式面部辨识系统使用在没有人工交互的情况下生成的训练集生成。到系统的唯一输入是系统试图辨识的著名名人的姓名列表。这样的姓名列表可以从多个源获取,诸如在因特网,例如维基百科,上可用的文章,其中对文章进行过滤以仅保留提及人名的那些文章。然后,使用任何可用服务,诸如加州山景城的谷歌公司制作的谷歌图像搜索(GIS),可以将各个姓名与通过因特网可用的图像进行关联。使用这样的服务,可以检索面部图像并且将其与在文章中找到的姓名列表进行关联。然后,可以基于图像搜索为每一个姓名返回的面部图像的数量来对列表内的姓名进行排名。
在这样的实施例中,一旦姓名列表被限定,第一步骤就是为列表上的每一个姓名收集图像集和对应的特征向量。这可以通过以下来完成:向诸如谷歌图像搜索的可用因特网图像搜索系统发起查询、以及记录为每一个查询返回的图像的阈值数量、检测面部、以及从图像提取特征向量、以及用获取每一个特征向量的查询推定地标注该每一个特征向量。考虑到基于因特网的图像搜索中固有的错误可能性,会不正确地标注初始特征向量集的子集。在实施例中,进一步训练企图通过识别并且丢弃不正确标注的条目来提高训练数据的质量。在另一个实施例中,如果为多于一个名人姓名查询返回图像,则作为结果的特征向量的多个副本可以与每一个副本存储在一起并且标注有产生它的查询。以类似方式,如果图像包含两个或多个面部,则所有面部被推定地标注有查询姓名。然而,在两种情况下,解决哪个面部实际上是讨论中的名人将在稍后阶段被处理。
检测
在本发明的实施例中,为了避免图像搜索所返回的明显局外者,使用面部检测器来从初始结果移除非面部图像。检测器使用例如在窗口大小的范围的快速滑动窗口方法。在实施例中,检测器利用混杂的特征检测器集的线性组合,其基于变化的复杂性的特征族,包括(1)简单但快速的特征,诸如位特征,以及(2)更昂贵但是更多信息的特征,诸如Gabor小波。通过最小化利用逻辑损失项和L1正则化的目标函数来训练检测器。输出可以是在范围[0,1]的分配给每一个窗口的分值。当对所有尺度进行了处理时,根据剩余窗口的分值和跨尺度的重叠对剩余窗口进行过滤并合并。检测器参数可以包括设置为阈值水平的倾斜(斜度)角度,诸如±30度和最小boxsize(框大小),诸如40像素。在另一个实施例中,可以通过添加准确定位在面部边界框内的面部特征位置的界标器(landmarker)子系统来进一步精化面部检测分值。然后,可以使用在那些位置处提取的特征来获取指示面部存在的概率的精化的分值。一个实施例使用属于诸如影响深远的Viola和Jones检测器的滑动窗口检测器的大族的检测算法。可以通过使用主成分分析(PCA)来减少维度,进一步处理所提取的特征向量,以及可以使用加权的点积来测量在两个特征向量之间的相似性。
本领域技术人员将认识到,可以基于高查准率和查全率的任何检测器来构建实施例。
个人模型学习
根据本发明的实施例,该部分描述了总体管线,其将原始图像搜索结果取作输入,以及为在姓名列表中存在的成千上万的个人返回高度准确的生物模型。
模型内分析
在本发明的实施例中,可以使用诸如带有30,000个姓名的集,例如Q=30,000,的较大姓名列表来生成训练数据。在一个实施例中,对于q∈[1,Q],变量Mq是图像搜索所返回的至多1000个图像的集,其中从Mq移除不正确标注的训练示例,例如的第一阶段通过对Mq自身进行分析来完成。具体地,检查特征向量中的每一个,在Mq内的丢弃与在Mq中的剩余向量具有低亲和力的那些图像。在该阶段,分别分析每一个Mq,使得在为不同姓名q返回的面部图像之间的相似性尚不被考虑。
在实施例中,对于由所表示的Mq中的每一个图像Ii,通过计数组中的邻居的数量和近似复制品的数量,可以执行最近邻居分组,其中邻居被定义为具有的面部,以及近似复制品被定义为其中φ(·)∈[0,1]。在实施例中,可以使用来自图像搜索的图像和标签来学习相似性函数φ(·);然而,对于该框架,替选的距离度量也可接受。
然后,可以从Mq移除具有少于k个最近邻居的图像。为了减少冗余,可以移除由Ii表示的图像的所有近似复制品。然后,可以按照近似复制品计数的降序对Mq的元素进行排序。排序列表中的每一个面部,如果它具有在列表中早先出现的近似复制图像,则可以被丢弃;否则,其可以被保留。能够注意的是,这样的局部局外者移除方法可以有助于对于减少错误否定是重要的高查全率。通过该过程,可以识别与给定的面部模型相对应的标注的面部的初始集合。
模型间分析
在本发明的实施例中,该阶段以在模型内分析之后剩余的标注的面部集合开始,并且企图通过对例如用不同姓名注释的来自不同模型的面部进行比较来进一步移除不正确标注的条目。如果集合包含具有不同标签的两个近似复制面部,则几乎肯定地标签中的一个或两者是不正确的,以及该面部不能被用来可靠地标注进入的查询面部。模型间分析阶段的目标是,通过以成对方式考虑集合中的所有面部来解决近似复制面部。对于每一对如果例如,面部i和j具有大于T的相似性,并且标注的名人姓名不一致,则带有如在模型内分析期间计算的最小近似复制品计数的面部被标记用于稍后移除。一旦已考虑了所有面部对,标记用于移除的面部就从集合被丢弃并且从它们所属的集Mq被移除。注意到,该公式将每一个面部与集合中的每个其他面部进行比较,因此,可能的是,单个面部在一些比较期间输掉、或被标记用于移除、以及赢了其它面部。在任一情况下,如果它们在任何比较期间输掉,则从集合丢弃特征向量。
光谱分析
在本发明的实施例中,光谱分析阶段,与在其中个体面部,例如近似复制品和最近邻居,统计被考虑的模型内分析和模型间分析阶段不同,该阶段的目标是,评估个体模型的全局统计。在光谱分析阶段开始,面部特征向量的每一个集Mq仅包含在模型内分析或模型间分析期间还没被丢弃的那些元素。
对于每一个模型Mq,特征向量集其中i=1...||Mq‖,目标是将聚类成k个组,以及移除组中作为局外者类的一个。在实施例中,这通过以下开始:对于Mq中的每一对计算测量的相似性其中S∈[0,1]。相似性Sij可以被看作在模型Mq上的无向图G的权重。矩阵S扮演G的“实值”邻接矩阵的角色。接着,使为节点i的度,以及D为对角矩阵,其中di作为其对角。最后,G的图拉普拉斯被定义为L=D-1/2SD-1/2,确保特征值范围在[0,1]之间,其中最大特征值等于1。在实施例中,一些传统光谱聚类算法通过基于其特征值选择L的k个优势特征向量以及将中的原始数据投影到这些k个特征向量上、因此映射来进行。然而,凭借高置信度,认为包括Mq的集群如在图1中所看见的是球形的,以及Mq中的数据不需要投影。在实施例中,图1表示到一个面部签名的成对相似性的的映射。块图102表示在布兰妮·斯皮尔斯的面部模型中的71个图像。块图104表示在巴拉克·奥巴马的面部模型中的141个图像。在该实施例中,明显的是,布兰妮·斯皮尔斯具有各种典型外表或她的模型是一贯受污染的,因为巴拉克·奥巴马的分布指示他的图像是大部分相似的、从一个到另一个稍微变化、以及通常是相同的外表。
如此,图拉普拉斯L仅用来确定模型阶次k。按照降序对L的特征值进行排序,其中λ1=1,以及特征值的其余部分减少到零。特征值的分布用作模型M的失真或污染的估计。如果剩余特征值跌落太快,则假设Mq是没有受污染的,以及所有其成员在其邻居之中具有强大支持。然而,如果一些特征值确实很大,例如>T,则k由大于T的特征值的数量来确定。
在实施例中,凭借适当的模型阶次k,使用凝聚聚类来对Mq中的条目进行聚类。可以在k路聚类上选择迭代二进制聚类,因为仅在原始数据不是嘈杂的,并且所选择的k=ktrue时,多路才执行得更好。因为数据可能被错误地标记,在这种情况下,迭代二进制聚类是更适当的。可以使用带有平均链接的层次聚类来对在Mq中的面部进行聚类,使用下面的相似性函数:
一旦Mq被分成集群C1...Ck,就选择局外者集群。局外者选择可以通过以下来完成:集群的统计,例如集群大小、熵、平均集群图像排名或在先前阶段中计算的平均复制品计数,或与模型Mq‘进行比较,其中q≠q’。多数情况下,与Mq‘最相似的集群,φ(Ci,Mq‘),被认为是局外者集群,并且被丢弃。注意,φ(Ci,Mq‘)仅仅是在集群Ci和模型Mq‘之间的平均成对相似性。然后,完成与姓名列表中的所有人的集合的比较。将剩余集群中的面部与Mq和Mq‘中的条目分别进行比较。从Mq移除与Mq‘具有较高平均相似性的那些。可能的是,将Mq与它与之最相似的仅仅较小数量的模型进行比较,而不是将Mq与Q-1剩余模型中的每一个进行比较,导致q(Q-1)/2个成对比较。例如,可以将Mq仅仅与它在模型内分析之前与之共享最大交集的单个模型Mq‘进行比较。替选地,在||Mq‖<2之前,可以将Mq与其他模型Mq‘进行比较。
代表性图像
在本发明的实施例中,自动选择个人的代表性图像。个人的代表性图像由来自上述的图像集和对应的特征向量的相似性特征集定义,例如,面部签名、服装、太阳镜、头发颜色、背景等。
基于面部特征来选择代表性图像可以通过首先基于面部相似性对感兴趣的个人的面部图像进行聚类来完成。如本领域技术人员所知的,可以使用若干聚类算法中的任何算法,例如,任何成对或中央方法,来创建集群。作为示例,将面部中的每一个用作中心,可以使用均值漂移聚类来首先创建集群。将具有与中心面部的至少例如90%的阈值相似性的所有面部添加到该集群。这样的过程会导致同一面部在多个集群中存在。可以从较小集群移除复制面部,而包括超过例如10的最小阈值的数量的面部的集群可以被称为“良好”集群。在题为“MethodAnd System For Automated Annotation Of Persons In Video Content”的美国专利申请No.12/172,939(Atty.Dkt.No.2525.1390000)中更详细地描述了聚类技术的进一步论述,其通过全文引用方式并入本文中。
然后,可以将来自最大集群或任何良好集群的图像识别为代表性图像。在不存在良好集群的情况下,可以从最大集群选择代表性图像。
在实施例中,代表性图像被配置成仅包括头部特写图像,例如不是全身图像或组图像。对头部特写代表性图像的选择基于评分算法。例如,当图像的裁切不被允许或是不可能的时,基于图像的描绘感兴趣的个人的面部的部分,给予每一个图像规范化的头部特写分值。因此,组相片将具有比肖像相片的分值更小的分值。此外,如果特定图像宽高比是期望的,则将所选择的图像沿着维度中的一个扩展以适合期望的高宽比。在头部特写分值计算中使用扩展的图像尺寸。基于最高评分图像来选择代表性头部特写图像,其中最佳选择是从良好集群中得到的图像。然而,如果没有良好集群可用,则选择来自所有图像的最高评分图像。如果存在具有同一最高分值的若干图像,则选择来自最大集群的图像。
辨识
根据本发明的实施例,本部分描述了使用构建的生物模型的辨识的过程。在实施例中,选择能够几乎实时通过整个训练数据集的分类方法。由于延迟是大型数据集的问题,可以与最近邻居分类器的变体一起执行辨识。
在实施例中,给定查询图像Iquery,将特征向量与训练数据中的所有图像进行比较。凭借与在训练时相同的相似性度量,选择所有Q类别的前k个最相似的图像。用于查询的面部标签的最终选择基于以下假设。首先,由于不能保证训练数据是准确的,可能存在与查询图像具有非常高的相似性的不正确标记的图像,因此,在训练时找到单个最相似的图像并且转送其标签不是最佳的。其次,如果模型Mq被选择来用与的最高平均相似性识别,则由于变化的模型大小和训练标签的不确定性,跨所有模型的平均相似性几乎相同。因此,在实施例中,选择在两个极端之间的距离函数:
对荒野(wild)中的面部的辨识固有地是开放集问题,其中在查询图像中描绘的名人可能不在辨识系统所知的那些之中。为了解决这个,在实施例中,引入辨识可能性阈值TT。如果与最匹配的名人模型的相似性没有超过该阈值,sim(Iquery,q)<TT,则系统拒绝辨识该查询面部,并且替代地将该查询面部报告为“未知的”。
试验结果
在对应于示例性实施例的试验中,为了评估辨识器的性能,选择了手动注释的查询图像集,以及使用辨识器来为每一个图像提议名人姓名或“未知的”。可以使用两个数字来测量性能:查准率(是正确的提议的姓名的分数)和查全率(从属于辨识器已知的名人的所有图像之中提议的正确姓名的分数)。查准率和查全率随辨识可能性阈值的选择而变化,例如,更高的阈值产生更高的查准率,但是更低的查全率。因此,针对阈值范围,评估查准率和查全率。在图2和3中,以查准率对查全率图总结了结果。
试验的目标是,使用普通图像,包括具有较低分辨率和较差成像条件的那些,来辨识人的面部。因此,在三个不同和自然的数据集上完成了试验。如在此所描述的,使用带有1兆像素照相机的移动设备来复制现实生活用户体验,并且报告示例性实施例以及其他方法的各个阶段的辨识结果,使用测试图像集来将示例性实施例的性能与最先进的方法进行比较。还将示例性实施例的性能与经由Berg、Berg、Edwards、Maire、Teh、Learned-Miller和Forsyth(″Berg等人")、在提交中的姓名和面部的最相关工作和测试数据的进行比较。
30,000著名人物的辨识
依据本发明的实施例,为了确定上面呈现的算法的可伸缩性和可行性性能,构建了近似30,000姓名的列表。为了测试,从列表挑选了超过1000个姓名,以及为每一个对应的姓名获得了面部图像。有目的地,以变化的灯光和姿势获得图像,范围从杂志封面到电视屏幕上的面部特写。所有图像都用具有1兆像素照相机的移动电话拍摄。在测试中,该方法的性能在管线的各个阶段处被比较,并且还与来自在该测试中是谷歌图像搜索(GIS)的图像系统的原始输出进行比较。具体地,比较使用来自GIS的20和50个结果,其中面部过滤器打开(GIS,前20/50个面部),构建的模型;仅使用管线的第一阶段,最近邻居分组(模型内)来构建的模型;使用包括复制品移除(模型间)的管线的前两个阶段来构建的模型;以及使用整个管线(光谱)来构建的最终模型。另外,针对同一数据集,使用Zhao等人开发的算法(InAutomatic Faced and Gesture Recognition,2008.FGR 2008.8th Int.Conf.on,2008)来比较性能,该算法通过全文引用方式并入本文中。在图2中示出了查准率/查全率曲线,其中线201指示GIS、前20个面部;线203指示GIS,前50个面部;线205指示一致性;线207指示与neardupes的一致性;线209指示模型间的;线211指示光谱的;以及线213指示模型内的。
在实施例中,图2示出管线的每一个提议阶段提供了明确的贡献,并且提高了系统的总体性能。对于所有算法,在高查全率(>0.5)处的低查准率趋势是可见的。这些曲线的高查全率区域对应于在GIS中具有非常少的图像的人的辨识。因此,为了能够辨识这样的人,例如,为了减少错误否定来增加查全率,所允许的错误肯定的数量必须增加,导致较低查准率。
与GIS的原始输出相比较,明显的是,变化GIS输出的大小(20或50)没有导致大量输入。实际上,增加GIS输出仅减少了信噪比,并且导致了更少准确的生物模型和错误辨识。然而,使用所呈现的管线,从GIS提取尽可能多的图像,其中上限是1000,使用管线的各个阶段来去除错误标注的图像。
除将管线的每一个阶段的贡献与辨识准确度进行比较外,还考虑训练每一个阶段所需的时间和每一个阶段递交的作为结果的模型大小。在下面表1中给出了运行时间和大小。Zhao等人的一致性学习具有与管线的模型间阶段同阶的复杂性O(n2),其中n是面部的数量。然而,由于其可以是O(1000*n2)的抽样策略,其中1000是随机样本的数量,而模型间分析是O(1*n2)。更重要地,与一致性学习方案不同,模型间分析是确定性的。在实践中,一致性学习,用于大型面部辨识的唯一其他方法,慢于在该示例性实施例中的(组合模型内、模型间和光谱的)方法超过3倍,并且导致超过11%更糟辨识率(在F-测量的提高)。
表1:各种算法和管线阶段的性能统计
“姓名和面部”的辨识
为了将示例性实施例中的方法的性能与其他方法和测试集进行比较,重复Berg等人的辨识试验。Berg等人从其数据集选择了1000个随机图像以及相关联的新闻标题。使用与面部辨识器耦接在一起的语言模型,将来自标题的姓名选择为用于给定面部的标签。为了模拟该实验,要求测试数据中的所有真实姓名存在于姓名列表中用于训练。使用了训练数据的两个不同版本:一般和特定。一般训练包括了近似30,000个姓名的姓名列表,以在没有任何监督的情况下训练相应生物模型,而特定训练仅包含了在测试集中存在的姓名,在计算机视觉界的标准。对于测试数据,也创建了两个版本:测试1和测试2。用于Berg等人提供的测试图像的标签中的部分是以形式“christianpalestinian(基督教徒巴基斯坦人)”和“young afghan(年轻阿富汗人)”。这些标签不是特有的人名,以及如果用作对GIS的查询,则明显地不会产生确定性的结果集。因此,从测试1的测试数据移除了带有这样的标签的少许测试图像。在测试2中,同样移除了带有在GIS中没有产生显著响应的标签的图像。图3图示ROC曲线,并且示出上述两个训练和测试集的性能,其中线301图示仅Berg的训练测试1;线303图示仅Berg的训练测试2;线305图示一般训练测试1;以及线307图示一般训练测试2。在下面表2中示出了性能统计的总结。
表2:各种算法和管线阶段的性能统计
算法 | 排名1辨识 |
特定训练:测试1 | 77% |
特定训练:测试2 | 90% |
一般训练:测试1 | 55% |
一般训练:测试2 | 69% |
Berg等人:测试1 | 78% |
然而,如果回归到传统训练方案,并且保证训练集精确包含存在于测试中的类别,(特定训练,测试1),则示例性实施例与Berg等人执行得同样好,同时解决了不受新闻标题和语言模型限制的更一般的问题。最后,如果要求必须存在用于所有测试类别的训练数据,公平的要求,则定义测试2。在这种情况下,示例性实施例显著胜过了Berg等人,并且产生了辨识系统,其查准率遍及整个查全率域仅降低了10%。
失败案例
由于所呈现的算法的统计性质,以及对例如GIS的不完美的有注释的图像源的依赖,存在错误通过其可以进入即时训练的名人模型的多个途径,因此产生了不正确的辨识结果。
这些中的首要和最常见的是,较不著名的名人的模型变得污染他们与之密切关联的更著名的名人的面部的问题。例如,虽然萨拉·佩林的模型是干净的,包含没有错误的78个图像,但是她的较不显要的女儿布里斯托尔·佩林的模型包含她母亲的7个图像。结果,萨拉·佩林的一些查询图像将被不正确地辨识为布里斯托尔,不是因为萨拉·佩林的模型存在任何问题,而是因为另一个模型具有错误。可以将该问题归因于以下事实:在该示例中,较不显要的人的GIS结果是固有更嘈杂的。有趣地,两个强烈相关联但是极其著名的名人的模型,诸如布拉德·皮特和安吉丽娜·朱莉,没有显出该问题,可能是由于在其个人GIS结果中的高信噪比。
第二个问题是在发起GIS查询时对规范名的使用。例如,“威尔士亨利王子”返回相对很少、嘈杂的结果,产生仅包含单个面部的模型,而更口语的“亨利王子”将返回显著更广泛的集合。作为该贫困模型的结果,模型间分析不能从他的爱情对象,切尔西·戴维的模型移除王子的面部。该问题可以由为名人的别名中的每一个收集GIS结果并且选择最佳模型、或聚集结果引起。
可能出现问题的其他类别包括时装设计师,其GIS结果由穿戴其创作物的其他人的相片占优势,以及戴太阳镜的名人,其偶尔会被面部相似性函数混淆。
系统组件
图4示出根据本发明的实施例的系统400,其能够自动识别名人姓名,以及识别、辨识面部图像并且将面部图像与所识别的名人姓名进行关联。面部辨识检测器412通过连接411被耦接到系统接口410。系统接口410可以是例如位于与面部辨识检测器412相同的计算平台上的用户接口或应用编程接口、或远程用户接口,诸如web客户端。因此,连接411可以使用连接方法,诸如通信总线、以太网、或无线通信标准、或其他通信协议。
系统接口410可以存在于包括至少一个处理器、至少一个存储器和至少一个网络接口的设备上。例如,系统接口410可以在个人计算机、手持式计算机、个人数字助理、移动通信设备、游戏控制台、数字娱乐系统、机顶盒等上实现。
面部辨识检测器412可以存在于服务器上,以及可以包括web服务器,诸如来自谷歌公司的谷歌Web服务器、来自Apache基金会的Apache Web服务器、来自微软的因特网信息服务等。面部辨识检测器412可以提供对本地存储或存储在耦接的存储设备(未示出)上的web内容的访问。面部辨识检测器412典型地包括连接到网络的至少一个服务器计算机。示例服务器计算机包括但不限于计算机、工作站、分布式计算系统、计算机集群、嵌入式系统、独立电子设备、联网设备、移动设备(例如,移动电话或移动计算设备)、机架服务器、机顶盒、或具有至少一个处理器、存储器和网络接口的其他类型的计算机系统。
面部辨识检测器412还可以访问图像/视频语料库432和文章语料库434。语料库432和434中的部分或全部通过网络430可以是可访问的,所述网络430诸如如同因特网的广域网(WAN)或局域网(LAN)、或可以本地位于用户自己的系统上。语料库432和434每一个可以包括位于同一处或被分布的一个或多个存储设备。在一些实施例中,语料库432和434可以部分或全部位于同一处。面部辨识检测器412可以通过任何连接431被耦接到网络430,所述连接431包括例如但不限于通信总线、以太网和无线通信标准。图像/视频语料库432可以包括以任何图像格式的图像,所述图像格式诸如JPEG、Exif、TIFF、RAW、PNG、GIF、BMP、PPM、CGM、SVG、PNS、JPS和MPO。图像/视频语料库432包括人的图像。文章语料库434包括例如文章归档、基于web的服务以及本地和/或通过因特网可访问的储存库。可用文章归档可以包括例如但不限于ASCII文本、PDF文本和其他形式的文本。
面部辨识检测器412还分别通过连接441和451被耦接到姓名数据库440和图像数据库450。姓名数据库440包括面部辨识检测器412至少基于在文章语料库434中可用的文章中识别的姓名来识别并排名的名人的姓名列表。在下面,将参考图5进一步描述姓名列表的这样的生成。图像数据库450包括在姓名数据库440中表示的名人的姓名列表中的人的、来自包括静止图像和视频图像的任何类型的图像内容的面部图像。图像数据库450中的面部图像至少根据在图像/视频语料库432中找到的图像来生成并识别。如在本公开中所使用的,“数据库”是指数据元素的任何集合,以及相关联的存储和访问机制。连接142可以使用一个或多个连接方法,诸如通信总线、以太网,以及无线通信标准。
面部辨识检测器412可以包括若干组件,包括姓名列表生成器422、面部签名检测器424和个人模型学习系统426。面部辨识检测器412以及子系统422、424和426中的部分或全部可以以软件、硬件或其任何组合来实现。例如,面部辨识检测器412可以被实现为在中央处理器单元(图4中未示出)上的可执行代码。在另一个实施例中,面部辨识检测器412可以以诸如现场可编程门阵列的硬件组件来实现。本领域技术人员将理解的是,面部辨识检测器412可以在一个或多个平台中实现。
姓名列表生成器422生成系统将试图辨识的著名名人的姓名列表。姓名的列表,或姓名列表基于来自文章语料库434的文章来生成。姓名列表生成器422对来自文章语料库434的文章进行过滤以仅仅包括描述人的那些文章。姓名列表生成器422基于在下面更详细描述的图像搜索所返回的面部图像的数量对姓名列表中的姓名进行排名。
面部签名检测器424从姓名列表生成检测器422所生成的初始图像移除“非面部”图像,并且在下面更详细地被描述。
个人模型学习系统426将面部签名检测器424所产生的面部图像取作输入,并且为在姓名列表中识别的个人生成高度准确的生物模型。个人模型学习系统426使用一系列分析子系统来进一步精化姓名和图像关联,其最终生成与查询的面部相关联的姓名或指示查询的面部是“未知的”。
图5示出根据本发明的实施例的姓名列表生成器422的组件。姓名列表生成器422包括姓名列表生成器子系统502、图像收集器504和姓名排名器506。
姓名列表生成器子系统502基于在文章语料库434中找到的文章来生成姓名列表。姓名列表生成器子系统502识别文章语料库434中的文章、仅选择并且过滤包含人名的那些文章。一旦获取姓名列表,图像收集器504就为每一个姓名收集来自例如静止和/或视频的任何类型的图像内容的图像集,以及对应的特征向量。这例如通过向图像/视频语料库432发起图像搜索来完成。在实施例中,图像收集器504包含为每一个查询返回的图像的数量的阈值,所述图像的数量不会超过该阈值。图像收集器504检测提取特征向量的每一个图像中的面部,以及用每一个特征向量从之被获取的查询推定地标注每一个特征向量。姓名排名器506然后基于图像收集器504所识别的面部图像的数量来对姓名列表中的姓名进行排名。
图6示出根据本发明的实施例的面部签名检测器424的组件。面部签名检测器424包括特征检测子系统602、界标器子系统604、面部概率子系统606和面部检测子系统608。
如前所述,特征检测子系统602使用例如在窗口大小的范围的快速滑动窗口方法,其利用混杂的特征检测器集的线性组合。在实施例中,可以使用界标器子系统604来通过准确定位在面部边界框内的面部特征位置进一步精化面部检测。面部概率子系统606然后在界标器子系统604所识别的位置处提取特征,以获取指示面部存在的概率的精化的分值。面部检测子系统608然后至少基于检测到的特征和面部存在的概率来确定面部确实已被检测到。
图7示出根据本发明的实施例的个人模型学习系统426的组件。个人模型学习系统426包括模型内分析器子系统702、模型间分析器子系统704、光谱分析器子系统706和辨识器子系统708。
模型内分析器子系统702实现从面部签名检测器424移除不正确标注的面部签名的第一阶段。模型内分析器子系统702检查与姓名列表中的单个姓名相关联的所有面部图像,在不考虑属于其他姓名的面部的情况下,决定哪些面部被丢弃。模型内分析器子系统702的任务是移除明显的局外者,其中移除与和特定姓名相关联的大多数其他面部非常不相似的面部。
给定均标注有同一名人姓名的面部签名组,模型内分析器子系统702为每一个面部计数在组中的邻居数量和近似复制品的数量。在实施例中,邻居被定义为具有小于例如0.2的值的距离的面部,以及近似复制品具有小于例如0.01的第二值的距离,其中距离范围从最小0.0到最大1.0。模型内分析器然后丢弃具有小于例如10的第三值个邻居的所有面部。最后,模型内分析器子系统702通过基于面部在组中具有的近似复制品的数量按照降序对面部进行排序,从组移除近似复制品。对于排序列表中的每一个面部,如果面部具有在列表中早先出现的近似复制品,则作出丢弃决定;否则,其被保留。
模型间分析器子系统704从模型内分析器子系统702接收标注的面部集合,并且试图通过比较注释有不同姓名的面部,进一步移除不正确标注的条目。模型间分析器子系统704识别并移除与在姓名列表中的姓名相关联、已被不正确地标注有来自姓名列表的另一个姓名的面部。
如果姓名列表包含带有不同标签的两个近似复制面部,则几乎肯定地标签中的一个或两者是不正确的,以及该面部不能被用来可靠地标注进入的查询面部。模型间分析器子系统704在该阶段的目标是,通过以成对方式考虑集合中的所有面部来解决近似复制面部。对于每一对,如果面部具有小于例如0.01的值的距离,并且标注的名人姓名不一致,则具有如由模型内分析器子系统702计算的最小近似复制品计数的面部被标记以供稍后移除。一旦已考虑了所有面部签名对,就从集合丢弃标记用于移除的面部。然而,该公式将每一个面部与集合中的每个其他面部进行比较。因此,可能的是,单个面部签名在一些比较期间“输掉”、或被标记用于移除、以及“赢了”其它比较。如果面部签名在任何比较期间“输掉”,则模型间分析器704从集合丢弃面部签名。
光谱分析器子系统706实现分析并使用两个组分的最后阶段。第一组分基于个人内比较,以及第二组分基于个人间比较。光谱分析器706使用个人内比较来分别为每一个人考虑图像集合。光谱分析器706构建距离矩阵来描述在一个人的所有图像之间的成对关系。将距离矩阵转变成图拉普拉斯矩阵,并且对其光谱进行分析。如果图拉普拉斯的第二特征值小于例如被设置为0.4的特征间距,则不执行集合的聚类。否则,如果第二特征值大于特征间距,则使用平均凝聚聚类来将集合分成两个集群。将两个集群中的一个作为局外者丢弃。集群选择通过以下来完成:集群的统计(例如,集群大小、或类内平均图像排名、或在先前阶段计算的平均复制品计数)或与其他人的图像集合进行比较。执行使用与和当前个人具有较高标识符重叠的个人的图像集合的这样的比较的“简易”版本的实施例。注意,在执行集群的比较之前,在当前集合和具有最高标识符重叠的集合之间可以建立优势。优势可以通过对每一个集合的图拉普拉斯的光谱进行分析来计算。具有较高第二特征值的集合被认为是占优势的。在另一个实施例中,使用“完整”版本,完成与姓名列表中的所有人的集合的比较。
光谱分析器706,使用个人间比较,可以使用“简易”实施例,以及还可以使用“完整”版本实施例。个人间“简易”实施例检查集合中的每一个图像与集合中的剩余者以及与和其共享最多标识符的个人的集合中的所有图像的相似性。如果图像的与一个集合的相似性小于与另一个集合的相似性,则给定的图像被认为是局外者。在“完整”版本实施例中,除不只考虑具有最高标识符重叠的集合,而是递归地考虑所有其他集合外,执行相同的比较。
辨识子系统708执行与查询的面部是辨识的还是未知的有关的最终决定。在实施例中,如前所述,辨识子系统708使用辨识可能性阈值。如果与最匹配的面部图像的相似性没有超过该阈值,则辨识子系统708拒绝辨识查询的面部,并且将该查询的面部报告为未知的。否则,辨识子系统708将那些所辨识的面部与相关联的对应姓名一起展示。
图8是描绘根据本发明的实施例的用于自动挖掘名人的个人模型的方法800的流程图。在步骤802,识别并收集名人的姓名。在步骤804,识别、收集并排名与在步骤802中收集的名人的姓名相关联的图像。在步骤806,执行模型内分析,以基于与特定名人相关联的图像来移除不正确标注的图像。在步骤808,执行模型间分析,以通过对注释有不同名人姓名的面部进行比较来进一步移除不正确标注的图像。在步骤810,执行光谱分析,以使用距离矩阵来进一步精化不正确标注的图像。在步骤812,作出特定图像是否与特定名人姓名相关联的确定。
示例计算机系统实现
在图1-8中所示的本发明的方面、或其任何部分或功能,可以使用硬件、软件模块、固件、其上存储有指令的有形计算机可读介质或其组合来实现,以及可以在一个或多个计算机系统或其他处理系统中实现。
图9图示在其中本发明的实施例或其部分可以被实现为计算机可读代码的示例计算机系统900。例如,系统400可以在计算机系统900中使用硬件、软件、固件、其上存储有指令的有形计算机可读介质或其组合来实现,以及可以在一个或多个计算机系统或其他处理系统中实现。硬件、软件或这样的任何组合可以使图1-8中的组件中的任何一个具体化。
如果使用可编程逻辑,则这样的逻辑可以在商用处理平台或专用设备上执行。本领域技术人员可以理解的是,所公开的主题的实施例可以以各种计算机系统配置实践,包括多核多处理器系统、小型计算机、大型计算机、以分布式功能链接或群集的计算机、以及可以被嵌入在几乎任何设备中的普遍或微型计算机。
例如,可以使用至少一个处理器设备和存储器来实现上述实施例。处理器设备可以是单个处理器、多个处理器或其组合。处理器设备可以具有一个或多个处理器“核”。
根据该示例计算机系统900描述了本发明的各种实施例。在阅读该描述之后,对相关领域技术人员将变得显而易见的是,使用其他计算机系统和/或计算机体系结构如何实现本发明。尽管操作可以被描述为顺序过程,然而,操作中的部分实际上可以并行、同时和/或在分布式环境中被执行,以及程序代码被本地或远程存储以供单个或多个处理器机器访问。另外,在一些实施例中,在不背离所公开的主题的精神的情况下,可以重新安排操作的顺序。
处理器设备904可以是专用或通用处理器设备。如相关领域技术人员应当理解的,处理器设备904还可以是在多核/多处理器系统中,这样的系统可以独立操作、或在集群或服务器群中操作的一群计算设备中的单个处理器。处理器设备904连接到通信基础设施906,例如总线、消息队列、网络或多核消息传递方案。
计算机系统900还包括主存储器908,例如随机存取存储器(RAM),以及还可以包括辅助存储器910。辅助存储器910可以包括例如硬盘驱动器912、可移动存储驱动器914。可移动存储驱动器914可以包括软盘驱动器、磁带驱动器、光盘驱动器、闪存等。可移动存储驱动器914以众所周知的方式读写可移动存储单元918。可移动存储单元918可以包括软盘、磁带、光盘等,其由可移动存储驱动器914进行读写。如相关领域技术人员应当理解的,可移动存储单元918包括其中存储有计算机软件和/或数据的计算机可用存储介质。
计算机系统900(可选地)包括显示接口902(其可以包括输入和输出设备,诸如键盘、鼠标等),其转送来自通信基础设施906(或来自帧缓存器,未示出)的图片、文本和其他数据以供在显示单元930上显示。
在替选实现中,辅助存储器910可以包括用于允许计算机程序或其他指令被加载入计算机系统900中的其他类似装置。这样的装置可以包括例如可移动存储单元922和接口920。这样的装置的示例可以包括程序带盒和带盒接口(诸如在视频游戏设备中找到的)、可移动存储器芯片(诸如EPROM或PROM)和相关联的插槽、以及允许软件和数据从可移动存储单元922传送到计算机系统900的其他可移动存储单元922和接口920。
计算机系统900还可以包括通信接口924。通信接口924允许软件和数据在计算机系统900和外部设备之间被传送。通信接口924可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、PCMCIA插槽和卡等。经由通信接口924传送的软件和数据可以以信号形式,信号可以是能够由通信接口924接收的电、电磁、光或其他信号。这些信号可以经由通信路径926向通信接口924提供。通信路径926载送信号,并且可以使用电线或电缆、光纤、电话线、蜂窝电话链路、RF链路或其他通信信道来实现。
在本文档中,术语“计算机程序介质”和“计算机可用介质”通常用来指诸如可移动存储单元918、可移动存储单元922和安装在硬盘驱动器912中的硬盘的介质。计算机程序介质和计算机可用介质还可以是指存储器,诸如主存储器908和辅助存储器910,其可以是存储器半导体(例如,DRAM等)。
计算机程序(也称为计算机控制逻辑)被存储在主存储器908和/或辅助存储器910中。计算机程序还可以经由通信接口924来接收。这样的计算机程序当被执行时,使计算机系统900能够实现如在本文中论述的本发明。具体地,计算机程序当被执行时,使处理器设备904能够实现本发明的过程,诸如上述图8的流程图800所图示的方法中的阶段。因此,这样的计算机程序表示计算机系统900的控制器。在使用软件来实现本发明的情况下,软件可以被存储在计算机程序产品中,并且使用可移动存储驱动器914、接口920和硬盘驱动器912或通信接口924来加载入计算机系统900中。
本发明的实施例还可以针对包括存储在任何计算机可用介质上的软件的计算机程序产品。这样的软件当在一个或多个数据处理设备中执行时,促使数据处理设备如在本文中描述的操作。本发明实施例利用任何计算机可用或可读介质。计算机可用介质的示例包括但不限于主存储设备(例如,任何类型的随机存取存储器)、辅助存储设备(例如,硬盘驱动器、软盘、CD ROM、ZIP盘、带、磁存储设备和光存储设备、MEMS、纳米技术存储设备等)。
结论
应当理解的是,意在使用具体实施方式部分而非发明内容和摘要部分来解释权利要求。发明内容和摘要部分可以阐明发明人预期的本发明的一个或多个而非所有的示例性实施例,因此发明内容和摘要部分并不意在以任何方式来限制本发明和所附的权利要求。
在上面借助于说明指定的功能及其关系的实现的功能构造块来描述了本发明。为了便于描述,在本文中任意地限定了这些功能构造块的边界。可以限定替选边界,只要所述指定的功能及其关系被适当地执行。
特定实施例的前述描述如此充分地揭示了本发明的一般性质,使得其他人可以在不背离本发明的一般概念的情况下,通过应用在本领域的技术内的知识为各种应用容易地修改和/或调整这样的特定实施例,而不用进行过度实验。因此,基于在本文中提供的教导和指导,这样的调整和修改意在在所公开的实施例的等价物的含义和范围内。应当理解的是,在本文中的措词或术语用于描述而非限制的目的,因此本说明书的术语或措词应当由技术人员根据所述教导和指导来解释。
本发明的宽度和范围不应当由上述示例性实施例的任何一个限制,而是应当仅根据所附权利要求及其等价物来限定。
Claims (22)
1.一种自动面部辨识的计算机实现的方法,包括:
(a)基于一个或多个文章来生成一个或多个姓名;
(b)获取声称对应于所述一个或多个姓名的一个或多个图像;
(c)从所述一个或多个图像选择一个或多个面部图像;
(d)将所述一个或多个面部图像与所述一个或多个姓名相关联;以及
(e)使用模型内分析、模型间分析和光谱分析来移除不正确关联的面部图像。
2.根据权利要求1所述的计算机实现的方法,进一步包括:确定与面部图像的最匹配的姓名。
3.根据权利要求1所述的计算机实现的方法,进一步包括:确定个人的代表性图像。
4.根据权利要求1所述的计算机实现的方法,其中所述一个或多个文章被过滤,以仅保留包含人名的文章。
5.根据权利要求1所述的计算机实现的方法,其中所述光谱分析基于迭代二进制聚类。
6.根据权利要求1所述的计算机实现的方法,进一步包括:当没有超过辨识可能性阈值时,不能确定与面部图像最匹配的姓名。
7.根据权利要求1所述的计算机实现的方法,其中所述光谱分析在所述模型间分析之后被执行,以及所述模型间分析在所述模型内分析之后被执行。
8.根据权利要求1所述的计算机实现的方法,进一步包括:基于相关联的面部图像的数量来对姓名进行排名。
9.根据权利要求1所述的计算机实现的方法,进一步包括:为所述一个或多个面部图像检测特征向量。
10.根据权利要求8所述的计算机实现的方法,其中所述检测识别在所述一个或多个面部图像内的面部特征位置。
11.一种系统,包括:
(a)面部图像数据库;
(b)姓名数据库;以及
(c)基于计算机的面部辨识系统,包括:
(i)姓名列表生成器,其被配置成基于文章来生成姓名列表中的一个或多个姓名,并且检索与所述一个或多个姓名相关联的一个或多个图像;
(ii)面部签名检测器,其被配置成检测并关联在与所述姓名列表中的所述一个或多个姓名相对应的所述一个或多个图像内的面部图像;
(iii)模型内分析器,其被配置成基于与所述姓名列表中的单个姓名相关联的面部图像来移除不正确关联的面部图像;
(iv)模型间分析器,其被配置成基于与所述姓名列表中的不同姓名相关联的面部图像来移除不正确关联的面部图像;以及
(v)光谱分析器,其被配置成基于相似性矩阵来移除不正确关联的面部图像。
12.根据权利要求11所述的系统,进一步包括:辨识器,其被配置成确定特定图像是否与所述姓名列表中的特定姓名相关联。
13.根据权利要求11所述的系统,其中所述姓名列表生成器进一步包括:姓名排名器,其被配置成基于相关联的面部图像的数量来对所述姓名列表中的所述一个或多个姓名进行排名。
14.根据权利要求11所述的系统,其中所述面部签名检测器包括基于Gabor小波来检测面部图像的特征检测器。
15.根据权利要求11所述的系统,其中所述面部签名检测器包括基于在所述一个或多个面部图像内的面部特征位置来检测面部图像的特征检测器。
16.根据权利要求12所述的系统,其中所述辨识器确定不存在与面部图像相关联的匹配的姓名。
17.根据权利要求11所述的系统,其中所述模型内分析器使用基于所述姓名列表中的所有所述姓名的所述相关联的面部图像的个人内比较。
18.根据权利要求11所述的系统,其中所述模型间分析器使用基于递归相似性比较的个人间比较。
19.一种计算机程序产品,包括非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质在其上包括有用来实现自动面部辨识匹配的计算机可读程序代码,所述计算机控制逻辑包括:
第一计算机可读程序代码,其用于促使所述计算机基于文章来生成姓名列表中的一个或多个姓名,并且检索与所述一个或多个姓名相关联的一个或多个图像;
第二计算机可读程序代码,其用于促使所述计算机检测并关联在与所述姓名列表中的所述一个或多个姓名相对应的所述一个或多个图像内的面部图像;
第三计算机可读程序代码,其用于促使所述计算机基于与所述姓名列表中的单个姓名相对应的面部图像来移除不正确关联的面部图像;
第四计算机可读程序代码,其用于促使所述计算机执行模型间分析,以基于与所述姓名列表中的不同姓名相关联的面部图像来移除不正确关联的面部图像;
第五计算机可读程序代码,其用于促使所述计算机执行光谱分析,以基于距离矩阵来移除不正确关联的面部图像;以及
第六计算机可读程序代码,其用于促使所述计算机确定特定图像是否与所述姓名列表中的特定姓名相关联。
20.根据权利要求19所述的计算机程序产品,进一步包括:进一步第七计算机可读程序代码,其用于促使所述计算机确定不存在与面部图像相关联的匹配的姓名。
21.一种用于与使用模型内分析、模型间分析和光谱分析来确定特定图像是否与姓名列表中的特定姓名相关联的自动面部辨识系统通信的设备,包括:
基于客户端的接口,其被配置成将一个或多个姓名输入到所述自动面部辨识系统的所述姓名列表;以及
基于客户端的接口,其被配置成从所述自动面部辨识系统接收与所述姓名列表中的特定姓名相关联的特定图像。
22.一种自动面部辨识的方法,其包括:基于一个或多个文章来生成一个或多个姓名;获取声称对应于所述一个或多个姓名的一个或多个图像;从所述一个或多个图像选择一个或多个面部图像;将所述一个或多个面部图像与所述一个或多个姓名相关联;以及使用模型内分析、模型间分析和光谱分析来移除不正确关联的面部图像;确定与特定姓名最匹配的面部图像,包括:
输入一个或多个姓名;以及
接收所述与所述特定姓名最匹配的面部图像。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US27291209P | 2009-11-18 | 2009-11-18 | |
US61/272,912 | 2009-11-18 | ||
US12/859,721 US8605956B2 (en) | 2009-11-18 | 2010-08-19 | Automatically mining person models of celebrities for visual search applications |
US12/859,721 | 2010-08-19 | ||
PCT/US2010/056869 WO2011062911A1 (en) | 2009-11-18 | 2010-11-16 | Automatically mining person models of celebrities for visual search applications |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102804208A true CN102804208A (zh) | 2012-11-28 |
CN102804208B CN102804208B (zh) | 2016-08-17 |
Family
ID=44011321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080061203.1A Active CN102804208B (zh) | 2009-11-18 | 2010-11-16 | 为视觉搜索应用自动挖掘名人的个人模型 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8605956B2 (zh) |
EP (1) | EP2502185A1 (zh) |
KR (1) | KR101967410B1 (zh) |
CN (1) | CN102804208B (zh) |
AU (1) | AU2010322173B2 (zh) |
CA (1) | CA2781105A1 (zh) |
WO (1) | WO2011062911A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106375817A (zh) * | 2015-07-21 | 2017-02-01 | 三星电子株式会社 | 用于提供广播节目的电子设备和方法 |
CN109086697A (zh) * | 2018-07-20 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 一种人脸数据处理方法、装置及存储介质 |
CN111971686A (zh) * | 2018-12-12 | 2020-11-20 | 微软技术许可有限责任公司 | 自动生成用于对象识别的训练数据集 |
CN113127712A (zh) * | 2019-12-31 | 2021-07-16 | 深圳云天励飞技术有限公司 | 一种归档方法及装置 |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7660807B2 (en) | 2005-11-28 | 2010-02-09 | Commvault Systems, Inc. | Systems and methods for cataloging metadata for a metabase |
US20200257596A1 (en) | 2005-12-19 | 2020-08-13 | Commvault Systems, Inc. | Systems and methods of unified reconstruction in storage systems |
US20150015576A1 (en) * | 2009-08-07 | 2015-01-15 | Cherif Atia Algreatly | Object recognition and visualization |
US8121618B2 (en) | 2009-10-28 | 2012-02-21 | Digimarc Corporation | Intuitive computing methods and systems |
US8903798B2 (en) | 2010-05-28 | 2014-12-02 | Microsoft Corporation | Real-time annotation and enrichment of captured video |
US9311395B2 (en) | 2010-06-10 | 2016-04-12 | Aol Inc. | Systems and methods for manipulating electronic content based on speech recognition |
US8601076B2 (en) | 2010-06-10 | 2013-12-03 | Aol Inc. | Systems and methods for identifying and notifying users of electronic content based on biometric recognition |
RU2587425C2 (ru) * | 2010-09-14 | 2016-06-20 | Дайнэмик Диджитл Депс Рисерч Пти Лтд | Способ получения карты глубины изображения повышенного качества |
US8559682B2 (en) * | 2010-11-09 | 2013-10-15 | Microsoft Corporation | Building a person profile database |
US8645230B2 (en) * | 2011-03-18 | 2014-02-04 | Microsoft Corporation | Virtual closet for storing and accessing virtual representations of items |
US9036925B2 (en) * | 2011-04-14 | 2015-05-19 | Qualcomm Incorporated | Robust feature matching for visual search |
US9678992B2 (en) | 2011-05-18 | 2017-06-13 | Microsoft Technology Licensing, Llc | Text to image translation |
US8811726B2 (en) * | 2011-06-02 | 2014-08-19 | Kriegman-Belhumeur Vision Technologies, Llc | Method and system for localizing parts of an object in an image for computer vision applications |
US8948518B2 (en) * | 2011-07-14 | 2015-02-03 | Futurewei Technologies, Inc. | Scalable query for visual search |
US9087273B2 (en) * | 2011-11-15 | 2015-07-21 | Facebook, Inc. | Facial recognition using social networking information |
EP2766850B1 (en) * | 2011-12-09 | 2021-08-25 | Google Technology Holdings LLC | Faceprint generation for image recognition |
BR112014013980A2 (pt) * | 2011-12-09 | 2017-06-13 | Viewdle Inc | geração de impressão facial para reconhecimento de imagem |
US8892523B2 (en) | 2012-06-08 | 2014-11-18 | Commvault Systems, Inc. | Auto summarization of content |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
KR101993241B1 (ko) * | 2012-08-06 | 2019-06-26 | 삼성전자주식회사 | 이미지에 대한 부가 정보 태깅 및 검색 방법과 시스템, 기기와 그 기록 매체 |
JP2016502181A (ja) * | 2012-11-01 | 2016-01-21 | グーグル インコーポレイテッド | 画像比較プロセス |
US9137314B2 (en) * | 2012-11-06 | 2015-09-15 | At&T Intellectual Property I, L.P. | Methods, systems, and products for personalized feedback |
US9690980B2 (en) | 2012-11-09 | 2017-06-27 | Google Inc. | Automatic curation of digital images |
US10509963B2 (en) * | 2012-12-20 | 2019-12-17 | Microsoft Technology Licensing, Llc | Discovering authoritative images of people entities |
US9235782B1 (en) * | 2012-12-24 | 2016-01-12 | Google Inc. | Searching images and identifying images with similar facial features |
US9098552B2 (en) | 2013-02-05 | 2015-08-04 | Google Inc. | Scoring images related to entities |
US9311640B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods and arrangements for smartphone payments and transactions |
US9530072B2 (en) | 2013-03-15 | 2016-12-27 | Dropbox, Inc. | Duplicate/near duplicate detection and image registration |
US20150100289A1 (en) * | 2013-10-09 | 2015-04-09 | Technion Research & Development Foundation Limited | Method and system for shapewise comparison |
US9569656B2 (en) | 2013-12-06 | 2017-02-14 | Google Inc. | Local real-time facial recognition |
US9268793B2 (en) | 2014-03-12 | 2016-02-23 | Google Inc. | Adjustment of facial image search results |
US9875301B2 (en) | 2014-04-30 | 2018-01-23 | Microsoft Technology Licensing, Llc | Learning multimedia semantics from large-scale unstructured data |
US9646227B2 (en) | 2014-07-29 | 2017-05-09 | Microsoft Technology Licensing, Llc | Computerized machine learning of interesting video sections |
US9934423B2 (en) | 2014-07-29 | 2018-04-03 | Microsoft Technology Licensing, Llc | Computerized prominent character recognition in videos |
US10013637B2 (en) | 2015-01-22 | 2018-07-03 | Microsoft Technology Licensing, Llc | Optimizing multi-class image classification using patch features |
US9785866B2 (en) | 2015-01-22 | 2017-10-10 | Microsoft Technology Licensing, Llc | Optimizing multi-class multimedia data classification using negative data |
US9507996B2 (en) * | 2015-03-02 | 2016-11-29 | International Business Machines Corporation | Ensuring a desired distribution of images in a multimedia document utilizing facial signatures |
US10121056B2 (en) | 2015-03-02 | 2018-11-06 | International Business Machines Corporation | Ensuring a desired distribution of content in a multimedia document for different demographic groups utilizing demographic information |
US10482091B2 (en) * | 2016-03-18 | 2019-11-19 | Oath Inc. | Computerized system and method for high-quality and high-ranking digital content discovery |
US10535371B2 (en) * | 2016-09-13 | 2020-01-14 | Intel Corporation | Speaker segmentation and clustering for video summarization |
US10540516B2 (en) | 2016-10-13 | 2020-01-21 | Commvault Systems, Inc. | Data protection within an unsecured storage environment |
CN106548162B (zh) * | 2016-11-24 | 2019-03-29 | 中译语通科技股份有限公司 | 一种从新闻页面中自动提取带命名人脸数据的方法 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
CN107180093B (zh) * | 2017-05-15 | 2020-05-19 | 北京奇艺世纪科技有限公司 | 信息搜索方法及装置和时效性查询词识别方法及装置 |
US10025950B1 (en) * | 2017-09-17 | 2018-07-17 | Everalbum, Inc | Systems and methods for image recognition |
US11605017B1 (en) * | 2017-12-26 | 2023-03-14 | Meta Platforms, Inc. | Machine-learning based detection of policy-violating information in content |
US10642886B2 (en) * | 2018-02-14 | 2020-05-05 | Commvault Systems, Inc. | Targeted search of backup data using facial recognition |
US20190251204A1 (en) | 2018-02-14 | 2019-08-15 | Commvault Systems, Inc. | Targeted search of backup data using calendar event data |
US11074434B2 (en) * | 2018-04-27 | 2021-07-27 | Microsoft Technology Licensing, Llc | Detection of near-duplicate images in profiles for detection of fake-profile accounts |
US10963677B2 (en) | 2018-07-23 | 2021-03-30 | The Mitre Corporation | Name and face matching |
CN111259918B (zh) * | 2018-11-30 | 2023-06-20 | 重庆小雨点小额贷款有限公司 | 一种意图标签的标注方法、装置、服务器及存储介质 |
US11250266B2 (en) * | 2019-08-09 | 2022-02-15 | Clearview Ai, Inc. | Methods for providing information about a person based on facial recognition |
US12002295B2 (en) | 2021-08-13 | 2024-06-04 | Accenture Global Solutions Limited | System and method for video authentication |
WO2023114758A1 (en) * | 2021-12-14 | 2023-06-22 | Canon U.S.A., Inc. | Apparatus and method for issuance of meeting invitations |
CN114764594A (zh) * | 2022-04-02 | 2022-07-19 | 阿里巴巴(中国)有限公司 | 分类模型特征选取方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030210808A1 (en) * | 2002-05-10 | 2003-11-13 | Eastman Kodak Company | Method and apparatus for organizing and retrieving images containing human faces |
US20070258646A1 (en) * | 2002-12-06 | 2007-11-08 | Samsung Electronics Co., Ltd. | Human detection method and apparatus |
CN101295352A (zh) * | 2007-04-13 | 2008-10-29 | 兴瑞科技有限公司 | 数位相机及摄影机用的人脸辨识及使用者界面系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7298412B2 (en) * | 2001-09-18 | 2007-11-20 | Ricoh Company, Limited | Image pickup device, automatic focusing method, automatic exposure method, electronic flash control method and computer program |
US8064650B2 (en) * | 2002-07-10 | 2011-11-22 | Hewlett-Packard Development Company, L.P. | File management of digital images using the names of people identified in the images |
US7274822B2 (en) * | 2003-06-30 | 2007-09-25 | Microsoft Corporation | Face annotation for photo management |
KR100858087B1 (ko) * | 2007-02-14 | 2008-09-10 | 삼성전자주식회사 | 객체 포즈 정규화 방법과 장치 및 객체 인식 방법 |
CN101398832A (zh) * | 2007-09-30 | 2009-04-01 | 国际商业机器公司 | 利用人脸检测的图像搜索方法和系统 |
US8213689B2 (en) * | 2008-07-14 | 2012-07-03 | Google Inc. | Method and system for automated annotation of persons in video content |
KR20120035292A (ko) * | 2010-10-05 | 2012-04-16 | 엘지전자 주식회사 | 전자 기기 및 그 구동 방법 |
US8559682B2 (en) * | 2010-11-09 | 2013-10-15 | Microsoft Corporation | Building a person profile database |
-
2010
- 2010-08-19 US US12/859,721 patent/US8605956B2/en active Active
- 2010-11-16 AU AU2010322173A patent/AU2010322173B2/en not_active Ceased
- 2010-11-16 KR KR1020127015598A patent/KR101967410B1/ko active IP Right Grant
- 2010-11-16 WO PCT/US2010/056869 patent/WO2011062911A1/en active Application Filing
- 2010-11-16 CA CA2781105A patent/CA2781105A1/en not_active Abandoned
- 2010-11-16 EP EP10782762A patent/EP2502185A1/en not_active Ceased
- 2010-11-16 CN CN201080061203.1A patent/CN102804208B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030210808A1 (en) * | 2002-05-10 | 2003-11-13 | Eastman Kodak Company | Method and apparatus for organizing and retrieving images containing human faces |
US20070258646A1 (en) * | 2002-12-06 | 2007-11-08 | Samsung Electronics Co., Ltd. | Human detection method and apparatus |
CN101295352A (zh) * | 2007-04-13 | 2008-10-29 | 兴瑞科技有限公司 | 数位相机及摄影机用的人脸辨识及使用者界面系统 |
Non-Patent Citations (1)
Title |
---|
TAMARA L.BERG: "Names and Faces in the News", 《IEEE CVPR》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106375817A (zh) * | 2015-07-21 | 2017-02-01 | 三星电子株式会社 | 用于提供广播节目的电子设备和方法 |
CN109086697A (zh) * | 2018-07-20 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 一种人脸数据处理方法、装置及存储介质 |
CN111971686A (zh) * | 2018-12-12 | 2020-11-20 | 微软技术许可有限责任公司 | 自动生成用于对象识别的训练数据集 |
CN113127712A (zh) * | 2019-12-31 | 2021-07-16 | 深圳云天励飞技术有限公司 | 一种归档方法及装置 |
CN113127712B (zh) * | 2019-12-31 | 2024-06-07 | 深圳云天励飞技术有限公司 | 一种归档方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2011062911A1 (en) | 2011-05-26 |
EP2502185A1 (en) | 2012-09-26 |
CA2781105A1 (en) | 2011-05-26 |
AU2010322173A1 (en) | 2012-06-07 |
AU2010322173B2 (en) | 2014-07-17 |
KR101967410B1 (ko) | 2019-04-10 |
CN102804208B (zh) | 2016-08-17 |
KR20120086728A (ko) | 2012-08-03 |
US8605956B2 (en) | 2013-12-10 |
US20110116690A1 (en) | 2011-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102804208A (zh) | 为视觉搜索应用自动挖掘名人的个人模型 | |
US11182640B2 (en) | Analyzing content of digital images | |
US20240028571A1 (en) | Automatic entity resolution with rules detection and generation system | |
Whitelam et al. | Iarpa janus benchmark-b face dataset | |
Tran et al. | Rich image captioning in the wild | |
JP6397144B2 (ja) | 画像からの事業発見 | |
US10140575B2 (en) | Sports formation retrieval | |
CN105027162B (zh) | 图像解析装置、图像解析系统、图像解析方法 | |
CN110210294B (zh) | 优化模型的评价方法、装置、存储介质及计算机设备 | |
CN105843850B (zh) | 搜索优化方法和装置 | |
CN111325115A (zh) | 带有三重约束损失的对抗跨模态行人重识别方法和系统 | |
CN108960124B (zh) | 用于行人再识别的图像处理方法及装置 | |
CN106663196A (zh) | 视频中的计算机显著人物识别 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN110472057B (zh) | 话题标签的生成方法及装置 | |
CN107220663B (zh) | 一种基于语义场景分类的图像自动标注方法 | |
CN118094118B (zh) | 数据集质量评估方法、系统、电子设备及存储介质 | |
Dewi et al. | Combination of resnet and spatial pyramid pooling for musical instrument identification | |
CN108875448B (zh) | 一种行人再识别方法及装置 | |
CN115497124A (zh) | 身份识别方法和装置及存储介质 | |
CN103443772A (zh) | 基于多模态信息的人口统计分析的系统和方法 | |
Sowmyayani et al. | STHARNet: Spatio-temporal human action recognition network in content based video retrieval | |
CN117033956A (zh) | 基于数据驱动的数据处理方法、系统、电子设备及介质 | |
CN116958724A (zh) | 一种产品分类模型的训练方法和相关装置 | |
Xu et al. | Estimating similarity of rich internet pages using visual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |
|
CP01 | Change in the name or title of a patent holder |