CN105468760B - 对人脸图片进行标注的方法和装置 - Google Patents
对人脸图片进行标注的方法和装置 Download PDFInfo
- Publication number
- CN105468760B CN105468760B CN201510867455.8A CN201510867455A CN105468760B CN 105468760 B CN105468760 B CN 105468760B CN 201510867455 A CN201510867455 A CN 201510867455A CN 105468760 B CN105468760 B CN 105468760B
- Authority
- CN
- China
- Prior art keywords
- face
- face picture
- picture
- pictures
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012795 verification Methods 0.000 claims abstract description 118
- 238000002372 labelling Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000012216 screening Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 3
- 208000011580 syndromic disease Diseases 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明提供了一种对人脸图片进行标注的方法和装置,包括:获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸;建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立;若验证整体假设成立,将人脸图片集合中的多张人脸图片标注为属于该特定人名。本方案可快速地对互联网中爬取到的大量图片进行甄别筛选,高效剔除错误的图片,极大地节省了标注人脸图片的人力和时间成本,并为后续基于自动标注的人脸图片训练准确率较高的人脸识别模型提供了有力保证;同时,本方案可打破行业内现存的数据垄断,便于人脸识别技术的普及,进而推动技术的进步。
Description
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种对人脸图片进行标注的方法和装置。
背景技术
人脸识别技术是基于人的脸部特征信息进行身份识别的一种生物识别技术。人脸识别过程主要包括四个步骤,分别为:人脸图像采集及检测、人脸图像预处理、人脸图像特征提取以及匹配与识别;其中,匹配与识别的步骤通常是基于预先训练的人脸识别模型来进行的。现有的训练人脸识别模型技术中一般利用人工标注的人脸图片训练人脸识别模型,一种方式为依据人名从互联网爬取大量图片,随后采用人工方法对每一人名对应的海量图片进行过滤,从海量图片中删除错误的图片;另一种方式为组织人员对真实人脸进行现场拍摄从而获取到准确的人脸图片。
由于现有技术全部依靠人工完成,需要耗费大量的人力物力成本以及较长的时间成本,因此各个机构对耗费较大成本获取到的人脸图片数据都作为商业秘密进行保护,从而在一定程度上造成了数据垄断,其他对人脸图片数据有需求的研究机构要么需要重复进行相似的工作,造成资源的极大浪费,要么无力进行相应的研究,进而可能会阻碍技术的进步。同时,由于人工长时间审核海量图片审核会带来疲惫以及脸盲症的问题,因此会导致后期人工标注图片的准确性下降。
发明内容
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
本发明提供了一种对人脸图片进行标注的方法,包括:
获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸;
建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立;
若验证整体假设成立,将人脸图片集合中的多张人脸图片标注为属于该特定人名。
其中,获取与一个特定人名对应的包括多张人脸图片的人脸图片集合的步骤,具体包括:
基于一个特定人名从互联网爬取获得多张图片;
对所述多张图片进行人脸检测,从每张图片中提取至少一张仅包括一张人脸的人脸图片;
将从所述多张图片提取到的仅包括一张人脸的多张人脸图片确定为人脸图片集合。
其中,建立所述人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证所述整体假设是否成立的步骤,具体包括:
针对所述人脸图片集合中的任一张人脸图片,建立该任一张人脸图片与所述人脸图片集合中的其他各张人脸图片属于同一人的单个假设;
通过预定的人脸验证模型验证针对任一张人脸图片的单个假设是否成立;
判断针对所述人脸图片集合中的每一张人脸图片的全部单个假设是否全部成立。
其中,通过预定的人脸验证模型验证针对任一张人脸图片的单个假设是否成立的步骤,具体包括:
通过预定的人脸验证模型判断该任一张人脸图片与相应的其他各张人脸图片是否属于同一人;
统计该任一张人脸图片与相应的其他各张人脸图片属于同一人的匹配成功次数;
根据所述匹配成功次数,基于概率统计的方式验证针对任一张人脸图片的单个假设是否成立。
其中,通过预定的人脸验证模型判断该任一张人脸图片与相应的其他各张人脸图片是否属于同一人的步骤,具体包括:
利用深度卷积神经网络分别提取该任一张人脸图片与相应的其他各张人脸图片的人脸特征;
通过预定的人脸验证模型判断所提取到的两张人脸图片的人脸特征是否属于同一人。
其中,该方法还包括:
若验证所述整体假设不成立,统计所述人脸图片集合中的每一张人脸图片与相应的其他各张人脸图片验证属于同一人的匹配成功次数;
将验证成功次数为最小值的人脸图片从所述人脸图片集合中滤除,以更新所述人脸图片集合;
重新建立更新后的人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证所述整体假设是否成立;
若验证所述整体假设成立,将更新后的人脸图片集合中的多张人脸图片标注为属于该特定人名。
本发明还提供了一种对人脸图片进行标注的装置,包括:
集合获取模块,用于获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸;
第一验证模块,用于建立所述人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证所述整体假设是否成立;
第一标注模块,用于若验证所述整体假设成立,将所述人脸图片集合中的多张人脸图片标注为属于该特定人名。
其中,所述集合获取模块具体包括:
爬取单元,用于基于一个特定人名从互联网爬取获得多张图片;
提取单元,用于对所述多张图片进行人脸检测,从每张图片中提取至少一张仅包括一张人脸的人脸图片;
集合确定单元,用于将从所述多张图片提取到的仅包括一张人脸的多张人脸图片确定为人脸图片集合。
其中,所述验证模块具体包括:
单个假设建立子模块,用于针对所述人脸图片集合中的任一张人脸图片,建立该任一张人脸图片与所述人脸图片集合中的其他各张人脸图片属于同一人的单个假设;
单个假设验证子模块,用于通过预定的人脸验证模型验证针对任一张人脸图片的单个假设是否成立;
第一判断子模块,用于判断针对所述人脸图片集合中的每一张人脸图片的全部单个假设是否全部成立。
其中,所述单个假设验证子模块具体包括:
第二判断单元,用于通过预定的人脸验证模型判断该任一张人脸图片与相应的其他各张人脸图片是否属于同一人;
第一统计单元,用于统计该任一张人脸图片与相应的其他各张人脸图片属于同一人的匹配成功次数;
第三判断单元,用于根据所述匹配成功次数,基于概率统计的方式验证针对任一张人脸图片的单个假设是否成立。
其中,所述第二判断单元具体用于利用深度卷积神经网络分别提取该任一张人脸图片与相应的其他各张人脸图片的人脸特征;通过预定的人脸验证模型判断所提取到的两张人脸图片的人脸特征是否属于同一人。
其中,该装置还包括:
第二统计模块,用于若验证所述整体假设不成立,统计所述人脸图片集合中的每一张人脸图片与相应的其他各张人脸图片验证属于同一人的匹配成功次数;
更新模块,用于将验证成功次数为最小值的人脸图片从所述人脸图片集合中滤除,以更新所述人脸图片集合;
第二验证模块,用于重新建立更新后的人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证所述整体假设是否成立;
第二标注模块,用于若验证所述整体假设成立,将更新后的人脸图片集合中的多张人脸图片标注为属于该特定人名。
本方案的实施例中,通过建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并基于预定的人脸验证模型验证整体假设是否成立,可快速地对互联网中爬取到的大量图片进行甄别筛选,高效剔除错误的图片;当验证整体假设成立时可实现人脸图片的自动标注,极大地节省了人力和时间成本;通过假设验证的方式自动标注人脸图片,标注准确率已验证达到甚至超过人工标注的准确率,为后续基于自动标注的人脸图片训练准确率较高的人脸识别模型提供了有力保证;同时,本方案中的人脸图片标注方式易于实施,可打破行业内现存的数据垄断,便于人脸识别技术的普及,进而推动技术的进步。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明中的对人脸图片进行标注方法一个实施例的流程图;
图2为本发明中的对人脸图片进行标注方法一个优选实施例的流程图;
图3为本发明中对人脸图片进行标注的装置一个实施例的结构示意图;
图4为本发明中对人脸图片进行标注的装置一个优选实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
图1为本发明中的对人脸图片进行标注方法一个实施例的流程图。
步骤S110:获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸;步骤S120:建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立;步骤S130:若验证整体假设成立,将人脸图片集合中的多张人脸图片标注为属于该特定人名。
本方案的实施例中,通过建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并基于预定的人脸验证模型验证整体假设是否成立,可快速地对互联网中爬取到的大量图片进行甄别筛选,高效剔除错误的图片;当验证整体假设成立时可实现人脸图片的自动标注,极大地节省了人力和时间成本;通过假设验证的方式自动标注人脸图片,标注准确率已验证达到甚至超过人工标注的准确率,为后续基于自动标注的人脸图片训练准确率较高的人脸识别模型提供了有力保证;同时,本方案中的人脸图片标注方式易于实施,可打破行业内现存的数据垄断,便于人脸识别技术的普及,进而推动技术的进步。
步骤S110:获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸。
其中,步骤S110具体包括步骤S111(图中未示出)、步骤S112(图中未示出)和步骤S113(图中未示出);步骤S111:基于一个特定人名从互联网爬取获得多张图片;步骤S112:对多张图片进行人脸检测,从每张图片中提取至少一张仅包括一张人脸的人脸图片;步骤S113:将从多张图片提取到的仅包括一张人脸的多张人脸图片确定为人脸图片集合。
具体地,从例如相关百科名人录中抽取大量人名,随后,基于一个特定人名,利用搜索引擎爬虫技术从互联网中爬取多张图片,爬取到的每张图片与该特定人名相对应,令R={X0,X1,X2,…,Xm}表示某个人名下的m+1张爬取到的图片;例如,基于特定人名“巩俐”,利用搜索引擎爬虫技术从互联网中爬取多张标题中包括“巩俐”的图片,如标题为“巩俐参加戛纳电影节”的图片;随后,对多张图片分别进行人脸检测,确定每张图片中包括的人脸个数、人脸位置等信息,并从该张图片中提取至少一张仅包括一张人脸的人脸图片,即对进行人脸检测,得到至少一张仅包括一张人脸的人脸图片子集Si;其中,人脸检测的方式包括但不限于:基于模板匹配模型的人脸检测,基于肤色模型的人脸检测,基于ANN模型的人脸检测,基于SVM模型的人脸检测以及基于Adaboost模型的人脸检测;例如,对标题为“巩俐参加戛纳电影节”的图片进行人脸检测,确定出该图片中包括三张人脸,可从该张图片中提取三张仅包括一张人脸的人脸图片;接着,将从针对该特定人名的多张图片中提取到的仅包括一张人脸的多张人脸图片确定为人脸图片集合,即将该特定人名下的检测到的m+1个人脸图片子集Si的并集S=S0∪S1∪…∪Sm,作为基于该特定人名的人脸图片集合。
步骤S120:建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立。
其中,步骤S120具体包括步骤S121(图中未示出)、步骤S122(图中未示出)和步骤S123(图中未示出);步骤S121:针对人脸图片集合中的任一张人脸图片,建立该任一张人脸图片与人脸图片集合中的其他各张人脸图片属于同一人的单个假设;步骤S122:通过预定的人脸验证模型验证针对任一张人脸图片的单个假设是否成立;步骤S123:判断针对人脸图片集合中的每一张人脸图片的全部单个假设是否全部成立。
步骤S121:针对人脸图片集合中的任一张人脸图片,建立该任一张人脸图片与人脸图片集合中的其他各张人脸图片属于同一人的单个假设。
具体地,针对一个特定人名的人脸图片集合S={P0,P1,P2,…,Pn},其中Pi表示第i张仅包括一张人脸的人脸图片,建立该第i张人脸图片Pi与人脸图片集合S中的其他各张人脸图片Pj属于同一人的单个假设Hi:Pi与属于同一人。
步骤S122:通过预定的人脸验证模型验证针对任一张人脸图片的单个假设是否成立。
其中,步骤S122包括步骤S1221(图中未示出)、步骤S1222(图中未示出)和步骤S1223(图中未示出);步骤S1221:通过预定的人脸验证模型判断该任一张人脸图片与相应的其他各张人脸图片是否属于同一人;步骤S1222:统计该任一张人脸图片与相应的其他各张人脸图片属于同一人的匹配成功次数;步骤S1223:根据匹配成功次数,基于概率统计的方式验证针对任一张人脸图片的单个假设是否成立。
其中,基于少量人工标注的准确人脸图片,利用lbp(Local Binary Patterns,局部二值模式)特征训练联合贝叶斯模型,确定预定的人脸验证模型。
具体地,通过预定的人脸验证模型判断该任一张人脸图片与相应的其他各张人脸图片是否属于同一人的步骤具体包括:利用深度卷积神经网络分别提取该任一张人脸图片与相应的其他各张人脸图片的人脸特征;通过预定的人脸验证模型判断所提取到的两张人脸图片的人脸特征是否属于同一人。
在人脸图片集合S={P0,P1,P2,…,Pn}中,利用深度卷积神经网络提取人脸图片Pi与人脸图片集合S中的其他n张人脸图片的人脸特征;通过预定的人脸验证模型判断提取到的人脸图片Pi与人脸图片的人脸特征是否属于同一人。
对于人脸图片Pi,经过n次判断验证后,统计人脸图片Pi与相应的其他n张人脸图片属于同一人的匹配成功次数,记为ki;对于人脸图片Pi,根据匹配成功次数ki,基于概率统计的方式验证针对任一张人脸图片的单个假设是否成立;具体为,如果这n次判断验证后有ki次为同一人,将ki作为k值带入下式1进行计算,确定ρk的大小:
判断ρk与预定概率阈值的大小关系,若则针对人脸图片Pi的单个假设Hi不成立,否则单个假设Hi成立。
步骤S123:判断针对人脸图片集合中的任一张人脸图片的全部单个假设是否全部成立。
具体地,针对人脸图片集合S={P0,P1,P2,…,Pn}中的每张图片均进行单个假设Hi的假设验证,即对H0、H1、H2…、Hn分别作假设检验;若针对人脸图片集合中的每一张人脸图片的全部单个假设全部成立,则验证整体假设成立。
步骤S130:若验证整体假设成立,将人脸图片集合中的多张人脸图片标注为属于该特定人名。
具体地,若验证整体假设成立,则将人脸图片集合S={P0,P1,P2,…,Pn}的每张图片Pi标注为属于该特定人名。
如图2所示,在一优选实施例中,步骤S210:获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸;步骤S220:建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证所述整体假设是否成立;步骤S230:若验证整体假设成立,将人脸图片集合中的多张人脸图片标注为属于该特定人名;步骤S240:若验证整体假设不成立,统计人脸图片集合中的每一张人脸图片与相应的其他各张人脸图片验证属于同一人的匹配成功次数;步骤S250:将验证成功次数为最小值的人脸图片从人脸图片集合中滤除,以更新人脸图片集合;步骤S260:重新建立更新后的人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立;步骤S270:若验证整体假设成立,将更新后的人脸图片集合中的多张人脸图片标注为属于该特定人名。
其中,步骤S210、步骤S220和步骤S230与图1所述的实施例中步骤S110、步骤S120和步骤S130相同或相似,在此不再赘述。
具体地,针对人脸图片集合S={P0,P1,P2,…,Pn}中的每张图片均进行单个假设Hi的假设验证,即对H0、H1、H2…、Hn分别作假设检验;若判断针对人脸图片集合中的每一张人脸图片的单个假设中任一个单个假设不成立,则验证整体假设不成立;统计人脸图片集合中的每一张人脸图片与相应的其他各张人脸图片验证属于同一人的匹配成功次数,即对于人脸图片Pi,统计任一人脸图片Pi与相应的其他n张人脸图片属于同一人的匹配成功次数,记为ki;在人脸图片集合S={P0,P1,P2,…,Pn}中,通过下式2:
从人脸图片集合中确定验证成功次数ki为最小值的人脸图片,并将该人脸图片从人脸图片集合S中滤除,即以更新人脸图片集合;重新建立更新后的人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立;若验证整体假设成立,将更新后的人脸图片集合中的多张人脸图片标注为属于该特定人名;其中,重新建立整体建设并验证以及人脸图片标注的两个步骤的执行方式与图1所述的实施例中步骤120和步骤S130的执行方式相同或相似。
图3为本发明中对人脸图片进行标注的装置一个实施例的结构示意图。
集合获取模块310获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸;第一验证模块320建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立;第一标注模块330若验证整体假设成立,将人脸图片集合中的多张人脸图片标注为属于该特定人名。
本方案的实施例中,通过建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并基于预定的人脸验证模型验证整体假设是否成立,可快速地对互联网中爬取到的大量图片进行甄别筛选,高效剔除错误的图片;当验证整体假设成立时可实现人脸图片的自动标注,极大地节省了人力和时间成本;通过假设验证的方式自动标注人脸图片,标注准确率已验证达到甚至超过人工标注的准确率,为后续基于自动标注的人脸图片训练准确率较高的人脸识别模型提供了有力保证;同时,本方案中的人脸图片标注方式易于实施,可打破行业内现存的数据垄断,便于人脸识别技术的普及,进而推动技术的进步。
集合获取模块310获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸。
其中,集合获取模块310具体包括爬取单元(图中未示出)、提取单元(图中未示出)和集合确定单元(图中未示出);爬取单元基于一个特定人名从互联网爬取获得多张图片;提取单元对多张图片进行人脸检测,从每张图片中提取至少一张仅包括一张人脸的人脸图片;集合确定单元将从多张图片提取到的仅包括一张人脸的多张人脸图片确定为人脸图片集合。
具体地,从例如相关百科名人录中抽取大量人名,随后,基于一个特定人名,利用搜索引擎爬虫技术从互联网中爬取多张图片,爬取到的每张图片与该特定人名相对应,令R={X0,X1,X2,…,Xm}表示某个人名下的m+1张爬取到的图片;例如,基于特定人名“巩俐”,利用搜索引擎爬虫技术从互联网中爬取多张标题中包括“巩俐”的图片,如标题为“巩俐参加戛纳电影节”的图片;随后,对多张图片分别进行人脸检测,确定每张图片中包括的人脸个数、人脸位置等信息,并从该张图片中提取至少一张仅包括一张人脸的人脸图片,即对进行人脸检测,得到至少一张仅包括一张人脸的人脸图片子集Si;其中,人脸检测的方式包括但不限于:基于模板匹配模型的人脸检测,基于肤色模型的人脸检测,基于ANN模型的人脸检测,基于SVM模型的人脸检测以及基于Adaboost模型的人脸检测;例如,对标题为“巩俐参加戛纳电影节”的图片进行人脸检测,确定出该图片中包括三张人脸,可从该张图片中提取三张仅包括一张人脸的人脸图片;接着,将从针对该特定人名的多张图片中提取到的仅包括一张人脸的多张人脸图片确定为人脸图片集合,即将该特定人名下的检测到的m+1个人脸图片子集Si的并集S=S0∪S1∪…∪Sm,作为基于该特定人名的人脸图片集合。
第一验证模块320建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立。
其中,第一验证模块320具体包括单个假设建立子模块(图中未示出)、单个假设验证子模块(图中未示出)和第一判断子模块(图中未示出);单个假设建立子模块针对人脸图片集合中的任一张人脸图片,建立该任一张人脸图片与人脸图片集合中的其他各张人脸图片属于同一人的单个假设;单个假设验证子模块通过预定的人脸验证模型验证针对任一张人脸图片的单个假设是否成立;第一判断子模块判断针对人脸图片集合中的每一张人脸图片的全部单个假设是否全部成立。
单个假设建立子模块针对人脸图片集合中的任一张人脸图片,建立该任一张人脸图片与人脸图片集合中的其他各张人脸图片属于同一人的单个假设。
单个假设验证子模块通过预定的人脸验证模型验证针对任一张人脸图片的单个假设是否成立。
其中,单个假设验证子模块包括第二判断单元(图中未示出)、第一统计单元(图中未示出)和第三判断单元(图中未示出);第二判断单元通过预定的人脸验证模型判断该任一张人脸图片与相应的其他各张人脸图片是否属于同一人;第一统计单元统计该任一张人脸图片与相应的其他各张人脸图片属于同一人的匹配成功次数;第三判断单元根据匹配成功次数,基于概率统计的方式验证针对任一张人脸图片的单个假设是否成立。
其中,基于少量人工标注的准确人脸图片,利用lbp(Local Binary Patterns,局部二值模式)特征训练联合贝叶斯模型,确定预定的人脸验证模型。
具体地,第二判断单元利用深度卷积神经网络分别提取该任一张人脸图片与相应的其他各张人脸图片的人脸特征;通过预定的人脸验证模型判断所提取到的两张人脸图片的人脸特征是否属于同一人。
在人脸图片集合S={P0,P1,P2,…,Pn}中,利用深度卷积神经网络提取人脸图片Pi与人脸图片集合S中的其他n张人脸图片的人脸特征;通过预定的人脸验证模型判断提取到的人脸图片Pi与人脸图片的人脸特征是否属于同一人。
对于人脸图片Pi,经过n次判断验证后,统计人脸图片Pi与相应的其他n张人脸图片属于同一人的匹配成功次数,记为ki;对于人脸图片Pi,根据匹配成功次数ki,基于概率统计的方式验证针对任一张人脸图片的单个假设是否成立;具体为,如果这n次判断验证后有ki次为同一人,将ki作为k值带入下式1进行计算,确定ρk的大小:
判断ρk与预定概率阈值的大小关系,若则针对人脸图片Pi的单个假设Hi不成立,否则单个假设Hi成立。
第一判断子模块判断针对人脸图片集合中的任一张人脸图片的全部单个假设是否全部成立。
具体地,针对人脸图片集合S={P0,P1,P2,…,Pn}中的每张图片均进行单个假设Hi的假设验证,即对H0、H1、H2…、Hn分别作假设检验;若针对人脸图片集合中的每一张人脸图片的全部单个假设全部成立,则验证整体假设成立。
第一标注模块330若验证整体假设成立,将人脸图片集合中的多张人脸图片标注为属于该特定人名。
具体地,若验证整体假设成立,则将人脸图片集合S={P0,P1,P2,…,Pn}的每张图片Pi标注为属于该特定人名。
如图4所示,在一优选实施例中,集合获取模块410获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸;第一验证模块420建立人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立;第一标注模块430若验证整体假设成立,将人脸图片集合中的多张人脸图片标注为属于该特定人名;第二统计模块440若验证整体假设不成立,统计人脸图片集合中的每一张人脸图片与相应的其他各张人脸图片验证属于同一人的匹配成功次数;更新模块450将验证成功次数为最小值的人脸图片从人脸图片集合中滤除,以更新人脸图片集合;第二验证模块460重新建立更新后的人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立;第二标注模块470若验证整体假设成立,将更新后的人脸图片集合中的多张人脸图片标注为属于该特定人名。
其中,集合获取模块410、第一验证模块420和第一标注模块430与图3所述的实施例中集合获取模块310、第一验证模块320和第一标注模块330相同或相似,在此不再赘述。
具体地,针对人脸图片集合S={P0,P1,P2,…,Pn}中的每张图片均进行单个假设Hi的假设验证,即对H0、H1、H2…、Hn分别作假设检验;若判断针对人脸图片集合中的每一张人脸图片的单个假设中任一个单个假设不成立,则验证整体假设不成立;统计人脸图片集合中的每一张人脸图片与相应的其他各张人脸图片验证属于同一人的匹配成功次数,即对于人脸图片Pi,统计任一人脸图片Pi与相应的其他n张人脸图片属于同一人的匹配成功次数,记为ki;在人脸图片集合S={P0,P1,P2,…,Pn}中,通过下式2:
从人脸图片集合中确定验证成功次数ki为最小值的人脸图片,并将该人脸图片从人脸图片集合S中滤除,即以更新人脸图片集合;重新建立更新后的人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证整体假设是否成立;若验证整体假设成立,将更新后的人脸图片集合中的多张人脸图片标注为属于该特定人名;其中,重新建立整体建设并验证以及人脸图片标注的执行内容与图3所述的实施例中在第一验证模块420和第一标注模块430的执行内容相同或相似。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种对人脸图片进行标注的方法,其特征在于,包括:
获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸;
建立所述人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证所述整体假设是否成立,其中包括建立所述人脸图片集合中的任一张人脸图片与其他各张人脸图片属于同一人的单个假设,通过预定的人脸验证模型验证针对该任一张人脸图片的单个假设是否成立,进而判断针对所述人脸图片集合中的每一张人脸图片的全部单个假设是否全部成立;
若验证所述整体假设成立,将所述人脸图片集合中的多张人脸图片标注为属于该特定人名。
2.根据权利要求1所述的对人脸图片进行标注的方法,其中,获取与一个特定人名对应的包括多张人脸图片的人脸图片集合的步骤,具体包括:
基于一个特定人名从互联网爬取获得多张图片;
对所述多张图片进行人脸检测,从每张图片中提取至少一张仅包括一张人脸的人脸图片;
将从所述多张图片提取到的仅包括一张人脸的多张人脸图片确定为人脸图片集合。
3.根据权利要求1所述的对人脸图片进行标注的方法,其中,通过预定的人脸验证模型验证针对任一张人脸图片的单个假设是否成立的步骤,具体包括:
通过预定的人脸验证模型判断该任一张人脸图片与相应的其他各张人脸图片是否属于同一人;
统计该任一张人脸图片与相应的其他各张人脸图片属于同一人的匹配成功次数;
根据所述匹配成功次数,基于概率统计的方式验证针对任一张人脸图片的单个假设是否成立。
4.根据权利要求3所述的对人脸图片进行标注的方法,其中,通过预定的人脸验证模型判断该任一张人脸图片与相应的其他各张人脸图片是否属于同一人的步骤,具体包括:
利用深度卷积神经网络分别提取该任一张人脸图片与相应的其他各张人脸图片的人脸特征;
通过预定的人脸验证模型判断所提取到的两张人脸图片的人脸特征是否属于同一人。
5.根据权利要求1-4任一项所述的对人脸图片进行标注的方法,其中,该方法还包括:
若验证所述整体假设不成立,统计所述人脸图片集合中的每一张人脸图片与相应的其他各张人脸图片验证属于同一人的匹配成功次数;
将验证成功次数为最小值的人脸图片从所述人脸图片集合中滤除,以更新所述人脸图片集合;
重新建立更新后的人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证所述整体假设是否成立;
若验证所述整体假设成立,将更新后的人脸图片集合中的多张人脸图片标注为属于该特定人名。
6.一种对人脸图片进行标注的装置,其特征在于,包括:
集合获取模块,用于获取与一个特定人名对应的包括多张人脸图片的人脸图片集合,其中,每张人脸图片仅包括一张人脸;
第一验证模块,用于建立所述人脸图片集合中的任意两张人脸图片均属于同一人的整体假设,并通过预定的人脸验证模型验证所述整体假设是否成立,其中包括单个假设建立子模块,用于建立所述人脸图片集合中任一张人脸图片与其他各张人脸图片属于同一人的单个假设,单个假设验证子模块,用于通过预定的人脸验证模型验证针对该任一张人脸图片的单个假设是否成立,以及第一判断子模块,用于判断针对所述人脸图片集合中的每一张人脸图片的全部单个假设是否全部成立;
第一标注模块,用于若验证所述整体假设成立,将所述人脸图片集合中的多张人脸图片标注为属于该特定人名。
7.根据权利要求6所述的对人脸图片进行标注的装置,其中,所述集合获取模块具体包括:
爬取单元,用于基于一个特定人名从互联网爬取获得多张图片;
提取单元,用于对所述多张图片进行人脸检测,从每张图片中提取至少一张仅包括一张人脸的人脸图片;
集合确定单元,用于将从所述多张图片提取到的仅包括一张人脸的多张人脸图片确定为人脸图片集合。
8.根据权利要求6所述的对人脸图片进行标注的装置,其中,所述单个假设验证子模块具体包括:
第二判断单元,用于通过预定的人脸验证模型判断该任一张人脸图片与相应的其他各张人脸图片是否属于同一人;
第一统计单元,用于统计该任一张人脸图片与相应的其他各张人脸图片属于同一人的匹配成功次数;
第三判断单元,用于根据所述匹配成功次数,基于概率统计的方式验证针对任一张人脸图片的单个假设是否成立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510867455.8A CN105468760B (zh) | 2015-12-01 | 2015-12-01 | 对人脸图片进行标注的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510867455.8A CN105468760B (zh) | 2015-12-01 | 2015-12-01 | 对人脸图片进行标注的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105468760A CN105468760A (zh) | 2016-04-06 |
CN105468760B true CN105468760B (zh) | 2018-09-11 |
Family
ID=55606460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510867455.8A Active CN105468760B (zh) | 2015-12-01 | 2015-12-01 | 对人脸图片进行标注的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105468760B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844412A (zh) * | 2016-11-02 | 2017-06-13 | 厦门中控生物识别信息技术有限公司 | 一种人脸数据收集方法及装置 |
CN108121943B (zh) * | 2016-11-30 | 2022-05-06 | 阿里巴巴集团控股有限公司 | 基于图片的判别方法及装置和计算设备 |
CN106709442B (zh) * | 2016-12-19 | 2020-07-24 | 深圳乐行天下科技有限公司 | 一种人脸识别方法 |
CN107729928B (zh) * | 2017-09-30 | 2021-10-22 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN108096833B (zh) * | 2017-12-20 | 2021-10-01 | 北京奇虎科技有限公司 | 基于级联神经网络的体感游戏控制方法及装置、计算设备 |
CN108334602B (zh) * | 2018-01-31 | 2021-03-23 | 北京市商汤科技开发有限公司 | 数据标注方法和装置、电子设备、计算机存储介质 |
CN108416295B (zh) * | 2018-03-08 | 2021-10-15 | 天津师范大学 | 一种基于局部嵌入深度特征的行人再识别方法 |
CN108830329B (zh) * | 2018-06-22 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 图片处理方法和装置 |
CN109086697A (zh) * | 2018-07-20 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 一种人脸数据处理方法、装置及存储介质 |
CN109376621A (zh) * | 2018-09-30 | 2019-02-22 | 北京七鑫易维信息技术有限公司 | 一种样本数据生成方法、装置以及机器人 |
CN110263744B (zh) * | 2019-06-26 | 2021-05-11 | 苏州万店掌网络科技有限公司 | 提高无感人脸识别率的方法 |
TWI759731B (zh) * | 2020-04-27 | 2022-04-01 | 淡江大學 | 機器學習方法 |
CN112860640B (zh) * | 2021-01-25 | 2022-10-18 | 上海微亿智造科技有限公司 | 批量上传文件自动化方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955931A (zh) * | 2011-08-19 | 2013-03-06 | 株式会社理光 | 识别图像中特定对象的方法以及使用该方法的系统 |
CN103793697A (zh) * | 2014-02-17 | 2014-05-14 | 北京旷视科技有限公司 | 一种人脸图像的身份标注方法及人脸身份识别方法 |
CN104463237A (zh) * | 2014-12-18 | 2015-03-25 | 中科创达软件股份有限公司 | 一种基于多姿态识别的人脸验证方法及装置 |
CN104463177A (zh) * | 2014-12-23 | 2015-03-25 | 北京奇虎科技有限公司 | 相似人脸图片获取方法和装置 |
CN104616031A (zh) * | 2015-01-22 | 2015-05-13 | 哈尔滨工业大学深圳研究生院 | 迁移学习方法及装置 |
CN104820675A (zh) * | 2015-04-08 | 2015-08-05 | 小米科技有限责任公司 | 相册显示方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010006367A1 (en) * | 2008-07-16 | 2010-01-21 | Imprezzeo Pty Ltd | Facial image recognition and retrieval |
-
2015
- 2015-12-01 CN CN201510867455.8A patent/CN105468760B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955931A (zh) * | 2011-08-19 | 2013-03-06 | 株式会社理光 | 识别图像中特定对象的方法以及使用该方法的系统 |
CN103793697A (zh) * | 2014-02-17 | 2014-05-14 | 北京旷视科技有限公司 | 一种人脸图像的身份标注方法及人脸身份识别方法 |
CN104463237A (zh) * | 2014-12-18 | 2015-03-25 | 中科创达软件股份有限公司 | 一种基于多姿态识别的人脸验证方法及装置 |
CN104463177A (zh) * | 2014-12-23 | 2015-03-25 | 北京奇虎科技有限公司 | 相似人脸图片获取方法和装置 |
CN104616031A (zh) * | 2015-01-22 | 2015-05-13 | 哈尔滨工业大学深圳研究生院 | 迁移学习方法及装置 |
CN104820675A (zh) * | 2015-04-08 | 2015-08-05 | 小米科技有限责任公司 | 相册显示方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105468760A (zh) | 2016-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105468760B (zh) | 对人脸图片进行标注的方法和装置 | |
CN109766872B (zh) | 图像识别方法和装置 | |
CN105975959B (zh) | 基于神经网络的人脸特征提取建模、人脸识别方法及装置 | |
US9514356B2 (en) | Method and apparatus for generating facial feature verification model | |
WO2019200781A1 (zh) | 票据识别方法、装置及存储介质 | |
CN106529571B (zh) | 基于神经网络的多层图像特征提取建模、图像识别方法及装置 | |
CN108124486A (zh) | 基于云端的人脸活体检测方法、电子设备和程序产品 | |
CN110851835A (zh) | 图像模型检测方法、装置、电子设备及存储介质 | |
CN105975980A (zh) | 监控图像标注质量的方法和装置 | |
CN108932527A (zh) | 使用交叉训练模型检测对抗样本的方法 | |
CN106250866A (zh) | 基于神经网络的图像特征提取建模、图像识别方法及装置 | |
CN109800320A (zh) | 一种图像处理方法、设备及计算机可读存储介质 | |
CN109558833A (zh) | 一种人脸识别算法评测方法以及装置 | |
CN109241709A (zh) | 基于滑块验证码验证的用户行为识别方法及装置 | |
CN109902223A (zh) | 一种基于多模态信息特征的不良内容过滤方法 | |
CN106557732A (zh) | 一种身份认证方法及系统 | |
CN110503099A (zh) | 基于深度学习的信息识别方法及相关设备 | |
CN108717789A (zh) | 一种车辆样本的采集标注方法及装置 | |
CN110427962A (zh) | 一种测试方法、电子设备及计算机可读存储介质 | |
CN114897655B (zh) | 基于视觉的防疫控制方法及装置、存储介质、电子设备 | |
Celentino | Face-to-face with facial recognition evidence: Admissibility under the post-crawford confrontation clause | |
CN106372656A (zh) | 获取深度一次性学习模型的方法、图像识别方法及装置 | |
CN106384316A (zh) | 一种考试院实名制验证系统 | |
CN101299762B (zh) | 一种身份认证方法及装置 | |
Rufai et al. | A biometric model for examination screening and attendance monitoring in Yaba College of Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220727 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |