CN106548162B - 一种从新闻页面中自动提取带命名人脸数据的方法 - Google Patents
一种从新闻页面中自动提取带命名人脸数据的方法 Download PDFInfo
- Publication number
- CN106548162B CN106548162B CN201611052904.4A CN201611052904A CN106548162B CN 106548162 B CN106548162 B CN 106548162B CN 201611052904 A CN201611052904 A CN 201611052904A CN 106548162 B CN106548162 B CN 106548162B
- Authority
- CN
- China
- Prior art keywords
- face
- data
- image
- name
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种从新闻页面中自动提取带命名人脸数据的方法,从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;具体步骤包括:从新闻网页中提取图像及图像的文字描述内容、针对图像及图像的文字描述,进行分析、采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。本发明解决了从新闻页面中自动提取带命名人脸数据效果不理想的问题。
Description
技术领域
本发明属于图像数据处理技术领域,尤其涉及一种从新闻页面中自动提取带命名人脸数据的方法。
背景技术
建立人脸库,通常做法是手动来建立。比如说,找到一个人的头像,手动填写他的名字,存入数据库,这样建立人脸库要耗费大量的人力物力。新闻页面里,会有大量的图片,而图片通常下面会附加一行图片说明文本。
但现有技术,从新闻页面中自动提取带命名人脸数据效果不理想。不能自动建立人脸库。
发明内容
本发明的目的在于提供一种从新闻页面中自动提取带命名人脸数据的方法,旨在解决但现有技术,从新闻图文分析建立人脸库不准确,不能自动建立人脸库,而且现有技术建立人脸库要耗费大量的人力物力的问题。本发明,通过对新闻报道里照片和照片说明文本进行分析,自动提取出人的头像和头像对应的人名,不依赖于人的操作即可建立人脸库。
本发明是这样实现的,一种从新闻页面中自动提取带命名人脸数据的方法,使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;
具体步骤包括:
第一步,从新闻网页中提取图像及图像的文字描述内容:检测出图像,及图像在网页布局里的位置;检测出图像下面文字段落在网页里的位置;判断文字是否居中,检测出文字居中后,判断文字是否不超过两行,如果是,则将图像及图像的文字描述存储下来;其中,新闻网页是html代码,html代码里<img/>标签标注的为图像;使用WebKit或其它网页渲染引擎,能够找到每个html节点在网页里的位置。
第二步,针对图像及图像的文字描述,进行分析:使用人脸检测技术,检测出图片中的人脸集合F;采用自然语言处理技术,对文字描述进行命名实体识别,识别出人名集合N;
第三步,采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。
进一步,第一步中,判断文字是否居中,判断方法包括:文字左边缘到图像左边缘的距离为d1,文字右边缘到图像右边缘的距离为d2;计算d1和d2的比值,如果表示文字居中。
进一步,第二步针对图像及图像的文字描述,进行分析中,具体包括:令(f1,f2,…fn)是检测出来的人脸集合,(n1,n2,…nm)为检测出来的人名集合;
假设m=n=1,则认为头像f1的名字为n1,将数据对(f1,n1)提取存储入人脸数据库;人脸数据库里存储的是确定的人脸及人名对;
假设m=n>1,则将((f1,f2,…fn),(n1,n2,…,nm))存储入候选数据库,候选数据库里存储的是不确定的人脸及人名;
假设则将(f1,f2,…fn)和(n1,n2,…nm)丢弃。
进一步,第三步中,从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理包括:
假定人脸数据库里的人脸数据集为D={(fi,ni)|i=1,2,…k},假设((fa1,fa2,…fan),(na1,na2,…,nan))为候选数据库里的一组结果,令C为D的子集,C={(fi,ni)|(fi,ni)∈D,且ni与na1,na2,…,nan中至少一个元素相等};使用人脸识别技术,计算两个人脸的相似度,令pfi,fak为人脸数据集里的人脸fi与候选数据库里的人脸fak的相似度,0≤pfi,fak≤1;相似度越高,表示两个人脸越相似;
对C里的每个元素(fi,ni),分别计算fi与fa1,fa2,…fan的相似度,记为pfi,fa1,pfi,fa2,…,pfi,fan,取其最大值,记为pi,对应的人脸,记为fai;给定相似度阈值pt,其中,pt典型值为0.95,如果pi>pt,则从fa1,fa2,…fan中移除fai,从(na1,na2,…,nan)里移除与ni相同的值,得到序列((fb1,fb2,…fbn-1),(nb1,nb2,…,nbn-1)),如此计算,如果最终序列只剩下1对数据((f),(n)),则从该数据从候选数据库里移除,将(f,n)加入到人脸数据库中。
进一步,第三步中,在候选数据库里的数据之间进行精炼处理包括:假设有两组解析结果,((fa1,fa2,…fan),(na1,na2,…,nan))与((fb1,fb2,…fbk),(nb1,nb2,…,nbk)),令pa1,b1为人脸fa1和fb1的相似度;分别计算fa1和fb1,fb2,…,fbk的相似度,记为pa1,b1,pa1,b2,…,pa1,bk,其中的最大值记为pa1;按同样计算,可得到pa1,pa2,…,pan序列;给定阈值pt,其中,pt典型值为0.95,如果pa1,pa2,…,pan序列里,有且只有一个值大于pt,记该值对应的人脸为fa;在人名序列(na1,na2,…,nan)和(nb1,nb2,…,nbk)中,如果只有一个人名相同,记该人名为n;将数据对(f,n)提取存储入人脸数据库。
本发明提供的从新闻页面中自动提取带命名人脸数据的方法,解决了从新闻页面中自动提取带命名人脸数据效果不理想的问题。
本发明还解决了如何自动来建立人脸库的问题,本发明变手动为自动,从而避免了从新闻图文分析建立人脸库不准确的问题。
附图说明
图1是本发明实施例提供的从新闻页面中自动提取带命名人脸数据的方法
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细描述。
如图1所示,本发明实施例提供的从新闻页面中自动提取带命名人脸数据的方法,使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;
具体步骤包括:
S101:从新闻网页中提取图像及图像的文字描述内容:检测出图像,及图像在网页布局里的位置;检测出图像下面文字段落在网页里的位置;判断文字是否居中,检测出文字居中后,判断文字是否不超过两行,如果是,则将图像及图像的文字描述存储下来。
S102:针对图像及图像的文字描述,进行分析:使用人脸检测技术,检测出图片中的人脸集合F;采用自然语言处理技术,对文字描述进行命名实体识别,识别出人名集合N。
S103:采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。
进一步,S101中,判断文字是否居中,判断方法包括:文字左边缘到图像左边缘的距离为d1,文字右边缘到图像右边缘的距离为d2;计算d1和d2的比值,如果表示文字居中。
进一步,S102中,具体包括:令(f1,f2,…fn)是检测出来的人脸集合,(n1,n2,…nm)为检测出来的人名集合;
假设m=n=1,则认为头像f1的名字为n1,将数据对(f1,n1)提取存储入人脸数据库;人脸数据库里存储的是确定的人脸及人名对;
假设m=n>1,则将((f1,f2,…fn),(n1,n2,…,nm))存储入候选数据库,候选数据库里存储的是不确定的人脸及人名;
假设则将(f1,f2,…fn)和(n1,n2,…nm)丢弃。
进一步,S103中,从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理包括:
假定人脸数据库里的人脸数据集为D={(fi,ni)|i=1,2,…k},假设((fa1,fa2,…fan),(na1,na2,…,nan))为候选数据库里的一组结果,令C为D的子集,C={(fi,ni)|(fi,ni)∈D,且ni与na1,na2,…,nan中至少一个元素相等};使用人脸识别技术,计算两个人脸的相似度,令pfi,fak为人脸数据集里的人脸fi与候选数据库里的人脸fak的相似度,0≤pfi,fak≤1;相似度越高,表示两个人脸越相似;
对C里的每个元素(fi,ni),分别计算fi与fa1,fa2,…fan的相似度,记为pfi,fa1,pfi,fa2,…,pfi,fan,取其最大值,记为pi,对应的人脸,记为fai;给定相似度阈值pt,其中,pt典型值为0.95,如果pi>pt,则从fa1,fa2,…fan中移除fai,从(na1,na2,…,nan)里移除与ni相同的值,得到序列((fb1,fb2,…fbn-1),(nb1,nb2,…,nbn-1)),如此计算,如果最终序列只剩下1对数据((f),(n)),则从该数据从候选数据库里移除,将(f,n)加入到人脸数据库中。
进一步,S103中,在候选数据库里的数据之间进行精炼处理包括:
假设有两组解析结果,((fa1,fa2,…fan),(na1,na2,…,nan))与((fb1,fb2,…fbk),(nb1,nb2,…,nbk)),令pa1,b1为人脸fa1和fb1的相似度;分别计算fa1和fb1,fb2,…,fbk的相似度,记为pa1,b1,pa1,b2,…,pa1,bk,其中的最大值记为pa1;按同样计算,可得到pa1,pa2,…,pan序列;给定阈值pt,其中,pt典型值为0.95,如果pa1,pa2,…,pan序列里,有且只有一个值大于pt,记该值对应的人脸为fa;在人名序列(na1,na2,…,nan)和(nb1,nb2,…,nbk)中,如果只有一个人名相同,记该人名为n;将数据对(f,n)提取存储入人脸数据库。
本发明提供的从新闻页面中自动提取带命名人脸数据的方法,解决了从新闻页面中自动提取带命名人脸数据效果不理想的问题。
本发明还解决了如何自动来建立人脸库的问题,本发明变手动为自动,从而避免了从新闻图文分析建立人脸库不准确的问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种从新闻页面中自动提取带命名人脸数据的方法,其特征在于,所述从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;
具体步骤包括:
第一步,从新闻网页中提取图像及图像的文字描述内容:检测出图像,及图像在网页布局里的位置;检测出图像下面文字段落在网页里的位置;判断文字是否居中,检测出文字居中后,判断文字是否不超过两行,如果是,则将图像及图像的文字描述存储下来;
第二步,针对图像及图像的文字描述,进行分析:使用人脸检测技术,检测出图片中的人脸集合F;采用自然语言处理技术,对文字描述进行命名实体识别,识别出人名集合N;
第三步,采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理;
第三步中,从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理包括:
假定人脸数据库里的人脸数据集为D={(fi,ni)|i=1,2,…k},假设((fa1,fa2,…fan),(na1,na2,…,nan))为候选数据库里的一组结果,令C为D的子集,C={(fi,ni)|(fi,ni)∈D,且ni与na1,na2,…,nan中至少一个元素相等};使用人脸识别技术,计算两个人脸的相似度,令pfi,fak为人脸数据集里的人脸fi与候选数据库里的人脸fak的相似度,0≤pfi,fak≤1;相似度越高,表示两个人脸越相似;
对C里的每个元素(fi,ni),分别计算fi与fa1,fa2,…fan的相似度,记为pfi,fa1,pfi,fa2,…,pfi,fan,取其最大值,记为pi,对应的人脸,记为fai;给定相似度阈值pt,其中,pt典型值为0.95,如果pi>pt,则从fa1,fa2,…fan中移除fai,从(na1,na2,…,nan)里移除与ni相同的值,得到序列((fb1,fb2,…fbn-1),(nb1,nb2,…,nbn-1)),如此计算,如果最终序列只剩下1对数据((f),(n)),则从该数据从候选数据库里移除,将(f,n)加入到人脸数据库中;
第三步中,在候选数据库里的数据之间进行精炼处理包括:
假设有两组解析结果,((fa1,fa2,…fan),(na1,na2,…,nan))与((fb1,fb2,…fbk),(nb1,nb2,…,nbk)),令pa1,b1为人脸fa1和fb1的相似度;分别计算fa1和fb1,fb2,…,fbk的相似度,记为pa1,b1,pa1,b2,…,pa1,bk,其中的最大值记为pa1;按同样计算,可得到pa1,pa2,…,pan序列;给定阈值pt,其中,pt典型值为0.95,如果pa1,pa2,…,pan序列里,有且只有一个值大于pt,记该值对应的人脸为fa;在人名序列(na1,na2,…,nan)和(nb1,nb2,…,nbk)中,如果只有一个人名相同,记该人名为n;将数据对(f,n)提取存储入人脸数据库。
2.如权利要求1所述的从新闻页面中自动提取带命名人脸数据的方法,其特征在于,第一步中,判断文字是否居中,判断方法包括:
文字左边缘到图像左边缘的距离为d1,文字右边缘到图像右边缘的距离为d2;计算d1和d2的比值,如果表示文字居中。
3.如权利要求1所述的从新闻页面中自动提取带命名人脸数据的方法,其特征在于,第二步针对图像及图像的文字描述,进行分析中,具体包括:令(f1,f2,…fn)是检测出来的人脸集合,(n1,n2,…nm)为检测出来的人名集合;
假设m=n=1,则认为头像f1的名字为n1,将数据对(f1,n1)提取存储入人脸数据库;人脸数据库里存储的是确定的人脸及人名对;
假设m=n>1,则将((f1,f2,…fn),(n1,n2,…,nm))存储入候选数据库,候选数据库里存储的是不确定的人脸及人名;
假设m≠n,则将(f1,f2,…fn)和(n1,n2,…nm)丢弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611052904.4A CN106548162B (zh) | 2016-11-24 | 2016-11-24 | 一种从新闻页面中自动提取带命名人脸数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611052904.4A CN106548162B (zh) | 2016-11-24 | 2016-11-24 | 一种从新闻页面中自动提取带命名人脸数据的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106548162A CN106548162A (zh) | 2017-03-29 |
CN106548162B true CN106548162B (zh) | 2019-03-29 |
Family
ID=58395116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611052904.4A Active CN106548162B (zh) | 2016-11-24 | 2016-11-24 | 一种从新闻页面中自动提取带命名人脸数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106548162B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111615702B (zh) * | 2018-12-07 | 2023-10-17 | 华为云计算技术有限公司 | 一种从图像中提取结构化数据的方法、装置和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739428A (zh) * | 2008-11-10 | 2010-06-16 | 中国科学院计算技术研究所 | 一种对多媒体创建索引的方法 |
CN103793697A (zh) * | 2014-02-17 | 2014-05-14 | 北京旷视科技有限公司 | 一种人脸图像的身份标注方法及人脸身份识别方法 |
CN104537341A (zh) * | 2014-12-23 | 2015-04-22 | 北京奇虎科技有限公司 | 人脸图片信息获取方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8064650B2 (en) * | 2002-07-10 | 2011-11-22 | Hewlett-Packard Development Company, L.P. | File management of digital images using the names of people identified in the images |
US8605956B2 (en) * | 2009-11-18 | 2013-12-10 | Google Inc. | Automatically mining person models of celebrities for visual search applications |
-
2016
- 2016-11-24 CN CN201611052904.4A patent/CN106548162B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739428A (zh) * | 2008-11-10 | 2010-06-16 | 中国科学院计算技术研究所 | 一种对多媒体创建索引的方法 |
CN103793697A (zh) * | 2014-02-17 | 2014-05-14 | 北京旷视科技有限公司 | 一种人脸图像的身份标注方法及人脸身份识别方法 |
CN104537341A (zh) * | 2014-12-23 | 2015-04-22 | 北京奇虎科技有限公司 | 人脸图片信息获取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106548162A (zh) | 2017-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8285713B2 (en) | Image search using face detection | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
CN106980664B (zh) | 一种双语可比较语料挖掘方法及装置 | |
CN108305180B (zh) | 一种好友推荐方法及装置 | |
CN107911448B (zh) | 一种内容推送方法及装置 | |
CN104504108B (zh) | 信息搜索方法及装置 | |
CN106502991B (zh) | 出版物处理方法和装置 | |
CN104462590B (zh) | 信息搜索方法及装置 | |
CN109710771A (zh) | 表格信息提取方法、装置和存储介质 | |
CN106326193A (zh) | 一种版式文档中脚注识别方法及脚注与脚注引用关联方法 | |
CN112084451B (zh) | 一种基于视觉分块的网页logo提取系统及方法 | |
CN106202057A (zh) | 相似新闻信息的识别方法和装置 | |
Fauzi et al. | Webpage segmentation for extracting images and their surrounding contextual information | |
US20150356353A1 (en) | Method for identifying objects in an audiovisual document and corresponding device | |
Böschen et al. | Multi-oriented text extraction from information graphics | |
CN106548162B (zh) | 一种从新闻页面中自动提取带命名人脸数据的方法 | |
CN107145591A (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN110851606A (zh) | 基于网页结构相似性的网站聚类方法和系统 | |
Klampfl et al. | Machine learning techniques for automatically extracting contextual information from scientific publications | |
CN117423124A (zh) | 基于表格图像的表格数据处理方法和装置、设备及介质 | |
Jing et al. | Integration of text and image analysis for flood event image recognition | |
CN109857746B (zh) | 双语词库的自动更新方法、装置与电子设备 | |
Kelm et al. | How Spatial Segmentation improves the Multimodal Geo-Tagging. | |
CN105320716A (zh) | 数字出版物的自动标注方法 | |
CN104978431B (zh) | 网页数据融合方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100040 Shijingshan District railway building, Beijing, the 16 floor Applicant after: Chinese translation language through Polytron Technologies Inc Address before: 100040 Shijingshan District railway building, Beijing, the 16 floor Applicant before: Mandarin Technology (Beijing) Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |