CN106548162B

CN106548162B - 一种从新闻页面中自动提取带命名人脸数据的方法

Info

Publication number: CN106548162B
Application number: CN201611052904.4A
Authority: CN
Inventors: 程国艮; 李欣杰
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2019-03-29
Anticipated expiration: 2036-11-24
Also published as: CN106548162A

Abstract

本发明公开了一种从新闻页面中自动提取带命名人脸数据的方法，从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸，使用自然语言处理技术从说明文本中检测出人名，来自动提取标注人名的人脸图像数据；具体步骤包括：从新闻网页中提取图像及图像的文字描述内容、针对图像及图像的文字描述，进行分析、采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。本发明解决了从新闻页面中自动提取带命名人脸数据效果不理想的问题。

Description

一种从新闻页面中自动提取带命名人脸数据的方法

技术领域

本发明属于图像数据处理技术领域，尤其涉及一种从新闻页面中自动提取带命名人脸数据的方法。

背景技术

建立人脸库，通常做法是手动来建立。比如说，找到一个人的头像，手动填写他的名字，存入数据库，这样建立人脸库要耗费大量的人力物力。新闻页面里，会有大量的图片，而图片通常下面会附加一行图片说明文本。

但现有技术，从新闻页面中自动提取带命名人脸数据效果不理想。不能自动建立人脸库。

发明内容

本发明的目的在于提供一种从新闻页面中自动提取带命名人脸数据的方法，旨在解决但现有技术，从新闻图文分析建立人脸库不准确，不能自动建立人脸库，而且现有技术建立人脸库要耗费大量的人力物力的问题。本发明，通过对新闻报道里照片和照片说明文本进行分析，自动提取出人的头像和头像对应的人名，不依赖于人的操作即可建立人脸库。

本发明是这样实现的，一种从新闻页面中自动提取带命名人脸数据的方法，使用人脸检测技术从图片里检测出人脸，使用自然语言处理技术从说明文本中检测出人名，来自动提取标注人名的人脸图像数据；

具体步骤包括：

第一步，从新闻网页中提取图像及图像的文字描述内容：检测出图像，及图像在网页布局里的位置；检测出图像下面文字段落在网页里的位置；判断文字是否居中，检测出文字居中后，判断文字是否不超过两行，如果是，则将图像及图像的文字描述存储下来；其中，新闻网页是html代码，html代码里<img/>标签标注的为图像；使用WebKit或其它网页渲染引擎，能够找到每个html节点在网页里的位置。

第二步，针对图像及图像的文字描述，进行分析：使用人脸检测技术，检测出图片中的人脸集合F；采用自然语言处理技术，对文字描述进行命名实体识别，识别出人名集合N；

第三步，采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。

进一步，第一步中，判断文字是否居中，判断方法包括：文字左边缘到图像左边缘的距离为d1,文字右边缘到图像右边缘的距离为d2；计算d1和d2的比值，如果表示文字居中。

进一步，第二步针对图像及图像的文字描述，进行分析中，具体包括：令(f₁,f₂,…f_n)是检测出来的人脸集合，(n₁,n₂,…n_m)为检测出来的人名集合；

假设m＝n＝1，则认为头像f₁的名字为n₁，将数据对(f₁,n₁)提取存储入人脸数据库；人脸数据库里存储的是确定的人脸及人名对；

假设m＝n>1，则将((f₁,f₂,…f_n),(n₁,n₂,…,n_m))存储入候选数据库，候选数据库里存储的是不确定的人脸及人名；

假设则将(f₁,f₂,…f_n)和(n₁,n₂,…n_m)丢弃。

进一步，第三步中，从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理包括：

假定人脸数据库里的人脸数据集为D＝{(f_i,n_i)|i＝1,2,…k},假设((f_a1,f_a2,…f_an),(n_a1,n_a2,…,n_an))为候选数据库里的一组结果，令C为D的子集，C＝{(f_i,n_i)|(f_i,n_i)∈D,且n_i与n_a1,n_a2,…,n_an中至少一个元素相等}；使用人脸识别技术，计算两个人脸的相似度，令p_fi,fak为人脸数据集里的人脸f_i与候选数据库里的人脸f_ak的相似度，0≤p_fi，fak≤1；相似度越高，表示两个人脸越相似；

对C里的每个元素(f_i,n_i)，分别计算f_i与f_a1,f_a2,…f_an的相似度，记为p_fi,fa1,p_fi,fa2,…,p_fi,fan，取其最大值，记为p_i，对应的人脸，记为f_ai；给定相似度阈值p_t，其中，p_t典型值为0.95，如果p_i>p_t，则从f_a1,f_a2,…f_an中移除f_ai，从(n_a1,n_a2,…,n_an)里移除与n_i相同的值，得到序列((f_b1,f_b2,…f_bn-1),(n_b1,n_b2,…,n_bn-1))，如此计算，如果最终序列只剩下1对数据((f),(n))，则从该数据从候选数据库里移除，将(f,n)加入到人脸数据库中。

进一步，第三步中，在候选数据库里的数据之间进行精炼处理包括：假设有两组解析结果，((f_a1,f_a2,…f_an),(n_a1,n_a2,…,n_an))与((f_b1,f_b2,…f_bk),(n_b1,n_b2,…,n_bk))，令p_a1,b1为人脸f_a1和f_b1的相似度；分别计算f_a1和f_b1,f_b2,…,f_bk的相似度，记为p_a1,b1,p_a1,b2,…,p_a1,bk，其中的最大值记为p_a1；按同样计算，可得到p_a1,p_a2,…,p_an序列；给定阈值p_t，其中，p_t典型值为0.95，如果p_a1,p_a2,…,p_an序列里，有且只有一个值大于p_t,记该值对应的人脸为f_a；在人名序列(n_a1,n_a2,…,n_an)和(n_b1,n_b2,…,n_bk)中，如果只有一个人名相同，记该人名为n；将数据对(f,n)提取存储入人脸数据库。

本发明提供的从新闻页面中自动提取带命名人脸数据的方法，解决了从新闻页面中自动提取带命名人脸数据效果不理想的问题。

本发明还解决了如何自动来建立人脸库的问题，本发明变手动为自动，从而避免了从新闻图文分析建立人脸库不准确的问题。

附图说明

图1是本发明实施例提供的从新闻页面中自动提取带命名人脸数据的方法

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细描述。

如图1所示，本发明实施例提供的从新闻页面中自动提取带命名人脸数据的方法，使用人脸检测技术从图片里检测出人脸，使用自然语言处理技术从说明文本中检测出人名，来自动提取标注人名的人脸图像数据；

具体步骤包括：

S101:从新闻网页中提取图像及图像的文字描述内容：检测出图像，及图像在网页布局里的位置；检测出图像下面文字段落在网页里的位置；判断文字是否居中，检测出文字居中后，判断文字是否不超过两行，如果是，则将图像及图像的文字描述存储下来。

S102：针对图像及图像的文字描述，进行分析：使用人脸检测技术，检测出图片中的人脸集合F；采用自然语言处理技术，对文字描述进行命名实体识别，识别出人名集合N。

S103：采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。

进一步，S101中，判断文字是否居中，判断方法包括：文字左边缘到图像左边缘的距离为d1,文字右边缘到图像右边缘的距离为d2；计算d1和d2的比值，如果表示文字居中。

进一步，S102中，具体包括：令(f₁,f₂,…f_n)是检测出来的人脸集合，(n₁,n₂,…n_m)为检测出来的人名集合；

假设则将(f₁,f₂,…f_n)和(n₁,n₂,…n_m)丢弃。

进一步，S103中，从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理包括：

进一步，S103中，在候选数据库里的数据之间进行精炼处理包括：

假设有两组解析结果，((f_a1,f_a2,…f_an),(n_a1,n_a2,…,n_an))与((f_b1,f_b2,…f_bk),(n_b1,n_b2,…,n_bk))，令p_a1,b1为人脸f_a1和f_b1的相似度；分别计算f_a1和f_b1,f_b2,…,f_bk的相似度，记为p_a1,b1,p_a1,b2,…,p_a1,bk，其中的最大值记为p_a1；按同样计算，可得到p_a1,p_a2,…,p_an序列；给定阈值p_t，其中，p_t典型值为0.95，如果p_a1,p_a2,…,p_an序列里，有且只有一个值大于p_t,记该值对应的人脸为f_a；在人名序列(n_a1,n_a2,…,n_an)和(n_b1,n_b2,…,n_bk)中，如果只有一个人名相同，记该人名为n；将数据对(f,n)提取存储入人脸数据库。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种从新闻页面中自动提取带命名人脸数据的方法，其特征在于，所述从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸，使用自然语言处理技术从说明文本中检测出人名，来自动提取标注人名的人脸图像数据；

具体步骤包括：

第一步，从新闻网页中提取图像及图像的文字描述内容：检测出图像，及图像在网页布局里的位置；检测出图像下面文字段落在网页里的位置；判断文字是否居中，检测出文字居中后，判断文字是否不超过两行，如果是，则将图像及图像的文字描述存储下来；

第三步，采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理；

第三步中，从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理包括：

对C里的每个元素(f_i,n_i)，分别计算f_i与f_a1,f_a2,…f_an的相似度，记为p_fi,fa1,p_fi,fa2,…,p_fi,fan，取其最大值，记为p_i，对应的人脸，记为f_ai；给定相似度阈值p_t，其中，p_t典型值为0.95，如果p_i>p_t，则从f_a1,f_a2,…f_an中移除f_ai，从(n_a1,n_a2,…,n_an)里移除与n_i相同的值，得到序列((f_b1,f_b2,…f_bn-1),(n_b1,n_b2,…,n_bn-1))，如此计算，如果最终序列只剩下1对数据((f),(n))，则从该数据从候选数据库里移除，将(f,n)加入到人脸数据库中；

第三步中，在候选数据库里的数据之间进行精炼处理包括：

2.如权利要求1所述的从新闻页面中自动提取带命名人脸数据的方法，其特征在于，第一步中，判断文字是否居中，判断方法包括：

文字左边缘到图像左边缘的距离为d1,文字右边缘到图像右边缘的距离为d2；计算d1和d2的比值，如果表示文字居中。

3.如权利要求1所述的从新闻页面中自动提取带命名人脸数据的方法，其特征在于，第二步针对图像及图像的文字描述，进行分析中，具体包括：令(f₁,f₂,…f_n)是检测出来的人脸集合，(n₁,n₂,…n_m)为检测出来的人名集合；

假设m≠n，则将(f₁,f₂,…f_n)和(n₁,n₂,…n_m)丢弃。