CN105956563A

CN105956563A - 基于多示例学习进行新闻图像中人脸标注的方法

Info

Publication number: CN105956563A
Application number: CN201610298506.4A
Authority: CN
Inventors: 苏雪平; 李维
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2016-09-21
Anticipated expiration: 2036-05-06
Also published as: CN105956563B

Abstract

本发明公开了基于多示例学习进行新闻图像中人脸标注的方法，将新闻图像分为多个图像子集，随后对新闻图像中候选人名及候选人名出现次数进行排序，进行正反包及正反示例后，利用Max‑ED方法和IMax‑ED方法进行人脸标注。本发明针对新闻人脸图像与多个人名的一对多关系(即人脸标注)的优化问题，本发明将ED和Iter‑ED视频人脸标注方法引入新闻图像人脸标注领域，并改进了正/反包分配方法，在降低虚假正包对标注影响的基础上，提出了基于改进Max‑ED和IMax‑ED的人脸标注新方法。

Description

基于多示例学习进行新闻图像中人脸标注的方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于多示例学习进行新闻图像中人脸标注的方法。

背景技术

多示例学习(Multiple Instance Learning)是一种不同于监督学习、非监督学习和强化学习的一种新的学习框架。在前面的三种学习框架中，一个示例就是一个样本，即示例和样本是一一对应，而在多示例学习中，多个示例组成一个样本(即包)，即示例和样本是多对一，这使得以往的学习方法无法解决此类问题。多示例学习是在包的粒度对样本进行标注，每个包中包含多个示例，每个示例没有标签。如果包中包含至少一个以上的正例，则标记该包为正包；相反，如果包中包含的示例均为反例，则标记该包为反包。通过对训练包的学习，希望得到的模型尽可能准确地预测剩余包或示例的标签。

一般而言，新闻视频一般可以划分为一系列的新闻故事，每个故事包含同一个事件的很多帧。同时，新闻视频中的同一人脸图像会持续出现在多帧图像中，或多次出现在不同帧图像中，这些都使得标注包标签需要很少量的人工消耗。但是，在新闻图像中，同一个人的人脸图像仅出现一次或者从未出现，并且没有任何先验信息提示人名列表中的人名与新闻图像中的多个人脸图像是如何一一对应的。因而，标注新闻图像中的正包和反包需要手工标注，然而手工标注过程是非常消耗劳力和时间的，而且无法适用于大规模数据。因此，探索自动标注新闻图像正包和反包的方法成为研究热点。

发明内容

本发明的目的是提供一种基于多示例学习进行新闻图像中人脸标注的方法，将最大特有多样性密度方法和迭代方法相结合，可以自动标识正/反包及正例，进而实现人脸标注。

本发明所采用的技术方案是，基于多示例学习进行新闻图像中人脸标注的方法，具体按照以下步骤实施：

步骤1，将所有新闻图像编号，依据编号从小到大将图像均匀地分成数量相近的多个图像子集，随后采用人脸检测方法检测每个图像子集中的人脸图像，并提取人脸特征；

步骤2，利用层次采样并行AP聚类算法并行地将步骤1所得人脸图像集分配到聚类中心；

步骤3，找到步骤2聚类中心中每个人脸图像相应的新闻字幕，使用命名实体识别方法检测新闻字幕中的候选人名,手动合并同一个人的不同人名书写方式；

步骤4，统计步骤3检测到的候选人名以及所有候选人名在整个新闻数据集上的出现次数，依照降序进行排序，随后对候选人名进行标记；

步骤5，利用Max-ED方法和IMax-ED方法进行人脸标注。

本发明的特征还在在于，

步骤1中，人脸检测方法为主动形状模型法。

步骤1中，人脸特征为局部Gabor二值模式直方图序列(Local GaborBinary Pattern Histogram Sequence，LGBPHS)，具体提取特征过程为：(1)人脸图像归一化；(2)分别使用多个不同方向、不同尺度的Gabor滤波器与归一化图像进行卷积，取卷积结果的幅值部分，即Gabor幅值图谱(GaborMagnitude Pictures，GMP)；(3)LBP将每幅Gabor幅值图谱转换为局部Gabor二值模式图谱(Local Gabor BinaryPattern，LGBP)；(4)将每个局部Gabor二值模式图谱分成指定大小的非重叠矩形块，并计算每块的直方图；(5)融合所有局部Gabor二值模式图谱的直方图串接为一个直方图序列，作为人脸图像的特征描述。

步骤2的具体步骤为：

步骤2.1：计算每个新闻图像子集中人脸图像数据点的相似度，同时并行运行AP聚类，生成各自的聚类中心，数据点相似度计算公式：

{sim}_{i j} = s q r t (Σ_{k = 1}^{K} {({image}_{i k} - {image}_{j k})}^{2}), i = 1, 2, 3... N_{n u m}; j = 1, 2, 3... N_{n u m}; - - - (1)

其中，sim_ij是图像i_th和图像j_th的相似度,image_ik/image_jk是图像i_th/j_th的第k_th个特征，N_num是人脸图像集的总数目，K是特征维数；

步骤2.2：融合每个数据子集的聚类中心，并随机在每个聚类中挑选多个样本，共同形成一组新的数据，同样依据公式(1)计算新数据所有点的相似度，再次使用AP聚类得到最终的聚类中心；

步骤2.3：对于人脸图像，依照公式(1)计算其与所有聚类中心的相似度，将其划归到相似度最大的聚类中心。

步骤4中，具体标记过程为：

每一个人脸图像对应一个包，与人脸图像对应的人名列表为包中的示例，将出现次数最多的候选人名标记为Max-name，如果包中包含Max-name，则标注包为正包，Max-name为正示例，其余人名皆为反示例，反之，标注包为反包，所有人名皆为反示例。

步骤5中，人脸标注的具体过程为：

对于假设空间h＝(μ,σ)中的正包和反包，其中，μ是概念点的坐标，σ是不同特征的权重，采用不同的方法将包标签的概率转换为示例标签的概率：

步骤5.1：依据公式(2)计算标记包为正包的概率：

P (+ | B_{i}, h) = \frac{1}{Z_{i}} P {(+ | B_{{ij}_{m a x}}, h)}^{λ_{i}} \underset{k &NotEqual; j_{\max}}{Π} P (- | B_{i k}, h) - - - (2)

其中，P(+|B_i,h)是包B_i标为正包的概率，Z_i是归一化参数，λ_i＝n_i-1(n_i是包B_i中的示例数目)，是正示例Max-name标记为B_ijmax的概率，P(-|B_ik,h)是其余示例B_ik为反示例的概率；

同理，依据公式(3)计算标记包为反包的概率：

P (- | B_{i}, h) = \frac{1}{Z_{i}} \underset{j}{Π} P (- | B_{i j}, h) - - - (3)

其中，Z_i是归一化参数，P(-|B_i,h)是包B_i标为反包的概率，P(-|B_ij,h)是示例B_ij为反示例的概率；

依据概率和为1的条件,则依据公式(4)计算Z_i:

Z_{i} = P {(+ | B_{{ij}_{\max}}, h)}^{λ_{i}} \underset{k &NotEqual; j_{\max}}{Π} P (- | B_{i k}, h) + \underset{j}{Π} P (- | B_{i j}, h) - - - (4)

其中，Z_i是归一化参数，λ_i＝n_i-1(n_i是包B_i中的示例数目)，是正示例Max-name标记为的概率，P(-|B_ik,h)是其余示例B_ik为反示例的概率，P(-|B_ij,h)是示例B_ij为反示例的概率；

P(+|B_ij,h)与每个示例和假设空间h的距离负相关，则计算公式如下：

P (+ | B_{i j}, h) = \exp (- \frac{{(B_{i j} - μ)}^{2}}{2 σ^{2}}) - - - (5)

P(-|B_ij,h)＝1-P(+|B_ij,h)

其中，P(+|B_ij,h)是示例B_ij为正示例的概率，P(-|B_ij,h)是示例B_ij为反示例的概率，μ是概念点的坐标，σ是不同特征的权重。

则根据Bayes理论，依据公式(6)计算假设空间h_ED：

h_{E D} = \arg \underset{h &Element; H}{m a x} \underset{i}{Π} P (l_{i} | B_{i}, h)

h_{E D} = \arg \underset{h &Element; H}{m a x} \underset{&ForAll; i : l_{i} = 1}{Π} P (+ | B_{i}, h) \underset{&ForAll; i : l_{i} = 0}{Π} P (- | B_{i}, h) - - - (6)

其中，h_ED是最优假设空间，P(l_i|B_i,h)是包B_i标签的概率，l_i是包B_i的标签，P(+|B_i,h)是包B_i为正包的概率，P(-|B_i,h)是包B_i为反包的概率。

步骤5.2：依据Max-name原则，挑选每个正包中的正示例，并将这些正示例作为初始点，依据公式(6)通过梯度下降法求解最优的假设空间h_ED；

步骤5.3：利用步骤5.2所得假设空间h_ED及公式(7)更新示例：

其中，p(+|x_ik,h)指正包中示例x_ik的概率，y_ij是示例x_ik的标签；

设置最大迭代参数，或者设置参数ε，θ＝h^t+1(μ,σ)-h^t(μ,σ)，如果θ＞ε，t＝t+1,重复步骤5.1和5.2；反之θ＜ε,h_ED＝h^t+1(μ,σ)；上述条件循环，至最大迭代次数终止运算，得最优假设空间h_ED；

步骤5.4：利用最优假设空间h_ED和公式(7)实现人脸标注。

本发明的有益效果是，针对新闻人脸图像与多个人名的一对多关系(即人脸标注)的优化问题，本发明将ED和Iter-ED视频人脸标注方法引入新闻图像人脸标注领域，并改进了正/反包分配方法，在降低虚假正包对标注影响的基础上，提出了基于改进Max-ED和IMax-ED的人脸标注新方法。

附图说明

图1为本发明基于多示例学习进行新闻图像中人脸标注的方法中层次采样并行AP聚类算法的流程图；

图2为本发明基于多示例学习进行新闻图像中人脸标注的方法中IMax-ED方法框图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于多示例学习进行新闻图像中人脸标注的方法，针对新闻人脸图像与多个人名的一对多关系(即人脸标注)的优化问题，将ED和Iter-ED视频人脸标注方法引入新闻图像人脸标注领域，并改进了正/反包分配方法，在降低虚假正包对标注影响的基础上，提出了基于改进Max-ED和IMax-ED的人脸标注新方法，包括示例生成、标注正反包及正反示例、Max-ED方法和IMax-ED方法和人脸标注，具体按照以下步骤实施：

步骤1，将所有新闻图像编号，依据编号从小到大将图像均匀地分成数量相近的多个图像子集，随后采用主动形状模型法检测每个图像子集中的人脸图像，并提取人脸特征；提取人脸特征具体步骤为：(1)人脸图像归一化；(2)分别使用多个不同方向、不同尺度的Gabor滤波器与归一化图像进行卷积，取卷积结果的幅值部分，即Gabor幅值图谱(Gabor Magnitude Pictures，GMP)；(3)LBP将每幅Gabor幅值图谱转换为局部Gabor二值模式图谱(Local Gabor BinaryPattern，LGBP)；(4)将每个局部Gabor二值模式图谱分成指定大小的非重叠矩形块，并计算每块的直方图；(5)融合所有局部Gabor二值模式图谱的直方图串接为一个直方图序列，作为人脸图像的特征描述。

步骤2，利用层次采样并行AP聚类算法并行地将步骤1所得人脸图像集分配到聚类中心，其流程如图1所示，具体步骤为：

{sim}_{i j} = s q r t (Σ_{k = 1}^{K} {({image}_{i k} - {image}_{j k})}^{2}), i = 1, 2, 3... N_{n u m}; j = 1, 2, 3... N_{n u m}; - - - (1)

步骤4，统计步骤3检测到的候选人名以及所有候选人名在整个新闻数据集上的出现次数，依照降序进行排序，随后对候选人名进行标记，具体过程为：多示例学习中的包是指新闻图像中检测到的人脸图像，包的标签是新闻字幕中检测的人名列表。在每个包中，每幅人脸图像都有一个人名列表与之对应，人名列表中的每个人名即包中的示例。针对包中的人名，提取其特征信息。本发明使用的特征信息如下：(1)人名位置：人名在新闻字幕中出现的位置。(2)人名相对位置：同一新闻字幕中，人名在人名列表中的位置，即人名与其他人名的相对位置。(3)语句相对位置：人名所在语句在新闻字幕的所有语句的相对位置。(4)位置描述：新闻字幕中描述人名的人脸图像出现在新闻图像中的位置描述，比如“左”，“中”，“右”等。

步骤5，在e-MIL问题中，一个正包包含唯一的正示例，则该包被标记为正包的概率取决于包中一个示例生成正标签同时其他示例生成反标签的概率，利用Max-ED方法和IMax-ED方法进行人脸标注：对于假设空间h＝(μ,σ)中的正包和反包，其中，μ是概念点的坐标，σ是不同特征的权重，采用不同的方法将包标签的概率转换为示例标签的概率：

步骤5.1：对于正包，Max-name的标签为1，其余人名标签为0，对于反包，所有人名标签为0，依据公式(2)计算标记包为正包的概率：

P (+ | B_{i}, h) = \frac{1}{Z_{i}} P {(+ | B_{{ij}_{m a x}}, h)}^{λ_{i}} \underset{k &NotEqual; j_{\max}}{Π} P (- | B_{i k}, h) - - - (2)

其中，P(+|B_i,h)是包B_i标为正包的概率，Z_i是归一化参数，λ_i＝n_i-1(n_i是包B_i中的示例数目)，是正示例Max-name标记为的概率，P(-|B_ik,h)是其余示例B_ik为反示例的概率；

同理，依据公式(3)计算标记包为反包的概率：

P (- | B_{i}, h) = \frac{1}{Z_{i}} \underset{j}{Π} P (- | B_{i j}, h) - - - (3)

依据概率和为1的条件,则依据公式(4)计算Z_i:

Z_{i} = P {(+ | B_{{ij}_{\max}}, h)}^{λ_{i}} \underset{k &NotEqual; j_{\max}}{Π} P (- | B_{i k}, h) + \underset{j}{Π} P (- | B_{i j}, h) - - - (4)

P (+ | B_{i j}, h) = \exp (- \frac{{(B_{i j} - μ)}^{2}}{2 σ^{2}})

P(-|B_ij,h)＝1-P(+|B_ij,h) (5)

则根据Bayes理论，依据公式(6)计算假设空间h_ED：

h_{E D} = \arg \underset{h &Element; H}{m a x} \underset{i}{Π} P (l_{i} | B_{i}, h)

h_{E D} = \arg \underset{h &Element; H}{m a x} \underset{&ForAll; i : l_{i} = 1}{Π} P (+ | B_{i}, h) \underset{&ForAll; i : l_{i} = 0}{Π} P (- | B_{i}, h) - - - (6)

步骤5.2：由于光照条件、多种表情、多种姿态、部分遮挡等因素的影响，以及聚类算法本身固有的缺陷，使得同一类的人脸图像不能完全属于某一个人。例如，当奥巴马的人名出现在新闻字幕中，而他的人脸图像没有同时出现在相应的新闻图像中，此时，如果该新闻图像中某个人脸图像被聚类到奥巴马的人脸图像类中，依据本发明标识正包的原则，则该包标识为正包，事实上，该包应该标识为反包。在本发明中，该类包被称为虚假正包。在虚假正包中，依据原始DD算法的定义，P(h|B_i ⁺)将非常小甚至为0。计算ED(h)时，使用联合概率将极大的影响了Max-ED算法的性能。为了避免虚假正包的影响，本发明进一步提出迭代Max-ED(Iterative Max Exclusive Density，IMax-ED)算法：

依据Max-name原则，挑选每个正包中的正示例，并将这些正示例作为初始点，依据公式(6)通过梯度下降法求解最优的假设空间h_ED；

步骤5.3：对于正包，Max-name的标签为1，其余人名标签为0，对于反包，所有人名标签为0，利用步骤5.2所得假设空间h_ED及公式(7)更新示例：

步骤5.4：利用最优假设空间h_ED和公式(7)实现人脸标注。

实施例

步骤1:FAN-Large数据集总共包含125479条新闻名人图像，则图像编号为1到125479，则编号1-1000为第一组图像，依次编号1001-2000为第二组图像，其他以此类推。则整个新闻图像集被划分为126组新闻图像子集，其中每个新闻图像子集大约包含1000幅新闻名人图像。接下来，采用主动形状模型(ASM，Active shape mode)方法定位图像集中的人脸特征点(眉毛、眼睛、鼻子、嘴巴等)，总共68个点。最后，提取特征：(1)人脸图像统一归一化到80*60像素(左右外眼角像素统一归一化到50个像素)；(2)分别使用40个不同方向、不同尺度的Gabor滤波器与归一化图像进行卷积，取卷积结果的幅值部分，即Gabor幅值图谱(Gabor Magnitude Pictures，GMP)；(3)LBP将每幅Gabor幅值图谱转换为局部Gabor二值模式图谱(Local GaborBinaryPattern，LGBP)；(4)将每个局部Gabor二值模式图谱分成9块区域的非重叠矩形块，并计算每块的直方图；(5)融合所有局部Gabor二值模式图谱的直方图串接为一个直方图序列，得到3600维特征。

步骤2：(1)针对步骤1得到的126组新闻图像子集，根据公式(1)计算每个数据子集内数据点的相似度，同时并行运行AP聚类，生成各自的聚类中心共360个。(2)融合每个数据子集的聚类中心，并随机在每个聚类中挑选10个样本，共同形成一组新的数据，根据公式(1)计算新数据所有点的相似度，再次使用AP聚类得到最终的聚类中心101个。(3)对于人脸图像，依据公式(1)计算其与所有聚类中心的相似度，将其划归到相似度最大的聚类中心去。

步骤3：找到步骤2聚类中心中每个人脸图像对应的新闻字幕。接下来，使用命名实体识别方法检测新闻字幕中的候选人名,并且手动合并同一个人的不同人名书写方式。

步骤4：统计步骤3检测到的候选人名，计算所有候选人名在整个新闻数据集上的出现次数，依照降序进行排序。并将出现次数最多的候选人名标记为Max-name，如果包中包含Max-name，则标注包为正包，Max-name为正示例，其余人名皆为反示例，反之，标注包为反包，所有人名皆为反示例。

步骤5：利用Max-ED方法和IMax-ED方法进行人脸标注。人脸标注的具体过程为：

Max-ED方法：

初始化示例标签：对于正包，Max-name的标签为1，其余人名标签为0，对于反包，所有人名标签为0。

步骤5.1：如果包中包含Max-name，则依据公式(2)计算标记为正包的概率，相反，则依据公式(3)计算标记为反包的概率。

步骤5.2：依据Max-name原则，挑选每个正包中的正示例，并将这些正示例作为初始点，依据公式(6)通过梯度下降法求解最优的假设空间h_ED。

IMax-ED方法，流程如图2所示：

初始化示例标签：对于正包，Max-name的标签为1，其余人名标签为0。对于反包，所有人名标签为0；

步骤5.3：利用步骤5.2所得假设空间h_ED及公式(7)更新示例，设置最大迭代参数为1000，或者设置参数ε＝0.01，如果θ＞ε，t＝t+1,重复步骤5.1和5.2；反之θ＜ε,h_ED＝h^t+1(μ,σ)。上述条件循环，至最大迭代次数终止运算。最终得到最优假设空间h_ED。

步骤5.4：使用最优假设空间h_ED和(7)实现人脸标注。

本发明提出了基于改进Max-ED和IMax-ED的人脸标注新算法。针对手工标注新闻图像中正负包，耗时耗力，本发明通过将ED和Iter-ED视频人脸标注算法引入新闻图像人物标注领域，并改进了正/反包分配方法，在降低虚假正包对标注影响的基础上，提出了改进的Max-ED和IMax-ED人脸标注新算法。利用FAN-Large数据集的实验结果表明，新闻图像人脸的正确识别率提高了42.4％。

Claims

1.基于多示例学习进行新闻图像中人脸标注的方法，其特征在于，具体按照以下步骤实施：

步骤5，利用Max-ED方法和IMax-ED方法进行人脸标注。

2.根据权利要求1所述的基于多示例学习进行新闻图像中人脸标注的方法，其特征在于，步骤1中，人脸检测方法为主动形状模型法。

3.根据权利要求1所述的基于多示例学习进行新闻图像中人脸标注的方法，其特征在于，步骤1中，人脸特征为局部Gabor二值模式直方图序列，具体提取特征步骤为：a.人脸图像归一化；b.分别使用多个不同方向、不同尺度的Gabor滤波器与归一化图像进行卷积，取卷积结果的幅值部分，即Gabor幅值图谱；c.LBP将每幅Gabor幅值图谱转换为局部Gabor二值模式图谱；d.将每个局部Gabor二值模式图谱分成指定大小的非重叠矩形块，并计算每块的直方图；e.融合所有局部Gabor二值模式图谱的直方图串接为一个直方图序列，作为人脸图像的特征描述。

4.根据权利要求1所述的基于多示例学习进行新闻图像中人脸标注的方法，其特征在于，步骤2的具体步骤为：

{sim}_{i j} = s q r t (Σ_{k = 1}^{K} {({image}_{i k} - {image}_{j k})}^{2}), i = 1, 2, 3 ... N_{n u m}; j = 1, 2, 3 ... N_{n u m}; - - - (1)

5.根据权利要求1所述的基于多示例学习进行新闻图像中人脸标注的方法，其特征在于，步骤4中，具体标记过程为：

6.根据权利要求1所述的基于多示例学习进行新闻图像中人脸标注的方法，其特征在于，步骤5中，人脸标注的具体过程为：

步骤5.1：依据公式(2)计算标记包为正包的概率：

P (+ | B_{i}, h) = \frac{1}{Z_{i}} P {(+ | B_{{ij}_{m a x}}, h)}^{λ_{i}} \underset{k &NotEqual; j_{\max}}{Π} P (- | B_{i k}, h) - - - (2)

同理，依据公式(3)计算标记包为反包的概率：

P (- | B_{i}, h) = \frac{1}{Z_{i}} \underset{j}{Π} P (- | B_{i j}, h) - - - (3)

依据概率和为1的条件,则依据公式(4)计算Z_i:

Z_{i} = P {(+ | B_{{ij}_{\max}}, h)}^{λ_{i}} \underset{k &NotEqual; j_{\max}}{Π} P (- | B_{i k}, h) + \underset{j}{Π} P (- | B_{i j}, h) - - - (4)

P (+ | B_{i j}, h) = \exp (- \frac{{(B_{i j} - μ)}^{2}}{2 σ^{2}})

P(-|B_ij,h)＝1-P(+|B_ij,h) (5)

其中，P(+|B_ij,h)是示例B_ij为正示例的概率，P(-|B_ij,h)是示例B_ij为反示例的概率，μ是概念点的坐标，σ是不同特征的权重；

则根据Bayes理论，依据公式(6)计算假设空间h_ED：

h_{E D} = \arg \underset{h &Element; H}{m a x} \underset{i}{Π} P (l_{i} | B_{i}, h)

h_{E D} = \arg \underset{h &Element; H}{m a x} \underset{&ForAll; i : l_{i} = 1}{Π} P (+ | B_{i}, h) \underset{&ForAll; i : l_{i} = 0}{Π} P (- | B_{i}, h) - - - (6)

其中，h_ED是最优假设空间，P(l_i|B_i,h)是包B_i标签的概率，l_i是包B_i的标签，P(+|B_i,h)是包B_i为正包的概率，P(-|B_i,h)是包B_i为反包的概率；

步骤5.3：利用步骤5.2所得假设空间h_ED及公式(7)更新示例：

步骤5.4：利用最优假设空间h_ED和公式(7)实现人脸标注。