CN105956563A - 基于多示例学习进行新闻图像中人脸标注的方法 - Google Patents

基于多示例学习进行新闻图像中人脸标注的方法 Download PDF

Info

Publication number
CN105956563A
CN105956563A CN201610298506.4A CN201610298506A CN105956563A CN 105956563 A CN105956563 A CN 105956563A CN 201610298506 A CN201610298506 A CN 201610298506A CN 105956563 A CN105956563 A CN 105956563A
Authority
CN
China
Prior art keywords
image
probability
bag
face
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610298506.4A
Other languages
English (en)
Other versions
CN105956563B (zh
Inventor
苏雪平
李维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN201610298506.4A priority Critical patent/CN105956563B/zh
Publication of CN105956563A publication Critical patent/CN105956563A/zh
Application granted granted Critical
Publication of CN105956563B publication Critical patent/CN105956563B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/43Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of news video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多示例学习进行新闻图像中人脸标注的方法,将新闻图像分为多个图像子集,随后对新闻图像中候选人名及候选人名出现次数进行排序,进行正反包及正反示例后,利用Max‑ED方法和IMax‑ED方法进行人脸标注。本发明针对新闻人脸图像与多个人名的一对多关系(即人脸标注)的优化问题,本发明将ED和Iter‑ED视频人脸标注方法引入新闻图像人脸标注领域,并改进了正/反包分配方法,在降低虚假正包对标注影响的基础上,提出了基于改进Max‑ED和IMax‑ED的人脸标注新方法。

Description

基于多示例学习进行新闻图像中人脸标注的方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于多示例学习进行新闻图像中人脸标注的方法。
背景技术
多示例学习(Multiple Instance Learning)是一种不同于监督学习、非监督学习和强化学习的一种新的学习框架。在前面的三种学习框架中,一个示例就是一个样本,即示例和样本是一一对应,而在多示例学习中,多个示例组成一个样本(即包),即示例和样本是多对一,这使得以往的学习方法无法解决此类问题。多示例学习是在包的粒度对样本进行标注,每个包中包含多个示例,每个示例没有标签。如果包中包含至少一个以上的正例,则标记该包为正包;相反,如果包中包含的示例均为反例,则标记该包为反包。通过对训练包的学习,希望得到的模型尽可能准确地预测剩余包或示例的标签。
一般而言,新闻视频一般可以划分为一系列的新闻故事,每个故事包含同一个事件的很多帧。同时,新闻视频中的同一人脸图像会持续出现在多帧图像中,或多次出现在不同帧图像中,这些都使得标注包标签需要很少量的人工消耗。但是,在新闻图像中,同一个人的人脸图像仅出现一次或者从未出现,并且没有任何先验信息提示人名列表中的人名与新闻图像中的多个人脸图像是如何一一对应的。因而,标注新闻图像中的正包和反包需要手工标注,然而手工标注过程是非常消耗劳力和时间的,而且无法适用于大规模数据。因此,探索自动标注新闻图像正包和反包的方法成为研究热点。
发明内容
本发明的目的是提供一种基于多示例学习进行新闻图像中人脸标注的方法,将最大特有多样性密度方法和迭代方法相结合,可以自动标识正/反包及正例,进而实现人脸标注。
本发明所采用的技术方案是,基于多示例学习进行新闻图像中人脸标注的方法,具体按照以下步骤实施:
步骤1,将所有新闻图像编号,依据编号从小到大将图像均匀地分成数量相近的多个图像子集,随后采用人脸检测方法检测每个图像子集中的人脸图像,并提取人脸特征;
步骤2,利用层次采样并行AP聚类算法并行地将步骤1所得人脸图像集分配到聚类中心;
步骤3,找到步骤2聚类中心中每个人脸图像相应的新闻字幕,使用命名实体识别方法检测新闻字幕中的候选人名,手动合并同一个人的不同人名书写方式;
步骤4,统计步骤3检测到的候选人名以及所有候选人名在整个新闻数据集上的出现次数,依照降序进行排序,随后对候选人名进行标记;
步骤5,利用Max-ED方法和IMax-ED方法进行人脸标注。
本发明的特征还在在于,
步骤1中,人脸检测方法为主动形状模型法。
步骤1中,人脸特征为局部Gabor二值模式直方图序列(Local GaborBinary Pattern Histogram Sequence,LGBPHS),具体提取特征过程为:(1)人脸图像归一化;(2)分别使用多个不同方向、不同尺度的Gabor滤波器与归一化图像进行卷积,取卷积结果的幅值部分,即Gabor幅值图谱(GaborMagnitude Pictures,GMP);(3)LBP将每幅Gabor幅值图谱转换为局部Gabor二值模式图谱(Local Gabor BinaryPattern,LGBP);(4)将每个局部Gabor二值模式图谱分成指定大小的非重叠矩形块,并计算每块的直方图;(5)融合所有局部Gabor二值模式图谱的直方图串接为一个直方图序列,作为人脸图像的特征描述。
步骤2的具体步骤为:
步骤2.1:计算每个新闻图像子集中人脸图像数据点的相似度,同时并行运行AP聚类,生成各自的聚类中心,数据点相似度计算公式:
sim i j = s q r t ( Σ k = 1 K ( image i k - image j k ) 2 ) , i = 1 , 2 , 3... N n u m ; j = 1 , 2 , 3... N n u m ; - - - ( 1 )
其中,simij是图像ith和图像jth的相似度,imageik/imagejk是图像ith/jth的第kth个特征,Nnum是人脸图像集的总数目,K是特征维数;
步骤2.2:融合每个数据子集的聚类中心,并随机在每个聚类中挑选多个样本,共同形成一组新的数据,同样依据公式(1)计算新数据所有点的相似度,再次使用AP聚类得到最终的聚类中心;
步骤2.3:对于人脸图像,依照公式(1)计算其与所有聚类中心的相似度,将其划归到相似度最大的聚类中心。
步骤4中,具体标记过程为:
每一个人脸图像对应一个包,与人脸图像对应的人名列表为包中的示例,将出现次数最多的候选人名标记为Max-name,如果包中包含Max-name,则标注包为正包,Max-name为正示例,其余人名皆为反示例,反之,标注包为反包,所有人名皆为反示例。
步骤5中,人脸标注的具体过程为:
对于假设空间h=(μ,σ)中的正包和反包,其中,μ是概念点的坐标,σ是不同特征的权重,采用不同的方法将包标签的概率转换为示例标签的概率:
步骤5.1:依据公式(2)计算标记包为正包的概率:
P ( + | B i , h ) = 1 Z i P ( + | B ij m a x , h ) λ i Π k ≠ j max P ( - | B i k , h ) - - - ( 2 )
其中,P(+|Bi,h)是包Bi标为正包的概率,Zi是归一化参数,λi=ni-1(ni是包Bi中的示例数目),是正示例Max-name标记为Bijmax的概率,P(-|Bik,h)是其余示例Bik为反示例的概率;
同理,依据公式(3)计算标记包为反包的概率:
P ( - | B i , h ) = 1 Z i Π j P ( - | B i j , h ) - - - ( 3 )
其中,Zi是归一化参数,P(-|Bi,h)是包Bi标为反包的概率,P(-|Bij,h)是示例Bij为反示例的概率;
依据概率和为1的条件,则依据公式(4)计算Zi:
Z i = P ( + | B ij max , h ) λ i Π k ≠ j max P ( - | B i k , h ) + Π j P ( - | B i j , h ) - - - ( 4 )
其中,Zi是归一化参数,λi=ni-1(ni是包Bi中的示例数目),是正示例Max-name标记为的概率,P(-|Bik,h)是其余示例Bik为反示例的概率,P(-|Bij,h)是示例Bij为反示例的概率;
P(+|Bij,h)与每个示例和假设空间h的距离负相关,则计算公式如下:
P ( + | B i j , h ) = exp ( - ( B i j - μ ) 2 2 σ 2 ) - - - ( 5 )
P(-|Bij,h)=1-P(+|Bij,h)
其中,P(+|Bij,h)是示例Bij为正示例的概率,P(-|Bij,h)是示例Bij为反示例的概率,μ是概念点的坐标,σ是不同特征的权重。
则根据Bayes理论,依据公式(6)计算假设空间hED
h E D = arg m a x h ∈ H Π i P ( l i | B i , h )
h E D = arg m a x h ∈ H Π ∀ i : l i = 1 P ( + | B i , h ) Π ∀ i : l i = 0 P ( - | B i , h ) - - - ( 6 )
其中,hED是最优假设空间,P(li|Bi,h)是包Bi标签的概率,li是包Bi的标签,P(+|Bi,h)是包Bi为正包的概率,P(-|Bi,h)是包Bi为反包的概率。
步骤5.2:依据Max-name原则,挑选每个正包中的正示例,并将这些正示例作为初始点,依据公式(6)通过梯度下降法求解最优的假设空间hED
步骤5.3:利用步骤5.2所得假设空间hED及公式(7)更新示例:
其中,p(+|xik,h)指正包中示例xik的概率,yij是示例xik的标签;
设置最大迭代参数,或者设置参数ε,θ=ht+1(μ,σ)-ht(μ,σ),如果θ>ε,t=t+1,重复步骤5.1和5.2;反之θ<ε,hED=ht+1(μ,σ);上述条件循环,至最大迭代次数终止运算,得最优假设空间hED
步骤5.4:利用最优假设空间hED和公式(7)实现人脸标注。
本发明的有益效果是,针对新闻人脸图像与多个人名的一对多关系(即人脸标注)的优化问题,本发明将ED和Iter-ED视频人脸标注方法引入新闻图像人脸标注领域,并改进了正/反包分配方法,在降低虚假正包对标注影响的基础上,提出了基于改进Max-ED和IMax-ED的人脸标注新方法。
附图说明
图1为本发明基于多示例学习进行新闻图像中人脸标注的方法中层次采样并行AP聚类算法的流程图;
图2为本发明基于多示例学习进行新闻图像中人脸标注的方法中IMax-ED方法框图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于多示例学习进行新闻图像中人脸标注的方法,针对新闻人脸图像与多个人名的一对多关系(即人脸标注)的优化问题,将ED和Iter-ED视频人脸标注方法引入新闻图像人脸标注领域,并改进了正/反包分配方法,在降低虚假正包对标注影响的基础上,提出了基于改进Max-ED和IMax-ED的人脸标注新方法,包括示例生成、标注正反包及正反示例、Max-ED方法和IMax-ED方法和人脸标注,具体按照以下步骤实施:
步骤1,将所有新闻图像编号,依据编号从小到大将图像均匀地分成数量相近的多个图像子集,随后采用主动形状模型法检测每个图像子集中的人脸图像,并提取人脸特征;提取人脸特征具体步骤为:(1)人脸图像归一化;(2)分别使用多个不同方向、不同尺度的Gabor滤波器与归一化图像进行卷积,取卷积结果的幅值部分,即Gabor幅值图谱(Gabor Magnitude Pictures,GMP);(3)LBP将每幅Gabor幅值图谱转换为局部Gabor二值模式图谱(Local Gabor BinaryPattern,LGBP);(4)将每个局部Gabor二值模式图谱分成指定大小的非重叠矩形块,并计算每块的直方图;(5)融合所有局部Gabor二值模式图谱的直方图串接为一个直方图序列,作为人脸图像的特征描述。
步骤2,利用层次采样并行AP聚类算法并行地将步骤1所得人脸图像集分配到聚类中心,其流程如图1所示,具体步骤为:
步骤2.1:计算每个新闻图像子集中人脸图像数据点的相似度,同时并行运行AP聚类,生成各自的聚类中心,数据点相似度计算公式:
sim i j = s q r t ( Σ k = 1 K ( image i k - image j k ) 2 ) , i = 1 , 2 , 3... N n u m ; j = 1 , 2 , 3... N n u m ; - - - ( 1 )
其中,simij是图像ith和图像jth的相似度,imageik/imagejk是图像ith/jth的第kth个特征,Nnum是人脸图像集的总数目,K是特征维数;
步骤2.2:融合每个数据子集的聚类中心,并随机在每个聚类中挑选多个样本,共同形成一组新的数据,同样依据公式(1)计算新数据所有点的相似度,再次使用AP聚类得到最终的聚类中心;
步骤2.3:对于人脸图像,依照公式(1)计算其与所有聚类中心的相似度,将其划归到相似度最大的聚类中心。
步骤3,找到步骤2聚类中心中每个人脸图像相应的新闻字幕,使用命名实体识别方法检测新闻字幕中的候选人名,手动合并同一个人的不同人名书写方式;
步骤4,统计步骤3检测到的候选人名以及所有候选人名在整个新闻数据集上的出现次数,依照降序进行排序,随后对候选人名进行标记,具体过程为:多示例学习中的包是指新闻图像中检测到的人脸图像,包的标签是新闻字幕中检测的人名列表。在每个包中,每幅人脸图像都有一个人名列表与之对应,人名列表中的每个人名即包中的示例。针对包中的人名,提取其特征信息。本发明使用的特征信息如下:(1)人名位置:人名在新闻字幕中出现的位置。(2)人名相对位置:同一新闻字幕中,人名在人名列表中的位置,即人名与其他人名的相对位置。(3)语句相对位置:人名所在语句在新闻字幕的所有语句的相对位置。(4)位置描述:新闻字幕中描述人名的人脸图像出现在新闻图像中的位置描述,比如“左”,“中”,“右”等。
每一个人脸图像对应一个包,与人脸图像对应的人名列表为包中的示例,将出现次数最多的候选人名标记为Max-name,如果包中包含Max-name,则标注包为正包,Max-name为正示例,其余人名皆为反示例,反之,标注包为反包,所有人名皆为反示例。
步骤5,在e-MIL问题中,一个正包包含唯一的正示例,则该包被标记为正包的概率取决于包中一个示例生成正标签同时其他示例生成反标签的概率,利用Max-ED方法和IMax-ED方法进行人脸标注:对于假设空间h=(μ,σ)中的正包和反包,其中,μ是概念点的坐标,σ是不同特征的权重,采用不同的方法将包标签的概率转换为示例标签的概率:
步骤5.1:对于正包,Max-name的标签为1,其余人名标签为0,对于反包,所有人名标签为0,依据公式(2)计算标记包为正包的概率:
P ( + | B i , h ) = 1 Z i P ( + | B ij m a x , h ) λ i Π k ≠ j max P ( - | B i k , h ) - - - ( 2 )
其中,P(+|Bi,h)是包Bi标为正包的概率,Zi是归一化参数,λi=ni-1(ni是包Bi中的示例数目),是正示例Max-name标记为的概率,P(-|Bik,h)是其余示例Bik为反示例的概率;
同理,依据公式(3)计算标记包为反包的概率:
P ( - | B i , h ) = 1 Z i Π j P ( - | B i j , h ) - - - ( 3 )
其中,Zi是归一化参数,P(-|Bi,h)是包Bi标为反包的概率,P(-|Bij,h)是示例Bij为反示例的概率;
依据概率和为1的条件,则依据公式(4)计算Zi:
Z i = P ( + | B ij max , h ) λ i Π k ≠ j max P ( - | B i k , h ) + Π j P ( - | B i j , h ) - - - ( 4 )
其中,Zi是归一化参数,λi=ni-1(ni是包Bi中的示例数目),是正示例Max-name标记为的概率,P(-|Bik,h)是其余示例Bik为反示例的概率,P(-|Bij,h)是示例Bij为反示例的概率;
P(+|Bij,h)与每个示例和假设空间h的距离负相关,则计算公式如下:
P ( + | B i j , h ) = exp ( - ( B i j - μ ) 2 2 σ 2 )
P(-|Bij,h)=1-P(+|Bij,h) (5)
其中,P(+|Bij,h)是示例Bij为正示例的概率,P(-|Bij,h)是示例Bij为反示例的概率,μ是概念点的坐标,σ是不同特征的权重。
则根据Bayes理论,依据公式(6)计算假设空间hED
h E D = arg m a x h ∈ H Π i P ( l i | B i , h )
h E D = arg m a x h ∈ H Π ∀ i : l i = 1 P ( + | B i , h ) Π ∀ i : l i = 0 P ( - | B i , h ) - - - ( 6 )
其中,hED是最优假设空间,P(li|Bi,h)是包Bi标签的概率,li是包Bi的标签,P(+|Bi,h)是包Bi为正包的概率,P(-|Bi,h)是包Bi为反包的概率。
步骤5.2:由于光照条件、多种表情、多种姿态、部分遮挡等因素的影响,以及聚类算法本身固有的缺陷,使得同一类的人脸图像不能完全属于某一个人。例如,当奥巴马的人名出现在新闻字幕中,而他的人脸图像没有同时出现在相应的新闻图像中,此时,如果该新闻图像中某个人脸图像被聚类到奥巴马的人脸图像类中,依据本发明标识正包的原则,则该包标识为正包,事实上,该包应该标识为反包。在本发明中,该类包被称为虚假正包。在虚假正包中,依据原始DD算法的定义,P(h|Bi +)将非常小甚至为0。计算ED(h)时,使用联合概率将极大的影响了Max-ED算法的性能。为了避免虚假正包的影响,本发明进一步提出迭代Max-ED(Iterative Max Exclusive Density,IMax-ED)算法:
依据Max-name原则,挑选每个正包中的正示例,并将这些正示例作为初始点,依据公式(6)通过梯度下降法求解最优的假设空间hED
步骤5.3:对于正包,Max-name的标签为1,其余人名标签为0,对于反包,所有人名标签为0,利用步骤5.2所得假设空间hED及公式(7)更新示例:
其中,p(+|xik,h)指正包中示例xik的概率,yij是示例xik的标签;
设置最大迭代参数,或者设置参数ε,θ=ht+1(μ,σ)-ht(μ,σ),如果θ>ε,t=t+1,重复步骤5.1和5.2;反之θ<ε,hED=ht+1(μ,σ);上述条件循环,至最大迭代次数终止运算,得最优假设空间hED
步骤5.4:利用最优假设空间hED和公式(7)实现人脸标注。
实施例
步骤1:FAN-Large数据集总共包含125479条新闻名人图像,则图像编号为1到125479,则编号1-1000为第一组图像,依次编号1001-2000为第二组图像,其他以此类推。则整个新闻图像集被划分为126组新闻图像子集,其中每个新闻图像子集大约包含1000幅新闻名人图像。接下来,采用主动形状模型(ASM,Active shape mode)方法定位图像集中的人脸特征点(眉毛、眼睛、鼻子、嘴巴等),总共68个点。最后,提取特征:(1)人脸图像统一归一化到80*60像素(左右外眼角像素统一归一化到50个像素);(2)分别使用40个不同方向、不同尺度的Gabor滤波器与归一化图像进行卷积,取卷积结果的幅值部分,即Gabor幅值图谱(Gabor Magnitude Pictures,GMP);(3)LBP将每幅Gabor幅值图谱转换为局部Gabor二值模式图谱(Local GaborBinaryPattern,LGBP);(4)将每个局部Gabor二值模式图谱分成9块区域的非重叠矩形块,并计算每块的直方图;(5)融合所有局部Gabor二值模式图谱的直方图串接为一个直方图序列,得到3600维特征。
步骤2:(1)针对步骤1得到的126组新闻图像子集,根据公式(1)计算每个数据子集内数据点的相似度,同时并行运行AP聚类,生成各自的聚类中心共360个。(2)融合每个数据子集的聚类中心,并随机在每个聚类中挑选10个样本,共同形成一组新的数据,根据公式(1)计算新数据所有点的相似度,再次使用AP聚类得到最终的聚类中心101个。(3)对于人脸图像,依据公式(1)计算其与所有聚类中心的相似度,将其划归到相似度最大的聚类中心去。
步骤3:找到步骤2聚类中心中每个人脸图像对应的新闻字幕。接下来,使用命名实体识别方法检测新闻字幕中的候选人名,并且手动合并同一个人的不同人名书写方式。
步骤4:统计步骤3检测到的候选人名,计算所有候选人名在整个新闻数据集上的出现次数,依照降序进行排序。并将出现次数最多的候选人名标记为Max-name,如果包中包含Max-name,则标注包为正包,Max-name为正示例,其余人名皆为反示例,反之,标注包为反包,所有人名皆为反示例。
步骤5:利用Max-ED方法和IMax-ED方法进行人脸标注。人脸标注的具体过程为:
Max-ED方法:
初始化示例标签:对于正包,Max-name的标签为1,其余人名标签为0,对于反包,所有人名标签为0。
步骤5.1:如果包中包含Max-name,则依据公式(2)计算标记为正包的概率,相反,则依据公式(3)计算标记为反包的概率。
步骤5.2:依据Max-name原则,挑选每个正包中的正示例,并将这些正示例作为初始点,依据公式(6)通过梯度下降法求解最优的假设空间hED
IMax-ED方法,流程如图2所示:
初始化示例标签:对于正包,Max-name的标签为1,其余人名标签为0。对于反包,所有人名标签为0;
步骤5.3:利用步骤5.2所得假设空间hED及公式(7)更新示例,设置最大迭代参数为1000,或者设置参数ε=0.01,如果θ>ε,t=t+1,重复步骤5.1和5.2;反之θ<ε,hED=ht+1(μ,σ)。上述条件循环,至最大迭代次数终止运算。最终得到最优假设空间hED
步骤5.4:使用最优假设空间hED和(7)实现人脸标注。
本发明提出了基于改进Max-ED和IMax-ED的人脸标注新算法。针对手工标注新闻图像中正负包,耗时耗力,本发明通过将ED和Iter-ED视频人脸标注算法引入新闻图像人物标注领域,并改进了正/反包分配方法,在降低虚假正包对标注影响的基础上,提出了改进的Max-ED和IMax-ED人脸标注新算法。利用FAN-Large数据集的实验结果表明,新闻图像人脸的正确识别率提高了42.4%。

Claims (6)

1.基于多示例学习进行新闻图像中人脸标注的方法,其特征在于,具体按照以下步骤实施:
步骤1,将所有新闻图像编号,依据编号从小到大将图像均匀地分成数量相近的多个图像子集,随后采用人脸检测方法检测每个图像子集中的人脸图像,并提取人脸特征;
步骤2,利用层次采样并行AP聚类算法并行地将步骤1所得人脸图像集分配到聚类中心;
步骤3,找到步骤2聚类中心中每个人脸图像相应的新闻字幕,使用命名实体识别方法检测新闻字幕中的候选人名,手动合并同一个人的不同人名书写方式;
步骤4,统计步骤3检测到的候选人名以及所有候选人名在整个新闻数据集上的出现次数,依照降序进行排序,随后对候选人名进行标记;
步骤5,利用Max-ED方法和IMax-ED方法进行人脸标注。
2.根据权利要求1所述的基于多示例学习进行新闻图像中人脸标注的方法,其特征在于,步骤1中,人脸检测方法为主动形状模型法。
3.根据权利要求1所述的基于多示例学习进行新闻图像中人脸标注的方法,其特征在于,步骤1中,人脸特征为局部Gabor二值模式直方图序列,具体提取特征步骤为:a.人脸图像归一化;b.分别使用多个不同方向、不同尺度的Gabor滤波器与归一化图像进行卷积,取卷积结果的幅值部分,即Gabor幅值图谱;c.LBP将每幅Gabor幅值图谱转换为局部Gabor二值模式图谱;d.将每个局部Gabor二值模式图谱分成指定大小的非重叠矩形块,并计算每块的直方图;e.融合所有局部Gabor二值模式图谱的直方图串接为一个直方图序列,作为人脸图像的特征描述。
4.根据权利要求1所述的基于多示例学习进行新闻图像中人脸标注的方法,其特征在于,步骤2的具体步骤为:
步骤2.1:计算每个新闻图像子集中人脸图像数据点的相似度,同时并行运行AP聚类,生成各自的聚类中心,数据点相似度计算公式:
sim i j = s q r t ( Σ k = 1 K ( image i k - image j k ) 2 ) , i = 1 , 2 , 3 ... N n u m ; j = 1 , 2 , 3 ... N n u m ; - - - ( 1 )
其中,simij是图像ith和图像jth的相似度,imageik/imagejk是图像ith/jth的第kth个特征,Nnum是人脸图像集的总数目,K是特征维数;
步骤2.2:融合每个数据子集的聚类中心,并随机在每个聚类中挑选多个样本,共同形成一组新的数据,同样依据公式(1)计算新数据所有点的相似度,再次使用AP聚类得到最终的聚类中心;
步骤2.3:对于人脸图像,依照公式(1)计算其与所有聚类中心的相似度,将其划归到相似度最大的聚类中心。
5.根据权利要求1所述的基于多示例学习进行新闻图像中人脸标注的方法,其特征在于,步骤4中,具体标记过程为:
每一个人脸图像对应一个包,与人脸图像对应的人名列表为包中的示例,将出现次数最多的候选人名标记为Max-name,如果包中包含Max-name,则标注包为正包,Max-name为正示例,其余人名皆为反示例,反之,标注包为反包,所有人名皆为反示例。
6.根据权利要求1所述的基于多示例学习进行新闻图像中人脸标注的方法,其特征在于,步骤5中,人脸标注的具体过程为:
对于假设空间h=(μ,σ)中的正包和反包,其中,μ是概念点的坐标,σ是不同特征的权重,采用不同的方法将包标签的概率转换为示例标签的概率:
步骤5.1:依据公式(2)计算标记包为正包的概率:
P ( + | B i , h ) = 1 Z i P ( + | B ij m a x , h ) λ i Π k ≠ j max P ( - | B i k , h ) - - - ( 2 )
其中,P(+|Bi,h)是包Bi标为正包的概率,Zi是归一化参数,λi=ni-1(ni是包Bi中的示例数目),是正示例Max-name标记为的概率,P(-|Bik,h)是其余示例Bik为反示例的概率;
同理,依据公式(3)计算标记包为反包的概率:
P ( - | B i , h ) = 1 Z i Π j P ( - | B i j , h ) - - - ( 3 )
其中,Zi是归一化参数,P(-|Bi,h)是包Bi标为反包的概率,P(-|Bij,h)是示例Bij为反示例的概率;
依据概率和为1的条件,则依据公式(4)计算Zi:
Z i = P ( + | B ij max , h ) λ i Π k ≠ j max P ( - | B i k , h ) + Π j P ( - | B i j , h ) - - - ( 4 )
其中,Zi是归一化参数,λi=ni-1(ni是包Bi中的示例数目),是正示例Max-name标记为的概率,P(-|Bik,h)是其余示例Bik为反示例的概率,P(-|Bij,h)是示例Bij为反示例的概率;
P(+|Bij,h)与每个示例和假设空间h的距离负相关,则计算公式如下:
P ( + | B i j , h ) = exp ( - ( B i j - μ ) 2 2 σ 2 )
P(-|Bij,h)=1-P(+|Bij,h) (5)
其中,P(+|Bij,h)是示例Bij为正示例的概率,P(-|Bij,h)是示例Bij为反示例的概率,μ是概念点的坐标,σ是不同特征的权重;
则根据Bayes理论,依据公式(6)计算假设空间hED
h E D = arg m a x h ∈ H Π i P ( l i | B i , h )
h E D = arg m a x h ∈ H Π ∀ i : l i = 1 P ( + | B i , h ) Π ∀ i : l i = 0 P ( - | B i , h ) - - - ( 6 )
其中,hED是最优假设空间,P(li|Bi,h)是包Bi标签的概率,li是包Bi的标签,P(+|Bi,h)是包Bi为正包的概率,P(-|Bi,h)是包Bi为反包的概率;
步骤5.2:依据Max-name原则,挑选每个正包中的正示例,并将这些正示例作为初始点,依据公式(6)通过梯度下降法求解最优的假设空间hED
步骤5.3:利用步骤5.2所得假设空间hED及公式(7)更新示例:
其中,p(+|xik,h)指正包中示例xik的概率,yij是示例xik的标签;
设置最大迭代参数,或者设置参数ε,θ=ht+1(μ,σ)-ht(μ,σ),如果θ>ε,t=t+1,重复步骤5.1和5.2;反之θ<ε,hED=ht+1(μ,σ);上述条件循环,至最大迭代次数终止运算,得最优假设空间hED
步骤5.4:利用最优假设空间hED和公式(7)实现人脸标注。
CN201610298506.4A 2016-05-06 2016-05-06 基于多示例学习进行新闻图像中人脸标注的方法 Expired - Fee Related CN105956563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610298506.4A CN105956563B (zh) 2016-05-06 2016-05-06 基于多示例学习进行新闻图像中人脸标注的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610298506.4A CN105956563B (zh) 2016-05-06 2016-05-06 基于多示例学习进行新闻图像中人脸标注的方法

Publications (2)

Publication Number Publication Date
CN105956563A true CN105956563A (zh) 2016-09-21
CN105956563B CN105956563B (zh) 2019-04-16

Family

ID=56915106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610298506.4A Expired - Fee Related CN105956563B (zh) 2016-05-06 2016-05-06 基于多示例学习进行新闻图像中人脸标注的方法

Country Status (1)

Country Link
CN (1) CN105956563B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991400A (zh) * 2017-04-05 2017-07-28 北京中燕信息技术有限公司 一种火灾烟雾检测方法及装置
CN107563418A (zh) * 2017-08-19 2018-01-09 四川大学 一种基于区域敏感得分图谱及多实例学习的图片属性探测方法
CN109299650A (zh) * 2018-07-27 2019-02-01 东南大学 基于视频的非线性在线表情预检测方法及装置
CN112084812A (zh) * 2019-06-12 2020-12-15 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217225A (zh) * 2014-09-02 2014-12-17 中国科学院自动化研究所 一种视觉目标检测与标注方法
CN105069774A (zh) * 2015-06-30 2015-11-18 长安大学 基于多示例学习与图割优化的目标分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217225A (zh) * 2014-09-02 2014-12-17 中国科学院自动化研究所 一种视觉目标检测与标注方法
CN105069774A (zh) * 2015-06-30 2015-11-18 长安大学 基于多示例学习与图割优化的目标分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN YANG,ET AL.: "Multiple instance Learning for Labeling Faces in Broadcasting News Video", 《MULTIMEDIA ’05 PROCEEDINGS OF THE 13TH ANNUAL ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
XUEPING SU,ET AL.: "Labeling faces with names based on the name semantic network", 《MULTIMED TOOLS APPL》 *
苏雪平,等.: "新闻图像中重要任务的自动标志", 《计算机辅助设计与图形学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991400A (zh) * 2017-04-05 2017-07-28 北京中燕信息技术有限公司 一种火灾烟雾检测方法及装置
CN107563418A (zh) * 2017-08-19 2018-01-09 四川大学 一种基于区域敏感得分图谱及多实例学习的图片属性探测方法
CN109299650A (zh) * 2018-07-27 2019-02-01 东南大学 基于视频的非线性在线表情预检测方法及装置
CN109299650B (zh) * 2018-07-27 2021-09-07 东南大学 基于视频的非线性在线表情预检测方法及装置
CN112084812A (zh) * 2019-06-12 2020-12-15 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN112084812B (zh) * 2019-06-12 2023-08-01 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN105956563B (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
CN105095856B (zh) 基于掩模的有遮挡人脸识别方法
CN107316007B (zh) 一种基于深度学习的监控图像多类物体检测与识别方法
CN102156871B (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN111046886B (zh) 号码牌自动识别方法、装置、设备及计算机可读存储介质
CN105069481B (zh) 基于空间金字塔稀疏编码的自然场景多标记分类方法
CN105608454B (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN109410184B (zh) 基于稠密对抗网络半监督学习的直播色情图像检测方法
CN110503054B (zh) 文本图像的处理方法及装置
CN109033944B (zh) 一种全天空极光图像分类与关键局部结构定位方法及系统
CN103544504B (zh) 一种基于多尺度图匹配核的场景字符识别方法
CN104376326A (zh) 一种用于图像场景识别的特征提取方法
CN105046197A (zh) 基于聚类的多模板行人检测方法
CN103366160A (zh) 融合肤色、人脸和敏感部位检测的不良图像判别方法
CN105956563A (zh) 基于多示例学习进行新闻图像中人脸标注的方法
CN110599463B (zh) 一种基于轻量级联神经网络的舌像检测及定位算法
JP2022027473A5 (zh)
CN112183438B (zh) 基于小样本学习神经网络的违规行为的图像识别方法
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN109919060A (zh) 一种基于特征匹配的身份证内容识别系统及方法
CN108764302A (zh) 一种基于颜色特征和词袋特征的票据图像分类方法
CN103279742A (zh) 一种基于多任务模型的多分辨率行人检测方法及其装置
CN104200218B (zh) 一种基于时序信息的跨视角动作识别方法及系统
Meng et al. An extended HOG model: SCHOG for human hand detection
CN110287970B (zh) 一种基于cam与掩盖的弱监督物体定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190416

Termination date: 20200506

CF01 Termination of patent right due to non-payment of annual fee