CN102629275A - 面向跨媒体新闻检索的人脸-人名对齐方法及系统 - Google Patents

面向跨媒体新闻检索的人脸-人名对齐方法及系统 Download PDF

Info

Publication number
CN102629275A
CN102629275A CN2012100760890A CN201210076089A CN102629275A CN 102629275 A CN102629275 A CN 102629275A CN 2012100760890 A CN2012100760890 A CN 2012100760890A CN 201210076089 A CN201210076089 A CN 201210076089A CN 102629275 A CN102629275 A CN 102629275A
Authority
CN
China
Prior art keywords
name
face
image
text
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100760890A
Other languages
English (en)
Other versions
CN102629275B (zh
Inventor
张玥杰
吴伟
金城
薛向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201210076089.0A priority Critical patent/CN102629275B/zh
Publication of CN102629275A publication Critical patent/CN102629275A/zh
Application granted granted Critical
Publication of CN102629275B publication Critical patent/CN102629275B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于跨媒体信息检索技术领域,具体为跨媒体新闻检索中基于图像特征和文本语义的人脸-人名对齐方法与系统。本发明包括四个主要算法:人名重要性评估算法、基于Web挖掘的多模态信息发现算法、人脸集内聚度度量算法和多模态对齐组合优化算法。本发明使用相关的图像特征和文本语义处理方法,同时建立相关数学模型,对新闻图像搜索进行优化,包括通过多级别深层次的文本语义分析,有效的人脸-人名对齐评估机制,具有问题针对性的组合优化。本发明对于在大规模且多样性新闻图像基础上,考虑图像高层语义信息而进行高效图像检索具有非常重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。

Description

面向跨媒体新闻检索的人脸 - 人名对齐方法及系统
技术领域
本发明属于跨媒体信息检索技术领域,具体涉及一种特定媒体——多模态新闻跨媒体检索方法及系统。
背景技术
随着网络的普及和图像设备的大众化,迅速增强的数字采集技术与存储交付能力导致在线和离线的图像数据呈爆炸性扩增,尤其是那些带有文本标注的新闻图像资源。正因为此类信息的来源越来越丰富,使得针对新闻图像资源实施更加有效的检索、组织和分析变得非常重要[1]
一方面,由于新闻图像及其对应的文本标注通常是以人为主题进行描述,因此这使得用户通过使用一个完善有效的检索系统来查询一个特定人的相关新闻图像成为更为紧迫的一种需求[2, 3]。而当前仅仅主要利用文本检索方式进行相应处理,即简单利用伴随新闻图像一同出现的文本标注信息与查询人名的字符匹配情况进行人脸图像返回,其所返回的检索结果中通常包含很多与该查询人名无关的人脸图像,其检索性能并不理想[4]。因此,为尽可能检索出关于某个特定人对应的正确新闻图像资源,有必要从文本语义级别深层次分析包含该特定检索人名的文本标注的语义信息,并融合与该文本标注相对应图像的视觉信息(特别是人脸视觉信息)来提高检索性能。
另一方面,由于此类多模态新闻图像信息已经越来越广泛地被应用到各种研究和工程中,利用具有明确语义信息的图像数据作为数据分析源及用于其它相关用途,因此很有必要将多模态信息所对应的底层视觉特征与高层语义特征相关联,挖掘出二者之间的相互关联关系。而当前主要通过人工标注的方式来定义和描述具有特定底层视觉特征的图像数据所对应的相关语义信息,但人工标注的方式需要耗费非常大的时间代价。同时,由于标注过程带有明显的人为主观性,可能在一定程度上导致视觉特征和语义特征之间的关联性并不是十分紧密。为更充分和高效地挖掘多模态新闻信息的底层视觉特征与高层语义特征之间的相互关联性,实现更为精确有效的跨模态人脸-人名对齐是一项十分有意义且具有挑战性的工作。
而跨模态人脸-人名对齐,即将图像中具有相同或相近语义的人脸和人名进行匹配,并非一项新的工作[5, 6, 7, 8]。传统上,将人脸和人名进行关联的处理主要考虑以下两种方式,即对图像标注采用面向原始文本信息的查询操作[9, 10, 11, 12, 13, 14],或者通过人脸检测工具对返回图像进行排序或过滤[15, 16, 17]。但仅仅通过简单的人名查询和图像标注匹配,很有可能产生许多错误结果。另一方面,当前大多数的人脸识别方法都仅仅应用在受限数据集中,而对于新闻图像而言,其中的人脸姿态和表情都有很大变化,还有低劣的图像分辨率和图像质量等原因,同时也没有足够可用和可信赖的训练集用于通过学习获得人脸分类器,这些诸多因素使得很难对新闻图像中的人脸获得令人满意的人脸识别性能和效果[18, 19, 20]
同时,当前越来越多的研究注意到当充分利用一种媒体中的信息时,将可能会对另一种媒体中的信息处理和分析十分有帮助,尤其是在同时考虑图像以及与它相关联的文本信息这两种媒体信息时。当文本信息(如图像对应的文本标注)伴随着视觉显示信息(如新闻图像)一同出现时,会对人脸与人名之间的关联性获取起到非常重要的作用。文本和图像信息两者之间的相互作用影响已成为跨模态人脸与人名对齐中的一个热点研究,在对齐过程中融合充分的文本分析将会对图像集的整体检索性能带来明显提升。
当前,对于跨模态人脸和人名对齐的研究越来越多地考虑将文本信息和图像信息相结合,以此来获得更好的检索与分析性能[20, 21, 22, 23]。近年来,有许多实例是利用那些伴随图像一起出现的文本信息来进行跨模态人脸和人名的对齐处理,从整体上可分为以下两种相关处理方式:
(1)首先,利用文本信息进行相关检索过程,然后直接从图像的视觉特征出发,进行人脸图像的分析与识别。即,首先通过文本检索方式得到一个特定人的人脸图像候选集,之后对当前候选集中的人脸图像进行相似性评估和度量。目前主要采用一种基于图的方法来获得当前人脸候选集的一个最紧密人脸图像子集,此子集中人脸图像之间互相更加相似紧密,所得到的这些人脸图像也就是所检索的当前特定人对应的人脸图像结果集合。
在此方法基础上,Ozkan等提出一种同时利用视觉和文本特征获得最紧密子图的方法来检索属于一个特定人的人脸图像[22]。该方法基于这样一种理念,即某个人的人脸图像经常会在新闻中随着他/她的人名一同出现,尽管其中伴随着属于其他人的人脸图像或一些由所使用的人脸检测方法错误检测所带来的一些非人脸图像。Guillaumin等考虑对带有文本标注的新闻图像数据集中的两种人脸命名情况,即查找属于一个特定人的人脸图像和对数据集中所有人脸图像分配指定人名[23]。他们首先利用初始的基于文本搜索的过程,将可能分配指定给一张人脸图像的人名限制在出现在文本标注中的人名集中,然后将分析人脸图像的视觉特征作为下一步处理。
(2)同时将文本特征信息和图像视觉信息相互结合,来共同完成人脸与人名的对齐过程。即,首先通过对人脸图像进行分析处理,生成人脸图像的判别空间,并以此得到一个基于人脸图像特征的视觉模型。然后,考虑文本中的上下文信息,利用此上下文信息构造一个文本分析模型。最后,将所得到的视觉模型和文本分析模型相结合,在以成对形式出现的人名和人脸基础上,用统计模型方法进行聚类,找出属于一个确定人名的所有人脸图像,将其进行正确命名。即,同时充分考虑一个人名在对应文本上下文中所具有的可视化概率情况下,寻找算法对人脸图像进行聚类分析,获得最终的人脸人名间的对齐结果。
在此方法基础上,Yang等提出一种通过探索各种线索的方法在广播新闻影片中寻找特定的人。这些线索包括出现在字幕中的人名、人脸信息、新闻主播画面与最重要字幕中的人名、及影片中人物出现的时序模式线索[13]。该任务通过利用视频中的脚本,视频结构及视觉特征等多模态信息来实现。Everingham等解决在电视或电影材料中自动标注出现人名的问题,并证明可通过同时结合视觉和文本这些多模态信息而获得较高精确率[21]。他们通过结合监督信息和互补的线索来将电视中的人名和人脸进行对齐。这些互补线索包括电视中的字幕、对事件的描述、及对当前正在讲话的人的识别。Pham等描述他们对新闻网站中所获得的图像和文本标注中存在的人脸和人名进行对齐的实验,所提出的将人脸和人名进行关联的方法在检索或挖掘多媒体资料中非常有价值,同时也利用视觉模型和文本模型之间的对称性进行详细的对称实验[7]。最重要的是,他们研究通过利用文本和视觉结构信息的通用方法来预测另一种模态信息中相对应实体的存在性。在这里,特别有必要提到由Berg等所进行的研究,主要通过核主成分分析方法(Kernel Principal Component Analysis, KPCA)和线性判别分析方法(Linear Discriminant Analysis, LDA)所得到一种简单的视觉模型和基于上下文所得到的语言模型进行结合[14, 17, 24]。在以成对形式出现的人名和人脸基础上,他们利用期望最大化(Expectation Maximization, EM)算法进行聚类,找出属于一个确定人名的所有人脸图像。在充分考虑一个人名在对应文本上下文中所具有的可视化概率情况下,他们对利用EM算法和最大似然估计(Maximum Estimation, ME)算法进行聚类的效果分别进行评估,并充分显示将视觉模型和语言模型结合起来会比仅用视觉模型产生更好的实验结果。
由以上分析可看出,当前已有的仅考虑人脸视觉特征或者同时结合文本特征与人脸视觉特征的人脸-人名对齐方法比较多,同时部分方法也已取得较好效果。然而,所有这些方法均仍未充分考虑以下四个方面所带来的影响:
(1)大多数现有的跨媒体对齐方法都将重点放在利用同一新闻图像中的每个人名与每张人脸之间的相互关联信息。然而,一幅新闻图像所对应的文本标注可能包含多个人名,而给定的新闻图像的文本标注中的一些人名可能不会在此图像中具有对应的人脸,这些人名只是作为图像的辅助描述。如果没有对人名重要性的足够分析,这些人名可能会形成对齐系统中的“噪声”信息,这些信息会降低人名与人脸之间的对齐准确性并带来二义性。尽管一些研究人员已考虑利用文本标注中的文本信息来度量人名在相应文本中的可视化概率,但只是简单地利用每个人名对应的上下文信息,这对有效和精准地评估人名的可视化概率远不足够。
(2)当前有关大多数查找特定人所对应人脸图像的研究,通常基于文本标注进行文本检索(如人名与标注进行字符串匹配)时返回检索人脸图像集。这些方法都是以一个先决条件为基础建立,即进行人名检索所返回的人脸图像集中包含属于当前检索人名的较多高度相似的人脸图像和少量属于其他人的人脸图像。但存在一种特殊情形,所返回的人脸集只包含少数几张甚至仅仅一张人脸图像,则不能满足之前的先决条件,即缺少足够可用来进行分析处理的多模态信息而无法很好地进行处理,也使得人脸-人名对齐过程在这种情况下变得受限和不可行。
(3)人脸与人名的对齐过程其实就是在满足一定的约束条件下,将人脸分别分配给相应的人名,增添到该人名所对应的检索人脸集中。每种全局分配对准都能获得该分配方式下所有人名各自所对应的检索人脸集。然后,从人脸视觉特征出发,通过评估检索人脸集中所有人脸之间内在的相似性,以此来衡量各个检索人脸集与其所对应人名之间的相关性。但是,属于同一个人的不同新闻人脸图像,由于光照强度、遮挡程度、人脸角度等诸多因素可能会存在很大不同。因此,仅通过直接度量这些人脸视觉特征之间的相似性,以此来衡量各检索人脸集的整体相关性并不足够。
(4)由于对整个数据集中的人脸和人名进行对齐不同于查找某个特定人所对应的人脸图像,归因于随着数据集的增大会使得所求解的问题变得愈加复杂。一些文本标注包含多个人名且一些图像包含多张人脸,随着数据集的不断扩大,对其中所有人脸和人名之间进行对齐而获得最优解则非常可能演变为属于NP难问题[25, 26, 27]。因此,当前大多数对于此问题的研究都更倾向于寻求一种近似于全局最优解的最佳近似解,通过一些基于概率统计模型的算法(如EM算法)来计算人脸与人名在各种对齐方式下的整体似然函数值,以此来尽可能地寻求到较好的近似解。然而,这些方法在其各自的迭代计算过程中,很有可能使求解过程陷入局部最优。虽然可通过将一些算法进行有效结合,在一定程度上避免求解过程陷入局部最优,但这将以更慢的求解收敛速度作为代价。因此,这些方法在很大程度上不能保证能够在比较满意的时间代价内,获得较为满意的最终解。
因此,非常有必要借鉴当前已有的相关成熟技术,同时从各方面考虑以上问题,更全面地分析与优化人脸-人名对齐方法。本发明基于上述思考,从局部到整体,设计一种新颖的技术框架(包括四个主要算法),使用相关的人脸特征处理及文本语义分析方法,结合具有问题针对性的组合优化算法,建立有效的人脸—人名对齐机制,进而对跨媒体新闻检索性能进行改进。
发明内容
本发明的目的在于提出一种跨媒体新闻检索中进行有效且准确的人脸与人名对齐的方法及系统,以提高跨媒体新闻检索性能。
本发明提出的人脸与人名对齐方法,采用一种新颖的整体框架,在大规模带有标注文本的新闻图像中,实现更加精确且有效的自动人脸-人名对齐。该框架将人脸-人名对齐作为一种双媒体语义映射的问题进行处理,在双媒体(人脸图像与人名)的语义表达之间建立相应的关联分布,通过评估这种双媒体语义表达之间的相似关联性,进而最终衡量人脸与人名各种对齐方式的相对好坏。本发明方法的具体步骤为:
(1) 图像与文本预处理(Preprocessing for Image and Text),针对原始新闻图像信息,进行人脸与人名的检测和提取,并对检测和提取出来的人脸图像进行预处理与相似性度量;
(2)人名重要性评估(Name Salience Identification),对新闻图像带有的文本标注进行多层次的文本分析,利用各个人名在对应文本标注中出现的频率、句法分析树中的深度、句法分析树中的广度遍历顺序三个要素,对从文本标注中检测提取出来的所有人名度量各自的相对重要性;
(3) 基于Web挖掘的多模态信息发现(Multimodal Information Discovery based on Web Mining),将一些在当前新闻图像集中出现仅一次或少数几次的人名作为查询文本,通过主流的图像搜索网站对其进行图像检索,并对所有的信息检索结果进行评估,衡量这些检索结果与当前查询人名的相关性,以此实现对这些特殊人名获得更为充分的附加多模态信息资源;
(4) 人脸集内聚度度量(Cohesion Measure for Face Set),在人脸与人名的对齐过程中,对任意一种全局对齐方式利用k近邻算法计算各个人名对应的人脸集中所有人脸的紧密度分值,以此获得各个人脸集的内聚度,进而对当前人脸-人名对齐方式进行有效评估;
(5) 多模态对齐组合优化(Multimodal Alignment Optimization),利用各人脸集的内聚度,设定全局目标函数,并按照人脸-人名对齐分配的处理机制,设立全局约束条件,建立整数规划模型,采用改进的自适应遗传算法进行问题求解,同时结合模拟退火算法,以此能够同时具有较好的全局解与局部解的寻优能力,进而最终能够更好的对人脸-人名对齐问题进行求解。
较之于当前已有的相关人脸-人名对齐方法而言,本发明所提出的方法在跨媒体新闻检索中存在两大优势,即相关性高、适用性强。其相关性高体现在一方面通过对新闻标注的深层次分析,能够很好的对文本标注中的各个人名进行相关性评估,评估哪些人名在相应的图像中具有对应人脸图像的可能性很低,进而将这些相关性比较低的人名进行过滤,从而使得相应的人脸图像与这些被过滤掉的人名不再具有关联。另一方面通过具体人脸图像和过滤后人名之间的对齐处理,能够将人脸图像和相关性评估过滤后文本中所保留的人名进行一一对齐,有效地将人名分配给实际属于该人的人脸图像,并在完成对齐过程后将未分配到对应人脸图像的人名进行再次过滤。这样便能够从多方面有效地保证对于任意查询人名的人脸图像检索结果,其中所包含的人脸图像与所查询人名能够具有较高相关性,而不像当前一般的人脸图像检索机制一样,让用户感觉到查询结果与查询人名十分不相关。而其适用性强体现在本发明所提出的人脸-人名对齐方法,比当前已有相关方法能够更好地适用于大规模和小规模的新闻图像数据信息。当前一些方法针对比较大规模和比较小规模的新闻图像数据,由于不能够很好地进行整体相关性分析与相关处理,从而使得用户所获得的反馈结果不是很理想。而本发明并不受数据量规模大小的限制,所提出的算法框架能够对这两种情况下的人脸与人名进行有效对齐,均能够取得较好效果。同时,本发明也能够很好地适用于常用人名和非常用人名的跨媒体新闻检索过程,利用网络信息挖掘模块,通过对当前主流的图像搜索网站关于这些非常用人名的图像检索结果,进行相关性分析以及排序,进而获得属于这些非常用人名的额外相关多模态信息资源。在非常用人名与相应人脸进行对齐的过程中,这些补充信息起到很好的辅助作用,进而能够使这些非常用人名的检索结果也具有比较理想的相关性。
相应于上述方法,本发明系统包括5个模块,其结构框架见图1所示。这5个模块分别是:(一)为图像和文本预处理模块;(二)为人名重要性评估模块;(三)为基于Web挖掘的多模态信息发现模块;(四)为人脸集内聚度度量模块;(五)为多模态对齐组合优化模块。其中,第二、第三、第四、第五的模块分别对应于本发明方法中步骤(2)、步骤(3)、步骤(4)、步骤(5)的四个算法:人名重要性评估算法,基于Web挖掘的多模态信息发现算法,人脸集内聚度度量算法,多模态对齐组合优化算法。其中人名重要性评估和基于Web挖掘的多模态信息发现这两个算法,用于在进行人脸-人名对齐过程之前,对人名进行有效的“预处理”,以及对数据集进行充分的补充。人脸集内聚度度量算法和多模态对齐组合优化这两个算法,用于对人脸-人名对齐方式的有效评估,进而完成最终的人脸-人名对齐。
下面详细介绍本发明在针对跨媒体新闻检索所进行的人脸-人名对齐的整体流程框架及四个核心算法。
1 )图像与文本预处理,针对初始的包含图像和文本的新闻图像数据,预处理的主要任务包括文本中人名的检测提取、图像中人脸的检测提取以及对所提取出的人脸进行特征表示和相似性度量。
首先,关于人名检测提取,先利用条件随机场在文本中对人名实体检测,然后分析文本中各个名词实体间的内在关联性及它们各自所表现出的文本字符特性来进一步验证各个名词实体是人名实体的可能性。其次,关于人脸检测提取,先把图像转为灰度图,再进行直方图均衡化以去除光照影响,然后利用Viola-Jones Detector进行人脸检测,利用其输出边框来提取出图像中存在的人脸。然后,关于人脸特征表示及相似性度量,先通过利用差分高斯滤波器弥补低频率的光照变化和抑制噪声,以此来对提取出的人脸进行归一化预处理,然后采用脸部特征点定位方法定位出人脸的9个脸部特征点(每只眼睛的左右角、嘴巴的左右角、鼻子的左右鼻孔以及鼻尖),并额外增添4个脸部特征点(两只眼睛的各自中心、嘴巴的中心、两只眼睛之间的中点)来更大程度上覆盖整个人脸区间。最后,从归一化处理后的人脸中分别为这13个脸部特征点在同一尺度中计算Sift算子,最终将每张人脸表示为13*128=1,664维的特征向量,并利用两张人脸对应的13个人脸特征点的Sift算子间的平均欧式距离作为此两张人脸在该特征空间下的距离度量方式。
2 )人名重要性评估,文本标注中各人名的相对重要性,反映各人名在所属文本相对应的图像中,是否具有属于该人人脸图像的可能性,可通过对文本进行多层次文本分析来对人名重要性进行评估。
首先,同一个人名在文本标注中出现的次数越多,则说明与该文本相对应的新闻图像具有更大可能性来描述该人,则该人具有更大的可能性在图像中具有自己的人脸图像。其次,对于一段文本而言,其语义结构一般都象征着文本中所包含的语义信息分布。在大多数情况下,一个名词在句法分析树中的深度越浅,则该名词在句法分析树中的语义重要性更大。因此,通过句法分析树来分析文本中各个人名名词的相对重要性,计算各个人名名词在句法分析树中的深度,进而用以衡量各个人名名词的可视化概率。最后,因为对于已经构造句法分析树中的同一层结点,越优先被遍历的结点,则相对于同一层中的其他结点一般也更为重要。例如,一个句子中主语的重要性一般都比宾语的重要性更大,而该主语和谓语分别位于同一个父亲结点的左边和右边,进行广度优先遍历时,位于左边的主语将更早被访问。因此,将各人名出现次数、位于句法分析树中的深度及遍历顺序作为三个要素,分别设置相应权值,建立整体评估函数,进而能够有效和直接地评估各个人名在相应文本中的相对重要性。
3 )基于 Web 挖掘的多模态信息发现,对于在新闻图像数据中仅出现少数几次甚至一次的人名而言,与这些人名相关的多模态信息(图像和文本)则非常少。而随着用于描述具体人的网络新闻图像资源的不断扩大,并且这些网络新闻图像也大都带有超文本标注,所以这些网络信息成为可用知识库,能够带来更多更完全的多模态信息。首先,拟通过自制网络爬虫,将这些人名作为查询人名,通过谷歌、雅虎等图像搜索引擎自动检索相应的图像信息及文本信息,动态获得与这些人名的多模态信息。其次,对这些初步获得的人脸图像及标注文本,利用人名重要性评估算法来评估查询人名与这些多模态信息之间的相关性,最终保留较为相关的人脸图像及文本信息。
4 )人脸集内聚度度量,在人脸-人名对齐过程中,对于任意一种全局对齐方式,都会得到各个人名所对应的对齐关联人脸集。由于不同条件下属于同一个人的人脸图像在特征空间中会相对更紧密,因此拟对于已经特征表示的人脸图像,在各个人脸集中计算其每张人脸的k近邻兄弟,利用人脸与其k近邻兄弟的平均相似性,获得每张人脸位于当前人脸集中的紧密度分值。紧密度分值越大,则说明人脸与该人脸集对应人名的相关性越大。任一人脸集中所有人脸的紧密度分值之和越大,则说明该人脸集中的人脸图像之间越为关联,也即该人脸集的内聚程度越大。由此,可对当前各个人脸集的内聚度进行度量,进而有效衡量当前全局对齐方式的好坏。
5 )多模态对齐组合优化,人脸-人名的对齐问题实际上就是一种组合匹配问题,可根据问题的本身特点来分析其全局关联性及局部限制性,利用人脸集内聚度度量算法设立全局目标函数,并制定该问题所需要满足的各种约束条件,建立一种整数规划模型,从组合优化的角度出发将对齐问题最终转化为具有特定结构特点的整数规划问题。最后,采用改进的自适应模拟退火遗传算法,有效地对该整数规划问题进行求解,获得较优的最终解,进而有效完成人脸-人名对齐过程。
附图说明
图1为基于图像特征和文本语义的人脸-人名对齐方法的流程图示。
图2为人名重要性评估算法示例。
图3为人脸-人名对齐算法最终效果示例。
具体实施方式
(一)人名重要性评估算法
人名重要性评估算法的创意基于以下设想:在新闻图像对应的文本标注中,并非所有人名都同样重要,每个人名的重要性程度相对不同。在一般情况下,对于重要性更高的人名,其相对应的人脸图像则具有较高的可能性出现在该文本相关的新闻图像中。此外,一些出现在文本标注中的人名,在相应的新闻图像中可能没有相对应的人脸。因此,非常有必要在同一文本标注中,为该文本所包含的每个人名评估各自的重要性程度,以此来判断哪些人名更有可能是与其相对应的人脸图像一同出现。作为新闻图像的唯一补充文本信息,该有限文本标注需要通过多层次分析,才能够获得有效的文本特征,进而才能有效区分与度量各个人名的重要性程度。因此,本发明对每个人名在文本标注中的重要程度度量,是以文本标注信息的多层次分析为基础构建。
现在描述如何设计通过文本标注的多层次分析来进行有效人名重要性评估的算法。
对于经过文本预处理从文本标注中检测提取出的所有人名,这些人名仅是通过从词法分析是否为人名实体,并没有特定的相关重要性信息。而由于文本的句法结构通常能够表示该文本中的多项信息分布,因此能够通过分析这些人名实体在其所属文本对应句法分析树中的角色位置以及各人名实体在该句法分析树中的树结构关系,来衡量各个人名在该文本中的相对重要性。从而,拟将人名实体在对应句法分析树中的深度以及在该树中的广度优先遍历顺序作为两个重要的句法分析要素。另外,从统计方面而言,在大多数情况下一个人名实体在对应的文本标注中出现的次数越多,则在很大程度上说明该人名越相对重要,因此人名出现的次数也作为一个关键分析要素。
(1)句法分析树深度(Syntactic Parse Tree Depth, SPTD),这一要素表示某个人名类在对应文本句法分析树中的深度值,其值为该人名类包含的所有人名对应的最小深度值。对于一个特定新闻图像的文本标注,其句法分析层次结构通过层次分布情况体现其中每个实体的相对重要性。作为文本标注的关键元素,人名实体可能在相应句法分析树中扮演重要角色,而它们在分析树中的深度值可被视为一个代表其相对重要性的指示之一。在大多数情况下,如果一个人名实体在句法分析树中的深度比较浅,则其在相应文本中具有更高的重要性。因此,对于每个文本标注中的每个人名类,计算其包含的所有人名的深度值,而其中的最小深度值则被用来描述该人名类及其类中所有人名的相对重要性。
假定一条新闻图像标注中包含N个不同的人名。每个人名都具有其各自的人名类NCi ,每个人名类中包含一个或多个人名名称,这些人名名称均指向同一个人。用NCij 表示人名类NCi 中第j个人名。因此,任一人名类NCi 的句法分析树深度值可定义为:
Figure 172076DEST_PATH_IMAGE002
(1)。
其中,SNC(NCi )表示人名类NCi 的大小,即该人名类中所包含的具有内联性并指向同一个人的不同人名形式个数,也可理解为在同一文本中一个人的各种不同人名表达形式在文本中出现的总次数;SPT_Depth(NCij )表示NCij 在相应句法分析树中的深度值。
(2)句法分析树遍历顺序(Syntactic Parse Tree Traversal Order, SPTTO),这一要素表示某个人名类在对应文本的句法分析树中的广度遍历顺序,其值为该人名类包含的所有人名对应的最早遍历顺序。对由相应文本构造出的句法分析树进行广度优先遍历,记录每个人名在句法分析树中遍历的先后次序。一般来讲,对于句法分析树中的同一层结点,越优先遍历则相对于同一层中的其他结点更为重要。例如,一个句子中主语的重要性一般都比宾语的重要性更大,而该主语和谓语分别位于同一个父亲结点的左边和右边,进行广度优先遍历时位于左边的主语将更早被访问。因此,将人名所对应的人名类中所有名词中最早被访问的人名名词对应的遍历次序,作为该人名类的句法分析树遍历顺序。
同样,任一人名类NCi 的遍历顺序可定义为:
Figure 62672DEST_PATH_IMAGE004
(2)。
其中,SPT_BFT-Order(NCij )表示人名NCij 在相应句法分析树中的遍历顺序。
最后,每个人名类的相对重要性可由以上两个要素以及在相应文本中出现的次数
Figure 2012100760890100002DEST_PATH_IMAGE005
共同来决定,并给这三个要素分配不同的权值系数,通过它们的线性组合进行计算。假设每条新闻标注中有N个不同的人名,每个不同的人名有其各自的人名类,则每个人名类的相对重要性RS (Relative Salience)可定义如下:
(3)。
其中,αβγ分别表示
Figure 812770DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE007
Figure 189525DEST_PATH_IMAGE008
的影响因子,代表这三个要素在计算人名重要性时的贡献程度, 并且α+β+γ=1。 在这三个要素中,最重要且影响最大的要素是人名次数,则其所对应的影响因子相对最大,其次是对应的影响因子,最后是
Figure 185665DEST_PATH_IMAGE008
,因此约定α>β>γ。 每个人名的相对重要性可通过上式计算而得。对于在一条文本标注中仅存在一个人名的情况,则可直接将该人名的相对重要性设置为1。
基于如上所述,人名重要性评估算法可描述为如下流程:
(1)获得输入,即文本标注中的人名, 同时设定初始的各要素对应的影响因子。
(2)统计该人名在相应文本中出现的次数。
(3)对文本构造其句法分析树,获得该人名在句法分析树中的深度。
(4)获得该人名在句法分析树中的广度优先遍历顺序。
(5)基于步骤(2)、(3)及(4)的结果,利用线性组合公式计算该人名的相对重要性。
(二)基于 Web 挖掘的多模态信息发现算法
基于Web挖掘的多模态信息发现算法的创意基于以下设想:对于新闻图像中人脸与人名进行对齐的过程,可将其认为是一种带有约束的人脸命名或特定人的相关人脸检索问题。对于新闻图像中的每张人脸,我们想知道人脸与相应文本标注中哪个名字之间相互关联对应,或者它并不属于文本中的任何一个人名。因此,对于这样的对齐问题,一般假设所查询人名最多在一张新闻图像中出现一次,且在人脸图像检索结果中实际属于该人的人脸图像占绝大多数。在这个假设的基础上,对人脸与人名的对齐匹配结果设定相关的评估度量函数,进而来评估人脸与人名对齐方式的好坏。因此,这些相应的评估方式一般仅比较适用于满足上述假设的新闻图像数据。然而,在一般情况下,各个人所实际关联的人脸图像数目差别变化很大,从一张或少数几张到几百几千张。同时,也存在这种情况,一些罕见人名(Rare Name)在整个新闻图像数据集中仅仅出现少数几次甚至一次,从而导致这样一个事实,一些人名所关联的人脸图像数目非常少,进而不能很好地满足上述假设。因此,为同样能够有效地对解决针对这些罕见人名对齐方式的评估,十分有必要建立一个特殊有效的发现机制,来为这些罕见人名补充更多的多模态信息。
现在描述如何设计一个有效解决上述问题的基于Web挖掘的多模态信息发现算法。
考虑到当前可用的网络多媒体资源已非常庞大和成熟,尤其是那些附有文本标注的图像资源,这些开放的图像资源可作为一个庞大的知识库。因此,从网络资源出发,将这些罕见人名作为查询人名,自动检索当前主流的网络图像搜索引擎,如谷歌、雅虎图像搜索和百度图像搜索等,为这些罕见人名动态地创建与其相关的人脸图像集,补充其相应的多模态信息。基于这样的网络挖掘方式,大多数罕见人名一般都能够获得一定数量相关的人脸图像及其伴随图像一同出现的注释文本信息,进而能够有效解决上述问题。
假定当前的罕见人名为RN,获得该人名RN补充多模态信息的过程可描述如下:
(1)将RN作为查询人名,通过自制的网络爬虫,从Google Face Search (http://www.google.com)、Bing Image Search (http://bing.com),Yahoo ImagesSearch (http://images.search.yahoo.com)以及Yahoo News Search (http://news.search.yahoo.com) 网站获取对应于查询人名RN的图像检索集及每张图像所附有的文本标注。
(2)利用人脸检测工具对图像检索集中的每张图像进行人脸检测,将未检测到人脸的图像进行删除过滤。
(3)针对经过过滤操作后的图像检索集,利用人名重要性评估算法,对过滤后的检索集中每张图像所附有的文本标注首先进行人名检测,然后对检测出来的所有人名进行相对重要性评估。
(4)在得到每张图像所对应的文本标注包含的所有人名的相对重要性之后,对RN的检索图像集进行排序操作,以RN的相对重要性RS值作为排序依据,将图像集中所有图像进行由高到低的排序。
(5)对排序好的检索图像集进行Top操作,只保留前MRS值最大的图像,作为最终RN的检索图像集。其中,M是一个变化的整数值,与RN对应的最初始图像检索集大小成正比。因为可能每个人的检索图像集包含图像数量不同,有多有少,所以M值随着图像集的数量而动态变化。
(6)对获得的最终RN的检索图像集中的每张图像进行人脸提取,将所有检测提取出来的人脸图像及伴随这些图像共同出现的标注文本信息,作为RN所补充的多模态信息。
(三)人脸内聚度度量算法
人脸内聚度度量算法的创意基于以下设想:对于新闻图像中人脸与人名的对齐过程,可将其认为是在满足一定的约束条件下,将人脸分别分配给相应人名并增添到该人名对应的人脸集中。每种全局分配对齐方式下,都能获得该分配方式下所有人名各自所对应的人脸集。由于属于同一个人的相关人脸图像在特征空间中一般更为相似紧密,且我们所希望的是能够使各个人名尽可能多地被分配实际属于该人名的人脸。为此,力求获得所有人名对应的各自人脸集相对更加局部紧密,从而使得所有人名对应的人脸集能够具有较高的全局紧密性。因而,需要在任意一种全局对齐方式下,对所有人名各自对应的人脸集的全局紧密性进行一种评估。
现在描述如何设计对人脸集全局紧密性进行有效评估的人脸内聚度度量算法。
首先,由于每张人脸被表示成为一个1,664维的高维特征向量,在高维空间中人脸对应特征向量之间的欧式距离变得更加同一,之间的差别不大。另外,各个人名对应人脸集的大小和密度也不尽相同,所以不直接使用同一人脸集中两张人脸对应Sift 算子的欧式距离来进行两张人脸之间的相似性度量,而采用两张人脸的k最近邻兄弟的共有兄弟结点数目来进行相似性度量。假设人名Nm 相对应的人脸集为FS_Nm ,人脸Fi 和人脸Fj 是此人脸集中的两张人脸,则如果Fi Fj 同时与FS_Nm 中的人脸相对更靠近,则认为Fi Fj 在互相紧密性上具有更好的置信度,因为它们之间的相似性由FS_Nm 中的所有人脸来整体确认。
因此,两张人脸Fi Fj 之间的相似度可进一步定义如下:
Figure DEST_PATH_IMAGE009
(4)。
其中KNS(Fi , FS_Nm , k)和KNS(Fj , FS_Nm , k)分别表示人脸Fi Fj 位于人名Nm 对应的人脸集FS_Nm 中时,各自对应的k个最近邻兄弟;k是一个动态变化值,根据当前人名对应的人脸集的大小而进行变动,与人脸集大小成正比。
其次,使用局部紧密度分值(Local Density Score, LDS)来度量每张人脸在各自人脸集中的紧密程度,紧密程度越大则人脸与所其在人脸集所属的人名越相关。每张人脸的紧密度分值,可表示为各人脸与其在同一人脸集中的k近邻人脸之间的平均相似度。因此,人脸Fi LDS值可以定义为如下:
Figure 366111DEST_PATH_IMAGE010
(5)。
从上式可看出,人脸Fi 相应的LDS值越高,则就表示人脸Fi 与和它属同一人脸集FS_Nm 中的近邻人脸紧密性和连接性越高,也就说明人脸Fi 与该人名Nm 更为相关。
在上述基础之上,进一步提出局部内聚度(Local Cohesion Degree, LCD)概念,用来衡量在当前的一种全局人脸-人名对齐方式下,各个人名对应人脸集中所有人脸之间的整体相互紧密性。有关LCD值的计算方式定义如下:
Figure DEST_PATH_IMAGE011
(6)。
由此,LDS值反应一张人脸的局部紧密度,而我们寻求的最优全局对齐方式力求使各个人名尽可能多地被分配到实际属于该人名的人脸,使得在任意一个人名的人脸集中,实际属于该人名的人脸数量应占绝大多数。由于LDS值越大在一定程度上说明人脸与其当前所分配的人名更为相关,则所有人脸的LDS值之和在一定程度上说明当前的全局对齐分配方式下,所有人脸与所有人名之间的一种整体相关性。因此,LDS值之和的相对值越大,则同样在一定程度上说明所有人脸与所有人名之间的整体相关性越大, 即所有人名对应的人脸集能够具有较高的全局整体紧密性。因此,局部内聚度LCD值能够有效地度量人脸集之间的整体紧密型。
基于如上所述,内聚度度量算法可描述为如下流程:
(1)获得输入,即当前人脸-人名对齐方式下各人名对应的人脸集;
(2)计算当前人脸集中每张人脸的k近邻兄弟;
(3)计算当前人脸集中每张人脸的局部紧密度分值;
(4)获得当前人脸集对应的整体局部内聚度;
(5)重复步骤(2)-(4),直到计算完每个人脸集的局部内聚度。
(四)多模态对齐组合优化算法
多模态对齐组合优化算法的创意基于以下设想:对于新闻图像中的人脸-人名对齐问题,其关键部分就是需要对具有相互关联性的人脸和人名,计算它们之间所有可能不同对齐方式的相应代价。而这个计算过程,完全依赖于人脸与人名之间的初始关联性,最终希望能够从所有这些可能的对齐方式中,寻找出最好且最适应的一种对齐方式。因此,对于该人脸-人名对齐问题,也可将其认为是从人脸和人名之间所有可能的对齐组合方式中,寻找一种最优组合方式的组合优化问题。其中,每张人脸最多只能被指定一个真实人名,同时每个人名最多只能被分配一张实际人脸。因此,在这样的处理过程中,对于整个新闻图像及其相应的文本标注数据,通过将每张图像中的人脸及相应文本标注中的每个人名进行对齐组合,会动态获得所有人名各自对应的关联人脸集。人脸与人名的对齐方式不同,则各个人名对应的人脸集也将会动态变化,进而可对这些动态获得的人脸集进行内聚度度量,从而寻找到能使各个人名相关联的人脸集内聚度达到最大时其相对应的所有人脸与人名之间的对齐方式。
现在描述如何设计有效应对上述过程的多模态对齐组合优化算法,主要包括以下两方面,即数学模型建立与改进的自适应模拟退火遗传算法。
1 )数学模型的建立
将人脸与人名对齐作为一种组合匹配问题,根据对齐问题的本身特点,分析其全局关联性与局部限制性,制定该问题所需要满足的各种约束条件,建立一种整数规划模型,从组合优化的角度出发将对齐问题最终转化为具有特定结构特点的整数规划问题。假设当前共有P个图像-文本对,每个图像-文本对都包含一定数量的不同人脸及不同人名,而不同的图像-文本对之间可能包含相同的人名,这P条图像-文本对共包含F张人脸和N个人名。为更好地描述本发明中所提出的数学模型,首先介绍如下自定义的参数和变量:
PS——表示所有P个图像-文本对集合。
FS ——表示P个图像-文本对中包含的所有人脸集合。
NS ——表示P个图像-文本对中包含的所有人名集合。
W_FPij ——表示人脸Fj 是否存在于图像-文本对Pi 中,Pi PS, Fj FS, i=1, …, |PS|, j=1, …, |FS|,W_FPij 定义为满足如下条件的布尔变量:
Figure 434561DEST_PATH_IMAGE012
W_NPik ——表示人名Nk 是否存在于图像-文本对Pi 中,Pi PS, Nk NS, i=1, …, |PS|, k=1, …, |NS|,W_NPik 定义为满足如下条件的布尔变量:
Figure DEST_PATH_IMAGE013
FPi ——表示Pi 中所包含的人脸集合,FPi ={Fj |W_FPij =1, Fj FS}, Pi PS, i=1, …, |PS|。
NPi ——表示Pi 中所包含的人名集合,NPi ={Nk |W_NPik =1, Nk NS}, Pi PS, i=1, …, |PS|。
W_FNkj ——表示Fj 是否被分配给Nk Fj FS, Nk NS, j=1, …, |FS|, k=1, …, |NS|, W_FNkj 定义为满足如下条件的布尔变量:
FS_Nm ——表示在当前的全局人脸-人名对齐方式下人名Nm 被分配的人脸集合, Nm NS, k=1, …, |NS|。
LCD(FS_Nm , k)——表示人名Nm 对应人脸集FS_Nm 的局部内聚度,此局部内聚度已在人脸集内聚度度量算法中定义,Nm NS, l=1, …, |NS|。
这里,所寻求的最优全局对齐方式力求使各个人名尽可能多地被分配到实际属于该人名的人脸。即使在任意一个人名对应的人脸集中,实际属于该人名的人脸数量占绝大多数,即希望各人脸集的局部内聚度LCD值之和能够最大。同时,由于考虑到在进行全局对齐的过程中,一些人脸有可能分配不到人名,而一些人名也有可能分配不到人脸,即被分配到各个人名的人脸集大小动态变化。因而,需要在计算得到局部内聚度LCD值之后,需要对该值进行大小归一化,以此来更好地处理这些特殊情况。
为此,本发明针对人脸-人名对齐问题所提出的数学模型利用内聚度概念构造目标函数,其定义可表述如下:
(7)
最终,通过上述数学模型,从人脸与人名之间所有可能的对齐方式中找到最佳对齐方式。同时,该模型还需要满足以下约束条件:
(1)
Figure 48524DEST_PATH_IMAGE016
。 即,各个图像-文本对所包含人脸集合的并集就是总共包含的人脸集,人名集合的并集就是总共包含的人名集。
(2)FPi FPj =Ф, ij, i, j=1, …, |PS|。 即,任意两个不同图像-文本对所包含的人脸集合均无交集。
(3)|FPi |=|NPi|, ij, i, j=1, …, |PS|。即,经过预处理后,任意一个图像-文本对中所包含的人脸数目与不同人名数目相同。
(4)
Figure 501503DEST_PATH_IMAGE018
, Fj FPi , Nk NPi , i=1, …, |PS|, j=1, …, |FPi |。即,在一个图像-文本对中,每张人脸必须且只能被分配给此对中的一个人名。
(5), Fj FPi , Nk NPi , i=1, …, |PS|, k=1, …, |NPi |。即,在一个图像-文本对中,每个人名必须且只能分配到此对中的一张人脸。
(6)
Figure 939306DEST_PATH_IMAGE020
, i=1, …, |PS|, j=1, …, |FPi |, l=1, …, |NS|。即,保证一个图像-文本中的人脸只能分配给此对中所包含的人名,而不能分配给此对之外的人名。
2 )改进的自适应模拟退火遗传算法
对于本发明所提出的上述整数规划模型,由于变量维数比较多且目标函数的非线性增加计算复杂性,则属于NP-难问题,使用一般的精确算法难以求解。而传统的遗传算法已广泛用于旅行商(Travel Salesman, TS)等各种组合优化问题,通过选择、交叉和变异等遗传操作进行群体进化,从而达到全局优化搜索的目的。虽然遗传算法不能使搜索空间减小,但由于群体搜索的并行性使其能在较短的时间内搜索较大的空间。
然而,传统的遗传算法在实际应用中常常也会出现一些不尽人意的问题,其中主要包括:容易产生“早熟”现象、收敛速度偏慢、及局部寻优能力较差。
一方面,因为早期的优良个体由于适应值大大高于群体的平均适应值,当按常规适应值比例进行选择时,该个体很快就会在群体中占据绝对的比例,而其他个体被淘汰,这样就造成 “早熟” 现象。同时,优化后期由于适应值相近,遗传算子很难选择出优化的个体基因,所以收敛速度慢。标准遗传算法的交叉率和变异率一般通过经验选择,较小的交叉率和变异率将导致遗传算法收敛速度慢,而过大的交叉率和变异率又会破坏后期的优良个体。因此,需要一个自适应机制来动态的改变个体的复制选择概率,同时随着遗传算法的过程来调整交叉率和变异率。
另一方面,传统的遗传算法虽然把握搜索过程总体的能力较强,但其局部搜索能力较差,因此需要针对其局部搜索能力进行优化。模拟退火算法同样也是一种随机搜索算法。其思想源于金属的退火过程,由高温到低温,遍历整个搜索空间。搜索过程中除接受优化解以外,还按照Met ropolis准则接受恶化解,因此该算法具有较好的局部寻优能力。然而,单独使用模拟退火算法对整个搜索空间的情况了解不够多,不便于使搜索过程进入最佳搜索区域,运算效率不够高。但如果将其与遗传算法紧密结合使用,便可以互补长短,克服各自的不足,发挥各自的优点,同时具有遗传算法把握搜索过程总体能力强和模拟退火算法局部搜索能力强的特点。
基于以上描述,本发明使用改进的自适应模拟退火遗传算法,对受约束的整数规划模型进行求解,在种群进化过程中自适应地改变个体的复制选择概率、交叉概率和变异概率的大小,避免早熟以更好地搜索整个空间中更优的解。同时,利用Met ropolis准则,在交叉和变异过程中以动态改变的概率接受劣势解,进而有效提高局部寻优能力,更好地完成该模型的求解。
(1)染色体编码设计
在本发明中,令所有标注文本中的人名固定排序,对所有人脸图像分段排序为一个染色体,每个染色体对应一个解,采用自然数编码设计染色体:
C={gij }, i=1, …, |PS|, j=1, …, |FPi |
其中,Pi 表示第i个图像-文本对;j表示Pi 中包含的人脸数;gij 表示位于Pi 中的人脸Fj 所对应的人脸编号,和Pi 中的人名编号具有一一对应关系。
染色体C可进一步表示为:
{g 11, g 12, …, g 1|FP1|, g 21, g 22, …, g 2|FP2|,…, gi 1, gi 2, …, gi |FPi|, …, g |PS|1, g |PS|2, …, g |PS||FP|PS||}。
其中,称{gi 1, gi 2, …, gi |FPi|}为一个段,各段之间保持相对独立,这种编码方式能够有效保证Pi 内约束的可行性。
(2)初始种群生成
根据上述染色体编码的要求,采用各段内随机排序的方式产生包含L个染色体的初始种群P(t)。按数学模型中的目标函数值,选取当前最好的一个解作为初始最优解。
(3)自适应复制选择
首先,根据本发明所建立的数学模型,在一特定种群中第l条染色体的目标函数可定义如下:
Figure 2012100760890100002DEST_PATH_IMAGE021
(8)
欲采用滚轮盘的方式进行复制,每条染色体的复制选择概率定义如下:
Figure 717906DEST_PATH_IMAGE022
(9)
其中,M表示当前种群所包含的染色体数目;f’( )表示由原始的适应度函数f( ),通过自适应转换方法所获得的一个新的适应度函数。原始的适应度函数f( )定义如下:
Figure DEST_PATH_IMAGE023
(10)
传统的遗传算法根据当前种群中各个个体的适应度值,按照适应度值比例,计算各个体的复制选择概率,以此来复制选择一定数量的个体,然后使这些被选择的个体进入到后续的杂交和变异环节中。但如果各个体适应度值不太大,而它们的值相差很大时,复制时容易导致早熟;而如果各个体适应度值太大,而它们的值相差不大时,复制时就掩盖当前种群中各个个体的质量差别。另一方面,由于早期的优良个体适应值大大高于群体的平均适应值,当按常规适应值比例进行选择时,该个体很快就会在群体中占据绝对的比例,而其它个体被淘汰,这样容易造成 “早熟” 现象。同时,优化后期由于适应值相近,遗传算子很难选择出优化的个体基因,所以容易造成收敛速度慢的问题。于是,可采用以下方法进行适应度值的自适应变换:
(11)
其中,f max为当前种群的最大适应值;f min为当前最小适应值;g为当前遗传代数;g max为最大遗传代数;a>0,为常数参数;f(Cl )为个体Cl 对应的原始适应度值;f’(Cl )为个体Cl 变换后的适应度值。
由上式可以看出,在遗传初期
Figure DEST_PATH_IMAGE025
Figure 264873DEST_PATH_IMAGE026
1,因此有效改变个体适应度值之间的相对差异度。f’(Cl )的选择灵敏度降低,进而原始适应度值很大的个体经过转换后,其选择概率降低,这样便在一定程度上阻止这种超级个体快速占满整个种群空间的现象,而增加整个种群的多样性。在遗传进行的后期
Figure DEST_PATH_IMAGE027
Figure 307916DEST_PATH_IMAGE026
0,则
Figure 788576DEST_PATH_IMAGE028
0,则f’(Cl )选择的灵敏度增加,有利于群体的收敛速度。
(4)自适应模拟退火交叉与变异过程
遗传算法所希望的快速收敛和寻求全局最优值,在一定程度上是一对相互限制与矛盾的需求。为了能够实现快速收敛,遗传算法需要进化的种群尽快产生最优个体,因此也不可避免地降低种群多样性,进而容易产生早熟现象。另一方面,为了确保尽可能优的最终解而摆脱局部最优解,则遗传算法需要以收敛速度为代价来维持种群的多样性。所以,需要很好地对这两种需求(尽快收敛和全局最优)进行权衡。当种群中个体的适应度值彼此互相接近时,则需要提高交叉概率和变异概率,以此来提高种群的多样性,进而在一定程度上摆脱陷入局部最优的困境。而当种群中个体的适应度值分布比较散开或则离散时,则需要通过降低交叉概率和变异概率,以此在一定程度上避免随机漫游寻优并提高收敛速度。即,染色体更难杂交和变异,因为已经具有一定的多样性,再随机进行杂交和变异,则会收敛很慢。因而,在遗传过程中,交叉概率和变异概率可按照如下方式根据各代种群情况自适应获得。
交叉概率定义如下:
Figure DEST_PATH_IMAGE029
(12)
变异概率定义如下:
Figure 549858DEST_PATH_IMAGE030
(13)
其中,max(f(Ci ), f(Cj ))表示对于进行杂交的染色体中,两者适应度值中更大的适应度值;f max为当前种群的最大适应值;f avg为当前种群的平均适应度值;f(Ci )为当前进行变异操作的染色体的适应度值;
Figure DEST_PATH_IMAGE031
Figure 859486DEST_PATH_IMAGE032
,四者为预先设置的常数参数。
因为f maxf avg的不同可在一定程度上表现出当前进化种群的稳定性,则两者之间的差距越小说明种群中个体适应度值的差距也越小,可能导致早熟的可能性更大,为此需要增大交叉概率和变异概率。反之,当两者之间的差距越大时,则当前种群中个体适应度值分布的越离散,导致收敛过慢的可能性越大,为此需要降低交叉和变异概率。因而,PC PM 反比于
Figure DEST_PATH_IMAGE033
Figure 757034DEST_PATH_IMAGE034
的差值。同时,在同一代群体中,不同个体应该考虑具有不同的交叉概率和变异概率。适应度好的应该受到一定的保护,即交叉概率和变异概率较低。反之亦然。上述计算方式能够很好地考虑这些因素,自适应地计算当前种群中所有个体的交叉概率和变异概率。
考虑到遗传算法和模拟退火算法各自的优缺点,将两者有效的结合能够互补长短。并非将模拟退火机械地与遗传算法结合,而是将模拟退火机制结合到遗传算法的交叉算子和遗传算子当中。这样不仅改进遗传算子,同时也保留遗传算法群体优化和新解产生灵活的特点,并且能够增加模拟退火算法的局部寻优能力。
由于在进行交叉算子和变异算子的过程中,需要对交叉和变异后生成的新染色体进行评估,以判断是否需要进行替换原染色体或者丢弃新生成的染色体。而传统遗传算法则只是简单地判断新生成的染色体对应的适应值是否更优,如果更优则接受,否则直接丢弃,但这样更容易失去局部寻优的能力。所以,对于是否接受劣解时引入模拟退火操作,当新染色体的适应度值更为差时,利用下式生成一个接受当前劣势解的概率:
Figure DEST_PATH_IMAGE035
(14)
其中,f(Cl ’)表示进行交叉或变异操作后对应生成的新染色体的适应度值;T 0为模拟退火操作设置的初始温度;δ为预设定的降温比例系数;g为当前遗传代数。该处理策略不但有利于优良个体的保留,同时也可防止 “早熟” 收敛问题的发生。而且,随着进化过程的进行,温度逐渐下降,接受劣解的概率也逐渐减小,从而有效利用模拟退火算法的 “爬山”特性提高算法的收敛速度。由此,实现遗传算法与模拟退火的有效结合。
基于上述各过程的表述,改进的自适应模拟退火遗传算法流程可描述如下:
(1)设计构造染色体编码,获得输入;
(2)生成初始种群P(t),记录当前最优染色体,设定各参数初始值;
(3)计算当前种群中各染色体的适应度值及自适应转换后的适应度值,采用滚轮盘选择算法,对种群中的各染色体进行选择复制过程;
(4)采用单点交叉算法,利用自适应交叉概率,对经过步骤(3)得到的染色体两两进行杂交过程,并利用模拟退火判断机制,判断交叉后所得到的新染色体是否需要进行替换或丢弃;
(5)采用交换变异算法,,利用自适应变异概率,对经过步骤(4)后的所有染色体执行变异过程,并利用模拟退火判断机制,判断变异后得到的染色体是否需要进行替换或丢弃;
(6)重新计算当前种群中的最优染色体,并判断是否需要更新上一代保存下来的最优染色体;
(7)重复步骤(3)-(6),直至收敛或迭代次数达到设定条件。
(五)应用示例
图2为人名重要性评估算法的示例图。其中,包含两幅新闻图像,每一幅具有一条与之相应的新闻标注,新闻图像中被检测出来的人脸和新闻标注中被检测出来的人名都标为红色高亮,最终利用人名重要性评估算法,为新闻标注中的各个人名计算其重要性分值。
图3为本发明提出的人脸-人名对齐方法的最终效果示例图。其中,包括从数据集中随机挑选的9幅新闻图像及其相应的新闻标注,在完成人脸-人名对齐过程之后,各幅新闻图像中被检测出的人脸都将会被标注为该人脸所对应的对齐人名。
参考文献
Datta, R., Joshi, D., Li, J., and Wang, J.Z. 2008. Image retrieval: Ideas, influences, and trends of the new age. ACM Computing Surveys (CSUR), 40(2): Article 5.
Jeon, J., Lavrenko, V., and Manmatha, R. 2003. Automatic image annotation and retrieval using crossmedia relevance models. In Proc. of SIGIR 2003, 119-126.
Yang, R. and Hauptmanan, A.G. 2007. A review of text and image retrieval approaches for broadcast news video. Information Retrieval, 10: 445-484.
Zhuang, Y.T., Yang, Y., and Wu, F. 2008. Mining semantic correlation of heterogeneous multimedia data for cross-media retrieval. IEEE Transaction on Multimedia, 10(2): 221-229.
Yang, Y., Xu, D., Nie, F.P., Luo, J.B., and Zhuang, Y.T. 2009. Ranking with local regression and global alignment for cross media retrieval. In Proc. of MM 2009, 175-184.
Deschacht, K., and Moens, M.F. 2007. Text analysis for automatic image annotation. In Proc. of ACL2007, 1000-1007.
Pham, P.T., Moens, M.F., and Tuytelaars, T. 2010. Cross-media alignment of names and faces. IEEE Transactions on Multimedia, 12(1): 13-27.
Guillaumin, M., Mensink, T., Verbeek, J., and Schmid, C. 2012. Face recognition from caption-based supervision. International Journal of Computer Vision, 96(1): 64-82.
Mensink, T., and Verbeek, J. 2008. Improving people search using query expansions: How friends help to find people. In Proc. of ECCV 2008, 86-99.
Le, D.D. and Satoh, S. 2008. Unsupervised face annotation by mining the Web. In Proc. of ICDM 2008, 383-392.
Bozorgtabar, B. and Rezai Rad, G.A. 2011. A genetic programming - PCA hybrid face recognition algorithm. Journal of Signal and Information Processing, 2: 170-174.
Satoh, S. and Kanade, T. 1997. Name-it: Association of face and name in video. In Proc. of CVPR 1997, 368-373.
Yang, J., Chen, M.Y., and Hauptmann, A.G. 2004. Finding person x: Correlating names with visual appearances. In Proc. of CIVR 2004, 270-278.
Berg, T.L., Berg, A.C., Edwards, J., Maire, M., White, R., The, Y.W., Learned-Miller, E., and Forsyth, D. 2004. Names and faces in the news. In Proc. of CVPR 2004, 2:848-854.
Satoh, S., Nakamura, Y., and Kanade, T. 1999. Name-it: naming and detecting faces in news videos. IEEE Multimedia, 6(1):22-35.
Yanai, K. and Barnard, K. 2005. Image region entropy: a measure of “visualness” of web images associated with one concept. In Proc. of MM 2005, 419-422.
Berg, T.L., Berg, A.C., Edwards, J., and Forsyth, D.A. 2005. Who’s in the Picture. Advances in Neural Information Processing Systems 17, 137-144.
Zhang, L., Hu, Y.X., Li, M.J., Ma, W.Y., and Zhang, H.J. 2004. Efficient propagation for face annotation in family albums. In Proc. of MM 2004, 716-723.
Maji, S. 2007. Fast Automatic Alignment of Video and Text for Search/Names and Faces. In Proc. of MS 07 Workshop, 57-64.
Huang, G.B., Jain, V., and Learned-Miller, E. 2007. Unsupervised joint alignment of complex images. In Proc. of ICCV 2007, 1-8.
Everingham, M., Sivic, J., and Zisserman, A. 2006. Hello! My name is … Buffy - Automatic naming of characters in TV video. In Proc. of BMVC 2006, 889-908.
Ozkan, D. and Duygulu, P. 2006. A graph based approach for naming faces in news photo. In Proc. of CVPR 2006, 1477-1482.
Guillaumin, M., Mensink, T., Verbeek, J., and Schmid, C. 2008. Automatic face naming with caption-based supervision. In Proc. of CVPR 2008, 1-8.
Berg, T.L., Berg, A.C., Edwards, J., and Maire, M. 2007. Names and Faces. Technical Report, U.C. at Berkeley.
Srinivas, M. and Patnaik, L.M. 1994. Adaptive probabilities of crossover and mutation in genetic algorithms. IEEE Transactions on Systems, Man and Cybernetics, 24(4): 656-667.
Wang, Z.G., Rahman. M., and Wong, Y.S. 2005. Optimization of multi-pass milling using parallel genetic algorithm and parallel genetic simulated annealing. International Journal of Machine Tools and Manufacture, 45(15): 1726-1734.
Andresen, M., Bräsel, H., Tusch, J., Mörig, M., Werner, F., and Willenius, P. 2008. Simulated annealing and genetic algorithms for minimizing mean flow time in an open shop. Mathematical and Computer Modelling, 48:7-8: 1279-1293。

Claims (6)

1.一种跨媒体新闻检索中基于图像特征和文本语义的人脸-人名对齐方法,其特征在于具体步骤如下:
(1) 图像与文本预处理,针对原始新闻图像信息,进行人脸与人名的检测和提取,并对检测和提取出来的人脸图像进行预处理与相似性度量;
(2) 人名重要性评估,对新闻图像带有的文本标注进行多层次的文本分析,利用各个人名在对应文本标注中出现的频率、句法分析树中的深度、句法分析树中的广度遍历顺序三个要素,对从文本标注中检测提取出来的所有人名度量各自的相对重要性;
(3) 基于Web挖掘的多模态信息发现,将一些在当前新闻图像集中出现仅一次或少数几次的人名作为查询文本,通过主流的图像搜索网站对其进行图像检索,并对所有的信息检索结果进行评估,衡量这些检索结果与当前查询人名的相关性,以此实现针对这些特殊人名获得更为充分的附加多模态信息资源;
(4) 人脸集内聚度度量,在人脸与人名的对齐过程中,对任意一种全局对齐方式利用k近邻算法计算各个人名对应的人脸集中所有人脸的紧密度分值,以此获得各个人脸集的内聚度,进而对当前人脸-人名对齐方式进行有效评估;
(5) 多模态对齐组合优化,利用各人脸集的内聚度,设定全局目标函数,并按照人脸-人名对齐分配的处理机制,设立全局约束条件,建立整数规划模型,采用改进的自适应遗传算法进行问题求解,同时结合模拟退火算法,以此能够同时具有较好的全局解与局部解的寻优能力,进而最终能够更好地对人脸-人名对齐问题进行求解。
2.根据权利要求1所述的方法,其特征在于在人名重要性评估步骤中,对人名所属的文本标注进行深层次分析,对文本构造其相应的句法分析树,将人名实体在对应句法分析树中的深度以及在该树中的广度优先遍历顺序作为两个句法分析要素;另外,从统计方面出发,将人名在文本中出现的次数也作为一个句法分析要素;最终,以这三个要素共同评估人名重要性;
假定一条新闻图像标注中包含N个不同的人名,每个人名都具有其各自的人名类NCi ,每个人名类中包含一个或多个人名名称,这些人名名称均指向同一个人,并用NCij 表示人名类NCi 中第j个人名,则任一人名类
Figure 488615DEST_PATH_IMAGE001
的句法分析树深度定义如下:
Figure 323716DEST_PATH_IMAGE002
(1)
其中,SNC(NCi )表示人名类NCi 的大小,即该人名类中所包含的具有内联性并指向同一个人的不同人名形式个数;SPT_Depth(NCij )表示NCij 在相应句法分析树中的深度值;
同时,任一人名类NCi 的句法分析树遍历顺序定义如下:
(2)
其中,SPT_BFT-Order(NCij )表示人名NCij 在相应句法分析树中的遍历顺序;
最后,每个人名类的相对重要性可由以上两个要素以及在相应文本中出现的次数
Figure 445573DEST_PATH_IMAGE004
共同来决定,并给这三个要素分配不同的权值系数,通过它们的线性组合进行计算,则相对重要性定义如下:
(3)
其中,αβγ分别表示SNCSPTDSPTTO的影响因子,代表这三个要素在计算人名重要性时的贡献程度,并且α+β+γ=1。
3.根据权利要求2所述的方法,其特征在于所述的基于Web挖掘的多模态信息发现步骤中,对于在整个新闻图像数据集中的罕见人名,补充更多其相应的多模态信息;假定当前的罕见人名为RN,获得该RN对应的补充多模态信息过程如下:
(1)将RN作为查询人名,通过网络爬虫,从谷歌图像检索、Bing图像检索以及Yahoo News图像检索等图像搜索引擎,获取对应于查询人名RN的图像检索集及每幅图像所附有的文本标注;
(2)利用人脸检测工具对图像检索集中的每幅图像进行人脸检测,将未检测到人脸的图像进行删除过滤;
(3)针对经过过滤操作后的图像检索集,利用人名重要性评估算法,对过滤后的检索集中每幅图像所附有的文本标注首先进行人名检测,然后对检测出来的所有人名进行相对重要性评估;
(4)在得到每幅图像对应文本标注包含的所有人名相对重要性之后,对RN的检索图像集进行排序操作,以RN的相对重要性RS值作为排序依据,将图像集中所有图像进行由高到低的排序;
(5)对排序好的检索图像集进行Top操作,只保留前MRS值最大的图像,作为最终RN的检索图像集;其中,M是一个变化的整数值,与RN对应的最初始图像检索集大小成正比;
(6)对获得的最终RN的检索图像集中的每幅图像进行人脸提取,将所有检测提取出来的人脸图像及伴随这些图像共同出现的标注文本信息,作为RN所补充的多模态信息。
4.根据权利要求3所述的方法,其特征在于所述的人脸内聚度度量步骤中,首先,采用两张人脸的k最近邻兄弟的共有兄弟结点数目来进行人脸相似性度量,进而避免高维空间中人脸之间的同一性;假设在当前的全局人脸-人名对齐方式下,人名Nm 相对应的人脸集为FS_Nm ,人脸Fi 和人脸Fj 是此人脸集中的两张人脸,则Fi Fj 之间的相似度可进一步定义如下:
Figure 431032DEST_PATH_IMAGE006
(4)
其中,KNS(Fi , FS_Nm , k)和KNS(Fj , FS_Nm , k)分别表示人脸Fi Fj 位于人名Nm 对应的人脸集FS_Nm 中时,各自对应的k个最近邻兄弟;k是一个动态变化值,根据当前人名对应的人脸集大小而进行变动,与人脸集大小成正比;
其次,使用局部紧密度分值来度量每张人脸在各自人脸集中的紧密程度,紧密程度越大则人脸与其所在人脸集所属的人名越相关;每张人脸的紧密度分值可表示为各人脸与其在同一人脸集中的k近邻人脸之间的平均相似度,则人脸Fi LDS值定义为如下:
Figure 713109DEST_PATH_IMAGE007
(5)
从上式可看出,人脸Fi 相应的LDS值越高,则表示Fi 与和它属同一人脸集FS_Nm 中的近邻人脸紧密性和连接性越高,也就说明Fi 与该人名Nm 更相关;
在上述基础之上,进一步用局部内聚度概念,用来衡量在当前的一种全局人脸-人名对齐方式下,各个人名对应人脸集中所有人脸之间的整体相互紧密性;局部内聚度记为LCD,其计算方式定义如下:
Figure 633923DEST_PATH_IMAGE008
(6)
LDS值之和的相对值越大,则在一定程度上说明所有人脸与所有人名之间的整体相关性越大,即所有人名对应的人脸集能够具有较高的全局整体紧密性;
所述内聚度度量算法流程如下:
(1)获得输入,即当前人脸-人名对齐方式下各人名对应的人脸集;
(2)计算当前人脸集中每张人脸的k近邻兄弟;
(3)计算当前人脸集中每张人脸的局部紧密度分值;
(4)获得当前人脸集对应的整体局部内聚度;
(5)重复步骤(2)-(4),直到计算完每个人脸集的局部内聚度。
5.根据权利要求4所述的方法,其特征在于所述的多模态对齐组合优化步骤中,将人脸与人名对齐作为一种组合匹配问题,分析其全局关联性与局部限制性,制定该问题所需要满足的各种约束条件,建立一种整数规划模型,并同时结合使用改进的自适应模拟退火遗传算法,对该受约束的整数规划模型进行求解,进而有效地完成人脸-人名的对齐过程;具体过程如下:
(一)建立整数规划数学模型
假设当前共有P个图像-文本对,每个图像-文本对都包含一定数量的不同人脸及不同人名,而不同的图像-文本对之间可能包含相同的人名,这P条图像-文本对共包含F张人脸和N个人名;
首先,自定义如下参数和变量:
PS——表示所有P个图像-文本对集合;
FS ——表示P个图像-文本对中包含的所有人脸集合;
NS ——表示P个图像-文本对中包含的所有人名集合;
W_FPij ——表示人脸Fj 是否存在于图像-文本对Pi 中,Pi PS, Fj FS, i=1, …, |PS|, j=1, …, |FS|,W_FPij 定义为满足如下条件的布尔变量:
Figure 405570DEST_PATH_IMAGE009
W_NPik ——表示人名Nk 是否存在于图像-文本对Pi 中,Pi PS, Nk NS, i=1, …, |PS|, k=1, …, |NS|,W_NPik 定义为满足如下条件的布尔变量:
Figure 825050DEST_PATH_IMAGE010
FPi ——表示Pi 中所包含的人脸集合,FPi ={Fj |W_FPij =1, Fj FS}, Pi PS, i=1, …, |PS|;
NPi ——表示Pi 中所包含的人名集合,NPi ={Nk |W_NPik =1, Nk NS}, Pi PS, i=1, …, |PS|;
W_FNkj ——表示Fj 是否被分配给Nk Fj FS, Nk NS, j=1, …, |FS|, k=1, …, |NS|,W_FNkj 定义为满足如下条件的布尔变量:
Figure 707555DEST_PATH_IMAGE011
FS_Nm ——表示在当前的全局人脸-人名对齐方式下人名Nm 被分配的人脸集合,Nm NS, k=1, …, |NS|;
LCD(FS_Nm , k)——表示人名Nm 对应人脸集FS_Nm 的局部内聚度,此局部内聚度已在人脸集内聚度度量算法中定义,Nm NS, l=1, …, |NS|;
然后,针对人脸-人名对齐问题所提出的数学模型,利用内聚度概念构造目标函数,其定义表述如下:
Figure 60039DEST_PATH_IMAGE012
(7)
同时,该数学模型还需要满足以下约束条件:
(1)
Figure 330484DEST_PATH_IMAGE013
Figure 768418DEST_PATH_IMAGE014
, 即,各个图像-文本对所包含人脸集合的并集就是总共包含的人脸集,人名集合的并集就是总共包含的人名集;
(2)FPi FPj =Ф, ij, i, j=1, …, |PS|, 即,任意两个不同图像-文本对所包含的人脸集合均无交集;
(3)|FPi |=|NPi|, ij, i, j=1, …, |PS|,即,经过预处理后,任意一个图像-文本对中所包含的人脸数目与不同人名数目相同;
(4)
Figure 985773DEST_PATH_IMAGE015
, Fj FPi , Nk NPi , i=1, …, |PS|, j=1, …, |FPi |,即,在一个图像-文本对中,每张人脸必须且只能被分配给此对中的一个人名;
(5)
Figure 458342DEST_PATH_IMAGE016
, Fj FPi , Nk NPi , i=1, …, |PS|, k=1, …, |NPi |,即,在一个图像-文本对中,每个人名必须且只能分配到此对中的一张人脸;
(6)
Figure 401153DEST_PATH_IMAGE017
, i=1, …, |PS|, j=1, …, |FPi |, l=1, …, |NS|,即,保证一个图像-文本中的人脸只能分配给此对中所包含的人名,而不能分配给此对之外的人名;
(二)采用改进的自适应模拟退火遗传算法求解整数规划数学模型
(1)染色体编码设计
令所有标注文本中的人名固定排序,对所有人脸图像分段排序为一个染色体,每个染色体对应一个解,采用自然数编码设计染色体:
C={gij }, i=1, …, |PS|, j=1, …, |FPi |
其中,Pi 表示第i个图像-文本对;j表示Pi 中包含的人脸数;gij 表示位于Pi 中的人脸Fj 所对应的人脸编号,和Pi 中的人名编号具有一一对应关系;
染色体C可进一步表示为:
{g 11, g 12, …, g 1|FP1|, g 21, g 22, …, g 2|FP2|,…, gi 1, gi 2, …, gi |FPi|, …, g |PS|1, g |PS|2, …, g |PS||FP|PS||};
其中,称{gi 1, gi 2, …, gi |FPi|}为一个段,各段之间保持相对独立,这种编码方式能够有效保证Pi 内约束的可行性;
(2)初始种群生成
根据上述染色体编码的要求,采用各段内随机排序的方式产生包含L个染色体的初始种群P(t);按数学模型中的目标函数值,选取当前最好的一个解作为初始最优解;
(3)自适应复制选择
首先,根据数学模型,在一特定种群中第l条染色体的目标函数定义如下:
Figure 326384DEST_PATH_IMAGE018
(8)
采用滚轮盘的方式进行复制,每条染色体的复制选择概率定义如下:
Figure 19533DEST_PATH_IMAGE019
(9)
其中,M表示当前种群所包含的染色体数目;f ( )表示由原始的适应度函数f( ),通过自适应转换方法所获得的一个新的适应度函数,原始的适应度函数f( )定义如下:
Figure 81030DEST_PATH_IMAGE020
(10)
其次,采用以下方法进行适应度值的自适应变换:
Figure DEST_PATH_IMAGE021
(11)
其中,f max为当前种群的最大适应值;f min为当前最小适应值;g为当前遗传代数;g max为最大遗传代数;a>0,为常数参数;f(Cl )为个体Cl 对应的原始 适应度值;f’(Cl )为个体Cl 变换后的适应度值;
(4)自适应模拟退火交叉与变异
在遗传过程中,同样采用自适应方法,对交叉概率和变异概率进行自适应调整,交叉概率和变异概率按照如下方式根据各代种群情况自适应获得:
交叉概率定义如下:
(12)
变异概率定义如下:
Figure 105804DEST_PATH_IMAGE023
(13)
其中,max(f(Ci ), f(Cj ))表示对于进行杂交的染色体,两者适应度值中更大的适应度值;f max为当前种群的最大适应值;f avg为当前种群的平均适应度值;f(Ci )为当前进行变异操作的染色体的适应度值;
Figure 930540DEST_PATH_IMAGE024
Figure 112123DEST_PATH_IMAGE025
,四者为预先设置的常数参数;
结合Metropolis准则,对于是否接受劣解时引入模拟退火操作,当新染色体的适应度值更为差时,利用下式生成一个接受当前劣势解的概率:
Figure 895271DEST_PATH_IMAGE026
(14)
其中,f(Cl ’)表示进行交叉或变异操作后对应生成的新染色体的适应度值;T 0 为模拟退火操作设置的初始温度;δ为预设定的降温比例系数;g为当前遗传代数;
改进的自适应模拟退火遗传算法流程如下:
(1)设计构造染色体编码,获得输入;
(2)生成初始种群P(t),记录当前最优染色体,设定各参数初始值;
(3)计算当前种群中各染色体的适应度值及自适应转换后的适应度值,采用滚轮盘选择算法,对种群中的各染色体进行选择复制过程;
(4)采用单点交叉算法,利用自适应交叉概率,对经过步骤(3)得到的染色体两两进行杂交过程,并利用模拟退火判断机制,判断交叉后所得到的新染色体是否需要进行替换或丢弃;
(5)采用交换变异算法,利用自适应变异概率,对经过步骤(4)后的所有染色体执行变异过程,并利用模拟退火判断机制,判断变异后得到的染色体是否需要进行替换或丢弃;
(6)重新计算当前种群中的最优染色体,并判断是否需要更新上一代保存下来的最优染色体;
(7)重复步骤(3)-(6),直至收敛或迭代次数达到设定条件。
6.一种基于权利要求5所述方法的系统,其特征在于系统包括5个模块:(一)为图像和文本预处理模块;(二)为人名重要性评估算法模块;(三)为基于Web挖掘的多模态信息发现算法模块;(四)为人脸集内聚度度量算法模块;(五)为多模态对齐组合优化算法模块;第二、第三、第四、第五的模块分别对应于方法中步骤(2)、步骤(3)、步骤(4)、步骤(5)的四个算法:人名重要性评估算法,基于Web挖掘的多模态信息发现算法,人脸集内聚度度量算法,多模态对齐组合优化算法;其中,人名重要性评估算法和基于Web挖掘的多模态信息发现算法,用于在进行人脸-人名对齐过程之前,对人名进行有效的“预处理”,以及对数据集进行充分的补充;人脸集内聚度度量算法和多模态对齐组合优化算法,用于对人脸-人名对齐方式的有效评估,进而完成最终的人脸-人名对齐。
CN201210076089.0A 2012-03-21 2012-03-21 面向跨媒体新闻检索的人脸-人名对齐方法及系统 Expired - Fee Related CN102629275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210076089.0A CN102629275B (zh) 2012-03-21 2012-03-21 面向跨媒体新闻检索的人脸-人名对齐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210076089.0A CN102629275B (zh) 2012-03-21 2012-03-21 面向跨媒体新闻检索的人脸-人名对齐方法及系统

Publications (2)

Publication Number Publication Date
CN102629275A true CN102629275A (zh) 2012-08-08
CN102629275B CN102629275B (zh) 2014-04-02

Family

ID=46587535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210076089.0A Expired - Fee Related CN102629275B (zh) 2012-03-21 2012-03-21 面向跨媒体新闻检索的人脸-人名对齐方法及系统

Country Status (1)

Country Link
CN (1) CN102629275B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
CN103020111A (zh) * 2012-10-29 2013-04-03 苏州大学 基于词汇树层次语义模型的图像检索方法
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与系统
CN103793697A (zh) * 2014-02-17 2014-05-14 北京旷视科技有限公司 一种人脸图像的身份标注方法及人脸身份识别方法
CN104217008A (zh) * 2014-09-17 2014-12-17 中国科学院自动化研究所 互联网人物视频交互式标注方法及系统
CN104537341A (zh) * 2014-12-23 2015-04-22 北京奇虎科技有限公司 人脸图片信息获取方法和装置
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106874555A (zh) * 2017-01-11 2017-06-20 北京航空航天大学 一种Reed‑Muller逻辑电路功耗和面积优化方法
CN107229892A (zh) * 2016-03-24 2017-10-03 阿里巴巴集团控股有限公司 一种基于人脸识别产品的识别调整方法和设备
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN109213876A (zh) * 2018-08-02 2019-01-15 宁夏大学 基于生成对抗网络的跨模态检索方法
WO2019052403A1 (zh) * 2017-09-12 2019-03-21 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN110503000A (zh) * 2019-07-25 2019-11-26 杭州电子科技大学 一种基于人脸识别技术的教学抬头率测量方法
US10489637B2 (en) 2014-12-23 2019-11-26 Beijing Qihoo Technology Company Limited Method and device for obtaining similar face images and face image information
CN111666439A (zh) * 2020-05-28 2020-09-15 重庆渝抗医药科技有限公司 针对云端环境快速提取和划分医学影像大数据的工作方法
US10860858B2 (en) * 2018-06-15 2020-12-08 Adobe Inc. Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
CN112101358A (zh) * 2020-11-04 2020-12-18 浙江大学 一种基于解耦和干预的图网络对齐短语和图片区域的方法
CN113344107A (zh) * 2021-06-25 2021-09-03 清华大学深圳国际研究生院 一种基于核主成分分析和lda的主题分析方法及系统
CN113360673A (zh) * 2021-06-21 2021-09-07 浙江师范大学 多模态知识图谱的实体对齐方法、装置及存储介质
CN114580577A (zh) * 2022-05-05 2022-06-03 天津大学 一种面向多模态的交互式数据标注方法及系统
CN117556276A (zh) * 2024-01-11 2024-02-13 支付宝(杭州)信息技术有限公司 用于确定文本和视频之间的相似度的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007073016A (ja) * 2005-09-05 2007-03-22 New Asia Network Institute Inc 二次元バーコードを利用した携帯電話情報配信サービスシステム
CN101782985A (zh) * 2009-07-21 2010-07-21 上海海事大学 一种基于非线性规划模型与进化算法的连续泊位分派方法
CN102129557A (zh) * 2011-04-18 2011-07-20 苏州市慧视通讯科技有限公司 一种基于lda子空间学习的人脸识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007073016A (ja) * 2005-09-05 2007-03-22 New Asia Network Institute Inc 二次元バーコードを利用した携帯電話情報配信サービスシステム
CN101782985A (zh) * 2009-07-21 2010-07-21 上海海事大学 一种基于非线性规划模型与进化算法的连续泊位分派方法
CN102129557A (zh) * 2011-04-18 2011-07-20 苏州市慧视通讯科技有限公司 一种基于lda子空间学习的人脸识别方法

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020111A (zh) * 2012-10-29 2013-04-03 苏州大学 基于词汇树层次语义模型的图像检索方法
CN102880729A (zh) * 2012-11-02 2013-01-16 深圳市宜搜科技发展有限公司 基于人脸检测与识别的人物图片索引方法及装置
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与系统
CN103793697A (zh) * 2014-02-17 2014-05-14 北京旷视科技有限公司 一种人脸图像的身份标注方法及人脸身份识别方法
CN103793697B (zh) * 2014-02-17 2018-05-01 北京旷视科技有限公司 一种人脸图像的身份标注方法及人脸身份识别方法
CN104217008B (zh) * 2014-09-17 2018-03-13 中国科学院自动化研究所 互联网人物视频交互式标注方法及系统
CN104217008A (zh) * 2014-09-17 2014-12-17 中国科学院自动化研究所 互联网人物视频交互式标注方法及系统
CN104537341A (zh) * 2014-12-23 2015-04-22 北京奇虎科技有限公司 人脸图片信息获取方法和装置
CN104537341B (zh) * 2014-12-23 2016-10-05 北京奇虎科技有限公司 人脸图片信息获取方法和装置
US10489637B2 (en) 2014-12-23 2019-11-26 Beijing Qihoo Technology Company Limited Method and device for obtaining similar face images and face image information
CN107229892A (zh) * 2016-03-24 2017-10-03 阿里巴巴集团控股有限公司 一种基于人脸识别产品的识别调整方法和设备
CN106202413B (zh) * 2016-07-11 2018-11-20 北京大学深圳研究生院 一种跨媒体检索方法
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN106874555A (zh) * 2017-01-11 2017-06-20 北京航空航天大学 一种Reed‑Muller逻辑电路功耗和面积优化方法
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
CN107402993B (zh) * 2017-07-17 2018-09-11 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
US11087166B2 (en) 2017-09-12 2021-08-10 Tencent Technology (Shenzhen) Company Limited Training method of image-text matching model, bi-directional search method, and relevant apparatus
WO2019052403A1 (zh) * 2017-09-12 2019-03-21 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
US11699298B2 (en) 2017-09-12 2023-07-11 Tencent Technology (Shenzhen) Company Limited Training method of image-text matching model, bi-directional search method, and relevant apparatus
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
US10860858B2 (en) * 2018-06-15 2020-12-08 Adobe Inc. Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
CN109213876A (zh) * 2018-08-02 2019-01-15 宁夏大学 基于生成对抗网络的跨模态检索方法
CN109213876B (zh) * 2018-08-02 2022-12-02 宁夏大学 基于生成对抗网络的跨模态检索方法
CN110503000A (zh) * 2019-07-25 2019-11-26 杭州电子科技大学 一种基于人脸识别技术的教学抬头率测量方法
CN110503000B (zh) * 2019-07-25 2022-06-07 杭州电子科技大学 一种基于人脸识别技术的教学抬头率测量方法
CN111666439A (zh) * 2020-05-28 2020-09-15 重庆渝抗医药科技有限公司 针对云端环境快速提取和划分医学影像大数据的工作方法
CN112101358B (zh) * 2020-11-04 2021-02-26 浙江大学 一种基于解耦和干预的图网络对齐短语和图片区域的方法
CN112101358A (zh) * 2020-11-04 2020-12-18 浙江大学 一种基于解耦和干预的图网络对齐短语和图片区域的方法
CN113360673A (zh) * 2021-06-21 2021-09-07 浙江师范大学 多模态知识图谱的实体对齐方法、装置及存储介质
CN113360673B (zh) * 2021-06-21 2023-07-07 浙江师范大学 多模态知识图谱的实体对齐方法、装置及存储介质
CN113344107A (zh) * 2021-06-25 2021-09-03 清华大学深圳国际研究生院 一种基于核主成分分析和lda的主题分析方法及系统
CN113344107B (zh) * 2021-06-25 2023-07-11 清华大学深圳国际研究生院 一种基于核主成分分析和lda的主题分析方法及系统
CN114580577A (zh) * 2022-05-05 2022-06-03 天津大学 一种面向多模态的交互式数据标注方法及系统
CN114580577B (zh) * 2022-05-05 2022-09-13 天津大学 一种面向多模态的交互式数据标注方法及系统
CN117556276A (zh) * 2024-01-11 2024-02-13 支付宝(杭州)信息技术有限公司 用于确定文本和视频之间的相似度的方法和装置
CN117556276B (zh) * 2024-01-11 2024-05-10 支付宝(杭州)信息技术有限公司 用于确定文本和视频之间的相似度的方法和装置

Also Published As

Publication number Publication date
CN102629275B (zh) 2014-04-02

Similar Documents

Publication Publication Date Title
CN102629275B (zh) 面向跨媒体新闻检索的人脸-人名对齐方法及系统
Yang et al. Visual sentiment prediction based on automatic discovery of affective regions
CN110162706B (zh) 一种基于交互数据聚类的个性化推荐方法及系统
Liu et al. Hydra: Large-scale social identity linkage via heterogeneous behavior modeling
Zhang et al. Personalized social image recommendation method based on user-image-tag model
CN107506480A (zh) 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN110598130A (zh) 一种融合异构信息网络和深度学习的电影推荐方法
CN109947987B (zh) 一种交叉协同过滤推荐方法
CN112507246B (zh) 一种融合全局和局部社会兴趣影响的社会推荐方法
CN113158023A (zh) 基于混合推荐算法的公共数字生活精准分类服务方法
Ionescu et al. Result diversification in social image retrieval: a benchmarking framework
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
Ding et al. Geographical feature extraction for entities in location-based social networks
Najafipour et al. SoulMate: Short-text author linking through Multi-aspect temporal-textual embedding
CN114997288A (zh) 一种设计资源关联方法
Cheng et al. A semantic learning for content-based image retrieval using analytical hierarchy process
Wang et al. Video interestingness prediction based on ranking model
Xu et al. Visual sentiment analysis with social relations-guided multiattention networks
Wang et al. A data‐driven approach for sketch‐based 3d shape retrieval via similar drawing‐style recommendation
Wen et al. Visual background recommendation for dance performances using deep matrix factorization
Bu et al. Unsupervised face-name association via commute distance
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification
Chen et al. Exploiting aesthetic features in visual contents for movie recommendation
Firmino et al. Automatic and semi-automatic annotation of people in photography using shared events
Boteanu et al. Hierarchical clustering pseudo-relevance feedback for social image search result diversification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140402

CF01 Termination of patent right due to non-payment of annual fee