CN103425757A

CN103425757A - 融合多模态信息的跨媒体人物新闻检索方法与系统

Info

Publication number: CN103425757A
Application number: CN201310330576XA
Authority: CN
Inventors: 张玥杰; 赵昀; 金城; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2013-12-04

Abstract

本发明属于多媒体信息检索与新闻检索技术领域，具体为一种融合多模态信息的跨媒体人物新闻检索方法与系统。本发明的检索方法包括：获取网络多模态新闻数据，提取新闻人物人名获得新闻文本特征，提取新闻人物人脸图像获得新闻图像特征；对罕见新闻人物进行网络信息补充；新闻人物人名-人脸对齐聚类学习；实现人物人脸与人物人名检索。本发明的检索系统包括相应于检索方法各步骤的6个模块。本发明能够很好解决网络新闻人名-人脸对齐问题，并在此基础上解决人物新闻检索问题。这两个问题在多媒体信息检索与新闻检索领域具有重要意义，本发明具有广泛的应用价值。

Description

融合多模态信息的跨媒体人物新闻检索方法与系统

技术领域

本发明属于多媒体信息检索、新闻检索技术领域，具体涉及融合多模态信息的跨媒体人物新闻检索方法与系统。

该算法功能体现在两个方面：其一是能够将新闻图像与文本信息对齐聚类，计算出新闻图像中人脸对应文本中的哪个新闻人物；其二是能够在对齐聚类后提供跨媒体人物新闻检索的方法，检索方法有按照人脸图像检索以及按照人名检索两种。该算法能够有效解决网络多模态新闻人名-人脸对齐问题以及跨媒体人物新闻检索问题，有着非常广泛的应用价值。

背景技术

近十几年来计算机网络技术飞速发展，大量的视频、音频、图像数据也随之产生。如何索引、检索大规模多媒体数据成为了摆在我们面前的新的挑战。另一方面，计算机处理分析数据使用的是数据低级特征，人对数据的分析具有高级语义，这便是低级特征与高级语义之间不可跨越的鸿沟。如果建立跨越语义鸿沟的联系也是一个备受关注的难题^[1]。正因此，针对网络新闻资源实施有效、快速的索引、组织和分析的工作在近些年来也受到重要关注。

网络新闻数据与纯文本或纯图像数据具有很大差别。传统的纯文本或者纯图像是单一模态的数据类型，而网络多模态新闻数据多半是文本、图像相结合的类型，属于跨模态多媒体数据^[2]。传统的新闻文本检索方法，是使用单一模态的文本关键字进行检索。这样的方式并未考虑到现在网络多模态新闻跨模态数据的特殊性，不能充分挖掘网络多模态新闻的特点^[3, 4]。于是，十分需要一种新颖的网络多模态新闻检索方法，帮助实现跨模态——跨媒体检索人物新闻。其重要性主要体现在以下几个方面：

首先，传统的检索方法并不能胜任跨媒体新闻检索的任务。传统检索大都是单一模态的媒体信息检索，如文本检索或者图像检索，检索方法所使用的数据特征只包括独立的文本特征与图像特征，并不能把多种媒体信息相结合，挖掘它们之间的内在联系。网络多模态新闻的数据形式往往由文本与图像共同组成，文本与图像描述的内容往往密切相关，如只单纯使用其一并不充分。例如，输入一张图像，希望检索关于图像的新闻，传统的文本检索或者图像检索都不能完全把这些多模态信息融合在一起。又如，输入一个新闻人物的名字，希望检索有关该人物的图像，传统的文本检索使用其人名作为关键字，有时候并不能搜索到全部相关新闻。如能结合这些不同模态的媒体信息，利用它们之间的联系，如人脸与新闻人名之间的对应关系，则新闻检索时就会有许多便利。

其次，随着计算机网络的发展以及计算机多媒体技术的发展。现在的数据多样性越来越丰富，涉及的数据模态也越来越广泛。以前，网络新闻主要以文字为主，检索方式也都是文本关键字检索。随着多媒体技术、以及网络带宽的发展，现在的网络新闻基本都是以文字与图像相结合的方式呈现，甚至有的新闻还包含音频信息。不可避免，多媒体模态将会越来越多样化，此类多模态信息已经越来越广泛地应用于各种领域。而现在更多的检索的方法是，将多媒体信息添加上文本关键字标签，利用标签辅助文本检索。这种方法使用的是人工标注的方法，在数据规模较小的时候能够起到作用。但现在数据的增长速度与规模已远远超出人工能处理的范围。所以，迫切需求摆脱人工标注的、无监督的分析、处理、检索数据的方法^[5, 6]。

针对多模态新闻检索，如何挖掘跨模态数据间的联系尤为关键。一个直观的想法是，如果能准确对应新闻图像中的人物与新闻文本中的人物，则就能在这两种媒体信息间建立精确的联系，为跨媒体人物新闻检索提供有力的帮助。然而，跨模态的人名-人脸对齐工作，是一项已经正在研究中的工作^[7, 8, 9]。纵观以往的对跨媒体新闻检索的方法，主要采用以下两种。其一是，对图像数据先进行人工标注文本关键字，再使用文本关键字进行传统的文本检索^[10]。这种方法巧妙地避开了不同模态数据融合建立联系的问题，把问题进行简化，但其不足之处在于当数据规模远远超出人工处理范围时，该方法不能满足现实需要。其二是，提取文本、图像特征信息，利用不同模态信息建立融合多模态特征的检索框架^{[11, 12, 13, 14]}。这是目前比较流行的方法，但该方法难点也颇多，如以下一些困难：

首先，文本与图像特征的选取是一个难题。为将文本信息与图像信息更好地融合，特征的选取就变得至关重要。理想的模型是分别从文本与图像中提取语义信息进行关联，但由于媒体底层特征到高层语义存在着难以跨越的鸿沟，因此需要一些合适的简化方式解决特征之间关联的问题。一个合理的方法就是使用新闻人物的名字与人脸信息进行对齐，建立新闻人物之间的关系。文本特征即是人名，图像特征即是图像中人脸的特征。这种方式虽已被广泛使用但仍存在一些难题，如人脸图像在不同场合、不同角度、不同光照等条件下提取特征往往存在困难^{[15, 16, 17]}，还有新闻图像不规范的诸多问题都会使得图像特征提取很难获得令人满意的人脸识别效果。

其次，许多研究方法建立在一些人工合成加工的数据集上。虽在这些规范性较高、数据规模小的数据集上能有较好的性能效果，但当面临实际问题时，往往达不到理想的效果。实际的网络多模态新闻数据，不仅数据量庞大，而且数据规范性往往不是很高，如出现错别字、对新闻人物的昵称、新闻图像分辨率低等因素都会造成很大的困难。因此，如何在这类数据集上构建跨媒体检索框架和适应性强的算法体系也是重点之一。

最后，新闻检索的最终目的是为了达到在线工作的目的。无论是离线数据挖掘建立索引还是在线进行数据检索，都涉及时间代价，目前研究使用的方法在时间上仍达不到实际应用的需求。一些方法使用迭代优化的方法，但由于迭代更新数据计算量大且收敛慢，会耗费大量时间。虽这些工作都能够分布式进行计算，但仍不能满足实际应用的需求。

跨媒体人物新闻检索问题的重要关键在于跨模态人名与人脸对齐的问题[18, 19, 20]。该问题具有诸多应用前景，已有许多相关研究，也有许多其它领域的研究使用对齐问题的模型作为预处理。近些年的相关研究可分为两种。其一是利用文本检索方法，然后在检索结果上利用图像的视觉特征进行数据的挖掘分析，识别人脸。即首先使用文本关键字进行传统的文本检索，筛选出一部分人脸信息；然后再利用图像视觉特征对人脸信息经过计算获得各个人物的人脸子集，子集中元素间距离紧密且区别大，满足高内聚低耦合的特点。其二是直接提取文本与图像的特征信息，构建融合两种特征的框架，基于跨模态的特征关联进行检索。即首使用特定的文本特征和图像视觉特征，建立融合跨模态特征的模式，使用统计方法进行迭代优化或者聚类，获得人名-人脸对齐的结果。

纵观上述这些方法，虽已能取得一些不错的效果，但仍存在一些不足。其一是，许多方法以新闻为单位进行信息提取与特征关联，未考虑到所有新闻整体之间的关系。虽然网络新闻是以一篇新闻为单位的形式呈现的但不同新闻之间会有千丝万缕的联系，挖掘新闻间的联系非常有利于对齐算法整体性能的提升。其二是，许多方法使用数据量较小、数据规范性好的数据集。这类数据集不能准确反应真实新闻检索问题，且检索有名新闻人物的问题比不知名新闻人物要简单得多。在规整的数据集上进行知名新闻人物检索的算法并不能在实际应用情况下自如使用，这些方法还未达到实际应用的水平。其三是，许多方法使用优化迭代方法，在迭代更新时会耗费大量计算，运行速度缓慢，且算法收敛时间长，往往不能快速迭代得到最优值。

总体来讲，非常有必要构建一个能同时兼顾上述问题的跨媒体人物新闻检索框架，这也正是本发明的目的所在。从前述的各个细节考虑，构架一个有效的网络新闻跨模态人名-人脸对齐算法，然后再利用其进一步完成人物新闻检索功能。

参考文献

[1] Smeulders, A., Worring, M., Santini, S., Gupta, A., Jain, R.: Content-based image retrieval at the end of the early years. IEEE Transactions on Pattern Analysis and Machine Intelligence 22(12) (2000) 1349–1380

[2] N. Chen: A Survey of Indexing and Retrieval of Multimodal Documents: Text and Images

[3] Jeon, J., Lavrenko, V., and Manmatha, R. 2003. Automatic image annotation and retrieval using crossmedia relevance models. In Proc. of SIGIR 2003, 119-126.

[4] Yang, R. and Hauptmanan, A.G. 2007. A review of text and image retrieval approaches for broadcast news video. Information Retrieval, 10: 445-484.

[5] H. K. Sawant, Dipali Kadam. An Effective Image-Text Association Algorithm to Retrieve Data from Multimedia Web Documents. International Journal of Computer Technology and Electronics Engineering (IJCTEE) Volume 1 , Issue 2.

[6] Jung -Woo Ha, Byoung-Hee Kim. Text-to-Image Cross- Modal Retrieval of Magazine Articles Based on Higher-order Pattern Recall by Hypernetworks. The 10th International Symposium on Advanced Intelligent Systems (ISIS 2009).

[7] Berg, T.L., Berg, A.C., Edwards, J., and Maire, M. 2007. Names and Faces. Technical Report, U.C. at Berkeley.

[8] Everingham, M., Sivic, J., and Zisserman, A. 2006. Hello! My name is … Buffy - Automatic naming of characters in TV video. In Proc. of BMVC 2006, 889-908.

[9] Huang, G.B., Jain, V., and Learned-Miller, E. 2007. Unsupervised joint alignment of complex images. In Proc. of ICCV 2007, 1-8.

[10] DM Blei, MI Jordan. Modeling Annotated Data. Proceedings of the 26th annual international ACM …, 2003

[11] Mensink, T., and Verbeek, J. 2008. Improving people search using query expansions: How friends help to find people. In Proc. of ECCV 2008, 86-99.

[12] Guillaumin, M., Mensink, T., Verbeek, J., and Schmid, C. 2008. Automatic face naming with caption-based supervision. In Proc. of CVPR 2008, 1-8.

[13] Ozkan, D. and Duygulu, P. 2006. A graph based approach for naming faces in news photo. In Proc. of CVPR 2006, 1477-1482.

[14] Pham, P.T., Moens, M.F., and Tuytelaars, T. 2010. Cross-media alignment of names and faces. IEEE Transactions on Multimedia, 12(1): 13-27.

[15] Zhang, L., Hu, Y.X., Li, M.J., Ma, W.Y., and Zhang, H.J. 2004. Efficient propagation for face annotation in family albums. In Proc. of MM 2004, 716-723.

[16] Maji, S. 2007. Fast Automatic Alignment of Video and Text for Search/Names and Faces. In Proc. of MS’07 Workshop, 57-64.

[17] Huang, G.B., Jain, V., and Learned-Miller, E. 2007. Unsupervised joint alignment of complex images. In Proc. of ICCV 2007, 1-8.

[18] V Lavrenko, R Manmatha, J Jeon. A model for learning the semantics of pictures. V Lavrenko, R Manmatha, J Jeon - 2003 - books.nips.cc.

[19] Jeon J, Lavrenko V, Manmatha R. Automatic image annotation and retrieval using cross-media relevance models[C]//Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval. ACM, 2003: 119-126.

[20] Joshi D, Wang J Z, Li J. The story picturing engine: finding elite images to illustrate a story using mutual reinforcement[C]//Proceedings of the 6th ACM SIGMM international workshop on Multimedia information retrieval. ACM, 2004: 119-126。

发明内容

本发明的目的在于提出一种融合多模态信息的跨媒体人物新闻检索方法，解决如下两个方面的问题：其一是解决网络新闻文本中人名与新闻图像中人脸的对齐问题；其二是解决对齐后的新闻检索问题。

本发明所建立的算法模型框架核心思想是建立一套新闻自动对齐聚类的机器逻辑，当用户给定新闻人物人脸、或者新闻人物人名、或者两者兼而有之进行查询时，该算法框架可向用户提供相应的新闻查询结果。

本发明提出的融合多模态信息的跨媒体人物新闻检索方法，具体步骤如下：

（1）获取网络多模态新闻，即在新闻媒体网络平台上，利用网络爬虫获取新闻文本及相关图像，为方法提供网络多模态新闻数据；

（2）提取新闻文本特征，即提取新闻文本中出现的新闻人物人名，并通过对新闻文本的分析，对人物的重要程度进行评估，作为新闻的文本特征；

（3）提取新闻图像特征，从每一篇新闻图像中提取新闻人物人脸图像，并且使用基于SIFT特征的人脸特征表示方法提取人脸图像特征，作为新闻图像特征；

（4）补充网络信息，即利用网络挖掘信息，对新闻中比较罕见的人物进行信息补充，以提升聚类算法的准确性；

（5）学习新闻聚类，即使用基于模糊C均值聚类的方法，对新闻人物人名-人脸对齐，并进行聚类学习；

（6）检索跨媒体人物新闻，即得到聚类结果后，采用人名检索和通过人脸检索两种方式进行检索。

对应于上述检索方法的6个步骤，本发明的融合多模态信息的跨媒体人物新闻检索系统，包括6个模块，即(1) 网络多模态新闻获取模块；(2) 新闻文本特征提取模块；(3) 新闻图像特征获取模块；(4) 网络信息补充模块；(5)新闻聚类学习模块；(6) 检索跨媒体人物新闻检索模块。

下面详细介绍本发明融合多模态信息的跨媒体人物新闻检索方法的流程以及相应的检索系统的六个算法模块。系统框架如图1所示。

所述提取新闻文本特征，可分为两步：

（1）提取新闻文本中出现的新闻人物人名，其步骤为：

（a）首先，使用基于Stanford NLP工具包编写的人名检测器，从新闻文本中检测出人名；

（b）然后，使用基于LingPipe Package工具包编写的相同人名合并器，将同一人物的不同人名表达形式合并在一起；

（2）对人物的重要程度进行评估，评估的指标有三个：

（a）句法分析树深度（SPTD），将新闻文本构建句法分析树，使用人名在句法分析树中的深度衡量人名的重要性，在句法分析树中层次越浅，人名在文本中的重要程度越高；

SPTD的定义如下：

其中，

Figure 201310330576X100002DEST_PATH_IMAGE003

表示第i个人名类；

表示此人的不同名字；

Figure 201310330576X100002DEST_PATH_IMAGE005

表示名字在句法分析树中的深度；

（b）句法分析树遍历次序(SPTTO)，将新闻文本构建句法分析树，使用人名在句法分析树中的遍历次序衡量人名的重要性;在句法分析树中遍历次序越靠前，人名在文本中的重要程度越高;

SPTTO的定义如下：

Figure 201310330576X100002DEST_PATH_IMAGE007

其中，表示第i个人名类；表示此人的不同名字；

表示名字在句法分析树中的广度优先遍历次序;

(c)人名出现次数(SNC),在新闻中人名出现的次数越多，重要程度越高;

SNC的定义如下：

其中，

表示第i个人名类;

根据上述三个指标，进一步给出人名相对显著性( RS)；

RS的定义如下：

Figure 201310330576X100002DEST_PATH_IMAGE011

,

Figure 201310330576X100002DEST_PATH_IMAGE013

其中，

分别是句法分析树深度、句法分析树遍历次序、人名类大小三个因素的权数，不同权数值的设定用于调节不同因素的比重；相对显著性值介于0、1之间，值越大表明对应的新闻人物重要程度越高；反之，值越小表明对应的新闻人物重要程度越低。

所述新闻图像特征用新闻图像中提取的人脸特征表示，提取新闻图像特征的方法，其步骤为：

（a）首先，检测新闻图像中的人脸，人脸检测使用Viola-Jones Detector；并标记人脸所在范围；

（b）然后，提取人脸的特征，求出特征向量；具体提取方法是在人脸上找到9个特征点，并在每个点上提取SIFT特征。

所述补充网络信息,针对罕见新闻人物，在网络上寻找脸部图像辅助进行聚类学习，其具体方法为，在Google Images中搜索这些人物的脸部特写，取前5张图像作为聚类样本的补充。

所述新闻聚类学习，使用基于模糊C均值聚类的方法，其聚类的条件与变量描述如下：

（1）有F个人脸特征向量，特征向量维数D，需要得到C个新闻人物的聚类中心，C个新闻人物的聚类中心为

；

（2）

Figure 201310330576X100002DEST_PATH_IMAGE017

相关时

，不相关时

Figure 201310330576X100002DEST_PATH_IMAGE019

（3）的聚类隶属度为

Figure 201310330576X100002DEST_PATH_IMAGE021

；

聚类算法的具体流程如下：

（a）初始化，根据RS值初始化隶属度；

（b）迭代

I)计算类中心Center，Center更新公式如下：

II)计算隶属度U，U更新公式如下：

Figure 201310330576X100002DEST_PATH_IMAGE027

其中，m是固定参数；dist是距离函数，一般取欧氏距离；

直到聚类中心收敛或者到达最大迭代次数，输出聚类中心Center以及隶属度U。

所述检索跨媒体人物新闻，检索分为两种方法：其一是使用人名搜索，希望知道此人物的容貌、此人物的信息、及关于此人物的新闻；其二是使用人脸图像搜索，希望知道此人物是谁、此人物的信息、及关于此人物的新闻；

两种方法的具体内容如下：

（a）对于上述第一种检索方式，首先依次检索人名类，找到与查询人名一致的人名类；

查询结果如下：

查询人物新闻的结果就是人名类在建立时对应的新闻数据；

查询人物图像的结果就是与此人名类隶属度较高的人脸图像；

查询人物的其他名称就是此人名类的其他表达形式；

（b）对于上述第二种检索方式，首先按照前述的新闻图像提取特征的方式，提取查询图像的特征；然后计算特征向量到各个类中心的距离，取距离最短的一个或几个作为查询新闻人物的人名类；

查询结果如下：

查询人物新闻的结果就是人名类在建立时对应的新闻数据；

查询人物的其他名称就是此人名类的其他表达形式。

本发明与传统的新闻人名-人脸对齐方法及新闻检索方法相比，具有如下优势：

(1)传统的新闻人名-人脸对齐方法大多使用迭代优化算法，过程复杂，运行时间冗长，难以实时获取结果，不利于应用到实际问题。而上述算法中的核心模块——基于模糊C均值聚类，运行效率高，可实时计算出聚类结果，适合应用到实际问题。

(2)传统的新闻检索方法使用关键词检索，形式比较单一。而上述算法不仅能使用人名关键词检索，也能使用人脸检索，且能得到人脸与人名之间的相互关联，检索方法更有效、信息更丰富。

(3)传统的新闻检索方法大都属于硬聚类检索，只能给出一篇新闻属于检索结果与否，不能给出具体属于相关程度如何。而上述算法属于软聚类检索，能给出检索结果的概率值，更准确地刻画检索结果。

(4)针对罕见新闻人物，从网络上获取其相关人脸图像信息对聚类算法进行信息补充。

附图说明

图1为本发明方法流程及系统结构框架。

图2为有关网络多模态新闻获取示例。

图3为有关文本特征提取示例。

图4为有关新闻图像特征提取示例。

图5为有关网络信息补充示例。

图6为有关新闻人物聚类示例。

图7为有关新闻检索示例。

具体实施方式

系统框架如图1所示。

1、网络多模态新闻获取

人物新闻数据应尽量贴合实际人物新闻检索情况，涉及新闻内容多样、新闻人物丰富。综合考虑，使用知名新闻网站获取多模态新闻作为数据集，具体使用Yahoo! News，并进行一定筛选后作为算法数据集。Yahoo! News新闻涉及领域广泛，政治、经济、体育等都涵括其中，所涉及的新闻人物也都是国际知名人物。每一篇筛选获取的新闻均有文本部分与图像部分。图像中包含新闻人物人脸，文本中包含多个新闻人物的人名。该数据集能够很好地模拟真实新闻检索情况，且数据集多样性好。

有关网络多模态新闻获取示例，如附图2所示。

2、新闻文本特征提取

新闻文本特征获取的第一步骤，关键在于从新闻文本中找到出现的人名实体。这一问题属于算法比较成熟的问题，因此可借助已有工具帮助完成人名实体检测。首先，对新闻文本进行预处理，删去新闻末尾记者或者摄影师等信息，避免对人名检测产生干扰。接下来，就可使用已有工具进行人名实体检测，这里所使用的是功能较为齐全与完善的Stanford NLP自然语言处理工具包^[1]。

新闻文本特征获取的第二步骤，需要将同一新闻人物的不同称谓或者不同人名表达形式合并在一起，如“Obama”、“Barack Obama”、“the president”在同一篇新闻中描述的是同一个人。这里，采用LingPipe Package工具包^[2]来解决该共指问题。

新闻文本特征获取的第三步骤，需要对一篇新闻中不同新闻人物的重要程度进行评估。一篇新闻中的不同新闻人物重要程度显然不尽相同，一般情况下越重要的人物应该在新闻图像中出现的可能性越高。因此，进行人名重要性评估将会对人名-人脸对齐算法起到较为有益的帮助。

人名重要性评估的关键在于分析新闻文本结构，利用新闻文本的上下文关系对不同人物的重要程度做出评估。比较常用的分析句法结构的方法是使用句法分析树(Syntactic Parse Tree)，因而这里考虑使用句法分析树。具体地，评估人名重要性主要由以下三个因素组成：

（1）句法分析树深度(Syntactic Parse Tree Depth, SPTD)

对一篇新闻文本构建句法分析树之后，不同人名在句法分析树中的位置各不相同，首先考虑使用人名在句法分析树中的深度来衡量其重要程度。由于句法分析树按句法层次结构生成，子树表示类似从句的层次从属关系。通常，人名在句法分析树中层次越深，就位于句子越深的从句结构中，其重要性也就越低；反之，人名在句法分析树中层次越浅，就越位于句子的主干，重要性也就越高。SPTD的定义如下所示：

(1)

其中，

表示第i个人名类（即第i个新闻人物）；

表示此人物的不同名字；

表示人名

Figure 201310330576X100002DEST_PATH_IMAGE029

在句法分析树中的深度。

（2）句法分析树遍历次序(Syntactic Parse Tree Traversal Order, SPTTO)

对一篇新闻文本构建句法分析树之后，不同人名在句法分析树中的位置各不相同，也可考虑使用人名在句法分析树中的遍历次序来衡量其重要程度。由于句法分析树是按句子组成顺序产生的树状结构，左子树在原句中的顺序先于根节点在原句中的顺序，根节点在原句中的顺序又先于右子树在原句中的顺序。通常，在句子中越重要的人物越会出现在句子的前端。因此，如人名在句法分析树中广度优先遍历次序越靠前，则其在句子中位置也越靠前，重要性也就越高；反之，在句法分析树种广度优先遍历次序越靠后，其在句子中的位置也越靠后，重要性也越低。SPTTO的定义如下：

(2)

其中，

表示第i个人名类（即第i个新闻人物）；

表示此人物的不同名字；

表示人名

在句法分析树中的广度优先遍历次序。

（3）人名出现次数(Size of Name Cluster, SNC)

通常，句子一个人物的不同表述形式出现的次数越多，其重要程度也就越高。因此，很自然就可以使用人物不同表述形式的出现次数来衡量一个人名的重要性。

SNC定义如下：

(3)

其中，

表示第i个人名类（即第i个新闻人物）。

通过上述三个因素的有效融合，来具体衡量一个人名在新闻文本中的重要性。当然，这里需要采用一种合理的方式合并这三个因素，从而进一步提出人名相对重要性(Relative Salience, RS)的形式化定义，如公式(4)所示。

, (4)

其中，

分别是有关句法分析树深度、句法分析树遍历次序、人名类大小三个因素的参数，这些不同参数值的设定主要用于调节不同因素的比例。通过大量实验经验证明，

时评估效果良好，具体实验中可分别取

。相对重要性值介于0、1之间，值越大表明对应的新闻人物重要程度越高；反之，值越小表明对应的新闻人物重要程度越低。同时，上述定义中第二个式子约束同一篇新闻中出现的所有新闻人物相对显著性值和值为1。

基于相对重要性值能够有效评价新闻人物的重要程度，进而说明人物/人名与当前新闻的关联程度、及此人物/人名在新闻图像中出现的可能性大小，此重要性度量将对后续描述的聚类算法提供显著帮助。

有关文本特征提取示例，如附图说明中图3所示。

3、新闻图像特征提取

新闻图像特征提取是从新闻图像中提取新闻人物人脸图像特征的过程，主要分为两个步骤。其一是在图像中找到人脸所在的位置；其二是将人脸图像转化为特征向量。

第一步骤，在新闻图像中找到人脸的位置，并提取出标准大小的人脸图像。由于人脸检测问题已有比较成熟的方法，可使用成熟的算法软件包，对此采用Viola-Jones Detector。Viola-Jones Detector可在一幅图像中检测到人脸所在的位置，并利用固定大小的矩形框进行标注提取。

第二步骤，计算所提取出的人脸图像特征，转化为特征向量。由于图像都是真实的新闻图像，同一新闻人物的不同图像光照条件、拍摄角度、缩放尺度、环境都会千差万别。因此，计算图像特征需要选用适应能力强、对缩放尺度、旋转、光照等因素都具有较好适应能力的特征。SIFT (Scale Invariant Feature Transform)特征是一个很好的选择，该特征在光照、缩放尺度、旋转等条件的影响下仍能有比较好的效果。首先，通过分析第一个步骤求得的标准大小人脸图像，找到人脸图像的9个人脸特征点（即对眼睛、鼻子、嘴巴的位置进行定位）；然后，再使用SIFT特征，对上述9个特征点分别求出特征向量；最后，将9个点的特征向量拼接形成整张人脸的特征向量。

有关新闻图像特征提取示例，如附图说明中图4所示。

4、网络信息补充

由于新闻数据集是从网络上直接获取的数据，其规模有限，很可能会出现有的新闻人物相关的信息非常少，即为罕见新闻人物。数据量过少所可能导致的直接结果就是，在后续聚类算法的处理过程中，这些罕见新闻人物的聚类学习非常片面和不精确，会对整体性能有很大影响。因此，需要针对这些相关新闻数据内容非常有限的罕见新闻人物，再从网络上挖掘相关新闻信息辅助聚类的进行。

因为聚类过程实质上是人脸特征的聚类学习过程，前述的新闻图像特征提取就是为了将新闻图像转化成特征向量。因此，在进行网络信息补充时，可直接寻找关于新闻人物的适合人脸图像。有关网络信息补充的具体处理过程，如下所示：

（1）判断新闻人物是否相关人脸图像信息过少

针对网络信息补充的第一个步骤，是判断哪些新闻人物的相关人脸图像信息过少。具体来说，如一个新闻人物在一篇新闻中出现，则新闻图像中所有出现的人脸都是该新闻人物的候选人脸。但如一个新闻人物的所有候选人脸总数量过少，则对针对该新闻人物的聚类特征就会不足。因此，使用一个新闻人物的所有候选人脸总数来判断一个新闻人物的相关人脸图像信息是否过少，即使否为罕见新闻人物。

（2）网络信息补充

为了补充人脸图像信息含量较少的新闻人物，需要在网络上寻找一些关于新闻人物的特写。这里，考虑使用Google Images这一网络图像搜索引擎来搜索新闻人物人脸图像。在Google Images中所提供的搜索选项中，可选择搜索人物脸部特写，便于满足补充人脸图像获取这一特殊需求。

具体地，将人脸图像信息含量较少的新闻人物人名作为查询，基于使用Google Images搜索具体新闻人物的人脸特写图像，取前若干幅作为此人物脸部特征提取的基础。所选取的人脸图像数量太少可能造成脸部特征不充足，所选取的人脸图像数量太多又容易包含不相关的人脸图像信息，因此一般取前5幅人脸图像即可满足要求。

（3）补充信息特征提取

网络信息补充的最后一步需要对所获取的图像提取脸部特征，采用与前述新闻图像特征提取的同样处理策略，提取补充人脸图像的SIFT特征。

通过上述三个步骤，即可完成网络人脸图像信息的补充，基于此所获取的人脸特征将为后续的聚类算法提供帮助。

有关网络信息补充示例，如附图说明中图5所示。

5、新闻人物聚类学习

本发明关键的部分之一就是新闻人物的聚类学习过程，该过程不仅能为所有新闻完成人名和人脸的对齐，并针对每一个新闻人物学习而得到人脸特征中心，这些中心将为之后的检索方法提供直接的检索依据。

有关新闻人名-人脸对齐问题，实质上是将已知样本在特征空间衡量距离后进行的聚类问题。新闻人名-人脸对齐后，即聚类完成后，新闻检索问题实际上是一个将查询样本在特征空间衡量距离后进行的分类问题。因此，首先是如何聚类的问题。聚类的经典算法很多，这里之所以选取模糊C均值聚类，其原因在于希望得到“软”聚类结果。“硬”聚类结果是指，在聚类完成后样本只能唯一属于确定的一类。与之相对，“软”聚类结果是指，在聚类完成后，样本相对于每一类都具有一定的隶属度。隶属度的和值为1，对于一类如果隶属度越高，则说明属于该类的程度越高；反之，如果隶属度越低，说明属于该类的程度越低。

使用“软”聚类更有助于分析处理“模棱两可”的情形，因为对于真实的网络新闻图像进行聚类并没有对理想的实验数据效果好，有时会出现一张人脸分配给多个人的隶属度不相上下。面对这样“模棱两可”的情形，如果使用“硬”聚类，只是单纯的取具有最高隶属度的类作为聚类结果，会非常片面。而“软”聚类就能提供更多的聚类信息，所以考虑使用“软”聚类，模糊C均值聚类就是对此的一个经典方法。

模糊C均值聚类的问题可描述为：给定F个数据样本，将这些数据聚为C个类。而这里所介绍的算法是在经典的模糊C均值聚类算法上，相对于人名-人脸问题的特殊性进行改进优化后得到。针对新闻人物的特别聚类问题可描述为：给定F个人脸特征向量，将这些数据分为C类，每一类代表一个新闻人物，且分配过程具有一些约束，限制人脸特征与人名出现在同一篇新闻中才进行聚类。

首先，形式化模糊C均值聚类问题、约定问题输入输出及参数等。

上述聚类问题的目标在于优化下述函数：

(5)

其中，dist函数是欧氏距离函数，m是为隶属度参数（一般取2.0）。

此优化函数的目的在于优化每个类自身的内类间距，希望做到每个类自身内聚度高，类间距大。模糊C均值聚类就是一个对上述函数进行优化的迭代算法。下面，先简述标准的模糊C均值聚类的迭代算法流程：

（1）初始化

初始化隶属度矩阵U和类中心Center。

U初始化的具体公式如下：

(6)

再根据人脸数据对类的隶属度U，更新Center。

Center初始化的具体公式如下：

(7)

其中，m为调整隶属度的参数（一般取2.0）。

（2）迭代

迭代的过程是一个类中心不断修改纠正的过程，每一轮迭代都要重新计算类中心、及样本对于各个聚类中心的隶属度。经过每一轮迭代，聚类中心都更加精确，相应的隶属度也更加精确。

聚类中心迭代：

(8)

隶属度迭代：

(9)

更新直至聚类中心位置不再偏移，或者迭代次数达到最大迭代次数时停止。

（3）输出

迭代收敛以后，输出聚类中心Center以及隶属度矩阵U。

针对通常的聚类问题，每一个样本相对于每一个聚类中心都具有一定的隶属度。但在新闻人名-人脸对齐这一特殊聚类问题中，人脸特征向量并非针对每一新闻人物的类中心都具有隶属度，只有在同一新闻中共现的人脸和人名才具有关联而进行聚类。改进的模糊C均值聚类算法通过引入P参数对聚类加以限制，达到每一篇新闻人名-人脸共现的约束。

从另一个角度来看，P参数是人为对每一篇新闻提取所设定的限制，可看作人为对新闻所赋予的标签，因而可理解为是一种高层语义上的特征。与之相对，Face与Center都是在图像底层抽取的SIFT特征。如此，改进的算法就将聚类样本的高层语义特征与底层图像特征同时融合在同一聚类框架下。高层和底层特征的融合能更好地描述聚类问题的原有特征，对这一特殊聚类问题的理解与解决也自然更为合理。

下面，形式化改进后的模糊C均值聚类问题，约定问题输入输出及参数等。

除参数P之外，其他参数沿用标准模糊C均值聚类方法。参数P用于约束聚类。

改进后的模糊C均值聚类问题目标在于优化下述函数：

(10)

其中，dist函数为欧氏距离函数，m为隶属度参数（一般取2.0）。

参照标准模糊C均值聚类的迭代求解方法，可给出改进后的聚类问题的迭代算法流程，如下所述。

（1）初始化

初始化隶属度矩阵U和类中心Center。

与标准模糊C均值不同，由于新闻人名-人脸对齐问题的特殊性，U矩阵的赋值不使用0、1之间的随机数。前述新闻文本特征提取方法中，涉及新闻人名的重要性评估，越重要的人占有新闻人脸的可能性也就越高。出于这个想法，可利用新闻人名重要性评估帮助U设置初始值。

U初始化的具体公式如下：

(11)

其中，

Figure 201310330576X100002DEST_PATH_IMAGE063

表示

与

共现的新闻中

的重要程度。由于

，因而可确保

与

在同一新闻中共现。同时，由于在一篇新闻中不同人名的重要程度有

，因而可保证。

再根据人脸数据对类的隶属度U，更新Center。

Center初始化的具体公式如下：

(12)

其中，m为调整隶属度的参数（一般取2.0）。

（2）迭代

改进聚类算法中的迭代过程同样是一个类中心不断修改纠正的过程，每一轮迭代都要重新计算类中心、及样本对于各个聚类中心的隶属度。经过每一轮迭代，聚类中心都更加精确，相应的隶属度也更加精确。

聚类中心迭代：

(13)

隶属度迭代：

(14)

（3）输出

迭代收敛后，输出聚类中心Center以及隶属度矩阵U。

改进后的模糊C均值聚类算法既保有原有算法的框架，又加入P参数高层语义特征与人名重要性评估的辅助，效果更佳理想。

算法输出的隶属度矩阵U能给出新闻人脸人名对齐结果。对齐的结果具体公式如下：

(15)

其中，

表示当

取到最大值时，

对应的值。

有关新闻人物聚类示例，如附图说明中图6所示。

6、新闻检索

此算法框架的最终目的是为了达到多样性的检索目的，前述的人名-人脸对齐可以说是对人物新闻检索的铺垫。现在普遍使用的新闻检索方法是关键字检索，即通过输入新闻关键字而检索相关新闻信息，这类检索方法不能满足跨媒体人物新闻检索的需求。例如，已知一张人脸图像，不知道人物姓名，而希望搜索关于这个人物的新闻。传统的关键字搜索方法就不能满足上述要求。因此，需要建立一种可满足多模态查询的跨媒体检索方法。此算法框架就是为了实现针对多跨模态查询的跨媒体检索方法而构架，前述的新闻人名-人脸对齐可看作为检索前的预处理。

这里，检索算法提供两种检索方式，其一是通过输入人名关键字检索关于此人新闻，且能输出与此人最相关的人脸图像；其二是通过输入人脸图像，检索关于此人物的新闻且能输出与此人物最贴切的人名等相关信息。

（1）人名关键字检索

检索输入是新闻人名关键字（如“Barack Obama”）。

检索详细步骤如下：

（a）将新闻人名关键字与所有新闻人物类中的名字比较，找到相对应的人名类；

（b）检索关于此人物的新闻与传统检索方式相一致，输出与人名类相关的新闻；

（c）针对查询人名的人脸，输出离人名类聚类中心最近的若干张人脸图像即可；

（d）检索关于此人物的其他人名表达形式，输出关于此人名类的其他人名表达形式。

需要说明的是，如果步骤a.中未能找到完全对应的人名类，可计算与人名类表达形式的最短编辑距离(Minimal Edition Distance)，取最短编辑距离最小的人名类作为检索推荐标签；如果步骤c.中最近的若干张人脸图像的隶属度U值均不高，说明关于此人物的人脸图像并不是非常精确，可考虑不输出这些不精确的结果。

（2）人脸图像检索

检索输入是新闻人脸图像（图像可能并非人脸特写）。

检索详细步骤如下：

(a)首先需要提取新闻人脸图像的图像特征，所使用的方法与前述的新闻图像特征提取的方法一致。即先使用Viola-Jones Detector检测人脸所在区域，并截取人脸区域图像；再计算人脸关键点的SIFT特征作为图像特征。

(b)使用计算出的特征向量，在特征空间下计算与各个人物聚类中心的距离，取距离最近的聚类中心为此新闻人物类。

(c)检索关于此人物的新闻即为关于此聚类中心的新闻；

(d)检索关于此人物的人名即为关于此聚类中心的人名表达形式。

需要说明的是，如果b.步骤中多个聚类中心距离不分伯仲，说明相应人脸身份的确定并没有十足把握，可考虑输出多个新闻人物的结果；如与聚类中心的距离过远，则人物两者之间没有关联，就需要设置一个阈值进行区别，如阈值可以设置成所有类中心之间的平均距离。

有关新闻检索示例，如附图说明中图7所示。