CN102024056A - 利用计算机的基于多媒体分析的新闻人物检索方法 - Google Patents

利用计算机的基于多媒体分析的新闻人物检索方法 Download PDF

Info

Publication number
CN102024056A
CN102024056A CN2010106058328A CN201010605832A CN102024056A CN 102024056 A CN102024056 A CN 102024056A CN 2010106058328 A CN2010106058328 A CN 2010106058328A CN 201010605832 A CN201010605832 A CN 201010605832A CN 102024056 A CN102024056 A CN 102024056A
Authority
CN
China
Prior art keywords
news
relationship
event
person
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010106058328A
Other languages
English (en)
Inventor
卢汉清
李泽超
刘静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2010106058328A priority Critical patent/CN102024056A/zh
Publication of CN102024056A publication Critical patent/CN102024056A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是一种利用计算机的基于多媒体分析的新闻人物检索方法,包括:对新闻图像做数据预处理;多模态融合人物关系初始化;事件关系初始化,提出了多关系的概率矩阵分解模型挖掘潜在的关系,根据用户提交的查询关键词和已重构出来的关系对新闻人物和新闻事件按照与查询关键词的相关性进行排序;检索结果浏览界面:用户向计算机提交的人物名字为检索关键词,提供了一个以查询人物为中心的关系视图和一个相关新闻事件列表视图,将检索结果反馈给用户。

Description

利用计算机的基于多媒体分析的新闻人物检索方法
技术领域
本发明属于图像处理及信息处理技术领域,涉及多媒体内容分析与理解的技术处理,具体涉及利用计算机的基于多媒体分析的新闻人物检索的架构。
背景技术
随着信息技术的发展和网络的全球化,在线新闻越来越多并且也越来越受欢迎。因此,有效地管理大量的来自多个网站的新闻文档是非常有必要的。
一篇新闻文档通常定义为由特定人或者机构发起的、发生在某个时间和地点的特定事件。也就是说,对应一个特定新闻事件的新闻文档可以根据以下的‘4W’元素唯一标识:人或者机构(Who)、时间(When)、地点(Where)和事件(What)。其中,作为新闻实体的人应该予以特别的关注,因为不同新闻人物之间的社会关系网络可以认为是新闻事件之间一种间接联系。因此,新闻事件和新闻人物应该认为是新闻检索中的两个基本要素,尤其在本专利的新闻人物检索中,这两个要素是相互关联的。当不同的新闻事件发生在同样的新闻人物或机构时,我们可以认为这些新闻事件可能是相关的;另一方面,同时出现在某一新闻事件中的新闻人物也可认为是相关的。对有效且准确组织和检索可能相关的新闻事件而言,如何挖掘这两个要素的内部关系和相互关系是一个非常重要并且具有挑战性的问题。
在多种新闻相关的应用中,一些研究者已经关注挖掘新闻事件或者新闻实体的内部关系了。但是,大部分工作采用文本分析和忽略了事件和实体之间的关系。通常,新闻网页包含了图片,更加生动地描述一个新闻事件。新闻人物或者机构可能出现在这些图片当中。因此,新闻图片对理解新闻文档的重要性和新闻文本一样的,并且描述的更精确。目前,几乎没有研究工作试图采用多模态信息分析新闻,在新闻检索中也没有相关工作开发可利用的事件-实体关系来挖掘或者纠正一些隐含的相关性。
微软亚洲研究院研发的微软人立方关系检索从超过十亿的中文网页中自动的抽取出人名、地名、机构名以及中文短语,并且通过算法自动的计算出它们之间存在关系的可能性。此外,人立方关系检索还自动的找出人名之间最可能的关系描述词、与人名最可能相关的称呼、作品词条等。人立方关系检索从这些中文网页中自动的辨别出人名所对应的人物简介文字,并按照这些文字是人物简介的可能性进行排序。人立方改变了传统呈现模式,提供了一种新的浏览网络信息的体验:以人与人之间的关系为纽带,将埋藏在网络信息海洋中的“人”的信息连接汇总,图文并茂地展现出来。
人立方的任务是识别相关的新闻实体对和检测出表示关系的关键词。它采用引导结构降低人为标注样本的个数和一般关系模型——马尔可夫逻辑网络在不同层次上抽取实体(人名、地名、机构和中文短语)关系。
但是,人立方依赖于文本分析只计算实体之间的关系,尤其是人物-人物之间的关系,忽略了目前网页的多媒体特性。另外,新闻人物之间是可以通过新闻事件产生关系的,并且新闻人物的社会网络关系和新闻事件之间的关系以及事件-人物关系不是独立的,而是相关的。人立方的检索结果只展示了人物之间的关系图,没有将人物与事件的关系和事件之间的关系展示出来。
发明内容
有鉴于此,本发明的主要目的在于采用目前网页的多媒体特性和综合无缝地考虑事件-人物、人物-人物和事件-事件的关系来挖掘潜在的事件-人物、人物-人物和事件-事件的关系,给用户提供更加丰富的信息;另外,本发明的检索结果展示界面中展示了新闻人物、新闻事件与查询的关系,还提供了与新闻事件相关的新闻人物和事件,使用户更生动地了解到更丰富的信息,为此而提供一种利用计算机的基于多媒体分析的新闻人物检索方法。
为达到上述目的,本发明提供利用计算机的基于多媒体分析的新闻人物检索方法的技术方案包括步骤如下:
步骤S1:利用计算机提取新闻图像,用自然语言处理技术提取出新闻文档的标题、时间、网站、摘要和正文以及对应的网址,提取出图像的网址和图像对应的文本信息,并去除重复文档和从新闻文档中提取出任命,为后续工作提供数据支持;
步骤S2:多模态融合的关系初始化:基于步骤S1提供的数据,一是统计人物在事件中出现的频率,采用二值关系作为人物-事件的初始关系,即人物在事件中出现则二者的关系为1,否则为0;二是利用当前新闻网页的文本信息和图像信息计算人物之间的关系,利用统计语言处理技术统计新闻人物在新闻文本中的共生关系,以及利用人脸识别技术统计新闻人物在新闻图片中的共生关系,将这两种共生关系线性加权作为新闻人物的初始关系;三是利用一篇新闻文档的标题、摘要和正文部分的不同重要性;对一篇文档而言,标题是最重要的,摘要次之,最后是正文;分别统计文档的标题、摘要和正文的相似关系,然后将这三种相似关系分别赋予不同的权重进行加权,得到的结果作为新闻文档之间的初始关系;
步骤S3:关系重构:基于步骤S2计算出来的人物-事件、人物-人物以及事件-事件的初始关系,采用综合多种关系的概率矩阵分解模型挖掘出潜在的人物特征矩阵和潜在的事件特征矩阵,利用得到的潜在矩阵对人物-事件、人物-人物和事件-事件关系进行重构;在矩阵分解的过程中,并通过矩阵之间共享因子将事件-人物、人物-人物和事件-事件这三种关系矩阵无缝地结合起来,最后利用通过优化目标函数得到矩阵因子重构和细化关系矩阵,挖掘出潜在的关系;
步骤S4:根据用户提交的查询关键词和已重构出来的关系对新闻人物和新闻事件按照与查询关键词的相关性进行排序;
步骤S5:检索结果浏览界面:用户向计算机提交的人物名字为检索关键词,提供了一个以查询人物为中心的关系视图和一个相关新闻事件列表视图,将检索结果反馈给用户。
其中,采用多模态信息计算人物之间的关系方法,综合利用所述新闻网页中的文本信息和图像信息,分别计算人物在文本、图像中的关系,并将这两种模态信息中的关系组合。
其中,所述事件关系的计算是考虑所述一篇文档的标题、摘要和正文的不同重要性,分别计算文档之间的这三部分的相似性,并将这三部分相似性的线性组合作为事件之间的相似性。
其中,基于多种关系概率矩阵分解模型挖掘潜在的关系,在矩阵分解过程当中,通过矩阵之间的共享因子矩阵将这三种关系矩阵无缝地结合起来,同时综合了三种关系矩阵挖掘潜在的人物特征矩阵和事件特征矩阵。
其中,所述以查询人物为中心的关系视图的节点是查询、与查询最相关的前10个新闻人物和前10个新闻事件;该关系视图中不但包含了新闻人物之间的社会网络图,即最相关的前10个新闻人物之间的关系以及与查询的关系,还包含了最相关的前10个新闻事件之间的关系以及与查询的关系。
其中,在所述相关新闻事件列表视图中,每一个相关事件都提供了该事件的标题、图片、简短摘要、最相关的前3个新闻人物以及最相关的前3个新闻事件,用户通过点击每一个新闻事件的标题来浏览该事件的全文。
本发明的有益效果:本发明为了解决综合考虑网页的多媒体信息而提出使用自然语言处理技术和人脸检测识别,为解决综合考虑事件-人物、人物-人物和事件-事件的关系来挖掘潜在的事件-人物、人物-人物和事件-事件的关系而提出了多关系的概率矩阵分解模型,为使用户更生动地了解到更丰富的信息而提出了一个多视图的结果浏览界面。
本发明采用自然语言处理技术提出新闻人名、统计新闻人物在文档中的频率、新闻人物在文本信息的共生关系和线性加权新闻文档的标题、摘要和正文的相似性,采用人脸检测识别技术统计新闻人物在新闻图像中的共生关系,再将新闻人物在文本和图像中的共生关系线性组合。这样,本发明综合利用了新闻网页的多媒体信息和新闻文档不同部分的重要性,使得统计出来的初始人物-人物关系和事件-事件关系更加可靠。
本发明提出了多关系概率矩阵分解模型,将事件-人物、人物-人物和事件-事件的关系综合无缝地结合起来,更好地挖掘新闻人物与新闻事件之间或其内部的各种潜在关系,能够提供给用户更多、更准确的信息。
本发明提出了一种多视图检索结果浏览界面,将新闻人物、新闻事件与用户检索人物的关系图展示给用户,另外还将相关的新闻事件的简要信息(标题、摘要和图像)以及与事件相关的前3个新闻人物和前3个新闻事件展示给用户。用户能够立体地更加生动地浏览到需要的更丰富的信息。
附图说明
图1是本发明的流程图。
图2是人脸检测和匹配实例示意图。
图3是多关系概率矩阵分解模型。
图4是利用本发明方法实现多视图浏览界面实例的图片。
图5是性能比较实例图。
图6给出了用户对本发明系统的整体满意度的平均分数。
图7给了参数的影响结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的框架综合利用了文本信息和图像信息,同时综合了新闻人物-新闻事件的关系、新闻人物的共生关系以及新闻事件之间的关系。本发明以用户向计算机提交的人物名字为检索关键词,以两种视图将检索结果展示给用户,提供给用户一个更生动、更富信息的新闻人物检索。检索结果展示的两种视图分别是查询为中心的多关系视图和带有简单描述(包括新闻图像、标题、摘要、中心人物和相关事件)的新闻事件列表视图。本发明中还提出多关系概率矩阵分解算法进行关系挖掘。该算法在因子分解过程中不但考虑了新闻事件-人物的关系,还考虑了新闻事件之间的关系和人物之间的关系。
本发明提出了一个利用计算机的基于多媒体分析的新闻人物检索框架,综合利用多模态信息,通过本发明提出的多关系概率矩阵分解关系挖掘技术发现潜在的新闻人物与新闻事件之间或其内部的各种关系,并给据用户的查询关键词,将新闻检索结果进行立体展示反馈给用户。该系统使用户不但能获取所关心的新闻人物的社会关系信息以及与所关心的新闻人物相关的新闻事件之间的关系信息,而且还能了解相关新闻事件的详细信息,比如与新闻事件相关的人物和其他新闻事件。
下面叙述图1给出本发明的流程。
步骤S1:数据预处理:编写网络爬虫程序并从互联网上爬取新闻数据;先采用网络爬虫从ABC、BBC和CNN新闻网站上爬取新闻文档和对应的新闻图像,然后采用自然语言处理技术提取出新闻文档的标题、时间、网站、摘要和正文以及对应的网址,提取出图像的网址和图像对应的文本信息,最后采用自然语言处理技术去除重复文档和从新闻文档中提取出任命。
步骤S2:多模态融合的关系初始化:多媒体分析和关系初始化,包含了人物-事件关系初始化、多模态融合的人物关系初始化和事件关系初始化:一是统计新闻人物在各个新闻文档中出现的频率,采用二值关系作为人物-事件的初始关系,即如果一个新闻人物在一个新闻事件中出现则二者的关系为1,否则为0;二是利用当前网页的文本信息和图像信息计算人物之间的关系,利用统计语言处理技术统计新闻人物在新闻文本中的共生关系,以及利用人脸识别技术统计新闻人物在新闻图片中的共生关系,将这两种共生关系线性加权作为新闻人物的初始关系;三是利用一篇新闻文档的标题、摘要和正文部分的不同重要性,分别统计文档的标题、摘要和正文的相似关系,然后将这三种相似关系分别赋予不同的权重进行加权,得到的结果作为新闻文档之间的初始关系;人物关系矩阵和事件关系矩阵的每个元素都是介于0和1之间的实数值,是根据相似性函数计算出来的相似值;
步骤S3:关系重构:基于多关系概率矩阵分解的关系挖掘:挖掘潜在关系过程中采用了的综合多种关系的概率矩阵分解模型,在矩阵分解的过程中,并通过共享因子将事件-人物、人物-人物和事件-事件关系无缝地结合起来。最后利用通过优化目标函数得到矩阵因子重构和细化关系矩阵,挖掘出潜在的关系;该算法在因子分解过程中不但考虑了新闻事件-人物的关系,还考虑了新闻事件之间的关系和人物之间的关系。
步骤S4:根据用户提交的查询关键词(新闻人物名)和已重构出来的关系对新闻人物和新闻事件按照与查询关键词的相关性进行排序。
步骤S5:检索结果浏览界面:提供一个以查询人物为中心的关系视图和一个相关新闻事件列表视图将检索结果立体地反馈展示给用户。
下面以英文检索为例对本专利涉及的主要技术(1)多模态融合的人物关系初始化,(2)事件关系初始化,(3)基于多关系概率矩阵分解的关系挖掘及(4)检索结果浏览界面进行解释和说明如下:
(1)多模态融合的人物关系初始化:
第一,文本信息处理。利用自然语言处理技术从数据库的新闻文档中抽取出新闻人名,得到人名列表;然后利用已得到的人名列表统计各人名在数据库新闻文档中的出现频率;最后利用已得到的人名频率矩阵计算人名之间的共生关系。这样就得到了人物在文本模态中的共生关系。
第二,图像信息处理。利用已得到的人名列表从维基百科(Wikipedia)上爬取对应的人物正面图像。利用人脸检测技术从中检测出每个人的人脸部分,然后利用人脸匹配技术(例如尺度不变特征转换流SIFT Flow算法)计算新闻人物在新闻图片中的频率,再计算新闻人物在图像模态中的共生关系。利用图像信息计算共生关系如图2人脸检测和匹配示例所示,首先根据人名列表(图2中的(a))从维基百科上爬取包含人脸的图像,利用人脸检测算法检测出每个图像中的人脸部分(图2中的(b))。也对已有的新闻图像进行人脸检测处理,检测出每幅图像中的人脸部分(图2中的(c)),然后采用人脸匹配算法将人名和新闻图像中的人脸对应起来(图2中的实线),从而得到人物在新闻图像中出现的频率矩阵,计算出基于图像信息的人物共生关系(图2中的(d))。
第三,融合多模态信息。将利用文本信息和图像信息得到的共生关系采用线性加权的形式进行融合,得到基于多模态信息的共生关系:
C=(1-γ)×CText+γ×CImg
其中C、CText和CImg分别表示多模态共生关系、文本共生关系和图像共生关系,γ表示加权系数。
(2)事件关系初始化:
在事件关系的计算中,本发明考虑了一篇新闻文档的标题、摘要和正文的不同重要性。一般而言,一篇新闻文档分为三部分:标题、摘要和正文。标题是全文中心思想的凝结,集中体现了全文的主旨,对全文信息的贡献最大。摘要包含了全文的主要部分。针对一个事件而言,摘要部分一般包含了该事件的人物、时间、地点和事件的简短说明。正文部分是对标题和摘要的详细说明,提供给读者更多的细节信息。因此,本发明采用线性加权的形式计算两篇新闻文档之间的相似关系:
S=α×Stitle+β×Ssummary+(1-α-β)×Stext
其中S、Stitle、Ssummary和Stext分别表示两篇新闻文档之间的相似性、这两篇新闻文档标题之间的相似性、这两篇新闻文档摘要之间的相似性和这两篇新闻文档正文之间的相似性,α和β表示加权系数。
(3)多关系概率矩阵分解的关系挖掘:
为了更好地挖掘新闻人物与新闻事件之间或其内部的各种潜在关系,本发明提出了一种融合多关系的概率矩阵分解模型(Multi-correlationProbabilistic Matrix Factorization,简写为MPMF)。该模型如图3多关系概率矩阵分解模型的实例中所示,下面对图3做详细描述:
假设具有m个人物,n个事件。R、C和S分别表示事件-人物关系矩阵、人物共生关系矩阵和事件相似矩阵。采用矩阵分解的思想挖掘潜在的高质量的特征空间,即采用PTE近似R。R和C共享一个矩阵因子——潜人物特征空间P;R和S也共享一个矩阵因子——潜在事件特征空间E。X和Z是对应的系数矩阵;下面公式中i、q表示新闻人物对应的索引号,j、k表示新闻事件对应的索引号;表示高斯分布。假设事件-人物、人物-人物和事件-事件关系的近似误差分别服从均值为0、方差为
Figure BSA00000399213100082
的高斯分布,则有
p ( R | P , E , σ R 2 ) = Π i = 1 m Π j = 1 n [ N ( R ij | g ( P i T E j ) , σ R 2 ) ] I ij R
p ( C | P , X , σ C 2 ) = Π i = 1 m Π q = 1 m [ N ( X iq | g ( P i T X q ) , σ C 2 ) ] I iq C
p ( S | E , Z , σ S 2 ) = Π j = 1 n Π k = 1 n [ N ( S jk | g ( E j T Z k ) , σ S 2 ) ] I jk S
其中I是标识矩阵,如果i和j的关系大于零,则Iij=1,否则Iij=0;函数g(x)=1/(1+exp(-x))将重构的关系值限制在0和1之间。另外,假设潜在特征空间和系数矩阵服从球形高斯分布。经过简单的贝叶斯推导和取对数操作,得到目标函数L如下式表示:
L = 1 2 Σ i = 1 m Σ j = 1 n I ij R ( R ij - g ( P i T E j ) ) 2 + λ C 2 Σ i = 1 m Σ q = 1 m I iq C ( C iq - g ( P i T X q ) ) 2
+ λ S 2 Σ j = 1 n Σ k = 1 n I jk S ( S jk - g ( E j T Z k ) ) 2 + λ P 2 | | P | | F 2 + λ E 2 | | E | | F 2 + λ X 2 | | X | | F 2 + λ Z 2 | | Z | | F 2
其中,
Figure BSA00000399213100093
表示F范数,即所有元素的平方和;;
Figure BSA00000399213100094
Figure BSA00000399213100095
Figure BSA00000399213100096
Figure BSA00000399213100097
Figure BSA00000399213100098
Figure BSA00000399213100099
表示对应项的折衷系数,
Figure BSA000003992131000910
Figure BSA000003992131000911
分别表示矩阵R、C、S、P、E、X和Z的高斯分布的先验方差。采用梯度下降法求解目标函数,可以得到局部最优解。利用已经得到的P、E、X和Z重构事件-人物关系R、人物-人物关系C和事件-事件关系S。
(4)检索结果浏览界面:
为了提供给用户更加生动、更富信息的检索结果,本发明设计了一种新颖的新闻检索结果展示界面,如图4多视图浏览界面图片实例所示。
该界面包含了两个视图,即对应图4中的左右两部分。左半部分是以查询为中心的多关系视图。该部分又分为了两个子部分:人物关系子图(左上部分)和事件关系子图(左下部分)。人物关系子图给出了与查询最相关的10个新闻人物之间的关系以及它们与查询之间的关系。时间关系子图也给出了与查询最相关的10个新闻事件之间的关系以及它们与查询之间的关系。图中连线的粗细代表关系的远近。线条越粗代表关系越密切,反之亦然。右半部分按照相关性降序给出了与查询相关的所有事件列表。每一个列表条目对应一个新闻事件,给出了这个新闻事件对应的新闻图片、标题、简单描述,还给出了与之最相关的3个新闻人物以及最相关的3个新闻事件。
实施效果
为了更好的评估本发明提出的算法和界面,我们设计了实验。本实验所有的数据是从ABC、BBC和CNN新闻网站上爬取的。为了评估用户对这整个系统的满意程度,我们邀请了多个用户按照设定好的准则打分,然后采用nDCG准则度量评价结果。
首先,用户分别在Google News、PMF(只考虑事件-人物关系)、PPMF(考虑事件-人物关系和人物之间的关系)、EPMF(考虑事件-人物关系和事件之间的关系)、MMPNR(本系统)以及MMPNR-Text(只考虑文本信息)上随机抽取10个关键词进行检索,并反馈他们对返回结果的满意程度。这里使用三个尺度来评价用户认为前10个结果与查询的相关性:3分表示非常相关;2分表示相关;1分表示不相关。然后采用nDCG计算性能。图5为性能比较图,显示了本实验的nDCG分数和相对Google的改进百分比,从图中可以看出,用户对采用多模态信息和多关系进行分析的结果是很满意的。
为了评估用户对本发明的整体满意度,我们请不同的用户针对结果的整体相关性、人物关系相关性、事件关系相关性、效率、界面友好性、检索便捷性和信息多元性的多视角效果进行打分(1至5之间的整数,值越高代表结果越好)。图6给出了用户对本发明系统的整体满意度的平均分数。从图中可以看出,用户对本系统是相当满意的。本系统能够方便、快捷地提供用户相当满意的检索结果,并通过多视角界面提供多种信息。
为了观察人物关系和事件关系对系统的影响,本发明设计了如下实验。分别变化λC(固定λS)和变化λS(固定λC),让用户按照图4的方法评价结果。图7给了参数的影响结果。λC和λS均在某个区间能够使系统的性能最好。二者均是随着值的增大,系统性能变好。但是,超过某个阈值之后,系统性能变差。正好说明只采用单个关系矩阵是不能产生比融合多种关系好的结果的。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的权利要求书的保护范围之内。

Claims (6)

1.利用计算机的基于多媒体分析的新闻人物检索方法,其特征在于包括步骤如下:
步骤S1:利用计算机提取新闻图像,用自然语言处理技术提取出新闻文档的标题、时间、网站、摘要和正文以及对应的网址,提取出图像的网址和图像对应的文本信息,并去除重复文档和从新闻文档中提取出任命,为后续工作提供数据支持;
步骤S2:多模态融合的关系初始化:基于步骤S1提供的数据,一是统计人物在事件中出现的频率,采用二值关系作为人物-事件的初始关系,即人物在事件中出现则二者的关系为1,否则为0;二是利用当前新闻网页的文本信息和图像信息计算人物之间的关系,利用统计语言处理技术统计新闻人物在新闻文本中的共生关系,以及利用人脸识别技术统计新闻人物在新闻图片中的共生关系,将这两种共生关系线性加权作为新闻人物的初始关系;三是利用一篇新闻文档的标题、摘要和正文部分的不同重要性;对一篇文档而言,标题是最重要的,摘要次之,最后是正文;分别统计文档的标题、摘要和正文的相似关系,然后将这三种相似关系分别赋予不同的权重进行加权,得到的结果作为新闻文档之间的初始关系;
步骤S3:关系重构:基于步骤S2计算出来的人物-事件、人物-人物以及事件-事件的初始关系,采用综合多种关系的概率矩阵分解模型挖掘出潜在的人物特征矩阵和潜在的事件特征矩阵,利用得到的潜在矩阵对人物-事件、人物-人物和事件-事件关系进行重构;在矩阵分解的过程中,并通过矩阵之间共享因子将事件-人物、人物-人物和事件-事件这三种关系矩阵无缝地结合起来,最后利用通过优化目标函数得到矩阵因子重构和细化关系矩阵,挖掘出潜在的关系;
步骤S4:根据用户提交的查询关键词和已重构出来的关系对新闻人物和新闻事件按照与查询关键词的相关性进行排序;
步骤S5:检索结果浏览界面:用户向计算机提交的人物名字为检索关键词,提供了一个以查询人物为中心的关系视图和一个相关新闻事件列表视图,将检索结果反馈给用户。
2.如权利要求1所述利用计算机的基于多媒体分析的新闻人物检索方法,其特征在于,采用多模态信息计算人物之间的关系方法,综合利用所述新闻网页中的文本信息和图像信息,分别计算人物在文本、图像中的关系,并将这两种模态信息中的关系组合。
3.如权利要求1所述利用计算机的基于多媒体分析的新闻人物检索方法,其特征在于,所述事件关系的计算是考虑所述一篇文档的标题、摘要和正文的不同重要性,分别计算文档之间的这三部分的相似性,并将这三部分相似性的线性组合作为事件之间的相似性。
4.如权利要求1所述利用计算机的基于多媒体分析的新闻人物检索方法,其特征在于,基于多种关系概率矩阵分解模型挖掘潜在的关系,在矩阵分解过程当中,通过矩阵之间的共享因子矩阵将这三种关系矩阵无缝地结合起来,同时综合了三种关系矩阵挖掘潜在的人物特征矩阵和事件特征矩阵。
5.如权利要求1所述利用计算机的基于多媒体分析的新闻人物检索方法,其特征在于,所述以查询人物为中心的关系视图的节点是查询、与查询最相关的前10个新闻人物和前10个新闻事件;该关系视图中不但包含了新闻人物之间的社会网络图,即最相关的前10个新闻人物之间的关系以及与查询的关系,还包含了最相关的前10个新闻事件之间的关系以及与查询的关系。
6.如权利要求1所述利用计算机的基于多媒体分析的新闻人物检索方法,其特征在于,在所述相关新闻事件列表视图中,每一个相关事件都提供了该事件的标题、图片、简短摘要、最相关的前3个新闻人物以及最相关的前3个新闻事件,用户通过点击每一个新闻事件的标题来浏览该事件的全文。
CN2010106058328A 2010-12-15 2010-12-15 利用计算机的基于多媒体分析的新闻人物检索方法 Pending CN102024056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106058328A CN102024056A (zh) 2010-12-15 2010-12-15 利用计算机的基于多媒体分析的新闻人物检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106058328A CN102024056A (zh) 2010-12-15 2010-12-15 利用计算机的基于多媒体分析的新闻人物检索方法

Publications (1)

Publication Number Publication Date
CN102024056A true CN102024056A (zh) 2011-04-20

Family

ID=43865353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106058328A Pending CN102024056A (zh) 2010-12-15 2010-12-15 利用计算机的基于多媒体分析的新闻人物检索方法

Country Status (1)

Country Link
CN (1) CN102024056A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364473A (zh) * 2011-11-09 2012-02-29 中国科学院自动化研究所 融合地理信息与视觉信息的网络新闻检索系统及方法
CN102411638A (zh) * 2011-12-30 2012-04-11 中国科学院自动化研究所 一种新闻检索结果的多媒体摘要生成方法
CN102567463A (zh) * 2011-11-29 2012-07-11 上海大学 一种基于互联网的人物传记自动提取方法
CN103345508A (zh) * 2013-07-04 2013-10-09 北京大学 一种适用于社会网络图的数据存储方法及系统
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN105117115A (zh) * 2015-08-07 2015-12-02 小米科技有限责任公司 一种显示电子文档的方法和装置
CN107239552A (zh) * 2017-06-08 2017-10-10 上海德衡数据科技有限公司 一种针对关键词的网络文档语义检索方法
CN107330052A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索原型
CN107330044A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索架构
CN108460086A (zh) * 2018-01-22 2018-08-28 北京工业大学 一种基于点击特征重构的检索结果排序方法
CN108876643A (zh) * 2018-05-24 2018-11-23 北京工业大学 一种社交策展网络上采集(Pin)的多模态表示方法
CN109271525A (zh) * 2018-08-08 2019-01-25 北京百度网讯科技有限公司 用于生成知识图谱的方法、装置、设备以及计算机可读存储介质
CN109508385A (zh) * 2018-11-06 2019-03-22 云南大学 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
CN109597985A (zh) * 2017-09-30 2019-04-09 云拓科技有限公司 提供归纳结论的专利分析装置
CN109829081A (zh) * 2017-08-23 2019-05-31 贵州白山云科技股份有限公司 一种视图匹配处理方法及装置
CN110110193A (zh) * 2019-04-24 2019-08-09 北京百炼智能科技有限公司 一种信息处理方法、装置及计算机可读存储介质
CN110781813A (zh) * 2019-10-24 2020-02-11 北京市商汤科技开发有限公司 图像识别方法及装置、电子设备和存储介质
CN111241844A (zh) * 2018-11-29 2020-06-05 北京搜狗科技发展有限公司 一种信息推荐方法及装置
CN112307294A (zh) * 2020-11-02 2021-02-02 北京搜狗科技发展有限公司 一种数据处理方法及装置
CN113946659A (zh) * 2021-12-20 2022-01-18 华东交通大学 一种面向事件检索的多事件成分混合反馈方法与系统
CN115409000A (zh) * 2022-11-02 2022-11-29 浪潮通信信息系统有限公司 一种热点人物软文自动生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《CIKM'10 Proceedings of the 19th ACM international conference on information and knowledge management》 20101031 Zechao li et al Multi-Modal Multi-Correlation Person-Centric News Retrieval 第179-188页 1-6 , *
ZECHAO LI ET AL: "Multi-Modal Multi-Correlation Person-Centric News Retrieval", 《CIKM’10 PROCEEDINGS OF THE 19TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364473B (zh) * 2011-11-09 2013-11-20 中国科学院自动化研究所 融合地理信息与视觉信息的网络新闻检索系统及方法
CN102364473A (zh) * 2011-11-09 2012-02-29 中国科学院自动化研究所 融合地理信息与视觉信息的网络新闻检索系统及方法
CN102567463A (zh) * 2011-11-29 2012-07-11 上海大学 一种基于互联网的人物传记自动提取方法
CN102411638A (zh) * 2011-12-30 2012-04-11 中国科学院自动化研究所 一种新闻检索结果的多媒体摘要生成方法
CN103345508B (zh) * 2013-07-04 2016-09-21 北京大学 一种适用于社会网络图的数据存储方法及系统
CN103345508A (zh) * 2013-07-04 2013-10-09 北京大学 一种适用于社会网络图的数据存储方法及系统
CN105005578A (zh) * 2015-05-21 2015-10-28 中国电子科技集团公司第十研究所 多媒体目标信息可视化分析系统
CN105117115A (zh) * 2015-08-07 2015-12-02 小米科技有限责任公司 一种显示电子文档的方法和装置
CN105117115B (zh) * 2015-08-07 2018-05-08 小米科技有限责任公司 一种显示电子文档的方法和装置
CN107239552A (zh) * 2017-06-08 2017-10-10 上海德衡数据科技有限公司 一种针对关键词的网络文档语义检索方法
CN107330052A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索原型
CN107330044A (zh) * 2017-06-29 2017-11-07 上海德衡数据科技有限公司 一种基于语义的网络文档智能检索架构
CN109829081A (zh) * 2017-08-23 2019-05-31 贵州白山云科技股份有限公司 一种视图匹配处理方法及装置
CN109597985A (zh) * 2017-09-30 2019-04-09 云拓科技有限公司 提供归纳结论的专利分析装置
CN108460086A (zh) * 2018-01-22 2018-08-28 北京工业大学 一种基于点击特征重构的检索结果排序方法
CN108460086B (zh) * 2018-01-22 2022-02-08 北京工业大学 一种基于点击特征重构的检索结果排序方法
CN108876643A (zh) * 2018-05-24 2018-11-23 北京工业大学 一种社交策展网络上采集(Pin)的多模态表示方法
CN109271525A (zh) * 2018-08-08 2019-01-25 北京百度网讯科技有限公司 用于生成知识图谱的方法、装置、设备以及计算机可读存储介质
CN109508385A (zh) * 2018-11-06 2019-03-22 云南大学 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
CN111241844A (zh) * 2018-11-29 2020-06-05 北京搜狗科技发展有限公司 一种信息推荐方法及装置
CN110110193A (zh) * 2019-04-24 2019-08-09 北京百炼智能科技有限公司 一种信息处理方法、装置及计算机可读存储介质
CN110110193B (zh) * 2019-04-24 2021-04-30 北京百炼智能科技有限公司 一种信息处理方法、装置及计算机可读存储介质
CN110781813A (zh) * 2019-10-24 2020-02-11 北京市商汤科技开发有限公司 图像识别方法及装置、电子设备和存储介质
CN112307294A (zh) * 2020-11-02 2021-02-02 北京搜狗科技发展有限公司 一种数据处理方法及装置
CN112307294B (zh) * 2020-11-02 2024-06-25 北京搜狗科技发展有限公司 一种数据处理方法及装置
CN113946659A (zh) * 2021-12-20 2022-01-18 华东交通大学 一种面向事件检索的多事件成分混合反馈方法与系统
CN115409000A (zh) * 2022-11-02 2022-11-29 浪潮通信信息系统有限公司 一种热点人物软文自动生成方法及装置

Similar Documents

Publication Publication Date Title
CN102024056A (zh) 利用计算机的基于多媒体分析的新闻人物检索方法
CN102364473B (zh) 融合地理信息与视觉信息的网络新闻检索系统及方法
CN108154395B (zh) 一种基于大数据的客户网络行为画像方法
Hai et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance
US7519588B2 (en) Keyword characterization and application
CN104572651B (zh) 图片排序方法及装置
Zhang et al. Automatic synonym extraction using Word2Vec and spectral clustering
CN107066589B (zh) 一种基于综合知识的实体语义和词频的排序方法及装置
CN109960756B (zh) 新闻事件信息归纳方法
US20120030152A1 (en) Ranking entity facets using user-click feedback
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
Ji et al. Survey of visual sentiment prediction for social media analysis
CN112559684A (zh) 一种关键词提取及信息检索方法
CN111460251A (zh) 数据内容个性化推送冷启动方法、装置、设备和存储介质
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
Ji et al. Hypergraph dominant set based multi-video summarization
Wang et al. Multi-modal mention topic model for mentionee recommendation
Li et al. Query Rewriting in TaoBao Search
CN112650869B (zh) 图像检索重排序方法、装置、电子设备及存储介质
Wu et al. Clustering results of image searches by annotations and visual features
Patel et al. A survey on context based similarity techniques for image retrieval
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法
Chen Improving the performance of Wikipedia based on the entry relationship between articles
Raza et al. User Interest Driven Semantic Query Expansion for Effective Web Search.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110420