CN102364473B - 融合地理信息与视觉信息的网络新闻检索系统及方法 - Google Patents
融合地理信息与视觉信息的网络新闻检索系统及方法 Download PDFInfo
- Publication number
- CN102364473B CN102364473B CN2011103520023A CN201110352002A CN102364473B CN 102364473 B CN102364473 B CN 102364473B CN 2011103520023 A CN2011103520023 A CN 2011103520023A CN 201110352002 A CN201110352002 A CN 201110352002A CN 102364473 B CN102364473 B CN 102364473B
- Authority
- CN
- China
- Prior art keywords
- news
- place
- image
- matrix
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 230000000007 visual effect Effects 0.000 title claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 79
- 238000000354 decomposition reaction Methods 0.000 claims description 37
- 238000010219 correlation analysis Methods 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 13
- 230000009193 crawling Effects 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 10
- 238000006116 polymerization reaction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000002203 pretreatment Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000032683 aging Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001747 exhibiting effect Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000005211 surface analysis Methods 0.000 description 1
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种融合地理信息与视觉信息的网络新闻检索系统及方法。该系统包括:数据预处理模块,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析;新闻配图模块,用于为新闻选择合适的图像;检索结果展示模块,用于基于检索相关性排序展示检索到的新闻。本发明的系统及方法综合利用了地理位置信息和视觉信息对网络新闻进行描述与展示,为网络用户提供基于地理位置的多媒体新闻检索,同时综合了新闻地点-新闻事件的关系、新闻地点的相关性以及新闻事件之间的关系,从而提供给用户一个更生动、更富信息的新闻搜索结果。
Description
技术领域
本发明涉及网络新闻检索领域,特别的,涉及一种融合地理信息与视觉信息的网络新闻检索系统及方法。
背景技术
随着信息技术的发展和网络的全球化,在线新闻越来越多并且也越来越受欢迎,日益变成了人们日常生活中获取信息的一种重要途径。人们可以通过一些主要的网络门户网站如雅虎、MSN或者大型新闻网站如CNN、AOL和MSNBC获取和浏览新闻。
但是,现有技术中的新闻展示方法具有若干不足。
例如,现有的新闻展示方法缺乏以地理为基础的组织。有研究表明用户经常优先关注几个特定地点的新闻,比如家乡和工作地点。大部分的大型新闻网站可以根据相关的国家进行组织新闻。用户可以提交一个地点作为检索词检索新闻。但是文档中包含的地理名词经常存在噪声,因而降低了检索的性能。
另外,现有的新闻展示方法不包含全面的视觉信息。
图1显示了现有技术中一篇新闻文档中包含图片个数的分布情况。
从图1中可以看到,现有技术中大部分的新闻文档没有图片或者包含很少的图片。例如,仅有不到5%的新闻文档包含超过一张的图片。
通常来说,图片的表现效果胜过千言万语,作为新闻文本的补充,新闻图片能够使用户更快的获取信息。但是,如图1所示,现有的新闻文档中包含的图片数很少,因而远远不能满足用户获取信息的全面需求。
发明内容
本发明的目的是提供一种融合地理与视觉信息的网络新闻检索系统及方法。根据本发明的系统及方法,能够为用户提供基于地理信息组织的新闻,使用户快速地浏览到所关心地区发明的新闻事件;进而,本发明采用图像信息对文本信息进行补充,使用户能够快速地掌握新闻事件的内容。
根据本发明的一个方面,提供了一种融合地理信息与视觉信息的网络新闻检索系统,该系统包括:数据预处理模块,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析;新闻配图模块,用于为新闻选择合适的图像;检索结果展示模块,用于基于检索相关性排序展示检索到的新闻。
其中,所述数据预处理模块包括:新闻数据爬取模块,用于从新闻网站上爬取新闻文档和对应的新闻图像;文本分析模块,用于提取出新闻数据的标题、时间、网站、摘要和正文以及对应的网址,提取出新闻图像的网址和图像对应的文本信息;新闻实体提取模块,从新闻数据中提取出人物,地点和时间。
所述地点相关性分析模块包括:地理名词过滤和扩展模块,用于获取地理名词的地理位置信息;基于矩阵分解的相关性分析模块,用于利用一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系。
所述新闻配图模块包括:检索词生成模块,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索;图像排序和选择模块,用于对检索到的图像进行排序和去重,并选择能够表达新闻文档内容的图像。
所述检索结果展示模块包括:地图视图模块,用于显示所选择的新闻在地图上的分布位置;新闻事件列表模块,用于按照预定的规则排序并显示检索到的新闻事件的列表。
在地点相关性分析模块中,所述一致性约束概率矩阵分解方法基于下述规则分析新闻地点和新闻事件之间的关系:相似度较高的新闻事件很可能发生在同一个地方,以及相关性较高的多个地点与同一个新闻事件的关系是相近的。
在新闻配图模块中,所述检索词生成模块是从新闻数据的多个部分中提取检索词进行图像检索;所述图像排序和选择模块采用基于等级聚合的方法对检索到的图像进行排序。
在检索结果展示模块中,所述地图视图模块响应于用户输入的检索词或者点击地图上任何一个地点,显示出最相关新闻事件的标题及对应的图像;所述预定的规则排序包括下述中的一种或多种:新闻事件之间的相关性、新闻事件与检索地点之间的相关性以及新闻发生的时间信息。
根据本发明的另一个方面,还提供了一种融合地理信息与视觉信息的网络新闻检索方法,该方法包括:数据预处理步骤,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析步骤,用于执行新闻事件与新闻地点的相关性分析;新闻配图步骤,用于为新闻选择合适的图像;检索结果展示步骤,用于基于检索相关性排序展示检索到的新闻。
如上所述,本发明的系统及方法,提供了基于地理位置的新闻检索,估计和细化了新闻文档与地理位置之间的关系,在此过程中综合考虑了新闻文档与地点的初始关系,地点之间的关系以及新闻文档之间的相似性。此外,通过提出给新闻文档配图的方法,使得使用户能够更直接和更快地获取新闻。此外,还提出了支持新闻地理名词的检索模块,以及通过点击地图上相应地理位置进行检索的用户检索与浏览界面。
根据本发明提出的一致性约束概率矩阵分解模型,能够将地点-事件关系,地点之间相关性和事件之间的相似性融合起来,估计和细化地点与事件之间的相关性,能够去除噪声和估计出潜在的关系。
根据本发明提出的从文本中抽取检索词进行网络图像检索和图像排序的方法,可以按照多种规则实现对新闻文档的精确配图。
根据本发明提出的组合检索词的方法,能够避免目前网络搜索引擎不能够处理复杂检索的问题以及单个词作为检索不能表达文档内容的问题。
此外,对于从网络搜索引擎中得到的不同的图像列表,本发明还提出了基于等级聚合的方法对这些图像列表进行融合排序的,从而选出最能表达新闻文档内容的图像。
根据本发明提出的新闻文档排序方法,综合考虑了新闻的时效性、重要性以及检索相关性。该方法基于传统的马尔科夫随机游走模型,将前面分析得到的新闻事件-新闻地点相关性与新闻文档的时效性线性融合为该模型中的初始状态,并基于新闻文档之间的相似性,实现新闻文档集合的检索相关性排序。
本发明还提供便于用户检索和浏览新闻的交互界面。用户可以通过提交检索或者单击地图进行检索,同时为一个检索结果提供了标题、新闻图片和内容摘要,用户可以快速生动地获取需要的信息。如果用户想要了解更详细的信息,可通过点击界面的“更多”按钮来获取。
综上所述,本发明以新闻的发生地点名称为搜索关键词或者通过点击地图上感兴趣的地理位置,提供给用户一个更生动、更富信息的新闻搜索结果,其结果展示界面包含两部分:其一,在真实地图上按照事件所发生地理位置来展示与检索地点最相关的新闻标题和图片信息;其二,具有新闻标题、图片和简短说明的多模态检索结果列表。
附图说明
图1显示了现有技术中一篇新闻文档中包含图片个数的分布情况;
图2显示了本发明的网络新闻检索系统的示意图;
图3是本发明提出的一致性约束概率矩阵分解模型图;
图4显示了本发明中一个新闻配图的实例;
图5显示了本发明一个实施例的网络新闻检索和浏览界面;
图6是BM25排序模型、概率矩阵分解模型和一致性约束概率矩阵分解模型的检索性能评价结果;
图7给出了变化参数在NDCG50规则下的结果;
图8是本发明的新闻配图方法与现有技术的性能比较结果;
图9显示了本发明的检索结果排序方法与现有技术的排序方法在检索相关性上的比较结果;
图10显示了本发明的检索结果排序方法与现有技术的排序方法在时效性方面的比较结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本发明进一步详细说明。虽然本发明的实例是基于英文新闻提供的,但是本发明的方法不受语言种类的限制。
本发明提出了一个利用计算机的基于多媒体分析的新闻检索系统,综合利用了地理信息和视觉信息。首先从文本中提取出新闻地点候选集,利用网络信息进行过滤和扩展,并获取其地理位置信息(经纬度)。通过本发明提出的基于一致性约束概率矩阵分解关系挖掘技术发现潜在的新闻地点与新闻事件之间的关系,综合考虑了新闻地点之间的相关性,新闻事件的相似性和新闻地点-新闻事件之间的初始关系。然后为了使用户快速生动地获取新闻,本发明提出了给新闻配图的方法。
虽然目前的新闻文档中也包含了新闻图片,但是对应的新闻图片太少了甚至一半以上的文档还是没有图片的,如图1所示。本发明提出的相关方法能够给文档提供多张具有表现力的图片。对检索结果,本发明提出了考虑时间信息的基于网页排序的排序方法。设计了一个方便用户的新闻检索与浏览界面。
图2显示了本发明的网络新闻检索系统的示意图。
如图2所示,本发明的融合地理信息和视觉信息的新闻检索系统包括数据预处理模块、地点相关性分析模块、新闻配图模块及检索结果展示模块。
数据预处理模块用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息。所述数据预处理模块包括新闻数据爬取模块、文本分析模块和新闻实体提取模块等子模块,其中:
新闻数据爬取模块采用网络爬虫从新闻网站(例如,ABC、BBC、CNN及谷歌等新闻网站)上爬取新闻文档和对应的新闻图像。
文本分析模块采用自然语言处理技术提取出新闻文档的标题、时间、网站、摘要和正文以及对应的网址,提取出新闻图像的网址和图像对应的文本信息。
新闻实体提取模块采用自然语言处理技术去除重复文档和从新闻文档中提取出人物,地点和时间。
地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析。地点相关性分析模块包括地理名词过滤和扩展模块、基于矩阵分解的相关性分析模块等子模块,其中:
地理名词过滤和扩展模块用于获取地理名词的地理位置信息(例如地理经纬度)。
基于矩阵分解的相关性分析模块采用本发明的一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系。
新闻配图模块用于为新闻选择能够说明新闻内容的图像。新闻配图模块包括检索词生成模块、图像排序和选择模块等子模块,其中:
检索词生成模块,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索,即从新闻文档中抽取一个或多个关键词,将其组合成长度不同的检索词,提交给图像搜索引擎(例如谷歌)进行图像检索。
本实施例中,可以利用新闻数据的各个部分(标题、摘要和正文等)的不同重要性,从新闻中提取检索词进行网络图像检索,从而解决目前图像检索引擎不能处理长检索词的问题以及单个检索词无法表达文档内容的问题。
图像排序和选择模块,用于对检索到的图像进行排序和去重,并选择合适的图像。该模块执行图像排序和选择即考虑图像在返回列表中的位置以及与源文档包含图片的相似度,采用等级聚合方法学习不同长度的检索词对应列表的权重,再利用这些权重对图像进行排序,并去除重复图像,然后选择能够表达新闻内容的图像。
检索结果展示模块用于基于检索相关性排序展示检索到的新闻。本发明提供了一个展示检索结果的用户界面。如图2所示,检索结果展示模块包括地图视图模块和新闻事件列表模块等子模块,其中:
地图视图模块显示所选择的新闻在地图上的分布位置。
新闻事件列表模块用于按照预定的规则排序并显示检索到的新闻事件的列表。
如图2所示,用户可以在检索框中输入检索词进行检索,也可以浏览地图点击想要检索的地点在地图上对应的位置,系统自动返回相关结果。
本发明的检索结果展示模块综合考虑了新闻的时效性、与检索的相关性以及新闻的重要性。
如图2所示,在地图上展示了最相关新闻的标题和前两幅图像。在右部分的列表中,每个新闻显示了标题、相关图像和简短摘要。更多的信息可通过点击“更多”按钮获取。
以上介绍了本发明的新闻检索系统的结构组成,如图2所示,与该新闻检索系统的各个模块对应,本发明还提出了融合地理信息与视觉信息的网络新闻检索方法,该方法包括下述步骤:数据预处理步骤,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析步骤,用于执行新闻事件与新闻地点的相关性分析;新闻配图步骤,用于为新闻选择合适的图像;检索结果展示步骤,用于基于检索相关性排序展示检索到的新闻。
所述地点相关性分析步骤包括:地理名词过滤和扩展步骤,用于获取地理名词的地理位置信息;基于矩阵分解的相关性分析步骤,用于利用一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系。
优选的,所述一致性约束概率矩阵分解方法基于下述规则分析新闻地点和新闻事件之间的关系:相似度较高的新闻事件很可能发生在同一个地方,以及相关性较高的多个地点与同一个新闻事件的关系是相近的。
所述新闻配图步骤包括:检索词生成步骤,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索;图像排序和选择步骤,用于对检索到的图像进行排序和去重,并选择合适的图像。
优选的,所述检索词生成步骤从新闻数据的多个部分中提取检索词进行图像检索;所述图像排序和选择步骤采用基于等级聚合的方法对检索到的图像进行排序。
所述检索结果展示步骤包括:地图视图步骤,用于显示所选择的新闻在地图上的分布位置;新闻事件列表步骤,用于按照预定的规则排序并显示检索到的新闻事件的列表。
其中,所述预定的规则排序包括下述中的一种或多种:新闻事件之间的相关性、新闻事件与检索地点之间的相关性以及新闻发生的时间信息。
其中,所述地图视图步骤,响应于用户输入的检索词或者点击地图上任何一个地点,显示出最相关新闻事件的标题及对应的图像。
如上所述,该新闻检索系统采用了以下4个主要处理流程:(1)基于一致性约束概率矩阵分解模型的地理位置相关性分析;(2)新闻配图;(3)检索结果的排序;(4)检索结果浏览界面。
下面以英文检索为例分别介绍上述子流程,主要包括新闻文档定位流程和配图流程,以及对用户检索结果的排序流程。但显然,本发明不限制于此,而是可以合理的应用于其他语言种类,例如中文等。
<地理位置-新闻事件的相关性分析>
该流程包括四个步骤:(1)候选地名提取;(2)取出候选地名奇异性;(3)得到地名与文档的初始关系;(4)是对地名与文档的关系进行细化分析。
首先,根据利用自然语言处理技术从数据库的新闻文档中抽取出新闻地名,得到了候选地名列表;然后将利用已得到的列表提交到维基百科,如果返回的页面中没有地理信息则认为这个候选地名是噪声并去除。
然后,对于不同的地方对应同一个名字的情况,可以将过滤之后的列表再提交给地理信息系统(GeoNames)进行扩展并爬取对应的地理信息(经纬度)。
随后,统计各地名在数据库新闻文档中的出现频率,从而得到初始的地名与文档的关系。
根据上述方法得到的地名与文档的对应关系是包含噪声的,例如,一个关于名人婚礼的新闻会有婚礼举行地点以及新娘和新郎的家乡。婚礼地点才是该新闻真正的地点,也是最相关的,其他地点是不相关的。另外与新闻相关的地点可能没有出现在文章中,比如关于北京奥运会的新闻,介绍了相关的体育事件但没提及北京,然而与此新闻最相关的地点是北京。
因此,为了更好地挖掘新闻地点与新闻事件之间的关系(新闻事件与的新闻文档是一一对应关系,即认为一个新闻文档描述了一个新闻事件),本发明基于传统的概率矩阵分解(Probabilistic Matrix Factorization,PMF)模型(参见Ruslan Salakhutdinov and Andriy Mnih.“Probabilistic Matrix Factorization”,NIPS 2008.)提出了一致性约束概率矩阵分解模型(Consistent Constraints Probabilistic MatrixFactorization,简写为CCPMF),对新闻地点与新文档的相关性进行分析。相比传统的PMF模型,本发明的CCPMF模型引入了新闻文档与地点之间的一致相关性作为优化求解的约束条件(即相关的新闻文档需要对应相关的地点,反之亦然),从而能够更有效的分析二者之间的真实相关性。其中,地点相关性是利用搜索引擎(例如谷歌距离)计算各地名之间的统计共生相关性;新闻文档之间的相关性是通过考虑新闻标题、摘要和正文的不同重要性,进行线性组合计算而得的文本相似性。下面详细讲述前述第四个步骤:地名与文档的关系细化分析。
图3是本发明提出的一致性约束概率矩阵分解模型图。
如图3所示,考虑到非常相关的事件很有可能发生在同一个地点以及同一个新闻可能与非常相关的几个地名相关,本发明的一致性约束概率矩阵分解模型综合考虑了地名之间的相关性、文档之间的相似性以及地名与文档的关系。
假设具有M个地点,N个事件。 和分别表示地点-事件关系矩阵、地点之间的相关性矩阵和事件相似性矩阵。采用矩阵分解的思想挖掘潜在的高质量特征空间,即采用PTE近似R,其中和表示潜在的H维地名和事件特征矩阵。是初始的地点-事件的0-1关系矩阵。在概率矩阵分解模型中,假设对地点-事件的关系估计误差从均值为0、方差为的高斯分布,则有:
其中表示均值为0、方差为σ2的高斯分布函数。pi和ej分别是矩阵P和E的第i列和第j列。δ是标识矩阵,如果i和j的关系大于零,则δij=1,否则δij=0。另外,假设潜在特征空间和系数矩阵服从球形高斯分布,即:
其中I是单位矩阵。经过简单的贝叶斯推导和取对数操作,得到目标函数:
其中 以及
考虑到地名之间的关系以及文档之间的关系,一致性约束概率矩阵分解模型在概率矩阵分解模型基础上加了两个一致性约束,得到对应的目标函数:
采用梯度下降法求解目标函数,可以得到局部最优解。
<新闻配图>
为了使用户快速生动地了解新闻内容,本发明提供了给新闻文档配图说明的方法。该流程包含两个步骤:图像检索词的生成以及检索图像的排序。
图4显示了本发明中一个新闻配图的实例。
如图4所示,用户看到美国电影明星朱莉娅·罗伯茨的新闻时想知道她是什么样子,通过本发明提供的图片很容易地获取需要的信息;用户看到冰壶比赛的新闻时想知道冰壶运动是什么样子,通过本发明提供的结果会快速地明白。
首先,从新闻文档中提取出图像检索词。由于目前的网络图像搜索引擎不能处理复杂的检索,以及单个词的检索词不能够表达文档内容,本发明提供了一种有效的图像检索词生成方法。
由于一篇文章太长,从正文中抽取检索比较复杂,而经过人工编辑的文档标题是对文档内容很好的总结,因此本发明优先从标题中抽取组成检索的条目,而在标题太短的情况,再从正文中抽取。
上述抽取方法需要对标题和正文的词语进行打分,本发明采用词频-反词频模型进行打分。例如,对每个文档,挑选出c个检索条目。通常情况下,如果采用太多检索条目进行检索图像,搜索引擎返回很少的结果甚至没有结果;而如果采用单个条目进行检索,返回的结果不能够表示文档的内容。因此,采用组合条目形成不同长度的检索进行检索会得到比较好的结果。据此,本发明提出组合这些检索条目以形成不同长度的检索词进行图像检索,然后将这些返回的结果列表进行融合排序。c个条目组合共有个检索,提交给图像检索引擎检索并保存相关图像
然后,对所保存的图像进行排序。每个检索爬取前h幅图像组成一个列表,共有L个列表。本发明采用等级聚合的方法将这L个列表进行融合排序,从而为新闻文档选择合适的图像。由于有的文档中包含了人工编辑筛选的图片,这些图片能够很好地反应文档内容,因此与文档中图片视觉上越相似的图片越应排在前面。另外,图像在列表中的位置反应了与检索的文本相关性。因此,本发明提出的方法考虑单幅图像在列表中的位置以及与文档中包含图像的相似性给其赋予初始的关系分数:
为了调节不同长度检索的作用,本发明对具有同等长度的检索赋予相同的权重,即有
c个权重是根据训练数据集得到的。采用网格搜索使在训练集上第10位置上的归一化nDCG(normalized Discounted Cumulative Gain)最大。
根据分数可以得到一个排序列表,先采用重复检测算法去除重复图像,然后从去重后的排序列表中为每篇文档选择r幅图像。其中,文档自带的图像需优先选择。
<检索结果排序>
根据用户提交的检索,系统返回一系列的相关结果。针对新闻领域,用户关注的是新的、重要的以及与检索相关的新闻。本发明提出了一种综合考虑新闻的时效性、重要性以及检索相关性的新闻文档排序方法。检索结果排序流程包括下述步骤:时间信息量化、地名文档相关性归一化、相关性排序(排序初始化以及排序)。
首先进行新闻文档时间信息量化。时间是新闻重要的一个因素。首先要把新闻的时间量化,把时间表示成“年月日”的形式,例如把“九月12号,2010”表示成“20100912”。datek表示第k个文档的时间量化值,把它进行归一化:
然后执行归一化文档与地点的相关性。通过一致性约束概率矩阵分解,已得到了文档与地名之间的相关值,并对其进行归一化:
最后执行新闻文档与地点的相关性排序。为了将最新的、热点的和最相关的新闻展示给用户,本发明提出了一种基于马尔科夫随机游走模型的新闻文档排序方法,综合考虑了新闻时间信息、重要性和与检索相关性。该模型可表示为:
在随机游走模型中,需要给定一个初始排序值,本发明综合考虑新闻的时间信息以及与检索的相关性,将初始排序值设为
在迭代过程中,考虑到新闻文档的重要性,本发明提出的迭代公式如下:
其中,Skj表示两个文档的相似性,y设为0.85。重复以上迭代过程,最终达到一个稳定状态,就得到了排序结果。
下面详细介绍用户操作界面。
<检索结果浏览界面>
图5显示了本发明一个实施例的网络新闻检索和浏览界面。
为了提供给用户生动快速的检索和浏览界面,本发明提供了一种新颖的用户检索和浏览界面。
参见图5,该界面包括地图视图和新闻事件列表这两个模块,分别对应图5中的左右两部分。左半部分是基于谷歌地图的地图视图。用户可以在上面的检索框中输入检索词进行检索,也可以通过浏览地图双击感兴趣的地点进行检索。系统返回检索结果,在地图上对应地点跳出一个窗口,展示排在第一位的新闻的标题以及前两幅最相关图像,用户可以点击“更多”按钮获取更多信息。右半部分按照新闻文档与检索的相关性降序排列,给出了与检索相关的所有事件列表。每一个列表条目对应一个新闻事件,给出了这个新闻事件对应的5幅新闻图片、标题和简单描述。如果用户想了解详细信息,可点击“更多”按钮获取新闻的全文。用户也可以通过点击新闻标题到新闻的原始网页进行访问浏览。
<优选实施例>
以下通过一个具体实施例来说明本发明所提供的算法和界面的技术效果。本实施例中,所有的数据是从ABC、BBC和CNN以及谷歌等新闻网站上爬取的。总共有48,429新闻文档和20,862个新闻图片。经过过滤和扩展,共得到4,742个地名,以及一些参数设定。对于一致性约束概率矩阵分解模型,H=100,λP=λE=0.001,λC=2-3和λS=2-4。在新闻配图中,h=20,c=5,每个文档抽取5个检索条目。
为了评估用户对这整个系统的满意程度,本实施例设置了多个用户按照设定好的规则打分,然后采用nDCG准则度量评价结果。
在评价当中,需要人为标定一些数据,包括地名与文档的相关性以及图片与文档的相关性。本实施例中设定了三种标准:非常相关、相关和不相关,并分别量化为2,1,0。同时也邀请了30名年龄在20和30之间的用户进行用户研究,这些参与者来自两个国家并经常在线阅读英文新闻。
首先对地点相关性分析进行实验评价。随机挑选了500个文档分别对进行一致性约束概率矩阵分解细化关系前后进行了评价,得到了两个平均值,分别为0.492和0.954。这表明一致性约束概率矩阵分解对于去噪和细化地点-事件关系具有显著的效果。
其次,通过检索检验地名相关性分析。随机选择了100个地名进行检索,并比较一致性约束概率矩阵分解、BM25排序模型和传统的概率矩阵分解模型。
图6是BM25排序模型、概率矩阵分解模型和一致性约束概率矩阵分解模型的检索性能评价结果。
图6中,横坐标表示评价时选取的排在前面的文档数,纵坐标采用nDCG准则的度量值。如图6所示,本发明提出的一致性约束概率矩阵分解模型(CCPMF)的分析方法的nDCG度量值明显高于其他方法的相应值,这表明本发明的分析方法具有显著的技术效果。
为了进一步观察模型中参数对系统的影响,本发明分别以变化λC(固定λS)和变化λS(固定λC)进行了结果评估。
图7给出了变化参数在NDCG50规则下的结果。图7所示结果说明了参数在很大范围内变化时,本发明提出的一致性约束概率矩阵分解模型(CCPMF)的效果明显优于其他两种方法。
图8是本发明的新闻配图方法与现有技术的性能比较结果。
在图8比较测试中,为了评价新闻配图,先随机挑出300个文档并标注其图像与文档的相关性,组成训练集学习权重系数。然后随机挑选出1,000个文档进行测试,并将本发明的新闻配图方法与简单搜索(把标题作为检索检索图像)和简单融合(把标题中的每个单词作为检索检索图像并融合)进行了比较。如图8所示,本发明的新闻配图方法明显优于其他两种方法,说明本发明方法的有效性。
另外,本实施例还采用用户研究比较了新闻配图前后的性能。每个用户自由浏览并比较这两个版本。对于较差的版本打1分,如果另外一个版本与它相比是好,更好或者相当,分别给2,3和1分。同时也做了双因子方差分析。该比较结果显示在如下的表1中。
表1:新闻配图前后的用户研究结果
表1显示了新闻配图前后的平均值和标准差以及方差分析,其中左边部分给出了平均分和标准差;右边给出了方差分析结果。由表1可以看出,用户更喜欢给新闻配图,并且本发明的新闻配图方法性能在统计结果上具有明显的有益效果。
图9显示了本发明的检索结果排序方法与现有技术的排序方法在检索相关性上的比较结果。
在图9所示测试中,比较了本发明的检索结果排序方法、PRT(采用时间信息作为静态排序的网页排序方法)方法,PRR(采用地名相关值作为静态排序的网页排序方法)方法以及BM25排序方法。随机挑选了100个检索进行了相关性评价,评价结果显示在图9中。如图9所示,BM25取得了最差的性能,PRR取得了最好的性能。本发明的检索结果排序方法仅仅略次于PRR,但是在时效性方面明显优于PRR方法(参见图10),即本发明能够将最新发生的新闻优先地展示给用户。
图10显示了本发明的检索结果排序方法与现有技术的排序方法在时效性方面的比较结果。
图10中,纵坐标表示发生在最近一周的新闻所占百分比。在该测试中,统计了100个检索返回列表中,在前d(d=5,10,20,50,100)个新闻中发生在最近一周的新闻的平均百分比。由图10可见,本发明的检索结果排序方法仅仅略次于PRT方法,但是如图9所示,在检索相关性方面明显优于PRT方法。
综合图9和图10所示的测试结果,可以看到本发明的检索结果排序方法在相关性和时效性的综合效果明显优于现有技术中的排序方法,因而能够取得令人满意的性能。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (12)
1.一种融合地理信息与视觉信息的网络新闻检索系统,该系统包括:
数据预处理模块,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;
地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析;
新闻配图模块,用于为新闻选择能够说明新闻内容的图像;
检索结果展示模块,用于基于检索相关性排序展示检索到的新闻;
所述地点相关性分析模块包括:
地理名词过滤和扩展模块,用于获取地理名词的地理位置信息;
基于矩阵分解的相关性分析模块,用于利用一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系,所述一致性约束概率矩阵分解方法基于下述规则分析新闻地点和新闻事件之间的关系:相似度较高的新闻事件很可能发生在同一个地方,以及相关性较高的多个地点与同一个新闻事件的关系是相近的,所述一致性约束概率矩阵分解方法的目标函数为:
其中,M为地点的数量;N为事件的数量;δ是标识矩阵,如果i和j的关系大于零,则δij=l,否则δij=0;是初始的地点-事件的0-1关系矩阵;表示期望的地点-事件关系矩阵; 为地点-事件的关系估计误差所服从的高斯分布的方差;为潜在的H维地名特征矩阵服从高斯分布的方差;为潜在的H维事件特征矩阵服从高斯分布的方差;表示潜在的H维地名特征矩阵;表示潜在的H维事件特征矩阵;λC和λS是两个非负的权重系数;LC=DC-C和LS=DS-S是拉布拉斯矩阵,DC是对角矩阵,定义为DS是对角矩阵,定义为表示地点之间的相关性矩阵;表示事件相似性矩阵;Tr[]是矩阵求迹运算;基于上述模型求解得到P和E,然后采用PTE近似R;
所述新闻配图模块包括:
检索词生成模块,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索;
图像排序和选择模块,用于对检索到的图像进行排序和去重,并选择能够说明新闻内容的图像。
2.根据权利要求1所述的系统,所述数据预处理模块包括:
新闻数据爬取模块,用于从新闻网站上爬取新闻文档和对应的新闻图像;
文本分析模块,用于提取出新闻数据的标题、时间、网站、摘要和正文以及对应的网址,提取出新闻图像的网址和图像对应的文本信息;
新闻实体提取模块,从新闻数据中提取出人物,地点和时间。
3.根据权利要求1所述的系统,所述检索结果展示模块包括:
地图视图模块,用于显示所选择的新闻在地图上的分布位置;
新闻事件列表模块,用于按照预定的规则排序并显示检索到的新闻事件的列表。
4.根据权利要求1所述的系统,其中
所述检索词生成模块从新闻数据的多个部分中提取检索词进行图像检索;
所述图像排序和选择模块采用基于等级聚合的方法对检索到的图像进行排序。
5.根据权利要求3所述的系统,其中所述预定的规则排序包括下述中的一种或多种:新闻事件之间的相关性、新闻事件与检索地点之间的相关性以及新闻发生的时间信息。
6.根据权利要求3所述的系统,其中所述地图视图模块,响应于用户输入的检索词或者点击地图上任何一个地点,显示出最相关新闻事件的标题及对应的图像。
7.一种融合地理信息与视觉信息的网络新闻检索方法,该方法包括:
数据预处理步骤,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;
地点相关性分析步骤,用于执行新闻事件与新闻地点的相关性分析;
新闻配图步骤,用于为新闻选择能够说明新闻内容的图像;
检索结果展示步骤,用于基于检索相关性排序展示检索到的新闻;
所述地点相关性分析步骤包括:
地理名词过滤和扩展步骤,用于获取地理名词的地理位置信息;
基于矩阵分解的相关性分析步骤,用于利用一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系,所述一致性约束概率矩阵分解方法基于下述规则分析新闻地点和新闻事件之间的关系:相似度较高的新闻事件很可能发生在同一个地方,以及相关性较高的多个地点与同一个新闻事件的关系是相近的,所述一致性约束概率矩阵分解方法的目标函数为:
其中,M为地点的数量;N为事件的数量;δ是标识矩阵,如果i和j的关系大于零,则δij=l,否则δij=0;是初始的地点-事件的0-1关系矩阵;表示期望的地点-事件关系矩阵; 为地点-事件的关系估计误差所服从的高斯分布的方差;为潜在的H维地名特征矩阵服从高斯分布的方差;为潜在的H维事件特征矩阵服从高斯分布的方差;表示潜在的H维地名特征矩阵;表示潜在的H维事件特征矩阵;λC和λS气是两个非负的权重系数;LC=DC-C和LS=DS-S是拉布拉斯矩阵,DC是对角矩阵,定义为DS是对角矩阵,定义为表示地点之间的相关性矩阵;表示事件相似性矩阵;Tr[]是矩阵求迹运算;基于上述模型求解得到P和E,然后采用PTE近似R;
所述新闻配图步骤包括:
检索词生成步骤,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索;
图像排序和选择步骤,用于对检索到的图像进行排序和去重,并选择能够说明新闻内容的图像。
8.根据权利要求7所述的方法,所述数据预处理步骤包括:
新闻数据爬取步骤,用于从新闻网站上爬取新闻文档和对应的新闻图像;
文本分析步骤,用于提取出新闻数据的标题、时间、网站、摘要和正文以及对应的网址,提取出新闻图像的网址和图像对应的文本信息;
新闻实体提取步骤,从新闻数据中提取出人物,地点和时间。
9.根据权利要求7所述的方法,所述检索结果展示步骤包括:
地图视图步骤,用于显示所选择的新闻在地图上的分布位置;
新闻事件列表步骤,用于按照预定的规则排序并显示检索到的新闻事件的列表。
10.根据权利要求7所述的方法,其中
所述检索词生成步骤从新闻数据的多个部分中提取检索词进行图像检索;
所述图像排序和选择步骤采用基于等级聚合的方法对检索到的图像进行排序。
11.根据权利要求9所述的方法,其中所述预定的规则排序包括下述中的一种或多种:新闻事件之间的相关性、新闻事件与检索地点之间的相关性以及新闻发生的时间信息。
12.根据权利要求9所述的方法,其中所述地图视图步骤,响应于用户输入的检索词或者点击地图上任何一个地点,显示出最相关新闻事件的标题及对应的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103520023A CN102364473B (zh) | 2011-11-09 | 2011-11-09 | 融合地理信息与视觉信息的网络新闻检索系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103520023A CN102364473B (zh) | 2011-11-09 | 2011-11-09 | 融合地理信息与视觉信息的网络新闻检索系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102364473A CN102364473A (zh) | 2012-02-29 |
CN102364473B true CN102364473B (zh) | 2013-11-20 |
Family
ID=45691039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103520023A Active CN102364473B (zh) | 2011-11-09 | 2011-11-09 | 融合地理信息与视觉信息的网络新闻检索系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102364473B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103634736A (zh) * | 2012-08-21 | 2014-03-12 | 北京友友天宇系统技术有限公司 | 基于地理信息的热点新闻分享方法、装置及系统 |
CN103425770B (zh) * | 2013-08-08 | 2017-09-01 | 刘广宇 | 事件多维度信息显示装置和方法 |
CN103390068A (zh) * | 2013-08-22 | 2013-11-13 | 济南中维世纪科技有限公司 | 一种新闻检索方法 |
JP2016541058A (ja) * | 2013-11-27 | 2016-12-28 | インテル コーポレイション | 高詳細度のニュースマップ及び画像オーバーレイ |
CN104281691B (zh) * | 2014-10-11 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 一种基于搜索引擎的数据处理方法及平台 |
CN104965847B (zh) * | 2015-02-04 | 2017-11-10 | 北京奇虎科技有限公司 | 信息展示方法及装置 |
CN104615715A (zh) * | 2015-02-05 | 2015-05-13 | 北京航空航天大学 | 基于地理位置的社交网络事件分析方法及系统 |
US9654549B2 (en) * | 2015-05-18 | 2017-05-16 | Somchai Akkarawittayapoom | Systems and methods for creating user-managed online pages (MAPpages) linked to locations on an interactive digital map |
CN104933171B (zh) * | 2015-06-30 | 2019-06-18 | 百度在线网络技术(北京)有限公司 | 兴趣点数据关联方法和装置 |
WO2017041239A1 (zh) * | 2015-09-08 | 2017-03-16 | 余青山 | 基于地理位置在一定距离范围内搜索新闻 |
CN105808761A (zh) * | 2016-03-16 | 2016-07-27 | 山东大学 | 一种基于大数据Solr网页排序优化方法 |
CN106066862B (zh) * | 2016-05-25 | 2019-05-31 | 东软集团股份有限公司 | 新闻事件显示方法及装置 |
CN106326447B (zh) * | 2016-08-26 | 2019-06-21 | 北京量科邦信息技术有限公司 | 一种众包网络爬虫抓取数据的检测方法及系统 |
CN106599285B (zh) * | 2016-12-23 | 2020-06-30 | 北京奇虎科技有限公司 | 基于新闻类搜索提供搜索结果的方法及装置 |
CN106951493A (zh) * | 2017-03-14 | 2017-07-14 | 北京搜狐新媒体信息技术有限公司 | 无图新闻的自动配图展示方法及装置 |
CN107133290B (zh) * | 2017-04-19 | 2019-10-29 | 中国人民解放军国防科学技术大学 | 一种个性化信息检索方法与装置 |
CN108182232B (zh) * | 2017-12-27 | 2018-10-23 | 掌阅科技股份有限公司 | 基于电子书的人物展示方法、电子设备及计算机存储介质 |
CN108446377A (zh) * | 2018-03-16 | 2018-08-24 | 四川高原之宝牦牛网络技术有限公司 | 地图特效展示方法及装置 |
CN109033358B (zh) * | 2018-07-26 | 2022-06-10 | 李辰洋 | 新闻聚合与智能实体关联的方法 |
CN109063198B (zh) * | 2018-09-10 | 2022-02-11 | 浙江广播电视集团 | 融媒体资源的多维可视化搜索推荐系统 |
CN109543876A (zh) * | 2018-10-17 | 2019-03-29 | 天津大学 | 一种城市问题的可视化分析方法 |
CN110136226B (zh) * | 2019-04-08 | 2023-12-22 | 华南理工大学 | 一种基于图像组协同描述生成的新闻自动配图方法 |
CN110890130B (zh) * | 2019-12-03 | 2022-09-20 | 大连理工大学 | 基于多类型关系的生物网络模块标志物识别方法 |
CN111639173B (zh) * | 2020-05-22 | 2023-07-14 | 程鹏 | 疫情数据处理方法、装置、设备和存储介质 |
CN113626668B (zh) * | 2021-07-02 | 2024-05-14 | 武汉大学 | 一种面向地图的新闻多尺度可视化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101714145A (zh) * | 2008-10-07 | 2010-05-26 | 英业达股份有限公司 | 一种网站新闻分析系统及其方法 |
CN102024056A (zh) * | 2010-12-15 | 2011-04-20 | 中国科学院自动化研究所 | 利用计算机的基于多媒体分析的新闻人物检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100449497B1 (ko) * | 2000-12-21 | 2004-09-21 | 주식회사 매직아이 | 실시간 정보 제공 장치 및 그 처리 방법 |
-
2011
- 2011-11-09 CN CN2011103520023A patent/CN102364473B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101714145A (zh) * | 2008-10-07 | 2010-05-26 | 英业达股份有限公司 | 一种网站新闻分析系统及其方法 |
CN102024056A (zh) * | 2010-12-15 | 2011-04-20 | 中国科学院自动化研究所 | 利用计算机的基于多媒体分析的新闻人物检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102364473A (zh) | 2012-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102364473B (zh) | 融合地理信息与视觉信息的网络新闻检索系统及方法 | |
US9262532B2 (en) | Ranking entity facets using user-click feedback | |
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
Miao et al. | AMAZING: A sentiment mining and retrieval system | |
US8615707B2 (en) | Adding new attributes to a structured presentation | |
Ionescu et al. | Retrieving Diverse Social Images at MediaEval 2014: Challenge, Dataset and Evaluation. | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
US8612435B2 (en) | Activity based users' interests modeling for determining content relevance | |
US8452791B2 (en) | Adding new instances to a structured presentation | |
TWI351619B (en) | Search engine that applies feedback from users to | |
US20090287676A1 (en) | Search results with word or phrase index | |
US20110213761A1 (en) | Searchable web site discovery and recommendation | |
Park et al. | A large-scale study of user image search behavior on the web | |
US20110191336A1 (en) | Contextual image search | |
US8452760B2 (en) | Relevancy presentation apparatus, method, and program | |
US20090172514A1 (en) | Method and system for searching text-containing documents | |
CN104866554B (zh) | 一种基于社会化标注的个性化搜索方法及系统 | |
CN105930469A (zh) | 基于Hadoop的个性化旅游推荐系统及方法 | |
CN111309936A (zh) | 一种电影用户画像的构建方法 | |
Li et al. | News contextualization with geographic and visual information | |
Bansal et al. | Searching the Blogosphere. | |
Xu et al. | LogCanvas: visualizing search history using knowledge graphs | |
CN110555154A (zh) | 一种面向主题的信息检索方法 | |
Ravi et al. | Using structured text for large-scale attribute extraction | |
CN107908749B (zh) | 一种基于搜索引擎的人物检索系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |