CN106202514A - 基于Agent的突发事件跨媒体信息的检索方法及系统 - Google Patents

基于Agent的突发事件跨媒体信息的检索方法及系统 Download PDF

Info

Publication number
CN106202514A
CN106202514A CN201610580982.5A CN201610580982A CN106202514A CN 106202514 A CN106202514 A CN 106202514A CN 201610580982 A CN201610580982 A CN 201610580982A CN 106202514 A CN106202514 A CN 106202514A
Authority
CN
China
Prior art keywords
accident
information
media information
user
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610580982.5A
Other languages
English (en)
Inventor
杜军平
訾玲玲
韩鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201610580982.5A priority Critical patent/CN106202514A/zh
Publication of CN106202514A publication Critical patent/CN106202514A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于Agent的突发事件跨媒体信息的检索方法及系统,该方法包括:在采集到的突发事件的跨媒体信息中,根据用户提交的查询请求检索与用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至用户对应的移动终端,和/或在本地进行显示;对采集到的突发事件的跨媒体信息进行统计,得到统计结果,将统计结果返回至用户对应的移动终端,和/或在本地进行显示;并且采用移动Agent技术将采集步骤、获取步骤、检索步骤、以及统计步骤均封装为相应的Agent框架。本发明实施例能够实现对互联网中海量的突发事件跨媒体信息进行快速的检索与分析,进而满足用户快速获取所需的突发事件跨媒体信息的需求。

Description

基于Agent的突发事件跨媒体信息的检索方法及系统
技术领域
本发明涉及突发事件应急管理技术领域,具体而言,涉及基于Agent的突发事件跨媒体信息的检索方法及系统。
背景技术
目前,突发事件根据性质不同可分为自然灾害事件、事故灾难事件、社会安全事件、公共卫生事件四大类。突发事件的发生都是难以预料的,由于突发事件具有随机性、突然性和危害性等特征,从而,给政府管理决策以及相关的救援工作带来了很大的困难。随着近几年互联网在我国的迅猛发展,使互联网成为庞大的公共信息集散地,互联网成为民众获取信息、参与评论最常用的平台,同时,互联网也是突发事件第一时间出现和扩散传播的媒介。
当前,在互联网环境下,突发事件网络信息是通过新闻、评论、发贴、回复等形式反映出来的,该种突发事件跨媒体信息的发布方式具有传播快捷、信息多元、方式互动等显著特点,正因通过互联网的方式进行信息发布具有该特征使信息监测和处理的难度增大,政府及相关管理者亟需对处于“未然态”的突发事件网络信息进行挖掘与分析,把握处理危机事件的最佳时机。而传统的依靠人工方法难以应对海量网络信息的收集和处理,所以需要融合多种信息技术,对网络的热点、焦点与敏感主题能够及时检测和分析,以提高对突发事件的应急和应对措施。
在实现本发明的过程中,发明人发现相关技术中至少存在以下问题:相关技术中无法对互联网中海量的突发事件跨媒体信息进行快速的检索与分析,进而无法满足用户快速获取所需的突发事件跨媒体信息的需求。
发明内容
有鉴于此,本发明实施例的目的在于提供基于Agent的突发事件跨媒体信息的检索方法,以实现对互联网中海量的突发事件跨媒体信息进行快速的检索与分析,进而满足用户快速获取所需的突发事件跨媒体信息的需求。
第一方面,本发明实施例提供了一种基于Agent的突发事件跨媒体信息的检索方法,该方法包括:
从预存的多个目标网址中采集各个突发事件的跨媒体信息,其中,所述跨媒体信息包括:文本信息和图像信息;
获取用户通过移动终端提交的查询请求,其中,所述查询请求携带有查询关键词;
在采集到的所述突发事件的跨媒体信息中,根据所述用户提交的查询请求检索与所述用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将检索到的突发事件的跨媒体信息在本地进行显示;
对采集到的所述突发事件的跨媒体信息进行统计,得到统计结果,将所述统计结果返回至所述用户对应的移动终端,和/或将所述统计结果在本地进行显示;
采用移动Agent技术将采集步骤、获取步骤、检索步骤、以及统计步骤均封装为相应的Agent框架。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述从预存的多个目标网址中采集突发事件的跨媒体信息,包括:
当所述跨媒体信息为文本信息时,对预存的目标网址中的多个网页进行搜索,并逐一判断搜索到的网页中是否存在预设的采集关键词,若存在,则将所述网页下载至本地服务器,并将所述网页的相关数据存储至相应的数据库;
当所述跨媒体信息为图像信息时,采用模拟用户登录的方式,将预存的采集关键词提交至搜索引擎,根据所述搜索引擎返回的搜索结果采集与所述采集关键词对应的突发事件相关的图像信息,并将所述图像信息存储至相应的数据库,其中,所述图像信息包括:图像源文件、所述图像源文件的时空信息,所述时空信息包括:拍摄时间和地理位置信息,所述采集关键词包括以下中的一种或者多种:预存在数据库中关键词、用户的关注偏好、用户的关注信息、以及记录的用户提交的查询关键词。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述在采集到的所述突发事件的跨媒体信息中,根据所述用户提交的查询请求检索与所述用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将检索到的突发事件的跨媒体信息在本地进行显示,包括:
对采集到的所述突发事件的跨媒体信息进行语义标注,并利用信息抽取技术对语义标注后的所述突发事件的跨媒体信息创建标注文档;
对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表;
对所述查询请求中携带的查询关键词进行语义扩展,得到扩展词集合,结合所述查询索引列表根据所述扩展词集合检索与所述用户匹配的突发事件的跨媒体信息;
采用标注排序法根据所述扩展词集合与标注文档中标注词的相关性对检索到的所述突发事件的跨媒体信息进行排序,将排序后的所述突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将所述突发事件的跨媒体信息在本地进行显示。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表之前,还包括:判断所述标注文档的数量是否大于预设阈值;
所述对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表,包括:
当所述标注文档的数量小于等于预设阈值时,分别对文本信息的标注文档和图像信息的标注文档进行内容分析,并利用词法分析器根据内容分析结果提取各个标注文档的索引词;利用倒排索引算法根据提取到的所述索引词为所述标注文档建立倒排索引列表,将所述倒排索引列表作为查询索引列表;
当所述标注文档的数量大于预设阈值时,利用概率主题模型隐含狄利克雷分布方法对文本信息的标注文档进行主题特征向量提取,根据提取到的多个所述主题特征向量建立主题特征矩阵;利用模糊颜色和纹理直方图方法对图像信息的标注文档进行视觉特征向量提取,根据提取到的多个所述视觉特征向量建立视觉特征矩阵;对所述主题特征矩阵和所述视觉特征矩阵进行典型关联分析,根据分析结果求解所述主题特征矩阵对应的第一映射矩阵和所述视觉特征矩阵对应的第二映射矩阵;根据所述主题特征矩阵与所述第一映射矩阵的乘积、以及所述视觉特征矩阵与所述第二映射矩阵的乘积为所述标注文档建立哈希索引列表,将所述哈希索引列表作为查询索引列表。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述利用倒排索引算法根据提取到的所述索引词为所述标注文档建立倒排索引列表之后,还包括:
对图像信息进行视觉特征向量的提取,其中,所述图像信息包括:图像源文件、所述图像源文件的时空信息,所述时空信息包括:拍摄时间和地理位置信息;
根据所述倒排索引列表和提取到的视觉特征向量对多个标注文档建立超图结构;
利用图谱分割方法对所述超图结构进行分割,得到多个超图子集,其中,所述超图子集包含的节点具有相似的语义;
利用随机游走方法确定所述超图结构中的多个显著节点;
使用所述显著节点替换所述超图子集中对应的节点,得到替换后的超图结构;
所述将所述倒排索引列表作为查询索引列表,包括:将所述替换后的超图结构作为查询索引列表。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述对采集到的所述突发事件的跨媒体信息进行统计,得到统计结果,将所述统计结果返回至所述用户对应的移动终端,和/或将所述统计结果在本地进行显示,包括:
根据采集到的所述突发事件的跨媒体信息的来源渠道分别确定各个突发事件的各个来源渠道的数量和频度,将确定出的各个突发事件的各个来源渠道的数量和频度作为跨媒体信息的来源统计结果;
根据预设的语义分类方式对预设时间段内不同种类的突发事件的关注度进行统计,得到各个突发事件的分类统计结果;
根据互联网上各个用户的反馈记录分析所述突发事件的发展趋势,得到所述突发事件的发展趋势统计结果;
将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果返回至所述用户对应的移动终端,和/或将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果在本地进行显示。
第二方面,本发明实施例还提供了一种基于Agent的突发事件跨媒体信息的检索系统,该系统包括:移动终端和检索服务器,其中,所述检索服务器包括:
信息采集模块,用于从预存的多个目标网址中采集各个突发事件的跨媒体信息,其中,所述跨媒体信息包括:文本信息和图像信息;
智能移动终端模块,用于获取用户通过移动终端提交的查询请求,其中,所述查询请求携带有查询关键词;
信息检索模块,用于在采集到的所述突发事件的跨媒体信息中,根据所述用户提交的查询请求检索与所述用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将检索到的突发事件的跨媒体信息在本地进行显示;
信息统计模块,用于对采集到的所述突发事件的跨媒体信息进行统计,得到统计结果,将所述统计结果返回至所述用户对应的移动终端,和/或将所述统计结果在本地进行显示;
Agent管理模块,用于采用移动Agent技术将所述信息采集模块、所述智能移动终端模块、所述信息检索模块、以及所述信息统计模块均封装为相应的Agent框架。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述信息采集模块包括:
文件采集子模块,用于当所述跨媒体信息为文本信息时,对预存的目标网址中的多个网页进行搜索,并逐一判断搜索到的网页中是否存在预设的采集关键词,若存在,则将所述网页下载至本地服务器,并将所述网页的相关数据存储至相应的数据库;
图像采集子模块,用于当所述跨媒体信息为图像信息时,采用模拟用户登录的方式,将预存的采集关键词提交至搜索引擎,根据所述搜索引擎返回的搜索结果采集与所述采集关键词对应的突发事件相关的图像信息,并将所述图像信息存储至相应的数据库,其中,所述图像信息包括:图像源文件、所述图像源文件的时空信息,所述时空信息包括:拍摄时间和地理位置信息,所述采集关键词包括以下中的一种或者多种:预存在数据库中关键词、用户的关注偏好、用户的关注信息、以及记录的用户提交的查询关键词。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述信息检索模块包括:
语义标注子模块,用于对采集到的所述突发事件的跨媒体信息进行语义标注,并利用信息抽取技术对语义标注后的所述突发事件的跨媒体信息创建标注文档;
索引创建子模块,用于对标注文档进行分析,根据分析结果为所述标注文档建查询索引列表;
查询扩展子模块,用于对所述查询请求中携带的查询关键词进行语义扩展,得到扩展词集合,结合所述查询索引列表根据所述扩展词集合检索与所述用户匹配的突发事件的跨媒体信息;
信息展示子模块,用于采用标注排序法根据所述扩展词集合与标注文档中标注词的相关性对检索到的所述突发事件的跨媒体信息进行排序,将排序后的所述突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将所述突发事件的跨媒体信息在本地进行显示。
结合第二方面,本发明实施例提供了第二方面的第三种可能的实施方式,其中,所述信息统计模块包括:
来源统计子模块,用于根据采集到的所述突发事件的跨媒体信息的来源渠道分别确定各个突发事件的各个来源渠道的数量和频度,将确定出的各个突发事件的各个来源渠道的数量和频度作为跨媒体信息的来源统计结果;
分类统计子模块,用于根据预设的语义分类方式对预设时间段内不同种类的突发事件的关注度进行统计,得到各个突发事件的分类统计结果;
趋势统计子模块,用于根据互联网上各个用户的反馈记录分析所述突发事件的发展趋势,得到所述突发事件的发展趋势统计结果;
统计结果展示子模块,用于将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果返回至所述用户对应的移动终端,和/或将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果在本地进行显示。
在本发明实施例提供的基于Agent的突发事件跨媒体信息的检索方法及系统中,该方法包括:在采集到的突发事件的跨媒体信息中,根据用户提交的查询请求检索与用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至用户对应的移动终端,和/或将检索到的突发事件的跨媒体信息在本地进行显示;对采集到的突发事件的跨媒体信息进行统计,得到统计结果,将统计结果返回至用户对应的移动终端,和/或将统计结果在本地进行显示;采用移动Agent技术将采集步骤、获取步骤、检索步骤、以及统计步骤均封装为相应的Agent框架。通过本发明实施例能够实现对互联网中海量的突发事件跨媒体信息进行快速的检索与分析,进而满足用户快速获取所需的突发事件跨媒体信息的需求。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种基于Agent的突发事件跨媒体信息的检索方法的流程示意图;
图2示出了本发明实施例所提供的一种基于Agent的突发事件跨媒体信息的检索系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到相关技术中无法对互联网中海量的突发事件跨媒体信息进行快速的检索与分析,进而无法满足用户快速获取所需的突发事件跨媒体信息的需求。基于此,本发明实施例提供了一种基于Agent的突发事件跨媒体信息的检索方法及系统,下面通过实施例进行描述。
如图1所示,本发明实施例提供了一种基于Agent的突发事件跨媒体信息的检索方法,该方法包括步骤S102-S110,具体如下:
步骤S102:从预存的多个目标网址中采集各个突发事件的跨媒体信息,其中,所述跨媒体信息包括:文本信息和图像信息;
步骤S104:获取用户通过移动终端提交的查询请求,其中,所述查询请求携带有查询关键词;
步骤S106:在采集到的所述突发事件的跨媒体信息中,根据所述用户提交的查询请求检索与所述用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将检索到的突发事件的跨媒体信息在本地进行显示;
步骤S108:对采集到的所述突发事件的跨媒体信息进行统计,得到统计结果,将所述统计结果返回至所述用户对应的移动终端,和/或将所述统计结果在本地进行显示;
步骤S110:采用移动Agent技术将采集步骤S102、获取步骤S104、检索步骤S106、以及统计步骤S108均封装为相应的Agent框架。
其中,本发明实施例设计并实现的基于Agent的突发事件跨媒体检索方法及系统是在My Eclipse8.5平台上使用以Java语言和搜索引擎技术开发的集数据采集和跨媒体信息搜索功能为一体的B/S结构系统,所使用的数据库是MySql关系型数据库,系统运行的软件环境是Windows XP操作系统,并使用开放源代码的全文检索引擎工具Lucene和网络爬虫工具Heritrix。
另外,划分功能相对独立的模块并封装成Agent,形成多Agent框架,各个Agent框架分别实现突发事件应急信息的采集、检索、分析和统计功能;各个Agent分工协作完成突发事件跨媒体信息的采集、检索、统计等任务。通过通信代理的设计实现了Agent间的协作、控制和调度。
在本发明提供的实施例中,通过集成互联网信息采集技术、智能检索技术、数据挖掘技术、智能移动终端技术、垂直搜索技术、数据库技术、移动Agent技术等,采集互联网突发事件的跨媒体信息,根据用户输入的查询请求检索相应的跨媒体信息,并进行跨媒体信息的分析统计,从而实现突发事件跨媒体信息的快速检索,同时提供移动终端的跨媒体信息检索服务。因此,采用本发明实施例提供的检索方法可以为突发事件应急信息的挖掘、融合和索引提供科学准确的决策依据,能够满足人们对应急管理信息服务的各类需求,进而具有很高的应用价值。
具体的,可以根据各个用户在预设时间段内的关注度和关注倾向,针对特定的突发事件,采集和检测相关的互联网信息,实时检索最新动态,并根据突发事件的特征对其进行分类和分析,以及提供适应移动终端环境的突发事件跨媒体信息检索服务。
其中,上述步骤S102实现的功能主要包括:根据用户的关注度和关注倾向,如旅游突发事件、食品安全突发事件,以及用户提交相关的查询请求给对应的文本/图像采集模块,文本/图像采集模块根据采集关键词,采集相应的文本或图像信息。从互联网上采集突发事件应急管理领域中的文本资源与图像资源。根据用户的关注度和关注倾向,根据用户提交的采集关键词和数据库内存储的用户关注信息,进行自适应地爬取突发事件应急管理领域中的新闻报道、论坛转帖和图像资料等。
具体的,上述步骤S102从预存的多个目标网址中采集突发事件的跨媒体信息,具体包括:
当所述跨媒体信息为文本信息时,对预存的目标网址中的多个网页进行搜索,并逐一判断搜索到的网页中是否存在预设的采集关键词,若存在,则将所述网页下载至本地服务器,并将所述网页的相关数据存储至相应的数据库;
其中,文本采集子模块可以针对指定网站的若干级页面进行搜索,若该页面内容中含有指定的突发事件采集关键词,则将此网页下载到本地并进行一系列的数据库记录操作。该文本采集子模块包括三个功能,功能一是任务状态显示功能,可以显示当前爬虫的任务状态、采集消耗时间、已处理网页、发现关键词的网页以及估计进度;功能二是任务管理功能,负责创建新的采集任务以及显示已完成的任务列表;功能三是配置管理功能,负责配置爬虫的主要功能模块,完善和定制模块配置中选择的各种处理器以及进行属性的设置。
当所述跨媒体信息为图像信息时,采用模拟用户登录的方式,将预存的采集关键词提交至搜索引擎,根据所述搜索引擎返回的搜索结果采集与所述采集关键词对应的突发事件相关的图像信息并将所述图像信息存储至相应的数据库,其中,所述图像信息包括:图像源文件、所述图像源文件的时空信息,所述时空信息包括:拍摄时间和地理位置信息,所述采集关键词包括以下中的一种或者多种:预存在数据库中关键词、用户的关注偏好、用户的关注信息、以及记录的用户提交的查询关键词。
其中,图像采集子模块采用模拟用户登录的方式,将突发事采集关键词提交到搜索引擎,根据搜索引擎返回的结果,采集与突发事件有关的图像信息。图像信息采集的实施过程主要包括:采集请求的提交和图像信息的采集两个步骤,首先根据数据库内存储的突发事件信息数据,分析采集请求,获得与采集请求有关的关键词列表,通过HTTP POST方式,将采集请求提交到搜索引擎;其次,根据搜索引擎返回的数据列表,调用图像下载模块,根据图像的语义信息和关注度,有选择性的采集下载互联网图像资源,并采集图像的附加时空信息,如图像的拍摄时间和地理位置等。
具体的,上述步骤S106在采集到的所述突发事件的跨媒体信息中,根据所述用户提交的查询请求检索与所述用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将检索到的突发事件的跨媒体信息在本地进行显示,具体包括:
步骤S1062:对采集到的所述突发事件的跨媒体信息进行语义标注,并利用信息抽取技术对语义标注后的所述突发事件的跨媒体信息创建标注文档;
步骤S1064:对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表;
步骤S1066:对所述查询请求中携带的查询关键词进行语义扩展,得到扩展词集合,结合所述查询索引列表根据所述扩展词集合检索与所述用户匹配的突发事件的跨媒体信息;
步骤S1068:采用标注排序法根据所述扩展词集合与标注文档中标注词的相关性对检索到的所述突发事件的跨媒体信息进行排序,将排序后的所述突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将所述突发事件的跨媒体信息在本地进行显示。
其中,在本发明提供的实施例中,通过标注文档的方法进行突发事件跨媒体信息的精准检索。对采集的文本信息和图像信息进行标注信息的提取,并采用标注文档方法实现文本资源和图像资源的统一存储,生成多个标注文档;为标注文档建立查询索引列表,同时根据领域知识库对查询请求中的关键词进行查询扩展;提出新的标注排序法,根据查询扩展词与标注信息的相关性及图像的地理位置信息进行排序,同时从多个角度展示给用户跨媒体检索结果;
上述步骤S106具体包括四个子步骤,分别实现以下主要功能:
对于步骤S1062对采集到的突发事件的图像信息和文本信息进行语义标注,利用信息抽取技术创建标注文档,实现了文本和图像媒体两种媒体信息的语义统一。具体的实施过程为:首先对抓取的突发事件文本信息和图像信息提取底层特征作为特征向量集,采用结构分析和智能分析转换的方法,经过去噪处理和重复内容消除,抽取出能够反映多媒体资源语义的标注信息(标注词);其次,为每个处理后的文本信息和图像信息建立标注文档,标注文档的建立采用静态方式,并独立于查询。标注文件具有统一的格式,包括编号(用来标识该文档)、标题、来源网址、媒体类型、采集时间、来源位置和标注信息。
对于步骤S1064为标注文档建立查询索引列表,实现对查询关键词的快速检索。
由于考虑到检索速度与标注文档的数量具有一定的关联性,为了提高检索速度,根据检索文档的数量以不同的方式建立查询索引列表,基于此,所述对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表之前,还包括:判断所述标注文档的数量是否大于预设阈值;
另外,考虑到参照图像信息的时空信息建立查询索引列表,能够提高检索的准确率和召回率,基于此,当所述标注文档的数量小于等于预设阈值时,对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表的具体实施过程为:首先进行标注文档分析,即对标注文档的内容进行分析,并采用词法分析器提取索引词并记录在索引数据库中,对图像文档提取其视觉特征向量存储在索引数据库中;之后对这些文档建立超图结构,使用视觉底层特征、地理位置信息等建立图像间的超边,采用图谱分割方法将超图分割为若干个子集,每个子集内的节点具有相似的语义。其次,建立倒排索引表,倒排索引表记录标注文档标识集,标注词出现在某个标注文档中的位置列表和查询关键词在标注文档中的出现的词频。对于倒排索引列表,对其建立与上文相同的超图结构,在超图上使用随机游走方法发现其中的显著节点,并将这些节点替换为之前分割出的相似语义子集,以提高检索的准确率和召回率;当给定查询关键词后,通过查询索引列表迅速查找关联这个查询关键词的所有标注文档集合,通过标注文档的标识号找到相应的标注文档,同时根据标注文档中记录的信息查找文本图像媒体的源文件。
相应的,当所述标注文档的数量大于预设阈值时(在信息量比较大的情况下),采用哈希方法对文档建立索引,并使用汉明距离对文档的哈希值进行检索,以减少检索时间,实现对查询关键词的快速检索。对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表的具体实施过程为:首先进行标注文档分析,即对文本文档采用概率主题模型隐含狄利克雷分布方法提取主题向量,建立文本文档主题特征矩阵;对图像文档采用模糊颜色和纹理直方图方法提取视觉特征向量,建立图像文档特征矩阵。其次,对文本文档主题特征矩阵和图像文档特征矩阵进行典型关联分析,求解各自对应的映射矩阵,使用映射矩阵将文本文档和图像文档映射到同一个二值特征空间。最后,对于给定的查询文本或查询图像样例,使用对应的映射矩阵将其映射到共同特征空间中,并使用汉明距离对全部数据进行检索,最终实现文本图像的相互检索。因使用二进制编码和汉明距离进行检索,此方法在应对大量数据检索时可达到近似线性的检索效率。
对于步骤S1066利用突发事件领域知识对查询请求中的关键词(查询关键词)进行语义扩展,准确捕获用户的隐含意图,提高突发事件信息的搜索精度。具体的实施过程为:根据用户输入的查询关键词,利用突发事件领域知识库中信息的关联性,对查询关键词进行语义扩展,得到能够准确表达用户潜在查询意图的扩展词集合。
对于步骤S1068对检索到的突发事件的跨媒体信息进行排序,将排序后的突发事件跨媒体查询结果以多种方式返回给用户。具体的实施过程为:采用标注排序法,即根据查询扩展集与查询结果中标注信息的相关性对检索结果进行排序,涉及扩展词集合与标注文档中标注词的相关性计算和标注信息与扩展词之间的匹配度计算;优选的,在排序时,考虑用户所处环境的时空特征信息,利用已建立的超图结构计算候选集中元素与查询样例间的地理位置相关性,使用Haversine公式计算地理位置间的相似度,最终使用混合排序得分对结果集排序,即采用标注排序法根据所述扩展词集合与标注文档中标注词的相关性、以及检索到的图像信息与用户的地理位置的相关性对检索到的所述突发事件的跨媒体信息进行排序,这样可以将与用户的地理位置相关度大的跨媒体信息优先展示;根据排序结果,进行查询结果的展示,展示方式分为直接展示、列表展示和导航展示,其中,直接展示根据排序结果依次显示突发事件的跨媒体信息;列表展示是以表格的形式列举出查询结果;导航展示是以导航栏的形式将查询结果组织起来,从而实现从不同角度展示集文本和图像为一体的全方位的突发事件信息。
对于建立倒排索引的数据集,在两个方向验证检索结果的正确性,一个是使用图像查询检索文本,测试集中的每个图像都是用作查询,并对测试集中的文本进行排序;另一个是使用文本查询检索图像,同样,测试集中的每一个文本作为查询,为测试集中的图像产生一个排序。为了为每个查询生成一个排序列表作为真实结果,把与查询文本或图像共享至少一个概念的文件作为与查询文件相关的数据。对每一个训练样本,选择一定数量的相关/不相关的文件,以产生查询的排序列表及参数优化;另外一部分图像、文本作为测试集。准确率-召回率(Precision-Recall,PR)曲线、平均准确率(Mean Average Precision,MAP)和归一化衰减累加熵(Normalized Discounted Cumulative Gain,NDCG)作为评价跨媒体检索的性能指标,来验证跨媒体检索的正确性。
具体的,上述步骤S108对采集到的所述突发事件的跨媒体信息进行统计,得到统计结果,将所述统计结果返回至所述用户对应的移动终端,和/或将所述统计结果在本地进行显示,具体包括:
步骤S1082:根据采集到的所述突发事件的跨媒体信息的来源渠道分别确定各个突发事件的各个来源渠道的数量和频度,将确定出的各个突发事件的各个来源渠道的数量和频度作为跨媒体信息的来源统计结果;
步骤S1084:根据预设的语义分类方式对预设时间段内不同种类的突发事件的关注度进行统计,得到各个突发事件的分类统计结果;
步骤S1086:根据互联网上各个用户的反馈记录分析所述突发事件的发展趋势,得到所述突发事件的发展趋势统计结果;
步骤S1088:将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果返回至所述用户对应的移动终端,和/或将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果在本地进行显示。
其中,针对特定的突发事件主题,进行分类统计和趋势分析。根据采集和检索的记录进行汇总和统计突发事件信息的来源;以时间和突发事件的发生阶段为依据,对突发事件进行分类,并根据分类结果分析突发事件的发展趋势。上述步骤S108具体包括四个子步骤,分别实现的功能主要包括:突发事件信息的来源统计功能、分类统计功能和趋势统计功能、以及统计结果显示功能。
对于步骤S1082根据信息采集步骤的采集记录和用户查询访问记录获得指定时间段内,针对同一突发事件,不同来源渠道的信息数量和频度,以及来自于国内外不同渠道的信息对比,通过直观立体图形的方式展示给用户。
对于步骤S1084根据系统内部的语义分类,将指定时间段的不同种类突发事件的关注度进行统计;同时,还可以针对指定的信息源头,例如,特定门户网站、新闻网站等,统计在特定时间段内有关自然灾害类、事故灾难类、公共卫生事件类和社会安全事件类四种突发事件的关注度,通过图表的形式展示给用户。
对于步骤S1086根据系统的采集与反馈信息,分析特定的突发事件,通过直观图的方式,展示给用户突发事件的进展情况和发展趋势。
进一步的,上述方法还包括:记录用户通过移动终端提交的检索信息,并将所述检索信息保存至后台服务器,将保存的所述检索信息作为检索分析过程、突发事件趋势分析过程的分析数据,其中,所述检索信息包括:检索关键词、检索记录、检索时间。
另外,在本发明实施例中,还提供智能手机终端的突发事件实时检索功能。自动将智能终端提交的查询请求进行优化处理,并提交到系统服务器端;提供智能操作服务,对用户查询请求进行语义扩展,返回系统自调度的有关突发事件的跨媒体信息。该功能由智能移动终端模块执行,该模块实现的功能主要包括:基于Android平台的开发,可以在用户的移动终端上检索和显示有关突发事件的跨媒体信息。智能移动终端检索模块支持用户在移动终端上进行突发事件的跨媒体检索。用户可以通过自己的移动终端,直接提交查询请求。系统通过Agent的迁移调度,在服务器端处理用户的查询请求,通过Agent的智能操作模块,对查询请求进行扩展,并返回自调度的有关突发事件的跨媒体信息,使得用户可以直接在移动终端上检索相关突发事件的新闻报道、发展趋势,从而在第一时间得到有关突发事件的最新信息。
本发明实施例还提供一种基于Agent的突发事件跨媒体信息的检索系统,如图2所述,该系统包括:移动终端11和检索服务器22,其中,所述检索服务器22包括:
信息采集模块202,用于从预存的多个目标网址中采集各个突发事件的跨媒体信息,其中,所述跨媒体信息包括:文本信息和图像信息;
智能移动终端模块204,用于获取用户通过移动终端11提交的查询请求,其中,所述查询请求携带有查询关键词;
信息检索模块206,用于在采集到的所述突发事件的跨媒体信息中,根据所述用户提交的查询请求检索与所述用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至所述用户对应的移动终端11,和/或将检索到的突发事件的跨媒体信息在本地进行显示;
信息统计模块208,用于对采集到的所述突发事件的跨媒体信息进行统计,得到统计结果,将所述统计结果返回至所述用户对应的移动终端11,和/或将所述统计结果在本地进行显示;
Agent管理模块210,用于采用移动Agent技术将所述信息采集模块、所述智能移动终端模块、所述信息检索模块、以及所述信息统计模块均封装为相应的Agent框架。
具体的,上述Agent管理模块基本功能流程主要包括:采用移动Agent技术,将突发事件跨媒体检索系统功能相对独立的模块封装为Agent,各个agent分工协作完成数据采集、检索、统计等任务。Agent管理模块将各个模块封转为一个代理,分别是采集Agent、检索Agent、统计Agent和移动终端Agent,其中,采集Agent负责执行信息采集任务;检索Agent负责提交用户查询请求,实现查询扩展,并将跨媒体搜索结果展示给用户;统计Agent负责执行信息的分析统计任务,移动终端Agent支持用户在智能移动终端上进行跨媒体信息的检索。在此基础上,建立一个管理Agent,负责协调和控制以上四个Agent,同时根据需要而设定不同的Agent参数和任务。
在本发明提供的实施例中,通过集成互联网信息采集技术、智能检索技术、数据挖掘技术、智能移动终端技术、垂直搜索技术、数据库技术、移动Agent技术等,采集互联网突发事件的跨媒体信息,根据用户输入的查询请求检索相应的跨媒体信息,并进行跨媒体信息的分析统计,从而实现突发事件跨媒体信息的快速检索,同时提供移动终端的跨媒体信息检索服务。因此,采用本发明实施例提供的检索方法可以为突发事件应急信息的挖掘、融合和索引提供科学准确的决策依据,能够满足人们对应急管理信息服务的各类需求。
进一步的,上述信息采集模块202包括:
文件采集子模块,用于当所述跨媒体信息为文本信息时,对预存的目标网址中的多个网页进行搜索,并逐一判断搜索到的网页中是否存在预设的采集关键词,若存在,则将所述网页下载至本地服务器,并将所述网页的相关数据存储至相应的数据库;
图像采集子模块,用于当所述跨媒体信息为图像信息时,采用模拟用户登录的方式,将预存的采集关键词提交至搜索引擎,根据所述搜索引擎返回的搜索结果采集与所述采集关键词对应的突发事件相关的图像信息并将所述图像信息存储至相应的数据库,其中,所述图像信息包括:图像源文件、所述图像源文件的时空信息,所述时空信息包括:拍摄时间和地理位置信息,所述采集关键词包括以下中的一种或者多种:预存在数据库中关键词、用户的关注偏好、用户的关注信息、以及记录的用户提交的查询关键词。
进一步的,上述信息检索模块206包括:
语义标注子模块,用于对采集到的所述突发事件的跨媒体信息进行语义标注,并利用信息抽取技术对语义标注后的所述突发事件的跨媒体信息创建标注文档;
索引创建子模块,用于对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表;
查询扩展子模块,用于对所述查询请求中携带的查询关键词进行语义扩展,得到扩展词集合,结合所述查询索引列表根据所述扩展词集合检索与所述用户匹配的突发事件的跨媒体信息;
信息展示子模块,用于采用标注排序法根据所述扩展词集合与标注文档中标注词的相关性对检索到的所述突发事件的跨媒体信息进行排序,将排序后的所述突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将所述突发事件的跨媒体信息在本地进行显示。
进一步的,上述信息统计模块208包括:
来源统计子模块,用于根据采集到的所述突发事件的跨媒体信息的来源渠道分别确定各个突发事件的各个来源渠道的数量和频度,将确定出的各个突发事件的各个来源渠道的数量和频度作为跨媒体信息的来源统计结果;
分类统计子模块,用于根据预设的语义分类方式对预设时间段内不同种类的突发事件的关注度进行统计,得到各个突发事件的分类统计结果;
趋势统计子模块,用于根据互联网上各个用户的反馈记录分析所述突发事件的发展趋势,得到所述突发事件的发展趋势统计结果;
统计结果展示子模块,用于将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果返回至所述用户对应的移动终端,和/或将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果在本地进行显示。
进一步的,上述检索服务器22还包括:
信息记录模块,用于记录用户通过移动终端提交的检索信息,并将所述检索信息保存至后台服务器,将保存的所述检索信息作为检索分析过程、突发事件趋势分析过程的分析数据,其中,所述检索信息包括:检索关键词、检索记录、检索时间。
本发明实施例所提供的基于Agent的突发事件跨媒体信息的检索系统中的检索服务器的各个模块可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,系统实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、系统和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.基于Agent的突发事件跨媒体信息的检索方法,其特征在于,所述方法包括:
从预存的多个目标网址中采集各个突发事件的跨媒体信息,其中,所述跨媒体信息包括:文本信息和图像信息;
获取用户通过移动终端提交的查询请求,其中,所述查询请求携带有查询关键词;
在采集到的所述突发事件的跨媒体信息中,根据所述用户提交的查询请求检索与所述用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将检索到的突发事件的跨媒体信息在本地进行显示;
对采集到的所述突发事件的跨媒体信息进行统计,得到统计结果,将所述统计结果返回至所述用户对应的移动终端,和/或将所述统计结果在本地进行显示;
采用移动Agent技术将采集步骤、获取步骤、检索步骤、以及统计步骤均封装为相应的Agent框架。
2.根据权利要求1所述的方法,其特征在于,所述从预存的多个目标网址中采集突发事件的跨媒体信息,包括:
当所述跨媒体信息为文本信息时,对预存的目标网址中的多个网页进行搜索,并逐一判断搜索到的网页中是否存在预设的采集关键词,若存在,则将所述网页下载至本地服务器,并将所述网页的相关数据存储至相应的数据库;
当所述跨媒体信息为图像信息时,采用模拟用户登录的方式,将预存的采集关键词提交至搜索引擎,根据所述搜索引擎返回的搜索结果采集与所述采集关键词对应的突发事件相关的图像信息,并将所述图像信息存储至相应的数据库,其中,所述图像信息包括:图像源文件、所述图像源文件的时空信息,所述时空信息包括:拍摄时间和地理位置信息,所述采集关键词包括以下中的一种或者多种:预存在数据库中关键词、用户的关注偏好、用户的关注信息、以及记录的用户提交的查询关键词。
3.根据权利要求1所述的方法,其特征在于,所述在采集到的所述突发事件的跨媒体信息中,根据所述用户提交的查询请求检索与所述用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将检索到的突发事件的跨媒体信息在本地进行显示,包括:
对采集到的所述突发事件的跨媒体信息进行语义标注,并利用信息抽取技术对语义标注后的所述突发事件的跨媒体信息创建标注文档;
对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表;
对所述查询请求中携带的查询关键词进行语义扩展,得到扩展词集合,结合所述查询索引列表根据所述扩展词集合检索与所述用户匹配的突发事件的跨媒体信息;
采用标注排序法根据所述扩展词集合与标注文档中标注词的相关性对检索到的所述突发事件的跨媒体信息进行排序,将排序后的所述突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将所述突发事件的跨媒体信息在本地进行显示。
4.根据权利要求3所述的方法,其特征在于,所述对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表之前,还包括:判断所述标注文档的数量是否大于预设阈值;
所述对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表,包括:
当所述标注文档的数量小于等于预设阈值时,分别对文本信息的标注文档和图像信息的标注文档进行内容分析,并利用词法分析器根据内容分析结果提取各个标注文档的索引词;利用倒排索引算法根据提取到的所述索引词为所述标注文档建立倒排索引列表,将所述倒排索引列表作为查询索引列表;
当所述标注文档的数量大于预设阈值时,利用概率主题模型隐含狄利克雷分布方法对文本信息的标注文档进行主题特征向量提取,根据提取到的多个所述主题特征向量建立主题特征矩阵;利用模糊颜色和纹理直方图方法对图像信息的标注文档进行视觉特征向量提取,根据提取到的多个所述视觉特征向量建立视觉特征矩阵;对所述主题特征矩阵和所述视觉特征矩阵进行典型关联分析,根据分析结果求解所述主题特征矩阵对应的第一映射矩阵和所述视觉特征矩阵对应的第二映射矩阵;根据所述主题特征矩阵与所述第一映射矩阵的乘积、以及所述视觉特征矩阵与所述第二映射矩阵的乘积为所述标注文档建立哈希索引列表,将所述哈希索引列表作为查询索引列表。
5.根据权利要求4所述的方法,其特征在于,所述利用倒排索引算法根据提取到的所述索引词为所述标注文档建立倒排索引列表之后,还包括:
对图像信息进行视觉特征向量的提取,其中,所述图像信息包括:图像源文件、所述图像源文件的时空信息,所述时空信息包括:拍摄时间和地理位置信息;
根据所述倒排索引列表和提取到的视觉特征向量对多个标注文档建立超图结构;
利用图谱分割方法对所述超图结构进行分割,得到多个超图子集,其中,所述超图子集包含的节点具有相似的语义;
利用随机游走方法确定所述超图结构中的多个显著节点;
使用所述显著节点替换所述超图子集中对应的节点,得到替换后的超图结构;
所述将所述倒排索引列表作为查询索引列表,包括:将所述替换后的超图结构作为查询索引列表。
6.根据权利要求1所述的方法,其特征在于,所述对采集到的所述突发事件的跨媒体信息进行统计,得到统计结果,将所述统计结果返回至所述用户对应的移动终端,和/或将所述统计结果在本地进行显示,包括:
根据采集到的所述突发事件的跨媒体信息的来源渠道分别确定各个突发事件的各个来源渠道的数量和频度,将确定出的各个突发事件的各个来源渠道的数量和频度作为跨媒体信息的来源统计结果;
根据预设的语义分类方式对预设时间段内不同种类的突发事件的关注度进行统计,得到各个突发事件的分类统计结果;
根据互联网上各个用户的反馈记录分析所述突发事件的发展趋势,得到所述突发事件的发展趋势统计结果;
将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果返回至所述用户对应的移动终端,和/或将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果在本地进行显示。
7.基于Agent的突发事件跨媒体信息的检索系统,其特征在于,所述系统包括:移动终端和检索服务器,其中,所述检索服务器包括:
信息采集模块,用于从预存的多个目标网址中采集各个突发事件的跨媒体信息,其中,所述跨媒体信息包括:文本信息和图像信息;
智能移动终端模块,用于获取用户通过移动终端提交的查询请求,其中,所述查询请求携带有查询关键词;
信息检索模块,用于在采集到的所述突发事件的跨媒体信息中,根据所述用户提交的查询请求检索与用户匹配的突发事件的跨媒体信息,并将检索到的突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将检索到的突发事件的跨媒体信息在本地进行显示;
信息统计模块,用于对采集到的所述突发事件的跨媒体信息进行统计,得到统计结果,将所述统计结果返回至用户对应的移动终端,和/或将所述统计结果在本地进行显示;
Agent管理模块,用于采用移动Agent技术将所述信息采集模块、所述智能移动终端模块、所述信息检索模块、以及所述信息统计模块均封装为相应的Agent框架。
8.根据权利要求7所述的系统,其特征在于,所述信息采集模块包括:
文件采集子模块,用于当所述跨媒体信息为文本信息时,对预存的目标网址中的多个网页进行搜索,并逐一判断搜索到的网页中是否存在预设的采集关键词,若存在,则将所述网页下载至本地服务器,并将所述网页的相关数据存储至相应的数据库;
图像采集子模块,用于当所述跨媒体信息为图像信息时,采用模拟用户登录的方式,将预存的采集关键词提交至搜索引擎,根据所述搜索引擎返回的搜索结果采集与所述采集关键词对应的突发事件相关的图像信息,并将所述图像信息存储至相应的数据库,其中,所述图像信息包括:图像源文件、所述图像源文件的时空信息,所述时空信息包括:拍摄时间和地理位置信息,所述采集关键词包括以下中的一种或者多种:预存在数据库中关键词、用户的关注偏好、用户的关注信息、以及记录的用户提交的查询关键词。
9.根据权利要求7所述的系统,其特征在于,所述信息检索模块包括:
语义标注子模块,用于对采集到的所述突发事件的跨媒体信息进行语义标注,并利用信息抽取技术对语义标注后的所述突发事件的跨媒体信息创建标注文档;
索引创建子模块,用于对标注文档进行分析,根据分析结果为所述标注文档建立查询索引列表;
查询扩展子模块,用于对所述查询请求中携带的查询关键词进行语义扩展,得到扩展词集合,结合所述查询索引列表根据所述扩展词集合检索与所述用户匹配的突发事件的跨媒体信息;
信息展示子模块,用于采用标注排序法根据所述扩展词集合与标注文档中标注词的相关性对检索到的所述突发事件的跨媒体信息进行排序,将排序后的所述突发事件的跨媒体信息返回至所述用户对应的移动终端,和/或将所述突发事件的跨媒体信息在本地进行显示。
10.根据权利要求7所述的系统,其特征在于,所述信息统计模块包括:
来源统计子模块,用于根据采集到的所述突发事件的跨媒体信息的来源渠道分别确定各个突发事件的各个来源渠道的数量和频度,将确定出的各个突发事件的各个来源渠道的数量和频度作为跨媒体信息的来源统计结果;
分类统计子模块,用于根据预设的语义分类方式对预设时间段内不同种类的突发事件的关注度进行统计,得到各个突发事件的分类统计结果;
趋势统计子模块,用于根据互联网上各个用户的反馈记录分析所述突发事件的发展趋势,得到所述突发事件的发展趋势统计结果;
统计结果展示子模块,用于将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果返回至所述用户对应的移动终端,和/或将所述来源统计结果、所述分类统计结果、以及所述发展趋势统计结果在本地进行显示。
CN201610580982.5A 2016-07-21 2016-07-21 基于Agent的突发事件跨媒体信息的检索方法及系统 Pending CN106202514A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610580982.5A CN106202514A (zh) 2016-07-21 2016-07-21 基于Agent的突发事件跨媒体信息的检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610580982.5A CN106202514A (zh) 2016-07-21 2016-07-21 基于Agent的突发事件跨媒体信息的检索方法及系统

Publications (1)

Publication Number Publication Date
CN106202514A true CN106202514A (zh) 2016-12-07

Family

ID=57491304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610580982.5A Pending CN106202514A (zh) 2016-07-21 2016-07-21 基于Agent的突发事件跨媒体信息的检索方法及系统

Country Status (1)

Country Link
CN (1) CN106202514A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708996A (zh) * 2016-12-19 2017-05-24 北京天广汇通科技有限公司 用于对关系数据库进行全文搜索的方法及系统
CN106844506A (zh) * 2016-12-27 2017-06-13 竹间智能科技(上海)有限公司 一种人工智能对话的知识检索方法及知识库自动完善方法
CN107169118A (zh) * 2017-05-25 2017-09-15 上海喆之信息科技有限公司 一种快速的城市信息检索系统
CN107193802A (zh) * 2017-05-25 2017-09-22 上海耐相智能科技有限公司 一种智能领域概念自动获取系统
CN107205029A (zh) * 2017-05-25 2017-09-26 深圳众厉电力科技有限公司 一种高效的电子突发事件管理系统
CN107220337A (zh) * 2017-05-25 2017-09-29 北京大学 一种基于混合迁移网络的跨媒体检索方法
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107729411A (zh) * 2017-09-26 2018-02-23 电子科技大学 一种跨媒体大数据检索非结构化数据兼容模型
CN107944691A (zh) * 2017-11-20 2018-04-20 中国运载火箭技术研究院 一种空间态势评估综合分析系统
CN109033286A (zh) * 2018-07-12 2018-12-18 北京猫眼文化传媒有限公司 数据统计方法和装置
CN110019771A (zh) * 2017-07-28 2019-07-16 北京国双科技有限公司 文本处理的方法及装置
CN110020002A (zh) * 2018-08-21 2019-07-16 平安普惠企业管理有限公司 事件处理方案的查询方法、装置、设备和计算机存储介质
CN110147478A (zh) * 2017-10-20 2019-08-20 中国电信股份有限公司 网页主题词获取方法和系统、服务器与用户终端
CN110457359A (zh) * 2018-05-04 2019-11-15 拉萨经济技术开发区凯航科技开发有限公司 一种关联性分析方法
CN110781319A (zh) * 2019-09-17 2020-02-11 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN111080139A (zh) * 2019-12-19 2020-04-28 石家庄铁道大学 一种基于hypergraph的公共安全事件情景表示方法
CN111310022A (zh) * 2019-12-06 2020-06-19 四川聚民科技有限公司 一种基于融媒体的便民服务系统
CN113343149A (zh) * 2021-06-22 2021-09-03 深圳市网联安瑞网络科技有限公司 基于Agent的移动端社交媒体传播效果评估方法、系统、应用
CN113946659A (zh) * 2021-12-20 2022-01-18 华东交通大学 一种面向事件检索的多事件成分混合反馈方法与系统
CN114429119A (zh) * 2022-01-18 2022-05-03 重庆大学 一种基于多交叉注意力的视频与字幕片段检索方法
CN114827360A (zh) * 2021-01-27 2022-07-29 深圳市万普拉斯科技有限公司 语音应答方法、装置、控制器及计算机可读存储介质
WO2023098445A1 (zh) * 2021-11-30 2023-06-08 国家食品安全风险评估中心 食品安全突发事件的应急处置推荐方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262670A (zh) * 2011-07-29 2011-11-30 中山大学 一种基于移动可视设备的跨媒体信息检索系统及方法
US20130016628A1 (en) * 2011-07-11 2013-01-17 Tanaza S.R.L. Method and system for managing network devices of generic vendors and manufactures

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130016628A1 (en) * 2011-07-11 2013-01-17 Tanaza S.R.L. Method and system for managing network devices of generic vendors and manufactures
CN102262670A (zh) * 2011-07-29 2011-11-30 中山大学 一种基于移动可视设备的跨媒体信息检索系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宁晓: "突发事件跨媒体信息检索系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708996A (zh) * 2016-12-19 2017-05-24 北京天广汇通科技有限公司 用于对关系数据库进行全文搜索的方法及系统
CN106708996B (zh) * 2016-12-19 2020-09-25 北京天广汇通科技有限公司 用于对关系数据库进行全文搜索的方法及系统
CN106844506A (zh) * 2016-12-27 2017-06-13 竹间智能科技(上海)有限公司 一种人工智能对话的知识检索方法及知识库自动完善方法
CN107169118A (zh) * 2017-05-25 2017-09-15 上海喆之信息科技有限公司 一种快速的城市信息检索系统
CN107193802A (zh) * 2017-05-25 2017-09-22 上海耐相智能科技有限公司 一种智能领域概念自动获取系统
CN107205029A (zh) * 2017-05-25 2017-09-26 深圳众厉电力科技有限公司 一种高效的电子突发事件管理系统
CN107220337A (zh) * 2017-05-25 2017-09-29 北京大学 一种基于混合迁移网络的跨媒体检索方法
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN107256271B (zh) * 2017-06-27 2020-04-03 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN110019771B (zh) * 2017-07-28 2021-08-13 北京国双科技有限公司 文本处理的方法及装置
CN110019771A (zh) * 2017-07-28 2019-07-16 北京国双科技有限公司 文本处理的方法及装置
CN107729411A (zh) * 2017-09-26 2018-02-23 电子科技大学 一种跨媒体大数据检索非结构化数据兼容模型
CN110147478A (zh) * 2017-10-20 2019-08-20 中国电信股份有限公司 网页主题词获取方法和系统、服务器与用户终端
CN110147478B (zh) * 2017-10-20 2021-06-29 中国电信股份有限公司 网页主题词获取方法和系统、服务器与用户终端
CN107944691A (zh) * 2017-11-20 2018-04-20 中国运载火箭技术研究院 一种空间态势评估综合分析系统
CN110457359A (zh) * 2018-05-04 2019-11-15 拉萨经济技术开发区凯航科技开发有限公司 一种关联性分析方法
CN110457359B (zh) * 2018-05-04 2024-03-08 拉萨经济技术开发区凯航科技开发有限公司 一种关联性分析方法
CN109033286A (zh) * 2018-07-12 2018-12-18 北京猫眼文化传媒有限公司 数据统计方法和装置
CN109033286B (zh) * 2018-07-12 2021-10-29 北京猫眼文化传媒有限公司 数据统计方法和装置
CN110020002A (zh) * 2018-08-21 2019-07-16 平安普惠企业管理有限公司 事件处理方案的查询方法、装置、设备和计算机存储介质
CN110020002B (zh) * 2018-08-21 2024-01-12 山西掌柜鼎科技有限公司 事件处理方案的查询方法、装置、设备和计算机存储介质
CN110781319A (zh) * 2019-09-17 2020-02-11 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN110781319B (zh) * 2019-09-17 2022-06-21 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN111310022A (zh) * 2019-12-06 2020-06-19 四川聚民科技有限公司 一种基于融媒体的便民服务系统
CN111080139A (zh) * 2019-12-19 2020-04-28 石家庄铁道大学 一种基于hypergraph的公共安全事件情景表示方法
CN111080139B (zh) * 2019-12-19 2021-04-13 石家庄铁道大学 一种基于hypergraph的公共安全事件情景表示方法
CN114827360A (zh) * 2021-01-27 2022-07-29 深圳市万普拉斯科技有限公司 语音应答方法、装置、控制器及计算机可读存储介质
CN113343149A (zh) * 2021-06-22 2021-09-03 深圳市网联安瑞网络科技有限公司 基于Agent的移动端社交媒体传播效果评估方法、系统、应用
WO2023098445A1 (zh) * 2021-11-30 2023-06-08 国家食品安全风险评估中心 食品安全突发事件的应急处置推荐方法及系统
CN113946659A (zh) * 2021-12-20 2022-01-18 华东交通大学 一种面向事件检索的多事件成分混合反馈方法与系统
CN114429119A (zh) * 2022-01-18 2022-05-03 重庆大学 一种基于多交叉注意力的视频与字幕片段检索方法
CN114429119B (zh) * 2022-01-18 2024-05-28 重庆大学 一种基于多交叉注意力的视频与字幕片段检索方法

Similar Documents

Publication Publication Date Title
CN106202514A (zh) 基于Agent的突发事件跨媒体信息的检索方法及系统
Kolda et al. Higher-order web link analysis using multilinear algebra
Purves et al. The design and implementation of SPIRIT: a spatially aware search engine for information retrieval on the Internet
US7305389B2 (en) Content propagation for enhanced document retrieval
US7289985B2 (en) Enhanced document retrieval
US9317613B2 (en) Large scale entity-specific resource classification
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
CN105045875B (zh) 个性化信息检索方法及装置
Abebe et al. Generic metadata representation framework for social-based event detection, description, and linkage
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
CN104102721A (zh) 信息推荐方法和装置
WO2008073784A1 (en) Web site structure analysis
WO2015061046A2 (en) Method and apparatus for performing topic-relevance highlighting of electronic text
CN111192176B (zh) 一种支持教育信息化评估的在线数据采集方法及装置
Mukherjee et al. Bootstrapping semantic annotation for content-rich html documents
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
KR101229401B1 (ko) 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법
KR101007056B1 (ko) 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법
CN111581479A (zh) 一站式数据处理的方法、装置、存储介质及电子设备
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
Dong et al. Using hybrid algorithmic-crowdsourcing methods for academic knowledge acquisition
Ritze Web-scale web table to knowledge base matching
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统
CN114238735B (zh) 一种互联网数据智能采集方法
Moumtzidou et al. Discovery of environmental nodes in the web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207