CN104657456B - 一种基于体裁的多维信息检索系统 - Google Patents

一种基于体裁的多维信息检索系统 Download PDF

Info

Publication number
CN104657456B
CN104657456B CN201510064134.4A CN201510064134A CN104657456B CN 104657456 B CN104657456 B CN 104657456B CN 201510064134 A CN201510064134 A CN 201510064134A CN 104657456 B CN104657456 B CN 104657456B
Authority
CN
China
Prior art keywords
user
task
type
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510064134.4A
Other languages
English (en)
Other versions
CN104657456A (zh
Inventor
万亚平
阳小华
莫文涛
刘志明
张娟
欧阳纯萍
宋涛涛
顾伟
余颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Neclear Power Technology Co Ltd's Beijing Software Technology Center
University of South China
Original Assignee
State Neclear Power Technology Co Ltd's Beijing Software Technology Center
University of South China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Neclear Power Technology Co Ltd's Beijing Software Technology Center, University of South China filed Critical State Neclear Power Technology Co Ltd's Beijing Software Technology Center
Priority to CN201510064134.4A priority Critical patent/CN104657456B/zh
Publication of CN104657456A publication Critical patent/CN104657456A/zh
Application granted granted Critical
Publication of CN104657456B publication Critical patent/CN104657456B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于体裁的多维信息检索系统,包括客户端和搜索引擎,搜索引擎包括任务分析引擎和索引匹配引擎,其中客户端包括任务监视器、用户任务分析模块和用户接口模块,任务分析引擎包括体裁数据库、用户任务体裁分析器和用户任务日志数据库,本发明通过采集用户在桌面完成的各种任务过程中的事件信息和用户查询历史信息,从而获取用户查询意图,建立用户查询体裁表示,从而显著提高用户查询精度,使得用户可以快速得到查询结果,省去对不相关查询信息的筛选,节省用户信息检索时间,提高效率,改善用户查询体验。

Description

一种基于体裁的多维信息检索系统
技术领域
本发明属于计算机信息检索领域,具体涉及一种信息检索系统,特别是涉及一种基于体裁的多维信息检索系统。
背景技术
20世纪以来,人类创造的信息量高速增长。据估计,70年代以来全世界每年出版图书50万种以上、期刊10万种以上、专利约50万件、科技报告约90万件、会议文献10多万篇、产品样本50多万种、每年发表的科技论文总数近500万篇,并呈指数式增长,可谓浩如烟海。如何从这浩如烟海的信息中找到所需信息,就成为信息检索的重任。随着上下文感知计算(Context-Aware Computing)得到越来越广泛的关注,上下文感知的信息检索(Context-Aware Information Retrieval)也日渐成为信息检索研究的热点。虽然物理世界传感网络、RFID等感知技术的兴起大大提高了计算设备间的感知和交互能力,但是面向信息世界的上下文信息检索(Contextual Information Retrieval,CIR)仍有许多亟待解决的热点难点问题,而任务上下文驱动的信息检索(Task-context Driven InformationRetrieval,TDIR)更是成为其中重要的研究方向和发展趋势。信息检索经历了以系统为中心(System-Centered),到以用户为中心(User-Centered),到基于上下文(ContextualApproach)的发展过程。
上下文在信息检索中的主要应用是推测查询目标和文档目标。当前研究表明,推测查询目标的各类上下文中使用最多的是任务上下文。2007年TGSE研讨会(TowardsGenre-Enabled Search Engines)专门讨论利用体裁改进搜索引擎质量。许多研究者使用体裁来过滤搜索引擎返回结果。这表明用体裁表示文档目标已成为主流。依据上下文推测出的查询目标和文档目标,主要应用在查询扩展、检索结果过滤、目标独立匹配等方面。近年来,以查询目标与文档目标直接进行匹配逐渐成为趋势。
综上所述,文档体裁和任务上下文是当前上下文信息检索的研究热点,已取得了大量成果,但仍然存在严峻的挑战:①由于体裁依赖于文档内部特征,如词句、文档长度、说话方式、短语或句子类型、图形元素或网页标签等,体裁识别主要依靠人工方式,只能应用在特定的小范围内,难以大范围推广。②用户的查询目标或者是隐含在查询主题中,或者是隐含在任务中,未能显式地以体裁表示出来,这使得查询目标与文档目标的表示形式不一致,给匹配算法带来了很大的困难。由此可见,开发一个提高用户查询精准度,解决传统方法中查询目标用体裁显式表达困难的多维信息检索系统是具有积极意义的。
发明内容
本发明的目的在于克服现有技术的上述不足,提供一种基于体裁的多维信息检索系统,解决了现有信息检索系统依靠人工识别体裁,难以显示的表示体裁和度量体裁,查询目标与文档目标表示形式的不一致等问题,显著提高了信息检索精度和检索质量,节省用户信息检索时间,提高效率,改善用户查询体验。
本发明的上述目的主要是通过如下技术方案予以实现的:
一种基于体裁的多维信息检索系统,包括客户端和搜索引擎,其中搜索引擎包括任务分析引擎和索引匹配引擎,其中客户端包括任务监视器、用户任务分析模块和用户接口模块,任务分析引擎包括体裁数据库、用户任务体裁分析器和用户任务日志数据库,其中:
任务监视器:实时采集用户在桌面完成的各种任务过程中的事件信息,并将所述事件信息传送给用户任务分析模块;
用户接口模块:将用户查询历史信息实时发送给用户任务分析模块;当接收到用户输入的查询请求时,将所述查询请求同时发送给索引匹配引擎和用户任务分析模块;并从索引匹配引擎接收最终查询结果返回给用户;
用户任务分析模块:实时接收任务监视器输出的所述事件信息和用户接口模块输出的所述用户查询历史信息,以及接收用户接口模块输出的查询请求,并发送给用户任务体裁分析器;
体裁数据库:存储各种体裁分类的集合;
用户任务体裁分析器:实时接收用户任务分析模块输出的所述事件信息和用户接口模块输出的所述用户查询历史信息,同时查询体裁数据库,将所述事件信息和所述用户查询历史信息按照体裁分类进行体裁标注并存储到用户任务日志数据库;当从用户任务分析模块接收到查询请求时,根据用户任务日志数据库得到所述查询请求的体裁形式表示并发送给索引匹配引擎;
用户任务日志数据库:用于存储体裁标注后的事件信息和用户查询历史信息;
索引匹配引擎:实时从互联网抓取原始数据并保存,对所述原始数据建立内容-体裁索引,即对原始数据同时建立内容索引和体裁索引;从用户接口模块接收用户查询请求,将所述用户查询请求与建立的内容索引作匹配,得到初始查询结果;之后从用户任务体裁分析器接收以体裁形式表示的查询请求,将初始查询结果根据所述以体裁形式表示的查询请求、以及建立的体裁索引作二次匹配,得到最终的用户查询结果,返回给用户接口模块。
在上述基于体裁的多维信息检索系统中,用户任务体裁分析器包括用户任务消息接口,用户任务体裁分析引擎,用户任务体裁生成器和任务体裁标注模块,其中:
用户任务消息接口:实时接收任务监视器输出的用户在桌面完成的各种任务过程中的事件信息和用户接口模块输出的用户查询历史信息,以及从用户任务分析模块接收查询请求,发送给用户任务体裁分析引擎;
用户任务体裁分析引擎:对接收到的信息进行判断,若为实时接收的任务监视器输出的用户在桌面完成的各种任务过程中的事件信息和用户接口模块输出的用户查询历史信息,则发送给任务体裁标注模块;若为从用户任务分析模块接收到的查询请求,则发送给用户任务体裁生成器;并从用户任务体裁生成器接收以体裁形式表示的用户查询请求,发送给索引匹配引擎;
任务体裁标注模块:从用户任务体裁分析引擎接收所述事件信息和所述用户查询历史信息,查询体裁数据库,将所述事件信息和所述用户查询历史信息按照体裁分类进行体裁标注并存储到用户任务日志数据库;
用户任务体裁生成器:从用户任务体裁分析引擎接收所述查询请求,从用户任务日志数据库中获取所述查询请求的用户的任务日志信息,生成以体裁形式表示的所述用户的查询请求,并返回给用户任务分析引擎。
在上述基于体裁的多维信息检索系统中,任务监视器包括事件拦截器、窗口切换历史分析器与标题语义分析器;其中:事件拦截器为任务监视器的中枢,对窗口事件进行拦截,得到编码信息,对编码信息进行分类处理,并传送给用户任务分析模块,具体分类处理方法为:如果窗口事件数量超过设定阈值,则交由标题语义分析器进行语义分析,并把所述窗口事件分配到对应的任务类中;若窗口事件数量小于设定阈值,则交由窗口切换历史分析器处理,处理方法为在不同窗口之间切换次数超过设定阈值的不同窗口事件属于同一类事件,分到相应的任务类中。
在上述基于体裁的多维信息检索系统中,索引匹配引擎包括爬虫模块、原始数据库、索引模块、内容-体裁索引库、匹配模块和查询接口,其中:
爬虫模块:实时从互联网抓取原始数据并保存到原始数据库;
原始数据库:保存爬虫模块从互联网抓取的原始数据;
索引模块:对所述原始数据建立内容-体裁索引,即原始数据的内容索引和体裁索引,将所述内容-体裁索引保存到内容体裁索引库;
内容体裁索引库:用于存储原始数据的内容-体裁索引;
匹配模块:从查询接口接收用户查询请求,将所述用户查询请求与建立的内容索引作匹配,得到初始查询结果;之后从用户任务体裁分析器接收以体裁形式表示的查询请求,将初始查询结果根据所述以体裁形式表示的查询请求、以及建立的体裁索引作二次匹配,得到最终的用户查询结果,返回给查询接口;
查询接口:将从用户接口模块接收的查询请求发送给匹配模块,并将匹配模块接收的用户查询结果返回给用户接口模块。
在上述基于体裁的多维信息检索系统中,用户任务日志数据库中存储的体裁标注后的事件信息和用户查询历史信息的形式为:<用户名、任务名、体裁名、时间>。
本发明与现有技术相比具有如下有益效果:
(1)本发明创新设计了一种基于体裁的多维信息检索系统,通过采集用户在桌面完成的各种任务过程中的事件信息和用户查询历史信息,从而获取用户查询意图,建立用户体裁查询表示,从而显著提高用户查询精度,使得用户可以快速得到查询结果,省去对不相关查询信息的筛选,节省用户信息检索时间,提高效率,改善用户查询体验;
(2)本发明把语言学体裁的概念用到信息空间,建立信息空间体裁向量的概念,用向量的方式来表示体裁,从文本内容之外的维度来精确用户查询目标的匹配;
(3)本发明构造独立于搜索引擎的任务监视器,实现用户任务上下文层次的信息采集和处理。其原理和方法既可以用于信息检索,也可以在广告推荐等领域得到实用化;
(4)本发明对任务分析引擎中的用户任务体裁分析器进行创新优化设计,实现用户任务的体裁形式表示,通过体裁形式表示可以更精确的获取用户的查询意图,使得查询准确度更高;
(5)本发明构造一种适合于商业信息检索系统的独立的用户任务体裁分析器;服务器基于主流SOA架构和主体(Agent)基础开发,可以方便各主流搜索引擎系统调用;
(6)本发明的软件模块运行于应用层,易于用户操作,并且能根据用户的需求进行灵活的配置,增加或者删除一些功能模块。
附图说明
图1为本发明多维信息检索系统结构示意图;
图2为本发明任务监视器功能示意图;
图3为本发明用户任务体裁分析器功能示意图。
具体实施方式
下面结合附图和具体实施例对本发明进一步详细的描述:
如图1所示为本发明多维信息检索系统结构示意图,本发明多维信息检索系统结构包括客户端和搜索引擎,搜索引擎包括任务分析引擎和索引匹配引擎。其中客户端包括任务监视器、用户任务分析模块和用户接口模块,任务分析引擎包括体裁数据库、用户任务体裁分析器和用户任务日志数据库。索引匹配引擎包括爬虫模块、原始数据库、索引模块、内容-体裁索引库、匹配模块和查询接口。客户端主要对用户当前和历史任务进行监控和分析,与用户任务分析器一起识别兴趣文档体裁。搜索引擎主要对文档-体裁进行多维相关性匹配,返回用户感兴趣的文档。
本发明中的体裁定义为:对资源或信息按照功能、形式、目的进行的分类。例如“电影”可以分为四十多种不同的体裁,包括悬疑、科幻、战争、动画等;再例如“苹果”的体裁包括水果、电子产品、服装等等。
如图2所示为本发明任务监视器功能示意图,任务监视器实时采集用户在桌面完成的各种任务过程中的事件信息,并将事件信息传送给用户任务分析模块。由图可知任务监视器包括事件拦截器、窗口切换历史分析器与标题语义分析器;其中:事件拦截器为任务监视器的中枢,对窗口事件进行拦截,得到编码信息,对编码信息进行分类处理,并传送给用户任务分析模块,具体分类处理方法为:如果窗口事件数量超过设定阈值,则交由标题语义分析器进行语义分析,并把所述窗口事件分配到对应的任务类中;若窗口事件数量小于设定阈值,则交由窗口切换历史分析器处理,处理方法为在不同窗口之间切换次数超过设定阈值的不同窗口事件属于同一类事件,分到相应的任务类中。
用户接口模块将用户查询历史信息实时发送给用户任务分析模块;当接收到用户输入的查询请求时,将查询请求同时发送给索引匹配引擎和用户任务分析模块;并从索引匹配引擎接收最终查询结果返回给用户。
用户任务分析模块实时接收任务监视器输出的所述事件信息和用户接口模块输出的用户查询历史信息,发送给用户任务体裁分析器;当用户输入查询请求时,接收用户接口模块输出的查询请求,并发送给用户任务体裁分析器。
体裁数据库用于存储各种体裁分类的集合,例如,文章体裁包括:记叙文、说明文、议论文、应用文,诗歌、散文、小说、戏剧等;音乐体裁包括:交响乐、奏鸣曲、颂歌、浪漫曲、歌曲等。
如图3所示为本发明用户任务体裁分析器功能示意图,由图可知用户任务体裁分析器包括用户任务消息接口,用户任务体裁分析引擎,用户任务体裁生成器和任务体裁标注模块,其中:
用户任务消息接口实时接收任务监视器输出的用户在桌面完成的各种任务过程中的事件信息和用户接口模块输出的用户查询历史信息,以及从用户任务分析模块接收查询请求,发送给用户任务体裁分析引擎。
用户任务体裁分析引擎对接收到的信息进行判断,若为实时接收的任务监视器输出的用户在桌面完成的各种任务过程中的事件信息和用户接口模块输出的用户查询历史信息,则发送给任务体裁标注模块;若为从用户任务分析模块接收到的查询请求,则发送给用户任务体裁生成器;并从用户任务体裁生成器接收以体裁形式表示的用户查询请求,发送给索引匹配引擎。
任务体裁标注模块从用户任务体裁分析引擎接收该事件信息和该用户查询历史信息,查询体裁数据库,将事件信息和用户查询历史信息按照体裁分类进行体裁标注并存储到用户任务日志数据库。
用户任务体裁生成器从用户任务体裁分析引擎接收查询请求,从用户任务日志数据库中获取该查询请求的用户的任务日志信息,生成以体裁形式表示的该用户的查询请求,并返回给用户任务分析引擎。
用户任务日志数据库用于存储体裁标注后的事件信息和用户查询历史信息,存储内容包括用户名、任务名、体裁类型和时间,存储的信息形式为:<用户名、任务名、体裁名、时间>。
如图1所示,索引匹配引擎包括爬虫模块、原始数据库、索引模块、内容-体裁索引库、匹配模块和查询接口,其中:
爬虫模块实时从互联网抓取原始数据并保存到原始数据库。
原始数据库保存爬虫模块从互联网抓取的原始数据。
索引模块对抓取的原始数据建立内容-体裁索引,即原始数据的内容索引和体裁索引,并将内容-体裁索引保存到内容体裁索引库。
内容体裁索引库用于存储原始数据的内容-体裁索引。
匹配模块从查询接口接收用户查询请求,将用户查询请求与建立的内容索引作匹配,得到初始查询结果;之后从用户任务体裁分析器接收以体裁形式表示的查询请求,将初始查询结果根据该以体裁形式表示的查询请求、以及建立的体裁索引作二次匹配,得到最终的用户查询结果,返回给查询接口。
查询接口将从用户接口模块接收的查询请求发送给匹配模块,并将匹配模块接收的用户查询结果返回给用户接口模块。
本发明多维信息检索方法,具体实现步骤如下:
步骤(一)、任务监视器实时采集用户在桌面完成的各种任务过程中的事件信息,并将事件信息传送给用户任务分析模块;用户接口模块将用户查询历史信息实时发送给用户任务分析模块。
步骤(二)、用户任务分析模块将事件信息与用户查询历史信息实时发送给用户任务体裁分析器。
步骤(三)、用户任务体裁分析器实时接收该事件信息和用户查询历史信息,同时查询体裁数据库,将该事件信息和用户查询历史信息按照体裁分类进行体裁标注并存储到用户任务日志数据库,体裁数据库为存储各种体裁分类的集合。
步骤(四)、索引匹配引擎实时从互联网抓取原始数据并保存,对原始数据建立内容-体裁索引,内容体裁索引库即对原始数据同时建立内容索引和体裁索引,并存储到内容体裁索引库。
步骤(五)、当用户输入查询请求时,用户接口模块将接收到的查询请求同时发送给索引匹配引擎的查询接口和用户任务分析模块;
步骤(六)、用户任务分析模块将接收的查询请求发送给用户任务体裁分析器,用户任务体裁分析器根据用户任务日志数据库得到该查询请求的体裁形式表示并发送给索引匹配引擎的匹配模块。
步骤(七)匹配模块将从查询接口接收到的用户查询请求与内容体裁索引库中的内容索引作匹配,得到初始查询结果;同时从用户任务体裁分析器接收以体裁形式表示的查询请求,将初始查询结果根据该以体裁形式表示的查询请求,以及内容体裁索引库中的体裁索引作二次匹配,得到最终的用户查询结果,通过查询接口返回给用户接口模块。
实施例1
以用户查询“苹果”手机为例进行详细描述:
(1)、用户A在浏览器中输入“苹果”,通过查询接口发送给匹配模块,同时用户接口模块触发用户任务分析模块产生一个用户查询请求的消息,发送给用户任务体裁分析器。
(2)、用户任务体裁分析器查询用户任务日志数据库,得到该用户A所提出的查询请求的体裁形式表示,例如用户A的体裁表示形式为[手机、手提电脑、PC机、公司名]。由于该用户A经常浏览的网页及桌面操作的文档均与信息技术相关,因此查询用户任务日志数据库得到的用户A的体裁表示形式为[手机、手提电脑、PC机、公司名];用户任务体裁分析器将该体裁表示形式发送给匹配模块。
(3)、匹配模块将从查询接口接收到的用户查询请求“苹果”与内容-体裁索引库中的内容索引作匹配,得到初始查询结果,初始查询结果即关键词为“苹果”的所有相关信息,例如苹果(水果)、苹果(牛仔裤)、苹果(手机)、苹果(手提电脑)、苹果(PC机)、苹果(公司名)……;其中括号中的内容“水果”、“牛仔裤”、“手机”……即为内容体裁索引库中的体裁索引,括号外的内容“苹果”则为内容体裁索引库中的内容索引。
(4)、之后匹配模块从用户任务体裁分析器接收以体裁形式表示的查询请求[手机、手提电脑、PC机、公司名],匹配模块将上述步骤(3)中的初始查询结果根据该以体裁形式表示的查询请求,结合上述步骤(3)中的体裁索引作二次匹配,得到最终的用户查询结果,为:苹果(手机)、苹果(手提电脑)、苹果(PC机)苹果(公司名),返回给用户接口模块。
本发明中若用户任务日志数据库中数据量庞大时,可以根据需要选择LRU(最近最少使用)等算法实现体裁形式的查询表示。例如可以将用户最近使用的且使用最频繁的体裁选择出来。例如某用户在不同时期关注点不一样,采用该算法可以反映最新的用户查询需求。
以上所述,仅为本发明最佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims (5)

1.一种基于体裁的多维信息检索系统,包括客户端和搜索引擎,其中搜索引擎包括任务分析引擎和索引匹配引擎,其中客户端包括任务监视器、用户任务分析模块和用户接口模块,任务分析引擎包括体裁数据库、用户任务体裁分析器和用户任务日志数据库,其中:
任务监视器:实时采集用户在桌面完成的各种任务过程中的事件信息,并将所述事件信息传送给用户任务分析模块;
用户接口模块:将用户查询历史信息实时发送给用户任务分析模块;当接收到用户输入的查询请求时,将所述查询请求同时发送给索引匹配引擎和用户任务分析模块;并从索引匹配引擎接收最终查询结果返回给用户;
用户任务分析模块:实时接收任务监视器输出的所述事件信息和用户接口模块输出的所述用户查询历史信息,以及接收用户接口模块输出的查询请求,并发送给用户任务体裁分析器;
体裁数据库:存储各种体裁分类的集合;
用户任务体裁分析器:实时接收用户任务分析模块输出的所述事件信息和所述用户查询历史信息,同时查询体裁数据库,将所述事件信息和所述用户查询历史信息按照体裁分类进行体裁标注并存储到用户任务日志数据库;当从用户任务分析模块接收到查询请求时,根据用户任务日志数据库得到所述查询请求的体裁形式表示并发送给索引匹配引擎;
用户任务日志数据库:用于存储体裁标注后的事件信息和用户查询历史信息;
索引匹配引擎:实时从互联网抓取原始数据并保存,对所述原始数据建立内容-体裁索引,即对原始数据同时建立内容索引和体裁索引;从用户接口模块接收用户查询请求,将所述用户查询请求与建立的内容索引作匹配,得到初始查询结果;之后从用户任务体裁分析器接收以体裁形式表示的查询请求,将初始查询结果根据所述以体裁形式表示的查询请求、以及建立的体裁索引作二次匹配,得到最终的用户查询结果,返回给用户接口模块。
2.根据权利要求1所述的一种基于体裁的多维信息检索系统,其特征在于:所述用户任务体裁分析器包括用户任务消息接口,用户任务体裁分析引擎,用户任务体裁生成器和任务体裁标注模块,其中:
用户任务消息接口:实时接收任务监视器输出的用户在桌面完成的各种任务过程中的事件信息和用户接口模块输出的用户查询历史信息,以及从用户任务分析模块接收查询请求,发送给用户任务体裁分析引擎;
用户任务体裁分析引擎:对接收到的信息进行判断,若为实时接收的任务监视器输出的用户在桌面完成的各种任务过程中的事件信息和用户接口模块输出的用户查询历史信息,则发送给任务体裁标注模块;若为从用户任务分析模块接收到的查询请求,则发送给用户任务体裁生成器;并从用户任务体裁生成器接收以体裁形式表示的用户查询请求,发送给索引匹配引擎;
任务体裁标注模块:从用户任务体裁分析引擎接收所述事件信息和所述用户查询历史信息,查询体裁数据库,将所述事件信息和所述用户查询历史信息按照体裁分类进行体裁标注并存储到用户任务日志数据库;
用户任务体裁生成器:从用户任务体裁分析引擎接收所述查询请求,从用户任务日志数据库中获取所述查询请求的用户的任务日志信息,生成以体裁形式表示的所述用户的查询请求,并返回给用户任务体裁分析引擎。
3.根据权利要求1所述的一种基于体裁的多维信息检索系统,其特征在于:所述任务监视器包括事件拦截器、窗口切换历史分析器与标题语义分析器;其中:事件拦截器为任务监视器的中枢,对窗口事件进行拦截,得到编码信息,对编码信息进行分类处理,并传送给用户任务分析模块,具体分类处理方法为:如果窗口事件数量超过设定阈值,则交由标题语义分析器进行语义分析,并把所述窗口事件分配到对应的任务类中;若窗口事件数量小于设定阈值,则交由窗口切换历史分析器处理,处理方法为在不同窗口之间切换次数超过设定阈值的不同窗口事件属于同一类事件,分到相应的任务类中。
4.根据权利要求1所述的一种基于体裁的多维信息检索系统,其特征在于:所述索引匹配引擎包括爬虫模块、原始数据库、索引模块、内容-体裁索引库、匹配模块和查询接口,其中:
爬虫模块:实时从互联网抓取原始数据并保存到原始数据库;
原始数据库:保存爬虫模块从互联网抓取的原始数据;
索引模块:对所述原始数据建立内容-体裁索引,即原始数据的内容索引和体裁索引,将所述内容-体裁索引保存到内容-体裁索引库;
内容-体裁索引库:用于存储原始数据的内容-体裁索引;
匹配模块:从查询接口接收用户查询请求,将所述用户查询请求与建立的内容索引作匹配,得到初始查询结果;之后从用户任务体裁分析器接收以体裁形式表示的查询请求,将初始查询结果根据所述以体裁形式表示的查询请求、以及建立的体裁索引作二次匹配,得到最终的用户查询结果,返回给查询接口;
查询接口:将从用户接口模块接收的查询请求发送给匹配模块,并将匹配模块接收的用户查询结果返回给用户接口模块。
5.根据权利要求1所述的一种基于体裁的多维信息检索系统,其特征在于:所述用户任务日志数据库中存储的体裁标注后的事件信息和用户查询历史信息的形式为:<用户名、任务名、体裁名、时间>。
CN201510064134.4A 2015-02-06 2015-02-06 一种基于体裁的多维信息检索系统 Expired - Fee Related CN104657456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510064134.4A CN104657456B (zh) 2015-02-06 2015-02-06 一种基于体裁的多维信息检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510064134.4A CN104657456B (zh) 2015-02-06 2015-02-06 一种基于体裁的多维信息检索系统

Publications (2)

Publication Number Publication Date
CN104657456A CN104657456A (zh) 2015-05-27
CN104657456B true CN104657456B (zh) 2017-12-05

Family

ID=53248584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510064134.4A Expired - Fee Related CN104657456B (zh) 2015-02-06 2015-02-06 一种基于体裁的多维信息检索系统

Country Status (1)

Country Link
CN (1) CN104657456B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901330B (zh) * 2021-12-09 2022-10-11 北京达佳互联信息技术有限公司 视频搜索方法、装置、电子设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101379492A (zh) * 2006-02-01 2009-03-04 松下电器产业株式会社 信息分类装置以及信息检索装置
CN101840400A (zh) * 2009-03-19 2010-09-22 北大方正集团有限公司 一种多级分类检索方法及系统
CN102467521A (zh) * 2010-11-08 2012-05-23 北大方正集团有限公司 一种易扩展的多级分类检索方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101379492A (zh) * 2006-02-01 2009-03-04 松下电器产业株式会社 信息分类装置以及信息检索装置
CN101840400A (zh) * 2009-03-19 2010-09-22 北大方正集团有限公司 一种多级分类检索方法及系统
CN102467521A (zh) * 2010-11-08 2012-05-23 北大方正集团有限公司 一种易扩展的多级分类检索方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
体裁在信息检索中的应用;李晓昀等;《计算机时代》;20120531(第5期);全文 *
基于隐性知识的信息检索多维匹配模型;阳小华等;《郑州大学学报》;20100630;第42卷(第2期);全文 *
引入体裁描述目标的检索匹配模型研究;李晓昀等;《山西大学学报》;20130430;第36卷(第4期);全文 *

Also Published As

Publication number Publication date
CN104657456A (zh) 2015-05-27

Similar Documents

Publication Publication Date Title
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
US8117198B2 (en) Methods for generating search engine index enhanced with task-related metadata
CN107729336A (zh) 数据处理方法、设备及系统
US20140317117A1 (en) Method, device and computer storage media for user preferences information collection
CN112486917A (zh) 从多个微博自动生成信息丰富的内容的方法以及系统
US20090157617A1 (en) Methods for enhancing digital search query techniques based on task-oriented user activity
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
US20170277790A1 (en) Awareness engine
JP2010224622A (ja) タグ付与方法およびタグ付与プログラム
CA2956627A1 (en) System and engine for seeded clustering of news events
US11023551B2 (en) Document processing based on proxy logs
CN109948044A (zh) 基于向量最近邻搜索的文档查询
CA3051919C (en) Machine learning (ml) based expansion of a data set
CN105159898B (zh) 一种搜索的方法和装置
CN104636386A (zh) 信息监控方法及装置
US20100235342A1 (en) Tagging system using internet search engine
CN104484367A (zh) 一种数据挖掘分析系统
Magara et al. Toward altmetric-driven research-paper recommender system framework
CN104657456B (zh) 一种基于体裁的多维信息检索系统
CN104657455B (zh) 一种多维信息检索方法
Hybridised OntoKnowNHS: Ontology Driven Knowledge Centric Novel Hybridised Semantic Scheme for Image Recommendation Using Knowledge Graph
CN113254623B (zh) 数据处理方法、装置、服务器、介质及产品
WO2019118252A1 (en) Contextual data transformation of image content
CN108681864A (zh) 一种智能酒柜管理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171205

CF01 Termination of patent right due to non-payment of annual fee