CN106372087B - 一种面向信息检索的信息地图生成方法及其动态更新方法 - Google Patents

一种面向信息检索的信息地图生成方法及其动态更新方法 Download PDF

Info

Publication number
CN106372087B
CN106372087B CN201510437113.2A CN201510437113A CN106372087B CN 106372087 B CN106372087 B CN 106372087B CN 201510437113 A CN201510437113 A CN 201510437113A CN 106372087 B CN106372087 B CN 106372087B
Authority
CN
China
Prior art keywords
retrieval
information
document
user
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510437113.2A
Other languages
English (en)
Other versions
CN106372087A (zh
Inventor
胡俊峰
肖刘明镜
潘睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201510437113.2A priority Critical patent/CN106372087B/zh
Publication of CN106372087A publication Critical patent/CN106372087A/zh
Application granted granted Critical
Publication of CN106372087B publication Critical patent/CN106372087B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布一种面向信息检索的信息地图生成方法及其动态更新方法,通过对用户检索结果计算文档权重,根据文档权重进行数据可视化生成信息地图;并通过交互操作优化用户检索需求,动态调整并更新信息地图;具体包括:建立目标文档集合,构建生成层次化知识概念体系;对目标文档集进行预处理;用户输入检索需求,分别计算得到检索需求的领域特征与尺度特征,生成初始检索结果并排序;通过数据可视化方法,根据排序,将初始检索结果生成信息地图展示。本发明使得用户能够更直观灵活地检索信息和展示检索结果,解决面向信息检索的信息地图生成及动态更新问题。

Description

一种面向信息检索的信息地图生成方法及其动态更新方法
技术领域
本发明涉及信息检索与可视化技术领域,尤其涉及一种面向信息检索的信息地图生成方法及其动态更新方法。
背景技术
现有的信息检索方法与技术如主流的搜索引擎Google、Bing、百度等,通过分析用户提交的检索需求来生成检索结果,通常将检索结果以信息条目的形式展示给用户浏览。现有的信息检索方法存在以下缺点:
1)信息呈现能力受限,检索结果一般按顺序平铺展示,检索结果之间缺乏直观的关系展示;
2)信息描述能力有限,用户无法方便地获得检索结果的内容分布情况;
3)检索过程通过用户检索关键词来匹配,没有利用在特定专业领域内的用户检索需求的检索特性;
4)缺乏实时的用户需求描述及交互手段,用户无法方便地借助已有检索结果来表达进一步的检索需求;
5)检索模型相对固定,系统无法随着用户检索倾向的改变而更新检索模型以提供更好的用户体验。
发明内容
为了克服上述现有技术的不足,本发明提供一种面向信息检索的信息地图生成方法及其动态更新方法,对用户检索结果计算文档权重,根据文档权重进行数据可视化,生成信息地图;并通过人机交互来优化用户检索需求,动态地调整并重新生成信息地图,使得用户能够更直观灵活地检索信息和展示检索结果。
本发明的原理是:在信息检索过程中,通过领域知识概念的层次树来表示层次化知识概念体系,描述一个特定专业领域内的相关知识概念的层次化组织结构;层次树中每棵子树都代表该专业下的一个子领域,子树的根节点(概念节点)用一个知识概念来描述其代表的子领域,子树的尺度用子树在树中的深度来计算;子树在树中的深度越深,其代表的子领域范围越小,其尺度越大;每个最底层的子领域(叶子节点)对应一组加权的关键词集合作为特 征;而叶子节点之上层的子领域(分支节点,为相对应的下一层节点/子领域的父领域)的特征是其覆盖的子领域特征的综合。本发明提供的面向信息检索的信息地图生成方法及其动态更新方法,首先,根据层次化知识概念体系对目标文档集进行预处理,预处理之后,得到:每篇目标文档与层次化知识概念体系中相关性较高的某些特定节点的关联关系,通过目标文档与不同层次、不同概念节点的关联权重来表示;对目标文档集中的所有文档进行关键词提取,根据每个关键词所出现的文档与层次化知识概念体系中概念节点的关联关系综合得到每个关键词与概念节点的关联关系,作为关键词的领域特征;计算得到文档的每个特征关键词的尺度大小,作为关键词的尺度特征。然后,根据用户输入检索需求,得到检索需求的领域特征与尺度特征,生成初始检索结果,根据目标文档集中的文档在本次检索中的权重,对文档进行排序;通过数据可视化方法,根据文档权重值排序生成信息地图;进一步地,根据用户交互操作调整文档权重值及其排序,从而动态更新信息地图的显示。
本发明提供的技术方案是:
一种面向信息检索的信息地图生成方法,根据用户检索需求进行信息检索获得用户检索结果,通过建立层次化知识概念体系,对用户检索结果进行数据分析得到用户检索结果中包含的领域、关键词条目以及包含领域的尺度,并通过直观的数据可视化方法生成信息地图;具体包括步骤1)~4):
1)建立目标文档集合,构建生成目标文档集合的层次化知识概念体系;
整理收集大规模的已有文档数据对象作为检索的目标文档集合;对文档数据对象进行合理的特征提取,文档的特征包括一组加权的关键词集合;(标题、摘要)。依据已有的数据挖掘技术对文档特征之间的相关关系进行分析,生成基于文档特征的层次化的知识概念体系;层次化知识概念体系还可以通过已有的专业分类知识以及专家知识进行优化,如专家人工构建的专业分类体系、人工总结的专业领域内的关键词集合等知识。
层次化知识概念体系可以近似理解为一棵领域知识概念的层次树,描述了一个特定专业领域内的相关知识概念的层次化组织结构。层次树中每棵子树都代表该专业下的一个子领域,子树的根节点(概念节点)用一个知识概念来描述其代表的子领域,子树的尺度用子树在树中的深度来计算,子树在树中的深度越深,其代表的子领域范围越小,其尺度越大。每个最底层的子领域(叶子节点)对应一组加权的关键词集合作为特征;而父领域(分支节点)的特征是其覆盖的子领域特征的综合。
鉴于领域归属具有天然的歧义性,因此会出现某些子领域归属到多个父领域节点的情况。 在具体的检索任务中,可以根据其父领域与当前的检索内容的相关性来进行父领域归属的判定,以唯一确定对于当前检索问题适用的父领域。领域与检索内容的相关性可以通过领域的特征与检索内容的特征的相关性来计算。
2)根据层次化知识概念体系对目标文档集进行预处理,包括:
通过文档数据对象的特征与概念体系节点的特征进行相关性计算,将每篇目标文档与层次化知识概念体系中相关性较高的某些特定节点建立关联关系;这种关联关系通过目标文档与不同层次、不同概念节点的关联权重来表示,关联权重可以是文档数据对象与概念节点的相关性,也可以用基于文档特征、子领域特征、及其相关性的其他方法计算。
对目标文档集中的所有文档进行关键词提取,其中对于专业文档可以包含原作者在文档中提供的关键词。根据每个关键词所出现的文档与层次化知识概念体系中概念节点的关联关系综合得到每个关键词与概念节点的关联关系。倾向于关联高层次概念节点的关键词就称为大领域关键词,倾向于关联到较低层次概念节点的关键词就称为小领域关键词。
文档的每个特征关键词的尺度用与该关键词关联的概念节点的尺度按关联关系(关联权重)大小加权综合计算。
3)用户输入检索需求,计算得到检索需求的领域特征与尺度特征,生成初始检索结果并排序;
3.1)首先通过信息检索技术得到初始检索结果子集:用户输入检索需求,可以是多个关键词或一篇用户上传的文档;对于用户检索需求是用户上传的文档,则对该文档进行文本分析自动提取关键词集合;
然后根据用户的历史检索特征、当前的检索关键词集合或自动提取的关键词集合来生成本次检索任务的关键词集合。通过关键词集合与目标文档集合中的文档进行文档特征相似计算,得到用户检索需求(关键词)与初始检索结果子集中的文档的相关度,得到最相关的(相关度最高的)多篇文档作为符合条件的初始的检索结果文档集合。由此得到的初始检索结果是原始文档对象集合的一个子集,其中的每一篇文档都会表达为一组加权关键词集合以及与该文档对象相关的概念节点(概念树的节点)集合。综合所得初始检索结果中文档对象集合的特征,通过相似计算来激活层次化知识概念体系中相应的一组概念节点,其中既可以包括叶子节点(最细分子领域)和分支节点(较综合子领域)。在检索过程中,会优先依据检索的大领域关键词来选定用户检索需求所属的层次化知识概念体系中的子领域,具体表现为,在 综合所得初始检索结果中文档对象集合的特征以激活一组概念节点的过程中,与大领域关键词最相关的文档对象的特征在综合过程中会得到更高的权重。由此得到该关键词集合在层次化知识概念体系中的相关子领域集合、最主要领域、以及最主要领域覆盖的知识概念。其中,相关子领域集合是激活的概念节点中相关度较高的概念节点表示的子领域;最主要领域是相关子领域集合中最相关的几个领域,用来界定用户检索需求所属的几个最主要的领域;最主要领域覆盖的知识概念是最主要领域所在的子树下与用户检索需求尺度相近的概念节点的知识概念集合。用户检索需求的尺度可以用其相关子领域集合的平均尺度来计算,也可以用其特征关键词的平均尺度来计算。
用户检索需求与激活的概念节点的关联权重被用来表达本次检索的领域特征。超出用户检索需求所属的最主要领域的文档对象,依据与用户检索需求的相关性大小以及文档对象所属子领域与用户检索需求所属的最主要领域的相关性大小,会被直接从初始检索结果中过滤或者降低与用户检索需求的相关度。
通过初始检索结果中的文档对象及其相关的子领域,计算与用户检索需求的相关度、与用户检索需求相关子领域的相关度,以及文档对象的特征关键词的平均尺度或文档对象的相关子领域的平均尺度与用户检索需求的尺度的匹配程度三个量综合起来作为文档对象在本次检索中的权重,依据文档对象的权重对文档对象排序。
4)在上述结果的基础上,通过数据可视化方法,生成信息地图;
信息地图的尺度用其相关子领域集合的平均尺度来计算,也可以用其用户检索需求的特征关键词的平均尺度来计算。划分信息地图为几个最主要的区域,每个区域表示用户检索需求的一个最主要领域,属于相同子领域的文档对象或知识概念被布局在临近的区域内。信息地图中的每一个信息条目既可以是一篇文档,也可以是当前检索结果最主要领域覆盖的知识概念,每一个信息条目用信息地图中的一个标记点来表示。文档的权重越高,表示文档的标记点到信息地图坐标原点的距离相对于其它文档也越近。知识概念表示的子领域与用户检索需求相关度越高,表示知识概念的标记点到信息地图坐标原点的距离相对于其它知识概念也越近。标记点的相关内容可以辅以必要的文字提示以实现信息可视化,如对知识概念辅以文字显示在标记点附近,对文档可以通过鼠标悬停的方式显示悬浮窗来展示文档的简要信息。
根据用户交互窗口所能容纳的合理数据对象数目来选择按照权重排序后的前k个文档以及覆盖的概念节点在信息地图上进行显示。信息地图的每个区域的大小与区域中显示的标记 点数量呈正相关。
在呈现检索内容的同时,提供基于信息地图的用户交互解决方案。使得用户能进一步的优化目前的检索结果。
5)提供基于信息地图的用户交互解决方案,以优化检索结果
具体步骤如下:
5.1)基于信息地图的用户交互方案
所述信息地图中的数据对象显示为图形或图形加上表明标记点内容的简短文字。用户可以通过鼠标悬停、单击以及手势触控中的点击等操作来选中一个标记点(信息条目)并同时观察到该信息条目的详细信息,详细信息以浮动窗口的形式显示,可以包含信息条目的标题、关键词、简短摘要,还可以提供信息条目的内容链接,如果信息条目为概念体系中的节点,可以包含该知识概念节点的文字描述及其在层次化知识概念体系中的特征信息。
可以通过滚轮或手势操作来调整地图的尺度;通过滚轮操作缩小、放大地图(zoomin,zoom out);通过拖放来平移地图。
5.2)基于用户交互的检索内容调整与检索模型优化
针对上述面向信息检索的信息地图生成方法,本发明还提供信息地图的动态更新方法,在信息地图生成之后,还可通过人机交互操作动态更新信息地图。人机交互操作包括鼠标悬停、单击、手势触控中的点击、按压、移动和拖拽等操作中的一种或多种。
用户可以通过交互来直接调整地图的尺度,可以通过平移操作来改变当前的地图中心区域所覆盖的内容。用户对特定信息条目的点击和悬停操作会提升该信息条目在检索结果集合中的权重、以及与该信息条目所属子领域相同的其他信息条目的权重。这些操作都会带来信息地图的尺度以及子领域进行相应的调整,以更好的反映目前用户所关注的内容。当用户关注了小尺度的信息条目,相应的地图尺度也会变小,反之亦然。当用户关注了某条或某个子领域的信息,该子领域的信息在检索结果中的权重就会提升,在检索结果中的排名也会随权重提升而相应地靠前。如果用户打开并浏览了某个条目的具体内容,直接加入该条目的特征关键词到已有的检索需求中生成新的用户检索需求,重新计算用户检索需求的领域特征,生成新的检索结果并排序,从而更新检索结果。由于信息地图中显示的内容是在候选文档集合中按照与“当前检索需求的相关度,与用户检索需求最主要领域的相关度,以及文档的特征关键词(或文档的相关子领域)的平均尺度与当前信息地图的尺度的匹配程度”这三个量来进行排序的,因此用户的这些交互操作会带来三个量的改变,会对信息地图中所显示的信息 条目的内容进行相应的改变。在信息地图更新过程中也会把以往的信息地图的显示内容与更新检索策略后的内容做适当的平滑,如将需要退出的信息条目显示的大小、颜色做一些变化,而非简单的删除,以保证用户有较好的体验,提供更连续更平滑的检索结果更新与用户视觉效果。
与现有技术相比,本发明的有益效果是:
本发明的目的是提供一种面向信息检索的动态信息地图生成与用户交互解决方案,它克服了现有理念和技术的不足,能改进当前信息检索存在的缺陷,解决面向信息检索的信息地图动态生成及更新问题。该方法可支持用户交互操作来动态地生成、调整信息地图,提供更加直观的检索结果呈现方案与更加友好的用户检索需求表达方法。本发明的优点包括:
一、提供一种基于层次化知识概念体系的用户检索需求建模方法;
二、针对检索需求、生成候选文档对象集合以及相关的目标领域,并对候选结果按目标领域以及主要领域的尺度进行筛选;通过信息地图直观地展示检索结果;
三、将检索结果的内容按不同的子领域分布特征布局在信息地图上的相对临近的区域,能够直观展示检索结果的主题分布;
四、提供用户多种交互方式操作信息地图,根据用户的操作与后台的知识系统进行互动,动态的调整检索领域、领域尺度,甚至直接更新检索结果,为用户提供实时优化的检索解决方案。
附图说明
图1为本发明方法的流程框图。
其中,101—建立目标文档集合,构建层次化知识概念体系;102—根据层次化知识概念体系计算目标文档集的领域、尺度特征;103—计算用户检索需求的领域与尺度特征,生成初始检索结果并排序;104—通过数据可视化技术,生成信息地图;105—提供基于信息地图的用户交互解决方案,以优化检索结果。
图2为本发明实施例中用户输入检索需求的截图;
其中,301—用户检索输入区域;302—开始检索按钮。
图3为本发明实施例中生成的信息地图展示效果图;
图4为本发明实施例中用户点击操作后更新的信息地图展示效果图;
图3和图4中,1—主要领域“信息检索”;2—主要领域“知识检索”;3—主要领域“垂直搜索引擎”;4—主要领域“搜索引擎”;5—文档“面向Internet的个性化智能信息检索”;6—文档“基于向量空间模型的中文信息检索技术研究”;7—文档“基于本体论的知识检索研究”;8—文档“垂直搜索引擎若干关键技术的研究”。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供了一种基于层次化知识概念体系的面向信息检索的动态信息地图生成方法,该方法对用户检索结果进行数据分析,得到用户检索结果中包含的领域、关键词条目以及当前检索的领域的尺度,借助层次化的知识概念体系,将这些分析结果转化为直观的数据可视化方案;然后基于数据可视化方案提供用户交互解决方案。本实施例中,动态信息地图生成与用户交互解决方案流程如图1所示,包括以下步骤:
步骤一:建立目标文档集合,构建层次化知识概念体系;
步骤二:根据层次化知识概念体系对目标文档集进行预处理;
步骤三:计算用户检索需求的领域特征与尺度特征,生成初始检索结果并排序;
步骤四:在上述结果的基础上,通过数据可视化技术,生成信息地图;
步骤五:提供基于信息地图的用户交互方法,以优化检索结果;包括:
5.1)基于信息地图提供用户交互方法;
5.2)基于用户交互的检索内容调整与检索模型优化方法。
实施例:
下面以信息科学技术领域的相关检索需求的信息地图生成与用户交互动态更新为例,来说明动态信息地图生成与用户交互动态更新方法。该领域的可检索资源存储于本地服务器中,包含从网上下载的信息科学技术领域中文文献。
本发明方法的具体步骤为:
步骤一:建立目标文档集合,构建层次化知识概念体系;
从网上下载大量信息科学技术领域中文文献存储于本地服务器中,整理成统一的结构化的文档数据对象作为检索的目标文档集合,对已有文档数据对象进行特征提取。在本实施例中,对文档数据对象提取关键词并计算其权重作为文档数据对象的特征。信息科学技术领域部分文档数据对象的特征如表1所示。
表1信息科学技术领域部分文档数据对象的特征
依据已有的数据挖掘技术对信息科学技术领域的文档的特征之间的相关关系进行分析,生成层次化的基于文档特征的知识概念体系。在本实施例中,以文档特征中的关键词作为知识概念,补充外部的信息科学技术领域的术语表作为补充的知识概念,分析知识概念间的相关关系,生成的信息科学技术领域的层次化知识概念体系的部分子树结构如下所示:
·检索技术
·信息检索
·信息检索模型
·用户兴趣模型
·信息检索评价
·知识检索
·知识库
·知识图谱
·知识地图
·问答系统
·搜索引擎
·Web信息检索
·索引技术
·垂直搜索引擎
·元搜索引擎
上述信息科学技术领域的层次化知识概念体系的部分子树结构中,该子树的根节点表示“检索技术”子领域,其下有“信息检索”、“知识检索”、“搜索引擎”三个子领域,这三个子领域下面是最底层的子领域,即树的叶子节点。该层次化知识概念体系一共有八层树形结构,“检索技术”所在层为第六层;在“检索技术”之外有更多其它子树,在上述部分子树结构中省略未画出。
计算所有子树的尺度为子树在树中的深度,如图中“检索技术”子领域的尺度为其在树 中的深度即等于6,“信息检索”、“知识检索”、“搜索引擎”的尺度等于7,这三个子领域下一层的其他子树(最底层的子树)尺度等于8,均为尺度最大的子领域。
每个最底层的子领域(叶子节点)会对应一组加权的关键词集合作为特征;而其上的子领域(分支节点,为下一层子领域的父领域)的特征是其覆盖的子领域特征的综合。在本实施例中,每个叶子节点的特征关键词权重都相同,图2中的叶子节点的特征关键词如表2所示,其它分支节点的特征关键词是其覆盖的子节点的特征关键词的并集。
表2层次化知识概念体系的部分叶子节点的特征关键词
叶子节点 特征关键词
信息检索模型 布尔模型 向量空间模型 概率模型 语言模型 本体
用户兴趣模型 用户兴趣 个性化 搜索历史 兴趣漂移 短期兴趣 长期兴趣
信息检索评价 查准率 查全率 检索性能 响应时间 用户负担 相关性范畴
知识库 概念知识库 知识管理 知识组织 知识库建设 知识库系统
知识图谱 信息管理 知识管理 共引图谱 知识发现 信息可视化
知识地图 知识索引 知识可视化 知识导航 知识共享 概念图
问答系统 自动问答 用户查询处理 答案抽取 语句相似模型 问题分类
Web信息检索 网络爬取 文档分析 索引器 检索器 分布式处理
索引技术 空间索引 全文索引 倒排索引 XML索引 分布式索引
垂直搜索引擎 主题爬行 网页分块 主题文本识别
元搜索引擎 提问转换 搜索结果集成 摘要排序 位置排序
步骤二:根据层次化知识概念体系对目标文档集进行预处理;
通过文档数据对象的特征与概念体系节点的特征进行相关性计算,将每篇目标文档与层次化知识概念体系中相关性较高的某些特定节点建立关联关系。在本实施例中,采用表1中提取的文档关键词作为文档数据对象的特征,通过计算文档数据对象的特征关键词与子领域的特征关键词的语义相关性,得到信息科学技术领域部分文档数据对象与子领域的关联关系如表3所示。
表3信息科学技术领域部分文档数据对象与子领域的关联关系
根据每个关键词所出现的文档与层次化知识概念体系中子领域的关联关系综合得到每个关键词与概念节点的关联关系。并非只有当关键词是文档的特征时才计算,关键词只要出现在某个文档的正文中,该文档的关联关系都会被综合计算到该关键词的关联关系中。关键词与概念节点的关联关系可以直接由关键词所出现的文档与子领域的关联关系平均计算得到,也可以考虑关键词所出现的文档在层次化知识概念体系中的子领域覆盖情况如覆盖面范围、子树覆盖率等综合计算。
文档的每个特征关键词的尺度用与该关键词关联的概念节点的尺度按关联关系大小加权综合计算。在本实施例中,每个关键词的尺度计算方式为:
(式1)
式1中,w表示关键词,f表示子领域,N(w)表示与关键词w关联的子领域集合,scalew表示关键词w的尺度,scalef表示子领域f的尺度,relationw,f表示关键词w和子领域f的关联关系(关联权重)。
计算后,得出表1中每个关键词的尺度大小取值如表4所示。
表4信息科学技术领域文档特征关键词的尺度取值
特征关键词 尺度
智能信息检索 7.5
个性化 7.5
人工智能 6
Internet网 5.5
垂直搜索引擎 7.5
中文分词 8
网络蜘蛛 8
隧道技术 8
主题相关度预测 8
知识检索 7
本体论 7.5
知识库 7.5
知识表示 7.5
信息检索 6.5
中文信息检索 7.5
向量空间模型 8
步骤三:计算用户检索需求的领域特征与尺度特征,生成初始检索结果并排序;
用户的检索需求如图3所示,用户键入关键词“搜索技术”、“面向用户搜索”,点击“新的检索”按钮开始检索。
首先通过关键词集合与目标文档集合中的文档进行特征相似计算得到最相关的若干篇文档作为符合条件的初始的检索结果文档集合。在本实施例中,计算得到检索的关键词集合与目标文档集合的相关性的部分结果如表5所示,表5中所示的四篇文档与检索的关键词集合相关性最高,被选为初始的检索结果文档集合。
表5检索的关键词集合与目标文档集合的相关性的部分结果
在本实施例中,与关键词“搜索技术”相关的文档倾向于关联高层次概念节点“检索技术”,与关键词“面向用户搜索”相关的文档倾向于关联较低层次概念节点。在检索任务中,“搜索技术”因为关联的概念节点低于设定的尺度阈值,被识别为大领域关键词,“面向用户搜索”因为关联的概念节点高于设定的尺度阈值,被识别为小领域关键词。
综合所得初始检索结果中文档对象集合的特征,通过相似计算来激活层次化知识概念体系中相应的一组概念节点。文档“垂直搜索引擎若干关键技术的研究”由于与大领域关键词“搜索技术”最相关,因此在综合文档特征时该文档的特征会获得更高的权重。通过相似计算得到用户检索需求在层次化知识概念体系中的相关子领域集合如表6所示。
表6用户检索需求的相关子领域集合
子领域 相关度
检索技术 0.15
信息检索 0.2
信息检索模型 0.1
用户兴趣模型 0.1
信息检索评价 0.1
知识检索 0.2
知识库 0.1
知识图谱 0.1
知识地图 0.1
问答系统 0.1
搜索引擎 0.5
Web信息检索 0.1
索引技术 0.1
垂直搜索引擎 0.6
元搜索引擎 0.1
根据设定的相关度阈值0.2,选取用户检索需求的最主要领域为“信息检索”、“知识检索”、“搜索引擎”和“垂直搜索引擎”。最主要领域覆盖的知识概念包括“信息检索”、“信息检索模型”、“用户兴趣模型”、“信息检索评价”、“知识检索”、“知识库”、“知识图谱”、“知识地图”、“问答系统”、“搜索引擎”、“Web信息检索”、“索引技术”、“垂直搜索引擎”、“元搜索引擎”。计算用户检索需求的尺度为其相关子领域集合的平均尺度,在本实施例中,即为表6中的子领域的尺度按相关度加权平均计算(通过式2计算),得到的本次用户检索需求的尺度为7.55:
(式2)
式2中,xcaleu表示用户检索需求u的尺度,relationu,f表示用户检索需求与子领域的相关度(关联权重)。
超出用户检索需求所属的最主要的四个子领域“信息检索”、“知识检索”、“搜索引擎”和“垂直搜索引擎”的其它文档对象,依据与用户检索需求的相关性大小以及文档对象所属 子领域与用户检索需求所属的最主要领域的相关性大小,会被直接从初始检索结果中过滤或者降低与用户检索需求的相关度。在本实施例中,表4中的初始的检索结果文档集合均未超出最主要领域的范围,不会被过滤或降低与用户检索需求的相关度。
通过初始检索结果中的文档对象及其相关的子领域,计算与用户检索需求的相关度、与用户检索需求相关子领域的相关度,以及文档对象的特征关键词的平均尺度或文档对象的相关子领域的平均尺度与用户检索需求的尺度的匹配程度三个量综合起来作为文档对象在本次检索中的权重,依据文档对象的权重对文档对象排序。
在本实施例中,文档对象与用户检索需求的相关度直接采用表5中计算的结果的平均相关度,文档对象与用户检索需求相关子领域的相关度采用文档对象的子领域关联关系向量和用户检索需求的相关子领域关联关系向量的余弦夹角值来计算,文档对象的相关子领域的平均尺度与用户检索需求的尺度的匹配程度计算方法为:
(式3)
式3中,d表示文档对象,match_scaled,u表示文档对象d与用户检索需求的尺度的匹配程度,N(d)表示文档对象d关联的子领域集合,maxf scalef表示层次化知识概念体系中的最大尺度,minf scalef表示层次化知识概念体系中的最小尺度,maxf scalef-minfscalef即为层次化知识概念体系的最大尺度跨度。
本实施例中的层次化知识概念体系为八层树形结构,最大尺度跨度为7。
综合计算以上三个量作为文档对象在本次检索中的权重,综合计算方法为:
weighta=a*relationd,u+β*relation_fieldd,u+γ*match_scaled,u (式4)
式4中,weightd表示文档对象d的权重,relationd,u表示文档对象与用户检索需求的相关度,relation_fieldd,u表示文档对象与用户检索需求相关子领域的相关度,match_scaled,u表示文档对象与用户检索需求的尺度的匹配程度,α、β、γ分别为以上三个量的系数,在本实施例中分别选取α=1、β=1、γ=0.3。
由上述方法计算得到每个文档对象的三个量以及文档对象在本次检索中的权重如表7所示。依据文档对象的综合权重对文档对象排序,标题为“垂直搜索引擎若干关键技术的研究”的文档会排在首位,表示用本实施例中描述的方法,该文档与用户检索需求最相关。标题为“基于向量空间模型的中文信息检索技术研究”的文档会排在末位,表示在初始检索结果中该文档与用户检索需求相关性最小。
表7初始检索结果文档对象的权重指标
步骤四:在上述结果的基础上,通过数据可视化技术,生成信息地图;
信息地图的尺度用其相关子领域集合的平均尺度来计算,即在步骤三中计算的用户检索需求的尺度7.55,划分信息地图为四个最主要的扇形区域,分别表示用户检索需求的四个最主要领域“信息检索”、“知识检索”、“搜索引擎”和“垂直搜索引擎”。初始检索结果中的文档、以及最主要领域覆盖的知识概念都表示为信息地图中的一个标记点。生成的信息地图效果图如图4所示,其中,空心标记点表示检索结果中的一篇文档,实心标记点表示一个知识概念,在标记点旁边辅以文字显示其概念名称。“知识检索”领域中的标记点数量相对最多,因此其扇形区域也占据最大的面积。
步骤五:提供基于信息地图的用户交互解决方案,以优化检索结果;
5.1)基于信息地图的用户交互方案
用户可以通过鼠标悬停、单击以及手势触控中的点击等操作来选中一个标记点(信息条目)并同时观察到该信息条目的详细信息,可以通过滚轮或手势操作来调整地图的尺度;通过滚轮操作缩小、放大地图(zoom in,zoom out);通过拖放来平移地图。
5.2)基于用户交互的检索内容调整与检索模型优化
在信息地图生成之后,用户还可以通过人机交互操作动态更新信息地图。人机交互操作包括鼠标悬停、单击、手势触控中的点击、按压、移动和拖拽等操作中的一种或多种。
在本实施例中,用户点击表示知识概念“用户兴趣模型”的标记点,用户检索需求的尺度修正为初始尺度7.55与子领域“用户兴趣模型”的尺度8的平均值即7.775,用户检索需求与子领域“用户兴趣模型”的相关度提升0.5即为0.6,根据用户检索需求的尺度、子领域相关度变化,重新计算文档对象的权重,同时直接提升知识概念“用户兴趣模型”的权重,并提升与子领域“用户兴趣模型”相关的其他信息条目的权重。标题为“面向Internet的个性 化智能信息检索”的文档与子领域“用户兴趣模型”关联关系很高,该文档的权重在重新计算后还会获得0.5的提升。更新后的文档对象用于计算综合权重的三个量以及调整后的综合权重如表8所示。重新对文档对象的权重排序并更新信息地图。
表8初始检索结果文档对象更新后的权重指标
更新后的信息地图效果图如图4所示。文档对象经过权重调整后,文档“面向Internet的个性化智能信息检索”的综合权重最高,其在检索结果中的排名上升到首位,在更新后的信息地图中距离坐标原点也最近。用户继续打开并浏览该文档的具体内容,直接加入该文档的特征关键词到已有的检索需求中生成新的用户检索需求,新的用户检索需求为“搜索技术”、“面向用户搜索”、“智能信息检索”、“个性化”、“人工智能”、“Internet网”。重新计算新的用户检索需求的领域特征,生成新的检索结果并排序,从而更新检索结果并重新生成信息地图。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (8)

1.一种面向信息检索的信息地图生成方法,根据用户检索需求进行信息检索获得用户检索结果,通过建立层次化知识概念体系,对用户检索结果进行数据分析得到用户检索结果中包含的领域、关键词条目以及包含领域的尺度,并通过直观的数据可视化方法生成信息地图;具体包括以下步骤:
1)建立目标文档集合,构建生成该目标文档集合的层次化知识概念体系;
1.1)收集已有文档数据对象作为检索的目标文档集合;
1.2)根据目标文档中各文档特征或进一步通过已有的专业分类知识以及专家知识进行优化,构建生成该目标文档集合的层次化知识概念体系;
1.3)该目标文档集合的层次化知识概念体系表示为相应领域知识概念的一棵层次树;设定所述层次化知识概念体系中的每棵子树代表该专业下的一个子领域;定义每个子领域的领域特征和尺度特征;
2)根据层次化知识概念体系对目标文档集进行预处理,针对目标文档集中的每一个文档,预处理包括:
2.1)通过文档的特征与概念体系节点的特征进行相关性计算,将每个目标文档与层次化知识概念体系中相关性较高的某些特定节点建立关联关系,用目标文档与不同层次概念节点的关联权重来表示;
2.2)对文档进行特征关键词提取,计算得到每个关键词与概念节点的关联权重,作为每个特征关键词的领域特征;
2.3)计算得到文档的每个特征关键词的尺度大小,作为特征关键词的尺度特征;
3)用户输入检索需求,分别计算得到检索需求的领域特征与尺度特征,生成初始检索结果并排序;具体包括如下步骤:
3.1)针对用户检索需求,通过信息检索技术得到初始检索结果子集,包括生成本次检索任务的关键词集合;将关键词集合与目标文档集合中的文档进行文档特征相似计算,得到用户检索需求与初始检索结果子集中的文档的相关度,将相关度最高的多篇文档作为符合条件的初始检索结果文档子集;
3.2)初始检索结果子集中的每一篇文档表达为一组加权关键词集合和层次化知识概念体系中与该文档相关的概念节点集合;
3.3)根据所得初始检索结果中文档对象的加权关键词集合和层次化知识概念体系中与该文档相关的概念节点集合的特征,通过相似计算来激活层次化知识概念体系中相应的一组概念节点子领域,其中既可以包括叶子节点和分支节点子领域;
3.4)通过检索过程得到该加权关键词集合在层次化知识概念体系中的相关子领域集合、最主要领域和最主要领域覆盖的知识概念;
3.5)通过用户检索需求相关子领域集合的平均尺度或用户检索需求的特征关键词的平均尺度来计算得到用户检索需求的尺度;
3.6)将用户检索需求与激活的概念节点的关联权重作为本次检索的领域特征;
3.7)根据初始检索结果中的文档和文档相关的子领域,计算得到初始检索结果中的文档分别与用户检索需求的相关度、与用户检索需求相关子领域的相关度,以及文档的特征关键词的平均尺度或文档的相关子领域的平均尺度与用户检索需求的尺度的匹配程度;上述三个量综合起来作为文档在本次检索中的权重,再依据文档的权重对文档排序;
4)通过数据可视化方法,根据步骤3)所述排序,将初始检索结果生成信息地图展示;具体包括:
4.1)计算得到信息地图的尺度;
4.2)划分信息地图为多个区域,每个区域表示用户检索需求的一个最主要领域,属于相同子领域的文档或知识概念被布局在临近的区域内;根据用户交互窗口所能容纳的合理数据对象数目来选择按照权重排序后的前k个文档以及覆盖的概念节点,作为在信息地图上进行显示的信息条目;
4.3)信息地图中的每一个信息条目用信息地图中的一个标记点来表示;每个信息条目为一篇文档或一个当前检索结果最主要领域覆盖的知识概念;
4.3)信息地图的每个区域的大小与区域中显示的标记点数量呈正相关;
4.4)知识概念表示的子领域与用户检索需求相关度越高,表示知识概念的标记点到信息地图坐标原点的距离相对于其它知识概念越近。
2.如权利要求1所述面向信息检索的信息地图生成方法,其特征是,步骤1.3)所述层次化知识概念体系的层次树中,每棵子树的尺度通过子树在树中的深度来计算得到,作为该子树对应的子领域的尺度特征。
3.如权利要求1所述面向信息检索的信息地图生成方法,其特征是,步骤1.3)所述层次化知识概念体系的层次树中,每棵子树对应的子领域的领域特征具体是:每个最底层叶子节点的子领域对应一组加权的关键词集合作为特征;叶子节点之上层的子领域的特征对应该子领域所覆盖的所有子领域特征的综合。
4.如权利要求1所述面向信息检索的信息地图生成方法,其特征是,步骤2.2)中,所述每个关键词与概念节点的关联权重具体是:根据每个关键词所出现的文档与层次化知识概念体系中概念节点的关联关系,综合得到每个关键词与概念节点的关联关系,表示为每个关键词与概念节点的关联权重,作为每个特征关键词的领域特征。
5.如权利要求1所述面向信息检索的信息地图生成方法,其特征是,步骤2.3)中,所述文档的每个特征关键词的尺度,具体是通过与该关键词关联的概念节点的尺度按关联权重大小加权综合计算得到。
6.如权利要求1所述面向信息检索的信息地图生成方法,其特征是,对标记点的显示,对知识概念标记点辅助文字提示显示在标记点附近,对文档标记点通过鼠标悬停方式显示悬浮窗来展示文档的简要信息。
7.如权利要求1所述面向信息检索的信息地图生成方法,其特征是,在步骤4生成信息地图之后,还通过用户交互操作获得信息地图中包含的信息条目的详细信息或对当前的检索结果进行优化并动态更新信息地图的显示。
8.如权利要求7所述面向信息检索的信息地图生成方法,其特征是,所述用户交互操作包括鼠标悬停、单击、手势触控中的点击、按压、移动和拖拽操作中的一种或多种。
CN201510437113.2A 2015-07-23 2015-07-23 一种面向信息检索的信息地图生成方法及其动态更新方法 Expired - Fee Related CN106372087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510437113.2A CN106372087B (zh) 2015-07-23 2015-07-23 一种面向信息检索的信息地图生成方法及其动态更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510437113.2A CN106372087B (zh) 2015-07-23 2015-07-23 一种面向信息检索的信息地图生成方法及其动态更新方法

Publications (2)

Publication Number Publication Date
CN106372087A CN106372087A (zh) 2017-02-01
CN106372087B true CN106372087B (zh) 2019-12-13

Family

ID=57880044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510437113.2A Expired - Fee Related CN106372087B (zh) 2015-07-23 2015-07-23 一种面向信息检索的信息地图生成方法及其动态更新方法

Country Status (1)

Country Link
CN (1) CN106372087B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122421A (zh) * 2017-04-05 2017-09-01 北京大学 信息检索方法和装置
CN107908766B (zh) * 2017-11-28 2019-11-19 深圳市城市规划设计研究院有限公司 一种城市热点事件动态监测方法及系统
CN110119812A (zh) * 2018-02-07 2019-08-13 刘劲彤 一种知识库及其展示方法、查询方法
CN108628951A (zh) * 2018-04-03 2018-10-09 苏州舆图数据科技有限公司 基于文档模型的空间数据块状组织存储与化简压缩方法
CN109657131A (zh) * 2018-12-10 2019-04-19 中国测绘科学研究院 基于检索词与空间范围的深网poi数据获取方法及系统
CN110413735B (zh) * 2019-07-25 2022-04-29 深圳供电局有限公司 一种问答检索方法及其系统、计算机设备、可读存储介质
CN112883186B (zh) * 2019-11-29 2024-04-12 智慧芽信息科技(苏州)有限公司 一种信息地图的生成方法、系统、设备及存储介质
CN111552870A (zh) * 2020-04-01 2020-08-18 深圳壹账通智能科技有限公司 对象推荐方法、电子装置及存储介质
CN112307219B (zh) * 2020-10-22 2022-11-04 首都师范大学 网站搜索用词汇数据库更新方法、系统及计算机存储介质
CN112686559B (zh) * 2021-01-06 2023-05-19 郑州铁路职业技术学院 基于大数据和人工智能的成果转化在线供需匹配方法
CN113392072B (zh) * 2021-06-25 2022-08-02 中国标准化研究院 标准知识服务方法、装置、电子设备和存储介质
CN113312369A (zh) * 2021-07-30 2021-08-27 自然资源部第三地理信息制图院 一种基于唯一标识码的多尺度地图数据库级联更新方法
CN116756438A (zh) * 2023-07-20 2023-09-15 兰州交通大学 一种基于向量空间模型检索微地图的改进方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN102915304A (zh) * 2011-08-01 2013-02-06 日电(中国)有限公司 文档检索设备和方法
CN103678412A (zh) * 2012-09-21 2014-03-26 北京大学 一种文档检索的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915304A (zh) * 2011-08-01 2013-02-06 日电(中国)有限公司 文档检索设备和方法
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN103678412A (zh) * 2012-09-21 2014-03-26 北京大学 一种文档检索的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Diachronic Deviation Features in Continuous Space Word Representations;Liumingjing Xiao 等;《13th China National Conference, CCL 2014 and Second International Symposium, NLP-NABD 2014》;20141231;第23-33页 *
地理信息检索中空间相似性度量的一种模糊方法;刘家骏 等;《地理与地理信息科学》;20150731;第31卷(第4期);第38-42页 *
知识可视化在信息检索中的实际应用;刘姝;《图书馆杂志》;20110630(第6期);第68-71页 *

Also Published As

Publication number Publication date
CN106372087A (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN106372087B (zh) 一种面向信息检索的信息地图生成方法及其动态更新方法
US11593438B2 (en) Generating theme-based folders by clustering digital images in a semantic space
CN101630314B (zh) 一种基于领域知识的语义查询扩展方法
US8949215B2 (en) GUI based web search
CN102004792B (zh) 一种热搜词生成方法及系统
CN108021658B (zh) 一种基于鲸鱼优化算法的大数据智能搜索方法及系统
CN103455487B (zh) 一种搜索词的提取方法及装置
Fakhari et al. Combination of classification and regression in decision tree for multi-labeling image annotation and retrieval
CA2610088A1 (en) Relationship networks
US11010411B2 (en) System and method automatically sorting ranked items and generating a visual representation of ranked results
CN102402539A (zh) 对象级个性化垂直搜索引擎设计技术
CN102968465A (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN104090904B (zh) 一种用于提供目标搜索结果的方法与设备
Grant et al. A topic-based search, visualization, and exploration system
US8612882B1 (en) Method and apparatus for creating collections using automatic suggestions
CN104156431B (zh) 一种基于实体图社团结构的rdf关键词查询方法
CN103136221B (zh) 一种生成需求模板的方法、需求识别的方法及其装置
JP4979528B2 (ja) コンテンツ表示装置、コンテンツ表示方法、プログラムおよび記録媒体
Goyal et al. A Review on Different Content Based Image Retrieval Techniques Using High Level Semantic Feature
CN113268683B (zh) 一种基于多维度的学术文献推荐方法
JP7428250B2 (ja) 文書検索の性能を評価する方法、システム、および装置
CN107038172A (zh) 一种基于语义的油田搜索引擎构建方法
CN111709239A (zh) 一种基于专家逻辑结构树的地学数据发现方法
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content
Bhat et al. Taxonomies in knowledge organisation—Need, description and benefits

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191213

CF01 Termination of patent right due to non-payment of annual fee