CN105868366B - 基于概念关联的概念空间导航方法 - Google Patents

基于概念关联的概念空间导航方法 Download PDF

Info

Publication number
CN105868366B
CN105868366B CN201610190598.4A CN201610190598A CN105868366B CN 105868366 B CN105868366 B CN 105868366B CN 201610190598 A CN201610190598 A CN 201610190598A CN 105868366 B CN105868366 B CN 105868366B
Authority
CN
China
Prior art keywords
concept
association
similarity
feature vector
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610190598.4A
Other languages
English (en)
Other versions
CN105868366A (zh
Inventor
杨良怀
杨威杰
庄慧
范玉雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201610190598.4A priority Critical patent/CN105868366B/zh
Publication of CN105868366A publication Critical patent/CN105868366A/zh
Application granted granted Critical
Publication of CN105868366B publication Critical patent/CN105868366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • G06F16/90328Query formulation using system suggestions using search space presentation or visualization, e.g. category or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于概念关联的概念空间导航方法,含以下步骤:1)用户选定某概念C为起始概念进行导航;2)计算C与概念空间中其他概念的相似度,并更新相似度旧值(若存在);3)获取C的语义关联信息{<C,相关概念,关联类型>};4)整合并标准化每个其他概念与C的相似度值、语义关联的有无这两个指标;5)依据步骤4)的两个指标,计算其他每个概念与C的相关程度值,并据此值高低排序取Top K个概念;6)用概念图可视化呈现这K个概念及其与C的相似度值、语义关联信息;7)用户找到目标概念,导航结束;或选择需要进一步扩展(探索)的概念,重复以上步骤。本发明从指定概念导航至其关联概念群,方便用户找到目标概念,提高检索效率。

Description

基于概念关联的概念空间导航方法
技术领域
本发明涉及个人信息管理的组织和查询、检索技术,尤其涉及一种概念空间的概念图表述形式和基于概念关联的概念导航方法。
背景技术
个人信息管理涉及的是人们为了获取、组织、维护和检索信息以供日常使用而进行的实践和研究活动,包括个人信息获取的方法和规则、组织和存储信息的机制、维护系统的规则和流程、检索机制。然而随着现代信息技术的飞速发展,信息爆炸产生的危机日益殃及个人信息管理,给维护、存取所需信息带来巨大困难。大量信息以电子文档的形式堆积起来,其中很多信息是无知觉地随着时间产生的,而对于那些用户有意识创建的信息,用户当时认识、记忆清晰,但随着岁月流逝,再回头记忆销蚀,还得重拾原有资料。而且这些数据被分散在不同的数据源中,容易引起混淆,用户无法确切地掌握每个资源所处的物理位置,其结果往往要花大量时间寻找,甚至于无法找到所关心的信息。因此,尽管个人拥有价值颇丰的信息资源,却存在着“数据过载”,“信息匮乏”,难以使用、难以维护等问题。如何有效开发与利用个人信息资源已成为一个普遍关注的问题。
为解决这些问题,满足用户个人信息管理之需,个人信息管理技术应运而生。它涉及许多技术领域,包括如何有效地组织、存储各种类型的数据,如何有效地构建个人的数据空间,如何有效地操作与检索数据,以及如何有效地可视化呈现数据等。
个人信息管理系统需要功能强大的数据组织技术。传统桌面系统的组织方式是,应用程序直接访问文件数据源。这种方式导致了物理数据依赖性,也忽略了个人信息空间中数据之间蕴含的语义关联。随着语义网络技术的发展,许多个人信息管理采用基于语义数据组织技术,对数据进行描述和组织。语义数据组织的核心技术是采用本体语言来描述和表示语义概念,并用RDF等来描述和表示元数据。学术界目前采用统一资源视图的方式对资源进行形式化表示,优点是该方法将各种数据对象进行统一抽象表示;缺点是难以实施,用户需要知道太多底层细节才能构建自己的系统,用户数据维护负担过重,还欠缺一种行之有效的方法来桥接。需要一种将结构化、半结构化、非结构化数据全体组织成个人数据空间的一套有效机制,需要提供一种高度灵活的人机接口,为用户提供多种有效且灵活的数据操作方式,涉及查询语言、可视化表示,以完成包括对个人信息的查询、检索、编辑等操作。
然而,现有的个人信息管理的检索技术大多基于关键字匹配来搜索、查询,用户在检索的过程中通过文字来限定检索的内容、并在检索的结果中选择特定的条目进行查阅。此类检索方法的缺点是返回结果集大,查准率相对较低,用户仍然要承担不小的信息筛选工作,同时,忽视了个人信息中所蕴含的语义联系。日常工作、生活中经常发现有些模糊的查询线索,但并不就是当前所想的概念,却可能相关。如何有效协助完成这类查询是本发明的目的。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于概念关联的概念空间导航方法。它通过概念空间来组织个人信息,在此基础上计算概念间的相关程度来实现概念导航,使用户能够在减少点击次数的情况下迅速找到目标概念,提高检索效率。
为实现上述目的,本发明提供了一种基于概念关联的概念空间导航方法,该方法应用于个人信息管理模型的应用层。所述方法包括预处理和执行两个阶段。所述预处理阶段将概念空间中的每个概念向量化表述为一个特征向量。所述执行阶段包括在计算机上运行以下步骤:
1)用户选定概念空间中的某个概念C作为起始概念进行导航(其他m个概念分别编号为C1,C2,…,Cm);
2)获取起始概念C对应的特征向量V,获取其他m个概念C1,C2,…,Cm的特征向量V1,V2,…,Vm;V1,V2,…,Vm中的每个特征向量分别与特征向量V进行特征向量间的相似度计算,分别得到相似度S1,S2,…,Sm;对于计算得到的每个相似度S1,S2,…,Sm,进行相似度的旧值更新,过程如下:
(2.1)若起始概念的特征向量与该概念的特征向量之间的相似度在概念空间中已存在,即标示起始概念和该概念的相似度值的边已在概念图中呈现,则将之前已存在的相似度值修正为当前计算得出的相似度;
(2.2)若该相似度在概念空间中不存在,无操作;
3)遍历个人信息管理模型概念空间层的关联模型,获取包含起始概念的三元组&lt;起始概念,相关概念,关联类型&gt;条目集合{&lt;C,Ci,Ki&gt;,…,&lt;C,Cj,Kj&gt;},其中C为起始概念,Ci,…,Cj为m个其他概念中与起始概念存在语义关联的概念(1≤i,…,j≤m),Ki,…,Kj为表征关联类型的正整数;
4)整合并标准化相似度值和语义关联有无这两个指标,过程如下:
(4.1)根据步骤2)、3)的结果可得,其他每个概念与起始概念的相似度值和语义关联有无这两个指标可表示为&lt;相关概念,相似度值,语义关联有无&gt;的三元组形式:{&lt;C1,S1,E1&gt;,&lt;C2,S2,E2&gt;,…,&lt;Cm,Sm,Em&gt;},其中C1,C2,…,Cm为其他概念的编号;S1,S2,…,Sm分别为C1,C2,…,Cm与起始概念C的相似度值;E1,E2,…,Em分别表示起始概念C与C1,C2,…,Cm语义关联的有无,若C与C1之间存在语义关联,则E1=1,否则E1=0,以此类推;
(4.2)采用z-score法标准化相似度值与语义关联有无这两个指标,即对于Ci,S′i=(SiSS,E′i=(EiE)/σE,其中Ci表示m个概念C1,C2,…,Cm中的一个,Si,Ei分别为步骤(4.1)中与Ci属于同个三元组的相似度值、语义关联有无的逻辑值,Si与Ei标准化后分别为S′i和E′i,μS和σS分别为S1,S2,…,Sm的均值、标准差,μE和σE分别为E1,E2,…,Em的均值、标准差;得到其他每个&lt;相关概念,相似度值,语义关联有无&gt;的标准化表示:{&lt;C1,S′1,E′1&gt;,&lt;C2,S′2,E′2&gt;,&lt;C3,S′3,E′3&gt;,…,&lt;Cm,S′m,E′m&gt;};
5)相似度值和语义关联有无两个指标对于概念间的相关程度同等重要,采用层次分析法得到两个指标的权重向量(1/2,1/2),可得概念C1,C2,…,Cm与概念C的相关程度分别为采用固定容量堆的堆排序取得Top K个概念,K是事先确定的正整数;取得概念时忽略与起始概念存在标示相似度值的边相连的概念,避免导航结果的收敛;
6)将以上用户选定概念空间中的某个概念C以及步骤5)选定的K个概念,不妨设为C1,C2,…,Ck,进行可视化呈现,即呈现C,C1,C2,…,Ck所组成的语义网,即概念图,在相应边上标示相似度值、语义关联类型;
7)用户可以在步骤6)所呈现概念图上实现导航,即若在概念图上已经出现用户想要的概念,则选择自己需要前往的目标概念;否则,用户可以选择需要进一步进行扩展的概念,重复以上步骤;或结束本次导航。
进一步,所述个人信息管理模型用于完成个人信息的组织、存储、管理、处理等一系列功能。所述个人信息管理模型包括资源层、概念空间层、应用层:
E1.所述资源层包括存储在DBMS、文件系统以及其他系统中的个人信息。其中所述文件系统中的个人信息包括文本数据和非文本数据。其中所述文本数据包括email、pdf文件、office文件、html文件等数据,所述非文本数据包括视频、音频、图片等数据;
E2.所述概念空间层使用概念指向相互间有相似性或相关性的信息资源所组成的一个集合,使用概念统一标识不同类型、格式的数据,并建立起相互间的关联,方便用户对信息资源的抽象和管理;
E3.所述应用层负责与用户交互,提供包括导航技术、可视化技术、编辑工具等应用。
再进一步,所述个人信息管理的概念空间层包括物理概念层和逻辑概念层:
31)所述物理概念层采用概念树的方式组织个人数据空间。所述概念树是由概念之间的继承关系形成的。概念包含的信息资源集合中的资源数目可以为1个或多个,不同的数据(文档)可以属于同一个概念,同一个文档也可以属于多个不同的概念。因此,所述概念树满足如下条件:
A1.所有概念的层次关系构成树状结构,树中的节点表示概念,边表示概念之间的上下层关系;
A2.根节点作为概念全集标识(默认不显示),分支节点为具有上下层关系的概念,叶子节点为无下层子节点的概念;
A3.每个分支节点拥有不少于一个子节点。
32)所述逻辑概念层在所述物理概念层的基础上进一步采用概念图的方式组织个人数据空间。所述概念图是由概念之间的语义关联形成的。其满足如下条件:
B1.概念之间的语义关联构成图结构,图中的节点表示概念,连线表示概念之间的语义关联;
B2.语义关联随语境而变,可以包括语义网络中的实体关联、泛化关联、聚集关联、属性关联等关联类型。
33)所述逻辑概念层在概念图的基础上进一步采用关联模型存储概念图中的全体语义关联。其满足如下条件:
C1.&lt;概念,概念,关联类型&gt;三元组构成关联模型中的一个条目;
C2.关联模型与概念图保持同步:当概念图中的关联被增加或者删除时,关联模型中的对应条目被增加或者删除,反之亦然。
再进一步,所述预处理阶段以向量空间模型作为支撑。所述向量空间模型包括构建特征向量、存储特征向量、维护特征向量、相似度计算这四个部分:
D1.所述构建特征向量是根据概念所包含的信息资源集合将概念表示成特征项和特征权重组成的向量;
D2.所述存储特征向量是将所述构建特征向量过程中得到的特征向量相关信息存储到数据库中;
D3.所述维护特征向量是当概念空间改变,累积一定次数之后,将这些改变反映到相关概念的特征向量中;
D4.所述相似度计算是根据选定概念与其他概念的特征向量,计算选定概念与其他概念的相似度。
与现有技术相比,本发明提供了一种基于概念关联的概念空间导航方法,该方法采用概念空间描述和组织个人信息管理模型,包括概念树和概念图、关联模型的形式。在解除物理数据依赖性的基础上,概念图形式考虑概念之间的语义关联,构建个人数据空间更加灵活。采用向量空间模型向量化概念,即包括文本数据、非文本数据均表示为特征项-特征项权重的特征向量,再通过特征向量间相似度的计算,结合概念间的语义关联,从指定概念导航至它的关联概念群。
本发明的优点是:能够方便用户快速找到兴趣概念,提高检索效率。
附图说明
图1是本发明的个人信息管理模型和向量空间模型的示意图。
图2是本发明的向量空间模型中特征向量的示意图。
图3是本发明方法的流程图。
具体实施方式
下面结合附图,对本发明作进一步详细说明。
参照图1,一种基于概念关联的概念空间导航方法,它应用于个人信息管理模型的应用层。个人信息管理模型用于完成个人信息的组织、存储、管理、处理等一系列功能,包括资源层、概念空间层、应用层:
E1.资源层包括存储在DBMS、文件系统以及其他系统中的个人信息。文件系统中的个人信息包括文本数据和非文本数据,文本数据包括email、pdf文件、office文件、html文件等数据,非文本数据包括视频、音频、图片等数据;
E2.概念空间层使用概念指向相互间有相似性或相关性的信息资源所组成的一个集合,使用概念统一标识不同类型、格式的数据,并建立起相互间的关联,方便用户对信息资源的抽象和管理。它包括物理概念层和逻辑概念层:
E21)物理概念层采用概念树的方式组织个人数据空间。概念树是由概念之间的继承关系形成的。概念包含的信息资源集合中的资源数目可以为1个或多个,不同的数据(文档)可以属于同一个概念,同一个文档也可以属于多个不同的概念。因此,概念树满足如下条件:所有概念的层次关系构成树状结构,树中的节点表示概念,边表示概念之间的上下层关系;根节点作为概念全集标识(默认不显示),分支节点为具有上下层关系的概念,叶子节点为无下层子节点的概念;每个分支节点拥有不少于一个子节点。
E22)逻辑概念层在物理概念层的基础上进一步采用概念图的方式组织个人数据空间。概念图是由概念之间的语义关联形成的。其满足如下条件:概念之间的语义关联构成图结构,图中的节点表示概念,连线表示概念之间的语义关联;语义关联随语境而变,可以包括语义网络中的实体关联、泛化关联、聚集关联、属性关联等关联类型。
E23)逻辑概念层在概念图的基础上进一步采用关联模型存储概念图中的全体语义关联。其满足如下条件:&lt;概念,概念,关联类型&gt;三元组构成关联模型中的一个条目;关联模型与概念图保持同步,当概念图中的关联被增加或者删除时,关联模型中的对应条目被增加或者删除,反之亦然。
E3.应用层负责与用户交互,提供包括导航技术、可视化技术、编辑工具等应用。可视化技术呈现概念空间层的概念树形式和概念图形式,并为导航技术、编辑工具提供视图支撑。编辑工具提供添加概念、呈现概念、建立语义关联、合并概念、移动概念等操作。
基于概念关联的概念空间导航方法包括预处理和执行两个阶段。
预处理阶段以向量空间模型作为支撑,将概念空间中的每个概念向量化表述为一个特征向量。参照图1,向量空间模型包括构建特征向量、存储特征向量、维护特征向量、相似度计算这四个部分:
D1.构建特征向量是根据包含的个人信息集合将概念表示成特征项和特征权重组成的向量。若个人信息为文本数据时,可采用下列步骤进行特征向量的构建(数据资源的类型和构建特征向量的步骤作为一个较佳的实施例,为说明之用,并非用以限制本发明):
D11)采用分词器对个人信息文本数据进行分词,获取特征项;
D12)采用tfidf法计算特征项的权重。特征项t在文档d中的权值为:。其中,表示特征t在文档d中出现的概率,N表示在个人数据空间中所包含的文档总数,表示包含特征t的邮件总数;
D13)采用信息增益法进行特征项的选取。信息增益是机器学习领域中常用的衡量特征项重要程度的指标,它通过文本特征在文本中出现与不出现的情况来推算该特征项所带有的信息量。
D14)根据概念包含的个人信息文件集合,给每个特征向量赋以权重,将概念也表示成特征项和特征权重组成的向量。图2中的每一行都是一个特征向量,表示概念i,表示第i个特征项所对应的权重。
D2.存储特征向量是将所述构建特征向量过程中得到的特征向量相关信息存储到数据库中;
D3.维护特征向量是当概念空间改变,累积一定次数之后,将这些改变反映到相关概念的特征向量中;
D4.相似度计算是根据选定概念与其他概念的特征向量,计算选定概念与其他概念的相似度。
参照图3,执行阶段包括在计算机上运行以下步骤:
1)用户选定概念空间中的某个概念C作为起始概念进行导航(其他m个概念分别编号为C1,C2,…,Cm);
2)获取起始概念C对应的特征向量V,获取其他m个概念C1,C2,…,Cm的特征向量V1,V2,…,Vm;V1,V2,…,Vm中的每个特征向量分别与特征向量V进行特征向量间的相似度计算,分别得到相似度S1,S2,…,Sm;对于计算得到的每个相似度S1,S2,…,Sm,进行相似度的旧值更新,过程如下:
(2.3)若起始概念的特征向量与该概念的特征向量之间的相似度在概念空间中已存在,即标示起始概念和该概念的相似度值的边已在概念图中呈现,则将之前已存在的相似度值修正为当前计算得出的相似度;
(2.4)若该相似度在概念空间中不存在,无操作;
3)遍历个人信息管理模型概念空间层的关联模型,获取包含起始概念的三元组&lt;起始概念,相关概念,关联类型&gt;条目集合{&lt;C,Ci,Ki&gt;,…,&lt;C,Cj,Kj&gt;},其中C为起始概念,Ci,…,Cj为m个其他概念中与起始概念存在语义关联的概念(1≤i,…,j≤m),Ki,…,Kj为表征关联类型的正整数;
4)整合并标准化相似度值和语义关联有无这两个指标,过程如下:
(4.1)根据步骤2)、3)的结果可得,其他每个概念与起始概念的相似度值和语义关联有无这两个指标可表示为&lt;相关概念,相似度值,语义关联有无&gt;的三元组形式:{&lt;C1,S1,E1&gt;,&lt;C2,S2,E2&gt;,…,&lt;Cm,Sm,Em&gt;},其中C1,C2,…,Cm为其他概念的编号;S1,S2,…,Sm分别为C1,C2,…,Cm与起始概念C的相似度值;E1,E2,…,Em分别表示起始概念C与C1,C2,…,Cm语义关联的有无,若C与C1之间存在语义关联,则E1=1,否则E1=0,以此类推;
(4.2)采用z-score法标准化相似度值与语义关联有无这两个指标,即对于Ci,S′i=(SiS)/σS,E′i=(EiE)/σE,其中Ci表示m个概念C1,C2,…,Cm中的一个,Si与Ei分别为步骤(4.1)中与Ci属于同个三元组的相似度值、语义关联有无的逻辑值,Si与Ei标准化后分别为S′i与E′i,μS与σS分别为S1,S2,…,Sm的均值、标准差,μE与σE分别为E1,E2,…,Em的均值、标准差;得到其他每个&lt;相关概念,相似度值,语义关联有无&gt;的标准化表示:{&lt;C1,S′1,E′1&gt;,&lt;C2,S′2,E′2&gt;,&lt;C3,S′3,E′3&gt;,…,&lt;Cm,S′m,E′m&gt;};
5)相似度值和语义关联有无两个指标对于概念间的相关程度同等重要,采用层次分析法得到两个指标的权重向量(1/2,1/2),可得概念C1,C2,…,Cm与概念C的相关程度分别为采用固定容量堆的堆排序取得Top K个概念,K是事先确定的正整数;取得概念时忽略与起始概念存在标示相似度值的边相连的概念,避免导航结果的收敛;
6)将以上用户选定概念空间中的某个概念C以及步骤5)选定的K个概念,不妨设为C1,C2,…,Ck,进行可视化呈现,即呈现C,C1,C2,…,Ck所组成的语义网,即概念图,在相应边上标示相似度值、语义关联类型;
7)用户可以在步骤6)所呈现概念图上实现导航,即若在概念图上已经出现用户想要的概念,则选择自己需要前往的目标概念;否则,用户可以选择需要进一步进行扩展的概念,重复以上步骤;或结束本次导航。
上述各实施例仅用于说明本发明,其中各步骤都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。

Claims (3)

1.一种基于概念关联的概念空间导航方法,包括预处理和执行两个阶段;所述预处理阶段将概念空间中的每个概念向量化表述为一个特征向量;所述执行阶段包括在计算机上运行以下步骤:
1)用户选定概念空间中的某个概念C作为起始概念进行导航,其他m个概念分别编号为C1,C2,…,Cm
2)获取起始概念C对应的特征向量V,获取其他m个概念C1,C2,…,Cm的特征向量V1,V2,…,Vm;V1,V2,…,Vm中的每个特征向量分别与特征向量V进行特征向量间的相似度计算,分别得到相似度S1,S2,…,Sm;对于计算得到的每个相似度S1,S2,…,Sm,进行相似度的旧值更新,过程如下:
(2.1)若起始概念的特征向量与该概念的特征向量之间的相似度在概念空间中已存在,即标示起始概念和该概念的相似度值的边已在概念图中呈现,则将之前已存在的相似度值修正为当前计算得出的相似度;
(2.2)若该相似度在概念空间中不存在,无操作;
3)遍历个人信息管理模型概念空间层的关联模型,获取包含起始概念的三元组&lt;起始概念,相关概念,关联类型&gt;条目集合{&lt;C,Ci,Ki&gt;,…,&lt;C,Cj,Kj&gt;},其中C为起始概念,Ci,…,Cj为m个其他概念中与起始概念存在语义关联的概念,1≤i,...,j≤m,Ki,…,Kj为表征关联类型的正整数;
所述个人信息管理模型用于完成个人信息的组织、存储、管理、处理的功能;所述个人信息管理模型包括资源层、概念空间层、应用层:
E1.所述资源层包括存储在DBMS、文件系统以及其他系统中的个人信息;其中所述文件系统中的个人信息包括文本数据和非文本数据;其中所述文本数据包括email、pdf文件、office文件、html文件,所述非文本数据包括视频、音频、图片;
E2.所述概念空间层使用概念指向相互间有相似性或相关性的信息资源所组成的一个集合,使用概念统一标识不同类型、格式的数据,并建立起相互间的关联,方便用户对信息资源的抽象和管理;
E3.所述应用层负责与用户交互,提供包括导航技术、可视化技术、编辑工具应用;
4)整合并标准化相似度值和语义关联有无这两个指标,过程如下:
(4.1)根据步骤2)、3)的结果可得,其他每个概念与起始概念的相似度值和语义关联有无这两个指标可表示为&lt;相关概念,相似度值,语义关联有无&gt;的三元组形式:{&lt;C1,S1,E1&gt;,&lt;C2,S2,E2&gt;,…,&lt;Cm,Sm,Em&gt;},其中C1,C2,…,Cm为其他概念的编号;S1,S2,…,Sm分别为C1,C2,…,Cm与起始概念C的相似度值;E1,E2,…,Em分别表示起始概念C与C1,C2,…,Cm语义关联的有无,若C与C1之间存在语义关联,则E1=1,否则E1=0,以此类推;
(4.2)采用z-score法标准化相似度值与语义关联有无这两个指标,即对于概念Ci,S′i=(SiS)/σS,E′i=(EiE)/σE,其中Ci表示m个概念C1,C2,…,Cm中的一个,Si与Ei分别为步骤(4.1)中与Ci属于同个三元组的相似度值、语义关联有无的逻辑值,Si和Ei标准化后分别为S′i与E′i,μS与σS分别为S1,S2,…,Sm的均值、标准差,μE与σE分别为E1,E2,…,Em的均值、标准差;得到其他每个&lt;相关概念,相似度值,语义关联有无&gt;的标准化表示:{&lt;C1,S′1,E′1&gt;,&lt;C2,S′2,E′2&gt;,&lt;C3,S′3,E′3&gt;,…,&lt;Cm,S′m,E′m&gt;};
5)相似度值和语义关联有无两个指标对于概念间的相关程度同等重要,采用层次分析法得到两个指标的权重向量(1/2,1/2),可得概念C1,C2,…,Cm与概念C的相关程度分别为采用固定容量堆的堆排序取得Top K个概念,K是事先确定的正整数;取得概念时忽略与起始概念存在标示相似度值的边相连的概念,避免导航结果的收敛;
6)将以上用户选定概念空间中的某个概念C以及步骤5)选定的K个概念,不妨设为C1,C2,…,Ck,进行可视化呈现,即呈现C,C1,C2,…,Ck所组成的语义网,即概念图,在相应边上标示相似度值、语义关联类型;
7)用户可以在步骤6)所呈现概念图上实现导航,即若在概念图上已经出现用户想要的概念,则选择自己需要前往的目标概念;否则,用户可以选择需要进一步进行扩展的概念,重复以上步骤;或结束本次导航。
2.如权利要求1所述的一种基于概念关联的概念空间导航方法,其特征在于:所述步骤3)中,所述个人信息管理的概念空间层包括物理概念层和逻辑概念层;
31)所述物理概念层采用概念树的方式组织个人数据空间;所述概念树是由概念之间的继承关系形成的;概念包含的信息资源集合中的资源数目可以为1个或多个,不同的文档可以属于同一个概念,同一个文档也可以属于多个不同的概念;因此,所述概念树满足如下条件:
A1.所有概念的层次关系构成树状结构,树中的节点表示概念,边表示概念之间的上下层关系;
A2.根节点作为概念全集标识,分支节点为具有上下层关系的概念,叶子节点为无下层子节点的概念;
A3.每个分支节点拥有不少于一个子节点;
32)所述逻辑概念层在所述物理概念层的基础上进一步采用概念图的方式组织个人数据空间;所述概念图是由概念之间的语义关联形成的;其满足如下条件:
B1.概念之间的语义关联构成图结构,图中的节点表示概念,连线表示概念之间的语义关联;
B2.语义关联随语境而变,可以包括语义网络中的实体关联、泛化关联、聚集关联、属性关联;
33)所述逻辑概念层在概念图的基础上进一步采用关联模型存储概念图中的全体语义关联;其满足如下条件:
C1.&lt;概念,概念,关联类型&gt;三元组构成关联模型中的一个条目;
C2.关联模型与概念图保持同步:当概念图中的关联被增加或者删除时,
关联模型中的对应条目被增加或者删除,反之亦然。
3.如权利要求1所述的一种基于概念关联的概念空间导航方法,其特征在于:所述预处理阶段以向量空间模型作为支撑,所述向量空间模型包括构建特征向量、存储特征向量、维护特征向量、相似度计算这四个部分:
D1.所述构建特征向量是根据概念所包含的信息资源集合将概念表示成特征项和特征权重组成的向量;
D2.所述存储特征向量是将所述构建特征向量过程中得到的特征向量相关信息存储到数据库中;
D3.所述维护特征向量是当概念空间改变,累积一定次数之后,将这些改变反映到相关概念的特征向量中;
D4.所述相似度计算是根据选定概念与其他概念的特征向量,计算选定概念与其他概念的相似度。
CN201610190598.4A 2016-03-30 2016-03-30 基于概念关联的概念空间导航方法 Active CN105868366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610190598.4A CN105868366B (zh) 2016-03-30 2016-03-30 基于概念关联的概念空间导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610190598.4A CN105868366B (zh) 2016-03-30 2016-03-30 基于概念关联的概念空间导航方法

Publications (2)

Publication Number Publication Date
CN105868366A CN105868366A (zh) 2016-08-17
CN105868366B true CN105868366B (zh) 2019-02-01

Family

ID=56626413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610190598.4A Active CN105868366B (zh) 2016-03-30 2016-03-30 基于概念关联的概念空间导航方法

Country Status (1)

Country Link
CN (1) CN105868366B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682129B (zh) * 2016-12-14 2020-02-21 浙江工业大学 个人大数据管理中层次概念向量化增量处理方法
CN107220305B (zh) * 2017-05-10 2020-09-29 燕山大学 一种基于概念树的高校课程体系的增量式概念计算方法
CN107220674A (zh) * 2017-06-08 2017-09-29 浙江大学 一种众包环境下物品概念空间的建模方法
CN107292662B (zh) * 2017-06-08 2022-08-30 浙江大学 一种评价从众包环境中获取物品的创新活力的方法
CN109492222B (zh) * 2018-10-31 2023-04-07 平安科技(深圳)有限公司 基于概念树的意图识别方法、装置及计算机设备
CN116383911B (zh) * 2023-04-18 2023-09-01 华联世纪工程咨询股份有限公司 一种基于cad图纸的自动切图方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279580A (zh) * 2013-06-24 2013-09-04 魏骁勇 基于新型语义空间的视频检索方法
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104008090A (zh) * 2014-04-29 2014-08-27 河海大学 一种基于概念向量模型的多主题提取方法
CN104915396A (zh) * 2015-05-28 2015-09-16 杭州电子科技大学 一种知识的检索方法
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279580A (zh) * 2013-06-24 2013-09-04 魏骁勇 基于新型语义空间的视频检索方法
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104008090A (zh) * 2014-04-29 2014-08-27 河海大学 一种基于概念向量模型的多主题提取方法
CN104915396A (zh) * 2015-05-28 2015-09-16 杭州电子科技大学 一种知识的检索方法
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法

Also Published As

Publication number Publication date
CN105868366A (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN105868366B (zh) 基于概念关联的概念空间导航方法
Wei et al. A survey of faceted search
Sukanya et al. Techniques on text mining
US9183286B2 (en) Methodologies and analytics tools for identifying white space opportunities in a given industry
US8290923B2 (en) Performing large scale structured search allowing partial schema changes without system downtime
US20100138414A1 (en) Methods and systems for associative search
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
Yehia et al. Text mining and knowledge discovery from big data: challenges and promise
Kaur et al. SIMHAR-smart distributed web crawler for the hidden web using SIM+ hash and redis server
Xu et al. Application of rough concept lattice model in construction of ontology and semantic annotation in semantic web of things
CN113127650A (zh) 一种基于图数据库的技术图谱构建方法和系统
CN107103023B (zh) 使用自动生成的存储层级组织电子存储的文件
Liaqat et al. Applying uncertain frequent pattern mining to improve ranking of retrieved images
Oo Pattern discovery using association rule mining on clustered data
Rajapoornima et al. Personalized semantic retrieval of information from large scale blog data
Kwon et al. Recommendation of e-commerce sites by matching category-based buyer query and product e-catalogs
Bhat et al. Taxonomies in knowledge organisation—Need, description and benefits
Kulev et al. Text classification using semantic networks
Hojas-Mazo et al. Semantic processing method to improve a query-based approach for mining concept maps
Rástočný et al. Web search results exploration via cluster-based views and zoom-based navigation
Paulus et al. Recommending Semantic Concepts for Improving the Process of Semantic Modeling
Potamias et al. Enhancing web based services by coupling document classification with user profile
Yadav et al. Enhancing the performance of web Focused CRAWLer using ontology
Ettaleb et al. Mining author-tag multilayer graph for social book search
Li et al. Design of a reading recommendation method based on user preference for online learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant