CN105447104A - 一种知识地图生成方法及装置 - Google Patents

一种知识地图生成方法及装置 Download PDF

Info

Publication number
CN105447104A
CN105447104A CN201510771801.2A CN201510771801A CN105447104A CN 105447104 A CN105447104 A CN 105447104A CN 201510771801 A CN201510771801 A CN 201510771801A CN 105447104 A CN105447104 A CN 105447104A
Authority
CN
China
Prior art keywords
keyword
knowledge
incidence relation
node
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510771801.2A
Other languages
English (en)
Inventor
王全礼
邵小亮
谢隆飞
郑坚钢
陈飞
杨雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN201510771801.2A priority Critical patent/CN105447104A/zh
Publication of CN105447104A publication Critical patent/CN105447104A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种知识地图生成方法及装置,首先获取同一类别中每条热门知识的关键词,然后计算每个关键词的关联关系,基于每个关键词的关联关系,来获取作为知识地图的中心节点的关键词以及知识地图中各个节点的层级关系,进而以中心节点为基准,依据知识地图中各个节点的层级关系生成知识地图。上述关联关系用于指示关键词与处于同一类别的关键词之间具有特定关系,进而可以指示不同热门知识之间具有特定关系,也就是知识地图基于不同热门知识之间的特定关系来得到,相对于任意两个词汇可能包含有无意义词以及不符合语法要求的词汇得到的知识地图,其准确度得到提高。并且本发明无需计算任意两个关键词的共现度,从而降低计算复杂度。

Description

一种知识地图生成方法及装置
技术领域
本发明属于知识地图技术领域,更具体的说,尤其涉及一种知识地图生成方法及装置。
背景技术
知识地图是知识库系统核心功能模块之一,其能够从多条知识组成的知识集合中抽取出来代表所述知识集合核心内容的词汇,并组装成网络结构将各条知识展示出来,因此通过知识地图可以迅速了解知识集合的核心内容以及多条知识之间的关系。
为了能够生成知识地图,其首要任务则是从知识集合中抽取到核心内容,并确定多条知识之间的关系,在申请号为201210383029.3的制作知识地图的方法中,该知识地图包含词汇(t)以及多个关联词汇,其技术方案为:建立词汇关联知识集{(t,si,wi)|i=1,…,n},其中si代表与该词汇配对的关联词汇,wi代表(t,si)的权重;提供使用者接口,以供查询该词汇;从该词汇关联知识集筛选出多个关联词汇共现配对;将该等关联词汇共现配对依K-means演算法分成多个群组;输出该知识地图,该知识地图以该词汇为中心,该等关联词汇以该等群组呈现。
从申请号为201210383029.3的制作知识地图的方法提供的技术方案可知:其在确定多条知识之间的关系是基于任意两个词汇组合的共现度来判断。但是计算任意两个词汇的共现度会造成大量的循环计算操作,使得计算复杂度提高,并且任意两个词汇可能包含有无意义词以及不符合语法要求的词汇,从而导致共现度计算不准确,导致得到的各条知识之间的关系不准确,进而使得知识地图的准确度降低。
发明内容
有鉴于此,本发明提供一种知识地图生成方法及装置,用于提高知识地图的准确度,并降低计算复杂度。技术方案如下:
本发明提供一种知识地图生成方法,所述方法包括:
获取同一类别中每条热门知识的关键词,其中所述类别是通过对知识列表进行聚类划分后得到,且所述知识列表中存储有所述热门知识;
计算每个所述关键词的关联关系,其中所述关联关系用于指示所述关键词与处于同一类别的关键词之间具有特定关系,以指示不同热门知识之间具有特定关系;
基于每个所述关键词的关联关系,获取作为所述知识地图的中心节点的关键词;
基于每个所述关键词的关联关系,获取所述知识地图中各个节点的层级关系;
以所述中心节点为基准,依据所述知识地图中各个节点的层级关系生成所述知识地图。
优选地,所述计算每个所述关键词的关联关系,包括:
获取同一条热门知识的同一句话中的至少两个关键词;
如果所述同一条热门知识的同一句话中至少两个关键词相连,且在预设关键词集合中查找到相连的至少两个关键词,则所述相连的至少两个关键词具有强关联关系;
如果具有强关联关系的两个关键词中的第一关键词与其他具有强关联关系的两个关键词中的第二关键词相同,则具有强关联关系的两个关键词和其他具有强关联关系的两个关键词中的三个关键词具有推导关联关系;
如果所述同一条热门知识的同一句话中的至少两个关键词不相连,则不相连的至少两个关键词具有弱关联关系;
将每条热门知识的关键词按照预设词组长度进行分词,若分词后得到的关键词和分词前的关键词均在所述预设关键词集合中查找到,则分词后得到的关键词和分词前的关键词具有包含关联关系。
优选地,所述基于每个所述关键词的关联关系,获取作为所述知识地图的中心节点的关键词,包括:
基于每个所述关键词的关联关系和预设关系权重,计算每个所述关键词的关联得分;
基于每个所述关键词的关联得分,从所有关键词中选取关联得分最高的关键词;
当所述关联得分最高的关键词的关联得分大于预设关联得分时,所述关联得分最高的关键词为所述知识地图的中心节点的关键词;
当所述关联得分最高的关键词的关联得分小于等于所述预设关联得分时,选取点击率最高的关键词为所述知识地图的中心节点的关键词。
优选地,基于每个所述关键词的关联关系,获取所述知识地图中各个节点的层级关系,包括:
当所述作为知识地图的中心节点的关键词的关联关系指示与相连的至少一个关键词具有强关联关系,则将所述作为知识地图的中心节点的关键词的强关联关系作为所述知识地图中至少一条知识路径中其他节点与所述中心节点的层级关系,其中所述知识路径的层级关系为所述作为知识地图的中心节点的关键词与相连的一个关键词之间的强关联关系,且每条所述知识路径基于的强关联关系不同;
对于所述知识地图中其他知识路径,基于作为中心节点的关键词的关联关系与其他关键词的关联得分确定所述其他知识路径中其他节点与所述中心节点的层级关系,且所述其他知识路径的层级关系中不包括以所述知识地图的中心节点的关键词的强关联关系得到的层级关系。
优选地,所述方法还包括:
获取所述知识地图中第i级节点的关键词,i为大于等于1的整数,且i小于等于N,N为知识地图中层级数;
如果在关键词关联列表中查找到与所述第i级节点的关键词对应的第i+1级节点的关键词,则将所述第i+1级节点的关键词的关联知识列表合并到所述第i级节点的关键词的关联知识列表中,所述第i+1级节点为所述第i级节点的下一级节点;
去除所述第i+1级节点的关键词的关联知识列表和第i级节点的关键词的关联知识列表中的相同知识,得到第i级节点的关联知识列表;
如果在关键词关联列表中未查找到与所述第i级节点的关键词对应的第i+1级节点的关键词,则将所述第i级节点的关键词的关联知识列表按照点击量进行排序,排序后的关联知识列表为所述第i级节点的关联知识列表。
本发明还提供一种知识地图生成装置,所述装置包括:
获取单元,用于获取同一类别中每条热门知识的关键词,其中所述类别是通过对知识列表进行聚类划分后得到,且所述知识列表中存储有所述热门知识;
计算单元,用于计算每个所述关键词的关联关系,其中所述关联关系用于指示所述关键词与处于同一类别的关键词之间具有特定关系,以指示不同热门知识之间具有特定关系;
中心节点确定单元,用于基于每个所述关键词的关联关系,获取作为所述知识地图的中心节点的关键词;
关系确定单元,用于基于每个所述关键词的关联关系,获取所述知识地图中各个节点的层级关系;
生成单元,用于以所述中心节点为基准,依据所述知识地图中各个节点的层级关系生成所述知识地图。
优选地,所述计算单元包括:
获取子单元,用于获取同一条热门知识的同一句话中的至少两个关键词;
第一确定子单元,用于如果所述同一条热门知识的同一句话中至少两个关键词相连,且在预设关键词集合中查找到相连的至少两个关键词,则所述相连的至少两个关键词具有强关联关系;
第二确定子单元,用于如果具有强关联关系的两个关键词中的第一关键词与其他具有强关联关系的两个关键词中的第二关键词相同,则具有强关联关系的两个关键词和其他具有强关联关系的两个关键词中的三个关键词具有推导关联关系;
第三确定子单元,用于如果所述同一条热门知识的同一句话中的至少两个关键词不相连,则不相连的至少两个关键词具有弱关联关系;
第四确定子单元,用于将每条热门知识的关键词按照预设词组长度进行分词,若分词后得到的关键词和分词前的关键词均在所述预设关键词集合中查找到,则分词后得到的关键词和分词前的关键词具有包含关联关系。
优选地,所述中心节点确定单元包括:
计算子单元,用于基于每个所述关键词的关联关系和预设关系权重,计算每个所述关键词的关联得分;
选取子单元,用于基于每个所述关键词的关联得分,从所有关键词中选取关联得分最高的关键词;
节点确定子单元,用于当所述关联得分最高的关键词的关联得分大于预设关联得分时,所述关联得分最高的关键词为所述知识地图的中心节点的关键词,以及用于当所述关联得分最高的关键词的关联得分小于等于所述预设关联得分时,选取点击率最高的关键词为所述知识地图的中心节点的关键词。
优选地,关系确定单元包括:
第一关系确定子单元,用于当所述作为知识地图的中心节点的关键词的关联关系指示与相连的至少一个关键词具有强关联关系,则将所述作为知识地图的中心节点的关键词的强关联关系作为所述知识地图中至少一条知识路径中其他节点与所述中心节点的层级关系,其中所述知识路径的层级关系为所述作为知识地图的中心节点的关键词与相连的一个关键词之间的强关联关系,且每条所述知识路径基于的强关联关系不同;
第二关系确定子单元,用于对于所述知识地图中其他知识路径,基于作为中心节点的关键词的关联关系与其他关键词的关联得分确定所述其他知识路径中其他节点与所述中心节点的层级关系,且所述其他知识路径的层级关系中不包括以所述知识地图的中心节点的关键词的强关联关系得到的层级关系。
优选地,所述装置还包括:
关键词获取单元,用于获取所述知识地图中第i级节点的关键词,i为大于等于1的整数,且i小于等于N,N为知识地图中层级数;
第一知识列表获取单元,用于如果在关键词关联列表中查找到与所述第i级节点的关键词对应的第i+1级节点的关键词,则将所述第i+1级节点的关键词的关联知识列表合并到所述第i级节点的关键词的关联知识列表中,所述第i+1级节点为所述第i级节点的下一级节点;
去重单元,用于去除所述第i+1级节点的关键词的关联知识列表和第i级节点的关键词的关联知识列表中的相同知识,得到第i级节点的关联知识列表;
第二知识列表获取单元,用于如果在关键词关联列表中未查找到与所述第i级节点的关键词对应的第i+1级节点的关键词,则将所述第i级节点的关键词的关联知识列表按照点击量进行排序,排序后的关联知识列表为所述第i级节点的关联知识列表。
与现有技术相比,本发明提供的上述技术方案具有如下优点:
本发明提供的上述技术方案,首先获取同一类别中每条热门知识的关键词,然后计算每个关键词的关联关系,这样就可以基于每个关键词的关联关系,来获取作为知识地图的中心节点的关键词以及知识地图中各个节点的层级关系,进而可以以中心节点为基准,依据知识地图中各个节点的层级关系生成知识地图。在本发明中上述关联关系用于指示关键词与处于同一类别的关键词之间具有特定关系,进而可以指示不同热门知识之间具有特定关系,也就是说本发明的知识地图基于不同热门知识之间的特定关系来得到,相对于任意两个词汇可能包含有无意义词以及不符合语法要求的词汇得到的知识地图,其准确度得到提高。并且本发明无需计算任意两个关键词的共现度,从而降低计算复杂度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的知识地图生成方法的一种流程图;
图2是本发明实施例提供的倒排索引的示意图;
图3是本发明实施例提供的知识地图生成方法的子流程图;
图4是本发明实施例提供的知识地图的一种示意图;
图5是本发明实施例提供的知识地图生成方法的另一种流程图;
图6是本发明实施例提供的知识地图的另一种示意图;
图7是本发明实施例提供的知识地图生成装置的一种结构示意图;
图8是本发明实施例提供的知识地图生成装置中计算单元的结构示意图;
图9是本发明实施例提供的知识地图生成装置的另一种结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明实施例,首先对本发明实施例涉及的知识地图中的各个要素进行定义:
知识(knowledge)包含的元素有:title(标题)、content(正文)、keywords(关键词列表)、hit(点击率)和DocId(知识编号);
关键词(keyword)包含的元素有:name(关键词)和score(关键词的关联得分);
节点(node)包含的元素有:name(节点名称)、DocIds(关联知识列表)、asscotiatednodes(关联节点列表)和deepth(节点深度),其中deepth表示节点在知识地图中的第几级;
知识地图(map)包含的元素有:mapid(地图编号)、name(地图名称)和nodes(节点列表)。
本发明实施例提供的知识地图生成方法的思想是:获取同一类别中每条热门知识的关键词;计算每个关键词的关联关系;基于每个关键词的关联关系,获取作为知识地图的中心节点的关键词以及获取知识地图中各个节点的层级关系;以中心节点为基准,依据知识地图中各个节点的层级关系生成知识地图。上述关联关系用于指示关键词与处于同一类别的关键词之间具有特定关系,进而可以指示不同热门知识之间具有特定关系,也就是说本发明的知识地图基于不同热门知识之间的特定关系来得到,相对于任意两个词汇可能包含有无意义词以及不符合语法要求的词汇得到的知识地图,其准确度得到提高。并且本发明无需计算任意两个关键词的共现度,从而降低计算复杂度。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的知识地图生成方法的一种流程图,可以包括以下步骤:
101:获取同一类别中每条热门知识的关键词,其中类别是通过对知识列表进行聚类划分后得到,且知识列表中存储有热门知识。
也就是说,在本发明实施例中,知识列表中包括不同类别中已有的多条热门知识,且其包括的多条热门知识也是本发明实施例中需要构建知识地图的热门知识,这样对于知识列表中的各条热门知识通过聚类算法即可以对多条热门知识进行聚类划分,得到每条热门知识对应的类别。
其中通过聚类算法对各条热门知识进行聚类划分可以至少选取知识对应的关键词列表和业务领域这两个属性进行聚类,然后采用现有聚类分析对各条热门知识进行聚类,以得到各自对应的类别,关键词列表是通过对相应业务领域中的各条热门知识进行分词后得到。
当然在本发明实施例中,各条热门知识对应的类别也可以是本领域技术人员人工划分,比如在本发明实施例中类别的个数为预设个数,如6个类别,这样本领域技术人员可以基于每条热门知识的关键词来确定其相应的类别:如果知识列表中每条热门知识所属业务领域的个数为6个,则直接基于业务领域来划分热门知识,得到属于6个类别的知识列表;如果知识列表中每条热门知识对应的业务领域的个数大于6个,则将业务领域合并成6个之后再基于业务领域进行划分;如果业务领域的个数小于6个,则可以采用现有的k均值算法对热门知识进行划分。
在这里需要说明的一点是:关键词是从热门知识的标题和正文中抽取出的代表热门知识核心内容的词汇,在获取到关键词后,可以为关键词建立倒排索引,以查找到每个关键词对应的热门知识。其中倒排索引的结构如图2所示,按照聚类后每个类别的知识列表依据图2所示的内存结构将相关信息植入内存,通过遍历知识列表得到每个关键词对应的一个知识编号列表,每个知识编号对应一条热门知识,这样做可以节省内存,并且热门知识是通过用户浏览知识的数量进行排序后得到关键词对应的知识。
102:计算每个关键词的关联关系,其中关联关系用于指示关键词与处于同一类别的关键词之间具有特定关系,以指示不同热门知识之间具有特定关系。
在本发明实施例中,关键词的关联关系是通过选取属于同一类别的热门知识,计算关键词之间的语义关系得到,而同一类别的热门知识在内容上是紧密相连的,这样使得基于关键词之间的语义关系来计算关键词的关联关系是可行的。
例如:关键词之间的语义关联来源于相同的语义背景,比如来源于热门知识的同一句话或者来源于同一条热门知识,根据汉语短语的组成方式去计算2至4个关键词之间的关系:
两个关键词:存在短语关系,比如动宾短语:办理和信用卡这两个词,两个词的关联可分为双向关联和单向关联两种,根据结构不同而不同,包括双向关联和单向关联,双向关联主要是两个并联关键词,两者可以互相关联,单向关联则是可以从一个词关联到另一个词,如上述动宾短语如银行卡和信用卡这两个名词
三个关键词:直接相邻,或者词之间间隔最多一个特殊词性,比如介词或者助词,比如信用卡营销活动的信息,信用卡、营销活动、信息这三个词判断为直接相邻。
四个关键词:直接相邻,或者词之间间隔最多两个特殊词性,比如介词和/或助词,如信用卡开卡流程及操作指南,信用卡、开卡、流程和操作指南这四个词判断为直接相邻。
除了可以基于上述方式来判断关键词之间的关联关系,还可以基于关键词之间的语义关联可以进行推导,比如关键词k1与关键词k2有关联,关键词k1与关键词k3有关联,那么可以根据关联程度来判断关键词k1至k3之间是否有关联。
在本发明实施例中,计算每个关键词的关联关系的可行方式如图3所示,可以包括以下步骤:
301:获取同一条热门知识的同一句话中的至少两个关键词。
302:如果同一条热门知识的同一句话中至少两个关键词相连,且在预设关键词集合中查找到相连的至少两个关键词,则相连的至少两个关键词具有强关联关系。
其中预设关键词集合可以是上述图2所示的倒排索引中的关键词组成的集合,并且所述预设关键词集合可以采用hashset方式来存储倒排索引中的关键词,当同一句话中得到的关键词相连,且在预设关键词集合中可以查找到,则可以确定同一句话中得到的关键词具有强关联关系,强关联关系用于指示从一个关键词可以得到强关联关系中的另一个关键词。
如上述办理和信用卡这两个关键词来说,这两个关键词可以位于同一条热门知识的同一句话中,且这两个关键词在同一句话中相连,则办理这个关键词与信用卡这一关键词之间具有强关联关系,再比如上述信用卡、营销活动、信息这三个关键词之间也具有强关联关系,其中同一句话可以是同一条热门知识中的正文,也可以是同一条热门知识的标题。
在这里需要说明的一点是:对于同一句话中的两个关键词来说,其相连指的是直接相连,即两个关键词相邻,且两个关键词之间未间隔其他词。而对于同一句话中的三个关键词和四个关键词来说,其相连可以是直接相连,如果同一句话中的三个关键词之间间隔最多一个特殊词性的词和四个关键词之间间隔最多两个特殊词性的词,仍认为这三个关键词或者四个关键词相连。
303:如果具有强关联关系的两个关键词中的第一关键词与其他具有强关联关系的两个关键词中的第二关键词相同,则具有强关联关系的两个关键词和其他具有强关联关系的两个关键词中的三个关键词具有推导关联关系。
也就是说在本发明实施例可以基于关键词的强关联关系,来确定多个强关联关系的关键词之间是否具有推导关联关系。以A->B,B->C和C->D为例,A和B具有强关联关系,B和C具有强关联关系,C和D具有强关联关系,且通过A可以得到B,通过B可以得到C,通过C可以进一步得到D,这样的话则可以推导出A->B->C->D,即A、B、C和D这四个关键词之间具有推导关联关系,其中->指示可以从一个关键词得到另一个关键词。
304:如果同一条热门知识的同一句话中的至少两个关键词不相连,则不相连的至少两个关键词具有弱关联关系,其中,两个关键词不相连用于指示两个关键词之间间隔有其他特殊词性的词,此种情况下说明从一个关键词得到弱关联关系中的另一个关键词的可能性较小,因此确定不相连的两个关键词具有弱关联关系。
除上述强关联关系、推导关联关系和弱关联关系之外,本发明实施例中还存在其他关联关系,如包含关联关系,其中包含关联关系是指一个关键词包含另一个关键词,值得注意的是包含关联关系是单向关联而非双向关联的,比如“信用卡”可以关联到“白金信用卡”,而“白金信用卡”无法关联到“信用卡”。在本发明实施例中,包含关联关系的获取方式如步骤305所示。
305:将每条热门知识的关键词按照预设词组长度进行分词,若分词后得到的关键词和分词前的关键词均在预设关键词集合中查找到,则分词后得到的关键词和分词前的关键词具有包含关联关系。
在本发明实施例中,预设词组长度与预设关键词集合中各个关键词的长度有关,比如当预设关键词集合中关键词的长度为2至5个字符,则每条热门知识的关键词则会按照这个长度对关键词进行分词。以上述白金信用卡为例,其至少可以拆分为:白金、信用卡和白金信用卡,将得到的这三个关键词与分词前的“白金信用卡”这一关键词与预设关键词集合中各个关键词进行比对,可知信用卡和白金信用卡均在预设关键词集合中,进而可以确定信用卡和白金信用卡具有包含关联关系。
103:基于每个关键词的关联关系,获取作为知识地图的中心节点的关键词。其中作为知识地图的中心节点的关键词可以是与众多关键词具有关联关系,且关联关系的强度最大的关键词,在本发明实施例中,可以以关键词的关联得分作为从众多关键词中选取作为中心节点的关键词的依据,其过程如下:
首先,基于每个关键词的关联关系和预设关系权重,计算每个关键词的关联得分,其次,基于每个关键词的关联得分,从所有关键词中选取关联得分最高的关键词;当关联得分最高的关键词的关联得分大于预设关联得分时,关联得分最高的关键词为知识地图的中心节点的关键词;当关联得分最高的关键词的关联得分小于等于预设关联得分时,选取点击率最高的关键词为知识地图的中心节点的关键词。
其中关键词的点击率为热门知识的点击率,当每条热门知识被点击查看时均会在上一次点击率的基础上加一得到热门知识的当前点击率,这样关键词的点击率则可以是其所在多条热门知识的当前点击率之和。并且上述预设关联得分可以根据实际应用进行设置,本发明实施例对预设关联得分的具体取值不进行限定。而知识地图的中心节点指的则是知识地图的根节点,从根节点延伸连接众多的子节点形成知识地图中的多条知识路径。
在本发明实施例中,预设关系权重指示关键词在知识地图中的重要性,其设置方式基于弱关联关系、强关联关系、推导关联关系和包含关联关系而定,对于弱关联关系来说:
如果弱关联关系的2个关键词同时存在于同一条知识同一句话,但2个关键词不相连且中间无指定词性的词相连,其预设关系权重为1.0;
如果弱关联关系的2个关键词同时存在于同一条知识同一句话,且2个关键字中间一个连词相连,正向的预设关系权重为2.0,反向的预设关系权重为1.1,比如2个关键词A和B,其中A位于B之前,即在用户读句子时首先读到A,而后读到B,这样A的预设关系权重是正向的预设关系权重,B的预设关系权重则是反向的预设关系权重;
如果弱关联关系的2个关键词同时存在于同一条知识同一句话,且2个关键字中间一个副词相连,正向的预设关系权重为3.0,反向的预设关系权重为1.2;
如果弱关联关系的2个关键词同时存在于同一条知识同一句话,且2个关键字中间一个动词相连,正向的预设关系权重为4.0,反向的预设关系权重为1.3;
对于包含关联关系来说:2个关键字存在包含关联关系,包含的预设关系权重为5.0,被包含的预设关系权重为1.4,如上述信用卡和白金信用卡来说,信用卡的预设关系权重为5.0,白金信用卡的预设关系权重为1.4。
对于强关联关系来说:如果强关联关系中2个关键词同时存在于同一条知识同一句话,且2个关键字相连,正向的预设关系权重为6.0,反向的预设关系权重为1.5;
如果强关联关系中的3至4关键字同时存在于同一条知识同一句话,且3至4关键字相连或者3至4关键字中间间隔1个非名词和非词组词性的词,这些关键词的预设关系权重为8.0
对于推导关联关系,如果关键词A和关键词B相连,关键词B和关键词C,三个关键词ABC为推导关联关系,这些关键词的预设关系权重为7.0。
相应的,关键词的关联得分的计算公式如下:
Score(keyword)=Score(asscociatekeyword1)+Score(asscociatekeyword2)+…+Score(asscociatekeywordM),其中Score(asscociatekeywordi)为关键词keyword的一种关联关系下的得分,该得分直接记为基于关联关系得到的预设关系权重,M则指示关键词keyword具有的关联关系的总数。至此基于上述关联得分的计算公式可以得到每个关键词的关联得分,以从中选取出关联得分最高的关键词。
104:基于每个关键词的关联关系,获取知识地图中各个节点的层级关系,其中各个节点的层级关系指的是:中心节点(根节点)与第1级节点(与根节点直接相连的第1层子节点)的层级关系,以及第j级节点(与第j-1层子节点相连的第j层子节点)与第j+1级节点(与第j层子节点相连的第j+1层子节点)的层级关系,j为大于等于2的整数,且j小于等于N,N为知识地图中层级数。
在本发明实施例中,获取知识地图中各个节点的层级关系的过程为:当作为知识地图的中心节点的关键词的关联关系指示与相连的至少一个关键词具有强关联关系,则将作为知识地图的中心节点的关键词的强关联关系作为知识地图中至少一条知识路径中其他节点与中心节点的层级关系,其中知识路径的层级关系为作为知识地图的中心节点的关键词与相连的一个关键词之间的强关联关系,且每条知识路径基于的强关联关系不同;对于知识地图中其他知识路径,基于作为中心节点的关键词的关联关系与其他关键词的关联得分确定所述其他知识路径中其他节点与所述中心节点的层级关系,且所述其他知识路径的层级关系中不包括以所述知识地图的中心节点的关键词的强关联关系得到的层级关系。
以上述三个关键词信用卡、营销活动、信息和四个关键词信用卡、开卡、流程和操作指南为例,其均具备强关联关系,且假设信用卡为中心节点的关键词,则知识地图中存在以信用卡、营销活动、信息为层级关系的知识路径,以及存在以信用卡、开卡、流程和操作指南为层级关系的知识路径,如图3所示,并且在图3所示知识地图的其他知识路径中均不存在以营销活动、信息、开卡、流程和操作指南为关键词的节点,这就意味着其他知识路径的层级关系中不包括营销活动和信息的层级关系以及不包括开卡、流程和操作指南的层级关系,即其他知识路径的层级关系不以上述强关联关系来确定。
相应的,对于知识地图中其他知识路径,基于作为中心节点的关键词的关联关系与其他关键词的关联得分确定所述其他知识路径中其他节点与所述中心节点的层级关系的过程可以是:基于作为中心节点的关键词的关联关系,查找到与中心节点的关键词具有一定关系的其他关键词,然后从具有一定关系的其他关键词的关联得分中选取出一定数量作为中心节点的第1级节点的关键词,进一步查找单个第1级节点的下一级节点(即第2级节点)的关键词,其查找过程为单个第1级节点为例,基于第1级节点的关键词的关联关系,查找到与第1级节点的关键词具有一定关系的其他关键词,然后从具有一定关系的其他关键词的关联得分中选取出一定数量作为第1级节点的下一级节点(即第2级节点)的关键词。
也就是说在不存在强关联关系的知识路径中,每条知识路径中第i级节点和第i+1级节点的关键词的查找方式为:基于第i级节点的关键词的关联关系,查找到与第i级节点的关键词具有一定关系的其他关键词,然后从具有一定关系的其他关键词的关联得分中选取出一定数量作为第i级节点的下一级节点(即第i+1级节点)的关键词。
在这里需要说明的一点是:如果作为中心节点的关键词不具有强关联关系,则可以直接基于作为中心节点的关键词的关联关系与其他关键词的关联得分,确定知识地图中各条知识路径中其他节点与所述中心节点的层级关系。
105:以中心节点为基准,依据知识地图中各个节点的层级关系生成知识地图。在本发明实施例中,以金融类知识使用的2000条热门知识聚类为4个类别,然后基于本发明实施例提供的方法得到的知识地图如图4所示,其中图4示出了4个知识地图,每个知识地图中加粗字体为对应的中心节点,箭头指示了从上一级节点到下一级节点的层级关系。
在本发明实施例中,对知识地图中地图数据定义如下数据结构:
Map<String,Map<String,HashMap<String,Double>>>nodeMap用来保存每个簇里面的关键词与其他关键词的关联关系,其中簇指的是类别;
Map<String,HashMap<String,KeyWord>>keywordMap用来保存每个簇里面的关键词对应的其他关键词;
Map<String,HashMap<String,ArrayList<KeyWordRelate>>>keylistMap用来保存每个簇里面以作为中心节点的关键词开头的3关键词相连集合数据,即3个关键词具有强关联关系,且包括作为中心节点的关键词,如上述信用卡、营销活动、信息即为3关键词相连;
Map<String,Integer>nodeMaxMap保存2层节点中上一级节点对应的下一级节点的数量;
Map<String,Integer>centerNodeMaxMap用来保存中心节点对应的第1级节点数量;
Map<String,Integer>keyMap用来保存关键词对应的排序序号。
地图数据初始化流程:获取每个簇下面的知识列表,遍历知识列表中的每条热门知识,获取热门知识的正文和标题,并进行分句处理,每句话再次进行分词等预处理并按照上述关键词的关联关系计算流程填充keyMap,centerNodeMaxMap,nodeMaxMap,keywordMap基础数据。
进而基于上述基础数据,获取簇里面的关联得分最高的关键词为知识地图的中心节点;根据作为中心节点的关键词,获取与其具有关联关系的关键词集合keywordMap,根据centerNodeMaxMap优先抽取keywordMap关联得分最高的几个关键词,再循环这几个关键词,获取与这几个关键词分别具有关联关系的关键词集合,根据nodeMaxMap优先抽取下一级中关联得分最高的几个关键词,这样知识地图中一层层的层级关系即可得到。
在获得层级关系时,需要对知识地图中的各个节点进行一些特殊处理:第一点,预先为知识地图设置层级数(节点深度)和节点总数,当基于上述方式得到的节点数量超过节点总数时,则需要去掉关联得分较低的节点,如去掉关联得分为1.0的节点(节点的关联得分即是作为该节点的关键词的关联得分);第二点,keylistMap中的相连3关键词单独作为一知识路径,且当2层节点(即中心节点的下一级节点)循环数据时,若遇到keylistMap中的相连3关键词的最后一个关键词时排除掉此关键词;第三点,每个知识路径中作为节点的关键词不重复。
从上述技术方案可知,本发明实施例提供的知识地图生成方法首先获取同一类别中每条热门知识的关键词,然后计算每个关键词的关联关系,这样就可以基于每个关键词的关联关系,来获取作为知识地图的中心节点的关键词以及知识地图中各个节点的层级关系,进而可以以中心节点为基准,依据知识地图中各个节点的层级关系生成知识地图。在本发明中上述关联关系用于指示关键词与处于同一类别的关键词之间具有特定关系,进而可以指示不同热门知识之间具有特定关系,也就是说本发明的知识地图基于不同热门知识之间的特定关系来得到,相对于任意两个词汇可能包含有无意义词以及不符合语法要求的词汇得到的知识地图,其准确度得到提高。并且本发明无需计算任意两个关键词的共现度,从而降低计算复杂度。
请参阅图5,其示出了本发明实施例提供的知识地图生成方法的另一种流程图,在图1基础上,还可以包括以下步骤:
106:获取知识地图中第i级节点的关键词,i为大于等于1的整数,且i小于等于N,N为知识地图中层级数。
107:如果在关键词关联列表中查找到与第i级节点的关键词对应的第i+1级节点的关键词,则将第i+1级节点的关键词的关联知识列表合并到第i级节点的关键词的关联知识列表中,第i+1级节点为第i级节点的下一级节点。
其中关键词关联列表是在知识地图中作为各个节点的关键词的列表,且该关键词关联列表中记录有作为各个节点的关键词的关联关系,即通过所述关键词关联列表即可得到知识地图的层级关系。并且在本发明实施例中每级节点的关键词的关联知识列表可以通过上述倒排索引得到,因为倒排索引中记录有关键词和热门知识的对应关系,所以可以基于每级节点的关键词在倒排索引中查找各自对应的热门知识,来构成各自的关联知识列表。
108:去除第i+1级节点的关键词的关联知识列表和第i级节点的关键词的关联知识列表中的相同知识,得到第i级节点的关联知识列表,以便于用户通过每级节点的关联知识列表查看到更多的相关知识。
109:如果在关键词关联列表中未查找到与第i级节点的关键词对应的第i+1级节点的关键词,则将第i级节点的关键词的关联知识列表按照点击量进行排序,排序后的关联知识列表为第i级节点的关联知识列表。
如果在关键词关联列表中未查找到与第i级节点的关键词对应的第i+1级节点的关键词,则说明第i级节点为知识路径的最后一级节点,此时可以将自身关联知识列表按照点击量排序,排序后的关联知识列表作为自身的关联知识列表。
此外,当用户手动输入一个关键词时,本发明实施例提供的知识地图生成方法将输入的关键词与倒排索引中的关键词进行比对,在输入的关键词存在于倒排索引的情况下,进一步基于本发明实施例提供的知识地图生成方法得到以输入的关键词为中心节点的知识地图;若在倒排索引中未查找到输入的关键词,则对输入的关键词按照上述预设词组长度进行分词,然后在确定分词后的关键词存在于倒排索引的情况下,基于本发明实施例提供的知识地图生成方法得到以分词后的关键词为中心节点的知识地图。以输入的关键词为“信用卡”为例,其得到的知识地图如图6所示。
在本发明实施例中,图4和图6所示的知识地图中每个节点以关键词来标识,且每个关键词中的数字指示关键词的关联得分。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
与上述方法实施例相对应,本发明实施例还提供一种知识地图生成装置,其结构示意图如图7所示,可以包括:获取单元11、计算单元12、中心节点确定单元13、关系确定单元14和生成单元15。
获取单元11,用于获取同一类别中每条热门知识的关键词,其中类别是通过对知识列表进行聚类划分后得到,且知识列表中存储有热门知识。也就是说,在本发明实施例中,知识列表中包括不同类别中已有的多条热门知识,且其包括的多条热门知识也是本发明实施例中需要构建知识地图的热门知识,这样对于知识列表中的各条热门知识通过聚类算法即可以对多条热门知识进行聚类划分,得到每条热门知识对应的类别,具体如何通过聚类算法得到每条热门知识对应的类别可以参阅方法实施例中的相关说明。
计算单元12,用于计算每个关键词的关联关系,其中关联关系用于指示关键词与处于同一类别的关键词之间具有特定关系,以指示不同热门知识之间具有特定关系。
在本发明实施例中,关键词的关联关系是通过选取属于同一类别的热门知识,计算关键词之间的语义关系得到,而同一类别的热门知识在内容上是紧密相连的,这样使得基于关键词之间的语义关系来计算关键词的关联关系是可行的,其中计算单元12的可选结构如图8所示,可以包括:获取子单元121、第一确定子单元122、第二确定子单元123、第三确定子单元124和第四确定子单元125。
获取子单元121,用于获取同一条热门知识的同一句话中的至少两个关键词。
第一确定子单元122,用于如果同一条热门知识的同一句话中至少两个关键词相连,且在预设关键词集合中查找到相连的至少两个关键词,则相连的至少两个关键词具有强关联关系。
第二确定子单元123,用于如果具有强关联关系的两个关键词中的第一关键词与其他具有强关联关系的两个关键词中的第二关键词相同,则具有强关联关系的两个关键词和其他具有强关联关系的两个关键词中的三个关键词具有推导关联关系。
第三确定子单元124,用于如果同一条热门知识的同一句话中的至少两个关键词不相连,则不相连的至少两个关键词具有弱关联关系。
第四确定子单元125,用于将每条热门知识的关键词按照预设词组长度进行分词,若分词后得到的关键词和分词前的关键词均在预设关键词集合中查找到,则分词后得到的关键词和分词前的关键词具有包含关联关系。
在本发明实施例中,上述计算单元12中各个子单元的具体执行过程可以参阅方法实施例中的相关说明,对此本发明实施例不再详述。
中心节点确定单元13,用于基于每个关键词的关联关系,获取作为知识地图的中心节点的关键词。其中作为知识地图的中心节点的关键词可以是与众多关键词具有关联关系,且关联关系的强度最大的关键词,在本发明实施例中,可以以关键词的关联得分作为从众多关键词中选取作为中心节点的关键词的依据,相应的,中心节点确定单元13可以包括:计算子单元、选取子单元和节点确定子单元。
计算子单元,用于基于每个关键词的关联关系和预设关系权重,计算每个关键词的关联得分。
选取子单元,用于基于每个关键词的关联得分,从所有关键词中选取关联得分最高的关键词。
节点确定子单元,用于当关联得分最高的关键词的关联得分大于预设关联得分时,关联得分最高的关键词为知识地图的中心节点的关键词,以及用于当关联得分最高的关键词的关联得分小于等于预设关联得分时,选取点击率最高的关键词为知识地图的中心节点的关键词。
其中关键词的点击率为热门知识的点击率,当每条热门知识被点击查看时均会在上一次点击率的基础上加一得到热门知识的当前点击率,这样关键词的点击率则可以是其所在多条热门知识的当前点击率之和。并且上述预设关联得分可以根据实际应用进行设置,本发明实施例对预设关联得分的具体取值不进行限定。而知识地图的中心节点指的则是知识地图的根节点,从根节点延伸连接众多的子节点形成知识地图中的多条知识路径。
在本发明实施例中,预设关系权重指示关键词在知识地图中的重要性,其设置方式基于弱关联关系、强关联关系、推导关联关系和包含关联关系而定,具体设置方式请参阅方法实施例中的相关说明。
关系确定单元14,用于基于每个关键词的关联关系,获取知识地图中各个节点的层级关系。其中各个节点的层级关系指的是:中心节点(根节点)与第1级节点(与根节点直接相连的第1层子节点)的层级关系,以及第j级节点(与第j-1层子节点相连的第j层子节点)与第j+1级节点(与第j层子节点相连的第j+1层子节点)的层级关系,j为大于等于2的整数,且j小于等于N,N为知识地图中层级数。
在本发明实施例中,关系确定单元包括:第一关系确定子单元和第二关系确定子单元。
第一关系确定子单元,用于当作为知识地图的中心节点的关键词的关联关系指示与相连的至少一个关键词具有强关联关系,则将作为知识地图的中心节点的关键词的强关联关系作为知识地图中至少一条知识路径中其他节点与中心节点的层级关系,其中知识路径的层级关系为作为知识地图的中心节点的关键词与相连的一个关键词之间的强关联关系,且每条知识路径基于的强关联关系不同。
第二关系确定子单元,用于对于知识地图中其他知识路径,基于作为中心节点的关键词的关联关系与其他关键词的关联得分确定其他知识路径中其他节点与中心节点的层级关系,且其他知识路径的层级关系中不包括以知识地图的中心节点的关键词的强关联关系得到的层级关系。
生成单元15,用于以中心节点为基准,依据知识地图中各个节点的层级关系生成知识地图。
从上述技术方案可知,本发明实施例提供的知识地图生成方法首先获取同一类别中每条热门知识的关键词,然后计算每个关键词的关联关系,这样就可以基于每个关键词的关联关系,来获取作为知识地图的中心节点的关键词以及知识地图中各个节点的层级关系,进而可以以中心节点为基准,依据知识地图中各个节点的层级关系生成知识地图。在本发明中上述关联关系用于指示关键词与处于同一类别的关键词之间具有特定关系,进而可以指示不同热门知识之间具有特定关系,也就是说本发明的知识地图基于不同热门知识之间的特定关系来得到,相对于任意两个词汇可能包含有无意义词以及不符合语法要求的词汇得到的知识地图,其准确度得到提高。并且本发明无需计算任意两个关键词的共现度,从而降低计算复杂度。
请参阅图9,其示出了本发明实施例提供的知识地图生成装置的另一种结构示意图,在图7基础上,还可以包括:关键词获取单元16、第一知识列表获取单元17、去重单元18和第二知识列表获取单元19。
关键词获取单元16,用于获取知识地图中第i级节点的关键词,i为大于等于1的整数,且i小于等于N,N为知识地图中层级数。
第一知识列表获取单元17,用于如果在关键词关联列表中查找到与第i级节点的关键词对应的第i+1级节点的关键词,则将第i+1级节点的关键词的关联知识列表合并到第i级节点的关键词的关联知识列表中,第i+1级节点为第i级节点的下一级节点。
去重单元18,用于去除第i+1级节点的关键词的关联知识列表和第i级节点的关键词的关联知识列表中的相同知识,得到第i级节点的关联知识列表。
第二知识列表获取单元19,用于如果在关键词关联列表中未查找到与第i级节点的关键词对应的第i+1级节点的关键词,则将第i级节点的关键词的关联知识列表按照点击量进行排序,排序后的关联知识列表为第i级节点的关联知识列表。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种知识地图生成方法,其特征在于,所述方法包括:
获取同一类别中每条热门知识的关键词,其中所述类别是通过对知识列表进行聚类划分后得到,且所述知识列表中存储有所述热门知识;
计算每个所述关键词的关联关系,其中所述关联关系用于指示所述关键词与处于同一类别的关键词之间具有特定关系,以指示不同热门知识之间具有特定关系;
基于每个所述关键词的关联关系,获取作为所述知识地图的中心节点的关键词;
基于每个所述关键词的关联关系,获取所述知识地图中各个节点的层级关系;
以所述中心节点为基准,依据所述知识地图中各个节点的层级关系生成所述知识地图。
2.根据权利要求1所述的方法,其特征在于,所述计算每个所述关键词的关联关系,包括:
获取同一条热门知识的同一句话中的至少两个关键词;
如果所述同一条热门知识的同一句话中至少两个关键词相连,且在预设关键词集合中查找到相连的至少两个关键词,则所述相连的至少两个关键词具有强关联关系;
如果具有强关联关系的两个关键词中的第一关键词与其他具有强关联关系的两个关键词中的第二关键词相同,则具有强关联关系的两个关键词和其他具有强关联关系的两个关键词中的三个关键词具有推导关联关系;
如果所述同一条热门知识的同一句话中的至少两个关键词不相连,则不相连的至少两个关键词具有弱关联关系;
将每条热门知识的关键词按照预设词组长度进行分词,若分词后得到的关键词和分词前的关键词均在所述预设关键词集合中查找到,则分词后得到的关键词和分词前的关键词具有包含关联关系。
3.根据权利要求2所述的方法,其特征在于,所述基于每个所述关键词的关联关系,获取作为所述知识地图的中心节点的关键词,包括:
基于每个所述关键词的关联关系和预设关系权重,计算每个所述关键词的关联得分;
基于每个所述关键词的关联得分,从所有关键词中选取关联得分最高的关键词;
当所述关联得分最高的关键词的关联得分大于预设关联得分时,所述关联得分最高的关键词为所述知识地图的中心节点的关键词;
当所述关联得分最高的关键词的关联得分小于等于所述预设关联得分时,选取点击率最高的关键词为所述知识地图的中心节点的关键词。
4.根据权利要求3所述的方法,其特征在于,基于每个所述关键词的关联关系,获取所述知识地图中各个节点的层级关系,包括:
当所述作为知识地图的中心节点的关键词的关联关系指示与相连的至少一个关键词具有强关联关系,则将所述作为知识地图的中心节点的关键词的强关联关系作为所述知识地图中至少一条知识路径中其他节点与所述中心节点的层级关系,其中所述知识路径的层级关系为所述作为知识地图的中心节点的关键词与相连的一个关键词之间的强关联关系,且每条所述知识路径基于的强关联关系不同;
对于所述知识地图中其他知识路径,基于作为中心节点的关键词的关联关系与其他关键词的关联得分确定所述其他知识路径中其他节点与所述中心节点的层级关系,且所述其他知识路径的层级关系中不包括以所述知识地图的中心节点的关键词的强关联关系得到的层级关系。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述知识地图中第i级节点的关键词,i为大于等于1的整数,且i小于等于N,N为知识地图中层级数;
如果在关键词关联列表中查找到与所述第i级节点的关键词对应的第i+1级节点的关键词,则将所述第i+1级节点的关键词的关联知识列表合并到所述第i级节点的关键词的关联知识列表中,所述第i+1级节点为所述第i级节点的下一级节点;
去除所述第i+1级节点的关键词的关联知识列表和第i级节点的关键词的关联知识列表中的相同知识,得到第i级节点的关联知识列表;
如果在关键词关联列表中未查找到与所述第i级节点的关键词对应的第i+1级节点的关键词,则将所述第i级节点的关键词的关联知识列表按照点击量进行排序,排序后的关联知识列表为所述第i级节点的关联知识列表。
6.一种知识地图生成装置,其特征在于,所述装置包括:
获取单元,用于获取同一类别中每条热门知识的关键词,其中所述类别是通过对知识列表进行聚类划分后得到,且所述知识列表中存储有所述热门知识;
计算单元,用于计算每个所述关键词的关联关系,其中所述关联关系用于指示所述关键词与处于同一类别的关键词之间具有特定关系,以指示不同热门知识之间具有特定关系;
中心节点确定单元,用于基于每个所述关键词的关联关系,获取作为所述知识地图的中心节点的关键词;
关系确定单元,用于基于每个所述关键词的关联关系,获取所述知识地图中各个节点的层级关系;
生成单元,用于以所述中心节点为基准,依据所述知识地图中各个节点的层级关系生成所述知识地图。
7.根据权利要求6所述的装置,其特征在于,所述计算单元包括:
获取子单元,用于获取同一条热门知识的同一句话中的至少两个关键词;
第一确定子单元,用于如果所述同一条热门知识的同一句话中至少两个关键词相连,且在预设关键词集合中查找到相连的至少两个关键词,则所述相连的至少两个关键词具有强关联关系;
第二确定子单元,用于如果具有强关联关系的两个关键词中的第一关键词与其他具有强关联关系的两个关键词中的第二关键词相同,则具有强关联关系的两个关键词和其他具有强关联关系的两个关键词中的三个关键词具有推导关联关系;
第三确定子单元,用于如果所述同一条热门知识的同一句话中的至少两个关键词不相连,则不相连的至少两个关键词具有弱关联关系;
第四确定子单元,用于将每条热门知识的关键词按照预设词组长度进行分词,若分词后得到的关键词和分词前的关键词均在所述预设关键词集合中查找到,则分词后得到的关键词和分词前的关键词具有包含关联关系。
8.根据权利要求7所述的装置,其特征在于,所述中心节点确定单元包括:
计算子单元,用于基于每个所述关键词的关联关系和预设关系权重,计算每个所述关键词的关联得分;
选取子单元,用于基于每个所述关键词的关联得分,从所有关键词中选取关联得分最高的关键词;
节点确定子单元,用于当所述关联得分最高的关键词的关联得分大于预设关联得分时,所述关联得分最高的关键词为所述知识地图的中心节点的关键词,以及用于当所述关联得分最高的关键词的关联得分小于等于所述预设关联得分时,选取点击率最高的关键词为所述知识地图的中心节点的关键词。
9.根据权利要求8所述的装置,其特征在于,关系确定单元包括:
第一关系确定子单元,用于当所述作为知识地图的中心节点的关键词的关联关系指示与相连的至少一个关键词具有强关联关系,则将所述作为知识地图的中心节点的关键词的强关联关系作为所述知识地图中至少一条知识路径中其他节点与所述中心节点的层级关系,其中所述知识路径的层级关系为所述作为知识地图的中心节点的关键词与相连的一个关键词之间的强关联关系,且每条所述知识路径基于的强关联关系不同;
第二关系确定子单元,用于对于所述知识地图中其他知识路径,基于作为中心节点的关键词的关联关系与其他关键词的关联得分确定所述其他知识路径中其他节点与所述中心节点的层级关系,且所述其他知识路径的层级关系中不包括以所述知识地图的中心节点的关键词的强关联关系得到的层级关系。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
关键词获取单元,用于获取所述知识地图中第i级节点的关键词,i为大于等于1的整数,且i小于等于N,N为知识地图中层级数;
第一知识列表获取单元,用于如果在关键词关联列表中查找到与所述第i级节点的关键词对应的第i+1级节点的关键词,则将所述第i+1级节点的关键词的关联知识列表合并到所述第i级节点的关键词的关联知识列表中,所述第i+1级节点为所述第i级节点的下一级节点;
去重单元,用于去除所述第i+1级节点的关键词的关联知识列表和第i级节点的关键词的关联知识列表中的相同知识,得到第i级节点的关联知识列表;
第二知识列表获取单元,用于如果在关键词关联列表中未查找到与所述第i级节点的关键词对应的第i+1级节点的关键词,则将所述第i级节点的关键词的关联知识列表按照点击量进行排序,排序后的关联知识列表为所述第i级节点的关联知识列表。
CN201510771801.2A 2015-11-12 2015-11-12 一种知识地图生成方法及装置 Pending CN105447104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510771801.2A CN105447104A (zh) 2015-11-12 2015-11-12 一种知识地图生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510771801.2A CN105447104A (zh) 2015-11-12 2015-11-12 一种知识地图生成方法及装置

Publications (1)

Publication Number Publication Date
CN105447104A true CN105447104A (zh) 2016-03-30

Family

ID=55557282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510771801.2A Pending CN105447104A (zh) 2015-11-12 2015-11-12 一种知识地图生成方法及装置

Country Status (1)

Country Link
CN (1) CN105447104A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN108319667A (zh) * 2018-01-22 2018-07-24 上海星合网络科技有限公司 多维的知识体系展示方法和装置
CN109189959A (zh) * 2018-09-06 2019-01-11 腾讯科技(深圳)有限公司 一种构建图像数据库的方法及装置
CN109272378A (zh) * 2018-08-23 2019-01-25 阿里巴巴集团控股有限公司 一种风险群组的发现方法和装置
CN109446337A (zh) * 2018-09-19 2019-03-08 中国信息通信研究院 一种知识图谱构建方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130031049A1 (en) * 2011-07-27 2013-01-31 KOUSOKUYA, Inc. Map difference data generation apparatus and map difference data generation method
CN103106232A (zh) * 2011-10-11 2013-05-15 铭传大学 制作知识地图的方法
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
CN103744846A (zh) * 2013-08-13 2014-04-23 北京航空航天大学 一种多维度动态局部知识地图及其构建方法
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
US20140372447A1 (en) * 2013-06-12 2014-12-18 Electronics And Telecommunications Research Institute Knowledge index system and method of providing knowledge index
CN104484339A (zh) * 2014-11-21 2015-04-01 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130031049A1 (en) * 2011-07-27 2013-01-31 KOUSOKUYA, Inc. Map difference data generation apparatus and map difference data generation method
CN103106232A (zh) * 2011-10-11 2013-05-15 铭传大学 制作知识地图的方法
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
US20140372447A1 (en) * 2013-06-12 2014-12-18 Electronics And Telecommunications Research Institute Knowledge index system and method of providing knowledge index
CN103744846A (zh) * 2013-08-13 2014-04-23 北京航空航天大学 一种多维度动态局部知识地图及其构建方法
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN104484339A (zh) * 2014-11-21 2015-04-01 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN106874695B (zh) * 2017-03-22 2019-10-25 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN108319667A (zh) * 2018-01-22 2018-07-24 上海星合网络科技有限公司 多维的知识体系展示方法和装置
CN108319667B (zh) * 2018-01-22 2021-03-05 上海星合网络科技有限公司 多维的知识体系展示方法和装置
CN109272378A (zh) * 2018-08-23 2019-01-25 阿里巴巴集团控股有限公司 一种风险群组的发现方法和装置
CN109189959A (zh) * 2018-09-06 2019-01-11 腾讯科技(深圳)有限公司 一种构建图像数据库的方法及装置
CN109189959B (zh) * 2018-09-06 2020-11-10 腾讯科技(深圳)有限公司 一种构建图像数据库的方法及装置
CN109446337A (zh) * 2018-09-19 2019-03-08 中国信息通信研究院 一种知识图谱构建方法和装置
CN109446337B (zh) * 2018-09-19 2020-10-13 中国信息通信研究院 一种知识图谱构建方法和装置

Similar Documents

Publication Publication Date Title
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
KR101173561B1 (ko) 질문 형태 및 도메인 인식 장치 및 그 방법
CN101630314B (zh) 一种基于领域知识的语义查询扩展方法
CN107153713A (zh) 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN107578292B (zh) 一种用户画像构建系统
CN103914548B (zh) 信息搜索方法和装置
CN106777274A (zh) 一种中文旅游领域知识图谱构建方法及系统
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN105447104A (zh) 一种知识地图生成方法及装置
CN106970910A (zh) 一种基于图模型的关键词提取方法及装置
CN105608218A (zh) 智能问答知识库的建立方法、建立装置及建立系统
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN104239513A (zh) 一种面向领域数据的语义检索方法
CN106446162A (zh) 一种面向领域的本体知识库文本检索方法
CN106776564A (zh) 一种基于知识图谱的语义识别方法及系统
CN109871543A (zh) 一种意图获取方法及系统
CN101261629A (zh) 基于自动分类技术的特定信息搜索方法
CN105787097A (zh) 一种基于文本聚类的分布式索引构建方法及系统
CN104657361A (zh) 一种数据处理方法及装置
CN114997288B (zh) 一种设计资源关联方法
CN103294820B (zh) 基于语义扩展的web页面归类方法和系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160330

RJ01 Rejection of invention patent application after publication