背景技术
科学研究活动立足于对已有知识的搜集、整理和积累,着眼于对未知世界的探索和钻研。知识的创造、传播和使用在推动科学和经济发展方面的作用越来越突出,21世纪已经逐步跨入知识经济阶段。具体表现为:一方面,科学技术知识在不断地增加和深化,知识的广度和深度都达到了一个前所未及的程度;另一方面,随着社会化分工和专业化程度的提高,经验知识,即隐性知识,也在不断地发展,并有着借助高级知识管理工具显性化的趋势。知识不仅是一种资源,从更广泛的含义上来说也是一种生产要素和资本,因此知识管理已经成为一门专门的学科加以研究。
知识创新源于知识积累,它们是创新和继承的关系。对于一个学科、一个专业、一个岗位,都存在大量的已有知识。只有迅速掌握这些已有知识,在头脑中建立该学科、该专业、该岗位的知识框架,才能够在已有知识基础上进行知识检索、知识关联和知识创新。特别是对于初学者,是否能够快速掌握知识框架直接关系到知识创新的效率和结果。
学科知识框架是以学科知识为对象,显示科学研究的发展进程与结构关系的一种层次化、序列化、图形化的分类体系,反映了知识元或知识群之间网络、结构、互动、交叉、演化或衍生等诸多复杂的关系。人们可以依靠学科知识框架,透视学科知识体系中各个领域的结构,构造复杂知识网络,预测学科技术前沿的发展趋势等。
在传统研究中,研究者为了了解一个学科领域发展的整体状况,必须查阅该领域的几乎所有文献。这个工作既费时又困难,并且由于受到研究者自身主观判断影响,每个人在文献查阅之后所获得的结论都是不同的。此外,随着时间的推移和信息量的增长,新的科学文献不断产生,学科知识框架也在不断地动态调整,研究领域的衍生和融合持续发生,想了解学科领域发展的整体状况这一目标变得越来越难实现。因此需要有一种客观、科学、高效的新方法来构建学科知识框架的结构。不可否认,个人和组织是知识系统中的活动主体,但是,知识工具在知识管理中也起到了重要的辅助与支撑作用。计算机的高速处理能力加快了人们获取和处理知识的速度和深度,大容量的存储和方便的检索使得人们能够积累数量巨大、种类多样的知识,网络化消除了空间限制,知识来源更加丰富。
共现分析是将各种信息载体中的共现信息定量化的分析方法,这种方法基于一种假设,即两个词之间的关联强度可以用同时感知到两词的相对频率来衡量。在这种假设下,就可以利用共现分析研究词汇之间的关联度,挖掘词汇之间的语义关系。根据共现分析对象的不同,还可分为引文共现分析和关键词共现分析。其中引文共现是指两篇文献同时被别的文献引用,可以提供分析对象之间由引文关系形成的相对位置信息和相互关系的亲疏程度;关键词共现是指两篇(或多篇)科学文献中存在一个(或多个)相同的关键词,主要用于从内容上了解文献之间的内在联系和相应作者及研究机构在研究方向上的类同及相关程度。在计算机技术的辅助下,共现分析以其方法的简明性和分析结果的可靠性,成为支撑信息内容分析研究过程的重要手段和工具。
然而,在当前诸多基于共现分析的应用中,均没有考虑时间因素,即在分析过程中忽略了研究对象间的继承和发展关系,而这种关系对于研究者了解学科领域发展整体状况是非常有价值的。对于一个专业领域而言,学科知识框架至少应该包含该学科的研究主题关联和发展脉络两个因素,其中研究主题关联通过论文中的关键词共现关系体现,而发展脉络则可以通过年代来划分层级,由此形成可视化的学科知识谱系,可以为使用者的知识创新提供更多的辅助参考。
通常来说,专业领域的使用者在进行知识检索时,首先需要先确定明确的检索关键词。由于现有的检索系统尚不能支持基于语义的查询,因此只能根据使用者输入的检索关键词进行基于布尔逻辑的匹配查询。如果使用者输入的检索关键词过泛或过窄,就很可能会出现检索结果过多或过少的情况。一旦出现这种情况,则需要使用者自行调整检索关键词,重新检索。很多专业领域的初学者由于不了解该专业领域的知识体系,在调整检索关键词时缺乏参考和指导,往往会造成知识检索的效果不佳。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是在海量文献信息中抽取出有价值的知识点,并按照时间顺序建立谱系关系进行可视化展示,从而快速、科学地协助使用者了解这些文献中所包含的研究主题和发展脉络关系,使背景知识前景化,解决使用者,特别是专业领域的初学者由于缺乏专业背景知识而造成的检索效果不佳的问题。
(二)技术方案
本发明的提出的一种知识谱系的可视化方法,用于对目标知识点的知识谱系进行可视化显示,具体包括如下步骤:
抽取文献数据中的信息,形成至少包括文献的来源信息、公开时间和知识点的多个第一数据表;
统计多个第一数据表中每个知识点最早出现的文献的公开时间,然后将每个知识点划分到一个年代当中,形成至少包括知识点、知识点的首次公开时间和年代信息的第二数据表;
统计多个第一数据表中每个知识点的出现次数,形成至少包括知识点和知识点的出现次数的第三数据表;
统计多个第一数据表中所有知识点两两组合之间的共现关系,形成至少包括两个知识点和该两个知识点之间的共现次数的第四数据表;
在第四数据表中查找与目标知识点有共现关系的所有知识点,并在第二数据表中依次查找这些知识点和目标知识点的年代,根据其与目标知识点所在年代的差异确定知识点之间的谱系关系,再在第三数据表中依次查找共现知识点的出现次数,形成至少包括目标知识点、与目标知识点有共现关系的共现知识点、共现次数、共现知识点的出现次数、目标知识点和共现知识点的年代差的第五数据表;
绘制时间坐标轴,其坐标刻度按照年代顺序排列,将目标知识点置于所处年代的中心位置,将共现知识点根据其与目标知识点之间的谱系关系归入相应年代层级,再根据第五数据表中的共现知识点出现次数为其标注不同颜色,形成知识谱系图。
(三)有益效果
(1)现有的检索系统对使用者有着较高的要求,特别是在选择搜索关键词时,需要使用者具有足够的专业知识才能够获得准确、全面的检索结果。然而这对于刚刚接触某个科研领域的科研人员和学生来说是十分困难的,他们往往由于缺乏充实的背景知识而导致检索效果不佳。本发明所提供的知识谱系的可视化方法,通过在数据预处理阶段抽取知识点的时间属性,并按照时间顺序建立谱系关系,从而为知识检索提供了一种新的辅助方法,有助于使用者把握技术发展趋势,不断完善检索策略,获得更加全面的检索结果。
(2)现有的文献检索系统通常都是以一个关键词、一个作者或一个机构为入口进行检索,这种由点及面的调研方式对于海量的文献信息来讲,难以保证文献调研活动在有限的时间内获得最有价值的信息。本发明所提出的知识谱系的可视化方法一方面利用知识共现关系为使用者提供更多的检索参考,另一方面还通过对知识点的年代划分梳理出共现知识点之间的继承、发展和演变关系,并以知识谱系图的形式进行可视化展示,从而提供与目标知识点相关的知识网络的全部信息,这将为初学者提供非常有价值的检索参考,从而启发专业技术领域的知识发现。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的知识谱系的可视化方法,分为数据预处理和知识谱系的可视化两个阶段。其原理是:
在数据预处理阶段,首先抽取文献数据中的知识点及时间属性,然后按照时间切片方法对抽取出的知识点进行年代划分,最后统计知识点的出现次数和知识点之间的共现次数;
在知识谱系的可视化阶段,首先根据与目标知识点有共现关系的所有知识点所在的年代确定其与目标知识点之间的谱系关系,然后在时间轴上按照所在年代进行排列,从而可视化展示知识点之间的发展脉络的谱系关系。
图1为本发明提供的知识谱系的可视化方法的一个具体实施例的流程图。如图1所示,本发明的知识谱系的可视化方法包括以下步骤:
步骤101,文献信息的抽取:对文献数据中的知识点进行抽取,同时抽取文献数据的时间属性。
所述的文献数据一般来自于专业领域内的文献资料,其通常以文献数据库的形式存在。对于一条具体的文献资料,通常包括文献编号、文献来源、标题、作者、作者机构、摘要、关键词、公开时间、正文、参考文献等信息。在抽取文献信息时,通常可通过关系数据库的查询语句,对特定类型的文献信息内容进行提取,例如首先抽取多个文献资料的发表时间信息,然后再抽取多个文献资料的关键词信息,最后以文献编号为索引生成一个或多个数据表。
根据实际检索需要,在本发明中,所述的知识点指的是从专业领域的文献数据中抽取的文献属性信息,包括文献的关键词、标题、作者等属性信息,此外,例如作者机构、数字对象唯一标识符(Digital Object UniqueIdentifier,DOI)等也可作为知识点在一些特殊应用下被抽取。
对文献信息进行抽取后可以形成多个第一数据表,在每个第一数据表中至少包括某一文献的来源信息、公开时间和知识点。该第一数据表例如表示为<文献来源>、<文献公开时间>、<知识点1>、<知识点2>、……、<知识点N>。
步骤102,知识年代的划分:根据文献的公开时间将多个文献划分为两个或两个以上的年代,并统计多个第一数据表中每个知识点最早出现的文献的公开时间,然后将每个知识点划分到一个年代当中,形成至少包括某一知识点、该知识点的首次公开时间和年代信息的第二数据表,第二数据表例如表示为<知识点>、<首次公开时间>、<年代>。
年代划分的基本方式有两种,一是参考自然年代划分方法,比如以10年或者5年为一个时间段;二是利用专业领域中里程碑事件发生的时间进行划分。划分原则既要结合专业领域实际情况,也要兼顾到语料素材的分布情况,尽量让各个时间段内的文献数量均衡。
所述的统计方法可通过建立倒排索引并排序的方法实现,首先将每个第一数据表中的知识点与文献公开时间进行多对一的映射,成为<知识点>、<文献公开时间>数据组,然后将多个第一数据表多对一映射后的<知识点>、<文献公开时间>数据组汇总到一个临时数据表中,再次利用倒排索引法将临时数据表中的相同知识点所对应的文献公开时间进行排序,找到最早的文献公开时间作为该知识点的首次公开时间。
步骤103,知识热度分析:统计多个第一数据表中每个知识点的出现次数,形成至少包括某一知识点和该知识点的出现次数的第三数据表,第三数据表例如表示为<知识点>、<出现次数>。
以文献关键词为例进一步说明知识热度分析中需要考虑的问题。文献关键词通常表达出文献所涉及的研究对象、理论、方法、算法以及研究工具等,是该篇文献学术贡献的浓缩。由于文献中关键词总是和其它关键词共同出现,因此出现频率高的文献关键词往往具有更强或更多的共现网络,在专业领域的发展脉络中也占有更重要的地位。如果为了保证知识谱系的完整性,则可以在第三数据表中保留全部知识点,如果为了寻找和梳理专业领域的主要发展和继承脉络,则可以设定一个阈值,当知识点出现次数高于这个阈值时,才保留到第三数据表中,以降低处理不重要的文献关键词所带来的时间和存储消耗。
与步骤102类似,所述统计方法可通过建立倒排索引并汇总计数的方法实现,即在对多个第一数据表中的<知识点>、<文献公开时间>数据组汇总到一个临时数据表后,再对临时数据表中相同知识点所出现的次数进行汇总计数,以此计数结果作为该知识点的出现次数。
步骤104,知识共现分析:统计多个第一数据表中所有知识点两两组合之间的共现关系,形成至少包括两个知识点和该两个知识点之间的共现次数的第四数据表,第四数据表例如表示为<知识点A>、<知识点B>、<共现次数>。
所述统计方法可通过计算共现矩阵实现,即根据所有知识点的两两组合在同一篇文献中共同出现的次数,生成一个二维的知识点共现矩阵,共现矩阵行和列的数字代表分别代表知识点的编号。矩阵中对角线上的数字代表该知识点出现的总次数,非对角线上的数字表示两个知识点共同出现的次数。
步骤105,确定知识点的谱系关系:使用者输入目标知识点后,首先在第四数据表中查找与该目标知识点有共现关系的所有知识点,并在第二数据表中依次查找这些知识点和目标知识点的年代,根据其与目标知识点所在年代的差异确定知识点之间的谱系关系,再在第三数据表中依次查找共现知识点的出现次数,形成至少包括目标知识点、与目标知识点有共现关系的共现知识点、共现次数、共现知识点的出现次数、目标知识点和共现知识点的年代差的第五数据表,第五数据表例如表示为<目标知识点>、<共现知识点>、<共现次数>、<共现知识点出现次数>、<目标知识点与共现知识点年代差>的第五数据表。
该步骤的核心就是确定与目标知识点有共现关系的全部知识点所在的年代,以及这些知识点出现的次数,为下一步绘制谱系图做准备。假如某个知识点与目标知识点处于相同的知识年代,则可认为他们是在同一时期并行出现的,二者属于兄弟节点;如果一个知识点处于目标知识点前一个知识年代,可以认为这个知识点对目标知识点的产生起到了重要的促进作用,因此它属于目标知识点的父节点;同理,处于目标知识点后一个知识年代的全部贡献知识点,可认为目标知识点对其产生起到了重要的促进作用,它属于目标知识点的子节点。由此类推,还可以定义目标知识点的爷节点、孙节点等,进而建立起目标关键词完整的谱系关系。
步骤106,谱系可视展示:绘制时间坐标轴,其坐标刻度按照年代顺序排列,将目标知识点置于所处年代的中心位置,将共现知识点根据其与目标知识点之间的谱系关系归入相应年代层级,再根据多个第五数据表中的共现知识点出现次数的多少为其标注不同颜色,形成知识谱系图。
对于每个年代,还可以按如下规则对知识点进行与目标知识点的关联强度排序。首先,按照与目标知识点共现次数的高低排序,共现次数最高的知识点置于中间,其它知识点依次置于两边;其次,如果两个知识点与目标知识点共现次数相同,则共现知识点出现次数高的知识点排在前面。这样,知识谱系图将与目标知识点相关联的知识点按照产生年代进行层级划分,每个层级上的知识点又根据与目标知识点的关联强度,由中心到两端排列。同时根据知识点出现次数的多少赋予不同颜色指示,在一张知识谱系图中,将能够同时可视化展现知识点年代、关联强度、热度等多个维度的信息,为使用者检索和知识理解带来便利。
以上描述了根据本发明的知识谱系的可视化方法的一个实施例,但本领域技术人员应当理解的是,上述实施例仅仅是一种示例,本发明也可以对上述实施例进行变换,从而以不同的实施方式实现本发明。
例如,在上述实施例的描述中,本发明的知识谱系的可视化方法所包括的步骤102、103、104是依次执行的,但是,本发明并不局限于此,步骤102、103、104也可以同步执行,或者按任意的次序执行。
图2和图3为利用本发明的知识谱系的可视化方法,分别以“制造执行系统”和“知识发现”为目标关键词建立的知识谱系图。在该知识谱系图中,上层表示出现年代较早的关键词,下层表示出现年代较晚的关键词,上下层之间按照年代顺序排序。与目标关键词“制造执行系统”或“知识发现”直接相连的上一层节点,称之为谱系中的父节点,其出现年代较目标关键词更早,是目标关键词所对应知识点的基础和来源;与目标关键词处于同一层的知识点,称为谱系中的兄弟节点,它们和目标关键词同一时代出现,并与目标关键词有着密切的关联关系,是知识检索中的重要参考;而与目标关键词直接相连的下一层节点,称之为谱系中的子节点,其出现年代较目标关键词更晚一些,是目标关键词所对应知识点的继承、应用和发展。同理,还可以定义更上层和更下层知识点的谱系关系。
以图2为例,制造执行系统的产生源自于早期人们对生产调度、过程控制系统的集成研究,同时计算机集成控制技术的发展带动了这一新的信息体系的进步。企业资源计划(ERP)和制造执行系统(MES)的概念同时出现,钢铁企业和流程工业成为最主要的应用对象。基于制造执行系统的特点和优势,使得人们可以对企业的业务流程进行重组和优化,实现车间级的综合自动化系统和网络化控制,进而建立面向服务的架构。在更近的年代中,制造执行系统还与射频识别这一新兴技术融合,成为新的研究热点。
图3同样可以说明谱系型知识检索方法的应用价值。在知识发现这一概念出现之前,研究者主要关注机器学习、专家系统等理论,依据聚类、分类等方法,知识发现是在上述理论和方法基础上的继承、融合和发展。与知识发现同一时期出现的其它知识点,包括数据挖掘、关联规则、数据仓库等都是实现知识发现的重要方法和工具。随着人们对这一领域的深入研究,频繁模式、案例推理、客户关系管理等概念相继出现,补充和丰富了知识发现这一方向的研究深度和广度。
图2和图3均以文献的关键词为知识点建立了知识谱系图,但是根据本发明,知识点也可以是文献的作者,作者机构等,当知识点是文献的作者,作者机构时,由本发明的方法建立的知识谱系图就能显示研究者及机构之间的合作谱系关系,例如师生关系、同行关系、机构关联度关系等。
本发明在知识点共现分析的基础上,进一步引入时间切片确定谱系关系,形成的可视化的知识谱系图,不仅可为使用者提供与输入的目标知识点具有共现关系的全部知识点列表作为调整参考,还可将这些知识点绘制为谱系关系图直观展现,方便使用者更好地理解与目标知识点相关的知识发展脉络。
以上对知识谱系图的分析符合实际情况,有效地将专业人员头脑中的隐形知识显性化。通过知识谱系图,使用者可以迅速了解目标知识点的知识主线和关联知识体系,对目标知识点的继承和发展建立起清晰的认识,同时了解最新的研究方向和研究热点,进一步结合个人的主观判断,辅助和启发使用者的知识创新。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。