CN107016068A

CN107016068A - 知识图谱构建方法及装置

Info

Publication number: CN107016068A
Application number: CN201710169810.3A
Authority: CN
Inventors: 易翔; 宁宇; 庞小斌
Original assignee: Shenzhen Qianhai Chifound Internet Nationwide Financial Services Inc
Current assignee: Shenzhen Qianhai Chifound Internet Nationwide Financial Services Inc
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2017-08-04

Abstract

本发明涉及一种知识图谱构建方法及装置，获取初始的知识图谱中位于同一层级的所有节点。之后在设定媒体群中分别获取设定时间段内各所述节点的舆情原始数据，其中，所述设定媒体群包括多个媒体，所述舆情原始数据能够反映所述节点的舆情。最后，根据所有所述节点的所述舆情原始数据评估各所述节点的价值。该知识图谱构建方法及装置没有采用人工干预的方式而是基于舆情来获取节点的舆情原始数据，进而根据舆情原始数据来判断所有节点的价值，并且由于媒体对新兴行业的所有特征具有特殊敏感性，从而使得基于舆情来判断节点价值的方案能够更有效识别出最有价值的节点。

Description

知识图谱构建方法及装置

技术领域

本发明涉及知识图谱技术领域，特别是涉及一种知识图谱构建方法及装置。

背景技术

随着信息技术的发展，中国约有上百家科技媒体，虽各科技媒体专注的领域和业务模式各不相同，但都站在科技前沿，为行业中的企业和各级投资者以及新兴科技的使用者随着提供最新资讯和新概念、新技术、新产业应用的权威诠释。在众多新兴科技行业的媒体数据中，存在着大量的实体和关系，要更有效地挖掘科技创新项目潜在价值、预警潜在投资风险，帮助一级市场金融投资行业的各项业务提升效率、发挥价值，很有必要将这些实体和关系建立连接，从“逻辑关系”的维度、深度整合行业的现有数据，突破传统的计算模式，用高度抽象的数据表达方式最大限度地还原真实世界，在大量的关联关系中挖掘数据的价值。知识图谱为解决上述问题提供了一个有效的技术途径，相比于传统的“关系型”数据库，建立知识图谱的图数据库更擅长建立复杂的关系网络，在关联查询的效率上比传统的方式有显著提高，基于图的存储在设计上也会非常灵活。

在知识图谱系统实现自动化自我学习与优化的过程中，存在着一个关键的问题，即在先验阶段通过人工干预的方式生成初级知识图谱的各节点之后，面对某些节点存在众多关联的子节点的情况(如图1所示)，如何通过价值分类区分低价值子节点、高价值子节点，以便于后续后台服务器针对不同价值权重的子节点形成优化的信息追踪方案，将有限的算力及存储资源集中在高价值节点，从而实现基于知识图谱的智能系统作用最大化，是人们比较关系的问题。

传统的知识图谱绘制方法，在确定知识图谱各节点要素方面，通常采用传统的知识百科固有模板，通过条件随机场模型的预测算法(CRF)对标准语料库进行学习及人工干预补充得到节点属性，另外，在确定节点权重价值时，一般通过某节点所有临近关联节点总数的导数来确定。然而，上述方法由于在确定知识图谱各节点要素阶段人工干预的不确定性(即受个体差异的影响，不同专业人员对节点价值的判断难以相同)，往往会对节点所有临近关联节点的总数产生较大影响，因此容易造成节点权重价值产生较大偏移的情况。

发明内容

基于此，有必要针对如何克服传统知识图谱绘制方法因人工干预的不确定性容易造成节点权重价值产生较大偏移的情况的问题，提供一种知识图谱构建方法及装置。

一种知识图谱构建方法，包括：

获取初始的知识图谱中位于同一层级的所有节点；

在设定媒体群中，分别获取设定时间段内各所述节点的舆情原始数据；其中，所述设定媒体群包括多个媒体；所述舆情原始数据能够反映所述节点的舆情；

根据所有所述节点的所述舆情原始数据评估各所述节点的价值。

在其中一个实施例中，所述舆情原始数据包括第一指标和第二指标；所述第一指标能够反映所述设定媒体群在所述设定时间段内发布的报道中出现过所述节点的情况；所述第二指标能够反映在所述设定时间段内出现过所述节点的所有所述媒体在网络上的被搜索情况。

在其中一个实施例中，所述第一指标包括从所述节点在所述设定时间段内首次出现在所述设定媒体群的时间到所述设定时间段结束时间之间的时长、从所述节点在所述设定时间段内最晚出现在所述设定媒体群的时间到所述设定时间段结束时间之间的时长、在所述设定时间段内包含所述节点的所有报道出现的总次数、及在所述设定时间段内包含所述节点的所有报道的总字数这些指标数据中的一种或两种以上。

在其中一个实施例中，定义各所述媒体的搜索指数加权数，为各自在设定搜索引擎的搜索指数除以所述设定媒体群中所有所述媒体的所述搜索指数之和得到的值；

并且，所述第二指标为将在所述设定时间段内出现过所述节点的所有所述媒体的所述搜索指数加权数累加后，除以所述设定时间段包含的天数得到的值。

在其中一个实施例中，根据所有所述节点的所述舆情原始数据评估各所述节点的价值的步骤包括：

根据所有所述舆情原始数据对所有所述节点进行聚类分析，得到设定数量个聚类；并且，各所述聚类中的所有所述节点的舆情原始数据的值最接近；

对各所述聚类的中心节点的所述舆情原始数据进行分析，得到各所述聚类的中心节点的价值评估结果；

将各所述聚类的中心节点的所述价值评估结果作为各自所在的所述聚类内包括的所有所述节点的价值评估结果。

在其中一个实施例中，所述舆情原始数据包括一个或两个以上指标数据；并且，根据所有所述舆情原始数据对所有所述节点进行聚类分析，得到设定数量个聚类的步骤包括：

利用所述舆情原始数据构建用来代表各所述节点的价值指标向量，并且所述价值指标向量中的各元素为各所述指标数据；

将所有所述价值指标向量作为聚类算法的输入量，并利用所述聚类算法对所有所述节点进行聚类分析，以得到设定数量个聚类。

在其中一个实施例中，对各所述聚类的中心节点的所述舆情原始数据进行分析，得到各所述聚类中心节点的价值评估结果的步骤包括：

将所有所述聚类的中心节点的同类所述指标数据按照价值从低到高的顺序进行排列；

在排序后的每一类指标数据中，将各所述指标数据分别乘以一个加权系数，并且价值低的所述指标数据乘以的所述加权系数的值小于价值高的所述指标数据乘以的所述加权系数的值；

计算各所述聚类的中心节点的所有所述指标数据的所述加权系数的和，并且所述和越大，认为所述和对应的所述聚类的中心节点的价值越高。

在其中一个实施例中，在根据所有所述节点的所述舆情原始数据评估各所述节点的价值的步骤之前，所述方法还包括：

对所有所述舆情原始数据进行数据清洗。

将所有所述舆情原始数据进行标准化处理。

一种知识图谱处理装置，包括：

初始图谱获取模块，用于获取初始的知识图谱中位于同一层级的所有节点；

舆情数据获取模块，用于在设定媒体群中，分别获取设定时间段内各所述节点的舆情原始数据；其中，所述设定媒体群包括多个媒体；所述舆情原始数据能够反映所述节点的舆情；

价值评估模块，用于根据所有所述节点的所述舆情原始数据评估各所述节点的价值。

上述知识图谱构建方法及装置具有的有益效果为：该知识图谱构建方法及装置中，获取初始的知识图谱中位于同一层级的所有节点后，在设定媒体群中分别获取设定时间段内各节点的舆情原始数据(即并没有采用人工干预的方式来获取各节点的属性)，之后根据所有舆情原始数据评估各节点的价值。因此，该知识图谱构建方法及装置没有采用人工干预的方式而是基于舆情来获取节点的舆情原始数据，进而根据舆情原始数据来判断所有节点的价值，并且由于媒体对新兴行业的所有特征具有特殊敏感性，从而使得基于舆情来判断节点价值的方案能够更有效识别出最有价值的节点，以方便后续后台服务器针对不同价值的节点形成优化的信息追踪方案，将有限的算力及存储资源集中在高价值节点上，进而能够帮助用户在了解新兴产业领域时，提高掌握行业主要特征，获取实体关联信息的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他实施例的附图。

图1为传统的知识图谱的示意图；

图2为一实施方式提供的知识图谱构建方法的流程图；

图3为用来执行图2所示实施方式的知识图谱构建方法的知识图谱构建系统的其中一种实施例的组成框图；

图4为图2所示实施方式提供的知识图谱构建方法的其中一种实施例的流程图；

图5为图2所示实施方式的知识图谱构建方法中步骤S500的其中一种实施例的流程图；

图6为图5所示实施例的知识图谱构建方法中步骤S510的其中一种具体流程图；

图7为图5所示实施例的知识图谱构建方法中步骤S520的其中一种具体流程图；

图8为利用图2所示实施方式提供的知识图谱构建方法得出的优化知识图谱的其中一种示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

针对上述传统知识图谱绘制方法的缺陷，本发明提供的知识图谱构建方法及装置，在获取初始的知识图谱后，能够根据舆情评估位于初始的知识图谱内任意层级的所有节点的价值,并通过数据分析与分类排序,识别出最有价值的节点，从而突出高价值节点的位置,同时淘汰掉价值较低的节点，可以提高用户在了解新兴产业领域时，掌握行业主要特征，获取实体关联信息的效率。接下来将具体介绍该知识图谱构建方法及装置的实现原理。

一实施方式提供了一种知识图谱构建方法，请参考图2，包括以下内容。

步骤S100.获取初始的知识图谱中位于同一层级的所有节点。

其中，初始的知识图谱是指还没有经过本发明实施方式提供的知识图谱构建方法进行优化的知识图谱。初始的知识图谱的构建过程例如为：根据百科网站(例如：学术百科、百度百科、互动百科等网站)的已有模板(或模型)抽取目标行业相关的实体(即词条)，映射成初始的知识图谱中的节点(知识图谱，即一个由许多节点和边组成的知识信息网络)。并且，将出现词条的页面(注：百科网站会为每个词条分配一个单独页面)上出现的其它参考词条(或相关词条)总数的倒数作为该节点的初始价值权重，词条间的超链接关系映射成网络边，进而构建出目标行业的初始的知识图谱。其中，知识图谱中的边在一定程度上代表着两个相连节点(词条)之间的价值关联或语义联系。节点表示物理世界的实体。知识图谱中的任一节点记为Node_i，j，i,j∈N，(i,j)为该节点在知识图谱中的位置。并且，该节点相应的下一层级的子节点定义成Node_i+1，j。

另外，在知识图谱中会包括多个具有隶属关系的层级，通常情况下，第一层级为概念词条，第二层级为基本属性，第三层级及之后的各层级包含的子节点逐渐增多。以图1为例，核心概念处于第一层级，节点1至节点6处于第二层级，其他的子节点位于第三层级。因此，步骤S100中的所指的同一层级的所有节点，是指具有并列关系的所有节点，例如图1中的所有子节点。需要说明的是，同一层级的所有节点还可以为初始的知识图谱中的第四层级、第五层级或其他层级中的所有节点，换言之，对于初始的知识图谱中任意层级的所有节点，都可以采用本实施方式提供的知识图谱构建方法进行优化。

可以理解的是，在其他实施方式的知识图谱构建方法中，步骤S100之前还可以包括上述构建初始的知识图谱过程的步骤。

步骤S200.在设定媒体群中，分别获取设定时间段内各节点的舆情原始数据。其中，设定媒体群包括多个媒体。舆情原始数据能够反映节点的舆情。

该步骤中，媒体例如为与目标行业相关的科技媒体，例如：中关村在线、IT之家、太平洋电脑网等科技媒体。进一步地，还可以根据科技媒体的搜索指数来选择设定媒体群，从而提高节点价值判断的准确度，例如可以将最近一年内位于百度搜索指数排名前20位的科技媒体作为设定媒体群。

设定时间段，例如可以为3年。定义设定时间段的开始时间为T_begin,结束时间为T_end，那么设定时间段的宽度T＝T_end-T_begin＝1095,即设定时间段为1095天，另外，若3年内存在闰年，设定时间段则为1096天。

舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。因此，舆情原始数据能够反映舆情，从而为后续对节点价值的判断过程提供基础、有效的判断依据。

该步骤换言之，对于各节点来说，都能根据设定媒体群在设定时间段内发布的报道，获取到各自的舆情原始数据(舆情原始数据例如包括：出现节点的报道发布的时间、出现过节点的所有报道的总数等)。并且，由于媒体具有对新兴行业特殊的敏感性、传播范围广、信息量庞大等特点，从而可以准确提取出能够反映各节点舆情的舆情原始数据，以保证后续对节点价值判断的精确性。

步骤S500.根据所有节点的舆情原始数据评估各节点的价值。

由于舆情原始数据能够反映出节点的舆情，因此可以对所有舆情原始数据进行分析，从而按照相关的规则对所有节点进行分类及排序，以评估出各节点的价值高低。

具体地，请参考图3提供的其中一个实施例提供的知识图谱构建系统，上述步骤S100和步骤S200可以由数据采集&传输接口210来执行。数据采集&传输接口210例如可以为计算机。数据源100用于提供在构建初始的知识图谱时需要抽取的目标行业相关的实体。并且，步骤S500可以由处理器220来执行。可以理解的是，在其他实施例中，上述步骤S100至步骤S500也可以都由同一个设备来执行。

因此，上述知识图谱构建方法无需参考词频来判断节点的价值，从而不会过度放大包含大量生僻词特征向量节点的重要性，并且也没有采用人工干预的方式来获取节点的属性，可以避免因人工经验的不确定性容易造成节点权重价值产生严重偏移的问题，而是基于舆情来判断所有节点的价值，并且由于媒体对新兴行业的所有特征具有的特殊敏感性，从而能够更深入、准确得表达知识图谱中各节点对于上一层级的节点的重要性，能够更有效识别出最有价值的节点，方便后续后台服务器针对不同价值的节点形成优化的信息追踪方案，将有限的算力及存储资源集中在高价值节点上，进而能够帮助用户在了解新兴产业领域时，提高掌握行业主要特征，获取实体关联信息的效率。

在其中一个实施例中，上述舆情原始数据包括第一指标和第二指标。其中，第一指标能够反映设定媒体群在设定时间段内发布的报道中出现过节点的情况。简而言之，第一指标能够反映节点的受关注度。另外，第二指标能够反映在设定时间段内出现过节点的所有媒体在网络上的被搜索情况。简而言之，第二指标能够反映记载过节点的媒体的受关注度。

具体地，第一指标包括从节点在设定时间段内首次出现在设定媒体群的时间到设定时间段结束时间之间的时长(简称为舆情长度，并记为L)、从节点在设定时间段内最后出现在设定媒体群的时间到设定时间段结束时间之间的时长(简称为最新报道时间间隔，记为I)、在设定时间段内包含节点的所有报道出现的总次数(简称为关联报道出现频率，并记为F)、及在设定时间段内包含节点的所有报道的总字数(简称为关联报道总长度，记为C)这些指标数据中的一种或两种以上。

其中，舆情长度和最新报道时间间隔都可以按照天数来计算。若设定时间段的开始时间为T_begin,结束时间为T_end，则舆情长度L＝T_end-T_first，其其中，T_first为节点在设定时间段内首次出现的时间。最新报道时间间隔I＝T_end-T_latest，其中T_latest为节点在设定时间段内最后(即最新)出现的时间。

具体地，关于第二指标的具体内容方面，首先定义各媒体的搜索指数加权数(记为Opt_m)，为各自在设定搜索引擎的搜索指数(记为Index_m)除以设定媒体群中所有媒体的搜索指数之和得到的值，即：Opt_m＝Index_m/∑Index_m，其中，m∈N即排名顺序。设定搜索引擎例如为百度。

在上述概念定义的前提下，第二指标的具体方式为：第二指标为将在设定时间段内出现过节点的所有媒体的搜索指数加权数累加后，除以设定时间段包含的天数得到的值(这时第二指标可以简称为日加权数平均值，记为W)。因此，第二指标能够反映与节点相关的媒体的受关注度。

可以理解的是，舆情原始数据不限于包括上述指标数据，只要能够反映节点的舆情即可。

基于第一指标和第二指标的上述具体实现原理，假设第一指标包括上述全部指标数据，即舆情原始数据共包括5个指标。这时，可以将这5个指标(即L、I、F、C、W指标)作为识别节点价值的指标，并记为LIFCW模型，如表1所示。另外，设置节点为Node_i+1，j，则所有节点的舆情原始数据如表2所示。

表1 LIFCW模型各指标的含义

表2节点舆情原始数据

由于初始的知识图谱一般为一个大型知识体系网络，所以LIFCW模型体系数据一般会相当庞大，若逐一进行信息跟踪，不仅浪费资源，而且效率也不会高。因此对节点进行价值分类，分辨出高价值节点与低价值节点，对实现知识图谱智能系统作用最大化，将有限的算力及存储资源集中在高价值节点尤为重要。接下来将介绍具体评估节点价值的实现方式。

在其中一个实施例中，在步骤S500之前，上述知识图谱构建方法还包括以下对舆情原始数据进行预处理的过程，请参考图4。

步骤S300.对所有舆情原始数据进行数据清洗。

其中，数据清洗是指对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。通过数据清洗，可以剔除掉缺失值和异常值。

缺失值，即在设定时间段内采集不到相应数据，说明在设定时间段内没有出现节点关联的报道。并且，对于缺失值，可以进行如下处理：由于当舆情原始数据为缺失值时，意味着最新报道时间间隔必然大于设定时间段的宽度T，因此可以将指标数据I定义为一个较大的数值，例如设置为一个相对设定时间段的宽度T较大的数值。并且，由于在设定时间段内没有关联报道，因此将其他指标数据F、L、C、W都直接定义成0。

异常值，例如指标数据L＝0或I＝0，这时代表节点首次和最新一次出现的时间都在设定时间段结束的时间。这时可以将L或I直接定义为1，从而便于后期运算。

另外，在对数据进行清洗后，还可以对所有清洗后的舆情原始数据进行数据规约处理。数据规约，是指在尽可能保持数据原貌的前提下，最大限度地精简数据量，从而提高后续价值判断的效率。

进一步地，在步骤S300和步骤S500之间，还可以包括以下步骤，请继续参考图4。

步骤S400.将所有舆情原始数据进行标准化处理。

其中，标准化处理是指将所有舆情原始数据包括的指标数据的值按比例缩放，使之落入一个小的特定区间，从而消除指标数据的取值范围差异大而对下一步的分析带来的影响。例如：可以利用Min-max标准化、z-score标准化等方法来进行标准化处理。

需要说明的是，上述步骤S300和步骤S400的执行方式不限于图4所示的一种方式，在其他实施例中，也可以只执行步骤S300，或者只执行步骤S400。

另外，请参考图3，处理器220具体可以包括依次连接的数据预处理模块221和建模&应用模块222。当数据采集&传输接口210执行步骤S100和步骤S200完毕之后，将获取的所有节点的舆情原始数据发送至数据预处理模块221。数据处理模块221则开始执行上述步骤S300和步骤S400或其他的数据预处理过程。当数据预处理模块221执行上述所有的数据预处理过程后，则将处理后的舆情原始数据发送至建模&应用模块222。建模&应用模块222则根据处理后的指标数据,对所有节点作聚类分群，进一步进行特征分析，获取各节点的价值，并对分群后的群体排序以区分重要性。接下来将介绍建模&应用模块222具体的执行方式。

在其中一个实施例中，步骤S500具体包括以下内容，请参考图5。

步骤S510.根据上述所有舆情原始数据对所有节点进行聚类分析，得到设定数量个聚类。并且，各聚类中的所有节点的舆情原始数据的值最接近。

其中，聚类分析指将所有节点分组为由类似的对象组成的多个类的分析过程。各聚类中的所有节点的舆情原始数据的值最接近，换言之，每一个聚类中的所有节点之间的相似程度最高。

具体地，在上述舆情原始数据包括一个或两个以上指标数据的前提下，步骤S510的具体实现方式包括以下内容，请参考图6。

步骤S511.利用上述舆情原始数据构建用来代表各节点的价值指标向量，并且该价值指标向量中的各元素为各指标数据。

若步骤S511之前，对舆情原始数据进行了标准化处理，且标准化处理后各节点的指标数据分别记为：和那么，定义为标准化处理后的任一节点，此时，则有

其中，为代表的价值指标向量，为代表节点的价值指标向量。该步骤中，定义价值指标向量，目的是为了后续利用该价值指标向量直接对节点进行聚类分析。

步骤S512.将所有价值指标向量作为聚类算法的输入量，并利用聚类算法对所有节点进行聚类分析，以得到设定数量个聚类。

其中，聚类算法例如为k-means算法、k—medoids方法、Clara算法、Clarans的算法等。若设定数量例如为5，聚类分析完毕后，则得到5个聚类，并且每个聚类中的所有节点的相似程度最接近。

接下来以k-means算法为例，说明聚类分析的具体过程，并且，设定数量设为5。首先在所有节点中，随机选择5个节点作为初始的聚类中心，记为之后，计算每个节点到各聚类中心的距离(欧式距离)，并将它们分配到距离最近的聚类中(换言之，将各节点分配到与其最相似的聚类中)。之后，所有节点都分配完成后，计算每个聚类的均值即新的聚类中心，并与初始的聚类中心比较，若发生变化，则重新定义聚类中心，并计算所有节点到各新的聚类中心的距离，并将它们分配到距离最近的新的聚类中。重复以上步骤，直到各聚类的中心不再发生变化，这种划分使得下式最小：

式中，为最终的聚类中心，即K表示循环次数。

接下来请继续参考图5，步骤S500还包括以下内容。

步骤S520.对各聚类的中心节点的舆情原始数据进行分析，得到各聚类的中心节点的价值评估结果。

该步骤中，聚类的中心节点是指位于聚类中心的节点。并且，该步骤的目的是对各聚类的中心节点的价值进行评价，同时，由于每一个聚类中所有节点的相似程度最接近，因此对各聚类的中心节点的价值评估完成后，则相当于得到了各聚类内所有节点的价值评估结果。

另外，在对各聚类的中心节点进行价值评估时，可以考虑聚类的中心节点的舆情原始数据中每一个指标数据的价值，从而综合判断出各聚类中心节点的价值。例如：以上述LIFCW模型为例，指标数据L、F、C、W的数值越高，代表节点的重要程度越高，价值越高，而指标数据I的数值越高，则代表节点的价值越低。那么，假设其中一个聚类的中心节点的指标数据L、F、C、W的数值较高，且指标数据I的数值较低，那么这个聚类的中心节点的价值则较高。相反，(即指标数据L、F、C、W的数值较低，且指标数据I的数值较高)则代表这个聚类的中心节点的价值较低。

具体地，步骤S520的其中一种具体实现方式包括以下内容，请参考图7。

步骤S521.将所有聚类的中心节点的同类指标数据按照价值从低到高的顺序进行排列。

其中，价值代表指标数据的数值能够反映出的节点的价值。例如，同样以上述LIFCW模型为例，将所有聚类的中心节点的指标数据L、F、C、W、I分别按照价值从低到高的顺序进行排列后，由于指标数据L、F、C、W的数值越高，代表节点价值越高，因此指标数据L、F、C、W都是按照最低值到最高值的顺序排列。由于指标数据I的数值越高，代表节点价值越低，因此指标数据I是按照最高值到最低值的顺序排列的。

步骤S522.在排序后的每一类指标数据中，将各指标数据分别乘以一个加权系数，并且价值低的指标数据乘以的加权系数的值小于价值高的指标数据乘以的加权系数的值。

其中，采用加权系数的目的是为了便于根据所有指标数据来综合评价节点的价值。并且，加权系数的数值与指标数据的价值成正比。同样，以上述LIFCW模型为例，则数值越高的指标数据L、F、C或W，其乘以的加权系数越大；数值越低的指标数据I，乘以的加权系数越大。那么，假设共包括5个聚类，可以定义指标数据L、F、C、W、I对应的加权向量分别为：

其中，每一个加权向量包含的各元素代表各加权系数。那么，以指标数据L为例，将所有聚类的中心节点的指标数据L排列顺序后，假设位于最左面的指标数据L是价值最低的，那么从左至右依次排列的各指标数据L分别乘以的加权系数则为：-0.2、-0.1、0、0.1、0.2。这时，对各聚类的中心节点的指标数据加权后的结果请参考表3。

表3聚类中心节点加权结果

其中，r＝1…5，r∈N，代表聚类的序号。Num_r，代表各聚类中共包含的节点个数。此外，q_r，2∈Opt_i，

步骤S523.计算各聚类的中心节点的所有指标数据的加权系数的和，并且和越大，认为该和对应的聚类中心节点的价值越高。

当步骤S522完成后，每一个聚类的中心节点的各指标数据都分配了一个加权系数，因此，可以根据该聚类的中心节点所有指标数据的加权系数之和(即其中，r＝1…5,r∈N，代表聚类的序号；p代表聚类的中心节点的指标数据的序号)来判断价值。

接下来请继续参考图5，步骤S500还包括以下内容。

步骤S530.将各聚类的中心节点的价值评估结果作为各自所在的聚类内包括的所有节点的价值评估结果。

由于加权系数与价值成正比，因此Q_r越高，代表该聚类的中心节点的价值越高，那么其所在的聚类包括的所有节点对上一层级节点的意义和价值就越大。具体地，如果聚类的数量为5个，按照聚类价值从高到底的顺序，可以分别将各聚类依次贴上“资源优先投放节点”，“跟踪关注节点”，“资源投放发展节点”，“一般价值节点”，“低价值节点”的标签。

具体地，在优化后的知识图谱中，还可以用不同的形状来表示价值不同的聚类，例如：用圆形表示“资源优先投放节点”，用方形表示“跟踪关注节点”，用五边形表示“资源投放发展节点”，用菱形表示“一般价值节点”，用三角形表示“低价值节点”，请参考图8。

另外，请继续参考图3，建模&应用模块222执行上述节点价值评估过程完毕后，可以将优化后的知识图谱通过输出模块230输出至用户终端300或网站服务器400。其中，输出模块230可以为相应的接口，以保证处理器220与用户终端300或网站服务器400能够正常传输数据。并且，建模&应用模块222还可以将优化后的知识图谱、聚类权重信息等上述价值识别过程中涉及到的相关数据保存至存储器240的知识图谱数据库242内。

另外，由建模&应用模块222执行的上述价值评估过程还可以由云端服务器500来执行，这时，当数据预处理模块221对舆情原始数据进行预处理完毕后，即可将处理后的舆情原始数据上传至云端服务器500，进而由云端服务器500计算每个节点到各聚类的中心节点的距离，并进行聚类分析的迭代过程，直至找到最终的聚类中心，并对各聚类的中心节点的指标数据进行加权，从而识别出各聚类的价值并对各聚类添加相应的标签，最后形成优化的知识图谱，并返回至建模&应用模块222。云端服务器500可以为处理器220提供更高效的运算服务，尤其是可进行并行运算，从而大大缩短运算时间。

进一步地，该知识图谱构建系统还可以设有交互模块250。并且，存储器240还可以包括用户信息数据库241。其中，交互模块250可以是键盘、触控显示屏等。并且，交互模块250与处理器220中的建模&应用模块222连接，用户可以通过交互模块250向建模&应用模块222输入控制指令，以控制最终输出的节点的种类和数量，例如用户如果只需要输入与节点相关的词条，则可通过交互模块250来选择。另外，存储器240还可存储有用户信息数据库241，用户信息数据库241例如可以存储用户的账号、密码等信息。该用户信息数据库241与交互模块250相连，用于用户登录时的身份认证和使用授权。

综上所述，本发明实施方式提供的上述知识图谱构建方法最终完成了一个自动化地为用户快速而精准绘制的新兴的行业知识图谱,帮助用户更深层次的了解上下层级节点的关系,快速而高效掌握行业主要特征的相关工作，进而实现了借助行业知识图谱和LIFCW模型来实现精准信息挖掘和资源投放优化的目的。

需要说明的是，图3至图7为本发明实施例的方法的流程示意图。应该理解的是，虽然图3至图7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图3至图7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

另一实施方式提供了一种知识图谱处理装置，包括：

初始图谱获取模块，用于获取初始的知识图谱中位于同一层级的所有节点。

舆情数据获取模块，用于在设定媒体群中，分别获取设定时间段内各所述节点的舆情原始数据。其中，所述设定媒体群包括多个媒体；所述舆情原始数据能够反映所述节点的舆情。

在其中一个实施例中，所述舆情原始数据包括第一指标和第二指标。所述第一指标能够反映所述设定媒体群在所述设定时间段内发布的报道中出现过所述节点的情况。所述第二指标能够反映在所述设定时间段内出现过所述节点的所有所述媒体在网络上的被搜索情况。

在其中一个实施例中，定义各所述媒体的搜索指数加权数，为各自在设定搜索引擎的搜索指数除以所述设定媒体群中所有所述媒体的所述搜索指数之和得到的值。

在其中一个实施例中，所述价值评估模块包括：

聚类分析单元，用于根据所有所述舆情原始数据对所有所述节点进行聚类分析，得到设定数量个聚类。并且，各所述聚类中的所有所述节点的舆情原始数据的值最接近。

聚类中心价值评估单元，用于对各所述聚类的中心节点的所述舆情原始数据进行分析，得到各所述聚类的中心节点的价值评估结果。

节点价值评估单元，用于将各所述聚类的中心节点的所述价值评估结果作为各自所在的所述聚类内包括的所有所述节点的价值评估结果。

在其中一个实施例中，所述舆情原始数据包括一个或两个以上指标数据。并且，所述聚类分析单元包括：

向量构建子单元，用于利用所述舆情原始数据构建用来代表各所述节点的价值指标向量，并且所述价值指标向量中的各元素为各所述指标数据。

聚类分析子单元，用于将所有所述价值指标向量作为聚类算法的输入量，并利用所述聚类算法对所有所述节点进行聚类分析，以得到设定数量个聚类。

在其中一个实施例中，所述聚类中心价值评估单元包括：

排序子单元，用于将所有所述聚类的中心节点的同类所述指标数据按照价值从低到高的顺序进行排列。

加权子单元，用于在排序后的每一类指标数据中，将各所述指标数据分别乘以一个加权系数，并且价值低的所述指标数据乘以的所述加权系数的值小于价值高的所述指标数据乘以的所述加权系数的值。

聚类权值评价子单元，用于计算各所述聚类的中心节点的所有所述指标数据的所述加权系数的和，并且所述和越大，认为所述和对应的所述聚类的中心节点的价值越高。

在其中一个实施例中，所述装置还包括：

数据清洗模块，用于对所有所述舆情原始数据进行数据清洗。

在其中一个实施例中，所述装置还包括：

标准化处理模块，用于将所有所述舆情原始数据进行标准化处理。

需要说明的是，本实施方式提供的上述知识图谱处理装置与上述实施方式提供的知识图谱处理方法一一对应，这里就不再赘述。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种知识图谱构建方法，包括：

获取初始的知识图谱中位于同一层级的所有节点；

2.根据权利要求1所述的知识图谱构建方法，其特征在于，所述舆情原始数据包括第一指标和第二指标；所述第一指标能够反映所述设定媒体群在所述设定时间段内发布的报道中出现过所述节点的情况；所述第二指标能够反映在所述设定时间段内出现过所述节点的所有所述媒体在网络上的被搜索情况。

3.根据权利要求2所述的知识图谱构建方法，其特征在于，所述第一指标包括从所述节点在所述设定时间段内首次出现在所述设定媒体群的时间到所述设定时间段结束时间之间的时长、从所述节点在所述设定时间段内最晚出现在所述设定媒体群的时间到所述设定时间段结束时间之间的时长、在所述设定时间段内包含所述节点的所有报道出现的总次数、及在所述设定时间段内包含所述节点的所有报道的总字数这些指标数据中的一种或两种以上。

4.根据权利要求2所述的知识图谱构建方法，其特征在于，定义各所述媒体的搜索指数加权数，为各自在设定搜索引擎的搜索指数除以所述设定媒体群中所有所述媒体的所述搜索指数之和得到的值；

5.根据权利要求1所述的知识图谱构建方法，其特征在于，根据所有所述节点的所述舆情原始数据评估各所述节点的价值的步骤包括：

6.根据权利要求5述的知识图谱构建方法，其特征在于，所述舆情原始数据包括一个或两个以上指标数据；并且，根据所有所述舆情原始数据对所有所述节点进行聚类分析，得到设定数量个聚类的步骤包括：

7.根据权利要求5述的知识图谱构建方法，其特征在于，对各所述聚类的中心节点的所述舆情原始数据进行分析，得到各所述聚类中心节点的价值评估结果的步骤包括：

8.根据权利要求1至7中任一权利要求所述的知识图谱构建方法，其特征在于，在根据所有所述节点的所述舆情原始数据评估各所述节点的价值的步骤之前，所述方法还包括：

对所有所述舆情原始数据进行数据清洗。

9.根据权利要求1至7中任一权利要求所述的知识图谱构建方法，其特征在于，在根据所有所述节点的所述舆情原始数据评估各所述节点的价值的步骤之前，所述方法还包括：

将所有所述舆情原始数据进行标准化处理。

10.一种知识图谱处理装置，其特征在于，包括：