CN112015912A

CN112015912A - 一种基于知识图谱的指标智能可视化方法及装置

Info

Publication number: CN112015912A
Application number: CN202010866296.0A
Authority: CN
Inventors: 汤泽亮; 宋杨
Original assignee: Hangzhou Diji Intelligent Technology Co ltd
Current assignee: Hangzhou Diji Intelligent Technology Co ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-12-01
Anticipated expiration: 2040-08-25
Also published as: CN112015912B

Abstract

本发明提供了一种基于知识图谱的指标智能可视化方法，包括：基于行业标准的指标体系和可视化素材库构建指标知识图谱，所述指标知识图谱至少包括各指标、其对应的各标签，及各指标关联的可视化素材和设定的各可视化素材的第一权重值；将所述指标知识图谱应用于可视化分析中，基于使用记录统计各指标关于标签的基于可视化素材组合的第一偏好，和基于使用记录和所述第一权重值确定各可视化素材的第二权重值；基于各指标所述第一偏好与可视化素材的第二权重值，确定各指标的可视化素材最佳组合，作为各指标的可视化方法进行可视化处理。本发明还提供了相应的装置，本发明可以智能推荐行业指标的可视化方法，提高行业数据分析的效率和效果。

Description

一种基于知识图谱的指标智能可视化方法及装置

技术领域

本申请涉及信息与网络技术领域，特别是涉及一种基于知识图谱的指标智能可视化方法及装置。

背景技术

如今高速信息化的时代，各行各业数据分析的需求与日俱增，为了帮助人们快速地理解数据，需要沉淀与积累企业的关键数据，将业务数据化，并进行数据可视化的制作，让用户更直观的了解数据。

目前，数据可视化的分析，一般是通过数据预处理、建立数据模型和可视化图表制作等多个过程来完成某个可视化分析的场景。但这样的可视化分析过程，流程长、复用性低，能呈现的形态效果也很少，满足不了用户个性化的数据可视化分析需求。同时，这种模式效率低，不能很好地沉淀企业的关键业务数据，让数据资产无法发挥最大的价值。

发明内容

有鉴于此，本发明提供了一种基于知识图谱的指标智能可视化方法，为行业数据可视化分析智能推荐行业指标可视化方式，本发明还相应地提供了一种基于知识图谱的指标智能可视化的装置。

本发明第一方面提供一种基于知识图谱的指标智能可视化方法，其包括：

基于行业标准的指标体系和可视化素材库构建指标知识图谱，其中，所述指标知识图谱至少包括各指标k_i、其对应的各标签u_ij、其关联的各可视化素材和设定的各可视化素材的第一权重值，下标i为指标的编号，下标ij为指标k_i标签的编号；

将所述指标知识图谱用于指标可视化分析，基于使用记录统计各指标k_i关于标签u_ij的基于可视化素材组合n的第一偏好o_ijn，和基于使用记录及所述第一权重值确定各可视化素材的第二权重值，其中，下标ijn是指标k_i标签u_ij的可视化素材组合种类n的编号；

基于所统计的各指标k_i所述第一偏好o_ijn与各可视化素材的第二权重值，确定各指标k_i的可视化素材最佳组合，作为各指标k_i的可视化方法进行可视化处理。

由上，基于知识图谱建立各指标、标签、可视化素材等实例及实例间属性关系从而提供了基于知识图谱的计算能力；在指标数据可视化分析中利用知识图谱的计算能力基于用户实际使用记录统计各指标关于各标签的可视化素材组合使用偏好情况即所述第一偏好；因为所述第一偏好来自于对用户使用的可视化素材组合的统计，用其确定的指标可视化方法更加能满足人们使用习惯，分析指标数据更加有效，同时相对于人工手动去设置可视化素材的组合，工作效率更高。

优选的，所述可视化素材的第二权重值确定方法，包括：

基于所述使用记录统计各可视化素材使用总次数和各可视化素材的使用次数；

所述各可视化素材的使用次数除以所述可视化素材使用总次数的商确定为所述各可视化素材的使用权重；

所述各可视化素材的使用权重乘以相应可视化素材第一权重值的积确定为所述各可视化素材的第二权重值。

由上，所述可视化素材的第一权重值基于人工经验设置，所述可视化素材的第二权重值基于用户实际使用的各可视化素材次数对所述第一权重值进行了修正。因此，综合人工经验和实际使用情况的所述第二权重值为指标智能化可视化方法提供更加准确的数据依据。

优选的，基于所述使用记录统计指标k_i关于标签u_ij的基于可视化素材组合n的使用次数或频率，确定指标k_i所述第一偏好o_ijn。

由上，所述可视化素材组合n的使用次数或频率可以评估用户对可视化素材组合的使用偏好即对指标可视化方法的偏好，可提高后续用其构建指标的可视化模型的准确率。同时，所述可视化素材组合来自用户实际使用记录，其相对于人工枚举法列举的可视化素材组合更加符合用户使用习惯。

优选的，所述指标k_i的可视化素材最佳组合的确定方法，包括步骤：

所统计的指标k_i所述第一偏好o_ijn与指标k_i的各可视化素材的第二权重值构成训练样本，基于所述训练样本，利用深度学习的方法构建指标k_i基于各标签u_ij的可视化模型；

基于所述指标k_i基于各标签u_ij的可视化模型确定指标k_i关于标签u_ij的基于可视化素材组合n的第二偏好on_ijn；

指标k_i所述第二偏好on_ijn分标签基于可视化素材组合维度归一化，确定为指标k_i的关于标签u_ij的基于可视化素材组合n的第三偏好onn_ijn；

指标k_i所述第三偏好onn_ijn基于标签维度求和，确定为指标k_i的基于可视化素材组合n的第四偏好onnn_in，其最大值对应的可视化素材组合为指标k_i的可视化素材最佳组合。

由上，基于深度学习的方法构建所述可视化模型且基于所述可视化模型得到指标k_i所述第二偏好on_ijn，相对于直接使用人工统计的所述第一偏好o_ijn，能够有效去除一些例外情况，如有人因为一些特殊的原因反复以某种可视化素材组合查看一些指标情况，导致所述某种可视化素材组合的所述第二偏好on_ijn异常的高。因此，利用所述可视化模型可以客观评价所述第二偏好on_ijn。

同时，对指标k_i所述第二偏好on_ijn进行基于标签维度归一化，使各标签维度对确定最佳可视化素材组合即指标可视化方法的影响程度一样。

另外，所述第四偏好onnn_in综合各个标签的所述第三偏好onn_ijn确定指标k_i的可视化素材最佳组合即指标可视化方法，可以满足各个标签角度的需求。

其中，所述可视化素材至少包括主题、背景、边框、图表组件、交互组件，所述图表组件至少包括下面之一：形图，折线图，饼图，雷达图，散点图、圆环图，条形图，堆积图、面积图，所述交互组件至少包括下面之一：下拉框、时间选择器、滑动输入条、选择框、折叠面板、导航菜单。

由上，上述可视化素材基本包括可视化方法所需要的所有素材，可以满足指标的各种可视化要求。

本发明第二方面提供了一种基于知识图谱的指标智能可视化装置，包括：

指标知识图谱构建模块，用于基于行业标准的指标体系和可视化素材库构建指标知识图谱，其中，所述指标知识图谱至少包括各指标k_i、其各标签u_ij，及各指标k_i关联的可视化素材和设定的各可视化素材的第一权重值，下标i为指标的编号，下标ij为指标k_i标签的编号；

用户习惯统计模块，用于将所述指标知识图谱应用于指标可视化分析中基于使用记录统计各指标k_i关于标签u_ij的基于可视化素材组合n的第一偏好o_ijn，和基于使用记录及所述第一权重值确定各可视化素材的第二权重值，其中下标ijn是指标k_i标签u_ij的可视化素材组合种类n的编号；

可视化方法确定模块，用于基于所统计的各指标k_i所述第一偏好o_ijn与可视化素材的第二权重值确定各指标k_i的可视化素材最佳组合，以及作为各指标k_i的可视化方法进行可视化处理。

由上，基于知识图谱建立各指标、标签、可视化素材等实例及实例间属性关系从而提供了基于知识图谱的计算能力，绑定实际行业数据库后，在各可视化系统中利用知识图谱的计算能力统计用户实际使用时对各指标关于各标签的可视化素材组合使用偏好情况即所述第一偏好；因为所述第一偏好来自于对用户使用可视化素材组合的统计，用其确定的指标可视化方法更加能满足人们使用习惯，分析指标数据更加有效；同时相对于人工手动去设置可视化素材的组合，工作效率更高。

其中，所述指标知识图谱构建模块包括：

指标数据绑定子模块，用于基于行业标准选择各指标k_i和其对应的各标签u_ij；

可视化素材绑定子模块，用于基于可视化素材库为各指标k_i绑定默认的可视化素材，以及设定各可视化素材的所述第一权重值；

指标知识图谱构建子模块，用于构建指标知识图谱，所示指标知识图谱至少包括所述各指标k_i和其对应的各标签u_ij及所述各指标k_i绑定的默认可视化素材和各可视化素材的所述第一权重值。

由上，关联了行业数据库的指标知识图谱可以运用到所述可视化工具中，保证所述可视化工具可以使用知识图谱的计算能力基于用户使用统计可视化素材组合的情况。

由上，所述可视化素材的第一权重值基于人工经验设置，为后续用于指标可视化建模的所述可视化素材的第二权重值集成了人工经验，可用于提高所建的指标可视化模型的准确性。

优选的，所述用户习惯统计模块包括：

可视化素材第一偏好统计子模块，用于基于所述使用记录统计指标k_i关于标签u_ij的基于可视化素材组合n的使用次数或频率，以及确定指标k_i所述第一偏好o_ijn。

由上，所述可视化素材组合n的使用次数可以准确评估用户对可视化素材组合的使用偏好即指标可视化方法的使用偏好，提高后续构建的可视化模型的准确率。同时，所述可视化素材组合来自于用户实际使用记录，相对于人工枚举法列举的可视化素材组合更加符合用户使用习惯。

优选的，所述用户习惯统计模块还包括：

可视化素材第二权重值确定子模块，其流程包括：

由上，所述可视化素材的第二权重值基于用户实际使用的各可视化素材次数对所述可视化素材的第一权重值进行了修正。因此，综合人工经验和实际使用情况的所述第二权重值为指标智能化可视化方法提供更加准确的数据依据。

优选的，可视化方法确定模块，包括以下子模块：

可视化模型构建子模块，用于把所统计的指标k_i所述第一偏好o_ijn与指标k_i的各可视化素材的第二权重值构成训练样本，以及基于所述训练样本利用深度学习的方法构建指标k_i基于各标签u_ij的可视化模型；

可视化素材组合偏好确定子模块，用于基于所述指标k_i基于各标签u_ij的可视化模型确定指标k_i关于标签u_ij的基于可视化素材组合n的第二偏好on_ijn；

可视化素材组合偏好归一化子模块，用于指标k_i所述第二偏好on_ijn分标签基于可视化素材组合维度归一化值确定为指标k_i的关于标签u_ij的基于可视化素材组合n的第三偏好onn_ijn；

指标可视化方法确定子模块，用于把指标k_i所述第三偏好onn_ijn基于标签维度求和确定为指标k_i的基于可视化素材组合n的第四偏好onnn_in，及其最大值对应的可视化素材组合确定为指标k_i的可视化素材最佳组合并作为指标k_i的可视化方法。

另外，综合各个标签的所述第三偏好onn_ijn确定指标k_i的可视化素材最佳组合即指标可视化方法，可以满足各个标签角度的需求。

本发明第三个方面提供了一种计算设备，包括：总线；通信接口，其与所述总线连接；至少一个处理器，其与所述总线连接；以及至少一个存储器，其与所述总线连接并存储有程序指令，所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行上述技术方案中任一所述方法。

本发明第四个方面提供了一种计算机可读存储介质，其上存储有程序指令，所述程序指令当被计算机执行时使得所述计算机执行上述技术方案中任一所述方法。

附图说明

图1A、为本发明方法实施例的流程示意图；

图1B、为本发明方法实施例的指标知识图谱构建的流程示意图；

图1C、为本发明方法实施例的可视化素材偏好统计的流程示意图；

图1D、为本发明方法实施例的指标可视化方法确定的流程示意图；

图2、为本发明方法实施例变体的指标知识图谱构建的流程示意图；

图3、为本发明实施例具体实现方式的流程示意图；

图4A、为本发明实施例指标知识图谱所举实体的结构示意图；

图4B、为本发明实施例指标可视化的举例示意图；

图5、为本发明实施例的3层神经网络算法的模型结构示意图

图6、为本发明装置实施例的结构示意图；

图7、为本发明装置实施例变体的结构示意图；

图8、为本发明计算设备的结构示意图。

具体实施方式

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三等”或模块A、模块B、模块C等，仅用于区别类似的对象，不代表针对对象的特定排序，可以理解地，在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

在以下的描述中，所涉及的表示步骤的标号，如S110、S120……等，并不表示一定会按此步骤执行，在允许的情况下可以互换前后步骤的顺序，或同时执行。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明具体实施方式进行进一步详细说明之前，对本发明实施例中涉及的名词和术语，以及其在本发明中相应的用途\作用\功能等进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1、自顶向下(top-down)的构建方式：指的是先为知识图谱定义好本体与数据模式，再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。

2、图(Graph)数据库，它应用图理论(Graph Theory)可以存储实体的相关属性以及它们之间的关系信息。最常见例子就是社会网络中人与人之间的关系。相比于关系型数据库(比如MySQL等)，图数据库更能胜任这方面的任务。

3、Cayley图数据库是Google的一个开源图(Graph)数据库，其灵感来自于Freebase和Google的知识图谱背后的图数据库。它采用Go语言编写而成，运行命令简单，一般只需要3到4个命令即可。同时，它拥有RESTful API，内建查询编辑器和可视化界面，支持多种查询语言，比如JavaScript，MQL等。另外，它还能支持多种后端数据库储存，比如MySQL，MongoDB,LevelDB等。

4、BP神经网络，误差反向传播神经网络简称为BP(Back Propagation)网络，它是一种具有三层或三层以上的多层神经网络，每一层都由若干个神经元组成。它的左、右各层之间各个神经元实现全连接，即左层的每一个神经元与右层的每个神经元都有连接，而上下各神经元之间无连接。BP神经网络按有监督学习方式进行训练，当一对学习模式提供给网络后，其神经元的激活值将从输入层经各隐含层向输出层传播，在输出层的各神经元输出对应于输入模式的网络响应。然后，按减少希望输出与实际输出误差的原则，从输出层经各隐含层、最后回到输人层逐层修正各连接权。由于这种修正过程是从输出到输入逐层进行的，所以称它为“误差逆传播算法”。随着这种误差逆传播训练的不断进行，网络对输入模式响应的正确率也将不断提高。

下面将结合附图，对本申请中的技术方案进行描述。

【一种基于知识图谱的指标智能可视化方法实施例】

图1A示出了一种基于知识图谱的指标智能可视化方法实施例的总体流程，其包括：

步骤110，依据行业标准的指标体系和可视化素材库构建指标知识图谱，其中，所述指标知识图谱至少包括各指标k_i、其对应的各标签u_ij、及为各指标k_i选择的可视化素材和各可视化素材的第一权重值w_p，下标i为指标编号，下标j为指标k_i的标签编号，下标p为可视化素材编号。另外，所述指标知识图谱还包括对应的指标公式和绑定的所述指标公式涉及的行业数据库中表和字段。

图1B示出了上述流程的详细步骤，其包括：

步骤1110，依据行业标准，选择各指标k_i和其对应的各标签u_ij，另外，所述指标知识图谱还包括对应的指标公式和绑定的所述指标公式涉及的行业数据库中表和字段。

其中，所述行业是所要分析的指标涉及的行业，所述标签为指标的属性，以工业生产设备行业的设备综合效率指标为例，其标签有工业、设备和制造业数据采集系统(MDC、Manufacturing Data Collection)等，从不同的标签出发，指标的可视化方式存在不同偏好。同时，指标知识图谱的定义指标的字段要与行业数据库对齐，以便于指标知识图谱能与相关行业数据库关联。为后续分析数据方便，指标知识图谱中还包括维度信息和依赖指标等。

步骤1120，构建可视化素材库，为各指标绑定默认可视化素材，且设定的各可视化素材的第一权重w_p。

其中，所述可视化素材至少包括主题、背景、边框、图表组件、交互组件，所述图表组件至少包括下面之一：形图，折线图，饼图，雷达图，散点图、圆环图，条形图，堆积图、面积图，所述交互组件至少包括下面之一：下拉框、时间选择器、滑动输入条、选择框、折叠面板、导航菜单。丰富的可视化素材可以提高可视化方法的效果。

为了正确评价各个可视化素材对可视化方法的影响，为每个可视化化素材定义了第一权重w_p。所述可视化素材的第一权重值基于人工经验设置，在构建可视化模型时可以提高模型的准确率，更加智能化推荐指标的可视化方法。

步骤1130，构建指标知识图谱，其中，所述指标知识图谱至少包括各指标k_i、其对应的各标签u_ij、及为各指标k_i选择的可视化素材和各可视化素材的第一权重值w_p。同时构建了指标知识图谱的存储方式和计算能力。

其中，本实施例的指标知识图谱采用自顶向下的方法对指标知识进行建模。从最顶层概念构建，包括指标、素材、数据等实体，逐步向下细化，然后将属性添加到实体之间。同时采用知识图谱的三元组的存储方式存储，便于调用知识图谱的各种功能。知识图谱的数据库格式有很多种，本实例采用开源的Cayley格式存储。Cayley支持多种查询语言，提供查询API，本实施例采用Gizmo语言查询。

步骤120，把所述指标知识图谱应用于可视化分析中，基于用户实际使用记录统计各指标k_i关于标签u_ij的基于可视化素材组合n的第一偏好o_ijn和确定各可视化素材的第二权重值wv_p，其中，下标ijn是指标k_i标签u_ij的可视化素材组合种类n的编号。

图1C示出了上述流程的详细步骤，其包括：

步骤1210，基于各指标k_i关于各标签u_ij的可视化素材组合的实际使用次数确定各指标k_i关于各标签u_ij的基于可视化素材组合n的第一偏好o_ijn。

优选的，基于所述指标知识图的可视化分析，自动记录用户使用的各种可视化素材组合种类的次数，确定各指标k_i关于标签u_ij的基于可视化素材组合n的第一偏好o_ijn，为智能可视化提供用户可视化经验数据，使推荐的智能可视化方法能更好呈现行业指标。同时，在统计所述第一偏好o_ijn时也记录可视化素材的各种使用组合，作为将来每个指标k_i可视化方法的候选集。

步骤1220，基于各可视化素材的实际使用次数和其所述第一权重值确定各可视化素材的第二权重值。

优选的，所述第二权重值wv_p计算方法为：统计各可视化素材使用次数和所有素材使用的总次数，所述各可视化素材使用次数除以所述所有素材使用的总次数所得的商，再乘以相应可视化元素的所述第一权重值，其乘积确定为各可视化素材的二权重值wv_p。所述第二权重值wv_p综合用户的使用情况和人工的经验，准确评价了各个可视化素材在分析和显示数据时重要程度，为智能可视化提供了准确的数据依据,在构建可视化模型时可以提高模型的准确率，后续可以更加智能化推荐指标的可视化方法。

步骤130，基于各指标k_i所述第一偏好o_ijn与各可视化素材第二权重值wv_p，确定各指标的智能可视化方法。

图1C示出了上述流程的详细步骤，其包括：

步骤1310，指标k_i所述第一偏好on_ijn与各可视化素材第二权重值wv_p构成训练样本，利用深度学习算法构建指标k_i基于各标签u_ij的可视化模型。

优选的，所述深度学习算法有BP神经网络算、RNN、LSTM、CNN等多种算法，本实施例为基于BP神经网络算法。其根据可视化素材所述第二权重值w_p和指标k_i关于标签u_ij所述第一偏好o_ijn训练的模型可以挖掘用户可视化分析数据的经验和习惯，提高了模型的准确率。

步骤1320，利用指标k_i基于各标签u_ij的可视化模型确定指标k_i关于标签u_ij的可视化素材组合n的第二偏好on_ijn。

优选的，所述可视化模型是基于指标及标签维度的，所以所述第二偏好on_ijn基于每个指标k_i的每个标签u_ij分别预测，且预测可视化素材组合种类为所述可视化方法候选集中可视化素材组合种类数。基于所述可视化模型预测的所述第二偏好on_ijn可以有效去除一些特殊行为的影响，比如有人因为特殊的原因反复以一种方式查看指标而导致某种可视化组合使用次数大幅升高，直接基于所述第一偏好on_ijn有推荐可视化方法就会被误导。

步骤1330，指标k_i所述第二偏好on_ijn分标签基于可视化素材组合维度归一化，确定为指标k_i关于标签u_ij的基于可视化素材组合n的第三偏好onn_ijn。

优选的，归一化的所述第三偏好onn_ijn使各个标签维度对推荐的可视化方法影响程度相同，提高智能指标可视化方法适应性。

步骤1340，指标k_i所述第三偏好onn_ijn基于标签维度求和，确定为指标k_i的基于可视化素材组合n的第四偏好onnn_in，其最大值对应的可视化素材组合为各指标k_i的可视化素材最佳组合。

优选的，所述第四偏好onnn_in中的最大值对应可视化素材第一组合表，综合了各种标签维度下用户偏好的可视化素材组合，为指标k_i的最佳可视化素材组合。

【一种基于知识图谱的指标智能可视化方法实施例变体】

该实施例变体是对原实施例的变化，具有原实施例的一切优点，下面重点介绍其变化部分，其相对于原实施例有下面的变化：

在图2示出的一种基于知识图谱的指标智能可视化方法实施例变体的指标知识图谱构建的流程示意图，其增加了步骤1125，将不同来源的指标定义、标签、绑定的数据库字段和表、绑定可视化素材和其第二权重值进行合并和统一。

其中，所述不同来源可能是同一行业不同公司，也可能是同一公司的不同部门等，统一和合并不同来源的知识，可以提高所建指标知识图谱的适用性。

【一种基于知识图谱的指标智能可视化方法具体实施方式】

图3示出了本发明的一种基于知识图谱的指标智能可视化方法的具体实施方式，其基于实施例变体描述方案展开，其含有实施例变体的所有优点。其包括以下步骤：

步骤3010，依据行业标准，选择各指标k_i、对应的公式和标签u_ij，并绑定指标公式涉及行业数据库中的表和字段，其中，下标i为指标编号，下标j为指标k_i的标签编号。

其中，所述行业是所要分析的指标涉及的行业，所述标签为指标的属性，如图4A所示的以工业生产设备行业为例，所选的指标为设备综合效率指标为例，该指标其标签有工业、设备和制造业数据采集系统(MDC、Manufacturing Data Collection)等，从不同的标签出发，指标的可视化方式存在不同偏好。

进一步的，指标知识图谱的定义指标的字段要与行业数据库对齐，以便于指标知识图谱能与相关行业数据库关联。

同时，为了后续数据分析方便，指标知识图谱中还包括维度信息和依赖指标等。

步骤3020，构建可视化素材库，为各指标绑定默认可视化素材，且设定各可视化素材的第一权重w_p，其中，下标p为可视化素材编号。

优选的，为了正确评价各个可视化素材对可视化方法的影响，为各可视化素材定义了第一权重w_p，并基于人工经验设定所述第一权重w_p

步骤3030，将不同来源的指标定义、标签、绑定的行业数据库字段和表、可视化素材的知识合并和统一。

步骤3040，所述指标的上述信息组成指标知识图谱，按照图数据库格式如开源的Cayley格式存储。

其中，采用自顶向下的方法对指标知识进行建模。从最顶层概念构建，包括指标、素材、数据等实体，逐步向下细化，然后将属性添加到各实体关系中。以指设备综合效率为例，其指标知识图谱如图4A所示。

知识图谱采用如下三元组的存储方式进行存储，便于调用知识图谱的各种功能。

工业IN设备综合效率，

设备IN设备综合效率，

MDC IN设备综合效率。

Cayley运行在现有行业数据库的基础上，知识存储介质采用普遍适用的MySQL上，因此所建的指标知识图谱可以非常方便应用到的可视化分析中。

如图4A中还示出了所选择出的工业生产设备行业的其他指标，如一次合格率指标、设备性能效率指标，设备稼动率指标。

如图4A中还示出了设备综合效率指标对应的公式，该公式绑定有数据库中的表和字段，如图中的字段ACTUAL_PRODUCTION、DEFECTIVE_NUM

步骤3050，基于所述指标知识图谱，使用图数据库查询语言如Gizmo查询语言查询生成数据集A，包含指标k_i、标签u_ij、数据绑定信息、素材绑定信息等。

可选的，Cayley支持多种查询语言，提供查询API，支持Gizmo语言查询，Gizmo语句如：

g.V('设备').Out('IN').And(g.V('MDC').Out('IN')).All()

返回结果如下：

表示查询标签为设备、MDC的所有指标。

再通过指标，可以查到指标具体的数据绑定信息、组件信息等。

形成数据集A，包括指标k_i、标签u_ij、数据绑定信息、组件绑定信息等。

其中，查询是知识图谱计算的一种，知识图谱的计算是领域知识图谱能力输出的主要方式，通过知识图谱本身能力为传统的应用形态赋能，提升服务质量和效率。

步骤3060，所述指标知识图谱运用到各可视化分析工具中，基于用户实际使用记录统计各指标k_i关于标签u_ij的基于可视化素材组合n的第一偏好o_ijn，并添加到数据集A中生成数据集B，其中，下标ijn是指标k_i标签u_ij的可视化素材组合种类n的编号。

其中，在所述可视化分析中用户可以使用所建的指标知识图谱提供的指标、标签和默认的可视化素材等包括主题、背景、边框、图表组件、交互组件等，如图4B所示，用户定制自己偏好的交互组件(图右上)和图标组件(图右下)。

优选的，基于所定制可视化的方式从不同的标签角度分析行业数据，所建指标知识图谱自动记录用户使用的各种可视化素材组合次数，形成各指标k_i关于标签u_ij的基于可视化素材组合n的第一偏好o_ijn，为智能可视化提供用户可视化经验数据，使推荐的智能可视化方法能更好呈现行业指标。

进一步的，为每个指标k_i的每个标签u_ij生成一个数据集B，包括可视化素材第一组合表、所述第一偏好o_ijn等。所述可视化素材第一组合表的表中各可视化素材按编号排列，值分别为0或1，1代表出现在组合中，0代表未出现。

同时，在统计所述第一偏好o_ijn时也记录可视化素材的各种使用组合，作为将来每个指标k_i可视化方法的候选集。

步骤3070，各可视化素材使用次数除以所有素材使用的总次数所得的商，再乘以相应可视化元素的所述第一权重值w_p，其乘积确定为各可视化素材的第二权重值wv_p。

优选的，各可视化素材所述第二权重值wv_p综合用户的使用情况和人工的经验，准确评价了各个可视化素材在分析和显示数据时重要程度，为智能可视化提供了准确的数据依据,在构建可视化模型时可以提高模型的准确率，更加智能化推荐指标的可视化方法。

步骤3080，数据集B与各指标的各可视化素材第二权重值wv_p构成的数据集D，并作为训练样本，利用神经网络算法构建各指标k_i基于各标签u_ij的可视化模型。

优选的，为每个指标k_i的每个标签u_ij生成一个数据集D，包括可视化素材第二组合表、所述第一偏好o_ijn。每个数据集包括基于不同可视化工具及同一个可视化工具的来自不同部门的不同用户形成大量样本，有效提高预测网络精度，其中所述可视化素材第二组合表的表中可视化素材按编号排列，其值各分别可视化素材所述第二权重值wv_p。

可选的，所述神经网络算法为基于BP神经网络的回归算法，利用该算法基于可视化素材所述第二权重值wv_p和指标k_i关于标签u_ij所述第一偏好o_ijn训练的模型可以挖掘用户可视化分析数据的经验和习惯，提高了模型的准确率。本发明的神经网络算法的具体实施方式请参考【基于神经网络算法预测各指标k_i基于各标签u_ij的可视化模型】。

步骤3090，基于各指标k_i的基于各标签u_ij的所述可视化模型确定各指标k_i关于标签u_ij的基于可视化素材组合n的第二偏好on_ijn。

其中，所述可视化模型是基于指标及标签维度的，所以所述第二偏好on_ijn为每个指标k_i的每个标签u_ij分别预测，且预测的可视化素材组合种类数为所述可视化方法候选集中可视化素材组合种类数。

进一步的，指标k_i、标签u_ij和所述第二偏好on_ijn组成数据集E：指标k_i、标签u_ij、包括所述可视化素材第一组合表、所述第二偏好on_ijn。

步骤3100，各指标k_i的各标签u_ij所述第二偏好on_ijn分标签按照可视化素材组合维度归一化，确定为各指标k_i关于标签u_ij基于可视化素材组合n的第三偏好onn_ijn。

可选的，按照标签维度归一化如下式，C为可视化素材组合的种类个数：

归一化的所述第三偏好onn_ijn使对于一具体指标的各标签在后续可视化方法选择上影响程度相同。归一化后得到数据集F，其包括：指标k_i、标签u_ij、包括所述可视化素材第一组合表、所述第三偏好onn_ijn。

步骤3110，各指标k_i的所述第三偏好onn_ijn基于标签u_ij求和得到各指标k_i基于可视化素材组合n的第四偏好onnn_in，从所述第四偏好onnn_in选择最大值，其对应的可视化素材组合为各指标k_i可视化方法。

其中，所述基于标签u_ij求和的公式如下，L为标签的个数。

基于数据集F和所述第四偏好onnn_in得到数据集G，其包括：指标k_i、所述可视化素材第一组合表、所述第四偏好onnn_in。

优选的，数据集G中指标k_i的所述第四偏好onnn_in中的最大值对应的所述可视化素材第一组合表，综合了各种标签情况下用户偏好的可视化素材组合，为指标k_i的最佳可视化素材组合。

【基于神经网络算法预测各指标k_i基于各标签u_ij的可视化模型】

下面结合附图如图5，介绍本发明的具体实施例使用的三层BP神经网络，以训练一指标k_i基于一标签u_ij的可视化模型为例。

输入层参数为各可视化素材的所述第二权重值wv_p，可视化素材的总个数为t；

输出层参数在训练时使用所述第一偏好o_ijn，在推理时其算法时输出层为各指标k_i关于标签u_ij的基于可视化素材组合n的第二偏好on_ijn，输出层参数个数为1；

隐层参数的个数利用输入层参数和输出层参数个数基于下式决定：

其中1代表输出层参数个数，隐层到输出层的传递函数为：

误差函数为：

其中l输为训练样本的编号。

通过数据集D的训练，不断修正输入层与隐层之间网络第一权值矩阵W1和第一偏置矩阵B1和隐层与输出层之间网络第二权矩阵W2和第二偏置值B2使得误差函数得到极小，并保留所述第一权值矩阵W1和第一偏置矩阵B1及第二权矩阵W2和第二偏置值B2作为一指标k_i基于一标签u_ij的可视化模型，为每个指标k_i的每个标签u_ij都生成一个所述可视化模型。图5中，W1和W2简洁表示为W，B1和B2简洁表示为b。

所述第二偏好on_ijn预测模型为下式，其中，P为可视化素材组合种类的数目，W1为s*P维度矩阵，B1为s*1维度矩阵，W2为1*s维度矩阵,B1为变量：

【一种基于知识图谱的指标智能可视化装置实施例】

图6示出了一种基于知识图谱的指标智能可视化装置实施例的结构，其包括：

指标知识图谱构建模块610，用于依据行业标准的指标体系和可视化素材库构建指标知识图谱，其中，所述指标知识图谱至少包括各指标k_i、其对应的各标签u_ij、及为各指标k_i绑定的可视化素材和各可视化素材设定的第一权重值w_p，下标i为指标编号，下标j为指标k_i的标签编号，下标p为可视化素材编号

用户习惯统计块620，用于将所述指标知识图谱应用于可视化分析中基于使用记录统计各指标k_i关于标签u_ij的基于可视化素材组合n的第一偏好o_ijn，和基于使用记录和所述第一权重值确定各可视化素材第二权重w_p，其中下标ijn是指标k_i标签u_ij的可视化素材组合种类n的编号；

可视化方法确定模块630，用于基于所统计的各指标k_i所述第一偏好o_ijn与各可视化素材第二权重wv_p的确定各指标k_i的可视化素材最佳组合，并作为各指标k_i的可视化方法。

所述指标知识图谱构建模块610包括：

指标数据绑定子模块6110，用于依据行业标准选择各指标k_i、对应的标签u_ij。

可视化素材绑定子模块6120，用于构建可视化素材库和为各指标绑定默认可视化素材，以及设定的各可视化素材的第一权重w_p。

指标知识图谱构建子模块6130，用于构建指标知识图谱，所述指标知识图谱至少包括各指标k_i、其对应的各标签u_ij、及为各指标k_i绑定的可视化素材和各可视化素材设定的第一权重值w_p。

所述用户习惯统计模块620包括：

可视化素材第一偏好统计子模块6210，用于基于所述使用记录统计各指标k_i关于各标签u_ij的可视化素材组合的实际使用次数，以及确定各指标k_i关于各标签u_ij的基于可视化素材组合n的第一偏好o_ijn。

可视化素材第二权重确定子模块6220，用基于所述使用记录和所述第一权重值确定各可视化素材的第二权重值。

所述可视化方法确定模块630包括：

可视化模型构建子模块6310，用于把所统计的指标k_i所述第一偏好o_ijn与各可视化素材的第二权重值wv_p构成训练样本，以及基于所述训练样本利用深度学习的方法构建指标k_i基于各标签u_ij的可视化模型；

可视化素材组合偏好确定子模块6320，用于基于所述指标k_i基于各标签u_ij的可视化模型确定指标k_i关于标签u_ij的基于可视化素材组合n的第二偏好on_ijn；

可视化素材组合偏好归一化子模块6330，用于指标k_i所述第二偏好on_ijn分标签基于可视化素材组合维度归一化值确定为指标k_i的关于标签u_ij的基于可视化素材组合n的第三偏好onn_ijn；

指标可视化方法确定子模块6340，用于把指标k_i所述第三偏好onn_ijn基于标签维度求和确定为指标k_i的基于可视化素材组合n的第四偏好onnn_in，及其最大值对应的可视化素材组合确定为指标k_i的可视化素材最佳组合。

【一种基于知识图谱的指标智能可视化装置的实施例变体】

图7示出了一种基于知识图谱的指标智能可视化装置实施例变体的总体结构。可以看出所述装置实施例变体是对原实施例的变化，因此具有原实施例的一切优点，下面重点介绍其变化部分，所述装置实施例变体相对于原实施例有下面的变化：

在图7示出的指标知识图谱构建模块610中了子模块6125：

指标数据和可视化素材统一子模块6125，用于将不同来源的指标标签、绑定的可视化素材和设定的各可视化素材的所述第一权重值进行合并和统一。

由上，所述不同来源可能是同一行业不同公司，也可能是同一公司的不同部门等，统一和合并不同来源的知识，可以提高所建指标知识图谱的适用性。

【计算设备】

本发明还提供的一种计算设备，下面图8详细介绍。

该计算设备800包括：处理器810、存储器820、通信接口830、总线840。

应理解，该图所示的计算设备810中的通信接口830可以用于与其他设备之间进行通信。

其中，该处理器810可以与存储器820连接。该存储器820可以用于存储该程序代码和数据。因此，该存储器820可以是处理器810内部的存储单元，也可以是与处理器810独立的外部存储单元，还可以是包括处理器810内部的存储单元和与处理器810独立的外部存储单元的部件。

可选的，计算设备800还可以包括总线840。其中，存储器820、通信接口830可以通过总线840与处理器810连接。总线840可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(EFStended Industry StandardArchitecture，EISA)总线等。所述总线840可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

应理解，在本发明实施例中，该处理器810可以采用中央处理单元(centralprocessing unit，CPU)。该处理器还可以是其它通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器810采用一个或多个集成电路，用于执行相关程序，以实现本发明实施例所提供的技术方案。

该存储器820可以包括只读存储器和随机存取存储器，并向处理器810提供指令和数据。处理器810的一部分还可以包括非易失性随机存取存储器。例如，处理器810还可以存储设备类型的信息。

在计算设备800运行时，所述处理器810执行所述存储器820中的计算机执行指令执行上述方法的操作步骤。

应理解，根据本发明实施例的计算设备800可以对应于执行根据本发明各实施例的方法中的相应主体，并且计算设备800中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行一种多样化问题生成方法，该方法包括上述各个实施例所描述的方案中的至少之一。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括、但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，均属于本发明保护范畴。

Claims

1.一种基于知识图谱的指标智能可视化方法，其特征在于，包括：

基于各指标k_i所述第一偏好o_ijn与各可视化素材的第二权重值，确定各指标k_i的可视化素材最佳组合，作为各指标k_i的可视化方法进行可视化处理。

2.根据权利要求1所述方法，其特征在于，基于所述使用记录统计指标k_i关于标签u_ij的基于可视化素材组合n的使用次数或频率，确定指标k_i所述第一偏好o_ijn。

3.根据权利要求1所述方法，其特征在于，所述可视化素材的第二权重值确定方法，包括：

4.根据权利要求2或3所述方法，其特征在于，所述指标k_i的可视化素材最佳组合的确定方法，包括：

基于所述指标k_i的基于各标签u_ij的可视化模型确定指标k_i关于标签u_ij的基于可视化素材组合n的第二偏好on_ijn；

5.根据权利要求1-4任一所述方法，其特征在于，

所述可视化素材至少包括主题、背景、边框、图表组件、交互组件，所述图表组件至少包括下面之一：形图，折线图，饼图，雷达图，散点图、圆环图，条形图，堆积图、面积图，所述交互组件至少包括下面之一：下拉框、时间选择器、滑动输入条、选择框、折叠面板、导航菜单。

6.一种基于知识图谱的指标智能可视化装置，其特征在于，包括：

7.根据权利要求6所述装置，其特征在于，所述指标知识图谱构建模块包括：

8.根据权利要求6所述装置，其特征在于，所述用户习惯统计模块包括：

9.根据权利要求6所述装置，其特征在于，所述用户习惯统计模块还包括：

可视化素材第二权重值确定子模块，其流程包括：

10.根据权利要求8或9所述装置，其特征在于，所述可视化方法确定模块包括以下子模块：

可视化模型构建子模块，用于把所统计的指标k_i所述第一偏好o_ijn与各可视化素材的第二权重值构成训练样本，以及基于所述训练样本利用深度学习的方法构建指标k_i基于各标签u_ij的可视化模型；

11.根据权利要求6-10任一所述装置，其特征在于，

12.一种计算设备，其特征在于，包括：

总线；

通信接口，其与所述总线连接；

至少一个处理器，其与所述总线连接；以及

至少一个存储器，其与所述总线连接并存储有程序指令，所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行权利要求1至5任一所述方法。

13.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令当被计算机执行时使得所述计算机执行权利要求1至5任一所述方法。