CN105956018A

CN105956018A - 基于云计算平台的海量关联数据分析及可视化实现方法

Info

Publication number: CN105956018A
Application number: CN201610255491.3A
Authority: CN
Inventors: 何宏靖; 范东来
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2016-09-21

Abstract

本发明涉及信息处理技术领域，特别涉及基于云计算平台的海量关联数据分析及可视化实现方法，根据不同数据记录中所包含的相同信息单元，应用云计算平台下的大数据处理框架抽象出目标信息的关联信息，在此基础上，利用可视化工具绘制出以目标信息为0级节点的关联图谱。本发明的信息处理在云计算平台的大数据处理框架实现任务自动切分、并行计算，处理效率高。实现海量目标的关联关系可视化、图谱化，直观清晰、一目了然，为目标背景分析、市场推广、风险预测和防控等提供了可靠参考依据。

Description

基于云计算平台的海量关联数据分析及可视化实现方法

技术领域

本发明涉及本发明涉及互联网技术领域，特别涉及基于云计算平台的海量关联数据分析及可视化实现方法。

背景技术

随着社会的发展和科技的进步，个体或者团体之间的联系变得更加紧密，紧密的联系促进了信息的快速传播和增长，而当今世界早就进入了信息时代，随着信息的爆发式增长和积累，大数据时代已近来临，大数据的基本特征：即数据量大、类型繁多、价值密度低、速度快时效高；作为其中最重要的特点：数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题，在海量的数据里面，如何精确的获得人们关心的信息，就如同海底捞针困难重重；与此同时面对海量的信息，如何去分析某类信息之间的相关性，并以此分析出信息背后隐含价值，才在更高、更深的层面体现数据信息的价值，但是面对如此海量的数据，想要快速准确的分析出数据之间的关联关系，十分困难。

针对特定的信息目标，如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义，因为具有关联关系的目标在进行各种活动时往往比单独的简单个体具有更大的影响面，而且具有关联关系的目标在对外建立各种活动时，受到内部的关联关系的相互牵制或者支持，会比简单目标的活动轨迹更加复杂。而关联关系通过是隐藏的，需要人们在复杂繁琐的数据中去挖掘和分析，要分析这些的隐含关联关系在海量的数据面前将变得更加困难，如果这些任务通过个人逐个实现，将耗费巨大的人力和时间成本；在特定的行业领域中这种数据分析更加频繁，如果可以通过一个平台来帮助相关从业人员自动分析出目标信息的相关背景，将极大减轻从业人员的工作负荷，提升行业的工作效率。

发明内容

本发明的目的在于克服现有技术中所存在的不足，提供基于云计算平台的海量关联数据分析及可视化实现方法，根据不同数据记录中所包含的相同信息单元，应用云计算平台下的大数据处理框架抽象出目标信息的N度关联信息，在此基础上通过可视化处理工具，绘制出以目标信息为0级节点的关联关联图谱。云计算平台的大数据处理框架例如Hadoop体系下的MapReduce和Spark等，通过将任务自动切分，分配到多个节点处理，分而自治的方式，可以实现海量数据的并行的处理，极大的提高了数据的处理效率。

具体的，所述发明方法包含以下实现步骤：

(1)在一条数据记录中包含第一信息和第二信息，其中第二信息为第一信息的一度关联信息；

(2)在第二数据记录中包括第二信息和第三信息，其中第三信息是第二信息的一度关联信息；

(3)通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息；依次类推，抽象出以第一信息的N度关联信息，其中N≥1；

(4)根据所述步骤(3)得出的关联关系数据，利用可视化工具将第一信息抽象成0级节点，将第二信息作为第一信息的1级子节点扩展到第一信息节点的外围，将第三信息作为第二信息的1级子节点扩展到第二信息节点的外围；依次类推，扩展出以第一信息节点为中心的各级节点依次扩展在对应上一级节点外围的关联图谱。

作为一种优选，所述步骤(2)、步骤(3)中的N度关联关系通过Hadoop下的MapReduce计算框架来实现。

作为一种优选，所述步骤(2)、步骤(3)中的N度关联关系通过Spark计算框架来实现。进一步的，所述步骤(3)中的二度关联关系通过Spark计算框架中的SQL语句来实现，具体的使用SQL中的join算法来实现。

类似的，所述N度关联信息也通过join语句来实现。

本发明中的数据记录存储于数据库中，所述数据记录的原始的来源可以是从互联中根据需要爬取的数据，互联中包含广泛丰富的信息来源，从互联网中根据需要爬取相关信息，并将获取的信息进行深度处理，为信息的精细化处理，和深度应用提供一种全新的途径。

进一步的，所述N度关联关系中的计算过程，均以一度关联关系为基础，即是上述关联信息的追踪(计算)过程中，第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算，计算逻辑清晰，运行过程简单，保证了运算结果的准确率。

进一步的，所述数据记录可以根据需要设置字段，从原始信息中提取出来，将提取出的数据信息的字段和内容作为键值对。

进一步的，所述N度关联信息，按照关联度依次增加的顺序结构进行存储；并将属于不同关联度的信息单元打上对应的标记。

进一步的，所述数据记录以及N度关联信息存储于非关系型数据库中，比如说Hbase、CouchDB、Cassandra、Mongodb等。

进一步的，所述步骤(2)、(3)中形成的关联关系存储于于非关系型数据库的分布式文件系统中(比如HDFS)。

进一步的，所述关联关系数据或者关联图谱绘制的节点扩展遵循广度优先原则。

进一步的，所述可视化过程中：将目标信息置于可视化图的中心；将相同级数的节点分散在一个圆周上，并围绕在上一级节点围成的圆的外面。

进一步的，所述关联图谱中，使用不同的颜色和，或不同形状来区分各级节点。

作为一种优选，所述步骤(4)中所采用的可视化工具为：yEd、D3或者jcharts。

进一步的，所关联图谱通过Web端口提供给用户查询使用。

与现有技术相比，本发明的有益效果：本发明基于云计算平台的海量关联数据分析及可视化实现方法，云计算平台的大数据处理框架来实现海量关联数据的同时并行的处理，使用户只需按照计算框架提供的接口设计上层指令，在不关心底层运行过程的情况下，从海量的基础数据中，提取分析目标的相关关键信息，利用不同数据记录中相同的信息单元，将具有隐含联系的相关信息挖掘出来；在关联关系数据分析的基础上，本发明方法使用可视化工具实现关联关系数据的图谱化展示，达到目标信息的关联网络简洁明了、直观可见的效果，节省数据分析的时间。

此外，本发明方法可以Web查询的方式，以在线或者离线绘制的方式将目标信息的关联图谱提供给用户查询使用，这将极大的减轻相关行业从业人员用于数据分析和整理的工作负荷，提高行业工作效率。

附图说明：

图1是本基于云计算平台的海量关联数据分析及可视化实现方法的实现流程示意图。

图2是本基于云计算平台的海量关联数据分析及可视化实现方法的关联算法示意图。

图3是实施例1中数据提取结果示意图。

图4是实施例1中一度关联关系数据示意图。

图5是实施例1中以a以起点的三级关联图谱示意图。

图6是实施例1中以f以起点的三级关联图谱示意图。

图7是实施例1中以k以起点的三级关联图谱示意图。

图8是实施例1中以p以起点的三级关联图谱示意图。

应该理解本发明附图均为示意性的，不代表具体的步骤和路径。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明的目的在于克服现有技术中所存在的不足，提供基于云计算平台的海量关联数据分析及可视化实现方法，如图1所示，通过设置字段等过滤条件，对原始数据(原始的来源可以是从互联中根据需要爬取的数据，互联中包含广泛丰富的信息来源，从互联网中根据需要爬取相关信息，并将获取的信息进行深度处理，为信息的精细化处理，和深度应用提供一种全新的途径。)每篇文档中的关键信息单元进行提取，将提取出的关键信息单元按照设定的顺序排列成一条数据记录，通过云计平台的大数据处理框架，利用不同数据记录中相同的信息单元分析出海量目标信息之间的关联关系；云计算平台的大数据处理框架例如Hadoop体系下的MapReduce和Spark等，通过将任务自动切分，分配到多个节点处理，分而自治的方式，可以实现海量数据的并行的处理，极大的提高了数据的处理效率，在关联数据分析的基础上，使用可视化工具将目标信息的关联关系以关联图谱的形式展示出来，直观易懂，到达一图胜千言的效果。

为实现上述目的，具体的，所述发明方法实现步骤如下：

(1)在一条数据记录中包含第一信息和第二信息，其中第二信息为第一信息的一度关联信息。

(2)在第二数据记录中包括第二信息和第三信息，其中第三信息是第二信息的一度关联信息。

(3)通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息；依次类推，抽象出以第一信息的N度关联信息，其中N≥1，如图2所示。

其中所述第一信息、第二信息以及第三信息是指信息的内容，不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置)，逐级查找出与目标相关联的其他信息。而且本发明关联关系的计算是以云计算平台的大数据处理框架来实现的，可以同时对海量的目标并行的处理，也就是说，从基础数据到N度关联信息的计算，都是多个目标同时并列处理。可以看出随着关联度N的逐级增加，计算的复杂度和数据维度不断增加，而这样复杂的数据处理过程通过云计算平台的大数据处理框架(比如Hadoop下的MapReduce和spark等大数据处理框架)得以顺利快速的实现；MapReduce和spark等大数据处理框架能够使用户只需按照计算框架提供的接口设计上层指令，在不关心底层运行过程的情况下，处理框架根据上层指令自动调用内部的相关资源，并且将任务自动切分，分配到内部的不同节点进行处理，实现了数据的并行高效计算，在处理完成后还自动将处理结果整合后提供给用户；任务完成过程高度自动化，极大的节省了人力，提高了数据的处理效率。本发明利用云计算平台的大数据处理框架为海量目标的关联背景分析提供了快速可靠的处理途径。

作为一种优选，所述步骤(2)、步骤(3)中的N度关联关系通过Spark计算框架来实现。使用类Hadoop系统的Sparkd大数据处理框架来实现关联关系的计算，Spark作为MapReduce的替代方案，可以兼容HDFS分布式存储层，可以融入Hadoop的生态系统圈。Spark是可以搭建大数据内存计算平台，并充分利用内存计算，实现海量数据的实时处理。

进一步的，所述步骤(3)中的二度关联关系通过Spark计算框架中的SQL语句来实现，具体的使用SQL中的join算法来实现：比如说：在一张数据表中包含结构化的两列信息：第一信息，第二信息；第二信息，第三信息；则通过join算法，可以很方便的将第一信息和第二信息经过第二信息连接到一起，形成了第一信息，第二信息，第三信息的新数据结果。类似的，所述N度关联信息也通过join语句来实现。

进一步的，所述数据记录可以根据需要设置字段，从原始信息中提取出来，将提取出的数据信息的字段和内容作为键值对：其中字段作为“键”，而字段对应的内容为“值”；根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息)，而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息，从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联信息计算的基础。

进一步的，所述数据记录以及N度关联信息存储于不同的非关系型数据库中，比如说Hbase、CouchDB、Cassandra、Mongodb等非关系型数据库中。与传统的关系型数据库相比，非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点；并且在面对体量急剧增加的多维度无结构数据时，比如说音频数据、视频数据，传统的非关系型数据库的存储已经不能满足需求。

进一步的，所述N度关联信息存储于于非关系型数据库的分布式文件系统中(比如HDFS)，HDFS作为Hadoop下面的分布式文件系统，具有高度容错性，对部署机器要求不高，运行和维护成本较低。同时HDFS非常适合用于大规模数据集；采用HDFS来存储待处理数据可以满足海量数据存储，高容错性的需要，并且为采用Hadoop的其他处理方式提供了便利。

进一步的，所述关联关系数据或者关联图谱绘制的节点扩展遵循广度优先原则。广度优先原则扩展节点的顺序是将某一层上的所有节点都搜索到之后才向下一层搜索；这样扩展节点的好处在于，所形成的图谱以目标信息为中心逐级扩展节点，用户根据分析深度的需要选择展示的关联图谱节点最高级数，在选择的级数以内，更够显示全部节点而不会出现遗漏，方便用户根据需要获得所需的全量数据。

进一步的，所述可视化过程中：将目标信息置于可视化图的中心；将相同级数的节点分散在一个圆周上，并围绕在上一级节点围成的圆的外面。节点层次感很强，方便用户直观了解目标信息的关联信息分布情况。

进一步的，所关联图谱通过Web端口提供给用户查询使用。为了方便问题的分析，节省相关从业人员的重复性劳动，通过本发明方法实习的可视化关联图谱可以网页查询的方式提供给用户，这样用户在进行目标信息分析时，不再需在庞大的基础数据中要逐个查找资料，逐个的去构建关联关系，再逐个的去分析目标信息的庞大关联网络，而是通过网页直接查询经过本发明方法实现的目标信息的关联图谱，缩短数据分析时间提高决策制定的效率。

实施例1

在原始数据中经过字段(设置的字段包括：第一字段、第二字段、第三字段)提取，提取出来4条数据记录如图3所示，其中第一数据记录包含的根据第一字段提取的内容a，第二字段提取的内容b，第三字段所对应的信息内容为c、d、e；第二条数据记录中包含根据第一字段提取的内容f，第二字段提取的内容g、h第三字段对应的信息内容c、d、i、j；第三条数据记录中包含的根据第一字段提取内容k，第二字段提取的内容a、d，第三字段对应的信息内容l、m、n、o。第四条数据记录中包含根据第一字段提取的内容p，第二字段提取的内容d、g第三字段对应的信息内容m、n、s、t。以第一字段对应的信息为目标信息，则分别构建出的以a、f、k、p为目标信息的一度关联关系为，(a-b)(a-c)(a-d)(a-e)，(f-g)(f-h)(f-c)(f-d)(f-i)(f-j)，(k-a)(k-d)(k-l)(k-m)(k-n)(k-o)，(p-d)(p-g)(p-m)(p-n)(p-s)(p-t)，如图4所示。使用云计算平台的大数据处理框架Spark抽象出a、f、k、p为目标信息的二度关联关系为：(a-c-f)(a-d-k)(a-d-p)，(f-g-p)(f-c-a)(f-d-a)(f-d-k)(f-d-p)，(k-a-b)(k-a-c)(k-a-d)(k-a-e)(k-d-a)(k-d-f)(k-d-p)(k-m-p)(k-n-p)，(p-d-a)(p-d-f)(p-d-k)(p-g-f)(p-m-f)(p-n-f)，a、f、k、p为目标信息的三度关联关系为(a-c-f-g)(a-c-f-h)(a-c-f-d)(a-c-f-i)(a-c-f-j)(a-d-k-a)(a-d-k-l)(a-d-k-m)(a-d-k-m)(a-d-k-n)(a-d-k-o)(a-d-p-g)(a-d-p-m)(a-d-p-n)(a-d-p-s)(a-d-p-t)，(f-g-p-d)(f-g-p-m)(f-g-p-n)(f-g-p-s)(f-g-p-t)(f-c-a-b)(f-c-a-d)(f-c-a-e)(f-d-a-b)(f-d-a-c)(f-d-a-e)(f-d-k-a)(f-d-k-l)(f-d-k-m)(f-d-k-n)(f-d-k-o)(f-d-p-g)(f-d-p-m)(f-d-p-n)(f-d-p-s)(f-d-p-t)，(k-a-c-f)(k-a-d-p)(k-a-d-f)(k-d-a-b)(k-d-a-c)(k-d-a-e)(k-d-f-g)(k-d-f-h)(k-d-f-c)(k-d-f-i)(k-d-f-j)(k-d-p-g)(k-d-p-m)(k-d-p-n)(k-d-p-s)(k-d-p-t)(k-m-p-d)(k-m-p-g)(k-m-p-n)(k-m-p-s)(k-m-p-t)，(k-n-p-d)(k-n-p-g)(k-n-p-m)(k-n-p-o)，(p-d-a-b)(p-d-a-c)(p-d-a-e)(p-d-f-g)(p-d-f-h)(p-d-f-c)(p-d-f-i)(p-d-f-j)(p-d-k-a)(p-d-k-l)(p-d-k-m)(p-d-k-n)(p-d-k-o)(p-g-f-h)(p-g-f-c)(p-g-f-c)(p-g-f-d)(p-g-f-i)(p-g-f-j)(p-m-f-g)(p-m-f-h)(p-m-f-c)(p-m-f-d)(p-m-f-i)(p-m-f-j)(p-n-f-g)(p-n-f-h)(p-n-f-c)(p-n-f-d)(p-n-f-i)(p-n-f-j)……本实施例仅示意性的说明关联信息的计算过程，实际上根据需要所要分析的目标数可以达到万、十万、百万量级；而且从上述实施例可以看出，随着关联度数的增加，所需计算的数据量急剧增加，海量的计算目标的多维关联信息的计算量更加巨大，而本发明采用云计算平台的大数据处理框架，可以根据上述方法，对海量目标并行的进行计算，计算效率高。

进一步的，根据上述关联数据和关联路径，利用可视化处理工具yEd、D3或者jcharts绘制出以a、f、k、p为0级节点的三度关联关系图谱分别如图5、图6、图7、图8所示。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化时显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.基于云计算平台的海量关联数据分析及可视化实现方法，其特征在于，包含以下实现过程：

(3)通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息；

依次类推，抽象出第一信息的N度关联信息，其中N≥1；

(4)根据所述步骤(3)得出的关联关系数据，利用可视化工具将第一信息抽象成0级节点，将第二信息作为第一信息的1级子节点添加到第一信息节点的外围，将第三信息作为第二信息的1级子节点添加到第二信息节点的外围；

依次类推，扩展出以第一信息节点为中心的各级节点依次添加在对应上一级节点外围的关联图谱。

2.如权利要求1所述的方法，其特征在于，所述N度关联关系通过Hadoop下的MapReduceMapReduce或者Spark计算框架来计算。

3.如权利要求2所述的方法，其特征在于，所述数据记录存储于非关系型数据库中。

4.如权利要求3所述的方法，其特征在于，所述N度关联数据存储于数据库中的分布式文件系统中。

5.如权利要求4所述的方法，其特征在于，所述关联关系数据或者关联图谱绘制的节点扩展遵循广度优先原则。

6.如权利要求1至5之一所述的方法，其特征在于，其可视化过程为：将目标信息置于可视化图的中心；将相同级数的节点分散在一个圆周上，并围绕在上一级节点围成的圆的外面。

7.如权利要求6所述的方法，其特征在于，所述关联图谱中，使用不同的颜色和，或不同形状来区分各级节点。

8.如权利要求7所述的方法，其特征在于，所述步骤(4)中所采用的可视化工具为：yEd、D3或者jcharts。

9.如权利要求8所述的方法，其特征在于，所关联图谱通过Web端口提供给用户查询使用。