CN105956019A

CN105956019A - 大数据分析处理方法

Info

Publication number: CN105956019A
Application number: CN201610255627.0A
Authority: CN
Inventors: 范东来; 何宏靖
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2016-09-21

Abstract

本发明涉及互联网信息处理技术领域，特别涉及大数据分析处理方法，通过设置字段等过滤条件，对原始数据中每篇文档中的关键信息单元进行提取，并形成相应的数据记录，并将各个数据记录存储存储于数据库中，在此基础上，根据不同数据记录中所包含的相同信息单元，应用云计算平台下的大数据处理框架抽象出信息单元之间的关联关系。本发明可以在海量互联网信息中，根据需要分析出海量目标信息背后隐含的关联信息和对应关联路径。本发明方法为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径，目标背景分析，市场推广，市场细分，风险预测和风险防控等提供了有效技术支撑。

Description

大数据分析处理方法

技术领域

本发明涉及本发明涉及互联网技术领域，特别涉及大数据分析处理方法。

背景技术

随着社会的发展和科技的进步，个体或者团体之间的联系变得更加紧密，紧密的联系促进了信息的快速传播和增长，而当今世界早就进入了信息时代，随着信息的爆发式增长和积累，大数据时代已近来临，大数据的基本特征可以用4个“V”来描述，即数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、速度快时效高(Velocity)；作为其中最重要的特点：数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题，在海量的数据里面，如何精确的获得人们关心的信息，就如同海底捞针困难重重；与此同时面对海量的信息，如何去分析某类信息之间的相关性，并以此分析出信息背后隐含价值，大数据中关联关系比因果关系更加重要，关联关系在很多领域有着重要的应用，比如目标背景分析，用户喜好分析等，但是面对如此海量的数据，想要快速准确的分析出数据之间的关联关系，十分困难。

针对特定的信息目标，如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义，因为具有关联关系的目标在进行各种活动时往往比单独的简单个体具有更大的影响面，而且具有关联关系的目标在对外建立各种活动时，受到内部的关联关系的相互牵制或者支持，会比简单目标的活动轨迹更加复杂。而在现实生活中，信息目标之间的关联关系非常复杂，而且一般是隐藏的，人们并不能通过表面活动或者表面信息察觉到，更加不易找出该目标是否和其他目标具有关联关系，或者是何种关联关系。在这样的情况下，这些隐含的关联关系会对人们的社会经济活动带来很多潜在的价值或者风险。要分析这些的隐含关联关系在海量的数据面前将变得更加困难，如果这些任务通过个人逐个实现，将耗费巨大的人力和时间成本；急需一种分析实现方法，帮助分析者来实现这种巨大繁琐的计算过程，提供这种分析结果。

发明内容

本发明的目的在于克服现有技术中所存在的不足，提供大数据分析处理方法，通过云计平台的大数据处理框架，利用不同数据记录中相同的信息单元分析出海量目标信息的关联信息关系，并且根据信息之间的关联途径抽象出对应的关联路径，使得关联信息之间的联系逻辑清晰明了；本发明方法系统可以在海量互联网信息中，根据需要设置分析目标，分析出海量目标信息的关联背景，并且通过关联路径的计算和展示使得相应的关联信息关系清晰简洁，为目标背景分析，市场推广，市场细分，风险预测和风险防控等提供了一种新型的有效途径。

为实现上述目的，本发明提供大数据分析处理方法：根据不同数据记录中所包含相同的信息单元，应用云计算框架下的分布式处理模型抽象出信息单元之间的关联关系(关联关系包括各度关联信息和对应关联路径)。

具体的，所述发明方法包含以下实现步骤：

(1)在一条数据记录中包含第一信息和第二信息，其中第二信息为第一信息的一度关联信息；在第二数据记录中包括第二信息和第三信息，其中第三信息是第二信息的一度关联信息；

(2)以所述第一信息为起点，通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息，并且抽象出所述第一信息经所述第二信息到所述第三信息的关联路径；

在三数据记录中包含第四信息和第三信息，其中所述第四信息为第三信息的一度关联信息，通过云计算平台下的分布式处理框架将所述第四信息抽象成第一信息的三度关联信息，并且抽象出所述第一信息经所述第二信息到所述第三信息到第四信息的关联路径；

依次类推，抽象出以第一信息为起点的N度关联信息以及对应的关联路径，其中N≥1。

其中所述第一信息、第二信息以及第三信息是指信息的内容，不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置)，逐级查找出与目标相关联的其他信息和对应的关联路径，通过关联路径可以很清晰的显示出分析目标与关联信息之间的具体关联途径，为相关问题追踪和定位提供直观明确的参考。可以看出随着关联度N的逐级增加，计算的复杂度和数据维度不断增加，这样复杂而庞大的计算过程通过云计算平台的大数据处理框架(比如Hadoop下的MapReduce和Spark等大数据处理框架)来实现的，MapReduce和Spark可以同时对海量的目标并行的处理，也就是说，从基础数据到N度关联信息的计算，都是多个目标同时并列处理。MapReduce和Spark等大数据处理框架能够使用户只需要按照计算框架提供的接口根据需按照计算框架提供的接口设计上层指令，在不关心底层运行过程的情况下，处理框架根据上层指令自动调用内部的相关资源，并且将任务自动切分，分配到内部的不同节点进行处理，实现了数据的并行高效计算，在处理完成后还自动将处理结果整合后提供给用户；任务完成过程高度自动化，极大的节省了人力，提高了数据的处理效率。本发明利用云计算平台的大数据处理框架为海量目标的关联背景分析提供了快速可靠的处理途径。

进一步的，所述N度关联关系中的计算过程，均以一度关联关系为基础，即是上述关联信息的追踪(计算)过程中，第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算，计算逻辑清晰，运行过程简单，保证了运算结果的准确率。

进一步的，所述二度关联信息按照：一度关联数据、二度关联数据的顺序结构进行存储；并将属于不同关联度的信息单元打上对应的标记，一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同；通过相应的标记，可以很方便的将属于不同关联度的信息区别开来，方便关联信息逐级计算时的数据提取和区分。

进一步的，所述N度关联信息，按照关联度依次增加的顺序结构进行存储；并将属于不同关联度的信息单元打上对应的标记。

进一步的，所述数据记录以及N度关联信息分别存储于不同的非关系型数据库中，比如说HBase、CouchDB、Cassandra、Mongodb等非关系型数据库中。与传统的关系型数据库相比，非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点；并且在面对体量急剧增加的多维度无结构数据时，比如说音频数据、视频数据，传统的非关系型数据库的存储已经不能满足需求。

进一步的，关联关系数据存储于于非关系型数据库的分布式文件系统中(比如HDFS)，HDFS作为Hadoop下面的分布式文件系统，具有高度容错性，适合部署在廉价的机器上，运行和维护成本较低。同时HDFS非常适合用于大规模数据集；采用HDFS来存储待处理数据可以满足海量数据存储，高容错性的需要，并且为采用Hadoop的其他处理方式提供了便利。

进一步的，本发明中所形成的每条关联路径可以数据或者关系图谱的形式进行存储和显示。当用数据进行显示或者存储时，所述关联路径的展示顺序为：以目标信息为起点，关联信息按照关联度数依次增加的顺序进行排列，关联信息之间用连接符进行连接：例如A-B-C-E。当采用关系图谱进行关联路径显示或者存储时，每条关联路径的展示顺序为：以目标信息为起始节点，关联信息节点按照关联度数依次增加的顺序进行排列，关联信息节点之间用连接符依次进行连接。这种关联路径的显示方法，简洁明了路径清晰。

作为一种优选，所述关联关系通过Hadoop下的MapReduce计算框架来实现。

作为一种优选，所述度关联关系通过Spark计算框架来实现。使用类Hadoop系统的Sparkd大数据处理框架来实现关联关系的计算，Spark作为MapReduce的替代方案，可以兼容HDFS分布式存储层，可以融入Hadoop的生态系统圈。Spark是可以搭建大数据内存计算平台，并充分利用内存计算，实现海量数据的实时处理。

与现有技术相比，本发明的有益效果：本发明大数据分析处理方法，从海量的基础数据中，利用不同数据记录中相同的信息单元，将具有隐含联系的相关信息挖掘出来，根据关联的度数将信息之间的关联远近程度进行量化；而且通过关联路径的追踪清晰而简洁的勾勒出了相关信息的关联途径，为相关问题快速追踪和分析提供简洁明了的依据。

不仅如此本发明以云计算平台的大数据处理框架来实现海量关联数据的同时并行的处理，使用户只需按照计算框架提供的接口设计上层指令，在不关心底层运行过程的情况下，任务的切分和资源的调用由大数据处理框架自动实现，并在处理完成后还自动将处理结果整合后提供给用户；任务完成的高度自动化，极大的节省了人力，提高了数据的处理效率。

总之，本发明方法为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径，目标背景分析，市场推广，市场细分，风险预测和防控等提供了有效技术支撑。

附图说明：

图1是本大数据分析处理方法的实现流程示意图。

图2是本大数据分析处理方法的关联算法示意图。

图3是实施例1中3条数据记录示意图。

图4是实施例1中一度关联关系数据表存储结构示意图。

图5是实施例1中二度关联关系数据表存储结构示意图。

图6是实施例1中三度关联关系数据表存储结构示意图。

图7是实施例1中以目标以A为起点的一度关联关系路径示意图。

图8是实施例1中以目标以C为起点的一度关联关系路径示意图。

图9是实施例1中以目标以H为起点的一度关联关系路径示意图。

图10是实施例1中以目标以A为起点的二度关联关系路径示意图。

图11是实施例1中以目标以C为起点的二度关联关系路径示意图。

图12是实施例1中以目标以H为起点的二度关联关系路径示意图。

图13是实施例1中以目标以A为起点的三度关联关系路径示意图。

图14是实施例1中以目标以C为起点的三度关联关系路径示意图。

图15是实施例1中以目标以H为起点的三度关联关系路径示意图。

应该理解本发明附图均为示意性的，不代表具体的步骤和路径。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提供大数据分析处理方法，通过云计平台的大数据处理框架，利用不同数据记录中相同的信息单元分析出海量目标信息的关联信息关系，并且根据信息之间的关联途径抽象出对应的关联路径，使得关联信息之间的联系逻辑清晰明了；本发明方法系统可以在海量互联网信息中，根据需要设置分析目标，分析出海量目标信息的关联背景，并且通过关联路径的计算和展示使得相应的关联信息关系清晰简洁，为目标背景分析，市场推广，市场细分，风险预测和风险防控等提供了一种新型的有效途径。

为实现上述目的，本发明提供大数据分析处理方法根据不同数据记录中所包含相同的信息单元，应用云计算框架下的分布式处理模型抽象出信息单元之间的关联关系。

具体的，所述发明方法包含如图1所示的实现步骤：

(2)以所述第一信息为起点，通过云计算平台下的分布式处理框架将所述第三信息抽象成所述第一信息的二度关联信息，并且抽象出所述第一信息经第二信息到第三信息的关联路径；

依次类推，计算出以第一信息为起点的N度关联信息以及对应的关联路径，其中N≥1。

其中所述第一信息、第二信息以及第三信息是指信息的内容，不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置)，逐级查找出与目标相关联的其他信息和对应的关联路径，通过关联路径可以很清晰的显示出分析目标与关联信息之间的具体关联途径，为相关问题分析提供依据。

可以看出随着关联度N的逐级增加，计算的复杂度和数据维度不断增加，而这样复杂的数据处理过程通过云计算平台的大数据处理框架(比如Hadoop下的MapReduce和Spark等大数据处理框架)得以顺利快速的实现；本发明可以同时对海量的目标并行的处理，也就是说，从基础数据到N度关联信息的计算，都是多个目标同时并列处理。MapReduce和Spark等大数据处理框架能够使用户只需按照计算框架提供的接口设计上层指令，在不关心底层运行过程的情况下，处理框架根据上层指令自动调用内部的相关资源，并且将任务自动切分，分配到内部的不同节点进行处理，实现了数据的并行高效计算，在处理完成后还自动将处理结果整合后提供给用户；任务完成过程高度自动化，极大的节省了人力，提高了数据的处理效率。本发明利用云计算平台的大数据处理框架为海量目标的关联背景分析提供了快速可靠的处理途径。

本发明中的原始数据存储于数据库中，所述原始数据的来源可以是从互联中根据需要爬取的数据，互联中包含广泛丰富的信息来源，从互联网中根据需要爬取相关信息，并将获取的信息进行深度处理，为信息的精细化处理，和深度应用提供一种全新的途径。通过设置字段等过滤条件，对原始数据每篇文档中的关键信息单元进行提取，将提取出的关键信息单元按照设定的顺序排列成一条数据记录，并将各条数据记录存储于数据库中(通常为非关系型数据库)，在此基础上，应用本发明方法抽象出目标信息的关联关系。

本发明一度关联关系的形成以从原始信息中提取出的数据信息的字段和内容作为键值对：其中字段作为“键”，而字段对应的内容为“值”；根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息)，而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息，从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联信息计算的基础。

进一步的，所述一度关联信息，可以按照目标(起点信息)、一度关联信息、关系标签的结构顺序进行存储。所述关联标签是对该一度关联信息与目标信息之间的关联关系的描述，可以为关联数据的查询提供简洁直观的描述。

进一步的，所述步骤(2)中形成的二度关联信息按照：一度关联数据、二度关联数据的顺序结构进行存储；并将属于不同关联度的信息单元打上对应的标记，一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同；通过相应的标记，可以很方便的将属于不同关联度的信息区别开来，方便关联信息逐级计算时的数据提取和区分。

作为一种优选，所述数据记录以及N度关联信息以数据表的形式进行存储，以数据表形式存储的数据，存储结构规范，便于查询和进一步计算。进一步的，所述N度关联信息，按照关联度依次增加的顺序结构进行存储；并将属于不同关联度的信息单元打上对应的标记。

进一步的，所述数据记录以及N度关联信息存储于非关系型数据库中，比如说HBase、CouchDB、Cassandra、Mongodb等非关系型数据库中。与传统的关系型数据库相比，非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点；并且在面对体量急剧增加的多维度无结构数据时，比如说音频数据、视频数据，传统的非关系型数据库的存储已经不能满足需求。

进一步的，所述关联关系(包括关联信息和关联路径)存储于于非关系型数据库的分布式文件系统中(比如HDFS)，HDFS作为Hadoop下面的分布式文件系统，具有高度容错性，适合部署在廉价的机器上，运行和维护成本较低。同时HDFS非常适合用于大规模数据集；采用HDFS来存储待处理数据可以满足海量数据存储，高容错性的需要，并且为采用Hadoop的其他处理方式提供了便利。

进一步的，本发明中所形成的每条关联路径可以数据表或者关系图谱的形式进行存储和显示。当用数据表进行显示或者存储时，所述关联路径的展示顺序为：以目标信息为起点，关联信息按照关联度数依次增加的顺序进行排列，关联信息之间用连接符进行连接：例如A-B-C-E。当采用关系图谱进行关联路径显示或者存储时，每条关联路径的展示顺序为：以目标信息为起始节点，关联信息节点按照关联度数依次增加的顺序进行排列，关联信息节点之间用连接符进行连接。这种关联路径的显示方法，简洁明了路径清晰。

作为一种优选，所述关联关系通过Hadoop下的map-reduce计算框架来实现。

作为一种优选，所述关联关系通过Spark计算框架来实现。使用类Hadoop系统的Sparkd大数据处理框架来实现关联关系的计算，Spark作为MapReduce的替代方案，可以兼容HDFS分布式存储层，可以融入Hadoop的生态系统圈。Spark是可以搭建大数据内存计算平台，并充分利用内存计算，实现海量数据的实时处理。具体的，所述步骤(2)中的二度关联关系通过Spark计算框架中的SQL语句来实现，具体的使用SQL中的join算法来实现：比如说：在一张数据表中包含结构化的两列信息：第一信息，第二信息；第二信息，第三信息；则通过join算法，可以很方便的将第一信息和第二信息经过第二信息连接到一起，形成了第一信息，第二信息，第三信息的新数据结果。

实施例1

下面以其中3条数据作为一个小示例，说明关联信息和关联路径的分析过程。假设在原始数据中经过字段(设置的字段包括：第一字段、第二字段、第三字段以及第四字段)提取，提取出来的数据中包含如图3所示的3条数据记录，其中第一数据记录包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为：A、B、D以及E；第二条数据记录中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为：C、B、F以及G；第三条数据记录中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为：H、F、I。假设将第一字段对应的内容作为关联分析的起点，则第一数据记录可形成：A-B、A-D、A-E的一度关联关系，其中B、D、E均为A的一度关联信息，同时A也为B、D、E的一度关联信息；第二数据记录可形成C-B、C-F、C-G的一度关联关系，其中B、F、G均为C的一度关联信息，同时C也为B、F、G的一度关联信息；第三数据记录可形成：H-F、H-I的一度关联关系，其中F、I为H的一度关联信息，同时H也为F、I的一度关联信息。将一度关联关系以表结构的存储格式进行存储，则可形成如图4所述的结构化的两列。

在上述一度关联的基础上，根据A-B和C-B的一度关联关系中相同的信息单元B，将C抽象成A的二度关联信息，以A为起点，形成A-B-C的关联路径。根据C-B和A-B的一度关联关系中相同的信息单元B，将A抽象成C的二度关联信息，以C为起点，形成C-B-A的关联路径。根据C-F和H-F的一度关联关系中相同的信息单元F，将H抽象成C的二度关联信息；以C为起点，形成C-F-H的关联路径。根据H-F和C-F的一度关联关系中相同的信息单元F，将C抽象成H的二度关联信息；以H为起点，形成H-F-C的关联路径。形成二度关联关系的关联数据存储以数据表形式可采用如图5所示的存储结构。

进一步的，在上述二度关联以及一度关联关系的基础上，以A为起点根据A的二度关联信息C的一度关联信息，可抽象出A-B-C-F，A-B-C-G的关联路径，其中F和G为A的三度关联信息。以C为起点，根据C的二度关联信息A和H的一度关联信息，可抽象出，C-B-A-E，C-B-A-D，C-F-H-I的关联路径，其中D、E、I为C的三度关联信息。同样以H为起点，根据其二度关联信息C的一度关联信息，可形成H-F-C-B，H-F-C-G的关联路径，其中B和G为H的三度关联信息。三度关联信息的存储数据表如图6所示。

值得注意的是在关联信息计算过程中需要去除闭合路径，以此来避免计算中的错误循环。

根据实施例中以A、C、和H为起点的一度关联关系数据形成的对应的关联路径关系图谱分别如图7、图8、图9所示；二度关联关系图谱路径如图10、图11、图12所示；三度关联路径关系图谱如图13、图14、图15所示。

本实施例仅示意性的说明关联信息的计算过程，实际上根据需要所要分析的目标数可以达到万、十万、百万量级；而且从上述实施例可以看出，随着关联度数的增加，所需计算的数据量急剧增加，海量的计算目标的多维关联信息的计算量更加巨大，而本发明采用云计算平台的大数据处理框架，可以根据上述方法，对海量目标并行的进行计算，进而实现了海量目标信息的关联关系分析和挖掘。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化时显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.大数据分析处理方法，其特征在于，包含以下实现过程：

2.如权利要求1所述的大数据分析处理方法，其特征在于，所述关联信息的抽象过程中，所述第一信息的第N度关联信息为第N-1度关联信息的一度关联信息。

3.如权利要求2所述的大数据分析处理方法，其特征在于，所述步骤(1)中，所述N度关联信息按照关联度依次增加的顺序结构进行存储，并将属于不同关联度的信息单元打上对应的标记。

4.如权利要求3所述的大数据分析处理方法，其特征在于，将N度关联数据分别存储于不同的数据库的分布式文件系统中。

5.如权利要求1所述的大数据分析处理方法，其特征在于，所述关联路径以数据表的形式进行存储或显示。

6.如权利要求5所述的大数据分析处理方法，其特征在于，所述关联路径的展示顺序为：以目标信息为起点，关联信息按照关联度数依次增加的顺序进行排列，关联信息之间用连接符依次进行连接。

7.如权利要求1所述的大数据分析处理方法，其特征在于，所述关联路径以关系图谱的形式进行显示。

8.如权利要求7所述的大数据分析处理方法，其特征在于，所述每条关联路径的展示顺序为：以目标信息为起始节点，关联信息节点按照关联度数依次增加的顺序进行排列，节点之间用连接符依次进行连接。

9.如权利要求1至8之一所述的大数据分析处理方法，其特征在于，所述步骤(2)中的N度关联关系通过Hadoop下的MapReduce或者Spark计算框架来计算。

10.如权利要求9所述的大数据分析处理方法，其特征在于，所述步骤(2)中的N≥2度关联关系通过Spark计算框架中的join语句来实现。