CN105930463A - 一种基于云计算平台的大数据处理方法 - Google Patents

一种基于云计算平台的大数据处理方法 Download PDF

Info

Publication number
CN105930463A
CN105930463A CN201610255657.1A CN201610255657A CN105930463A CN 105930463 A CN105930463 A CN 105930463A CN 201610255657 A CN201610255657 A CN 201610255657A CN 105930463 A CN105930463 A CN 105930463A
Authority
CN
China
Prior art keywords
information
degree
data
cloud computing
computing platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610255657.1A
Other languages
English (en)
Inventor
范东来
何宏靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201610255657.1A priority Critical patent/CN105930463A/zh
Publication of CN105930463A publication Critical patent/CN105930463A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网信息处理技术领域,特别涉及一种基于云计算平台的大数据处理方法,根据不同数据记录中所包含的相同信息单元,应用云计算平台下的大数据处理框架抽象出目标信息的关联信息。云计算平台的大数据处理框架例如Hadoop体系下的MapReduce和Spark等,通过将任务自动切分,分配到多个节点处理,分而自治的方式,可以实现海量数据的并行的处理,极大的提高了数据的处理效率。本发明采用大数据处理框架可以在纷繁复杂的互联网信息中,根据需要分析出海量目标信息背后隐含的关联信息;为数据信息的深度挖掘和应用提供了可靠便捷的途径,为目标背景分析,市场推广,市场细分,风险预测和防控等提供了有效技术支撑。

Description

一种基于云计算平台的大数据处理方法
技术领域
本发明涉及本发明涉及互联网技术领域,特别涉及一种基于云计算平台的大数据处理方法。
背景技术
随着社会的发展和科技的进步,个体或者团体之间的联系变得更加紧密,紧密的联系促进了信息的快速传播和增长,而当今世界早就进入了信息时代,随着信息的爆发式增长和积累,大数据时代已近来临,大数据的基本特征:即数据量大、类型繁多、价值密度低、速度快时效高;作为其中最重要的特点:数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题,在海量的数据里面,如何精确的获得人们关心的信息,就如同海底捞针困难重重;与此同时面对海量的信息,如何去分析某类信息之间的相关性,并以此分析出信息背后隐含价值,才在更高、更深的层面体现数据信息的价值,但是面对如此海量的数据,想要快速准确的分析出数据之间的关联关系,十分困难。
针对特定的信息目标,如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义,因为具有关联关系的目标在进行各种活动时往往比单独的简单个体具有更大的影响面,而且具有关联关系的目标在对外建立各种活动时,受到内部的关联关系的相互牵制或者支持,会比简单目标的活动轨迹更加复杂。而关联关系通过是隐藏的,需要人们在复杂繁琐的数据中去挖掘和分析,要分析这些的隐含关联关系在海量的数据面前将变得更加困难,如果这些任务通过个人逐个实现,将耗费巨大的人力和时间成本;急需一种分析实现方法,帮助分析者来实现这种巨大繁琐的计算过程,提供这种分析结果。
发明内容
本发明的目的在于克服现有技术中所存在的不足,提供一种基于云计算平台的大数据处理方法,根据不同数据记录中所包含的相同信息单元,应用云计算平台下的大数据处理框架抽象出目标信息的N度关联信息。云计算平台的大数据处理框架例如Hadoop体系下的MapReduce和Spark等,通过将任务自动切分,分配到多个节点处理,分而自治的方式,可以实现海量数据的并行的处理,极大的提高了数据的处理效率。
具体的,所述发明方法包含以下实现步骤:
(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;
(2)在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息;
(3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,通过云计算平台下的分布式处理框架将所述第四信息抽象成第一信息的三度关联信息;
依次类推,抽象出以第一信息的N度关联信息,其中N≥1。
其中所述第一信息、第二信息、第三信息以及第四信息是指信息的内容,不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置),逐级查找出与目标相关联的其他信息和关联度数。而且本发明关联关系的计算是以云计算平台的大数据处理框架来实现的,可以同时对海量的目标并行的处理,也就是说,从基础数据到N度关联信息的计算,都是多个目标同时并列处理,计算效率极高,显著节省人力。
作为一种优选,所述步骤(2)、步骤(3)中的N度关联关系通过Hadoop下的MapReduce计算框架来实现。
作为一种优选,所述步骤(2)、步骤(3)中的N度关联关系通过Spark计算框架来实现。使用类Hadoop系统的Sparkd大数据处理框架来实现关联关系的计算,Spark作为MapReduce的替代方案,可以兼容HDFS分布式存储层,可以融入Hadoop的生态系统圈。Spark是可以搭建大数据内存计算平台,并充分利用内存计算,实现海量数据的实时处理。
进一步的,所述步骤(2)、(3)中的关联关系通过Spark计算框架中的SQL语句来实现,具体的使用SQL中的join算法来实现:比如说:在一张数据表中包含结构化的两列信息:第一信息,第二信息;第二信息,第三信息;则通过join算法,可以很方便的将第一信息和第二信息经过第二信息连接到一起,形成了第一信息,第二信息,第三信息的新数据结果。
类似的,所述N度关联信息也通过join语句来实现。
本发明中的数据记录存储于数据库中,所述数据记录的原始的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理,和深度应用提供一种全新的途径。
进一步的,所述N度关联关系中的计算过程,均以一度关联关系为基础,即是上述关联信息的追踪(计算)过程中,第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算,计算逻辑清晰,运行过程简单,保证了运算结果的准确率。
进一步的,所述数据记录可以根据需要设置字段,从原始信息中提取出来,将提取出的数据信息的字段和内容作为键值对:其中字段作为“键”,而字段对应的内容为“值”;根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息),而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息,从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联信息计算的基础。
进一步的,所述二度关联信息按照:一度关联数据、二度关联数据的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记,一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同;通过相应的标记,可以很方便的将属于不同关联度的信息区别开来,方便关联信息逐级计算时的数据提取和区分。
进一步的,所述N度关联信息,按照关联度依次增加的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记。
作为一种优选,所述数据记录以及N度关联信息以数据表的形式进行存储,以数据表形式存储的数据,存储结构规范,便于查询和进一步计算。
进一步的,所述数据记录以及N度关联信息存储于非关系型数据库中,比如说HBase、CouchDB、Cassandra、Mongodb等。与传统的关系型数据库相比,非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点;并且在面对体量急剧增加的多维度无结构数据时,比如说音频数据、视频数据,传统的非关系型数据库的存储已经不能满足需求。
进一步的,所述数据记录,和本方法计算出的N度关联数据分别存储于不同的非关系型数据库中。将各度关联数据存储于不同的数据库中,方便在后续的步骤中根据不同的数据库名进行相应的数据内容,方便数据的读取和进行相应的操作。
进一步的,所述步骤(2)、(3)中形成的关联关系存储于于非关系型数据库的分布式文件系统中(比如HDFS),HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,并且为采用Hadoop的其他处理方式提供了便利。
进一步的,在所述方法的基础上提供一种目标背景信息分析方法,上述基于云计算平台的大数据分析处理方法尤其适合用于目标背景情况分析,用户根据需要设置分析字段从相关的网页中提取数据,形成相应的数据记录在形成数据记录的基础上,采用本发明方法,逐级搜索和抽象出目标信息的N度关联方信息,形成目标信息的关联背景数据,挖掘目标的背景信息,为相关商业投资,风险防控提供可靠参考。
与现有技术相比,本发明的有益效果:本发明一种基于云计算平台的大数据处理方法,从海量的基础数据中,提取分析目标的相关关键信息,利用不同数据记录中相同的信息单元,将具有隐含联系的相关信息挖掘出来,根据关联的度数将信息之间的关联远近程度进行量化,为相关问题追踪和背景查找提供了一种快速可靠的通道。
不仅如此本发明以云计算平台的大数据处理框架来实现海量关联数据的同时并行的处理,使用户只需按照计算框架提供的接口设计上层指令,在不关心底层运行过程的情况下,任务的切分和资源的调用由大数据处理框架自动实现,并在处理完成后还自动将处理结果整合后提供给用户;任务完成的高度自动化,极大的节省了人力,提高了数据的处理效率。
总之,本发明方法为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径,目标背景分析,市场推广,市场细分,风险预测和风险防控等提供了有效技术支撑。
附图说明:
图1是本一种基于云计算平台的大数据处理方法的实现流程示意图。
图2是本一种基于云计算平台的大数据处理方法的关联算法示意图。
图3是实施例1中的的3条数据记录示意图。
图4是实施例1中的一度关联关系数据表存储结构示意图。
图5是实施例1中的二度关联关系数据表存储结构示意图。
图6是实施例1中三度关联关系数据表存储结构示意图。
应该理解本发明附图均为示意性的,不代表具体的步骤和路径。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明的目的在于克服现有技术中所存在的不足,提供一种基于云计算平台的大数据处理方法,如图1所示,通过云计平台的大数据处理框架,利用不同数据记录中相同的信息单元分析出海量目标信息之间的关联关系;云计算平台的大数据处理框架例如Hadoop体系下的MapReduce和Spark等,通过将任务自动切分,分配到多个节点处理,分而自治的方式,可以实现海量数据的并行的处理,极大的提高了数据的处理效率。本发明方法系统可以在繁琐复杂的互联网信息中,快速的分析出目标信息的关联关系以及有何种关联关系,为目标背景分析,市场推广,市场细分,风险预测和防控等提供了一种新型的有效途径。
为实现上述目的,本发明提供一种基于云计算平台的大数据处理方法:通过设置字段等过滤条件,对原始数据每篇文档中的关键信息单元进行提取,将提取出的关键信息单元按照设定的顺序排列成一条数据记录,并将各条数据记录存储于数据库中(通常为非关系型数据库),在此基础上,根据不同数据记录中所包含相同的信息单元,应用云计算框架下的分布式处理模型抽象出信息单元之间的关联关系。
具体的,所述发明方法实现步骤如下:
(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;
(2)在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息;
(3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,通过云计算平台下的分布式处理框架将所述第四信息抽象成第一信息的三度关联信息;
依次类推,抽象出以第一信息的N度关联信息,其中N≥1。关联信息的计算过程如图2所示;
其中所述第一信息、第二信息、第三信息以及第四信息是指信息的内容,不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置),逐级查找出与目标相关联的其他信息。而且本发明关联关系的计算是以云计算平台的大数据处理框架来实现的,可以同时对海量的目标并行的处理,也就是说,从基础数据到N度关联信息的计算,都是多个目标同时并列处理。可以看出随着关联度N的逐级增加,计算的复杂度和数据维度不断增加,而这样复杂的数据处理过程通过云计算平台的大数据处理框架(比如Hadoop下的MapReduce和spark等大数据处理框架)得以顺利快速的实现;MapReduce和spark等大数据处理框架能够使用户只需按照计算框架提供的接口设计上层指令,在不关心底层运行过程的情况下,处理框架根据上层指令自动调用内部的相关资源,并且将任务自动切分,分配到内部的不同节点进行处理,实现了数据的并行高效计算,在处理完成后还自动将处理结果整合后提供给用户;任务完成过程高度自动化,极大的节省了人力,提高了数据的处理效率。本发明利用云计算平台的大数据处理框架为海量目标的关联背景分析提供了快速可靠的处理途径。
作为一种优选,所述步骤(2)、步骤(3)中的N度关联关系通过Hadoop下的MapReduce计算框架来实现。
作为一种优选,所述步骤(2)、步骤(3)中的N度关联关系通过Spark计算框架来实现。使用类Hadoop系统的Sparkd大数据处理框架来实现关联关系的计算,Spark作为MapReduce的替代方案,可以兼容HDFS分布式存储层,可以融入Hadoop的生态系统圈。Spark是可以搭建大数据内存计算平台,并充分利用内存计算,实现海量数据的实时处理。
进一步的,所述步骤(3)中的二度关联关系通过Spark计算框架中的SQL语句来实现,具体的使用SQL中的join算法来实现:比如说:在一张数据表中包含结构化的两列信息:第一信息,第二信息;第二信息,第三信息;则通过join算法,可以很方便的将第一信息和第二信息经过第二信息连接到一起,形成了第一信息,第二信息,第三信息的新数据结果。类似的,所述N度关联信息也通过join语句来实现。
本发明中的数据记录存储于数据库中,所述数据记录的原始的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理,和深度应用提供一种全新的途径。
进一步的,所述数据记录可以根据需要设置字段,从原始信息中提取出来,将提取出的数据信息的字段和内容作为键值对:其中字段作为“键”,而字段对应的内容为“值”;根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息),而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息,从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联信息计算的基础。
进一步的,所述N度关联关系中的计算过程,均以一度关联关系为基础,即是上述关联信息的追踪(计算)过程中,第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算,计算逻辑清晰,运行过程简单,保证了运算结果的准确率。
进一步的,所述一度关联信息按照统一的结构顺序,进行存储。将一度关联信息按照设定的统一的结构和顺序进行存储,使得不同目标所形成的一度关联信息数据存储格式一致,便于后续步骤的数据处理。
进一步的,所述一度关联信息,可以按照目标(起点信息)、一度关联信息、关系标签的结构顺序进行存储。所述关联标签是对该一度关联信息与目标信息之间的关联关系的描述,可以为关联数据的查询提供简洁直观的描述。
进一步的,所述二度关联信息按照:一度关联数据、二度关联数据的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记,一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同;通过相应的标记,可以很方便的将属于不同关联度的信息区别开来,方便关联信息逐级计算时的数据提取和区分。
进一步的,所述N度关联信息,按照关联度依次增加的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记。
作为一种优选,所述数据记录以及N度关联信息以数据表的形式进行存储,以数据表形式存储的数据,存储结构规范,便于查询和进一步计算。
进一步的,所述数据记录以及N度关联信息存储于不同的非关系型数据库中,比如说HBase、CouchDB、Cassandra、Mongodb等非关系型数据库中。与传统的关系型数据库相比,非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点;并且在面对体量急剧增加的多维度无结构数据时,比如说音频数据、视频数据,传统的非关系型数据库的存储已经不能满足需求。
进一步的,所述N度关联信息存储于于非关系型数据库的分布式文件系统中(比如HDFS),HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,对部署机器要求不高,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,并且为采用Hadoop的其他处理方式提供了便利。
实施例1
下面以其中3条数据作为一个小示例,说明关联关系的分析过程。假设在原始数据中经过字段(设置的字段包括:第一字段、第二字段、第三字段以及第四字段)提取,提取出来的数据中包含如图3所示的3条数据记录,其中第一数据记录包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:A、B、D以及E;第二条数据记录中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:C、B、F以及G;第三条信息中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:H、F、I(第四字段提取内容为空)。假设将第一字段对应的内容作为关联分析的起点,则以字段为键,将字段对应的内容作为值,将第一字段对应的内容作为起点,将其他字段对应的内容抽象为起点的一度关联信息,每条数据记录根据这样的方法进行计算,将计算结果存储于同一个数据库中,将一度关联关系以表结构的存储格式进行存储,最终可形成包含所有一度关联关系的结构化两列数据,如图4所示。第一数据记录可形成:A-B、A-D、A-E的一度关联关系,其中B、D、E均为A的一度关联信息,同时A也为B、D、E的一度关联信息;第二数据记录可形成C-B、C-F、C-G的一度关联关系,其中B、F、G均为C的一度关联信息,同时C也为B、F、G的一度关联信息;第三数据记录可形成:H-F、H-I的一度关联关系,其中F、I为H的一度关联信息,同时H也为F、I的一度关联信息。
在上述一度关联的基础上,根据A-B和C-B的一度关联关系中相同的信息单元B,将C抽象成A的二度关联信息,以A为起点,形成A-B-C的关联路径。根据C-B和A-B的一度关联关系中相同的信息单元B,将A抽象成C的二度关联信息,以C为起点,形成C-B-A的关联路径。根据C-F和H-F的一度关联关系中相同的信息单元F,将H抽象成C的二度关联信息;以C为起点,形成C-F-H的关联路径。根据H-F和C-F的一度关联关系中相同的信息单元F,将C抽象成H的二度关联信息;以H为起点,形成H-F-C的关联路径。形成二度关联关系的关联数据存储以数据表形式可采用如图5所示的存储结构。
进一步的,在上述二度关联以及一度关联关系的基础上,以A为起点根据A的二度关联信息C的一度关联信息,可抽象出A-B-C-F,A-B-C-G的关联路径,其中F和G为A的三度关联信息。以C为起点,根据C的二度关联信息A和H的一度关联信息,可抽象出,C-B-A-E,C-B-A-D,C-F-H-I的关联路径,其中D、E、I为C的三度关联信息。同样以H为起点,根据其二度关联信息C的一度关联信息,可形成H-F-C-B,H-F-C-G的关联路径,其中B和G为H的三度关联信息。三度关联信息的存储数据表如图6所示。
进一步的,在所述方法的基础上提供一种目标背景信息分析方法,上述基于云计算平台的大数据分析处理方法尤其适合用于目标背景情况分析,用户根据需要设置分析字段从相关的网页中提取数据,形成相应的数据记录在形成数据记录的基础上,采用本发明方法,逐级搜索和抽象出目标信息的N度关联方信息,形成目标信息的关联背景数据,挖掘目标的背景信息,为相关商业投资,风险防控提供可靠参考。
本实施例仅示意性的说明关联信息的计算过程,实际上根据需要所要分析的目标数可以达到万、十万、百万量级;而且从上述实施例可以看出,随着关联度数的增加,所需计算的数据量急剧增加,海量的计算目标的多维关联信息的计算量更加巨大,而本发明采用云计算平台的大数据处理框架,可以根据上述方法,对海量目标并行的进行计算,进而实现了海量目标信息的关联关系分析和挖掘。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化时显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (10)

1.一种基于云计算平台的大数据处理方法,其特征在于,包含以下实现过程:
(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;
(2)在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息;
(3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,通过云计算平台下的分布式处理框架将所述第四信息抽象成第一信息的三度关联信息;
依次类推,抽象出第一信息的N度关联信息,其中N≥1。
2.如权利要求1所述的方法,其特征在于,所述N度关联关系通过Hadoop下的MapReduce计算框架来计算。
3.如权利要求1所述的方法,其特征在于,所述N度关联关系通过Spark计算框架来计算。
4.如权利要求1至3之一所述的方法,其特征在于,所述关联信息的抽象过程中,所述第一信息的第N度关联信息为第N-1度关联信息的一度关联信息。
5.如权利要求4所述的方法,其特征在于,所述数据记录存储于非关系型数据库中。
6.如权利要求5所述的方法,其特征在于,所述N度关联信息按照关联度依次增加的顺序结构进行存储。
7.如权利要求6所述的方法,其特征在于,将将属于不同关联度的信息单元打上对应的标记。
8.如权利要求7所述的方法,其特征在于,将N度关联数据分别存储于不同的数据库中。
9.如权利要求7所述的方法,其特征在于,所述N度关联数据存储于对应数据库中的分布式文件系统中。
10.一种目标背景信息分析方法,其特征在于,采用如权利要求1-9之一所述的方法来实现目标背景分析。
CN201610255657.1A 2016-04-21 2016-04-21 一种基于云计算平台的大数据处理方法 Pending CN105930463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610255657.1A CN105930463A (zh) 2016-04-21 2016-04-21 一种基于云计算平台的大数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610255657.1A CN105930463A (zh) 2016-04-21 2016-04-21 一种基于云计算平台的大数据处理方法

Publications (1)

Publication Number Publication Date
CN105930463A true CN105930463A (zh) 2016-09-07

Family

ID=56839668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610255657.1A Pending CN105930463A (zh) 2016-04-21 2016-04-21 一种基于云计算平台的大数据处理方法

Country Status (1)

Country Link
CN (1) CN105930463A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779824A (zh) * 2016-12-01 2017-05-31 上海携程国际旅行社有限公司 旅游线路产品的起价计算的任务的生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779824A (zh) * 2016-12-01 2017-05-31 上海携程国际旅行社有限公司 旅游线路产品的起价计算的任务的生成方法

Similar Documents

Publication Publication Date Title
CN112115198B (zh) 一种城市遥感智能服务平台
US9251277B2 (en) Mining trajectory for spatial temporal analytics
CN104317801B (zh) 一种面向大数据的数据清洗系统及方法
CN107590250A (zh) 一种时空轨迹生成方法及装置
CN106933833B (zh) 一种基于空间索引技术的位置信息快速查询方法
CN106709012A (zh) 一种大数据分析方法及装置
CN107145523B (zh) 基于迭代匹配的大型异构知识库对齐方法
CN105930466A (zh) 一种海量数据处理方法
CN105912666A (zh) 一种面向云平台的混合结构数据高性能存储、查询方法
CN105956018A (zh) 基于云计算平台的海量关联数据分析及可视化实现方法
CN105956016A (zh) 关联信息可视化处理系统
CN105930465A (zh) 一种数据挖掘处理方法
CN105095436A (zh) 数据源数据自动建模方法
Kricke et al. Graph data transformations in Gradoop
CN105844398A (zh) 一种基于plm数据库面向dpipp产品族的挖掘算法
Arora et al. Big data: A review of analytics methods & techniques
CN104219088A (zh) 一种基于Hive的网络告警信息OLAP方法
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
CN103150470A (zh) 一种动态数据环境下的数据流概念漂移可视化方法
CN104133913A (zh) 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法
CN105930463A (zh) 一种基于云计算平台的大数据处理方法
CN105930462A (zh) 基于云计算平台的海量数据处理方法
Li et al. Spatial Data Science
CN105956019A (zh) 大数据分析处理方法
US11386340B2 (en) Method and apparatus for performing block retrieval on block to be processed of urine sediment image

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160907

WD01 Invention patent application deemed withdrawn after publication