CN106682206A - 一种大数据处理方法及系统 - Google Patents

一种大数据处理方法及系统 Download PDF

Info

Publication number
CN106682206A
CN106682206A CN201611260404.XA CN201611260404A CN106682206A CN 106682206 A CN106682206 A CN 106682206A CN 201611260404 A CN201611260404 A CN 201611260404A CN 106682206 A CN106682206 A CN 106682206A
Authority
CN
China
Prior art keywords
user behavior
big data
data
big
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611260404.XA
Other languages
English (en)
Inventor
杨吉东
姜文涛
薛昊原
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201611260404.XA priority Critical patent/CN106682206A/zh
Publication of CN106682206A publication Critical patent/CN106682206A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种大数据处理方法,包括:采集用户行为大数据;将采集到的用户行为大数据保存至预先搭建的分布式数据库系统;其中,分布式数据库系统包括N个数据库节点,N为大于1的整数;利用分布式框架以及预设的数据挖掘模型,分别对上述N个数据库节点上的用户行为大数据进行数据挖掘处理,相应地得到N组用户行为分析结果;将上述N组用户行为分析结果进行汇集,得到用户行为整体分析结果。本申请实现了对大数据进行高效地分析处理的目的。另外,本申请还相应公开了一种大数据处理系统。

Description

一种大数据处理方法及系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种大数据处理方法及系统。
背景技术
当前,随着信息时代的发展,人们在日常工作生活中所产生的数据越来越多,这些大数据一方面对存储技术提出了更高的要求,另一方面由于这些大数据能够反映出特定对象的行为规律,如果能够通过对这些大数据进行分析处理来确定出这些大数据背后所蕴含的意义,将会为企业在开发产品或提供服务时提供非常关键的指引作用。
然而,如何对大数据进行高效地分析处理依然是目前有待进一步解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种大数据处理方法及系统,能够实现对大数据进行高效地分析处理。其具体方案如下:
一种大数据处理方法,包括:
采集用户行为大数据;
将采集到的用户行为大数据保存至预先搭建的分布式数据库系统;其中,所述分布式数据库系统包括N个数据库节点,N为大于1的整数;
利用分布式框架以及预设的数据挖掘模型,分别对所述N个数据库节点上的用户行为大数据进行数据挖掘处理,相应地得到N组用户行为分析结果;
将所述N组用户行为分析结果进行汇集,得到用户行为整体分析结果。
可选的,所述分布式数据库系统为Oracle RAC数据库系统。
可选的,所述将采集到的用户行为大数据保存至预先搭建的分布式数据库系统的过程,包括:
按照用户行为类别的不同,将采集到的用户行为大数据分类保存至不同的数据库节点。
可选的,所述数据挖掘模型包括基于分类和/或聚类和/或回归分析和/或关联规则的数据挖掘模型。
可选的,所述将所述N组用户行为分析结果进行汇集的过程之后,还包括:
获取客户终端发送的结果查询请求;
若所述结果查询请求为合法请求,则将与所述结果查询请求对应的用户行为分析结果发送至所述客户终端的显示屏。
本发明还公开了一种大数据处理系统,包括:
大数据采集模块,用于采集用户行为大数据;
分布式数据保存模块,用于将所述大数据采集模块采集到的用户行为大数据保存至预先搭建的分布式数据库系统;其中,所述分布式数据库系统包括N个数据库节点,N为大于1的整数;
分布式数据挖掘模块,用于利用分布式框架以及预设的数据挖掘模型,分别对所述N个数据库节点上的用户行为大数据进行数据挖掘处理,相应地得到N组用户行为分析结果;
结果汇集模块,用于将所述N组用户行为分析结果进行汇集,得到用户行为整体分析结果。
可选的,所述分布式数据库系统为Oracle RAC数据库系统。
可选的,所述分布式数据保存模块,具体用于按照用户行为类别的不同,将采集到的用户行为大数据分类保存至不同的数据库节点。
可选的,所述数据挖掘模型包括基于分类和/或聚类和/或回归分析和/或关联规则的数据挖掘模型。
可选的,所述大数据处理系统,还包括:
请求获取模块,用于获取客户终端发送的结果查询请求;
结果发送模块,用于当所述结果查询请求为合法请求,则将与所述结果查询请求对应的用户行为分析结果发送至所述客户终端的显示屏。
本发明中,大数据处理方法,包括:采集用户行为大数据;将采集到的用户行为大数据保存至预先搭建的分布式数据库系统;其中,分布式数据库系统包括N个数据库节点,N为大于1的整数;利用分布式框架以及预设的数据挖掘模型,分别对上述N个数据库节点上的用户行为大数据进行数据挖掘处理,相应地得到N组用户行为分析结果;将上述N组用户行为分析结果进行汇集,得到用户行为整体分析结果。
可见,本发明采集到用户行为大数据之后,将会把这些大数据保存至分布式数据库系统,然后利用分布式框架和预设的数据挖掘模型,分别对每个数据节点上的用户行为大数据进行相应的数据挖掘处理,相应地得到多组用户行为分析结果,接着再把这些结果进行合并,便可得到用户行为整体分析结果。由上可见,本发明基于分布式技术,分别对多份用户行为大数据同时进行数据挖掘处理,这样可以大幅提升大数据的分析处理速度,也即,本发明实现了对大数据进行高效地分析处理的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种大数据处理方法流程图;
图2为本发明实施例公开的一种具体的大数据处理方法流程图;
图3为本发明实施例公开的一种大数据处理系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种大数据处理方法,参见图1所示,该方法包括:
步骤S11:采集用户行为大数据。
步骤S12:将采集到的用户行为大数据保存至预先搭建的分布式数据库系统;其中,分布式数据库系统包括N个数据库节点,N为大于1的整数。
本实施例中,上述分布式数据库系统具体可以是Oracle RAC数据库系统(OracleRAC,即Oracle Real Application Cluster)。
步骤S13:利用分布式框架以及预设的数据挖掘模型,分别对上述N个数据库节点上的用户行为大数据进行数据挖掘处理,相应地得到N组用户行为分析结果。
步骤S14:将上述N组用户行为分析结果进行汇集,得到用户行为整体分析结果。
可见,本发明实施例采集到用户行为大数据之后,将会把这些大数据保存至分布式数据库系统,然后利用分布式框架和预设的数据挖掘模型,分别对每个数据节点上的用户行为大数据进行相应的数据挖掘处理,相应地得到多组用户行为分析结果,接着再把这些结果进行合并,便可得到用户行为整体分析结果。由上可见,本发明实施例基于分布式技术,分别对多份用户行为大数据同时进行数据挖掘处理,这样可以大幅提升大数据的分析处理速度,也即,本发明实施例实现了对大数据进行高效地分析处理的目的。
参见图2所示,本发明实施例公开了一种具体的大数据处理方法,包括如下步骤:
步骤S21:采集用户行为大数据。
步骤S22:将采集到的用户行为大数据保存至预先搭建的Oracle RAC数据库系统;其中,Oracle RAC数据库系统包括N个数据库节点,N为大于1的整数。
具体的,上述步骤S22中,可以按照用户行为类别的不同,将采集到的用户行为大数据分类保存至不同的数据库节点。例如,将用户网上挑选商品行为、用户网上支付行为、用户网上理财行为等各种用户行为所对应的大数据分别保存至上述Oracle RAC数据库系统中的不同的数据库节点。
步骤S23:利用分布式框架以及预设的数据挖掘模型,分别对上述N个数据库节点上的用户行为大数据进行数据挖掘处理,相应地得到N组用户行为分析结果。
本实施例中,上述数据挖掘模型具体可以包括基于分类和/或聚类和/或回归分析和/或关联规则的数据挖掘模型。
步骤S24:将上述N组用户行为分析结果进行汇集,得到用户行为整体分析结果。
进一步的,将上述N组用户行为分析结果进行汇集的过程之后,还可以包括:获取客户终端发送的结果查询请求,若结果查询请求为合法请求,则将与结果查询请求对应的用户行为分析结果发送至客户终端的显示屏。
相应的,本发明实施例还公开了一种大数据处理系统,参见图3所示,该系统包括:
大数据采集模块11,用于采集用户行为大数据;
分布式数据保存模块12,用于将大数据采集模块11采集到的用户行为大数据保存至预先搭建的分布式数据库系统;其中,分布式数据库系统包括N个数据库节点,N为大于1的整数;
分布式数据挖掘模块13,用于利用分布式框架以及预设的数据挖掘模型,分别对上述N个数据库节点上的用户行为大数据进行数据挖掘处理,相应地得到N组用户行为分析结果;
结果汇集模块14,用于将上述N组用户行为分析结果进行汇集,得到用户行为整体分析结果。
具体的,本实施例中,上述分布式数据库系统可以为Oracle RAC数据库系统。
另外,上述分布式数据保存模块,具体可以用于按照用户行为类别的不同,将采集到的用户行为大数据分类保存至不同的数据库节点。
进一步的,上述数据挖掘模型可以包括基于分类和/或聚类和/或回归分析和/或关联规则的数据挖掘模型。
本实施例中,上述大数据处理系统,还可以进一步包括请求获取模块和结果发送模块;其中,
请求获取模块,用于获取客户终端发送的结果查询请求;
结果发送模块,用于当结果查询请求为合法请求,则将与结果查询请求对应的用户行为分析结果发送至客户终端的显示屏。
可见,本发明实施例采集到用户行为大数据之后,将会把这些大数据保存至分布式数据库系统,然后利用分布式框架和预设的数据挖掘模型,分别对每个数据节点上的用户行为大数据进行相应的数据挖掘处理,相应地得到多组用户行为分析结果,接着再把这些结果进行合并,便可得到用户行为整体分析结果。由上可见,本发明实施例基于分布式技术,分别对多份用户行为大数据同时进行数据挖掘处理,这样可以大幅提升大数据的分析处理速度,也即,本发明实施例实现了对大数据进行高效地分析处理的目的。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种大数据处理方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种大数据处理方法,其特征在于,包括:
采集用户行为大数据;
将采集到的用户行为大数据保存至预先搭建的分布式数据库系统;其中,所述分布式数据库系统包括N个数据库节点,N为大于1的整数;
利用分布式框架以及预设的数据挖掘模型,分别对所述N个数据库节点上的用户行为大数据进行数据挖掘处理,相应地得到N组用户行为分析结果;
将所述N组用户行为分析结果进行汇集,得到用户行为整体分析结果。
2.根据权利要求1所述的大数据处理方法,其特征在于,所述分布式数据库系统为Oracle RAC数据库系统。
3.根据权利要求1所述的大数据处理方法,其特征在于,所述将采集到的用户行为大数据保存至预先搭建的分布式数据库系统的过程,包括:
按照用户行为类别的不同,将采集到的用户行为大数据分类保存至不同的数据库节点。
4.根据权利要求1所述的大数据处理方法,其特征在于,所述数据挖掘模型包括基于分类和/或聚类和/或回归分析和/或关联规则的数据挖掘模型。
5.根据权利要求1至4任一项所述的大数据处理方法,其特征在于,所述将所述N组用户行为分析结果进行汇集的过程之后,还包括:
获取客户终端发送的结果查询请求;
若所述结果查询请求为合法请求,则将与所述结果查询请求对应的用户行为分析结果发送至所述客户终端的显示屏。
6.一种大数据处理系统,其特征在于,包括:
大数据采集模块,用于采集用户行为大数据;
分布式数据保存模块,用于将所述大数据采集模块采集到的用户行为大数据保存至预先搭建的分布式数据库系统;其中,所述分布式数据库系统包括N个数据库节点,N为大于1的整数;
分布式数据挖掘模块,用于利用分布式框架以及预设的数据挖掘模型,分别对所述N个数据库节点上的用户行为大数据进行数据挖掘处理,相应地得到N组用户行为分析结果;
结果汇集模块,用于将所述N组用户行为分析结果进行汇集,得到用户行为整体分析结果。
7.根据权利要求6所述的大数据处理系统,其特征在于,所述分布式数据库系统为Oracle RAC数据库系统。
8.根据权利要求6所述的大数据处理系统,其特征在于,所述分布式数据保存模块,具体用于按照用户行为类别的不同,将采集到的用户行为大数据分类保存至不同的数据库节点。
9.根据权利要求6所述的大数据处理系统,其特征在于,所述数据挖掘模型包括基于分类和/或聚类和/或回归分析和/或关联规则的数据挖掘模型。
10.根据权利要求6至9任一项所述的大数据处理系统,其特征在于,还包括:
请求获取模块,用于获取客户终端发送的结果查询请求;
结果发送模块,用于当所述结果查询请求为合法请求,则将与所述结果查询请求对应的用户行为分析结果发送至所述客户终端的显示屏。
CN201611260404.XA 2016-12-30 2016-12-30 一种大数据处理方法及系统 Pending CN106682206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611260404.XA CN106682206A (zh) 2016-12-30 2016-12-30 一种大数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611260404.XA CN106682206A (zh) 2016-12-30 2016-12-30 一种大数据处理方法及系统

Publications (1)

Publication Number Publication Date
CN106682206A true CN106682206A (zh) 2017-05-17

Family

ID=58873546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611260404.XA Pending CN106682206A (zh) 2016-12-30 2016-12-30 一种大数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN106682206A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357905A (zh) * 2017-07-14 2017-11-17 郑州云海信息技术有限公司 一种数据处理方法及装置
CN107704575A (zh) * 2017-09-30 2018-02-16 郑州轻工业学院 基于数据挖掘的用户行为分析方法及用户行为分析装置
CN107707659A (zh) * 2017-10-11 2018-02-16 郑州云海信息技术有限公司 一种大数据分析方法和系统
CN107967347A (zh) * 2017-12-07 2018-04-27 湖北三新文化传媒有限公司 批量数据处理方法、服务器、系统及存储介质
CN108170772A (zh) * 2017-12-26 2018-06-15 泰康保险集团股份有限公司 一种数据处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130138601A1 (en) * 2011-11-24 2013-05-30 Tata Consultancy Services Limited System and method for data aggregation, integration and analyses in a multi-dimensional database
CN103366020A (zh) * 2013-08-06 2013-10-23 刘临 用户行为分析系统及方法
CN104317790A (zh) * 2014-07-22 2015-01-28 翔傲信息科技(上海)有限公司 一种基于大数据的用户行为的控制方法及系统
CN104317877A (zh) * 2014-10-21 2015-01-28 上海交通大学 一种基于分布式计算的网络用户行为数据实时处理方法
CN104735158A (zh) * 2015-03-31 2015-06-24 北京奇艺世纪科技有限公司 一种用户行为数据的分类存储方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130138601A1 (en) * 2011-11-24 2013-05-30 Tata Consultancy Services Limited System and method for data aggregation, integration and analyses in a multi-dimensional database
CN103366020A (zh) * 2013-08-06 2013-10-23 刘临 用户行为分析系统及方法
CN104317790A (zh) * 2014-07-22 2015-01-28 翔傲信息科技(上海)有限公司 一种基于大数据的用户行为的控制方法及系统
CN104317877A (zh) * 2014-10-21 2015-01-28 上海交通大学 一种基于分布式计算的网络用户行为数据实时处理方法
CN104735158A (zh) * 2015-03-31 2015-06-24 北京奇艺世纪科技有限公司 一种用户行为数据的分类存储方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹琴英、张才明: "《商务智能与医院科学管理》", 28 February 2014 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357905A (zh) * 2017-07-14 2017-11-17 郑州云海信息技术有限公司 一种数据处理方法及装置
CN107704575A (zh) * 2017-09-30 2018-02-16 郑州轻工业学院 基于数据挖掘的用户行为分析方法及用户行为分析装置
CN107707659A (zh) * 2017-10-11 2018-02-16 郑州云海信息技术有限公司 一种大数据分析方法和系统
CN107967347A (zh) * 2017-12-07 2018-04-27 湖北三新文化传媒有限公司 批量数据处理方法、服务器、系统及存储介质
CN107967347B (zh) * 2017-12-07 2021-01-22 湖北三新文化传媒有限公司 批量数据处理方法、服务器、系统及存储介质
CN108170772A (zh) * 2017-12-26 2018-06-15 泰康保险集团股份有限公司 一种数据处理方法及装置

Similar Documents

Publication Publication Date Title
CN106682206A (zh) 一种大数据处理方法及系统
CN107526807B (zh) 信息推荐方法及装置
CN101192227B (zh) 一种基于分布式计算网络的日志文件分析方法和系统
CN111435344B (zh) 一种基于大数据的钻井提速影响因素分析模型
CN105631026A (zh) 一种安全数据分析系统
CN103593376A (zh) 一种采集用户行为数据的方法及装置
US20090276729A1 (en) Adaptive user feedback window
CN105138621B (zh) 一种Sybase ASE数据库配置优化系统及方法
WO2015050567A1 (en) System and method for performing set operations with defined sketch accuracy distribution
CN103838754B (zh) 信息搜索装置及方法
CN103258049A (zh) 一种基于海量数据的关联规则挖掘方法
CN105069025A (zh) 一种大数据的智能聚合可视化与管控系统
CN104809130A (zh) 数据查询的方法、设备及系统
CN103970871A (zh) 存储系统中基于溯源信息的文件元数据查询方法与系统
CN107682395A (zh) 一种大数据云计算运行系统及方法
CN106502875A (zh) 一种基于云计算的日志生成方法及系统
CN105786810B (zh) 类目映射关系的建立方法与装置
Sujatha Improved user navigation pattern prediction technique from web log data
CN102364475A (zh) 基于身份识别对检索结果排序的系统及方法
US20140108625A1 (en) System and method for configuration policy extraction
CN105426392A (zh) 一种协同过滤推荐方法及系统
CN106933902A (zh) 数据多维度自由剖析的查询方法及装置
CN105426407A (zh) 一种基于内容分析的web数据采集方法
CN105979072B (zh) 一种信息或邮件的排列显示方法、装置及移动终端
CN108288126A (zh) 一种基于大数据的企业政策规划系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170517

RJ01 Rejection of invention patent application after publication