CN103095800A - 一种基于云计算的数据处理系统 - Google Patents

一种基于云计算的数据处理系统 Download PDF

Info

Publication number
CN103095800A
CN103095800A CN2012105222165A CN201210522216A CN103095800A CN 103095800 A CN103095800 A CN 103095800A CN 2012105222165 A CN2012105222165 A CN 2012105222165A CN 201210522216 A CN201210522216 A CN 201210522216A CN 103095800 A CN103095800 A CN 103095800A
Authority
CN
China
Prior art keywords
data
module
mining
cloud computing
computing platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105222165A
Other languages
English (en)
Inventor
宗竞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU LEMAIDAO NETWORK TECHNOLOGY Co Ltd
Original Assignee
JIANGSU LEMAIDAO NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU LEMAIDAO NETWORK TECHNOLOGY Co Ltd filed Critical JIANGSU LEMAIDAO NETWORK TECHNOLOGY Co Ltd
Priority to CN2012105222165A priority Critical patent/CN103095800A/zh
Publication of CN103095800A publication Critical patent/CN103095800A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据处理系统包括云计算平台和数据处理服务器,所述云计算平台包括数据挖掘模块、数据处理模块、数据发送模块,所述数据处理服务器包括数据接收模块、数据处理模块和数据传输模块。所述数据挖掘模块包括任务拆分单元、多个挖掘操作单元和挖掘整合单元,所述任务拆分单元用于将挖掘任务拆分成多个子任务并将每个子任务发送到相应的挖掘操作单元,挖掘操作单元将挖掘到的数据发送给挖掘整合单元,挖掘整合单元根据保存的并行算法将多个挖掘单元发送的数据进行整合;所述数据处理服务器的数据接收模块接收云计算平台发送的数据,并通过数据处理模块对获取的数据进行处理,所述数据传输模块用于将处理后的数据传输到数据存储库中。

Description

一种基于云计算的数据处理系统
技术领域
本发明涉及一种数据处理系统,更具体地,涉及一种基于云计算的数据处理系统。
背景技术
随着网络信息技术的快速发展,数据的传播速度日益加快,网络上各种各样信息的数据量也越来越多,网络数据已经成为人们获取知识和信息的一个重要来源。在各行各业中,通过网络来查找需要的信息来为工作提供帮助和支持已经被广泛的使用和接受,并且,由于网络数据的及时性、快捷性和无地域性限制等优点,网络信息的使用正在深刻地改变着人们的生活和工作。
随着网络信息的日益膨胀,对用户根据自己的需要获得准确、全面和有用的信息提出了不小的挑战,由于网络信息量的急速增长,个人已经很难通过简单的终端设备来快速有效地获取更加全面的信息和数据。近年来兴起的云计算技术为这一问题的解决提供了一种有效的解决途径,云计算平台是一种不同于用户终端设备的新型计算模式,其可以将大量的终端设备通过云计算的方式连接起来,为某个或者某些特定的用户提供高效的计算服务。目前,已经有很多公司开始提供云计算服务,对于普通用户来说,通过相应的云计算平台,就可以摆脱个人终端设备计算能力的局限,依靠云计算平台中的强大硬件资源和软件资源来快速、高效和准确地得到自己想要的信息,这对于需要在海量的网络信息中获取及时、准确信息的用户来说具有非常强的吸引力,已经正在被越来越多的用户所认可,也已经成为未来网络信息技术发展的一个趋势。
在云计算平台中,很多时候,会有很多用户同时通过云计算平台来进行网络信息的查找,如何能够使得云计算平台同时满足众多用户的使用需求,并且保证云计算平台的高效运行,及时快速地为用户提供数据处理服务,已经成为制约云计算平台发展的一个重要瓶颈。因此,提高利用云计算平台进行数据处理的效率,为用户提高更好的使用体验,已经成为一个急待解决的问题。
发明内容
基于上述问题,本发明提出了一种新型的基于云计算的数据处理系统,其能够使得用户高效快捷地利用云计算平台进行数据的挖掘和处理,并通过在数据挖掘的过程中进行数据检查、数据统计等,为用户提供更好的数据处理服务。
本发明的基于云计算的数据处理系统包括云计算平台和数据处理服务器,所述云计算平台包括数据挖掘模块、数据处理模块、数据发送模块,所述数据处理服务器包括数据接收模块、数据处理模块和数据传输模块;其中,所述云计算平台的数据挖掘模块包括任务拆分单元、多个挖掘操作单元和挖掘整合单元,所述任务拆分单元用于将发起的挖掘任务拆分成多个并行的子任务,并将每个子任务按照相应的逻辑顺序发送到相应的挖掘操作单元,挖掘操作单元将挖掘到的相应数据发送给挖掘整合单元,挖掘整合单元根据保存的并行算法将多个挖掘单元发送的数据进行整合;所述云计算平台的数据处理模块对挖掘得到的数据进行处理后,通过数据发送模块将数据发送至数据处理服务器;所述数据处理服务器的数据接收模块接收到云计算平台发送的数据后,通过其数据处理模块对获取的数据进行处理,所述数据传输模块用于将处理后的数据传输到数据存储库中。
其中,所述云计算平台还包括数据检查模块和数据统计模块,所述数据检查模块用于根据数据中的校验信息来对获取的数据进行文件级检查;所述数据统计模块用于对获取的数据进行统计,统计的内容包括:数据的来源、数据的发布日期、数据的类型等。
其中,所述数据检查模块在对所述数据进行文件级检查之后,生成文件级检查报告,并将该检查报告发送给用户。
其中,所述云计算平台还包括数据量控制模块,所述数据量控制模块计算数据挖掘模块获取到的数据总量,并根据预先设定的阈值来进行判断,如果判断的结果是获取的数据量大于该阈值,那么将会按照一定的规则抛弃相应的数据量,从而使得待处理的总数据量与该阈值保持一致。
其中,所述数据挖掘模块接收用户发送的数据挖掘请求,根据该用户的数据挖掘请求与数据挖掘任务的对应关系获取该数据挖掘请求对应的数据挖掘任务,将获取的该数据挖掘任务拆分为多个子任务,并将每个子任务的参数配置信息发送给用户。
附图说明
图1是本发明的基于云计算的数据处理系统的组成结构示意图。
具体实施方式
下面,将会结合附图1对本发明的基于云计算的数据处理系统及其工作原理进行详细的描述。本领域技术人员应当能够理解的是,附图1所示的数据处理系统仅是本发明的一个示例而已,其并不是对本发明的限制,本发明的保护范围应当由权利要求书所限定。
本发明的基于云计算的数据处理系统包括云计算平台1和数据处理服务器2,其中,云计算平台1包括数据挖掘模块11、数据处理模块12、数据发送模块13,数据处理服务器2包括数据接收模块21、数据处理模块22和数据传输模块23。 
其中,云计算平台1的数据挖掘模块11包括任务拆分单元111、多个挖掘操作单元112和挖掘整合单元113,任务拆分单元111用于将用户发起的挖掘任务拆分成多个并行的子任务,并将每个子任务按照相应的逻辑顺序发送到相应的多个挖掘操作单元112,挖掘操作单元112将挖掘到的相应数据发送给挖掘整合单元113,挖掘整合单元113根据保存的并行算法将多个挖掘单元发送的数据进行整合。一般来说,本发明的基于云计算的数据处理系统是由特定的网络供应商提供的,用户可以在自己的终端设备中安装相应的客户端,通过客户端来对该数据处理系统进行访问,并通过客户端向该数据处理系统发送请求,该数据处理系统在对用户发出的请求进行检查和验证后,才会开始数据挖掘和处理操作;在实际使用过程中,提供商会对用户使用该数据处理系统提出一定的要求和限制,如使用时间、请求数量等。
云计算平台1的数据处理模块12对挖掘得到的数据进行处理后,通过数据发送模块13将数据发送至数据处理服务器2;数据处理服务器2的数据接收模块21接收到云计算平台1发送的数据后,通过其数据处理模块22对获取的数据进行处理,数据传输模块23用于将处理后的数据传输到数据存储库中。数据处理服务器2对数据的处理一般可包括:对数据进行整理、分类、生成相应信息列表等,这里的数据存储库是提供商设置的数据存储系统,其能够按照用户的需求来为数据提供不同时间的存储服务,并且考虑到存储空间的限制等问题,还对定期地对存储的数据进行删除等。
为了更好地对通过云计算平台挖掘到的数据进行规范,以便于下一步的处理,并提高下一步数据处理的效率,云计算平台1还包括数据检查模块14和数据统计模块15,数据检查模块14用于根据数据中的校验信息来对获取的数据进行文件级检查;数据统计模块15用于对获取的数据进行统计,统计的内容包括:数据的来源、数据的发布日期、数据的类型等。对数据进行文件级检查是必要的和优选的,通过文件级检查,可以对获取数据中的一些无效、非法信息进行清理,并保证所有数据的一致性,这对大大提高后续数据处理的效率。
数据检查模块14在对数据进行文件级检查之后,还可以生成文件级检查报告,并将该检查报告发送给用户,供用户参考和使用。
由于目前网络上的数据和信息过于庞杂,为了使得云计算平台的正常允许,防止在某些特殊情况下由于数据量过大而导致整个云计算平台的低效运行甚至停止工作,云计算平台1还包括数据量控制模块16,数据量控制模块16计算数据挖掘模块获取到的数据总量,并根据预先设定的阈值来进行判断,如果判断的结果是获取的数据量大于该阈值,那么将会按照一定的规则抛弃相应的数据量,从而使得待处理的总数据量与该阈值保持一致。通过这样的数据量限制操作,会有效地防止整个云计算平台在某些极端情况下发生崩溃的可能。
数据挖掘模块11相应用户的请求进行数据挖掘的具体过程是这样的:数据挖掘模块11接收用户通过客户端发送的数据挖掘请求,根据该用户的数据挖掘请求与数据挖掘任务的对应关系获取该数据挖掘请求对应的数据挖掘任务,将获取的该数据挖掘任务拆分为多个子任务,并将每个子任务的参数配置信息发送给用户。数据挖掘模块会根据所述对应关系来得到数据挖掘任务量的大小,并根据预先设定的规则将该数据挖掘任务拆分成适当数量的子任务,该规则可以是不同的,只要能够保证每个子任务的大小合适即可。
由此可见,本发明的数据处理系统通过采用云计算平台来高效地进行挖掘和处理,能够满足众多用户对海量网络数据信息进行挖掘查找的需求,将会有力地促进云计算平台在数据处理系统中的应用。

Claims (5)

1.一种基于云计算的数据处理系统,其包括云计算平台和数据处理服务器,其中,所述云计算平台包括数据挖掘模块、数据处理模块、数据发送模块,所述数据处理服务器包括数据接收模块、数据处理模块和数据传输模块,其特征在于:
所述云计算平台的数据挖掘模块包括任务拆分单元、多个挖掘操作单元和挖掘整合单元,所述任务拆分单元用于将发起的挖掘任务拆分成多个并行的子任务,并将每个子任务按照相应的逻辑顺序发送到相应的挖掘操作单元,挖掘操作单元将挖掘到的相应数据发送给挖掘整合单元,挖掘整合单元根据保存的并行算法将多个挖掘单元发送的数据进行整合;所述云计算平台的数据处理模块对挖掘得到的数据进行处理后,通过数据发送模块将数据发送至数据处理服务器;所述数据处理服务器的数据接收模块接收到云计算平台发送的数据后,通过其数据处理模块对获取的数据进行处理,所述数据传输模块用于将处理后的数据传输到数据存储库中。
2.根据权利要求1所述的数据处理系统,其中,所述云计算平台还包括数据检查模块和数据统计模块,所述数据检查模块用于根据数据中的校验信息来对获取的数据进行文件级检查;所述数据统计模块用于对获取的数据进行统计,统计的内容包括:数据的来源、数据的发布日期、数据的类型等。
3.根据权利要求2所述的数据处理系统,其中,所述数据检查模块在对所述数据进行文件级检查之后,生成文件级检查报告,并将该检查报告发送给用户。
4.根据权利要求1所述的数据处理系统,其中,所述云计算平台还包括数据量控制模块,所述数据量控制模块计算数据挖掘模块获取到的数据总量,并根据预先设定的阈值来进行判断,如果判断的结果是获取的数据量大于该阈值,那么将会按照一定的规则抛弃相应的数据量,从而使得待处理的总数据量与该阈值保持一致。
5.根据权利要求1-4中任一项所述的数据处理系统,其中,所述数据挖掘模块接收用户发送的数据挖掘请求,根据该用户的数据挖掘请求与数据挖掘任务的对应关系获取该数据挖掘请求对应的数据挖掘任务,将获取的该数据挖掘任务拆分为多个子任务,并将每个子任务的参数配置信息发送给用户。
CN2012105222165A 2012-12-07 2012-12-07 一种基于云计算的数据处理系统 Pending CN103095800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105222165A CN103095800A (zh) 2012-12-07 2012-12-07 一种基于云计算的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105222165A CN103095800A (zh) 2012-12-07 2012-12-07 一种基于云计算的数据处理系统

Publications (1)

Publication Number Publication Date
CN103095800A true CN103095800A (zh) 2013-05-08

Family

ID=48207923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105222165A Pending CN103095800A (zh) 2012-12-07 2012-12-07 一种基于云计算的数据处理系统

Country Status (1)

Country Link
CN (1) CN103095800A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205174A (zh) * 2015-10-14 2015-12-30 北京百度网讯科技有限公司 用于分布式系统的文件处理方法和装置
CN107454159A (zh) * 2013-01-02 2017-12-08 杭州海康威视数字技术股份有限公司 选择用于云存储的图像或者视频文件
CN108052646A (zh) * 2017-12-25 2018-05-18 北京车联天下信息技术有限公司 实时计算大数据系统和方法
CN108768940A (zh) * 2018-04-19 2018-11-06 丙申南京网络技术有限公司 一种基于计算机网络安全并行分隔保护的数据挖掘系统及方法
CN110147406A (zh) * 2019-05-29 2019-08-20 深圳市城市屋超科技有限公司 一种面向云计算的可视化数据挖掘系统及其架构方法
CN111314339A (zh) * 2020-02-12 2020-06-19 腾讯科技(深圳)有限公司 数据传输方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799808A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 一种数据处理方法及其系统
CN102546730A (zh) * 2010-12-30 2012-07-04 中国移动通信集团公司 数据处理方法、装置及系统
CN102567396A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种基于云计算的数据挖掘方法、系统及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799808A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 一种数据处理方法及其系统
CN102546730A (zh) * 2010-12-30 2012-07-04 中国移动通信集团公司 数据处理方法、装置及系统
CN102567396A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种基于云计算的数据挖掘方法、系统及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107454159A (zh) * 2013-01-02 2017-12-08 杭州海康威视数字技术股份有限公司 选择用于云存储的图像或者视频文件
CN107454159B (zh) * 2013-01-02 2022-07-22 杭州海康威视数字技术股份有限公司 一种数据传输至云计算系统或者数据中心的方法及设备
CN105205174A (zh) * 2015-10-14 2015-12-30 北京百度网讯科技有限公司 用于分布式系统的文件处理方法和装置
CN105205174B (zh) * 2015-10-14 2019-10-11 北京百度网讯科技有限公司 用于分布式系统的文件处理方法和装置
CN108052646A (zh) * 2017-12-25 2018-05-18 北京车联天下信息技术有限公司 实时计算大数据系统和方法
CN108768940A (zh) * 2018-04-19 2018-11-06 丙申南京网络技术有限公司 一种基于计算机网络安全并行分隔保护的数据挖掘系统及方法
CN110147406A (zh) * 2019-05-29 2019-08-20 深圳市城市屋超科技有限公司 一种面向云计算的可视化数据挖掘系统及其架构方法
CN111314339A (zh) * 2020-02-12 2020-06-19 腾讯科技(深圳)有限公司 数据传输方法及装置
CN111314339B (zh) * 2020-02-12 2021-09-10 腾讯科技(深圳)有限公司 数据传输方法及装置

Similar Documents

Publication Publication Date Title
US20240146771A1 (en) Inclusion of time-series geospatial markers in analyses employing a cyber-decision platform
CN103095800A (zh) 一种基于云计算的数据处理系统
US9817922B2 (en) Method and system for creating 3D models from 2D data for building information modeling (BIM)
CN110335043B (zh) 一种基于区块链系统的交易隐私保护方法、设备以及系统
KR101577920B1 (ko) 위치-기반 그룹 생성 방법, 장치 및 시스템
CN108811519A (zh) 用于在不公开特定识别信息的情况下建立标识符之间的链接的系统和方法
CN105264514B (zh) 为移动计算提供性能和能量优化的方法、装置和计算机程序产品
KR20210010665A (ko) 지오-로케이션 기반 이벤트 갤러리
EP2939200B1 (en) Method and apparatus for secure advertising
CN110377440B (zh) 信息处理方法和装置
CN113032357A (zh) 文件的存储方法、装置和服务器
CN112910639A (zh) 多域场景下的量子加密业务传输方法及相关设备
CN113837760B (zh) 数据处理方法、装置、计算机设备以及存储介质
CN104463012A (zh) 虚拟机镜像文件的导出、导入方法及装置
US20210064473A1 (en) Method and device for failover in hbase system, and non-transitory computer-readable storage medium
CN103455599A (zh) 用于数据同步的方法、设备和系统
JP6085261B2 (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
CN115801220A (zh) 加速设备、计算系统及加速方法
CN111046010A (zh) 日志储存方法、装置、系统、电子设备和计算机可读介质
CN107005576A (zh) 从服务器日志生成用于链接标识符的桥接匹配标识符
CN104821939B (zh) 一种用于实现计算机与移动设备间异步通信的方法和装置
CN104616065B (zh) 用于处理订单的方法及设备
JP2016170644A (ja) データ管理方法、情報処理システム及び端末装置
CN115801221A (zh) 加速设备、计算系统及加速方法
CN104951472A (zh) 一种基于分布式的数据统计的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130508