CN104049917A - 数据处理方法及系统 - Google Patents

数据处理方法及系统 Download PDF

Info

Publication number
CN104049917A
CN104049917A CN201410291320.7A CN201410291320A CN104049917A CN 104049917 A CN104049917 A CN 104049917A CN 201410291320 A CN201410291320 A CN 201410291320A CN 104049917 A CN104049917 A CN 104049917A
Authority
CN
China
Prior art keywords
data
handling system
disk directory
hash
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410291320.7A
Other languages
English (en)
Inventor
姜香刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201410291320.7A priority Critical patent/CN104049917A/zh
Publication of CN104049917A publication Critical patent/CN104049917A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据处理方法及系统。数据处理方法包括:步骤一,按照预设的散列规则,将接收的待处理数据保存到磁盘目录下,所述散列规则中包含用于确定所述磁盘目录的各级子目录的散列因子;步骤二,分布式部署数据处理系统,所述数据处理系统能够根据自身的配置数据,按照所述散列规则计算获得其待处理数据所在的磁盘目录,所述配置数据中包含用于确定所述磁盘目录的前几级子目录的散列因子;步骤三,所述数据处理系统从其待处理数据所在的磁盘目录中读取待处理数据进行处理。本发明的数据处理方法及系统,通过采用磁盘来保存待处理数据,提高了数据处理的可靠性,降低了丢包率。

Description

数据处理方法及系统
技术领域
本发明涉及计算机领域,尤其涉及一种数据处理方法及系统。
背景技术
在一般比较简单的项目中数据的加工处理没有单独的模块或者架构进行支撑,数据接收端在接收到数据后直接进行加工处理,之后调用发送接口直接发送。即使是融入了多进程、多线程的技术之后,大多数系统也只是添加了一个消息队列将接收到的数据暂时存放到消息队列中,之后启动多线程进行加工处理。
以上这种数据的加工处理方式不能满足系统对可靠性和性能的较高要求,因此需要一种具有较高可靠性减少丢包率而且还要兼顾性能的系统设计来满足数据加工处理这方面的要求。
发明内容
本发明所要解决的技术问题是提供一种数据处理方法及系统,提高可靠性,降低丢包率。
为解决上述技术问题,本发明提出了一种数据处理方法,包括:
步骤一,按照预设的散列规则,将接收的待处理数据保存到磁盘目录下,所述散列规则中包含用于确定所述磁盘目录的各级子目录的散列因子;
步骤二,分布式部署数据处理系统,所述数据处理系统能够根据自身的配置数据,按照所述散列规则计算获得其待处理数据所在的磁盘目录,所述配置数据中包含用于确定所述磁盘目录的前几级子目录的散列因子;
步骤三,所述数据处理系统从其待处理数据所在的磁盘目录中读取待处理数据进行处理。
进一步地,上述数据处理方法还可具有以下特点,所述散列规则包括:按照数据类型、业务优先级、接收日期、手机号码设定位的顺序依次确定保存待处理数据的磁盘目录的各级子目录,其中,数据类型、业务优先级、接收日期、手机号码设定位为散列因子。
进一步地,上述数据处理方法还可具有以下特点,所述步骤二包括:
根据系统资源情况或者业务优先级分布式部署数据处理系统。
进一步地,上述数据处理方法还可具有以下特点,所述待处理数据包括数据库数据、文件数据、webservice数据。
为解决上述技术问题,本发明还提出了一种数据处理系统,包括顺次相连的保存模块、部署模块和处理模块,其中:
保存模块,用于按照预设的散列规则,将接收的待处理数据保存到磁盘目录下,所述散列规则中包含用于确定所述磁盘目录的各级子目录的散列因子;
部署模块,用于分布式部署数据处理系统,所述数据处理系统能够根据自身的配置数据,按照所述散列规则计算获得其待处理数据所在的磁盘目录,所述配置数据中包含用于确定所述磁盘目录的前几级子目录的散列因子;
处理模块,用于所述数据处理系统从其待处理数据所在的磁盘目录中读取待处理数据进行处理。
进一步地,上述数据处理系统还可具有以下特点,所述散列规则包括:按照数据类型、业务优先级、接收日期、手机号码设定位的顺序依次确定保存待处理数据的磁盘目录的各级子目录,其中,数据类型、业务优先级、接收日期、手机号码设定位为散列因子。
进一步地,上述数据处理系统还可具有以下特点,所述部署模块包括第一部署单元或第二部署单元,其中:
第一部署单元,用于根据系统资源情况分布式部署数据处理系统;
第二部署单元,用于根据业务优先级分布式部署数据处理系统。
进一步地,上述数据处理系统还可具有以下特点,所述待处理数据包括数据库数据、文件数据、webservice数据。
本发明的数据处理方法及系统,通过采用磁盘来保存待处理数据,提高了数据处理的可靠性,降低了丢包率。并且,本发明的数据处理方法及系统还利用了磁盘支持分布式系统比较好的特性,通过分布式部署数据处理系统,提高了数据处理效率。
附图说明
图1为本发明实施例中数据处理方法的流程图;
图2为本发明实施例中数据处理系统的结构框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例中数据处理方法的流程图。如图1所示,本实施例中,数据处理方法可以包括如下步骤:
步骤S101,按照预设的散列规则,将接收的待处理数据保存到磁盘目录下,其中,散列规则中包含用于确定所述磁盘目录的各级子目录的散列因子;
其中,待处理数据可以包括数据库数据、文件数据、webservice数据等。也就是说,本发明数据处理方法的接收接口支持数据库、文件、webservice等多种接入方式。
其中,散列规则可以包括:按照数据类型、业务优先级、接收日期、手机号码设定位的顺序依次确定保存待处理数据的磁盘目录的各级子目录,其中,数据类型、业务优先级、接收日期、手机号码设定位为散列因子。这里,“散列因子”的含义是确定磁盘目录的因素。
下面举例说明如何按照数据类型、发送业务优先级、接收日期、手机号码设定位对待处理数据进行散列。
假设配置数据如下:
数据类型有两种:短信—1,彩信—2;
目前业务优先级有三级:1、2、3;
磁盘文件的主目录为:/data。
假设设置的散列规则为:用“文件主目录+数据类型+业务优先级+接收日期+手机号码末位+文件名”确定保存待处理数据的磁盘目录的各级子目录,其中文件名为“手机号码倒数2、3位.txt”。
则有如下示例:
例1:
一条短信A,优先级为1,发送日期(也即接收日期)20131130,发送短信A的手机号码为13612345678,则生成文件为:/data/1/1/20131130/8/67.txt,其中,“/data/1/1/20131130/8/”为该生成文件所在的磁盘目录,也即短信A的数据所在的磁盘目录(对吗?)。
例2:
一条短信B,优先级为1,发送日期20131130,发送短信B的手机号码为13612341234,生成文件为:/data/1/1/20131130/4/23.txt,其中,“/data/1/1/20131130/4/”为该生成文件所在的磁盘目录,也即短信B的数据所在的磁盘目录(对吗?)。
例3:
一条彩信C,优先级为2,发送日期20131130,发送彩信C的手机号码为13612341234,则生成文件为:/data/2/2/20131130/4/23.txt,其中,“/data/2/2/20131130/4/”为该生成文件所在的磁盘目录,也即彩信C的数据所在的磁盘目录(对吗?)。
步骤S102,分布式部署数据处理系统,该数据处理系统能够根据自身的配置数据,按照前述的散列规则计算获得其待处理数据所在的磁盘目录,其中,配置数据中包含用于确定磁盘目录(这个磁盘目录是指数据处理系统对应的待处理数据所在的磁盘目录)的前几级子目录的散列因子;
其中,数据处理系统是指对待处理数据进行处理的程序或进程。
具体地,可以根据系统资源情况或者业务优先级分布式部署数据处理系统。
本发明实施例中,数据处理系统可以采用多进程多线程的分布式部署方式。数据类型*业务优先级=部署的数据处理程序(进程)数量(这个式子的含义是不是“数据类型的总数乘以业务优先级的总数等于部署的数据处理程序(或进程)的数量”?)。
一个数据处理程序(或进程)的配置数据可以包括文件主目录、数据类型、优先级、线程数,数据处理程序可以根据这些配置数据和预设的散列规则计算出该数据处理程序的待处理数据所在的磁盘目录,然后遍历存在的子目录由单独启动的线程进行子目录下文件的处理。
例如,假设配置数据如下:
文件主目录:/data;
数据类型:短信-1;
优先级:1;
线程数据:10;
那么按照前述示例中的散列规则,该数据处理程序就对应/data/1/1目录进行扫描,具体扫描线程1就可以处理/data/1/1/20131130/8/1目录下的文件,扫描线程2就可以处理/data/1/1/20131130/4/2目录下的文件,等等。
根据系统资源进行部署,是指系统上线时要做压力测试,得出给主机资源稳定运行的最高业务处理量,然后通过流量控制设置每个数据处理程序处理的数据量。
步骤S103,数据处理系统从其待处理数据所在的磁盘目录中读取待处理数据进行处理。
磁盘的可靠性很高,因此,即使数据处理系统在处理数据的过程中出现问题,该数据处理系统的待处理数据也不会丢失,因为待处理数据保存在磁盘中,数据处理系统可以重新从磁盘中读取出待处理数据。可见,本发明的数据处理方法,通过采用磁盘来保存待处理数据,提高了数据处理的可靠性,降低了丢包率。并且,本发明的数据处理方法还利用了磁盘支持分布式系统比较好的特性,通过分布式部署数据处理系统,提高了数据处理效率。
本发明还提出了一种数据处理系统,用于执行上述的数据处理方法。
图2为本发明实施例中数据处理系统的结构框图。如图2所示,本实施例中,数据处理系统可以包括顺次相连的保存模块210、部署模块220和处理模块230。其中,保存模块210用于按照预设的散列规则,将接收的待处理数据保存到磁盘目录下,其中,散列规则中包含用于确定所述磁盘目录的各级子目录的散列因子。部署模块220用于分布式部署数据处理系统,该数据处理系统能够根据自身的配置数据,按照所述散列规则计算获得其待处理数据所在的磁盘目录,所述配置数据中包含用于确定所述磁盘目录的前几级子目录的散列因子。处理模块230用于数据处理系统从其待处理数据所在的磁盘目录中读取待处理数据进行处理。
其中,接收的待处理数据可以包括数据库数据、文件数据、webservice数据等。也就是说,本发明数据处理系统的接收接口支持数据库、文件、webservice等多种接入方式。
其中,散列规则可以包括:按照数据类型、业务优先级、接收日期、手机号码设定位的顺序依次确定保存待处理数据的磁盘目录的各级子目录,其中,数据类型、业务优先级、接收日期、手机号码设定位为散列因子。这里,“散列因子”的含义是确定磁盘目录的因素。
在本发明实施例中,部署模块220可以包括第一部署单元或者第二部署单元。其中,第一部署单元用于根据系统资源情况分布式部署数据处理系统。第二部署单元,用于根据业务优先级分布式部署数据处理系统。
本发明的数据处理系统,通过采用磁盘来保存待处理数据,提高了数据处理的可靠性,降低了丢包率。并且,本发明的数据处理系统还利用了磁盘支持分布式系统比较好的特性,通过分布式部署数据处理系统,提高了数据处理效率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
步骤一,按照预设的散列规则,将接收的待处理数据保存到磁盘目录下,所述散列规则中包含用于确定所述磁盘目录的各级子目录的散列因子;
步骤二,分布式部署数据处理系统,所述数据处理系统能够根据自身的配置数据,按照所述散列规则计算获得其待处理数据所在的磁盘目录,所述配置数据中包含用于确定所述磁盘目录的前几级子目录的散列因子;
步骤三,所述数据处理系统从其待处理数据所在的磁盘目录中读取待处理数据进行处理。
2.根据权利要求1所述的数据处理方法,其特征在于,所述散列规则包括:按照数据类型、业务优先级、接收日期、手机号码设定位的顺序依次确定保存待处理数据的磁盘目录的各级子目录,其中,数据类型、业务优先级、接收日期、手机号码设定位为散列因子。
3.根据权利要求1所述的数据处理方法,其特征在于,所述步骤二包括:
根据系统资源情况或者业务优先级分布式部署数据处理系统。
4.根据权利要求1所述的数据处理方法,其特征在于,所述待处理数据包括数据库数据、文件数据、webservice数据。
5.一种数据处理系统,其特征在于,包括顺次相连的保存模块、部署模块和处理模块,其中:
保存模块,用于按照预设的散列规则,将接收的待处理数据保存到磁盘目录下,所述散列规则中包含用于确定所述磁盘目录的各级子目录的散列因子;
部署模块,用于分布式部署数据处理系统,所述数据处理系统能够根据自身的配置数据,按照所述散列规则计算获得其待处理数据所在的磁盘目录,所述配置数据中包含用于确定所述磁盘目录的前几级子目录的散列因子;
处理模块,用于所述数据处理系统从其待处理数据所在的磁盘目录中读取待处理数据进行处理。
6.根据权利要求5所述的数据处理系统,其特征在于,所述散列规则包括:按照数据类型、业务优先级、接收日期、手机号码设定位的顺序依次确定保存待处理数据的磁盘目录的各级子目录,其中,数据类型、业务优先级、接收日期、手机号码设定位为散列因子。
7.根据权利要求5所述的数据处理系统,其特征在于,所述部署模块包括第一部署单元或第二部署单元,其中:
第一部署单元,用于根据系统资源情况分布式部署数据处理系统;
第二部署单元,用于根据业务优先级分布式部署数据处理系统。
8.根据权利要求5所述的数据处理系统,其特征在于,所述待处理数据包括数据库数据、文件数据、webservice数据。
CN201410291320.7A 2014-06-25 2014-06-25 数据处理方法及系统 Pending CN104049917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410291320.7A CN104049917A (zh) 2014-06-25 2014-06-25 数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410291320.7A CN104049917A (zh) 2014-06-25 2014-06-25 数据处理方法及系统

Publications (1)

Publication Number Publication Date
CN104049917A true CN104049917A (zh) 2014-09-17

Family

ID=51502849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410291320.7A Pending CN104049917A (zh) 2014-06-25 2014-06-25 数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN104049917A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101795211A (zh) * 2010-01-13 2010-08-04 北京中创信测科技股份有限公司 一种数据存储方法及系统
US20110072058A1 (en) * 2008-05-15 2011-03-24 Alibaba Group Holding Limited Method and System for Large Volume Data Processing
CN102906751A (zh) * 2012-07-25 2013-01-30 华为技术有限公司 一种数据存储、数据查询的方法及装置
CN102937956A (zh) * 2012-04-25 2013-02-20 广东电网公司电力科学研究院 一种智能变电站中实时报文的存储方法及其装置
CN103491169A (zh) * 2013-09-24 2014-01-01 长沙裕邦软件开发有限公司 一种文件上传及下载的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110072058A1 (en) * 2008-05-15 2011-03-24 Alibaba Group Holding Limited Method and System for Large Volume Data Processing
CN101795211A (zh) * 2010-01-13 2010-08-04 北京中创信测科技股份有限公司 一种数据存储方法及系统
CN102937956A (zh) * 2012-04-25 2013-02-20 广东电网公司电力科学研究院 一种智能变电站中实时报文的存储方法及其装置
CN102906751A (zh) * 2012-07-25 2013-01-30 华为技术有限公司 一种数据存储、数据查询的方法及装置
CN103491169A (zh) * 2013-09-24 2014-01-01 长沙裕邦软件开发有限公司 一种文件上传及下载的方法和系统

Similar Documents

Publication Publication Date Title
US11340803B2 (en) Method for configuring resources, electronic device and computer program product
CN103036956B (zh) 一种分布式组态化海量数据归档系统及实现方法
CN111555963B (zh) 消息推送方法、装置、电子设备及存储介质
US9201645B2 (en) Program distribution device, program distribution method, program distribution system, and storage medium
CN104850301A (zh) 一种在系统桌面上将应用程序图标分类的方法和系统
WO2015078281A1 (en) Method, server and system for application synchronization
US9258357B2 (en) Method for accessing plural cloud storages, electronic apparatus and non-transitory computer readable medium
US9535677B2 (en) Software discovery in an environment with heterogeneous machine groups
US10534425B2 (en) Processing method and device for saving power, mobile terminal and cloud server
EP2985695A1 (en) Method and device for setting application program state
US20170351510A1 (en) Method for recognizing application type
CN103036706A (zh) 应用升级异常的本地处理方法
CN111339057B (zh) 减少回源请求的方法、装置及计算机可读存储介质
CN113485962B (zh) 日志文件的存储方法、装置、设备和存储介质
CN103888619A (zh) 一种消息处理方法及其系统
CN103177104A (zh) 一种应用程序搜索方法及装置
CN104991949B (zh) 移动终端及其文件管理系统和方法
CN112905537A (zh) 文件处理方法、装置、电子设备和存储介质
US20160188687A1 (en) Metadata extraction, processing, and loading
CN102932476A (zh) 网络存储同步系统
CN111767126A (zh) 分布式批量处理的系统和方法
CN104049917A (zh) 数据处理方法及系统
CN109976897B (zh) 一种大数据集群的部署方法、数据交互方法及对应装置
US11146571B2 (en) Data transmission method, apparatus, terminal device, and medium
RU2698766C1 (ru) Способ и устройство для передачи, отправки и получения информации

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140917