CN102023978A - 一种海量数据处理方法及系统 - Google Patents
一种海量数据处理方法及系统 Download PDFInfo
- Publication number
- CN102023978A CN102023978A CN2009100926911A CN200910092691A CN102023978A CN 102023978 A CN102023978 A CN 102023978A CN 2009100926911 A CN2009100926911 A CN 2009100926911A CN 200910092691 A CN200910092691 A CN 200910092691A CN 102023978 A CN102023978 A CN 102023978A
- Authority
- CN
- China
- Prior art keywords
- data
- coding
- unit
- original user
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种海量数据处理方法及系统,包括根据原始用户数据特征,对原始用户数据进行实时编码并同步输出;对编码后的数据进行并行预处理,对预处理后的数据进行统计处理并同步输出;按照不同的编码方式,分类存储统计处理后的数据。本发明通过对原始用户数据进行编码处理,降低了存储成本,提高了后续、处理分析速度,大大节省了系统开销;而且,保证了分析处理系统可靠性,降低了内存资源和CPU开销,从而达到了实时分析的效果。
Description
技术领域
本发明涉及数据处理技术,尤指一种海量数据处理方法及系统。
背景技术
互联网行业中,用户在浏览门户网站,尤其是在浏览大型门户网站时,往往每天会产生上百GB的点击数据(也称为海量数据)。为了准确掌握门户网站的业务运营情况,即时调整产品或内容运营策略,快速统计分析、长期存储这些海量数据尤为重要。
目前,对海量数据的处理是直接对原始数据进行处理并存储的方式。这样,会大大增加系统开销,而且大大降低系统处理、分析速度。从而降低了分析处理系统可靠性,增加了内存资源和CPU开销,不能很好地达到实时分析、永久存储的效果。
发明内容
有鉴于此,本发明的主要目的在于提供一种海量数据处理方法,能够降低存储开销,提升分析速度,增强分析处理系统可靠性,降低内存资源和CPU开销,从而达到实时分析的效果。
本发明的另一目的在于提供一种海量数据处理系统,能够降低存储开销,提升分析速度,增强分析处理系统可靠性,降低内存资源和CPU开销,从而达到实时分析的效果。
为达到上述目的,本发明的技术方案是这样实现的:
一种海量数据处理方法,该方法包括:
根据原始用户数据特征,对原始用户数据进行实时编码并同步输出;
对编码后的数据进行并行预处理,对预处理后的数据进行统计处理并同步输出;
按照不同的编码方式,分类存储统计处理后的数据。
所述对原始用户数据进行实时编码包括:对所述原始用户数据,按照预先根据原始用户数据特征设置的编码方式进行实时编码。
如果与所述原始用户数据对应的编码方式不存在编码信息,该方法之前还包括:对所述原始用户数据,按照预先根据原始用户数据特征设置的编码方式进行实时编码并输出编码管理数据。
如果与所述原始用户数据对应的编码方式不存在编码信息,采用预先设置的指定编码方式进行实时编码并输出编码管理数据。
所述对编码后的数据进行并行预处理之后,还包括:按照预先设置的存储结构,将预处理后的数据存入内存缓存中。
一种海量数据处理系统,包括数据编码单元、数据处理单元、数据汇总单元、数据存储单元和实时同步单元,其中,
数据编码单元,用于按照预先设置的编码方式对原始用户数据进行实时编码并同步输出给数据处理单元;
数据处理单元,用于对编码后的数据进行并行预处理,并同步输出给数据汇总单元;
数据汇总单元,用于对预处理后的数据进行统计处理并同步输出给数据存储单元;
数据存储单元,用于按照不同的编码方式,分类存储统计处理后的数据;
实时同步单元,用于向各单元发送保证各个单元产生的数据的同步输出的同步指示。
所述系统还包括编码管理单元,
当存在不能对原始用户数据进行编码时,所述数据编码单元,还用于向编码管理单元输出编码通知,并缓存编码后的数据;
所述编码管理单元,用于接收到来自数据编码单元的编码通知,按照预先设置的编码方式或指定编码方式对原始用户数据进行实时编码并同步输出给数据编码单元和数据处理单元。
所述编码管理单元包括两个或两个以上,形成热备方式。
所述系统还包括数据解码单元,用于对存储的数据或编码管理数据进行解码并输出。
所述数据编码单元为一组;
所述数据处理单元为数十个64位构架服务器,同时并行处理;
所述数据汇总单元为两个或两个以上;
所述数据存储单元可以包括两个或两个以上,形成备份存储。
从上述本发明提供的技术方案可以看出,包括根据原始用户数据特征,对原始用户数据进行实时编码并同步输出;对编码后的数据进行并行预处理,对预处理后的数据进行统计处理并同步输出;按照不同的编码方式,分类存储统计处理后的数据。本发明通过对原始用户数据进行编码处理,降低了存储成本,提高了后续、处理分析速度,大大节省了系统开销;而且,保证了分析处理系统可靠性,降低了内存资源和CPU开销,从而达到了实时分析的效果。
附图说明
图1为本发明海量数据处理方法的流程图;
图2为本发明海量数据处理系统的组成结构示意图。
具体实施方式
图1为本发明海量数据处理方法的流程图,如图1所示,包括以下步骤:
步骤100:根据原始用户数据特征,对原始用户数据进行实时编码并同步输出。
本步骤对用户访问的原始用户数据,按照预先根据原始用户数据特征设置的编码信息进行实时编码,并重组原始数据。重组是本领域技术人员惯用技术手段,这里不再赘述。
该方法之前还包括:如果与原始用户数据对应的编码方式不存在编码信息,进行编码管理处理:对用户访问的原始用户数据,按照预先根据原始用户数据特征设置的编码方式进行实时编码并输出编码管理数据,如果与原始用户数据对应的编码方式还是不存在编码信息,采用预先设置的指定编码方式进行实时编码并输出编码管理数据。比如对于用户点击的页面采用动态编码方式等。
本发明通过对原始用户数据进行编码处理,大大节省了系统开销,降低了存储成本,提高了后续、处理分析速度。
步骤101:对编码后的数据进行并行预处理,对预处理后的数据进行统计处理并同步输出。
本步骤中,预处理并按照预先设置的存储结构,存入内存缓存中。在完成各种查询,包括用户去重组等后,输出对应的处理数据;对输出的处理数据,根据与不同数据特征对应的统计方式进行汇总处理并输出。比如,对于域名的PV/UV统计,由于数目相对较少,内存占用可以不考虑,采用单一的hash表缓存和统计方式;对于页面的点击去向数据,由于页面多,并且点击去向也多,内存占用大,为了兼顾高速度和低内存开销,采用hash表+快速查找树的混合方式来缓存和统计方式等。
其中,包括如按分割符“|”解析数据,并对非法的数据格式或异常的用户数据进行丢弃等操作;对复合编码字段进行编码字段分解成多个编码;对编码进行整形化等。
本步骤中,为了保证对编码后的数据进行并行预处理,预先设置用户ID后缀,该用户ID后缀与不同的服务器对应。按照用户ID后缀转发到不同的服务器。该用户ID后缀还可以根据负载动态调整,比如根据服务器的内存情况,或CPU占用情况等,优先考虑资源丰富的服务器进行后续预处理,以保证负载均衡。
步骤102:按照不同的编码方式,分类存储统计处理后的数据。
进一步地,本发明方法还包括:对存储的数据或编码管理数据进行解码。为了保证后续的查询和统计能符合最快响应速度要求,可以采用数据预处理解码方式,为了保证数据实时查询要求,可以采用数据实时解码方式等。
图2为本发明海量数据处理系统的组成结构示意图,如图2所示,本发明系统包括数据编码单元、数据处理单元、数据汇总单元、数据存储单元和实时同步单元,其中,
数据编码单元,用于按照预先设置的编码方式对原始用户数据进行实时编码并同步输出给数据处理单元。数据编码单元为一组。
数据处理单元,用于对编码后的数据进行并行预处理,并同步输出给数据汇总单元。数据处理单元为数十个64位构架服务器,同时并行处理。
数据汇总单元,用于对预处理后的数据进行统计处理并同步输出给数据存储单元。数据汇总单元为两个或两个以上。
数据存储单元,用于按照不同的编码方式,分类存储统计处理后的数据。数据存储单元可以包括两个或两个以上,以形成备份存储。
实时同步单元,用于向各单元发送保证各个单元产生的数据的同步输出的同步指示。
进一步地,本发明系统还包括编码管理单元,此时,
数据编码单元,当存在不能对原始用户数据进行编码时,还用于向编码管理单元输出编码通知,并缓存编码后的数据。
编码管理单元,用于接收到来自数据编码单元的编码通知,按照预先设置的编码方式或指定编码方式对原始用户数据进行实时编码并同步输出给数据编码单元和数据处理单元。编码管理单元可以包括两个或两个以上,以形成热备方式。
进一步地,本发明系统还包括数据解码单元,用于对存储的数据或编码管理数据进行解码并输出。还用于对编码管理数据进行解码并输出给数据存储单元。
以互联网用户点击互联网网站的数据为例,结合图2说明利用本发明方法对该海量数据的处理过程如下:
首先,数据编码单元对收到的编码查询请求,预先设定一组域名和一组整形ID影射,对于不在该ID影射关系的信息,向编码管理单元发送数据编码请求,并将编码结果缓存到数据编码单元中。同时输出实时同步单元要求格式的编码数据。这样就完成了用户点击数据编码。
编码管理单元对接收到的数据编码请求,按照预先设定一组域名和一组整形ID影射,对于不在该ID影射关系的信息,按照步长为1,累加后返回对应的整形ID,同理:对于用户点击的页面则采用动态编码方式,按照步长为1,累加后返回对应的整形ID。这样就完成了数据编码。
然后,数据处理单元对收到的编码后的数据,按照预先设置的存储结构如顺序字段转换为4个字节整形,以用户ID为关键字节(key),并存入内存以哈希(HASH)表实现的缓存中,并计算需要统计的域名的PV,UV等,最后同步输出。
最后,数据汇总单元对收到的来自多个处理单元的数据,根据统计分析对象,包括域名PV/UV等分别汇总统计,并同步输出给数据存储单元,根据数据编码方式,分别存入对应的数据库表中。比如:采用一组Mysql 5.1.34服务器对数据分库分表存储;按照数据编码方式进行给域名分库。对应的域名的PV/UV数据则存入对应的ID关联的数据库对应的表中。
本实例中,假设实时同步单元按分钟实现输出数据文件。其中,文件名按照日期和时间、统计纬度,以及单元特性命名。实时同步单元可以根据需要部署在每个单元上。实时同步单元同时实现失败重传的传输机制,并且采用文件存储数据方式有利于在出错故障的时候容易恢复数据。关于实时同步单元的具体实现属于本领域技术人员惯用技术手段,这里不再详述。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种海量数据处理方法,其特征在于,该方法包括:
根据原始用户数据特征,对原始用户数据进行实时编码并同步输出;
对编码后的数据进行并行预处理,对预处理后的数据进行统计处理并同步输出;
按照不同的编码方式,分类存储统计处理后的数据。
2.根据权利要求1所述的海量数据处理方法,其特征在于,所述对原始用户数据进行实时编码包括:对所述原始用户数据,按照预先根据原始用户数据特征设置的编码方式进行实时编码。
3.根据权利要求2所述的海量数据处理方法,其特征在于,如果与所述原始用户数据对应的编码方式不存在编码信息,该方法之前还包括:对所述原始用户数据,按照预先根据原始用户数据特征设置的编码方式进行实时编码并输出编码管理数据。
4.根据权利要求3所述的海量数据处理方法,其特征在于,如果与所述原始用户数据对应的编码方式不存在编码信息,采用预先设置的指定编码方式进行实时编码并输出编码管理数据。
5.根据权利要求1所述的海量数据处理方法,其特征在于,所述对编码后的数据进行并行预处理之后,还包括:按照预先设置的存储结构,将预处理后的数据存入内存缓存中。
6.一种海量数据处理系统,其特征在于,包括数据编码单元、数据处理单元、数据汇总单元、数据存储单元和实时同步单元,其中,
数据编码单元,用于按照预先设置的编码方式对原始用户数据进行实时编码并同步输出给数据处理单元;
数据处理单元,用于对编码后的数据进行并行预处理,并同步输出给数据汇总单元;
数据汇总单元,用于对预处理后的数据进行统计处理并同步输出给数据存储单元;
数据存储单元,用于按照不同的编码方式,分类存储统计处理后的数据;
实时同步单元,用于向各单元发送保证各个单元产生的数据的同步输出的同步指示。
7.根据权利要求6所述的海量数据处理系统,其特征在于,所述系统还包括编码管理单元,
当存在不能对原始用户数据进行编码时,所述数据编码单元,还用于向编码管理单元输出编码通知,并缓存编码后的数据;
所述编码管理单元,用于接收到来自数据编码单元的编码通知,按照预先设置的编码方式或指定编码方式对原始用户数据进行实时编码并同步输出给数据编码单元和数据处理单元。
8.根据权利要求7所述的海量数据处理系统,其特征在于,所述编码管理单元包括两个或两个以上,形成热备方式。
9.根据权利要求6或7所述的海量数据处理系统,其特征在于,所述系统还包括数据解码单元,用于对存储的数据或编码管理数据进行解码并输出。
10.根据权利要求6所述的海量数据处理系统,其特征在于,所述数据编码单元为一组;
所述数据处理单元为数十个64位构架服务器,同时并行处理;
所述数据汇总单元为两个或两个以上;
所述数据存储单元可以包括两个或两个以上,形成备份存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910092691.1A CN102023978B (zh) | 2009-09-15 | 2009-09-15 | 一种海量数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910092691.1A CN102023978B (zh) | 2009-09-15 | 2009-09-15 | 一种海量数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102023978A true CN102023978A (zh) | 2011-04-20 |
CN102023978B CN102023978B (zh) | 2015-04-15 |
Family
ID=43865286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910092691.1A Active CN102023978B (zh) | 2009-09-15 | 2009-09-15 | 一种海量数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102023978B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982033A (zh) * | 2011-09-05 | 2013-03-20 | 深圳市快播科技有限公司 | 小文件的存储方法及系统 |
CN105025098A (zh) * | 2015-07-14 | 2015-11-04 | 惠龙易通国际物流股份有限公司 | 网络接口数据分类的方法及系统 |
CN105306526A (zh) * | 2015-09-11 | 2016-02-03 | 中国人民解放军63796部队 | 一种大推力火箭大流量遥测数据处理方法 |
CN111881111A (zh) * | 2020-07-21 | 2020-11-03 | 清华大学 | 力与流场相关性实验数据库系统,数据处理系统和处理方法 |
CN112148710A (zh) * | 2020-09-21 | 2020-12-29 | 珠海市卓轩科技有限公司 | 微服务分库方法、系统和介质 |
CN112947263A (zh) * | 2021-04-20 | 2021-06-11 | 南京云玑信息科技有限公司 | 一种基于数据采集与编码管理控制系统 |
CN113220783A (zh) * | 2021-05-07 | 2021-08-06 | 深圳市粤睦信息科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05300494A (ja) * | 1992-01-30 | 1993-11-12 | Nec Corp | 動画像符号化器とその制御方式 |
US6215904B1 (en) * | 1994-11-30 | 2001-04-10 | Xerox Corporation | Apparatus and method for selecting encoding schemes based upon image content |
KR20020038982A (ko) * | 2000-11-20 | 2002-05-25 | 구자홍 | 인터페이스 장치 및 그 송수신 방법 |
CN1858735A (zh) * | 2005-12-30 | 2006-11-08 | 华为技术有限公司 | 一种海量数据的处理方法 |
CN1866821A (zh) * | 2006-06-05 | 2006-11-22 | 中国人民解放军国防科学技术大学 | 基于相似数据集的网络监测数据压缩存储和联合检测方法 |
CN1908932A (zh) * | 2005-08-05 | 2007-02-07 | 北京人大金仓信息技术有限公司 | 一种海量数据紧缩存储方法及执行装置 |
CN101127578A (zh) * | 2007-09-14 | 2008-02-20 | 广东威创日新电子有限公司 | 一种处理海量数据的方法及系统 |
CN101842785A (zh) * | 2007-10-31 | 2010-09-22 | 惠普发展公司,有限责任合伙企业 | 协同压缩 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090052832A (ko) * | 2006-03-10 | 2009-05-26 | 콘티넨탈 테베스 아게 운트 코. 오하게 | 커플링 바를 구비한 회전 속도 센서 |
-
2009
- 2009-09-15 CN CN200910092691.1A patent/CN102023978B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05300494A (ja) * | 1992-01-30 | 1993-11-12 | Nec Corp | 動画像符号化器とその制御方式 |
US6215904B1 (en) * | 1994-11-30 | 2001-04-10 | Xerox Corporation | Apparatus and method for selecting encoding schemes based upon image content |
KR20020038982A (ko) * | 2000-11-20 | 2002-05-25 | 구자홍 | 인터페이스 장치 및 그 송수신 방법 |
CN1908932A (zh) * | 2005-08-05 | 2007-02-07 | 北京人大金仓信息技术有限公司 | 一种海量数据紧缩存储方法及执行装置 |
CN1858735A (zh) * | 2005-12-30 | 2006-11-08 | 华为技术有限公司 | 一种海量数据的处理方法 |
CN1866821A (zh) * | 2006-06-05 | 2006-11-22 | 中国人民解放军国防科学技术大学 | 基于相似数据集的网络监测数据压缩存储和联合检测方法 |
CN101127578A (zh) * | 2007-09-14 | 2008-02-20 | 广东威创日新电子有限公司 | 一种处理海量数据的方法及系统 |
CN101842785A (zh) * | 2007-10-31 | 2010-09-22 | 惠普发展公司,有限责任合伙企业 | 协同压缩 |
Non-Patent Citations (1)
Title |
---|
伍东等: "海量数据并行压缩算法研究", 《山西电子技术》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982033A (zh) * | 2011-09-05 | 2013-03-20 | 深圳市快播科技有限公司 | 小文件的存储方法及系统 |
CN105025098A (zh) * | 2015-07-14 | 2015-11-04 | 惠龙易通国际物流股份有限公司 | 网络接口数据分类的方法及系统 |
CN105025098B (zh) * | 2015-07-14 | 2018-06-29 | 惠龙易通国际物流股份有限公司 | 网络接口数据分类的方法及系统 |
CN105306526A (zh) * | 2015-09-11 | 2016-02-03 | 中国人民解放军63796部队 | 一种大推力火箭大流量遥测数据处理方法 |
CN105306526B (zh) * | 2015-09-11 | 2018-10-12 | 中国人民解放军63796部队 | 一种大推力火箭大流量遥测数据处理方法 |
CN111881111A (zh) * | 2020-07-21 | 2020-11-03 | 清华大学 | 力与流场相关性实验数据库系统,数据处理系统和处理方法 |
CN112148710A (zh) * | 2020-09-21 | 2020-12-29 | 珠海市卓轩科技有限公司 | 微服务分库方法、系统和介质 |
CN112148710B (zh) * | 2020-09-21 | 2023-11-14 | 珠海市卓轩科技有限公司 | 微服务分库方法、系统和介质 |
CN112947263A (zh) * | 2021-04-20 | 2021-06-11 | 南京云玑信息科技有限公司 | 一种基于数据采集与编码管理控制系统 |
CN113220783A (zh) * | 2021-05-07 | 2021-08-06 | 深圳市粤睦信息科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN113220783B (zh) * | 2021-05-07 | 2024-03-26 | 深圳市粤睦信息科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102023978B (zh) | 2015-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102023978B (zh) | 一种海量数据处理方法及系统 | |
CN102571966B (zh) | 一种大型xml文件的网络传输方法 | |
US9390099B1 (en) | Method and apparatus for improving a compression ratio of multiple documents by using templates | |
CN103686210B (zh) | 实时音视频转码方法和系统 | |
CN111629081B (zh) | 互联网协议ip地址数据处理方法、装置及电子设备 | |
CN104125163B (zh) | 一种数据处理方法、装置及终端 | |
CN106407201A (zh) | 一种数据处理方法及装置 | |
CN1316828A (zh) | 数据压缩、传输、存储及程序传输 | |
CN101346689A (zh) | 压缩模式表示对象和用于元数据处理的方法 | |
CN113094346A (zh) | 基于时间序列的大数据编解码方法及装置 | |
CN105611000B (zh) | 一种域名服务器的dns域名快速检索方法 | |
CN101449462A (zh) | 基于集合关联高速缓存映射技术的高速数据压缩 | |
WO2015070788A1 (zh) | 一种识别ip地址的区域归属地信息的方法和装置 | |
CN106789898B (zh) | 远程数据传输终端、系统及其编码、解码方法 | |
CN102970043A (zh) | 一种基于gzip的压缩硬件系统及其加速方法 | |
CN101562455A (zh) | 内容可适性二元算数编码的译码装置及其译码方法 | |
CN101500145A (zh) | 一种基于双向机顶盒的数字家庭公交查询系统 | |
CN103209119A (zh) | 一种低功耗嵌入式云智能网关 | |
CN1633080A (zh) | 在网络管理系统中实现日志的方法 | |
CN101060337A (zh) | 一种优化的霍夫曼解码方法和装置 | |
CN1941702A (zh) | 一种发布博客文章的方法和系统 | |
CN105005464A (zh) | 一种Burrows Wheeler变换硬件处理装置 | |
CN105631000A (zh) | 基于移动终端位置特征信息的终端缓存的数据压缩方法 | |
CN100551066C (zh) | 编码器及自适应算术编码的实现方法及装置 | |
CN115630614A (zh) | 数据传输方法、装置、电子设备与介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180917 Address after: 100190 Beijing Haidian District Zhichun Road 49 No. 3 West 309 Patentee after: Tencent cloud computing (Beijing) limited liability company Address before: 518044 East 403 room, Sai Ge science and Technology Park, Futian District Zhenxing Road, Shenzhen, Guangdong, China, 2 Patentee before: Tencent Technology (Shenzhen) Co., Ltd. |