CN1407438A - 海量数据处理方法和系统 - Google Patents
海量数据处理方法和系统 Download PDFInfo
- Publication number
- CN1407438A CN1407438A CN 01126714 CN01126714A CN1407438A CN 1407438 A CN1407438 A CN 1407438A CN 01126714 CN01126714 CN 01126714 CN 01126714 A CN01126714 A CN 01126714A CN 1407438 A CN1407438 A CN 1407438A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- raw data
- layer
- application system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明涉及计算机应用系统中的数据采集及处理技术,具体涉及应用系统软件处理海量数据时根据一定特征高效采集相关数据并根据这些特征进行相关的预处理分析的方法。具体包括以下步骤:应用系统从数据发生源采集数据,录入原始采集层的数据表中;根据原始数据的特征对数据进行第一次分类;根据数据的属性规则对已分类的数据进行二次分类;将分类后的数据录入中间数据层的数据表中;应用系统直接从中间数据表中采集数据进行进一步的运算;本发明对数据进行两次处理,大大提高了数据分析的效率,进而降低了整个应用系统硬件平台的费用,同时它保证了原始数据的正确性,完备性,减少了应用的重复工作量,使得应用系统的处理速度得到极大的提高。
Description
技术领域
本发明涉及计算机应用系统中的数据采集及处理技术,具体地说,涉及一种在应用系统处理海量数据时,通过基于特征的采集数据归并以及根据这些特征进行相关预处理实现海量数据处理的方法和系统。
背景技术
传统大型应用软件系统对其应用的管理对象采集必要的数据进行处理分析,一般而言,处理的数据量都是非常巨大,如一些在线事务数据库系统,一些决策支持分析系统等。在现有技术中,应用对于数据的处理方法是DBMS(数据库管理系统)提供一系列API(应用程序接口)接口直接对于原始数据进行分析处理,或者数据库使用一定的规则创建视图等方法给上层应用提供数据库访问接口。这些方法在数据量激增或者数据量由于长时间采集累积变得很多时,访问数据库的时间消耗就非常巨大,整个系统的运行效率就会大大降低。具体而言,直接对于原始数据进行处理或者通过创建一定视图等方法的缺点,一是表现为在数据量非常大时,DBMS会因为查询某一条有用信息而消耗较长的时间;二是简单的对于原始数据进行直接处理容易造成重复劳动,每一次的操作都要从庞大的数据中重新搜索计算,不能利用上一次的同一处理结果,无谓的使系统消耗增加。
发明内容
本发明要解决的技术问题是提供一种处理海量数据处理方法和系统,利用这种方法和系统处理数据时,能够避免由于数据量大而降低整个应用系统性能,进而降低整个软件系统运行平台的费用,提高其运行效率。
为解决上述问题,本发明提出了一种海量数据处理方法和系统,其核心是在现有应用软件系统的应用层和数据库原始数据层之间增加一个中间数据抽象层进行隔离,系统应用层所使用到的数据都是通过访问中间数据抽象层得到。实际上中间数据抽象层通过特征提取的方法,例如,按照时间特征、对象特征等对原始采集数据进行分类和压缩,完成对原始采集数据的分类工作,再通过预先设定的数据提取特征或者是应用层根据自己需要设定的数据提取特征的某些属性和这些属性衍生的规则进行数据转换工作,即做相应的二次处理,从而形成通用形式的应用层可识别的中间层数据。
按照本发明提供的一种在应用系统处理海量数据的方法,所述应用系统包括数据发生源、原始数据采集层、特征数据处理层和应用层,包括以下步骤:
(1)通过选定的通讯机制,将数据发生源形成的数据传送到原始数据采集层;
(2)所述原始数据采集层解析收到的数据并将其存放到所述原始数据采集层的数据表中;
(3)访问所述原始数据的特征库,对存放在所述数据表中的原始数据进行特征归并;
(4)依据所述特征库特征的属性规则对特征归并后的数据进行预处理,并将预处理后的数据存放到所述特征数据处理层的数据表中;
(5)所述应用层访问所述特征数据处理层,将从中采集到的数据作进一步计算处理,将结果整理成可识别的数据包传给应用系统其他模块。
在按照本发明提供的数据处理方法中,还包括在对所述存放在数据表中的原始数据进行特征归并后,将归并后的数据存放到特定存储空间的步骤。
在按照本发明提供的数据处理方法中,所述选定的通讯机制为TCP/IP通信协议连接。
在按照本发明提供的数据处理方法中,所述特征库是从原始数据中抽取的特征组成的集合,也可以是根据应用系统的需要,用户设置的特征组成的集合。
在按照本发明提供的数据处理方法中,所述特征库存放在运行应用系统的计算机内部存储器中或外部磁盘上。
在按照本发明提供的数据处理方法中,所述特征的属性规则包括以下中的一种或几种的结合:统计、求和、平均、方差。
在按照本发明上述方法进行数据处理的系统中,包括数据发生源、原始数据采集层、应用层,还包括设在所述应用系统层与所述原始数据采集层之间的特征数据处理层,用于通过特征归以及特征的属性规则,对来自所述原始数据采集层的原始数据进行预处理,其中,所述原始数据采集层包括一个数据表,用于存放原始数据,所述特征数据处理层包括一个数据表,用于存放预处理后的数据。
实施本发明提供的海量数据处理方法和系统,由于将原始数据经过特征归类以及特征属性规则的二次处理,实际有用的数据从大量的原始数据的基础上得到了大大的压缩,这样在应用系统处理海量数据的情况下,性能并没有因为原始采集数据的激增而降低,显著提高了数据分析的效率,进而降低了整个应用系统硬件平台的费用。其次,由于应用系统的其它模块在使用这种方法后,只操作经过特征抽取预处理后的数据,保证了原始数据的正确性,完备性,对于系统故障以后,可以利用原始数据直接分析系统的故障原因。再次,由于在特征提取的基础上进行了预处理,将应用所需结果中的大部分计算提前完成并保存在中间数据中,大大减少了应用的重复工作量。对数据的压缩以及预处理两方面的结合,使得应用系统的处理速度得到极大的提高。
附图说明图1为实施本发明方法和系统的实施例的结构示意图。图2为图1结构的另一种表示。
具体实施方式
本发明的数据处理方法及其系统,首先,在应用层(数据显示及应用)与数据发生源之间,根据一定的通讯方式(如TCP/IP连接)建立一个连接,使得其间可进行数据和命令的传输。在传统的应用层与原始数据采集层之间,本发明增加了一个新的环节,特征数据处理层,包括基于特征库的数据特征归并,和基于数据特征属性规则的对原始数据的预处理,使数据量得到了压缩,同时,也使访问这些数据变得更加便利。
在应用系统中,原始数据采集层负责接受来自数据发生源的数据,数据发生源可根据应用系统的要求采集数据,例如,数据发生源可根据一定的频率和预定事件触发机制,将采集到的数据以一定的形式(如文件或消息等形式)发送给应用系统的数据处理接口模块中的数据采集层。
当收到来自数据发生源的原始数据,通过连接相应的数据库,将原始数据录入到原始采集层的数据表中。此时,应用系统中的数据处理接口模块,根据原始数据的抽取的特性(如时间特性,对象特性等)对原始数据进行归并和分类,这里数据的特性以及根据这些特性衍生出的处理规则可以存放在特定的内存空间或者特定的磁盘空间上,在对数据进行分类处理的同时,对这些已分类的数据根据这些属性衍生的规则进行必要的二次处理,诸如统计、求和、平均等运算。此后,将经过预处理的数据录入到中间数据层的数据表中。在应用层需要使用采集到的原始数据时,根据应用系统的要求在中间数据层采集数据并进行进一步的计算,返回给应用系统其他模块。
另外,用户可以根据系统的特定需要,设置特征,这样做到对系统的动态调整,用户设置好特征以后,可以通过重复上述的步骤来得到需要的分析数据。为便于理解本发明的方法,先阐述涉及到概念:
特征:本方法提出的特征,实际上是指大量数据所共有的一些特性,如每条数据可能都有一个时间标识,每条数据来自某个测量对象等。特征提取归并,实际上就是按照大量数据的某些共有特性来整理数据。
属性规则:规则一般指数据处理的公式,对于不同的数据项,不同种类的数据都有不同的计算公式,求和,平均,方差等等,在提取出一组特征的时候,实际上同时就抽象了关于这一种特征的一系列规则,即计算公式,这些称为属性规则。
结合图1和图2,对本发明方法实施例中的数据处理过程说明如下:
数据发生源根据应用层数据显示的需要,采集所必需的数据,按照协议规定好的数据包格式整理原始数据,并通过TCP/IP通讯协议,按照应用要求定时传送到应用系统的原始数据采集层。
原始数据采集层的的数据处理接口模块根据协议解析由数据发生源过来的数据包,将分析得到的原始数据,存放到原始采集层的数据表中。
数据处理接口模块访问特征库,该特征库可以是存放在计算机的内存空间,也可以存放在计算机的磁盘空间上,通过查询出目前原始数据所抽象的特征,再根据这些特征对原始数据采集层的数据进行归类操作,如按照时间特征,将属于同一时间段的原始数据放到相应的存储空间,或者按照对象特征,将属于同一对象的原始数据放到相应的存储空间。完成第一次分类操作以后,特定的存储空间的数据量就较之以前原始数据有了很大的压缩。
数据处理接口模块对分类后的数据再根据特征库特征的属性规则,对分类后的特定磁盘空间下的一类数据再进行规则的预处理,比如根据时间特征计算单位时间的一些和,最大值,最小值等等。根据属性规则计算好的数据同时也存放在相应的存储空间。再经过属性规则预处理后,特定存储空间的数据量又比归类以后的数据量大大降低。
显示接口模块根据应用层显示模块的要求,直接访问中间数据层的数据表,查询的中间数据,进行必要的简单计算,并将最终结果数据整理成应用层模块识别的数据包。
应用层可以根据系统的实际需要,主动设定数据的特征,并可以抽象这一类特征的属性规则,做到对特征的动态调整,使实际所需的数据量可以压缩到最小。
为了更好的阐述特征提取的方法,对图(1)中特征提取的过程放大,细化为图(2),结合图(2),进一步阐述根据特征以及属性规则进行预处理的过程。
假定原始数据集S={data1,data2,data3,......,datan,.....}
datai中均包含有某类特征t
应用对原始数据的访问也是通过对t的一些操作a(t)获得,考虑到S极其庞大时,a(t)所消耗时间太长,不利于一些实时系统的运行,那么,抽取出t,根据t对原始数据进行一次初步合成,形成中间数据集M={mdata1,mdata2,....,mdatan,....},mdatai中包含某类特征x,应用可以通过x对中间数据进行访问,那么x和t之间存在一种映射关系t=f(x)。经过这次处理的中间数据集M其数据量就会比原始数据集S的数据量有明显减少。应用通过访问数据集M一样可以完成原有的功能,而且时间消耗上就很大提高。我们把这种映射关系写入到特征库中,形成系统特有的特征规则库。当然,该库也可以由应用根据访问的情况做规则和映射的设置。另外,如果必要,还可以对中间层数据再次提取,形成二次中间数据,以方便访问。
本发明提供的海量数据处理方法,使用特征提取对数据进行预处理,即根据采集数据的某些特征对原始数据进行分类,根据这些特征的一些属性进行如平均、求和等预处理,产生中间数据,使得被查询数据量大大降低,而应用层直接访问根据特征分类的中间数据,这样使数据访问的效率得到极大提高。另外,应用层可以根据系统的实际需求来定义数据的特征,这样中间数据层就根据这些应用定制特征的某些属性来整理原始数据,进一步提高数据分析的效率。
Claims (10)
1、一种在应用系统处理海量数据的方法,所述应用系统包括数据发生源、原始数据采集层、特征数据处理层和应用层,其特征在于,包括以下步骤:
(1)通过选定的通讯机制,将数据发生源形成的数据传送到原始数据采集层;
(2)所述原始数据采集层解析收到的数据并将其存放到所述原始数据采集层的数据表中;
(3)访问所述原始数据的特征库,对存放在所述数据表中的原始数据进行特征归并;
(4)依据所述特征库特征的属性规则对特征归并后的数据进行预处理,并将预处理后的数据存放到所述特征数据处理层的数据表中;
(5)所述应用层访问所述特征数据处理层,将从中采集到的数据作进一步计算处理,将结果整理成可识别的数据包传给应用系统其他模块。
2、根据权利要求1所述方法,其特征在于,还包括在对所述存放在数据表中的原始数据进行特征归并后,将归并后的数据存放到特定存储空间的步骤。
3、根据权利要求1所述方法,其特征在于,所述选定的通讯机制为TCP/IP通信协议连接。
4、根据权利要求1所述方法,其特征在于,所述特征库是从原始数据中抽取的特征组成的集合,也可以是根据应用系统的需要,用户设置的特征组成的集合。
5、根据权利要求1所述方法,其特征在于,所述特征库存放在运行应用系统的计算机内部存储器中。
6、根据权利要求1所述方法,其特征在于,所述特征库存放在运行应用系统的计算机的外部磁盘上。
7、根据权利要求1所述方法,其特征在于,所述特征的属性规则包括以下中的一种或几种的结合:统计、求和、平均、方差。
8、一种使用权利要求1-7中任何一项方法对数据进行处理的系统,包括数据发生源,原始数据采集层、应用层,其特征在于,还包括设在所述应用系统层与所述原始数据采集层之间的特征数据处理层,用于通过特征归以及特征的属性规则,对来自所述原始数据采集层的原始数据进行预处理。
9、根据权利要求8所述系统,其特征在于,所述原始数据采集层包括一个数据表,用于存放原始数据。
10、根据权利要求8所述系统,其特征在于,所述特征数据处理层包括一个数据表,用于存放预处理后的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01126714 CN1275137C (zh) | 2001-09-07 | 2001-09-07 | 海量数据处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01126714 CN1275137C (zh) | 2001-09-07 | 2001-09-07 | 海量数据处理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1407438A true CN1407438A (zh) | 2003-04-02 |
CN1275137C CN1275137C (zh) | 2006-09-13 |
Family
ID=4666723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 01126714 Expired - Fee Related CN1275137C (zh) | 2001-09-07 | 2001-09-07 | 海量数据处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1275137C (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100484017C (zh) * | 2004-09-08 | 2009-04-29 | 大唐移动通信设备有限公司 | 网元管理系统中海量性能数据的统计方法 |
CN101598940A (zh) * | 2008-06-04 | 2009-12-09 | 北大方正集团有限公司 | 一种数据处理方法及系统 |
CN101155380B (zh) * | 2006-09-29 | 2010-09-08 | 中国移动通信集团北京有限公司 | 无线网络测试数据的整合系统及方法 |
CN102495892A (zh) * | 2011-12-09 | 2012-06-13 | 北京大学 | 一种网页信息抽取方法 |
CN102497450A (zh) * | 2011-12-28 | 2012-06-13 | 北京华电天仁电力控制技术有限公司 | 一种基于两级体系的分布式数据压缩处理方法 |
CN102708201A (zh) * | 2012-05-17 | 2012-10-03 | 北京工业大学 | 基于rfid读写器对海量数据进行收集的方法 |
CN104615684A (zh) * | 2015-01-22 | 2015-05-13 | 北京彩云动力教育科技有限公司 | 一种海量数据通信并发处理方法及系统 |
CN106407290A (zh) * | 2016-08-29 | 2017-02-15 | 北京首信科技股份有限公司 | 一种从海量数据中高效计算多个维度用户数的方法 |
CN108153837A (zh) * | 2017-12-15 | 2018-06-12 | 北京航天测控技术有限公司 | 一种用于动车组调试的实时数据采集与存储方法及其系统 |
CN108737135A (zh) * | 2017-04-17 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 数据处理方法及数据处理装置 |
CN109634947A (zh) * | 2018-12-19 | 2019-04-16 | 深圳创维数字技术有限公司 | 一种数据处理方法、系统、设备及介质 |
CN109660525A (zh) * | 2018-12-05 | 2019-04-19 | 贵州电网有限责任公司 | 一种针对用电采集系统的动态规约适配采集处理系统 |
CN109947811A (zh) * | 2017-11-29 | 2019-06-28 | 北京京东金融科技控股有限公司 | 通用特征库生成方法及装置、存储介质、电子设备 |
CN111208789A (zh) * | 2020-01-02 | 2020-05-29 | 北京航天测控技术有限公司 | 一种数据管理方法、装置、系统及存储介质 |
CN111766811A (zh) * | 2020-07-01 | 2020-10-13 | 泰州市柯普尼通讯设备有限公司 | 船舶卫星vast信息分类存储系统及方法 |
-
2001
- 2001-09-07 CN CN 01126714 patent/CN1275137C/zh not_active Expired - Fee Related
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100484017C (zh) * | 2004-09-08 | 2009-04-29 | 大唐移动通信设备有限公司 | 网元管理系统中海量性能数据的统计方法 |
CN101155380B (zh) * | 2006-09-29 | 2010-09-08 | 中国移动通信集团北京有限公司 | 无线网络测试数据的整合系统及方法 |
CN101598940A (zh) * | 2008-06-04 | 2009-12-09 | 北大方正集团有限公司 | 一种数据处理方法及系统 |
CN102495892A (zh) * | 2011-12-09 | 2012-06-13 | 北京大学 | 一种网页信息抽取方法 |
CN102497450A (zh) * | 2011-12-28 | 2012-06-13 | 北京华电天仁电力控制技术有限公司 | 一种基于两级体系的分布式数据压缩处理方法 |
CN102497450B (zh) * | 2011-12-28 | 2015-02-11 | 北京华电天仁电力控制技术有限公司 | 一种基于两级体系的分布式数据压缩处理方法 |
CN102708201A (zh) * | 2012-05-17 | 2012-10-03 | 北京工业大学 | 基于rfid读写器对海量数据进行收集的方法 |
CN102708201B (zh) * | 2012-05-17 | 2014-11-26 | 北京工业大学 | 基于rfid读写器对海量数据进行收集的方法 |
CN104615684A (zh) * | 2015-01-22 | 2015-05-13 | 北京彩云动力教育科技有限公司 | 一种海量数据通信并发处理方法及系统 |
CN104615684B (zh) * | 2015-01-22 | 2018-06-12 | 北京彩云动力教育科技有限公司 | 一种海量数据通信并发处理方法及系统 |
CN106407290A (zh) * | 2016-08-29 | 2017-02-15 | 北京首信科技股份有限公司 | 一种从海量数据中高效计算多个维度用户数的方法 |
CN108737135A (zh) * | 2017-04-17 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 数据处理方法及数据处理装置 |
CN109947811A (zh) * | 2017-11-29 | 2019-06-28 | 北京京东金融科技控股有限公司 | 通用特征库生成方法及装置、存储介质、电子设备 |
CN108153837A (zh) * | 2017-12-15 | 2018-06-12 | 北京航天测控技术有限公司 | 一种用于动车组调试的实时数据采集与存储方法及其系统 |
CN109660525A (zh) * | 2018-12-05 | 2019-04-19 | 贵州电网有限责任公司 | 一种针对用电采集系统的动态规约适配采集处理系统 |
CN109634947A (zh) * | 2018-12-19 | 2019-04-16 | 深圳创维数字技术有限公司 | 一种数据处理方法、系统、设备及介质 |
CN111208789A (zh) * | 2020-01-02 | 2020-05-29 | 北京航天测控技术有限公司 | 一种数据管理方法、装置、系统及存储介质 |
CN111766811A (zh) * | 2020-07-01 | 2020-10-13 | 泰州市柯普尼通讯设备有限公司 | 船舶卫星vast信息分类存储系统及方法 |
CN111766811B (zh) * | 2020-07-01 | 2021-12-03 | 泰州市柯普尼通讯设备有限公司 | 船舶卫星vast信息分类存储系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1275137C (zh) | 2006-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1275137C (zh) | 海量数据处理方法和系统 | |
CN102404126B (zh) | 一种云计算在应用过程中的收费方法 | |
CN101645032B (zh) | 应用服务器的性能分析方法和应用服务器 | |
CN100596353C (zh) | 提供日志服务的方法及系统 | |
CN102222213B (zh) | 一种基于开放式Web Service架构的分布式视觉计算方法 | |
CN111930868A (zh) | 一种基于多维数据采集的大数据行为轨迹分析方法 | |
CN101477554A (zh) | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 | |
CN105447184A (zh) | 信息抓取方法及装置 | |
CN101853287A (zh) | 数据压缩快速检索文件系统及其方法 | |
CN103064933A (zh) | 数据查询方法及系统 | |
CN101510209A (zh) | 实现实时检索的方法、系统和服务器 | |
CN107301205A (zh) | 一种大数据分布式实时查询方法及系统 | |
CN109033281B (zh) | 一种知识资源库的智能推送系统 | |
CN101141370A (zh) | 基于网格服务的电力企业实时数据处理方法 | |
CN101075249A (zh) | 一种地理信息系统的数据仓库系统及其构建方法 | |
CN110851667A (zh) | 一种多源头大量数据的整合分析方法及工具 | |
CN111666308B (zh) | 一种基于行为分析的大数据智能推荐查询方法和系统 | |
CN106919566A (zh) | 一种基于海量数据的查询统计方法及系统 | |
CN1617138A (zh) | 资料整合与分析系统及方法 | |
CN112347102B (zh) | 多表拼接方法和多表拼接装置 | |
CN107908683A (zh) | 无线城市大数据离线处理系统及其大数据离线处理方法 | |
CN212112557U (zh) | 一种制造管理综合信息系统 | |
CN107797768A (zh) | 一种处理大数据的方法及系统 | |
CN113449173A (zh) | 一种基于特征采样的信息技术提取系统 | |
CN110766555A (zh) | 信息采集系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
ASS | Succession or assignment of patent right |
Owner name: SHENZHENG CITY ZTE CO., LTD. Free format text: FORMER OWNER: SHENZHENG CITY ZTE CO., LTD. SHANGHAI SECOND INSTITUTE Effective date: 20030725 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20030725 Applicant after: Zhongxing Communication Co., Ltd., Shenzhen City Applicant before: Shanghai Inst. of No.2, Zhongxing Communication Co., Ltd., Shenzhen City |
|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060913 Termination date: 20190907 |