CN104090891A - 数据处理方法、装置、数据处理服务器及系统 - Google Patents

数据处理方法、装置、数据处理服务器及系统 Download PDF

Info

Publication number
CN104090891A
CN104090891A CN201310683684.5A CN201310683684A CN104090891A CN 104090891 A CN104090891 A CN 104090891A CN 201310683684 A CN201310683684 A CN 201310683684A CN 104090891 A CN104090891 A CN 104090891A
Authority
CN
China
Prior art keywords
data
information
attribute information
business attribute
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310683684.5A
Other languages
English (en)
Other versions
CN104090891B (zh
Inventor
田万鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201310683684.5A priority Critical patent/CN104090891B/zh
Publication of CN104090891A publication Critical patent/CN104090891A/zh
Application granted granted Critical
Publication of CN104090891B publication Critical patent/CN104090891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置、数据处理服务器及系统,属于信息处理技术领域。所述方法包括:获取接入配置信息;根据接入配置信息实时采集至少一个数据;按照转换后的通用协议识别出的每个数据的业务属性信息将每个数据进行分布式存储;对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由分布式文件系统进行存储。本发明通过接入配置信息中的数据源信息实时采集至少一个数据,并按照转换后的通用协议识别出的业务属性信息将每个数据进行分布式存储;再对每个数据进行预处理及分拣处理,由分布式文件系统存储分拣出的数据,从而实现大量数据的实时采集及处理,并且协议转换可实现不同类型数据的接入,提高了数据处理的效率。

Description

数据处理方法、装置、数据处理服务器及系统
技术领域
本发明涉及信息处理技术领域,特别涉及一种数据处理方法、装置、数据处理服务器及系统。
背景技术
随着信息处理技术的不断发展,获取的数据越来越多。为了更好地利用这些数据,需要对数据进行分拣等处理。由于这些数据来自不同的数据源,在进行数据处理时需要考虑接入系统对不同类型的数据源的适配,并且数据需要及时采集以及分类等处理,从而避免数据的积压。因此,如何快速、及时地进行数据处理成为人们关注的问题。
目前,有两种处理数据的方式。第一种批量预处理+接口机批量入库方式:将待处理数据写入一个日志文件;根据接口机的接口表将一个日志文件拆分为多个日志文件,使不同的接口对应不同的日志文件;发送每个日志文件到接口机中与该日志文件对应的接口;通过与该日志文件对应的接口存储日志文件中的数据。第二种流式数据采集+离线批量预处理方式:将数据发送到消息服务器;通过消息服务器将数据发送到接口机;通过运行分类程序对数据进行分类,使不同的接口对应不同类别的数据;通过与该类别的数据对应的接口存储数据。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
第一种方式需要将数据写入日志文件来完成数据采集的过程,致使采集数据的过程没有实时性;由于一个日志文件中包括所有数据,则将一个日志文件拆分为多个日志文件,即对日志文件中的数据进行分类处理的过程也没有实时性。另外,不同的数据需要对应的不同的分类处理规则,增加了数据处理的复杂度和成本。
第二种方式需要运行分类程序对数据进行离线分类处理,致使数据分类处理的过程没有实时性。另外,分类程序对数据进行分类处理的效率不高,造成了系统资源的浪费。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种数据处理方法、装置、数据处理服务器及系统。所述技术方案如下:
一方面,提供了一种数据处理方法,所述方法包括:
获取接入配置信息,所述接入配置信息中至少包括业务标识信息、业务属性信息、数据源信息、接口信息及入库信息;
根据所述接入配置信息中的数据源信息实时采集至少一个数据;
将每个数据的协议转换成通用协议,通过所述通用协议识别每个数据的业务属性信息,并按照每个数据的业务属性信息将每个数据进行分布式存储;
对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由所述分布式文件系统进行存储。
另一方面,提供了一种数据处理装置,所述装置包括:
获取模块,用于获取接入配置信息,所述接入配置信息中至少包括业务标识信息、业务属性信息、数据源信息、接口信息及入库信息;
采集模块,用于根据所述接入配置信息中的数据源信息实时采集至少一个数据;
转换模块,用于将每个数据的协议转换成通用协议;
第一识别模块,用于通过所述通用协议识别每个数据的业务属性信息;
存储模块,用于按照每个数据的业务属性信息将每个数据进行分布式存储;
处理模块,用于对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由所述分布式文件系统进行存储。
还提供了一种数据处理服务器,所述数据处理服务器包括:一个或一个以上的处理器和存储器,一个或者一个以上的程序存储于所述存储器中,且经配置以由一个或者一个以上的处理器执行,所述一个或者一个以上的程序包含用于进行以下操作的指令:
获取接入配置信息,所述接入配置信息中至少包括业务标识信息、业务属性信息、数据源信息、接口信息及入库信息;
根据所述接入配置信息中的数据源信息实时采集至少一个数据;
将每个数据的协议转换成通用协议,通过所述通用协议识别每个数据的业务属性信息,并按照每个数据的业务属性信息将每个数据进行分布式存储;
对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由所述分布式文件系统进行存储。
还提供了一种数据处理系统,所述系统包括:数据处理服务器、业务服务器和消息服务器,所述数据处理服务器分别与所述业务服务器和消息服务器进行无线或有线连接;
其中,所述数据处理服务器,用于获取接入配置信息,根据所述接入配置信息中的数据源信息实时采集所述业务服务器及所述消息服务器上的至少一个数据;将每个数据的协议转换成通用协议,通过所述通用协议识别每个数据的业务属性信息,并按照每个数据的业务属性信息将每个数据进行分布式存储;对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由所述分布式文件系统进行存储。
本发明实施例提供的技术方案带来的有益效果是:
通过根据接入配置信息中的数据源信息实时采集至少一个数据,并按照转换后的通用协议识别出的业务属性信息将每个数据进行分布式存储;再对每个数据进行预处理及分拣处理,由分布式文件系统存储分拣出的数据,从而实现大量数据的实时采集及处理,并且协议转换可实现不同类型数据的接入,提高了数据处理的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的数据处理方法流程图;
图2是本发明实施例二提供的数据处理系统的示意图;
图3是本发明实施例二提供的数据处理方法流程图;
图4是本发明实施例二提供的打包结构的示意图;
图5是本发明实施例二提供的实时预处理和分拣模块中的进程的示意图;
图6是本发明实施例三提供的第一种数据处理装置的结构示意图;
图7是本发明实施例三提供的处理模块的结构示意图;
图8是本发明实施例三提供的第二种数据处理装置的结构示意图;
图9是本发明实施例三提供的发送单元的结构示意图;
图10是本发明实施例三提供的第三种数据处理装置的结构示意图;
图11是本发明实施例三提供的第四种数据处理装置的结构示意图;
图12是本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种数据处理方法,参见图1,本实施例提供的方法流程包括:
101:获取接入配置信息,接入配置信息中至少包括业务标识信息、业务属性信息、数据源信息、接口信息及入库信息。
102:根据接入配置信息中的数据源信息实时采集至少一个数据。
103:将每个数据的协议转换成通用协议,通过通用协议识别每个数据的业务属性信息,并按照每个数据的业务属性信息将每个数据进行分布式存储。
进一步地,按照每个数据的业务属性信息将每个数据进行分布式存储,包括:
根据每个数据的业务属性信息将每个数据发送至对应的存储设备,由每个存储设备将接收到的数据存储到本地硬盘,并缓存至内存;
通过一至多个解析进程读取存储的每个数据,包括:
通过一至多个解析进程读取每个存储设备的内存中存储的每个数据。
104:对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由分布式文件系统进行存储。
进一步地,对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,包括:
通过一至多个解析进程读取存储的每个数据,并获取每个数据的业务属性信息、接口属性信息及时间属性信息,属性信息相同的数据构成一个数据单元,将同一数据单元中的数据发送至同一分拣进程;
通过每个分拣进程缓存接收到的数据单元中的数据,当缓存写满后,将缓存中的数据添加到本地文件上,并在本地文件达到预设大小后,将本地文件中的数据上传至分布式文件系统。
进一步地,在根据通用协议识别每个数据的业务属性信息时,根据通用协议识别每个数据的接口属性信息及时间属性信息;
获取每个数据的业务属性信息、接口属性信息及时间属性信息,包括:
获取通过通用协议识别出的每个数据的业务属性信息、接口属性信息及时间属性信息。
可选地,获取每个数据的业务属性信息、接口属性信息及时间属性信息,包括:
获取通过通用协议识别出的每个数据的业务属性信息,并通过一至多个解析进程解析每个数据的接口属性信息及时间属性信息。
进一步地,将同一数据单元中的数据发送至同一分拣进程,包括:
根据每个数据的业务属性信息、接口属性信息及时间属性信息计算每个数据对应的哈希值,同一数据单元中的数据对应相同哈希值;
将对应相同哈希值的数据发送至同一分拣线程。
进一步地,通过每个分拣进程接收到数据单元中的第一个数据后,向对应的对账进程发送数据单元的创建信息,并通过每个分拣进程接收到数据单元的最后一个数据后,向对应的对账进程发送数据单元的结束信息;
通过对账进程收集构成数据单元的数据条数,并根据数据单元的数据条数生成对账文件,将对账文件上传至对应的分布式文件系统,由分布式文件信息记录对账文件,用以标识数据单元分拣完成。
进一步地,在传输每个数据之前,按照预设格式将每个数据进行打包及压缩处理,并在每个数据的传输过程中传输打包压缩后的数据;
其中,预设格式包括特殊字段、创建时间字段、子包数目字段、子包字段,每个子包字段包括属性字段和包体字段,包体字段包括包体长度字段、包体压缩字段及包体包含的消息字段。
本发明实施例提供的方法,通过接入配置信息中的数据源信息实时采集至少一个数据,并按照转换后的通用协议识别出的业务属性信息将每个数据进行分布式存储;再对每个数据进行预处理及分拣处理,由分布式文件系统存储分拣出的数据,从而实现大量数据的实时采集及处理,并且协议转换可实现不同类型数据的接入,提高了数据处理的效率。
实施例二
本发明实施例提供了一种数据处理方法,为了便于理解,结合上述实施例一的内容,以如图2所示的数据处理系统为例,对本发明实施例提供的数据处理方法进行详细地解释说明。其中,图2所示的数据处理系统包括:数据处理服务器、业务服务器以及消息服务器;数据处理服务器包括配置管理中心模块、数据采集模块、数据接入模块、分布式数据缓存模块、实时预处理和分拣模块以及故障检测模块,参见图3,方法流程包括:
301:获取接入配置信息,接入配置信息中至少包括业务标识信息、业务属性信息、数据源信息、接口信息及入库信息。
关于获取接入配置信息的方式,本实施例不作具体限定。具体实施时,可以提供交互界面,获取用户通过交互界面输入的配置信息,并将用户输入的配置信息作为获取到的接入配置信息。
为了便于理解,以如图2所示的配置管理中心模块获取接入配置信息为例,用户对数据进行配置的过程包括但不限于:申请业务标识;填写具体业务的业务属性;配置数据源信息;配置接口信息;配置接入分布式文件系统信息。
优选地,配置管理中心模块将获取到的接入配置信息写入配置文件,并存储该配置文件后,该配置管理中心模块向系统中的其他模块同步接入配置信息,以根据接入配置信息触发系统中的其他模块启动数据处理。另外,对于数据源信息是数据库或文件的数据,配置管理中心会在业务服务器中安装数据采集模块,以便能够采集上述两类数据源的数据。
302:根据接入配置信息中的数据源信息实时采集至少一个数据。
关于采集数据的方式,本实施例不作具体限定。具体实施时,对于不同数据源信息的数据,需要使用不同的采集方式采集数据。例如,对于数据库或文件这两种数据源的数据,需要使用配置管理中心预先安装的数据采集模块来采集数据;对于其他数据源的数据,则可以直接使用业务服务器以及消息服务器来采集待处理数据。
进一步地,采集数据时,接入配置信息中的数据源信息所对应的数据源产生一个数据就可以及时发现一个数据,并读取一个数据,从而产生一个数据就可以采集一个数据,使数据实时被采集。需要说明的是,从数据产生到采集的延时可以根据实际情况进行设置,通常情况下时延的单位级别是毫秒。例如,对于离线数据等对实时性要求不高的场景,可以设置最大延时时间为10秒;而对于实时性要求较高的场景,则可以设置最大延时时间为1秒或者更少的时间。
另外,根据接入配置信息中的数据源信息实时采集至少一个数据后,还包括但不限于:传输采集到的数据。为了便于理解,以如图2所示的系统为例进行说明,数据采集模块将采集到的数据发送给数据接入模块,从而由数据采集模块将采集到的数据传输到数据接入模块。
优选地,为了提高数据的传输效率和系统利用率,在传输每个数据之前,本实施例提供的方法按照预设格式将每个数据进行打包及压缩处理,并在每个数据的传输过程中传输打包压缩后的数据。其中,预设格式包括特殊字段、创建时间字段、子包数目字段、子包字段,每个子包字段包括属性字段和包体字段,包体字段包括包体长度字段、包体压缩字段及包体包含的消息字段。
为了便于理解,以如图4所示的打包结构为例进行说明。数据进行打包及压缩处理后,得到数据包,数据包的结构包括:(1)magic,表示特殊字段,用于标识打包结构,在数据包的首尾各有一个magic,每个magic占用2个字节,一个数据包共有4个字节的magic;(2)create time,表示数据包的创建时间,用于后续步骤中的全局对账;(3)pack num,表示子包数目,一个数据包中包含多个子包;(4)子包,每个子包由一个attr(属性)和一个body(包体)组成;其中,body中包含多个数据,并且一个子包的body中包含的多个数据的attr相同,从而节省相同attr的数据的冗余信息;另外,由于数据的压缩是在body中完成的,避免了在需要区分不同attr的数据的情况下,需要解开全部的数据包,实现了数据包的轻度解包,提高了系统的利用率。
进一步地,body还包括:(1)body len,表示包体长度;(2)compress,表示子包是否被压缩;(3)时间消息,以长度+信息的格式进行排列。通过上述打包结构提高了系统中数据的传输效率以及系统的利用率。
303:将每个数据的协议转换成通用协议,通过通用协议识别每个数据的业务属性信息。
其中,数据接入的单元是业务,一般来说一个业务数据对应于一个具体的产品、业务的数据,一个业务数据拥有一个唯一的业务标识。通常一个业务包含多个接口,一个接口一般表示一张具体的数据表,有着统一的数据模式(schema,如数据库中的表)。此外,数据还具有对应的时间属性,表达一个数据的时间,通常代表数据的产生时间,此处称之为数据时间。因此,任何一个数据都是由业务、接口、时间这三个维度决定的,即每个数据都包含业务属性、接口属性及时间属性。
当然,一个数据除了包含以上定义的三种属性以外,还包含其他的属性,本实施例不对数据的具体属性进行限定。例如:数据来源(文件,数据库,消息);数据格式(有分隔符的文本数据,KV表达的数据,JSON数据,PB数据,其他二进制格式的数据);数据解析方法,如何得出前面所述的三个属性的方法(在数据附带属性中定义,在数据内部解析,在数据配置文件中定义等);对于有分隔符的数据还包含分隔符属性;对于在数据内部解析时间的数据,还包括数据时间格式的属性。
由于不同类型数据采用的协议不同,为了能够识别出每种类型数据的业务属性信息,本实施例提供的方法采取了将每个数据的协议转换成通用协议的方式,从而能够通过通用协议识别每个数据的业务属性信息。
例如,通过数据采集模块采集数据时,通常情况下采集到的数据采用内部协议,将采集到的数据的协议进行替换后就可以将数据的协议转换成通用协议。
又例如,通过业务服务器采集数据时,通常情况下采集到的数据采用六段协议或业务自定义协议。对于采用六段协议的数据,数据接入模块将六段协议按照通用协议进行转换;对于采用业务自定义协议的数据,需要通过特定的数据端口接入数据接入模块,再通过定制的数据解析插件对数据进行协议转换。
通过对数据进行协议转换,使各种数据源的数据都可以通过数据接入模块接入系统,扩大了数据处理的应用范围。实际应用中,可以将常用的数据总结成系统能处理的相对应的数据模式。对于新接入的数据,如果在数据模式之内,则可以直接接入;如果在数据模式之外,则需要开发相应的解析插件,并通过调用相应的解析插件完成数据的协议转换,进而简化数据的接入。需要说明的是,此处的解析插件用于将每个数据的协议转换成通用协议,是协议层的解析插件,本实施例不对解析插件的开发过程进行限定。
由于已经将每个数据的协议转换成通用协议,则通过通用协议识别每个数据的业务属性信息时,对于采用内部协议或六段协议的数据,可直接在协议内部识别数据的业务属性信息;对于采用业务自定义协议的数据,需要通过配置文件查找数据的业务属性信息,将查找到业务属性信息作为识别到的业务属性信息。
进一步地,通过通用协议识别每个数据的业务属性信息,实现了对数据初步的解析;对于一些数据,还可根据通用协议识别每个数据的接口属性信息及时间属性信息,避免了后续步骤中解析进程解析每个数据的接口属性信息及时间属性信息,提高了数据处理的效率。
对于接口属性信息,一些数据的接口信息可以在通用协议中识别,另外一些数据则需要在数据内容中识别接口信息,具体识别方式详见后续步骤中的内容;时间属性信息与接口属性信息类似,此处不再赘述,不同的是,大部分数据的时间属性都可在通用协议中识别。
304:根据每个数据的业务属性信息将每个数据发送至对应的存储设备,由每个存储设备将接收到的数据存储到本地硬盘,并缓存至内存。
根据每个数据的业务属性信息将每个数据发送至对应的存储设备时,也可以先按照预设格式将每个数据进行打包及压缩处理,发送打包压缩后的数据至对应的存储设备。关于打包压缩的具体内容,详见上述步骤302中的内容,此处不再赘述。另外,打包压缩时,将识别出的业务属性信息、接口属性信息及时间属性信息作为数据的属性信息与数据一同打包压缩并发送至对应的存储设备。其中,不同业务属性信息对应不同业务属性标识,不同业务属性标识对应存储设备中不同业务主题。
根据每个数据的业务属性信息将每个数据发送至对应的存储设备,还包括但不限于:确定存储设备可以接收的业务主题;根据确定的业务主题向将每个数据发送至对应的存储设备。
例如,分布式数据缓存模块接收数据接入模块发送的数据,按照数据的业务属性信息以及分布式数据缓存模块确定的可以接收的业务主题,将数据存储到本地硬盘,并缓存至内存。具体实施时,存储设备可以是一组服务器,确定每个服务器可以接收的业务主题,又由于不同业务属性信息对应不同业务属性标识,不同业务属性标识对应服务器中不同业务主题,则将不同数据业务属性的数据发送到不同的服务器上,从而实现了数据的混洗,减少数据的倾斜,还能达到数据隔离的作用。
进一步地,通过存储设备将接收到的数据存储到本地硬盘可以将使数据持久化,避免数据丢失,保证数据的完整性;通过存储设备将接收到的数据缓存至内存,从而在系统故障导致阻塞时,数据可以大量积压在内存中,而不会对系统有任何影响,从而保护故障系统不受大数据量的冲击;另外,通过缓存还可以对系统中的其他模块进行隔离,避免一个模块出现故障后,影响其他模块。
另外,针对不同模块的故障,本发明实施例提供多层的容灾恢复功能。例如,在如图2所示的结构图中,还包括故障检测模块,通过该故障检测模块对数据处理系统中的各个模块进行故障检测。如果检测到实时预处理和分拣模块出现故障,导致数据丢失,则可以从分布式数据缓存模块中回退到某个检查站进行回退,由于分布式数据缓存模块的本质是一个消息队列,因此回退仅需要付出很小的代价。
如果检测到分布式数据缓存模块出现故障,则根据实际应用中不同数据的重要性,提供了两种解决方案:
第一种方案:对于数据重要性不高的场景,分布式数据缓存模块中的一个数据缓存服务器发生故障,新增加的数据会自动切换到其他正常的数据缓存服务器中进行缓存和存储,这种方法会丢失少量的数据,如果对整体数据没有影响则无需恢复。
第二种方案:对于数据重要性较高的场景,分布式数据缓存模块中的一个数据缓存服务器发生故障,对数据缓存服务器实施同步复制,即使用另外一个数据缓存服务器替换故障的数据缓存服务器,从而保证数据不会丢失。
如果是数据接入模块或数据采集模块发生故障,可以通过数据采集模块重新补录数据,从而完成数据的接入。
通过多层的容灾恢复功能,在数据处理过程中的任何一个模块发生故障时,都可以及时地恢复,降低了数据恢复的难度,防止故障导致雪崩;尤其对于较长的数据处理流程,减少数据的丢失,降低了数据恢复的成本。
305:对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由分布式文件系统进行存储。
具体地,对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,包括但不限于如下步骤:
步骤一:通过一至多个解析进程读取存储的每个数据,并获取每个数据的业务属性信息、接口属性信息及时间属性信息,属性信息相同的数据构成一个数据单元,将同一数据单元中的数据发送至同一分拣进程;
其中,通过一至多个解析进程读取存储的每个数据,包括但不限于:通过一至多个解析进程读取每个存储设备的内存中存储的每个数据。
在根据通用协议识别每个数据的业务属性信息时,包括但不限于如下两种情况:
第一种情况:如果根据通用协议识别每个数据的接口属性信息及时间属性信息,则获取每个数据的业务属性信息、接口属性信息及时间属性信息,包括但不限于:获取通过通用协议识别出的每个数据的业务属性信息、接口属性信息及时间属性信息。
由于第一种情况下的解析进程无需解析数据的接口属性信息及时间属性信息,从而可以提高数据预处理及分拣过程的效率。
第二种情况:如果根据通用协议没有识别每个数据的接口属性信息及时间属性信息,则获取每个数据的业务属性信息、接口属性信息及时间属性信息,包括但不限于:获取通过通用协议识别出的每个数据的业务属性信息,并通过一至多个解析进程解析每个数据的接口属性信息及时间属性信息。
第二种情况在具体实施时,可以根据读取到的数据的业务属性信息查找与该业务属性信息对应的解析插件,并调用查找到的解析插件对数据进行解析和预处理,得到数据的接口属性信息及时间属性信息。另外,一个解析进程可以同时解析多个数据,进而提高数据处理的效率。
将同一数据单元中的数据发送至同一分拣进程,包括但不限于:根据每个数据的业务属性信息、接口属性信息及时间属性信息计算每个数据对应的哈希值,同一数据单元中的数据对应相同哈希值;将对应相同哈希值的数据发送至同一分拣线程。
将同一数据单元中的数据发送至同一分拣进程时,还可以对数据进行打包压缩处理,关于打包压缩的具体内容,详见上述步骤302中的内容,此处不再赘述。
例如,解析进程11对多个数据进行解析,则解析进程11将哈希值相同的数据发送到同一个分拣进程时,根据哈希值可能将数据发送到分拣进程21、22及23中的任何一个分拣进程,也就是说,一个解析进程对应多个分拣进程。
步骤二:通过每个分拣进程缓存接收到的数据单元中的数据,当缓存写满后,将缓存中的数据添加到本地文件上,并在本地文件达到预设大小后,将本地文件中的数据上传至分布式文件系统。
其中,缓存的预设大小可以为64KB,本地文件的预设大小可以为128MB,每个分拣进程缓存接收到的数据单元中的数据,当缓存写满64KB后,将缓存中的数据添加到本地文件上,并在本地文件达到128MB后,将本地文件中的数据上传至分布式文件系统。当然,缓存及本地文件除了设置上述预设大小外,还可以设置其他预设大小,本实施例对此不作具体限定。
进一步地,本实施例提供的方法还包括:通过每个分拣进程接收到数据单元中的第一个数据后,向对应的对账进程发送数据单元的创建信息,并通过每个分拣进程接收到数据单元的最后一个数据后,向对应的对账进程发送数据单元的结束信息;对账进程收集构成数据单元的数据条数,并根据数据单元的数据条数生成对账文件,将对账文件上传至对应的分布式文件系统,由分布式文件信息记录对账文件,用以标识数据单元分拣完成。
为了便于理解,以如图5所示的实时预处理和分拣模块中的进程为例进行说明。其中,实时预处理和分拣模块中的进程包括解析进程、分拣进程以及对账进程;解析进程中包括3个不同解析进程,分拣进程中包括3个不同分拣进程,对账进程中包括2个不同对账进程。在每个分拣进程接收到数据单元中的第一个数据后,向对应的对账进程发送数据单元的创建信息,对账进程在接收到创建数据的信息后维护一个数据单元的会话,并在每个分拣进程接收到数据单元的最后一个数据后,向对应的对账进程发送数据单元的结束信息;当接收到数据单元的最后一个数据时,在达到预设时间后,分拣进程向对账进程发送结束会话的信息,对账进程在接收到结束会话的信息后,结束会话。例如,如果一个数据单元中包括5条数据,则对账进程收集构成数据单元的数据条数为5,根据数据单元的数据条数生成对账文件,将对账文件上传至对应的分布式文件系统。
本发明实施例提供的方法,通过接入配置信息中的数据源信息实时采集至少一个数据,并按照转换后的通用协议识别出的业务属性信息将每个数据进行分布式存储;再对每个数据进行预处理及分拣处理,由分布式文件系统存储分拣出的数据,从而实现大量数据的实时采集及处理,并且协议转换可实现不同类型数据的接入,提高了数据处理的效率。
实施例三
参见图6,本发明实施例提供了一种数据处理装置,该装置包括:
获取模块501,用于获取接入配置信息,接入配置信息中至少包括业务标识信息、业务属性信息、数据源信息、接口信息及入库信息;
采集模块502,用于根据接入配置信息中的数据源信息实时采集至少一个数据;
转换模块503,用于将每个数据的协议转换成通用协议;
第一识别模块504,用于通过通用协议识别每个数据的业务属性信息;
存储模块505,用于按照每个数据的业务属性信息将每个数据进行分布式存储;
处理模块506,用于对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由分布式文件系统进行存储。
作为一种优选实施例,参见图7,处理模块506,包括:
读取单元5061,用于通过一至多个解析进程读取存储的每个数据;
获取单元5062,用于通过一至多个解析进程获取每个数据的业务属性信息、接口属性信息及时间属性信息,属性信息相同的数据构成一个数据单元;
发送单元5063,用于通过一至多个解析进程将同一数据单元中的数据发送至同一分拣进程;
缓存单元5064,用于通过每个分拣进程缓存接收到的数据单元中的数据,当缓存写满后,将缓存中的数据添加到本地文件;
上传单元5065,用于通过每个分拣进程在本地文件达到预设大小后,将本地文件中的数据上传至分布式文件系统。
作为一种优选实施例,存储模块505,用于根据每个数据的业务属性信息将每个数据发送至对应的存储设备,由每个存储设备将接收到的数据存储到本地硬盘,并缓存至内存;
读取单元5061,用于通过一至多个解析进程读取每个存储设备的内存中存储的每个数据。
作为一种优选实施例,参见图8,该装置还包括:
第二识别模块507,用于在根据通用协议识别每个数据的业务属性信息时,根据通用协议识别每个数据的接口属性信息及时间属性信息;
获取单元5062,用于获取通过通用协议识别出的每个数据的业务属性信息、接口属性信息及时间属性信息。
作为一种优选实施例,获取单元5062,用于获取通过通用协议识别出的每个数据的业务属性信息,并通过一至多个解析进程解析每个数据的接口属性信息及时间属性信息。
作为一种优选实施例,参见图9,发送单元5063,包括:
计算子单元50631,用于根据每个数据的业务属性信息、接口属性信息及时间属性信息计算每个数据对应的哈希值,同一数据单元中的数据对应相同哈希值;
发送子单元50632,用于将对应相同哈希值的数据发送至同一分拣线程。
作为一种优选实施例,参见图10,该装置还包括:
发送模块508,用于通过每个分拣进程接收到数据单元中的第一个数据后,向对应的对账进程发送数据单元的创建信息,并通过每个分拣进程接收到数据单元的最后一个数据后,向对应的对账进程发送数据单元的结束信息;
对账模块509,用于通过对账进程收集构成数据单元的数据条数,并根据数据单元的数据条数生成对账文件,将对账文件上传至对应的分布式文件系统,由分布式文件信息记录对账文件,用以标识数据单元分拣完成。
作为一种优选实施例,参见图11,该装置还包括:
打包压缩模块510,用于在传输每个数据之前,按照预设格式将每个数据进行打包及压缩处理,并在每个数据的传输过程中传输打包压缩后的数据;
其中,预设格式包括特殊字段、创建时间字段、子包数目字段、子包字段,每个子包字段包括属性字段和包体字段,包体字段包括包体长度字段、包体压缩字段及包体包含的消息字段。
需要说明的是,本发明实施例提供的装置可以安装于数据处理服务器上,该数据处理服务器可如图2所示的数据处理服务器或实施例四所述的服务器或实施例五所述的数据处理服务器。实际应用中,本发明实施例提供的数据处理装置中的获取模块501用于执行如图2所示的数据处理服务器上的配置管理中心模块的功能;采集模块502除了执行如图2所示的数据处理服务器上的数据采集模块的功能外,还可以采集业务服务器及消息服务器上的其他数据;转换模块503和第一识别模块504用于执行如图2所示的数据处理服务器上的数据接入模块的功能;存储模块505用于执行如图2所示的数据处理服务器上的分布式数据缓存模块的功能;处理模块506用于执行如图2所示的数据处理服务器上的实时预处理和分拣模块的功能。
综上所述,本发明实施例提供的装置,通过接入配置信息中的数据源信息实时采集至少一个数据,并按照转换后的通用协议识别出的业务属性信息将每个数据进行分布式存储;再对每个数据进行预处理及分拣处理,由分布式文件系统存储分拣出的数据,从而实现大量数据的实时采集及处理,并且协议转换可实现不同类型数据的接入,提高了数据处理的效率。
实施例四
本发明实施例提供了一种服务器,参见图12,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器1200中的一系列指令操作:
获取接入配置信息,接入配置信息中至少包括业务标识信息、业务属性信息、数据源信息、接口信息及入库信息;
根据接入配置信息中的数据源信息实时采集至少一个数据;
将每个数据的协议转换成通用协议,通过通用协议识别每个数据的业务属性信息,并按照每个数据的业务属性信息将每个数据进行分布式存储;
对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由分布式文件系统进行存储。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,服务器1200的存储器1932中,还包含用于执行以下操作的指令:
对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,包括:
通过一至多个解析进程读取存储的每个数据,并获取每个数据的业务属性信息、接口属性信息及时间属性信息,属性信息相同的数据构成一个数据单元,将同一数据单元中的数据发送至同一分拣进程;
通过每个分拣进程缓存接收到的数据单元中的数据,当缓存写满后,将缓存中的数据添加到本地文件上,并在本地文件达到预设大小后,将本地文件中的数据上传至分布式文件系统。
在第一种或第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,服务器1200的存储器1932中,还包含用于执行以下操作的指令:
按照每个数据的业务属性信息将每个数据进行分布式存储,包括:
根据每个数据的业务属性信息将每个数据发送至对应的存储设备,由每个存储设备将接收到的数据存储到本地硬盘,并缓存至内存;
通过一至多个解析进程读取存储的每个数据,包括:
通过一至多个解析进程读取每个存储设备的内存中存储的每个数据。
在第二种可能的实施方式作为基础而提供的第四种可能的实施方式中,服务器1200的存储器1932中,还包含用于执行以下操作的指令:
在根据通用协议识别每个数据的业务属性信息时,根据通用协议识别每个数据的接口属性信息及时间属性信息;
获取每个数据的业务属性信息、接口属性信息及时间属性信息,包括:
获取通过通用协议识别出的每个数据的业务属性信息、接口属性信息及时间属性信息。
在第二种可能的实施方式作为基础而提供的第五种可能的实施方式中,服务器1200的存储器1932中,还包含用于执行以下操作的指令:
获取每个数据的业务属性信息、接口属性信息及时间属性信息,包括:
获取通过通用协议识别出的每个数据的业务属性信息,并通过一至多个解析进程解析每个数据的接口属性信息及时间属性信息。
在第二种可能的实施方式作为基础而提供的第六种可能的实施方式中,服务器1200的存储器1932中,还包含用于执行以下操作的指令:
将同一数据单元中的数据发送至同一分拣进程,包括:
根据每个数据的业务属性信息、接口属性信息及时间属性信息计算每个数据对应的哈希值,同一数据单元中的数据对应相同哈希值;
将对应相同哈希值的数据发送至同一分拣线程。
在第二种可能的实施方式作为基础而提供的第七种可能的实施方式中,服务器1200的存储器1932中,还包含用于执行以下操作的指令:
通过每个分拣进程接收到数据单元中的第一个数据后,向对应的对账进程发送数据单元的创建信息,并通过每个分拣进程接收到数据单元的最后一个数据后,向对应的对账进程发送数据单元的结束信息;
通过对账进程收集构成数据单元的数据条数,并根据数据单元的数据条数生成对账文件,将对账文件上传至对应的分布式文件系统,由分布式文件信息记录对账文件,用以标识数据单元分拣完成。
在第一种可能的实施方式作为基础而提供的第八种可能的实施方式中,服务器1200的存储器1932中,还包含用于执行以下操作的指令:
在传输每个数据之前,按照预设格式将每个数据进行打包及压缩处理,并在每个数据的传输过程中传输打包压缩后的数据;
其中,预设格式包括特殊字段、创建时间字段、子包数目字段、子包字段,每个子包字段包括属性字段和包体字段,包体字段包括包体长度字段、包体压缩字段及包体包含的消息字段。
更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1200上执行存储介质1930中的一系列指令操作。
服务器1200还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
综上所述,本发明实施例提供的服务器,通过接入配置信息中的数据源信息实时采集至少一个数据,并按照转换后的通用协议识别出的业务属性信息将每个数据进行分布式存储;再对每个数据进行预处理及分拣处理,由分布式文件系统存储分拣出的数据,从而实现大量数据的实时采集及处理,并且协议转换可实现不同类型数据的接入,提高了数据处理的效率。
实施例五
本发明实施例提供了一种数据处理系统,该系统包括:数据处理服务器、业务服务器和消息服务器,数据处理服务器分别与业务服务器和消息服务器进行无线或有线连接;
其中,数据处理服务器,用于获取接入配置信息,根据接入配置信息中的数据源信息实时采集业务服务器及消息服务器上的至少一个数据;将每个数据的协议转换成通用协议,通过通用协议识别每个数据的业务属性信息,并按照每个数据的业务属性信息将每个数据进行分布式存储;对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由分布式文件系统进行存储。
作为一种优选实施例,数据处理服务器对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统时,用于通过一至多个解析进程读取存储的每个数据,并获取每个数据的业务属性信息、接口属性信息及时间属性信息,属性信息相同的数据构成一个数据单元,将同一数据单元中的数据发送至同一分拣进程;通过每个分拣进程缓存接收到的数据单元中的数据,当缓存写满后,将缓存中的数据添加到本地文件上,并在本地文件达到预设大小后,将本地文件中的数据上传至分布式文件系统。
作为一种优选实施例,数据处理服务器按照每个数据的业务属性信息将每个数据进行分布式存储时,用于根据每个数据的业务属性信息将每个数据发送至对应的存储设备,由每个存储设备将接收到的数据存储到本地硬盘,并缓存至内存;
作为一种优选实施例,数据处理服务器通过一至多个解析进程读取存储的每个数据时,用于通过一至多个解析进程读取每个存储设备的内存中存储的每个数据。
作为一种优选实施例,数据处理服务器,还用于在根据通用协议识别每个数据的业务属性信息时,根据通用协议识别每个数据的接口属性信息及时间属性信息;
作为一种优选实施例,数据处理服务器获取每个数据的业务属性信息、接口属性信息及时间属性信息时,用于获取通过通用协议识别出的每个数据的业务属性信息、接口属性信息及时间属性信息。
作为一种优选实施例,数据处理服务器获取每个数据的业务属性信息、接口属性信息及时间属性信息时,用于获取通过通用协议识别出的每个数据的业务属性信息,并通过一至多个解析进程解析每个数据的接口属性信息及时间属性信息。
作为一种优选实施例,数据处理服务器将同一数据单元中的数据发送至同一分拣进程时,用于根据每个数据的业务属性信息、接口属性信息及时间属性信息计算每个数据对应的哈希值,同一数据单元中的数据对应相同哈希值;将对应相同哈希值的数据发送至同一分拣线程。
作为一种优选实施例,数据处理服务器通过每个分拣进程接收到数据单元中的第一个数据后,向对应的对账进程发送数据单元的创建信息,并通过每个分拣进程接收到数据单元的最后一个数据后,向对应的对账进程发送数据单元的结束信息;通过对账进程收集构成数据单元的数据条数,并根据数据单元的数据条数生成对账文件,将对账文件上传至对应的分布式文件系统,由分布式文件信息记录对账文件,用以标识数据单元分拣完成。
作为一种优选实施例,数据处理服务器还用于在传输每个数据之前,按照预设格式将每个数据进行打包及压缩处理,并在每个数据的传输过程中传输打包压缩后的数据;
其中,预设格式包括特殊字段、创建时间字段、子包数目字段、子包字段,每个子包字段包括属性字段和包体字段,包体字段包括包体长度字段、包体压缩字段及包体包含的消息字段。
需要说明的是,本发明实施例提供的数据处理系统中的数据处理服务器上可以安装有数据处理装置,该数据处理装置可以为上述实施例三所述的数据处理装置,具体详见上述实施例三的内容。
本发明实施例提供的系统,通过数据处理服务器根据接入配置信息中的数据源信息实时采集业务服务器及消息服务器上的至少一个数据,并按照转换后的通用协议识别出的业务属性信息将每个数据进行分布式存储;再对每个数据进行预处理及分拣处理,由分布式文件系统存储分拣出的数据,从而实现大量数据的实时采集及处理,并且协议转换可实现不同类型数据的接入,提高了数据处理的效率。
需要说明的是:上述实施例提供的数据处理装置在处理数据时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种数据处理方法,其特征在于,所述方法包括:
获取接入配置信息,所述接入配置信息中至少包括业务标识信息、业务属性信息、数据源信息、接口信息及入库信息;
根据所述接入配置信息中的数据源信息实时采集至少一个数据;
将每个数据的协议转换成通用协议,通过所述通用协议识别每个数据的业务属性信息,并按照每个数据的业务属性信息将每个数据进行分布式存储;
对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由所述分布式文件系统进行存储。
2.根据权利要求1所述的方法,其特征在于,所述对所述每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,包括:
通过一至多个解析进程读取存储的每个数据,并获取每个数据的业务属性信息、接口属性信息及时间属性信息,属性信息相同的数据构成一个数据单元,将同一数据单元中的数据发送至同一分拣进程;
通过每个分拣进程缓存接收到的数据单元中的数据,当缓存写满后,将缓存中的数据添加到本地文件上,并在本地文件达到预设大小后,将所述本地文件中的数据上传至分布式文件系统。
3.根据权利要求1或2所述的方法,其特征在于,所述按照每个数据的业务属性信息将每个数据进行分布式存储,包括:
根据每个数据的业务属性信息将每个数据发送至对应的存储设备,由每个存储设备将接收到的数据存储到本地硬盘,并缓存至内存;
所述通过一至多个解析进程读取存储的每个数据,包括:
通过一至多个解析进程读取每个存储设备的内存中存储的每个数据。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在根据所述通用协议识别每个数据的业务属性信息时,根据所述通用协议识别每个数据的接口属性信息及时间属性信息;
所述获取每个数据的业务属性信息、接口属性信息及时间属性信息,包括:
获取通过所述通用协议识别出的每个数据的业务属性信息、接口属性信息及时间属性信息。
5.根据权利要求2所述的方法,其特征在于,所述获取每个数据的业务属性信息、接口属性信息及时间属性信息,包括:
获取通过所述通用协议识别出的每个数据的业务属性信息,并通过所述一至多个解析进程解析每个数据的接口属性信息及时间属性信息。
6.根据权利要求2所述的方法,其特征在于,所述将同一数据单元中的数据发送至同一分拣进程,包括:
根据每个数据的业务属性信息、接口属性信息及时间属性信息计算每个数据对应的哈希值,同一数据单元中的数据对应相同哈希值;
将对应相同哈希值的数据发送至同一分拣线程。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过每个分拣进程接收到数据单元中的第一个数据后,向对应的对账进程发送所述数据单元的创建信息,并通过每个分拣进程接收到所述数据单元的最后一个数据后,向所述对应的对账进程发送所述数据单元的结束信息;
通过所述对账进程收集构成所述数据单元的数据条数,并根据所述数据单元的数据条数生成对账文件,将所述对账文件上传至对应的分布式文件系统,由所述分布式文件信息记录所述对账文件,用以标识所述数据单元分拣完成。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在传输每个数据之前,按照预设格式将每个数据进行打包及压缩处理,并在每个数据的传输过程中传输打包压缩后的数据;
其中,所述预设格式包括特殊字段、创建时间字段、子包数目字段、子包字段,每个子包字段包括属性字段和包体字段,所述包体字段包括包体长度字段、包体压缩字段及包体包含的消息字段。
9.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取接入配置信息,所述接入配置信息中至少包括业务标识信息、业务属性信息、数据源信息、接口信息及入库信息;
采集模块,用于根据所述接入配置信息中的数据源信息实时采集至少一个数据;
转换模块,用于将每个数据的协议转换成通用协议;
第一识别模块,用于通过所述通用协议识别每个数据的业务属性信息;
存储模块,用于按照每个数据的业务属性信息将每个数据进行分布式存储;
处理模块,用于对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由所述分布式文件系统进行存储。
10.根据权利要求9所述的装置,其特征在于,所述处理模块,包括:
读取单元,用于通过一至多个解析进程读取存储的每个数据;
获取单元,用于通过所述一至多个解析进程获取每个数据的业务属性信息、接口属性信息及时间属性信息,属性信息相同的数据构成一个数据单元;
发送单元,用于通过所述一至多个解析进程将同一数据单元中的数据发送至同一分拣进程;
缓存单元,用于通过每个分拣进程缓存接收到的数据单元中的数据,当缓存写满后,将缓存中的数据添加到本地文件上;
上传单元,用于通过每个分拣进程在本地文件达到预设大小后,将所述本地文件中的数据上传至分布式文件系统。
11.根据权利要求9或10所述的装置,其特征在于,所述存储模块,用于根据每个数据的业务属性信息将每个数据发送至对应的存储设备,由每个存储设备将接收到的数据存储到本地硬盘,并缓存至内存;
所述读取单元,用于通过一至多个解析进程读取每个存储设备的内存中存储的每个数据。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二识别模块,用于在根据所述通用协议识别每个数据的业务属性信息时,根据所述通用协议识别每个数据的接口属性信息及时间属性信息;
所述获取单元,用于获取通过所述通用协议识别出的每个数据的业务属性信息、接口属性信息及时间属性信息。
13.根据权利要求10所述的装置,其特征在于,所述获取单元,用于获取通过所述通用协议识别出的每个数据的业务属性信息,并通过所述一至多个解析进程解析每个数据的接口属性信息及时间属性信息。
14.根据权利要求10所述的装置,其特征在于,所述发送单元,包括:
计算子单元,用于根据每个数据的业务属性信息、接口属性信息及时间属性信息计算每个数据对应的哈希值,同一数据单元中的数据对应相同哈希值;
发送子单元,用于将对应相同哈希值的数据发送至同一分拣线程。
15.根据权利要求10所述的装置,其特征在于,所述装置还包括:
发送模块,用于通过每个分拣进程接收到数据单元中的第一个数据后,向对应的对账进程发送所述数据单元的创建信息,并通过每个分拣进程接收到所述数据单元的最后一个数据后,向所述对应的对账进程发送所述数据单元的结束信息;
对账模块,用于通过所述对账进程收集构成所述数据单元的数据条数,并根据所述数据单元的数据条数生成对账文件,将所述对账文件上传至对应的分布式文件系统,由所述分布式文件信息记录所述对账文件,用以标识所述数据单元分拣完成。
16.根据权利要求9所述的装置,其特征在于,所述装置还包括:
打包压缩模块,用于在传输每个数据之前,按照预设格式将每个数据进行打包及压缩处理,并在每个数据的传输过程中传输打包压缩后的数据;
其中,所述预设格式包括特殊字段、创建时间字段、子包数目字段、子包字段,每个子包字段包括属性字段和包体字段,所述包体字段包括包体长度字段、包体压缩字段及包体包含的消息字段。
17.一种数据处理服务器,其特征在于,所述数据处理服务器包括:一个或一个以上的处理器和存储器,一个或者一个以上的程序存储于所述存储器中,且经配置以由一个或者一个以上的处理器执行,所述一个或者一个以上的程序包含用于进行以下操作的指令:
获取接入配置信息,所述接入配置信息中至少包括业务标识信息、业务属性信息、数据源信息、接口信息及入库信息;
根据所述接入配置信息中的数据源信息实时采集至少一个数据;
将每个数据的协议转换成通用协议,通过所述通用协议识别每个数据的业务属性信息,并按照每个数据的业务属性信息将每个数据进行分布式存储;
对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由所述分布式文件系统进行存储。
18.一种数据处理系统,其特征在于,所述系统包括:数据处理服务器、业务服务器和消息服务器,所述数据处理服务器分别与所述业务服务器和消息服务器进行无线或有线连接;
其中,所述数据处理服务器,用于获取接入配置信息,根据所述接入配置信息中的数据源信息实时采集所述业务服务器及所述消息服务器上的至少一个数据;将每个数据的协议转换成通用协议,通过所述通用协议识别每个数据的业务属性信息,并按照每个数据的业务属性信息将每个数据进行分布式存储;对每个数据进行预处理及分拣处理,将分拣出的数据发送到分布式文件系统,由所述分布式文件系统进行存储。
CN201310683684.5A 2013-12-12 2013-12-12 数据处理方法、装置及系统 Active CN104090891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310683684.5A CN104090891B (zh) 2013-12-12 2013-12-12 数据处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310683684.5A CN104090891B (zh) 2013-12-12 2013-12-12 数据处理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN104090891A true CN104090891A (zh) 2014-10-08
CN104090891B CN104090891B (zh) 2016-05-04

Family

ID=51638607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310683684.5A Active CN104090891B (zh) 2013-12-12 2013-12-12 数据处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN104090891B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104967543A (zh) * 2015-06-28 2015-10-07 国网山东济阳县供电公司 一种数据考核校验的系统及其方法
CN105045536A (zh) * 2015-07-29 2015-11-11 百度在线网络技术(北京)有限公司 一种数据存储的方法、装置与系统
CN105718295A (zh) * 2016-01-27 2016-06-29 四川长虹电器股份有限公司 数据采集及解析方法及系统
CN105808705A (zh) * 2016-03-04 2016-07-27 江苏物联网研究发展中心 面向大数据存储中心的数据集成系统及方法
CN106027356A (zh) * 2016-07-04 2016-10-12 杭州迪普科技有限公司 一种隧道标识的转换方法及装置
CN106202324A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN106452819A (zh) * 2015-08-13 2017-02-22 腾讯科技(深圳)有限公司 数据采集系统及数据采集方法
CN106599292A (zh) * 2016-12-26 2017-04-26 东方网力科技股份有限公司 针对实时视频数据和图像数据进行存储的方法及系统
CN106844721A (zh) * 2017-02-09 2017-06-13 济南浪潮高新科技投资发展有限公司 数据存储方法、装置、系统、可读介质及存储控制器
CN106982236A (zh) * 2016-01-18 2017-07-25 阿里巴巴集团控股有限公司 一种信息处理方法、装置和系统
CN107154968A (zh) * 2017-04-26 2017-09-12 深圳市优网科技有限公司 一种数据处理方法及设备
CN107528870A (zh) * 2016-06-22 2017-12-29 腾讯科技(深圳)有限公司 一种数据采集方法及其设备
CN107845029A (zh) * 2017-09-22 2018-03-27 西安艾润物联网技术服务有限责任公司 税务数据采集方法、设备及计算机可读存储介质
CN108334549A (zh) * 2017-12-28 2018-07-27 海尔优家智能科技(北京)有限公司 一种设备数据存储方法、提取方法、存储平台及提取平台
CN108494842A (zh) * 2018-03-13 2018-09-04 国网江苏省电力有限公司无锡供电分公司 一种光伏数据采集方法及系统
CN111399749A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种数据处理系统及方法
CN111625412A (zh) * 2020-04-15 2020-09-04 中国建设银行股份有限公司 基于Flume的数据采集方法、系统、设备和存储介质
CN112328444A (zh) * 2020-10-09 2021-02-05 国家电网有限公司 一种云计算机管理系统及其管理方法
TWI737881B (zh) * 2017-01-20 2021-09-01 大陸商Oppo廣東移動通信有限公司 資料傳輸方法及發送端
US20210334406A1 (en) * 2020-03-27 2021-10-28 EMC IP Holding Company LLC Intelligent and reversible data masking of computing environment information shared with external systems
CN113630408A (zh) * 2021-08-03 2021-11-09 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及服务器
CN114205654A (zh) * 2021-12-15 2022-03-18 中国电信股份有限公司 数据处理系统、方法、装置、计算机可读存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100274750A1 (en) * 2009-04-22 2010-10-28 Microsoft Corporation Data Classification Pipeline Including Automatic Classification Rules
CN101944124A (zh) * 2010-09-21 2011-01-12 卓望数码技术(深圳)有限公司 分布式文件系统管理方法、装置以及对应的文件系统
CN102307221A (zh) * 2011-03-25 2012-01-04 国云科技股份有限公司 一种云存储系统及其实现方法
CN102881125A (zh) * 2012-09-25 2013-01-16 杭州立高科技有限公司 基于多信息融合集中处理平台的报警监控系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100274750A1 (en) * 2009-04-22 2010-10-28 Microsoft Corporation Data Classification Pipeline Including Automatic Classification Rules
CN101944124A (zh) * 2010-09-21 2011-01-12 卓望数码技术(深圳)有限公司 分布式文件系统管理方法、装置以及对应的文件系统
CN102307221A (zh) * 2011-03-25 2012-01-04 国云科技股份有限公司 一种云存储系统及其实现方法
CN102881125A (zh) * 2012-09-25 2013-01-16 杭州立高科技有限公司 基于多信息融合集中处理平台的报警监控系统

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104967543A (zh) * 2015-06-28 2015-10-07 国网山东济阳县供电公司 一种数据考核校验的系统及其方法
CN105045536A (zh) * 2015-07-29 2015-11-11 百度在线网络技术(北京)有限公司 一种数据存储的方法、装置与系统
CN105045536B (zh) * 2015-07-29 2019-09-20 百度在线网络技术(北京)有限公司 一种数据存储的方法、装置与系统
CN106452819A (zh) * 2015-08-13 2017-02-22 腾讯科技(深圳)有限公司 数据采集系统及数据采集方法
CN106452819B (zh) * 2015-08-13 2020-07-07 腾讯科技(深圳)有限公司 数据采集系统及数据采集方法
CN106982236A (zh) * 2016-01-18 2017-07-25 阿里巴巴集团控股有限公司 一种信息处理方法、装置和系统
CN106982236B (zh) * 2016-01-18 2020-07-28 阿里巴巴集团控股有限公司 一种信息处理方法、装置和系统
CN105718295A (zh) * 2016-01-27 2016-06-29 四川长虹电器股份有限公司 数据采集及解析方法及系统
CN105808705A (zh) * 2016-03-04 2016-07-27 江苏物联网研究发展中心 面向大数据存储中心的数据集成系统及方法
CN107528870A (zh) * 2016-06-22 2017-12-29 腾讯科技(深圳)有限公司 一种数据采集方法及其设备
CN107528870B (zh) * 2016-06-22 2019-08-23 腾讯科技(深圳)有限公司 一种数据采集方法及其设备
CN106202324B (zh) * 2016-06-30 2020-10-30 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN106202324A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN106027356B (zh) * 2016-07-04 2019-09-17 杭州迪普科技股份有限公司 一种隧道标识的转换方法及装置
CN106027356A (zh) * 2016-07-04 2016-10-12 杭州迪普科技有限公司 一种隧道标识的转换方法及装置
CN106599292B (zh) * 2016-12-26 2020-05-15 东方网力科技股份有限公司 针对实时视频数据和图像数据进行存储的方法及系统
CN106599292A (zh) * 2016-12-26 2017-04-26 东方网力科技股份有限公司 针对实时视频数据和图像数据进行存储的方法及系统
TWI737881B (zh) * 2017-01-20 2021-09-01 大陸商Oppo廣東移動通信有限公司 資料傳輸方法及發送端
CN106844721A (zh) * 2017-02-09 2017-06-13 济南浪潮高新科技投资发展有限公司 数据存储方法、装置、系统、可读介质及存储控制器
CN107154968A (zh) * 2017-04-26 2017-09-12 深圳市优网科技有限公司 一种数据处理方法及设备
CN107845029A (zh) * 2017-09-22 2018-03-27 西安艾润物联网技术服务有限责任公司 税务数据采集方法、设备及计算机可读存储介质
CN108334549A (zh) * 2017-12-28 2018-07-27 海尔优家智能科技(北京)有限公司 一种设备数据存储方法、提取方法、存储平台及提取平台
CN108494842A (zh) * 2018-03-13 2018-09-04 国网江苏省电力有限公司无锡供电分公司 一种光伏数据采集方法及系统
CN111399749B (zh) * 2019-01-02 2023-05-09 中国移动通信有限公司研究院 一种数据处理系统及方法
CN111399749A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种数据处理系统及方法
US11960623B2 (en) * 2020-03-27 2024-04-16 EMC IP Holding Company LLC Intelligent and reversible data masking of computing environment information shared with external systems
US20210334406A1 (en) * 2020-03-27 2021-10-28 EMC IP Holding Company LLC Intelligent and reversible data masking of computing environment information shared with external systems
CN111625412A (zh) * 2020-04-15 2020-09-04 中国建设银行股份有限公司 基于Flume的数据采集方法、系统、设备和存储介质
CN112328444A (zh) * 2020-10-09 2021-02-05 国家电网有限公司 一种云计算机管理系统及其管理方法
CN113630408A (zh) * 2021-08-03 2021-11-09 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及服务器
CN113630408B (zh) * 2021-08-03 2023-06-16 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及服务器
CN114205654A (zh) * 2021-12-15 2022-03-18 中国电信股份有限公司 数据处理系统、方法、装置、计算机可读存储介质及设备

Also Published As

Publication number Publication date
CN104090891B (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN104090891A (zh) 数据处理方法、装置、数据处理服务器及系统
CN109034993B (zh) 对账方法、设备、系统及计算机可读存储介质
CN105824744B (zh) 一种基于b2b平台的实时日志采集分析方法
CN111131379B (zh) 一种分布式流量采集系统和边缘计算方法
CN107809467B (zh) 一种云环境下容器镜像数据的删减方法
CN108259371A (zh) 一种基于流处理的网络流量数据解析方法和装置
Jayaraman et al. Scalable energy-efficient distributed data analytics for crowdsensing applications in mobile environments
CN111586091B (zh) 一种实现算力组配的边缘计算网关系统
CN112118174B (zh) 软件定义数据网关
CN104394211A (zh) 一种基于Hadoop用户行为分析系统设计与实现方法
CN107241305B (zh) 一种基于多核处理器的网络协议分析系统及其分析方法
CA3119167A1 (en) Approach for a controllable trade-off between cost and availability of indexed data in a cloud log aggregation solution such as splunk or sumo
CN106789242A (zh) 一种基于手机客户端软件动态特征库的识别应用智能分析引擎
CN111177193A (zh) 一种基于Flink的日志流式处理方法及系统
CN113872810A (zh) 一种业务仿真方法、装置、电子设备及存储介质
CN107423188B (zh) 日志处理方法及设备
CN104869056B (zh) 一种基于关系-数据分离的机构-人员数据同步方法
CN112579552A (zh) 日志存储及调用方法、装置及系统
CN111198806A (zh) 一种基于服务开放平台的服务调用数据统计分析方法及系统
CN108650229A (zh) 一种网络应用行为解析还原方法及系统
CN113037551B (zh) 一种基于流量切片的涉敏业务快速识别定位方法
CN111401819B (zh) 系统间数据推送方法及系统
CN115426216A (zh) 一种基于复杂虚拟仪器软件的物联网节点互联方法
CN112100257A (zh) 数据处理方法、装置、计算机设备和存储介质
CN113407505A (zh) 一种安全日志要素处理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant