CN104699697A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN104699697A
CN104699697A CN201310653385.7A CN201310653385A CN104699697A CN 104699697 A CN104699697 A CN 104699697A CN 201310653385 A CN201310653385 A CN 201310653385A CN 104699697 A CN104699697 A CN 104699697A
Authority
CN
China
Prior art keywords
cost
processing
processing cost
unit
entity object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310653385.7A
Other languages
English (en)
Other versions
CN104699697B (zh
Inventor
田雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Tianjin Co Ltd
Original Assignee
China Mobile Group Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Tianjin Co Ltd filed Critical China Mobile Group Tianjin Co Ltd
Priority to CN201310653385.7A priority Critical patent/CN104699697B/zh
Publication of CN104699697A publication Critical patent/CN104699697A/zh
Application granted granted Critical
Publication of CN104699697B publication Critical patent/CN104699697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据处理方法,该方法应用于服务器中,所述服务器包括两个以上计算单元;所述方法包括:接收客户端发送的第一消息;对所述第一消息进行解析,得到所述第一消息对应的实体对象;获取所述实体对象的相关参数;基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本;根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元;通过所述处理成本对应的计算单元对所述实体对象进行处理。本发明还同时公开了一种数据处理装置。采用本发明的技术方案,能够提高服务器的处理能力,有效提高服务器的利用率,提升用户体验。

Description

一种数据处理方法及装置
技术领域
本发明涉及数据处理技术,尤其涉及一种数据处理方法及装置。
背景技术
目前的数据查询系统的架构为客户端/服务器(C/S,Client/Server)架构或者浏览器/服务器(B/S,Browser/Server)架构,其中,服务器处理数据一般有两种实现形式:
第一种实现形式为单一数据库形式,即服务器对应的数据库为单一类型,例如,甲骨文数据库(oracle)、关系型数据库管理系统(mysql)等,服务器针对客户端或者浏览器的各种查询请求都统一在单一的数据库中进行处理;
第二种实现形式为混搭数据库形式,即服务器对应的数据库为混合类型,服务器根据客户端或者浏览器的查询请求,在不同的数据库进行相应的处理;例如,关系型数据库执行结构化数据计算,分布式系统基础架构(hadoop)处理非结构化数据计算。
为了提高服务器对查询请求的处理能力,需要对服务器的硬件设备进行扩容,然而,该方式不仅耗费大量的资源,且线性扩容一般只能带来处理能力的线性增长,服务器的利用率较低,用户查询所需的时间仍旧很长,影响用户的体验。
发明内容
有鉴于此,本发明的主要目的在于提供一种数据处理方法及装置,能够提高服务器的查询处理能力,有效提高服务器的利用率,提升用户的查询体验。
为达到上述目的,本发明的技术方案是这样实现的:
一种数据处理方法,该方法应用于服务器中,所述服务器包括两个以上计算单元;所述方法包括:
接收客户端发送的第一消息;
对所述第一消息进行解析,得到所述第一消息对应的实体对象;
获取所述实体对象的相关参数;
基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本;
根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元;
通过所述处理成本对应的计算单元对所述实体对象进行处理。
优选地,所述两个以上计算单元至少包括:高性能计算单元、中性能计算单元;所述处理成本至少包括:通过所述高性能计算单元处理的第一处理成本、通过所述中性能计算单元处理的第二处理成本;相应地,
所述根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元;通过所述处理成本对应的计算单元对所述实体对象进行处理;包括:
比较所述第一处理成本与所述第二处理成本,当所述第一处理成本大于或等于所述第二处理成本时,通过所述中性能计算单元处理所述实体对象;
当所述第一处理成本与第二处理成本满足以下公式时,通过所述高性能计算单元处理所述实体对象;所述公式为:
W1≤τ×W2
其中,W1为第一处理成本;W2为第二处理成本;1≤τ≤1.5。
优选地,所述基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本,包括:
将所述相关参数带入至所述高性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一处理成本;
将所述相关参数带入至所述中性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二处理成本。
优选地,所述方法还包括:将所述相关参数带入至所述高性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一成本;
将所述相关参数带入至所述中性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二成本;
当所述实体对象对应的数据量位于所述高性能计算模时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述高性能计算单元传输至所述中性能计算单元的传输成本,并作为第三成本;
当所述实体对象对应的数据量位于所述中性能计算单元时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述中性能计算单元传输至所述高性能计算模的传输成本,并作为第四成本;
基于所述第一成本以及所述第四成本,确定出第一处理成本;
基于所述第二成本以及所述第三成本,确定出第二处理成本。
优选地,所述方法还包括:针对处理场景、处理数据量以及所述计算单元配置一个以上测试实例;
对所述一个以上测试实例分别进行处理,并获取所述第一以上测试实例的处理成本;
采用反向传播BP神经网络算法,对所述一个以上测试实例的处理成本与相关参数的关系进行训练以及拟合,得到所述成本模型。
优选地,所述实体对象的相关参数至少包括以下信息的其中之一:存储位置、数据量、维度字段、计算字段。
一种数据处理装置,所述装置包括两个以上计算单元;所述系统还包括:接收单元、解析单元、获取单元、第一处理单元、选择单元;其中,
所述接收单元,用于接收客户端发送的第一消息;
所述解析单元,用于对所述第一消息进行解析,得到所述第一消息对应的实体对象;
所述获取单元,用于获取所述实体对象的相关参数;
所述第一处理单元,用于基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本;
所述选择单元,用于根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元;通知所述处理成本对应的计算单元对所述实体对象进行处理;
所述计算单元,用于收到所述选择单元的通知后,对所述实体对象进行处理。
优选地,所述两个以上计算单元至少包括:高性能计算单元、中性能计算单元;所述处理成本至少包括:通过所述高性能计算单元处理的第一处理成本、通过所述中性能计算单元处理的第二处理成本;相应地,所述选择单元包括:第一选择子单元、第二选择子单元;其中,
所述第一选择子单元,用于比较所述第一处理成本与所述第二处理成本,当所述第一处理成本大于或等于所述第二处理成本时,通过所述中性能计算单元处理所述实体对象;
所述第二选择子单元,用于当所述第一处理成本与第二处理成本满足以下公式时,通过所述高性能计算单元处理所述实体对象;所述公式为:
W1≤τ×W2
其中,W1为第一处理成本;W2为第二处理成本;1≤τ≤1.5。
优选地,所述第一处理单元包括:第一计算子单元和第二计算子单元;其中,
所述第一计算子单元,用于将所述相关参数带入至所述高性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一处理成本;
所述第二计算子单元,用于将所述相关参数带入至所述中性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二处理成本。
优选地,所述第一处理单元还包括:第一计算子单元、第二计算子单元、第三计算子单元、第四计算子单元;其中,
所述第一计算子单元,用于将所述相关参数带入至所述高性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一成本;
所述第二计算子单元,用于将所述相关参数带入至所述中性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二成本;
所述第三计算子单元,用于在所述实体对象对应的数据量位于所述高性能计算模时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述高性能计算单元传输至所述中性能计算单元的传输成本,并作为第三成本;
所述第四计算子单元,用于在所述实体对象对应的数据量位于所述中性能计算单元时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述中性能计算单元传输至所述高性能计算模的传输成本,并作为第四成本;
相应地,所述装置还包括确定单元,所述确定单元包括第一确定子单元、第二确定子单元;其中,
所述第一确定子单元,用于基于所述第一成本以及所述第四成本,确定出第一处理成本;
所述第二确定子单元,用于基于所述第二成本以及所述第三成本,确定出第二处理成本。
优选地,所述装置还包括:配置单元、第二处理单元、拟合单元;其中,
所述配置单元,用于针对处理场景、处理数据量以及所述计算单元配置一个以上测试实例;
所述第二处理单元,用于对所述一个以上测试实例分别进行处理,并获取所述第一以上测试实例的处理成本;
所述拟合单元,用于采用BP神经网络算法,对所述一个以上测试实例的处理成本与相关参数的关系进行训练以及拟合,得到所述成本模型。
优选地,所述实体对象的相关参数至少包括以下信息的其中之一:存储位置、数据量、维度字段、计算字段。
本发明实施例的技术方案中,服务器包括两个以上计算单元,分别进行高、低性能的数据处理;接收到客户端发送的第一消息时,对所述第一消息进行解析,得到所述第一消息对应的实体对象;获取所述实体对象的相关参数;基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本;根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元;通过所述处理成本对应的计算单元对所述实体对象进行处理。如此,提高了服务器的查询处理能力,有效提高了服务器的利用率,提升了用户的查询体验。
附图说明
图1为本发明实施例的数据处理方法的流程示意图;
图2为本发明实施例的数据处理装置的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本发明的特点与技术内容,下面结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
图1为本发明实施例的数据处理方法的流程示意图,本示例中的数据处理方法应用于服务器中,所述服务器包括两个以上计算单元;如图1所示,所述数据处理方法包括以下步骤:
步骤101:接收客户端发送的第一消息。
客户端与服务器之间通过网络进行交互,如此,服务器可以通过网络接收客户端发送的第一消息,例如,客户端查询A地区满足B条件的人口数量时,则发送携带有A地区、B条件、人口数量等信息的第一消息至服务器。
本实施例中,服务器中不同计算单元的处理能力不同,例如,服务器中的M计算单元为高性能计算单元,而N计算单元为中性能计算单元;这里,计算单元的处理能力与实现该计算单元的硬件设施及软件配置有关。在实际应用中,根据查询请求的需要,将查询性能要求高的数据存储至高性能计算单元中;高性能计算单元存储的是数据库的子集,包括查询频率较高的清单、账务、用户信息等数据。而中性能计算单元则存储了数据库的其他的数据以及历史数据。
优选地,步骤101之前,所述方法还包括:
针对处理场景、处理数据量以及所述计算单元配置一个以上测试实例;
这里,所述处理场景可以是查询场景,查询场景包括:宽表查询、关联查询、结构化查询语言(SQL,Structured Query Language)查询;
对所述一个以上测试实例分别进行处理,并获取所述第一以上测试实例的处理成本;
采用反向传播(BP,Back Propagation)神经网络算法,对所述一个以上测试实例的处理成本与相关参数的关系进行训练以及拟合,得到所述成本模型。
上述方案中,预先配置不同查询场景下、不同查询数据量的情况下、以及不同计算单元的情况下的测试实例;通过该测试实例可以进行相应的数据查询,而获得测试实例的处理成本;这里,测试实例的处理成本用查询时间来表征,查询时间越长,则处理成本越高,反之,查询时间越短,则处理成本越低。
上述方案中,配置的测试实例越多,得到的处理成本,也即训练集(inputlayer)就越多,采用BP神经网络算法拟合出的成本模型就越精确,从而能够得到最优隐层(hind layer)。
具体地,当服务器包括高性能计算单元和中性能计算单元时,需要先对高性能计算单元和中性能计算单元的测试环境进行配置,如表1、表2和表3所示,表1为高性能计算单元和中性能计算单元的硬件环境配置参数,依据表1,高性能计算单元的主机型号、主机配置、部署方式以及处理能力都高于中性能计算单元。表2为高性能计算单元和中性能计算单元的软件环境配置参数,依据表2,高性能计算单元的数据库软件、版本、部署方式也都高于中性能计算单元。表3为高性能计算单元和中性能计算单元的存储环境配置参数,依据表3,高性能计算单元的存储性能高于中性能计算单元,存储容量低于中性能计算单元。
表1
中性能计算模块 高性能计算模块
数据库软件 Oracle Database Vectorwise
版本 10.0.2.4
部署方式 双实例RAC 多节点负载
表2
中性能计算模块 高性能计算模块
存储类型 IBM8300磁盘阵列 高速SSD存储
容量 100T 28.8T
表3
针对宽表查询,需要进行汇总计算,表4和表5分别为高性能计算单元和中性能计算单元在不同维度字段、不同计算字段以及不同数据量情况下的各测试实例的处理成本,也即查询时长;依据表4,在宽表查询场景不同数据量的情况下,汇总1到a个字段下,计算1到b个字段的查询时长,采用BP神经网络算法拟合得出成本模型为公式(1):
θ1=f{f1{α,a},f2{β,b},f3{γ,c}}    (1)
其中,θ1为标准配置下汇总a个字段,计算b个字段,处理c百兆条数据的处理成本;θ1的单位为秒/百兆。
同理,依据表5,在宽表查询场景不同数据量的情况下,汇总1到a个字段下,计算1到b个字段的查询时长,采用BP神经网络算法拟合得出成本模型为公式(2):
θ2=f{f1{α,a},f2{β,b},f3{γ,c}}    (2)
其中,θ2为标准配置下汇总a个字段,计算b个字段,处理c百兆条数据的处理成本;θ2的单位为秒/百兆。
表4
表5
针对关联查询,需要进行关联计算,表6和表7分别为高性能计算单元和中性能计算单元在不同关联情况、不同维度字段、不同计算字段以及不同数据量情况下的各测试实例的处理成本,也即查询时长;依据表6,在关联查询场景不同数据量的情况下,d张表关联,汇总1到a个字段下,计算1到b个字段的查询时长,采用BP神经网络算法拟合得出成本模型为公式(3):
θ3=f{f1{α,a},f2{β,b},f3{γ,c},{δ,d}}    (3)
其中,θ3为标准配置下d张表关联,汇总a个字段,计算b个字段,处理c百兆条数据的处理成本;θ3的单位为秒/百兆。
同理,依据表7,在关联查询场景不同数据量的情况下,汇总1到a个字段下,计算1到b个字段的查询时长,采用BP神经网络算法拟合得出成本模型为公式(4):
θ4=f{f1{α,a},f2{β,b},f3{γ,c},{δ,d}}    (4)
其中,θ4为标准配置下d张表关联,汇总a个字段,计算b个字段,处理c百兆条数据的处理成本;θ4的单位为秒/百兆。
高性能计算单元 数据量规模b<500万条 <2000万条 <2亿条
表关联个数=2 f{f1{α,1},f2{β,1},f3{γ,500},{δ,2}} …… ……
表关联个数=3 f{f1{α,1},f2{β,1},f3{γ,500},{δ,3}} …… ……
表关联个数=4 f{f1{α,1},f2{β,1},f3{γ,500},{δ,4}} …… ……
表关联个数=5 f{f1{α,1},f2{β,1},f3{γ,500},{δ,5}} …… ……
…… …… …… ……
表6
中性能计算单元 数据量规模b<500万条 <2000万条 <2亿条
表关联个数=2 f{f1{α,1},f2{β,1},f3{γ,500},{δ,2}} …… ……
表关联个数=3 f{f1{α,1},f2{β,1},f3{γ,500},{δ,3}} …… ……
表关联个数=4 f{f1{α,1},f2{β,1},f3{γ,500},{δ,4}} …… ……
表关联个数=5 f{f1{α,1},f2{β,1},f3{γ,500},{δ,5}} …… ……
…… …… …… ……
表7
针对输入输出(IO,In Out)传输,不同数据量下网络传输及磁盘读写的实例测试结果如表8、表9所示,表8为从中性能计算单元将数据传输至高性能计算单元,依据表8,在IO传输情况下,单条记录b个字节,处理a条数据的传输成本为公式(5):
θ5=f{f1{α,a},f2{β,b}}    (5)
其中,θ5为标准配置下,单条记录b个字节,处理a条数据的传输成本。
表9为从高性能计算单元将数据传输至中性能计算单元,依据表9,在IO传输情况下,单条记录b个字节,处理a条数据的传输成本为公式(6):
θ6=f{f1{α,a},f2{β,b}}    (6)
其中,θ6为标准配置下,单条记录b个字节,处理a条数据的传输成本。
表8
表9
针对高性能计算单元和中性能计算单元在不同处理能力的情况下对测试环境划分大小不同的分区,得到的处理成本如表10和表11所示,依据表10,高性能计算单元对测试环境划分大小不同的分区的处理成本为公式(7):
θ7=f{f1{α,a},f2{β,b}}    (7)
其中,θ7为高性能计算单元在a处理能力下,处理b数据量的处理成本。
同理,依据表11,中性能计算单元对测试环境划分大小不同的分区的处理成本为公式(8):
θ8=f{f1{α,a},f2{β,b}}    (8)
其中,θ8为高性能计算单元在a处理能力下,处理b数据量的处理成本。
表10
中性能计算单元 数据量规模<500万条 <2000万条 <2亿条
40万Tpmc(2C×2) f{f1{α,40},f2{β,500}} …… ……
80万Tpmc(4C×2) f{f1{α,80},f2{β,500}} …… ……
160万Tpmc(8C×2) f{f1{α,160},f2{β,500}} …… ……
160万Tpmc(16C×2) …… …… ……
表11
本实施例中的BP神经网络算法,由于实际测试无法模拟出所有的场景,而且测试环境与实际环境存在差异,故成本模型、传输成本模型采用动态更新策略,即通过实际的查询等成本,反向更新上述公式中的各参数。
步骤102:对所述第一消息进行解析,得到所述第一消息对应的实体对象。
这里,所述实体对象为用户需要查询的目标对象,例如,用户查询A地区满足B条件的人口数量时,实体对象即为A地区满足B条件的人口数量。
步骤103:获取所述实体对象的相关参数。
优选地,步骤103包括:根据所述实体对象,确定出所述实体对象的至少以下信息:存储位置、数据量、维度字段、计算字段。
这里,服务器在创建并存储数据时,将建立一个表单,用于存储数据的以下信息:存储位置、数据量、数据周期等。
如此,可以通过表单确定出所述实体对象的存储位置信息、数据量信息;然后,通过实体对象本身可以确定出维度字段信息、计算字段信息,例如,用户查询A地区满足B条件的人口数量时,维度字段信息为A地区、B条件,计算字段信息为人口数量。
步骤104:基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本。
优选地,所述两个以上计算单元至少包括:高性能计算单元、中性能计算单元;相应地,
所述基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本,包括:
将所述相关参数带入至所述高性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一处理成本;
将所述相关参数带入至所述中性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二处理成本。
优选地,所述方法还包括:
将所述相关参数带入至所述高性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一成本;
将所述相关参数带入至所述中性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二成本;
当所述实体对象对应的数据量位于所述高性能计算模时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述高性能计算单元传输至所述中性能计算单元的传输成本,并作为第三成本;
当所述实体对象对应的数据量位于所述中性能计算单元时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述中性能计算单元传输至所述高性能计算模的传输成本,并作为第四成本;
基于所述第一成本以及所述第四成本,确定出第一处理成本;
基于所述第二成本以及所述第三成本,确定出第二处理成本。
具体地,将第一成本与第四成本相加,得出第一处理成本;将第二成本与第三成本相加,得出第二处理成本。
例如,前台应用查询客户资料表,选取的维度字段为统计日期、品牌、地区、发展渠道,计算字段为总费用、欠费金额。
根据元数据信息得到该表数据量约为1500万,当前存储在高性能计算单元中。将以上维度字段信息、计算字段信息、数据量信息代入前面推导得到的公式中,得到θ1=f{f1{α,4},f2{β,2},f3{γ,1500}},θ1的值小于在中性能计算单元的处理成本θ2,因此在高性能计算单元进行处理。
步骤105:根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元。
步骤106:通过所述处理成本对应的计算单元对所述实体对象进行处理。
优选地,所述根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元;通过所述处理成本对应的计算单元对所述实体对象进行处理;包括:
比较所述第一处理成本与所述第二处理成本,当所述第一处理成本大于或等于所述第二处理成本时,通过所述中性能计算单元处理所述实体对象;
当所述第一处理成本与第二处理成本满足以下公式时,通过所述高性能计算单元处理所述实体对象;所述公式为:
W1≤τ×W2
其中,W1为第一处理成本;W2为第二处理成本;1≤τ≤1.5。优选地,τ可以取1.2。
本实施例的技术方案根据查询的场景,以及查询的内容,实时评估查询在高、中性能计算单元的处理成本,并动态分配查询任务,实现了将第一消息动态分配到高性能计算模块或中性能处理模块的算法。其中,在大数据量的查询情况下,根据不同场景下的测试实例的测试结果,结合BP神经网络算法,计算得到在高性能计算单元和中低性能计算单元中的时间成本开销,从而确定最优的查询策略。
本实施例中的技术方案中选择计算单元主要的判定因素有:
单一查询:实体对象存储于高性能计算单元,则通过高性能计算单元进行处理。实体对象只存储在中性能计算单元,并且数据量较小,则通过中性能计算单元查询,数据量较大时,计算将数据量转存到高性能存储单元的传输成本,以及在高性能计算单元的查询开销,最终得出在高性能计算单元的总成本。如果在高性能计算单元的总成本低于在中性能计算单元的处理成本的80%,并且高性能计算单元中有足够的存储和计算资源,则将数据转存至高性能计算单元,并通过高性能计算单元进行处理。值得注意的是,根据实体对象的查询频率和重要性,服务器将定期清理驻留在高性能第一处理单元的数据。
复杂查询:实体对象同时存储于高性能计算单元和中性能计算单元时,通过算法分析,例如筛选、收敛数据以及传输,抽取到高性能计算单元后,做关联查询的成本计算;由于该成本,受影响的因素较多,影响因素主要有如下因素:维度字段个数α,计算字段个数β,数据量γ规模,系统负载δ,主机处理能力ε。
图2为本发明实施例的数据处理装置的结构组成示意图,如图2所示,所述装置包括两个以上计算单元20;所述系统还包括:接收单元21、解析单元22、获取单元23、第一处理单元24、选择单元25;其中,
所述接收单元21,用于接收客户端发送的第一消息;
所述解析单元22,用于对所述第一消息进行解析,得到所述第一消息对应的实体对象;
所述获取单元23,用于获取所述实体对象的相关参数;
所述第一处理单元24,用于基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本;
所述选择单元25,用于根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元20;通知所述处理成本对应的计算单元20对所述实体对象进行处理;
所述计算单元20,用于收到所述选择单元25的通知后,对所述实体对象进行处理。
优选地,所述两个以上计算单元20至少包括:高性能计算单元201、中性能计算单元202;所述处理成本至少包括:通过所述高性能计算单元201处理的第一处理成本、通过所述中性能计算单元202处理的第二处理成本;相应地,优选地,所述选择单元25包括:第一选择子单元251、第二选择子单元252;其中,
所述第一选择子单元251,用于比较所述第一处理成本与所述第二处理成本,当所述第一处理成本大于或等于所述第二处理成本时,通过所述中性能计算单元202处理所述实体对象;
所述第二选择子单元252,用于当所述第一处理成本与第二处理成本满足以下公式时,通过所述高性能计算单元201处理所述实体对象;所述公式为:
W1≤τ×W2
其中,W1为第一处理成本;W2为第二处理成本;1≤τ≤1.5。
优选地,所述第一处理单元24包括:第一计算子单元241和第二计算子单元242;其中,
所述第一计算子单元241,用于将所述相关参数带入至所述高性能计算单元201对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一处理成本;
所述第二计算子单元242,用于将所述相关参数带入至所述中性能计算单元202对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二处理成本。
优选地,所述第一处理单元24包括:第一计算子单元241和第二计算子单元242、第三计算子单元243、第四计算子单元244;其中,
所述第一计算子单元241,用于将所述相关参数带入至所述高性能计算单元201对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一成本;
所述第二计算子单元242,用于将所述相关参数带入至所述中性能计算单元202对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二成本;
所述第三计算子单元243,用于在所述实体对象对应的数据量位于所述高性能计算模时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述高性能计算单元201传输至所述中性能计算单元202的传输成本,并作为第三成本;
所述第四计算子单元244,用于在所述实体对象对应的数据量位于所述中性能计算单元202时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述中性能计算单元202传输至所述高性能计算模的传输成本,并作为第四成本;
相应地,所述装置还包括确定单元29,所述确定单元29包括第一确定子单元291、第二确定子单元292;其中,
所述第一确定子单元291,用于基于所述第一成本以及所述第四成本,确定出第一处理成本;
所述第二确定子单元292,用于基于所述第二成本以及所述第三成本,确定出第二处理成本。
优选地,所述装置还包括:配置单元26、第二处理单元27、拟合单元28;其中,
所述配置单元26,用于针对处理场景、处理数据量以及所述计算单元20配置一个以上测试实例;
这里,所述处理场景可以是查询场景,所述查询场景包括:宽表查询、关联查询、SQL查询;
所述第二处理单元27,用于对所述一个以上测试实例分别进行处理,并获取所述第一以上测试实例的处理成本;
所述拟合单元28,用于采用BP神经网络算法,对所述一个以上测试实例的处理成本与相关参数的关系进行训练以及拟合,得到所述成本模型。
优选地,所所述实体对象的相关参数至少包括以下信息的其中之一:存储位置、数据量、维度字段、计算字段。
本领域技术人员应当理解,图2所示的数据处理装置中的各单元及其子单元的实现功能可参照前述数据处理方法的相关描述而理解。图2所示的数据处理装置中的各单元及其子单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (12)

1.一种数据处理方法,该方法应用于服务器中,所述服务器包括两个以上计算单元;其特征在于,所述方法包括:
接收客户端发送的第一消息;
对所述第一消息进行解析,得到所述第一消息对应的实体对象;
获取所述实体对象的相关参数;
基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本;
根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元;
通过所述处理成本对应的计算单元对所述实体对象进行处理。
2.根据权利要求1所述的数据处理方法,其特征在于,所述两个以上计算单元至少包括:高性能计算单元、中性能计算单元;所述处理成本至少包括:通过所述高性能计算单元处理的第一处理成本、通过所述中性能计算单元处理的第二处理成本;相应地,
所述根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元;通过所述处理成本对应的计算单元对所述实体对象进行处理;包括:
比较所述第一处理成本与所述第二处理成本,当所述第一处理成本大于或等于所述第二处理成本时,通过所述中性能计算单元处理所述实体对象;
当所述第一处理成本与第二处理成本满足以下公式时,通过所述高性能计算单元处理所述实体对象;所述公式为:
W1≤τ×W2
其中,W1为第一处理成本;W2为第二处理成本;1≤τ≤1.5。
3.根据权利要求2所述的数据处理方法,其特征在于,所述基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本,包括:
将所述相关参数带入至所述高性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一处理成本;
将所述相关参数带入至所述中性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二处理成本。
4.根据权利要求2所述的数据处理方法,其特征在于,所述方法还包括:
将所述相关参数带入至所述高性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一成本;
将所述相关参数带入至所述中性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二成本;
当所述实体对象对应的数据量位于所述高性能计算模时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述高性能计算单元传输至所述中性能计算单元的传输成本,并作为第三成本;
当所述实体对象对应的数据量位于所述中性能计算单元时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述中性能计算单元传输至所述高性能计算模的传输成本,并作为第四成本;
基于所述第一成本以及所述第四成本,确定出第一处理成本;
基于所述第二成本以及所述第三成本,确定出第二处理成本。
5.根据权利要求1至4任一项所述的数据处理方法,其特征在于,所述方法还包括:
针对处理场景、处理数据量以及所述计算单元配置一个以上测试实例;
对所述一个以上测试实例分别进行处理,并获取所述第一以上测试实例的处理成本;
采用反向传播BP神经网络算法,对所述一个以上测试实例的处理成本与相关参数的关系进行训练以及拟合,得到所述成本模型。
6.根据权利要求1至4任一项所述的数据处理方法,其特征在于,所述实体对象的相关参数至少包括以下信息的其中之一:存储位置、数据量、维度字段、计算字段。
7.一种数据处理装置,其特征在于,所述装置包括两个以上计算单元;所述系统还包括:接收单元、解析单元、获取单元、第一处理单元、选择单元;其中,
所述接收单元,用于接收客户端发送的第一消息;
所述解析单元,用于对所述第一消息进行解析,得到所述第一消息对应的实体对象;
所述获取单元,用于获取所述实体对象的相关参数;
所述第一处理单元,用于基于预先训练的成本模型以及所述相关参数,计算所述实体对象的处理成本;
所述选择单元,用于根据预设的成本策略解析所述处理成本,并为所述处理成本选择对应的计算单元;通知所述处理成本对应的计算单元对所述实体对象进行处理;
所述计算单元,用于收到所述选择单元的通知后,对所述实体对象进行处理。
8.根据权利要求7所述的数据处理装置,其特征在于,所述两个以上计算单元至少包括:高性能计算单元、中性能计算单元;所述处理成本至少包括:通过所述高性能计算单元处理的第一处理成本、通过所述中性能计算单元处理的第二处理成本;相应地,所述选择单元包括:第一选择子单元、第二选择子单元;其中,
所述第一选择子单元,用于比较所述第一处理成本与所述第二处理成本,当所述第一处理成本大于或等于所述第二处理成本时,通过所述中性能计算单元处理所述实体对象;
所述第二选择子单元,用于当所述第一处理成本与第二处理成本满足以下公式时,通过所述高性能计算单元处理所述实体对象;所述公式为:
W1≤τ×W2
其中,W1为第一处理成本;W2为第二处理成本;1≤τ≤1.5。
9.根据权利要求8所述的数据处理装置,其特征在于,所述第一处理单元包括:第一计算子单元和第二计算子单元;其中,
所述第一计算子单元,用于将所述相关参数带入至所述高性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一处理成本;
所述第二计算子单元,用于将所述相关参数带入至所述中性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二处理成本。
10.根据权利要求8所述的数据处理装置,其特征在于,所述第一处理单元还包括:第一计算子单元、第二计算子单元、第三计算子单元、第四计算子单元;其中,
所述第一计算子单元,用于将所述相关参数带入至所述高性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第一成本;
所述第二计算子单元,用于将所述相关参数带入至所述中性能计算单元对应的所述成本模型中,计算得到所述实体对象的处理成本,并作为第二成本;
所述第三计算子单元,用于在所述实体对象对应的数据量位于所述高性能计算模时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述高性能计算单元传输至所述中性能计算单元的传输成本,并作为第三成本;
所述第四计算子单元,用于在所述实体对象对应的数据量位于所述中性能计算单元时,基于预先训练的成本模型以及所述相关参数,计算所述实体对象对应的数据量从所述中性能计算单元传输至所述高性能计算模的传输成本,并作为第四成本;
相应地,所述装置还包括确定单元,所述确定单元包括第一确定子单元、第二确定子单元;其中,
所述第一确定子单元,用于基于所述第一成本以及所述第四成本,确定出第一处理成本;
所述第二确定子单元,用于基于所述第二成本以及所述第三成本,确定出第二处理成本。
11.根据权利要求7至10任一项所述的数据处理装置,其特征在于,所述装置还包括:配置单元、第二处理单元、拟合单元;其中,
所述配置单元,用于针对处理场景、处理数据量以及所述计算单元配置一个以上测试实例;
所述第二处理单元,用于对所述一个以上测试实例分别进行处理,并获取所述第一以上测试实例的处理成本;
所述拟合单元,用于采用BP神经网络算法,对所述一个以上测试实例的处理成本与相关参数的关系进行训练以及拟合,得到所述成本模型。
12.根据权利要求8或9所述的数据处理装置,其特征在于,所述实体对象的相关参数至少包括以下信息的其中之一:存储位置、数据量、维度字段、计算字段。
CN201310653385.7A 2013-12-04 2013-12-04 一种数据处理方法及装置 Active CN104699697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310653385.7A CN104699697B (zh) 2013-12-04 2013-12-04 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310653385.7A CN104699697B (zh) 2013-12-04 2013-12-04 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN104699697A true CN104699697A (zh) 2015-06-10
CN104699697B CN104699697B (zh) 2017-11-21

Family

ID=53346832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310653385.7A Active CN104699697B (zh) 2013-12-04 2013-12-04 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN104699697B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804378A (zh) * 2018-05-29 2018-11-13 郑州易通众联电子科技有限公司 一种计算机数据处理方法及系统
CN109523022A (zh) * 2018-11-13 2019-03-26 Oppo广东移动通信有限公司 终端数据处理方法、装置及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231717A (zh) * 2008-02-01 2008-07-30 中国建设银行股份有限公司 一种多维动态参数成本分解系统和方法
US7673295B1 (en) * 2004-04-27 2010-03-02 Sun Microsystems, Inc. System and method for compile-time non-concurrency analysis
CN102026346A (zh) * 2010-12-15 2011-04-20 中兴通讯股份有限公司 一种移动终端及其计算方法
CN102855218A (zh) * 2012-05-14 2013-01-02 中兴通讯股份有限公司 数据处理系统、方法及装置
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7673295B1 (en) * 2004-04-27 2010-03-02 Sun Microsystems, Inc. System and method for compile-time non-concurrency analysis
CN101231717A (zh) * 2008-02-01 2008-07-30 中国建设银行股份有限公司 一种多维动态参数成本分解系统和方法
CN102026346A (zh) * 2010-12-15 2011-04-20 中兴通讯股份有限公司 一种移动终端及其计算方法
CN102855218A (zh) * 2012-05-14 2013-01-02 中兴通讯股份有限公司 数据处理系统、方法及装置
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨际祥等: "一种大规模分布式计算负载均衡策略", 《电子学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804378A (zh) * 2018-05-29 2018-11-13 郑州易通众联电子科技有限公司 一种计算机数据处理方法及系统
CN109523022A (zh) * 2018-11-13 2019-03-26 Oppo广东移动通信有限公司 终端数据处理方法、装置及终端
CN109523022B (zh) * 2018-11-13 2022-04-05 Oppo广东移动通信有限公司 终端数据处理方法、装置及终端

Also Published As

Publication number Publication date
CN104699697B (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
US11531867B2 (en) User behavior prediction method and apparatus, and behavior prediction model training method and apparatus
US8504556B1 (en) System and method for diminishing workload imbalance across multiple database systems
US10936765B2 (en) Graph centrality calculation method and apparatus, and storage medium
US10235403B2 (en) Parallel collective matrix factorization framework for big data
US20190057284A1 (en) Data processing apparatus for accessing shared memory in processing structured data for modifying a parameter vector data structure
CN112990486A (zh) 生成机器学习样本的组合特征的方法及系统
CN107451832B (zh) 推送信息的方法和装置
CN109993627B (zh) 推荐方法、推荐模型的训练方法、装置和存储介质
CN104063376A (zh) 多维度分组运算方法及系统
US11334758B2 (en) Method and apparatus of data processing using multiple types of non-linear combination processing
CN110168529A (zh) 数据存储方法、装置和存储介质
US20150227964A1 (en) Revenue Estimation through Ensemble Modeling
WO2016134580A1 (zh) 一种数据查询方法及装置
CN110866040B (zh) 用户画像生成方法、装置和系统
CN103701635A (zh) 一种在线配置Hadoop参数的方法和装置
US11567930B2 (en) Adaptive data retrieval with runtime authorization
CN105320702A (zh) 一种用户行为数据的分析方法、装置及智能电视
US20180302268A1 (en) Systems and Methods for Real Time Streaming
WO2022156589A1 (zh) 一种直播点击率的确定方法和装置
CN104699697A (zh) 一种数据处理方法及装置
CN111222663B (zh) 数据处理方法及其系统、计算机系统及计算机可读介质
Almomani et al. Selecting a good stochastic system for the large number of alternatives
CN111444249A (zh) 基于热数据的用户画像生成方法、装置、设备及存储介质
CN116089367A (zh) 动态分桶方法、装置、电子设备和介质
WO2022048201A1 (zh) 数据处理方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant