CN112416927B - 一种数据处理方法、装置、电子设备及存储介质 - Google Patents
一种数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112416927B CN112416927B CN202011249014.9A CN202011249014A CN112416927B CN 112416927 B CN112416927 B CN 112416927B CN 202011249014 A CN202011249014 A CN 202011249014A CN 112416927 B CN112416927 B CN 112416927B
- Authority
- CN
- China
- Prior art keywords
- data
- dimension
- data processing
- dimensions
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 153
- 238000006243 chemical reaction Methods 0.000 claims abstract description 107
- 239000000463 material Substances 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 21
- 238000004140 cleaning Methods 0.000 claims description 14
- 238000012546 transfer Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据处理方法、装置、电子设备及存储介质。所述方法,包括:获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据。从而取得了通过流程统一保证中间过程数据的一致性,减少数据处理过程重复的工作量和因为逻辑不一致导致的查错成本的有益效果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
在训练转化率相关的模型过程中,需要对数据进行清洗转换的加工,进而得到用于训练模型的样本数据。针对不同的场景,目前采用的是单独编写该场景对应的数据清洗、转换等数据处理逻辑,或者是针对各个数据进行人工处理,使其满足相应场景下的需求。
但是,上述方式主要有以下两个问题:第一,数据处理逻辑很难得到复用,后续维护成本变高;第二,数据处理过程中相似特征的逻辑一致性很难得到保证,增加了排错成本。
发明内容
本发明实施例提供一种数据处理方法、装置、电子设备及存储介质,以解决现有的数据处理逻辑很难得到复用,后续维护成本和排错成本较高的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种数据处理方法,包括:
获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;
针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;
根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据。
可选地,所述根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据的步骤,包括:
响应于所述处理需求为构建转化率相关的模型的训练样本,调用预设的样本转化处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据;
其中,所述样本转化处理流程的数据处理过程包括:
S1,根据每个所述维度下同一物料的基础数据,得到每个所述物料对应在所述多个维度之间的转化率;
S2,获取每个所述物料在指定时间段内的转化率数据,并将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据。
可选地,所述针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系的步骤,包括:
针对所述多个维度中的任一维度,根据所述维度限定的数据结构,对所述维度下的原始数据进行数据清洗,并将清洗完成后的数据放入与所述维度存在映射关系的指定存储区域中。
可选地,所述多个维度包括曝光维度和点击维度,或者点击维度和用户转化维度,或者曝光维度和消费维度,或者消费维度和用户转化维度,或者消费维度和点击维度;所述物料包括广告、帖子、网页中的至少一种。
可选地,所述通用数据处理流程基于编程模型MapReduce、集群计算平台Spark、数据仓库工具Hive、分布式系统基础架构Hadoop中的任意一种构建得到。
第二方面,本发明实施例提供了一种数据处理装置,包括:
数据获取模块,用于获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;
数据转存模块,用于针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;
数据处理模块,用于根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据。
可选地,所述数据处理模块,包括:
数据处理子模块,用于响应于所述处理需求为构建转化率相关的模型的训练样本,调用预设的样本转化处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据;
其中,所述样本转化处理流程的数据处理过程包括:
S1,根据每个所述维度下同一物料的基础数据,得到每个所述物料对应在所述多个维度之间的转化率;
S2,获取每个所述物料在指定时间段内的转化率数据,并将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据。
可选地,所述数据转存模块,包括:
数据转存子模块,用于针对所述多个维度中的任一维度,根据所述维度限定的数据结构,对所述维度下的原始数据进行数据清洗,并将清洗完成后的数据放入与所述维度存在映射关系的指定存储区域中。
可选地,所述多个维度包括曝光维度和点击维度,或者点击维度和用户转化维度,或者曝光维度和消费维度,或者消费维度和用户转化维度,或者消费维度和点击维度;所述物料包括广告、帖子、网页中的至少一种。
可选地,所述通用数据处理流程基于编程模型MapReduce、集群计算平台Spark、数据仓库工具Hive、分布式系统基础架构Hadoop中的任意一种构建得到。
第三方面,本发明实施例另外提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的数据处理方法的步骤。
第四方面,本发明实施例另外提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的数据处理方法的步骤。
在本发明实施例中,通过流程统一保证中间过程数据的一致性,取得了减少数据处理过程重复的工作量和因为逻辑不一致导致的查错成本的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种数据处理方法的步骤流程图;
图2是本发明实施例中的另一种数据处理方法的步骤流程图;
图3是本发明实施例中的一种数据处理装置的结构示意图;
图4是本发明实施例中的另一种数据处理装置的结构示意图;
图5是本发明实施例中的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明实施例中一种数据处理方法的步骤流程图。
步骤110,获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;
步骤120,针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;
步骤130,根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据。
仔细分析数据加工流程,在多个维度的转化相关应用场景中,数据的加工流程一般都有一些共性,以CTR(Click-Through-Rate,点击通过率)预估的场景来说,其转化漏斗,也即待处理的原始数据可以分为曝光基础数据和点击基础数据。具体数据加工流程可以抽象为基于每个物料的基础数据获取其CTR数据,进而针对每个物料,将其CTR数据、基础数据等进行组合,得到相应物料对应的样本数据。其中,CTR是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content,又称为曝光量),也即CTR可以理解为曝光到点击之间的转化率,此时存在转化关系的维度可以理解为曝光维度和点击维度。
因此,在本发明实施例中,为了使得具有共性的数据处理流程得到有效复用,提高数据处理效率,降低数据处理成本,可以预先根据不同数据处理流程的过程,设置多个通用数据处理流程,另外将各个维度下的原始数据拆分出来存储并建立每个维度下的原始数据与其维度之间的映射关系,以便于直接基于映射关系随时读取所需维度下的原始数据并执行数据处理流程。
那么在获取待处理的原始数据的情况下,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系,则可以针对所述多个维度中的任一维度,获取相应维度下的原始数据,并建立相应原始数据与相应维度之间的映射关系,进一步则可以根据当前的原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据。
其中,可以通过任何可用方式获取原始数据,对此本发明实施例不加以限定。原始数据的数据格式、数据存储形式等也可以根据需求进行自定义设置,但是需要保证基于映射关系每个维度下的原始数据可以随时被通用数据处理流程读取得到,以便于进行相应地数据处理。
以上述的CTR预估场景为例,原始数据可以包括多个物料的曝光基础数据和点击基础数据,也即曝光维度的基础数据和点击维度的基础数据。而且曝光维度和点击维度之间存在基于CTR表征的转换关系。
其中,曝光基础数据可以包括任何与物料曝光相关的数据,例如物料的曝光次数、曝光时间、曝光位置等等,点击基础数据也可以包括任何与物料点击相关的数据,例如物料的点击次数、点击时间、点击位置等等。物料则可以为广告、帖子、链接、网页等。
原始数据的处理需求也可以根据需求进行自定义设置,对此本发明实施例不加以限定。例如,在训练转化率相关模型的应用场景下,处理需求可能为构建转化率相关模型的训练样本,那么则可以调用用于构建转化率相关模型的训练样本的数据处理流程,作为当前的目标数据处理流程。
此外,在本发明实施例中,可以通过任何可用方式构建通用数据处理流程,对此本发明实施例不加以限定。例如通过任何流程搭建平台,或者是任何一种可用的汇编语言、汇编语言工具,等等。
参照图2,在一实施例中,所述步骤130进一步可以包括:
步骤131,响应于所述处理需求为构建转化率相关的模型的训练样本,调用预设的样本转化处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据;
其中,所述样本转化处理流程的数据处理过程包括:
S1,根据每个所述维度下同一物料的基础数据,得到每个所述物料对应在所述多个维度之间的转化率;
S2,获取每个所述物料在指定时间段内的转化率数据,并将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据。
如果数据的处理需求为构建转化率相关的模型的训练样本,那么则需要调用满足当前处理需求的样本转化处理流程,而且相应地该样本转化处理流程的数据处理过程可以包括:
S1,根据每个所述维度下同一物料的基础数据,得到每个所述物料对应在所述多个维度之间的转化率;
S2,获取每个所述物料在指定时间段内的转化率数据,并将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据。
其中,多个维度之间的转化率可以为各个维度的全部基础数据之间的转化率,也可以为各个维度在每个单位时间内的基础数据之间的转化率。其中的单位时间的时间长度可以根据需求进行自定义设置,对此本发明实施例不加以限定。
例如,假设在CTR预估场景下,存在物料A和物料B,原始数据包括曝光基础数据和点击基础数据,那么在获取每个所述物料对应在所述多个维度之间的转化率时,对于物料A而言,则可以根据根据其在各个维度下的基础数据之间的转化关系,获取物料A在多个维度之间的转化率,例如对于CTR预估场景而言,各个维度下的基础数据之间的转化关系可以理解为曝光维度向点击维度转化,那么在获取任一物料在多个维度之间的转化率时,可以该物料的点击基础数据之间与曝光基础数据的比值,例如点击次数与曝光次数之间的比值,作为该物料在曝光维度和点击维度之间的转化率,也即相应物料的CTR。
而如果多个维度之间的转化率为各个维度在每个单位时间内的整体数据之间的转化率,假设单位时间为1天,那么针对任一物料,则可以获取其在同一天内的点击基础数据之间与曝光基础数据的比值,例如点击次数与曝光次数之间的比值,作为该物料在该天内的曝光维度和点击维度之间的转化率。
在实际应用中,不同物料的启动时间等可以有所不用,例如物料A在2019年1月1日至2019年12月31日使用,物料B在2019年1月1日至2019年6月30日使用,而且时间因素可能会影响物料的原始数据的稳定性,因此在构建训练样本时,为了提高训练结果的准确性,需要对训练样本进行优化,也即提高训练样本的稳定性,那么则可以统一获取每个所述物料在指定时间段内的转化率数据。其中的指定时间段可以根据需求进行自定义设置,对此本发明实施例不加以限定。例如,可以设置指定时间段为最近的15天,那么此时则可以获取每个物料在最近15天中每一天内各个维度之间的转化率,作为相应物料在指定时间段内的转化率数据,等等。
另外,在本发明实施例中,为了方便用户在使用通用数据处理流程之前自定义设置其中部分可调整参数(例如上述的单位时间、指定时间段等),可以分别针对各个可调整参数设置数据接口,用户可以通过各个可调整参数的数据接口设置相应可调整参数的具体取值。
而且,在训练转化率相关模型时,还可以设置每条训练样本中包含物料的各个维度之间的转化率,也可以包括其用于计算转化率的基础数据,因此在本发明实施例中,在获取每个所述物料在指定时间段内的转化率数据之后,还可以进一步将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据,也即每个物料对应的用于训练转化率相关模型的训练样本。
例如,可以设置基于每个物料构建的训练样本为一个集合,其中包含该物料在指定时间段内的转化率数据,该物料在每个维度下的基础数据,而且此时的训练样本中的基础数据可以为每个维度下在指定时间段内的基础数据。
参照图2,在一实施例中,所述步骤120进一步可以包括:
步骤121,针对所述多个维度中的任一维度,根据所述维度限定的数据结构,对所述维度下的原始数据进行数据清洗,并将清洗完成后的数据放入与所述维度存在映射关系的指定存储区域中。
在实际应用中,在构建通用数据处理流程时,物料的使用过程中,其所产生的原始数据中可能包含无效数据(例如误点击数据、误消费数据等)、错误数据(例如将未点击的物料统计为点击等),而且为了提高流程的简洁性和数据处理效率,通用数据处理流程所能处理的数据形式可能有限,例如仅支持较为常用的数据形式。而如果原始数据的数据形式不能得到通用数据处理流程的有效支持,也会影响数据处理流程的有效执行。
因此,在本发明实施例中,可以同时每种维度下所支持的数据结构,那么在建立每个维度下的原始数据与相应维度之间的映射关系时,可以根据相应维度所限定的数据结构,对相应维度下的原始数据进行数据清洗,以使得数据清洗后的数据满足相应维度下的数据结构,并将清洗完成后的数据放入与相应维度存在映射关系的指定存储区域中。其中,每种维度下的数据结构、指定存储区域等都可以根据需求进行自定义设置,对此本发明实施例不加以限定。例如,可以设置指定存储区域为指定存储路径下的基础表结构,那么则可以将相应维度的原始数据经数据清洗后存入与之存在映射关系的指定存储路径下的基础表结构中。
而且,数据清洗的过程可以包括将其中的无效数据、错误数据等清除,也可以包括将其数据形式转换为相应维度所支持的数据结构的数据形式,也即数据处理流程支持的数据形式。而且,将数据清洗后的数据也可以按照相应数据结构依次存入指定存储区域中。
可选地,在一实施例中,所述多个维度包括曝光维度和点击维度,或者点击维度和用户转化维度,或者曝光维度和消费维度,或者消费维度和用户转化维度,或者消费维度和点击维度;所述物料包括广告、帖子、网页中的至少一种。
如上述,在CTR预估等场景中,多个维度可以包括曝光维度和点击维度。
另外,在CVR(Click Value Rate,转化率,衡量CPA(Cost PerAction,按成果数计费)广告效果的指标)预估等场景中,多个维度还可以包括点击维度和用户转化维度,其中的用户转换维度可以细分为用户注册维度、用户登录维度、用户反馈维度(例如用户点赞、拨打物料对应电话、触发物料对应动画特效等),相应地原始数据则可以包括点击基础数据和用户转化基础数据,而且用户转化基础数据还可以进一步细分为用户注册基础数据、用户登录基础数据、用户反馈基础数据。
在CPC(CostPer Click,平均点击价格)预估等场景下,多个维度也可以包括消费维度和点击维度,原始数据则可以包括消费基础数据和点击基础数据;在CPA(CostPerAction,平均用户转化价格)预估等场景下,多个维度也可以包括消费维度和用户转化维度;在ROI(Return on Investment,投资回报率)预估等场景下,多个维度也可以包括订单维度和消费维度,原始数据则可以包括订单基础数据(例如订单数量等)和消费基础数据(例如消费金额等);此外,多个维度也可以包括曝光维度和消费维度等等多个维度的组合形式,对此本发明实施例不加以限定。
可选地,在一实施例中,所述通用数据处理流程基于编程模型MapReduce、集群计算平台Spark、数据仓库工具Hive、分布式系统基础架构Hadoop中的任意一种构建得到。
在本发明实施例中,通过定义通用场景约定的数据结构,将原始数据放入指定存储区域,通过流程统一保证中间过程数据的一致性,减少样本数据清洗过程重复的工作量和因为逻辑不一致导致的查错成本。
而且,通过建立抽象的数据处理流程,新场景接入时,可以达到只需将原始数据写入到指定存储区域中,中间流程通过MapReduce、Spark、Hive,Hadoop或其他任务统一完成处理。同时也可以随时根据新加特征逻辑实现的需要,必要时可以对数据处理流程的任务逻辑进行调整,以满足新特征的拼接,其余场景可以直接复用。
参照图3,示出了本发明实施例中一种数据处理装置的结构示意图。
本发明实施例的数据处理装置包括:数据获取模块210、数据转存模块220和数据处理模块230。
下面分别详细介绍各模块的功能以及各模块之间的交互关系。
数据获取模块210,用于获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;
数据转存模块220,用于针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;
数据处理模块230,用于根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据。
参照图4,在一实施例中,所述数据处理模块230,进一步可以包括:
数据处理子模块231,用于响应于所述处理需求为构建转化率相关的模型的训练样本,调用预设的样本转化处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据;
其中,所述样本转化处理流程的数据处理过程包括:
S1,根据每个所述维度下同一物料的基础数据,得到每个所述物料对应在所述多个维度之间的转化率;
S2,获取每个所述物料在指定时间段内的转化率数据,并将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据。
参照图4,在一实施例中,所述数据转存模块220,进一步可以包括:
数据转存子模块221,用于针对所述多个维度中的任一维度,根据所述维度限定的数据结构,对所述维度下的原始数据进行数据清洗,并将清洗完成后的数据放入与所述维度存在映射关系的指定存储区域中。
可选地,在一实施例中,所述多个维度包括曝光维度和点击维度,或者点击维度和用户转化维度,或者曝光维度和消费维度,或者消费维度和用户转化维度,或者消费维度和点击维度;所述物料包括广告、帖子、网页中的至少一种。
可选地,在一实施例中,所述通用数据处理流程基于编程模型MapReduce、集群计算平台Spark、数据仓库工具Hive、分布式系统基础架构Hadoop中的任意一种构建得到。
本发明实施例提供的数据处理装置能够实现图1至图2的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
优选的,本发明实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
图5为实现本发明各个实施例的一种电子设备的硬件结构示意图。
该电子设备500包括但不限于:射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解,图5中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
应理解的是,本发明实施例中,射频单元501可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器510处理;另外,将上行的数据发送给基站。通常,射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元501还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块502为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元503还可以提供与电子设备500执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。
输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit,GPU)5041和麦克风5042,图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。
电子设备500还包括至少一种传感器505,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度,接近传感器可在电子设备500移动到耳边时,关闭显示面板5061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元506可包括显示面板5061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板5061。
用户输入单元507可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器510,接收处理器510发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071,用户输入单元507还可以包括其他输入设备5072。具体地,其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板5071可覆盖在显示面板5061上,当触控面板5071检测到在其上或附近的触摸操作后,传送给处理器510以确定触摸事件的类型,随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图5中,触控面板5071与显示面板5061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板5071与显示面板5061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元508为外部装置与电子设备500连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备500内的一个或多个元件或者可以用于在电子设备500和外部装置之间传输数据。
存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器510是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器510可包括一个或多个处理单元;优选的,处理器510可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器510中。
电子设备500还可以包括给各个部件供电的电源511(比如电池),优选的,电源511可以通过电源管理系统与处理器510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备500包括一些未示出的功能模块,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;
针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;
根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据,包括:
响应于所述处理需求为构建转化率相关的模型的训练样本,调用预设的样本转化处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据;
其中,所述样本转化处理流程的数据处理过程包括:
S1,根据每个所述维度下同一物料的基础数据,得到每个所述物料对应在所述多个维度之间的转化率;
S2,获取每个所述物料在指定时间段内的转化率数据,并将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据;
其中,在点击通过率预估场景中,所述多个维度至少包括曝光维度和点击维度,在转化率预估场景中,所述多个维度至少包括点击维度和用户转化维度,在平均点击价格预估场景中,所述多个维度至少包括消费维度和点击维度,在平均用户转化价格预估场景中,所述多个维度至少包括消费维度和用户转化维度,在投资回报率预估场景中,所述多个维度至少包括订单维度和消费维度。
2.根据权利要求1所述的方法,其特征在于,所述针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系的步骤,包括:
针对所述多个维度中的任一维度,根据所述维度限定的数据结构,对所述维度下的原始数据进行数据清洗,并将清洗完成后的数据放入与所述维度存在映射关系的指定存储区域中。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述物料包括广告、帖子、网页中的至少一种。
4.根据权利要求1-2中任一项所述的方法,其特征在于,所述通用数据处理流程基于编程模型MapReduce、集群计算平台Spark、数据仓库工具Hive、分布式系统基础架构Hadoop中的任意一种构建得到。
5.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取待处理的原始数据,所述原始数据中包含多个物料在多个维度下的基础数据,所述多个维度中的各个维度之间存在转化关系;
数据转存模块,用于针对所述多个维度中的任一维度,获取所述维度下的原始数据,并建立所述原始数据与所述维度之间的映射关系;
数据处理模块,用于根据所述原始数据的处理需求,从预设的通用数据处理流程中调用满足所述处理需求的目标数据处理流程,并通过所述目标数据处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据;
所述数据处理模块,包括:
数据处理子模块,用于响应于所述处理需求为构建转化率相关的模型的训练样本,调用预设的样本转化处理流程针对每个所述维度下的原始数据进行数据处理,得到处理后的目标数据;
其中,所述样本转化处理流程的数据处理过程包括:
S1,根据每个所述维度下同一物料的基础数据,得到每个所述物料对应在所述多个维度之间的转化率;
S2,获取每个所述物料在指定时间段内的转化率数据,并将每个所述物料的转化率数据与所述物料的基础数据组合,得到每个所述物料经处理后的目标数据;
其中,在点击通过率预估场景中,所述多个维度至少包括曝光维度和点击维度,在转化率预估场景中,所述多个维度至少包括点击维度和用户转化维度,在平均点击价格预估场景中,所述多个维度至少包括消费维度和点击维度,在平均用户转化价格预估场景中,所述多个维度至少包括消费维度和用户转化维度,在投资回报率预估场景中,所述多个维度至少包括订单维度和消费维度。
6.根据权利要求5所述的装置,其特征在于,所述数据转存模块,包括:
数据转存子模块,用于针对所述多个维度中的任一维度,根据所述维度限定的数据结构,对所述维度下的原始数据进行数据清洗,并将清洗完成后的数据放入与所述维度存在映射关系的指定存储区域中。
7.根据权利要求5-6中任一项所述的装置,其特征在于,所述物料包括广告、帖子、网页中的至少一种。
8.根据权利要求5-6中任一项所述的装置,其特征在于,所述通用数据处理流程基于编程模型MapReduce、集群计算平台Spark、数据仓库工具Hive、分布式系统基础架构Hadoop中的任意一种构建得到。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249014.9A CN112416927B (zh) | 2020-11-10 | 2020-11-10 | 一种数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249014.9A CN112416927B (zh) | 2020-11-10 | 2020-11-10 | 一种数据处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112416927A CN112416927A (zh) | 2021-02-26 |
CN112416927B true CN112416927B (zh) | 2024-07-12 |
Family
ID=74781766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011249014.9A Active CN112416927B (zh) | 2020-11-10 | 2020-11-10 | 一种数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112416927B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321112A (zh) * | 2019-07-02 | 2019-10-11 | 北京百度网讯科技有限公司 | Ai能力研发平台及数据处理方法 |
CN110427438A (zh) * | 2019-07-30 | 2019-11-08 | 中国工商银行股份有限公司 | 数据处理方法及其装置、电子设备和介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321119A (zh) * | 2018-03-30 | 2019-10-11 | 优酷网络技术(北京)有限公司 | 数据处理模块的生成方法、服务器和客户端 |
CN109165905A (zh) * | 2018-06-26 | 2019-01-08 | 北京炎黄盈动科技发展有限责任公司 | 业务流程数据的处理方法、装置、设备及可读存储介质 |
CN110430022B (zh) * | 2019-08-19 | 2022-04-19 | 深圳市鹏海运电子数据交换有限公司 | 数据传输方法及装置 |
CN111488363B (zh) * | 2020-06-28 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 数据处理方法、装置、电子设备及介质 |
-
2020
- 2020-11-10 CN CN202011249014.9A patent/CN112416927B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321112A (zh) * | 2019-07-02 | 2019-10-11 | 北京百度网讯科技有限公司 | Ai能力研发平台及数据处理方法 |
CN110427438A (zh) * | 2019-07-30 | 2019-11-08 | 中国工商银行股份有限公司 | 数据处理方法及其装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112416927A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105867751B (zh) | 操作信息处理方法和装置 | |
CN108471376B (zh) | 数据处理方法、装置及系统 | |
CN108255382B (zh) | 一种悬浮菜单内容推荐方法及装置 | |
CN109240577B (zh) | 一种截屏方法及终端 | |
CN110674662B (zh) | 一种扫描方法及终端设备 | |
CN109947650B (zh) | 脚本步骤处理方法、装置和系统 | |
CN112597361B (zh) | 一种排序处理方法、装置、电子设备及存储介质 | |
CN108984066B (zh) | 一种应用程序图标显示方法及移动终端 | |
CN111444425B (zh) | 一种信息推送方法、电子设备及介质 | |
WO2021083091A1 (zh) | 截图方法及终端设备 | |
CN111090489B (zh) | 一种信息控制方法及电子设备 | |
CN109816759B (zh) | 一种表情生成方法及装置 | |
CN111399819B (zh) | 数据生成方法、装置、电子设备及存储介质 | |
CN109815462B (zh) | 一种文本生成方法及终端设备 | |
CN111124706A (zh) | 一种应用程序分享方法及电子设备 | |
CN107765954B (zh) | 一种应用程序图标更新方法、移动终端及服务器 | |
CN111124569B (zh) | 一种应用共享方法、电子设备及计算机可读存储介质 | |
CN108628534B (zh) | 一种字符展示方法及移动终端 | |
CN110099170B (zh) | 图片删除方法及移动终端 | |
CN112416927B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN108600356B (zh) | 一种消息推送方法及装置 | |
CN111200648A (zh) | 一种业务调用方法、装置、终端设备及存储介质 | |
CN110888572A (zh) | 一种消息显示方法及终端设备 | |
CN111045560A (zh) | 图片的发送方法及电子设备 | |
CN115240250A (zh) | 模型训练方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |