CN116468452A - 投放平台确定方法、装置、电子设备及存储介质 - Google Patents
投放平台确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116468452A CN116468452A CN202210008863.8A CN202210008863A CN116468452A CN 116468452 A CN116468452 A CN 116468452A CN 202210008863 A CN202210008863 A CN 202210008863A CN 116468452 A CN116468452 A CN 116468452A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- operation data
- data stream
- identification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012384 transportation and delivery Methods 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000006243 chemical reaction Methods 0.000 claims abstract description 171
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000013500 data storage Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 238000011068 loading method Methods 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 4
- 238000003672 processing method Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 14
- 230000006399 behavior Effects 0.000 description 12
- 230000009466 transformation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开关于一种投放平台确定方法、装置、电子设备及存储介质,所述方法包括:获取携带有目标设备标识信息的待处理转化数据流;所述待处理转化数据流包括至少两种数据类型的数据流;获取所述待处理转化数据流对应的目标操作数据;基于所述目标设备标识信息与所述操作设备标识信息进行匹配,基于匹配结果从所述目标操作数据中确定匹配操作数据;基于所述匹配操作数据中的投放平台标识,确定对所述目标对象进行转化的目标投放平台。本公开能够提高数据处理效率,数据处理系统的稳定性以及可靠性。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种投放平台确定方法、装置、电子设备及存储介质。
背景技术
随着移动互联网的发展,产品的推广平台越来越丰富,用户可在通过不同的投放平台获取到关于产品的投放信息。例如,对于目标应用APP的推广,该目标应用APP的新用户可能会在很多投放平台中查看了目标应用APP的投放信息,最后下载、安装并激活了目标应用APP,需要判断出该新用户转化行为的投放平台来源,即实现投放平台来源归因。找到投放平台来源主要有两个目的:一个是实时将转化信息反馈给对应的投放平台,投放平台可以基于这个数据做实时的投放信息优化,从而为目标应用APP带来更多的新用户;另一个是使用离线归因结果对各投放平台的投放效果进行分析。
相关技术中,为了实现同时支持实时归因和离线归因的情况下,需要分别维护两套系统及代码,两套系统及代码会造成数据接口不一致,使得归因系统稳定性以及可靠性降低;并且当有需求变更时,会增加开发和测试的成本。
发明内容
本公开提供一种放平台确定方法、装置、电子设备及存储介质,以至少解决相关技术中归因系统稳定性以及可靠性低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种投放平台确定方法,包括:
获取携带有目标设备标识信息的待处理转化数据流;所述待处理转化数据流包括至少两种数据类型的数据流;
获取所述待处理转化数据流对应的目标操作数据;所述目标操作数据用于表征对所述目标对象进行转化之前,在多个投放平台对所述目标对象对应的目标投放信息执行预设操作的数据;所述目标操作数据包括操作设备的操作设备标识信息,以及投放平台标识;
基于所述目标设备标识信息与所述操作设备标识信息进行匹配,基于匹配结果从所述目标操作数据中确定匹配操作数据;
基于所述匹配操作数据中的投放平台标识,确定对所述目标对象进行转化的目标投放平台。
在一示例性实施例中,所述获取携带有目标设备标识信息的待处理转化数据流,之前还包括:
获取在预设时间段内已转化设备对所述目标对象的多项已转化数据,所述多项已转化数据包括所述已转化设备的设备标识信息;
遍历所述多项已转化数据中的每项已转化数据,对所述每项已转化数据进行数据格式转换,得到与所述每项已转化数据对应的待处理转化数据流;所述待处理转化数据流中携带相应已转化设备的设备标识信息。
在一示例性实施例中,所述方法还包括:
在所述待处理转化数据流包括所述目标对象的实时转化数据类型的数据流的情况下,将在所述多个投放平台对所述目标投放信息的实时操作数据流存储到数据存储区;
确定所述待处理转化数据流的第一生成时间戳,以及已存储的各项实时操作数据流的第二生成时间戳;
将所述第二生成时间戳早于所述第一生成时间戳的实时操作数据流,确定为所述目标操作数据。
在一示例性实施例中,所述方法还包括:
在所述待处理转化数据流包括所述目标对象的历史转化数据类型的数据流的情况下,将预设时间段内在所述多个投放平台对所述目标投放信息的历史操作数据加载到数据存储区;
确定所述待处理转化数据流的第三生成时间戳,以及已加载的历史操作数据的第四生成时间戳;
将所述第四生成时间戳早于所述第三生成时间戳的历史操作数据,确定为所述目标操作数据。
在一示例性实施例中,所述数据存储区包括多个存储分片;
所述方法还包括:
在所述目标操作数据中存在包含相同操作设备标识信息的多项操作数据的情况下,对具有相同操作设备标识信息的多项操作数据进行分片存储;
所述获取所述待处理转化数据流对应的目标操作数据,包括:
从所述多个存储分片中,获取所述具有相同操作设备标识信息的多项操作数据。
在一示例性实施例中,所述基于匹配结果从所述目标操作数据中确定匹配操作数据包括:
在所述匹配结果指示存在多项候选操作数据,所述多项候选操作数据中的操作设备标识信息与所述目标设备标识信息一致的情况下,确定所述多项候选操作数据的第五生成时间戳;
基于所述多项候选操作数据的第五生成时间戳与所述待处理转化数据流的生成时间戳,确定为所述匹配操作数据。
在一示例性实施例中,所述方法还包括:
在所述待处理转化数据流包括所述目标对象的实时转化数据类型的数据流的情况下,向所述目标投放平台发送实时转化反馈信息;所述实时转化反馈信息用于指示所述目标投放平台对所述目标投放信息进行更新处理。
在一示例性实施例中,所述方法还包括:
在所述待处理转化数据流包括所述目标对象的历史转化数据类型的数据流的情况下,基于各项待处理转化数据流对应的所述目标投放平台,确定在预设时间段内与所述多个投放平台对应的目标对象转化数据;
基于所述目标对象转化数据,确定与所述多个投放平台对应的投放结果信息。
根据本公开实施例的第二方面,提供一种投放平台确定装置,包括:
待处理转化数据流获取单元,被配置为执行获取携带有目标设备标识信息的待处理转化数据流;所述待处理转化数据流包括至少两种数据类型的数据流;
目标操作数据获取单元,被配置为执行获取所述待处理转化数据流对应的目标操作数据;所述目标操作数据用于表征对所述目标对象进行转化之前,在多个投放平台对所述目标对象对应的目标投放信息执行预设操作的数据;所述目标操作数据包括操作设备的操作设备标识信息,以及投放平台标识;
匹配单元,被配置为执行基于所述目标设备标识信息与所述操作设备标识信息进行匹配,基于匹配结果从所述目标操作数据中确定匹配操作数据;
目标投放平台确定单元,被配置为执行基于所述匹配操作数据中的投放平台标识,确定对所述目标对象进行转化的目标投放平台。
在一示例性实施例中,所述装置还包括:
已转化数据获取单元,被配置为执行获取在预设时间段内已转化设备对所述目标对象的多项已转化数据,所述多项已转化数据包括所述已转化设备的设备标识信息;
数据项遍历单元,被配置为执行遍历所述多项已转化数据中的每项已转化数据,对所述每项已转化数据进行数据格式转换,得到与所述每项已转化数据对应的待处理转化数据流;所述待处理转化数据流中携带相应已转化设备的设备标识信息。
在一示例性实施例中,所述装置还包括:
操作数据流存储单元,被配置为执行在所述待处理转化数据流包括所述目标对象的实时转化数据类型的数据流的情况下,将在所述多个投放平台对所述目标投放信息的实时操作数据流存储到数据存储区;
第一确定单元,被配置为执行确定所述待处理转化数据流的第一生成时间戳,以及已存储的各项实时操作数据流的第二生成时间戳;
第二确定单元,被配置为执行将所述第二生成时间戳早于所述第一生成时间戳的实时操作数据流,确定为所述目标操作数据。
在一示例性实施例中,所述装置还包括:
数据加载单元,被配置为执行在所述待处理转化数据流包括所述目标对象的历史转化数据类型的数据流的情况下,将预设时间段内在所述多个投放平台对所述目标投放信息的历史操作数据加载到数据存储区;
第三确定单元,被配置为执行确定所述待处理转化数据流的第三生成时间戳,以及已加载的历史操作数据的第四生成时间戳;
第四确定单元,被配置为执行将所述第四生成时间戳早于所述第三生成时间戳的历史操作数据,确定为所述目标操作数据。
在一示例性实施例中,所述数据存储区包括多个存储分片;
所述装置还包括:
分片存储单元,被配置为执行在所述目标操作数据中存在包含相同操作设备标识信息的多项操作数据的情况下,对具有相同操作设备标识信息的多项操作数据进行分片存储;
所述目标操作数据获取单元包括:
第一获取单元,被配置为执行从所述多个存储分片中,获取所述具有相同操作设备标识信息的多项操作数据。
在一示例性实施例中,所述匹配单元包括:
第五确定单元,被配置为执行在所述匹配结果指示存在多项候选操作数据,所述多项候选操作数据中的操作设备标识信息与所述目标设备标识信息一致的情况下,确定所述多项候选操作数据的第五生成时间戳;
第六确定单元,被配置为执行基于所述多项候选操作数据的第五生成时间戳与所述待处理转化数据流的生成时间戳,确定为所述匹配操作数据。
在一示例性实施例中,所述装置还包括:
转化反馈单元,被配置为执行在所述待处理转化数据流包括所述目标对象的实时转化数据类型的数据流的情况下,向所述目标投放平台发送实时转化反馈信息;所述实时转化反馈信息用于指示所述目标投放平台对所述目标投放信息进行更新处理。
在一示例性实施例中,所述装置还包括:
目标对象转化数据确定单元,被配置为执行在所述待处理转化数据流包括所述目标对象的历史转化数据类型的数据流的情况下,基于各项待处理转化数据流对应的所述目标投放平台,确定在预设时间段内与所述多个投放平台对应的目标对象转化数据;
投放结果信息确定单元,被配置为执行基于所述目标对象转化数据,确定与所述多个投放平台对应的投放结果信息。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上所述的投放平台确定方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上所述的投放平台确定方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行上述的投放平台确定方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开通过获取携带有目标设备标识信息的待处理转化数据流;所述待处理转化数据流包括至少两种数据类型的数据流;然后获取待处理转化数据对应的目标操作数据;基于目标设备标识信息与目标操作数据中操作设备标识信息进行匹配,基于匹配结果确定匹配操作数据;再基于匹配操作数据中的投放平台标识,确定对所述目标对象进行转化的目标投放平台。本公开对不同数据类型的数据流均能采用统一的流式处理方式进行处理,从而避免了对数据类型的数据流采用不同的系统及代码而造成的数据接口不一致的问题,进而能够提高数据处理效率,数据处理系统的稳定性以及可靠性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的实施环境示意图。
图2是根据一示例性实施例示出的一种投放平台确定方法流程图。
图3是根据一示例性实施例示出的一种目标操作数据确定方法流程图。
图4是根据一示例性实施例示出的另一种目标操作数据确定方法流程图。
图5是根据一示例性实施例示出的一种目标操作数据获取方法流程图。
图6是根据一示例性实施例示出的一种匹配操作数据确定方法流程图。
图7是根据一示例性实施例示出的一种投放结果信息分析方法流程图。
图8是根据一示例性实施例示出的基于Flink的批流一体架构的架构示意图。
图9是根据一示例性实施例示出的一种投放平台确定装置框图。
图10是根据一示例性实施例示出的一种电子设备框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
请参阅图1,其示出了本公开实施例提供的实施环境示意图,该实施环境可包括:投放平台分析端110和信息投放端120,信息投放端120包括多个信息投放平台;投放平台分析端110和信息投放端120可通过网络进行数据通信。
具体地,可通过信息投放端120中包括的投放平台1、投放平台2……投放平台N对目标对象的投放信息进行投放,信息投放端120可将对投放信息的操作数据发送至投放平台分析端110;投放平台分析端110能够获取目标对象的转化数据,基于目标对象的转化数据以及在各投放平台对投放信息的操作数据,确定对目标对象转化行为的投放平台来源。
投放平台分析端110与信息投放端120可以通过有线或者无线建立通信连接,投放平台分析端110可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器,信息投放端120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。
为了解决相关技术中归因系统稳定性以及可靠性低的问题,本公开实施例提供了一种投放平台确定方法,其执行主体可以为图1中的投放平台分析端110,具体地,请参阅图2,该方法可包括:
S210.获取携带有目标设备标识信息的待处理转化数据流;所述待处理转化数据流包括至少两种数据类型的数据流。
一条数据流可以对应一项操作行为,例如当发生对目标对象的转化行为时,可对应生成一条转化数据流;当发生对投放信息的操作行为时,可对应生成一条操作数据流。
对于不同数据类型的数据流可以同时进行处理,也可以进行独立处理。待处理转换数据流具体可包括目标对象的实时转化数据类型的数据流以及目标对象的历史转化数据类型的数据流等;其中历史转化数据类型的数据流可基于历史转化数据得到。
本公开实施例中,实时转化数据流与历史转化数据的数据格式不同;目标对象的实时转化数据流可以是当发生对目标对象的转化行为时,实时生成的一条数据流,转化行为可以为下载、安装、激活等行为,即当存在下载、安装、激活行为其中的一种,会生成相应的下载数据流,或者安装数据流、或者激活数据流等。历史转化数据中包括在历史时间段内对目标对象的转化数据信息,其数据格式并不是数据流的形式,从而可以对历史转化数据进行格式转换,以得到相应的格式转换数据流,使得能够以流式处理的方式对历史转化数据进行处理。这里的历史时间段可以为当前时刻之前的预设时间段。
在一个具体实施例中,实时转化数据流可以是kafka数据流,历史转化数据可以为hive表。kafka是一个分布式流媒体平台,用于发布和订阅记录流,kafka经常用于实时流数据架构,提供实时分析。hive表是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。从而实时转化数据流与历史转化数据具有不同的数据表现形式或者数据格式。通过对hive表形式的历史转化数据进行格式转换,能够得到相应的格式转换数据流。
在实时数据和历史数据均以数据流的形式存在时,便可以一套统一的流式数据处理逻辑来对实时数据和历史数据进行处理,即共用一套逻辑处理代码;从而可采用流式处理框架进行统一的数据处理。
在一个可选实施例中,可采用Flink框架来实现数据的流式处理,Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算,可应用于各种类型的数据处理集群中,由于Flink提供了丰富的接口,当Flink部署到机器上后,其本身即具有了JobManager和TaskManager,这两个组件都可以对物理机,例如服务器的CPU、内存,以及任务所用到算子的吞吐量进行监控;其中JobManager也称之为Master,用于协调分布式执行,具体包括进行资源申请、任务分发等。Flink运行时至少存在一个Master处理器,如果配置高可用模式则会存在多个Master处理器;TaskManager也称之为Worker,用于执行数据流任务、数据缓冲和数据流的交换等,Flink运行时至少会存在一个Worker处理器,Master处理器和Worker处理器可以直接在物理机上启动。Worker处理器连接到Master处理器,告知自身的可用性进而获得任务分配。
本公开实施例中,集群管理设备中具有JobManager,数据处理设备中具有TaskManager,每台数据处理设备,具体可为物理机,其包括至少一个数据处理节点,这至少一个数据处理节点可通过该台物理机的TaskManager进行统一管理和调度。
S220.获取所述待处理转化数据流对应的目标操作数据;所述目标操作数据用于表征对所述目标对象进行转化之前,在多个投放平台对所述目标对象对应的目标投放信息执行预设操作的数据;所述目标操作数据包括操作设备的操作设备标识信息,以及投放平台标识。
目标操作数据是指对目标投放信息执行预设操作所生成的数据,对目标投放信息执行的预设操作包括但不限于单击、双击、滑动、长按操作等,当对目标投放信息执行了预设操作后,便相应弹出对目标对象的转化组件,或者弹出对目标对象的转化窗口,或者打开对目标对象的转化页面;其中目标对象的转化组件以独立小窗口的形式呈现在目标投放信息展示页面,且转化组件中包含了对目标对象的特性介绍信息,从而使得用户能够通过转化组件对目标对象进行进一步了解,进而基于转化组件中的转化链接进行转化。具体在转化窗口中可包括对目标对象的详情介绍信息以及转化链接,该转化链接的打开可基于对转化窗口中相关转化按钮的触发来实现。
由于对于一个目标终端设备而言,转化行为是发生在对目标投放信息进行点击之后的,从而这里确定的目标操作数据是在目标终端设备在对目标对象进行转化之前,对目标投放信息执行预设操作所生成的。
S230.基于所述目标设备标识信息与所述操作设备标识信息进行匹配,基于匹配结果从所述目标操作数据中确定匹配操作数据。
对于终端设备而言,设备标识信息是指可以用于唯一标识出该设备的设备特征或者独特的设备标识,设备标识信息可以包括以为或者多维的数据信息。从而根据设备标识信息的匹配结果,可以确定出与当前待处理转化数据流对应的匹配操作数据。
S240.基于所述匹配操作数据中的投放平台标识,确定对所述目标对象进行转化的目标投放平台。
在一个示例中,当目标操作数据为在投放平台对目标APP对应的投放信息的点击数据,待处理转化数据流为新用户登录激活目标APP的数据流;相应地,目标操作数据中可包括点击设备的设备标识信息和投放平台标识信息;若匹配点击数据中包括点击设备的设备标识A以及投放平台标识B,待处理转化数据流中的目标设备标识也为A,从而可将投放平台B确定为对目标APP进行下载的投放平台。
本公开对不同数据类型的数据流均能采用统一的流式处理方式进行处理,从而避免了对数据类型的数据流采用不同的系统及代码而造成的数据接口不一致的问题,进而能够提高数据处理效率,数据处理系统的稳定性以及可靠性。
在一个可选实施例中,在获取携带有目标设备标识信息的待处理转化数据流,之前还包括:获取在预设时间段内已转化设备对所述目标对象的多项已转化数据,所述多项已转化数据包括所述已转化设备的设备标识信息;遍历所述多项已转化数据中的每项已转化数据,对所述每项已转化数据进行数据格式转换,得到与所述每项已转化数据对应的待处理转化数据流;所述待处理转化数据流中携带相应已转化设备的设备标识信息。
预设时间段可以为当前时刻之前的时间段,即历史时间段;已转化设备可以为对目标投放信息执行预设操作所基于的设备,基于已转化设备可对多个投放平台中的目标投放信息执行预设操作。
通过将非流式的历史转化数据转换成数据流的形式,使得历史转化数据也能够适用流式处理方法,而不需要单独维护一套与历史转化数据对应的归因系统,进而提高了对历史转化数据的处理效率,以及提高了系统的稳定性。
在一个具体实施例中,请参阅图3,其示出了一种目标操作数据确定方法,该方法可包括:
S310.在所述待处理转化数据流包括所述目标对象的实时转化数据类型的数据流的情况下,将在所述多个投放平台对所述目标投放信息的实时操作数据流存储到数据存储区。
S320.确定所述待处理转化数据流的第一生成时间戳,以及已存储的各项实时操作数据流的第二生成时间戳。
S330.将所述第二生成时间戳早于所述第一生成时间戳的实时操作数据流,确定为所述目标操作数据。
本公开实施例中,数据存储区可以为外部存储区,即独立于数据流处理系统的外部区,从而通过将数据流处理与数据存储分开,两者互不影响,能够提高数据流处理系统的稳定性以及处理效率。
进一步地,由于数据流处理框架是基于转化数据流进行处理的,从而对于操作数据流可实时存储到相应的数据存储区,从而在对当前待处理转化数据流进行处理时,可从数据存储区中获取所需的实时操作数据流。
由于转化行为的发生一般是基于转化行为之前的操作行为的,即基于操作设备对目标对象的目标投放信息执行预设操作在前,基于操作设备对目标对象进行转化的行为在后,从而这里需要确定生成时间戳早于待处理转化数据流的生成时间戳的实时操作数据,即这里需要确定转化数据流之前的操作数据,以便于进行后续归因分析,保证了用户归因分析数据的准确性,进而提高归因分析结果的准确性。
在一个可选实施例中,请参阅图4,其示出了另一种目标操作数据确定方法,该方法可包括:
S410.在所述待处理转化数据流包括目标对象的历史转化数据类型的数据流的情况下,将预设时间段内在所述多个投放平台对所述目标投放信息的历史操作数据加载到数据存储区。
S420.确定所述待处理转化数据流的第三生成时间戳,以及已加载的历史操作数据的第四生成时间戳。
S430.将所述第四生成时间戳早于所述第三生成时间戳的历史操作数据,确定为所述目标操作数据。
在本公开实施例中,当对历史转化数据进行处理时,可将已存在的全量历史数据均加载到数据存储区中,然后将历史数据输入到数据流处理框架中;数据流处理框架可对历史数据进行数据格式转化,得到相应的格式转换数据流。即数据流处理框架对历史数据的一次处理过程即是对全量历史数据进行一次处理的过程。且对实时转化数据流的处理过程与对历史数据的处理过程可以同时进行,并共用同一套数据流处理框架。
与图3中目标操作数据确定方法类似,由于转化行为的发生一般是基于转化行为之前的操作行为的,即基于操作设备对目标对象的目标投放信息执行预设操作在前,基于操作设备对目标对象进行转化的行为在后,从而这里需要确定生成时间戳早于待处理转化数据流的生成时间戳的实时操作数据,即这里需要确定转化数据流之前的操作数据,以便于进行后续归因分析,保证了用户归因分析数据的准确性,进而提高归因分析结果的准确性。
在一具体实施例中,所述数据存储区包括多个存储分片;相应地,请参阅图5,其示出了一种目标操作数据获取方法,该方法可包括:
S510.在所述目标操作数据中存在包含相同操作设备标识信息的多项操作数据的情况下,对具有相同操作设备标识信息的多项操作数据进行分片存储。
S520.从所述多个存储分片中,获取所述具有相同操作设备标识信息的多项操作数据。
在一可选实施例中,可对相同操作设备标识信息对应的多项操作数据分别进行数据编号,然后基于采用数据编号mod N,得到相应的余数,其中N可对应存储分片的总数量,相应的余数即可标识该项操作数据被存储在编号为该余数对应的存储分片中;或者基于数据编号以及哈希算法,确定该数据编号的操作数据被存储的存储分片;本公开实施例不做具体限定,任何可以实现数据分片存储的方法均可应用于本公开实施例中。
进一步地,当对一条待处理转化数据流进行处理时,需要获取与该待处理转化数据流中目标设备标识信息对应的目标操作数据,而这些目标操作数据是分片存储的,从而能够减轻每个存储分片的访问压力,避免数据倾斜,从而提高存储系统的性能。
在一可选实施例中,请参阅图6,其示出了一种匹配操作数据确定方法,该方法可包括:
S610.在所述匹配结果指示存在多项候选操作数据,所述多项候选操作数据中的操作设备标识信息与所述目标设备标识信息一致的情况下,确定所述多项候选操作数据的第五生成时间戳。
S620.基于所述多项候选操作数据的第五生成时间戳与所述待处理转化数据流的生成时间戳,确定为所述匹配操作数据。
具有相同目标设备标识信息的同一操作设备可能在不同投放平台均对目标投放信息执行了预设操作,对于每项预设从操作数据均有相应的生成时间戳,由于在对目标对象转化之前需要对目标投放信息执行预设操作,从而以最后一次执行预设操作所生成的操作数据作为与待处理转化数据流对应的匹配操作数据,提高了匹配操作数据确定的准确性。
在一可选实施例中,在所述待处理转化数据流包括所述目标对象的实时转化数据流的情况下,向所述目标投放平台发送实时转化反馈信息;所述实时转化反馈信息用于指示所述目标投放平台对所述目标投放信息进行更新处理。
对于实时转化数据流,可实时确定相应的转化平台,从而能够即时向转化平台发送反馈消息,以使得转化平台对投放信息进行优化处理,提高转化率。
在一可选实施例中,请参阅图7,其示出了一种投放结果信息分析方法,该方法可包括:
S710.在所述待处理转化数据流包括目标对象的历史转化数据类型的数据流的情况下,基于各项待处理转化数据流对应的所述目标投放平台,确定在预设时间段内与所述多个投放平台对应的目标对象转化数据。
S720.基于所述目标对象转化数据,确定与所述多个投放平台对应的投放结果信息。
由于历史数据中积累了在预设时间段内的相关投放数据,从而通过对预设时间段内各项历史转化数据进行归因处理,即确定相应的投放平台,可确定出各个投放平台的投放效果信息,从而可基于各投放平台的投放效果信息进行相应总结以及考核计算,进一步对目标对象的投放信息进行更新优化,以获得更高的转化率。
下面以一具体示例说明本公开的具体实施细节,请参阅图8,其示出了本公开基于Flink的批流一体架构的架构示意图,基于Flink的流式处理思路,将离线数据也转换成流式的处理方式;同时由于归因会有很多其他依赖,比如用户点击广告的信息、其他维度的数据等,因此这里也依赖外部存储来解决数据的存储问题,从而进一步提高整个系统的执行效率;由于离线任务依赖离线hive表,因此需要在上游hive表完成后再进行归因操作,因此设置批任务执行对表的依赖来进行任务的自动调度;实时和离线采用相同的归因处理逻辑,离线和实时有不同的执行方式和数据源,在执行不同场景的任务时,需要通过参数传入来确认当前具体是哪种场景的归因逻辑,以便于在任务执行过程采用相应的配置;具体地,当对实时数据进行处理时,相应输入参数是实时转化数据流,当对离线数据进行处理时,相应输入参数是hive表数据。
Flink框架本身在架构统一中定位的核心思想是管道(pipeline),利用它高性能、扩展性好、同hive无缝对接的能力来作为我们归因数据输入和输出的通道,可以百万级每秒甚至更高量级QPS(Queries-per-second,每秒查询率)的吞吐能力实现hive数据的抽取,同时可以跟当前的java技术栈无缝结合,可以使用如bufferTrigger、loadingCache、kafka等工具来满足需要;数据之所以能高速地经过管道,也离不开高效的存储,这里具体采用的redis(Remote Dictionary Server,远程字典服务)来作为归因依赖数据的存储,存储包括渠道、点击等归因的上游依赖。
各种app的新回数据则在经过管道的同时完成归因逻辑的处理,不需要做额外存储,对设备完成归因结果匹配后,会通过Flink连接hive平台,完成数据到hive的高速写入。
本公开由于采用了同一套归因逻辑代码,开发、大大降低了测试成本;采用外部存储的方式,提高系统的吞吐量,大大提升了系统执行效率;系统稳定性及可靠性更易统一保障。
图9是根据一示例性实施例示出的一种投放平台确定装置框图。参照图9,该装置包括:
待处理转化数据流获取单元910,被配置为执行获取携带有目标设备标识信息的待处理转化数据流;所述待处理转化数据流包括至少两种数据类型的数据流;
目标操作数据获取单元920,被配置为执行获取所述待处理转化数据流对应的目标操作数据;所述目标操作数据用于表征对所述目标对象进行转化之前,在多个投放平台对所述目标对象对应的目标投放信息执行预设操作的数据;所述目标操作数据包括操作设备的操作设备标识信息,以及投放平台标识;
匹配单元930,被配置为执行基于所述目标设备标识信息与所述操作设备标识信息进行匹配,基于匹配结果从所述目标操作数据中确定匹配操作数据;
目标投放平台确定单元940,被配置为执行基于所述匹配操作数据中的投放平台标识,确定对所述目标对象进行转化的目标投放平台。
在一示例性实施例中,所述装置还包括:
已转化数据获取单元,被配置为执行获取在预设时间段内已转化设备对所述目标对象的多项已转化数据,所述多项已转化数据包括所述已转化设备的设备标识信息;
数据项遍历单元,被配置为执行遍历所述多项已转化数据中的每项已转化数据,对所述每项已转化数据进行数据格式转换,得到与所述每项已转化数据对应的待处理转化数据流;所述待处理转化数据流中携带相应已转化设备的设备标识信息。
在一示例性实施例中,所述装置还包括:
操作数据流存储单元,被配置为执行在所述待处理转化数据流包括所述目标对象的实时转化数据类型的数据流的情况下,将在所述多个投放平台对所述目标投放信息的实时操作数据流存储到数据存储区;
第一确定单元,被配置为执行确定所述待处理转化数据流的第一生成时间戳,以及已存储的各项实时操作数据流的第二生成时间戳;
第二确定单元,被配置为执行将所述第二生成时间戳早于所述第一生成时间戳的实时操作数据流,确定为所述目标操作数据。
在一示例性实施例中,所述装置还包括:
数据加载单元,被配置为执行在所述待处理转化数据流包括目标对象的历史转化数据类型的数据流的情况下,将预设时间段内在所述多个投放平台对所述目标投放信息的历史操作数据加载到数据存储区;
第三确定单元,被配置为执行确定所述待处理转化数据流的第三生成时间戳,以及已加载的历史操作数据的第四生成时间戳;
第四确定单元,被配置为执行将所述第四生成时间戳早于所述第三生成时间戳的历史操作数据,确定为所述目标操作数据。
在一示例性实施例中,所述数据存储区包括多个存储分片;
所述装置还包括:
分片存储单元,被配置为执行在所述目标操作数据中存在包含相同操作设备标识信息的多项操作数据的情况下,对具有相同操作设备标识信息的多项操作数据进行分片存储;
所述目标操作数据获取单元920包括:
第一获取单元,被配置为执行从所述多个存储分片中,获取所述具有相同操作设备标识信息的多项操作数据。
在一示例性实施例中,所述匹配单元930包括:
第五确定单元,被配置为执行在所述匹配结果指示存在多项候选操作数据,所述多项候选操作数据中的操作设备标识信息与所述目标设备标识信息一致的情况下,确定所述多项候选操作数据的第五生成时间戳;
第六确定单元,被配置为执行基于所述多项候选操作数据的第五生成时间戳与所述待处理转化数据流的生成时间戳,确定为所述匹配操作数据。
在一示例性实施例中,所述装置还包括:
转化反馈单元,被配置为执行在所述待处理转化数据流包括所述目标对象的实时转化数据类型的数据流的情况下,向所述目标投放平台发送实时转化反馈信息;所述实时转化反馈信息用于指示所述目标投放平台对所述目标投放信息进行更新处理。
在一示例性实施例中,所述装置还包括:
目标对象转化数据确定单元,被配置为执行在所述待处理转化数据流包括所述目标对象的历史转化数据类型的数据流的情况下,基于各项待处理转化数据流对应的所述目标投放平台,确定在预设时间段内与所述多个投放平台对应的目标对象转化数据;
投放结果信息确定单元,被配置为执行基于所述目标对象转化数据,确定与所述多个投放平台对应的投放结果信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等;当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上所述的任一方法。
在示例性实施例中,还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行上述任一方法。
图10是根据一示例性实施例示出的一种用于确定投放平台的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图10所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种投放平台确定方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种投放平台确定方法,其特征在于,包括:
获取携带有目标设备标识信息的待处理转化数据流;所述待处理转化数据流包括至少两种数据类型的数据流;
获取所述待处理转化数据流对应的目标操作数据;所述目标操作数据用于表征对所述目标对象进行转化之前,在多个投放平台对所述目标对象对应的目标投放信息执行预设操作的数据;所述目标操作数据包括操作设备的操作设备标识信息,以及投放平台标识;
基于所述目标设备标识信息与所述操作设备标识信息进行匹配,基于匹配结果从所述目标操作数据中确定匹配操作数据;
基于所述匹配操作数据中的投放平台标识,确定对所述目标对象进行转化的目标投放平台。
2.根据权利要求1所述的方法,其特征在于,所述获取携带有目标设备标识信息的待处理转化数据流,之前还包括:
获取在预设时间段内已转化设备对所述目标对象的多项已转化数据,所述多项已转化数据包括所述已转化设备的设备标识信息;
遍历所述多项已转化数据中的每项已转化数据,对所述每项已转化数据进行数据格式转换,得到与所述每项已转化数据对应的待处理转化数据流;所述待处理转化数据流中携带相应已转化设备的设备标识信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述待处理转化数据流包括所述目标对象的实时转化数据类型的数据流的情况下,将在所述多个投放平台对所述目标投放信息的实时操作数据流存储到数据存储区;
确定所述待处理转化数据流的第一生成时间戳,以及已存储的各项实时操作数据流的第二生成时间戳;
将所述第二生成时间戳早于所述第一生成时间戳的实时操作数据流,确定为所述目标操作数据。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述待处理转化数据流包括所述目标对象的历史转化数据类型的数据流的情况下,将预设时间段内在所述多个投放平台对所述目标投放信息的历史操作数据加载到数据存储区;
确定所述待处理转化数据流的第三生成时间戳,以及已加载的历史操作数据的第四生成时间戳;
将所述第四生成时间戳早于所述第三生成时间戳的历史操作数据,确定为所述目标操作数据。
5.根据权利要求3或4所述的方法,其特征在于,所述数据存储区包括多个存储分片;
所述方法还包括:
在所述目标操作数据中存在包含相同操作设备标识信息的多项操作数据的情况下,对具有相同操作设备标识信息的多项操作数据进行分片存储;
所述获取所述待处理转化数据流对应的目标操作数据,包括:
从所述多个存储分片中,获取所述具有相同操作设备标识信息的多项操作数据。
6.根据权利要求1所述的方法,其特征在于,所述基于匹配结果从所述目标操作数据中确定匹配操作数据包括:
在所述匹配结果指示存在多项候选操作数据,所述多项候选操作数据中的操作设备标识信息与所述目标设备标识信息一致的情况下,确定所述多项候选操作数据的第五生成时间戳;
基于所述多项候选操作数据的第五生成时间戳与所述待处理转化数据流的生成时间戳,确定为所述匹配操作数据。
7.一种投放平台确定装置,其特征在于,包括:
待处理转化数据流获取单元,被配置为执行获取携带有目标设备标识信息的待处理转化数据流;所述待处理转化数据流包括至少两种数据类型的数据流;
目标操作数据获取单元,被配置为执行获取所述待处理转化数据流对应的目标操作数据;所述目标操作数据用于表征对所述目标对象进行转化之前,在多个投放平台对所述目标对象对应的目标投放信息执行预设操作的数据;所述目标操作数据包括操作设备的操作设备标识信息,以及投放平台标识;
匹配单元,被配置为执行基于所述目标设备标识信息与所述操作设备标识信息进行匹配,基于匹配结果从所述目标操作数据中确定匹配操作数据;
目标投放平台确定单元,被配置为执行基于所述匹配操作数据中的投放平台标识,确定对所述目标对象进行转化的目标投放平台。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的投放平台确定方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的投放平台确定方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至6任一项所述的投放平台确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210008863.8A CN116468452A (zh) | 2022-01-06 | 2022-01-06 | 投放平台确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210008863.8A CN116468452A (zh) | 2022-01-06 | 2022-01-06 | 投放平台确定方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468452A true CN116468452A (zh) | 2023-07-21 |
Family
ID=87175773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210008863.8A Pending CN116468452A (zh) | 2022-01-06 | 2022-01-06 | 投放平台确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468452A (zh) |
-
2022
- 2022-01-06 CN CN202210008863.8A patent/CN116468452A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11513846B1 (en) | Distributed data acquisition, indexing and search system | |
US11243704B2 (en) | Data pipeline architecture for analytics processing stack | |
US11231967B2 (en) | Dynamically allocating and managing cloud workers | |
CN111309550A (zh) | 应用程序的数据采集方法、系统、设备和存储介质 | |
US8819488B1 (en) | Architecture for end-to-end testing of long-running, multi-stage asynchronous data processing services | |
CN109951323B (zh) | 一种日志分析方法和系统 | |
CN111209310B (zh) | 基于流计算的业务数据处理方法、装置和计算机设备 | |
CN110769018A (zh) | 一种消息推送方法及装置 | |
CN110928934A (zh) | 一种用于业务分析的数据处理方法和装置 | |
CN111381940B (zh) | 分布式数据处理方法及装置 | |
US10719489B1 (en) | Custom video metrics management platform | |
US11755453B1 (en) | Performing iterative entity discovery and instrumentation | |
CN116468452A (zh) | 投放平台确定方法、装置、电子设备及存储介质 | |
CN110647448A (zh) | 一种移动应用操作日志数据实时分析方法、服务器和系统 | |
CN112667393B (zh) | 分布式任务计算调度框架搭建的方法、装置及计算机设备 | |
CN111435356A (zh) | 数据特征提取方法、装置、计算机设备以及存储介质 | |
CN113114612B (zh) | 分布式系统调用链的确定方法和装置 | |
CN114416420A (zh) | 设备问题反馈方法和系统 | |
CN113778709A (zh) | 接口调用方法、装置、服务器及存储介质 | |
CN108920614B (zh) | 在线查询数据的方法、装置及系统 | |
CN112560938A (zh) | 模型训练方法、装置及计算机设备 | |
CN112637288A (zh) | 流式数据分发方法和系统 | |
US20140372361A1 (en) | Apparatus and method for providing subscriber big data information in cloud computing environment | |
CN112988806A (zh) | 一种数据处理的方法及装置 | |
CN113760836B (zh) | 一种宽表计算方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |