CN114461726A - 用户行为数据写入方法、装置、计算机设备和存储介质 - Google Patents

用户行为数据写入方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114461726A
CN114461726A CN202111641860.XA CN202111641860A CN114461726A CN 114461726 A CN114461726 A CN 114461726A CN 202111641860 A CN202111641860 A CN 202111641860A CN 114461726 A CN114461726 A CN 114461726A
Authority
CN
China
Prior art keywords
target
user behavior
behavior data
data
hudi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111641860.XA
Other languages
English (en)
Inventor
范东
李成
孙迁
方伍元
汪金忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Suning Electronic Information Technology Co ltd
Original Assignee
Nanjing Suning Electronic Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Suning Electronic Information Technology Co ltd filed Critical Nanjing Suning Electronic Information Technology Co ltd
Priority to CN202111641860.XA priority Critical patent/CN114461726A/zh
Publication of CN114461726A publication Critical patent/CN114461726A/zh
Priority to CA3184895A priority patent/CA3184895A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种用户行为数据写入方法、装置、计算机设备和存储介质。该方法包括:获取多维度的用户行为数据,用户行为数据携带数据源,创建与数据源匹配的目标Hudi表,根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据,根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。采用本方法能够将用户行为数据写入至Hudi表中,基于Hudi存储,解决了Flink在做大窗口或大数据量的中间状态存储导致内存不足问题,从而也避免了引入其他组件作为存储介质。

Description

用户行为数据写入方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种用户行为数据写入方法、装置、计算机设备和存储介质。
背景技术
目前业界在做实时窗口分析各场景的时候,通常是采用Flink自带的滚动窗口或滑动窗口,在设置了窗口的大小和滑动的步长后,根据既定的维度可以实时的统计出来想要的结果,但是这样的统计需要预先设定好统计的维度和窗口的大小以及步长,灵活性差。其中,由于Flink是基于内存计算,窗口的大小和状态结果集都不宜过大,数据量过大的情况下则需要借助第三方组件存储,引入其他组件不仅会导致架构变得复杂,同时性能也会大大降低。
发明内容
基于此,有必要针对上述技术问题,提供一种用户行为数据写入方法、装置、计算机设备和存储介质,将用户行为数据写入至Hudi表中,基于Hudi存储,解决了Flink在做大窗口或大数据量的中间状态存储导致内存不足问题,从而也避免了引入其他组件作为存储介质。
一种用户行为数据写入方法,该方法包括:
获取多维度的用户行为数据,用户行为数据携带数据源;
创建与数据源匹配的目标Hudi表;
根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据;
根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。
在其中一个实施例中,获取多维度的用户行为数据,用户行为数据携带数据源,包括:从业务系统对应的日志文件中获取得到多维度的用户行为数据,用户行为数据是业务系统从采集到的原始数据中进行维度筛选得到。
在其中一个实施例中,创建与数据源匹配的目标Hudi表,包括:创建与数据源对应的MySql表,根据MySql表创建对应的目标Hudi表。
在其中一个实施例中,创建与数据源匹配的目标Hudi表之后,还包括:获取目标Hudi表对应的初始提交频率,将初始提交频率设置为预设窗口大小,得到目标提交频率。
在其中一个实施例中,根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据,包括:获取预设窗口大小,在当前窗口大小达到预设窗口大小时,从多维度的用户行为数据中筛选得到目标维度对应的中间用户行为数据,对目标维度对应的中间用户行为数据进行聚合,得到聚合后的目标维度对应的目标业务数据。
在其中一个实施例中,根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同,包括:获取上一次提交时间,根据上一次提交时间和目标提交频率确定目标提交时间,在当前提交时间达到目标提交时间时,将目标业务数据和对应的目标提交时间同步至目标Hudi表。
在其中一个实施例中,用户行为数据写入方法还包括:向目标Hudi表发送查询请求,查询请求携带待查询维度信息和待查询提交时间信息,根据查询请求在目标Hudi表中查找与待查询维度信息和待查询提交时间信息匹配的业务数据。
一种用户行为数据写入装置,该装置包括:
获取模块,用于获取多维度的用户行为数据,用户行为数据携带数据源;
创建模块,用于创建与数据源匹配的目标Hudi表;
聚合模块,用于根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据;
同步模块,用于根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取多维度的用户行为数据,用户行为数据携带数据源;
创建与数据源匹配的目标Hudi表;
根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据;
根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取多维度的用户行为数据,用户行为数据携带数据源;
创建与数据源匹配的目标Hudi表;
根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据;
根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。
上述用户行为数据写入方法、装置、计算机设备和存储介质,获取多维度的用户行为数据,用户行为数据携带数据源,创建与数据源匹配的目标Hudi表,根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据,根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。因此,可以将用户行为数据从业务系统中写入至Hudi表中,基于Hudi存储,解决了Flink在做大窗口或大数据量的中间状态存储导致内存不足问题,从而也避免了引入其他组件作为存储介质。
附图说明
图1为一个实施例中用户行为数据写入方法的应用环境图;
图2为一个实施例中用户行为数据写入方法的流程示意图;
图3为一个实施例中用户行为数据写入装置的结构框图;
图4为一个实施例中计算机设备的内部结构图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的用户行为数据写入方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端102采集到多维度的用户行为数据,用户行为数据携带数据源,并通过网络通信发送至服务器104,服务器104获取到多维度的用户行为数据,用户行为数据携带数据源,创建与数据源匹配的目标Hudi表,根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据,根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。
在另一个实施例中,服务器104获取多维度的用户行为数据,用户行为数据携带数据源,创建与数据源匹配的目标Hudi表,根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据,根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。
在一个实施例中,如图2所示,提供了一种用户行为数据写入方法,以该方法应用于图1中的终端或服务器为例进行说明,包括以下步骤:
步骤202,获取多维度的用户行为数据,用户行为数据携带数据源。
其中,多维度的用户行为数据是多个维度的用户行为数据,用户行为数据是各维度下的用户行为相关的数据,各维度可以根据实际业务应用场景、实际业务需求或实际产品需求进行确定得到,例如商品某品类下的用户行为数据、某地区下的用户行为数据、某渠道购买的用户行为数据。
其中,用户行为数据携带数据源,这里的数据源是用户行为数据的来源,例如,用户行为数据原来存储至MySql表中,则数据源为MySql表。
在一个实施例中,步骤202包括:从业务系统对应的日志文件中获取得到多维度的用户行为数据,用户行为数据是业务系统从采集到的原始数据中进行维度筛选得到。
其中,这里的业务系统是与实际业务相关的系统,可以用来存储各维度的用户行为数据,而各维度的用户行为数据可以从业务系统中采集得到。具体地,业务系统中可以包括MySql业务库,MySql业务库可以包括MySql表,用来存放各维度的用户行为数据,或者,业务系统中通过业务日志来记录各维度的用户行为数据,从业务系统的日志文件获取日志文件记录的所有数据,确定为原始数据,再从原始数据中进行筛选,得到多个维度下的用户行为数据。其中,对业务系统采集到的原始数据进行筛选可以是获取各维度对应的原始数据,对原始数据进行数据类型分析,将与用户行为相关的数据筛选出来,得到各维度对应的用户行为数据。
步骤204,创建与数据源匹配的目标Hudi表。
其中,这里的目标Hudi表是与数据源匹配的Hudi表,是Apache Hudi表。在获取到多维度的用户行为数据后,创建一个与数据源匹配的目标Hudi表,这时候创建的目标Hudi暂时是一个空表,未写入任何数据。在一个实施例中,步骤204包括:创建与数据源对应的MySql表,根据MySql表创建对应的目标Hudi表。
其中,创建目标Hudi表具体可以是创建与数据源匹配的MySql表,此时的MySql表也是未写入任何数据,再根据创建的MySql表创建对应的目标Hudi表。其中,创建MySql表可以通过Sql语句来创建,而创建目标Hudi表可以根据MySql表进行创建。
在一个实施例中,步骤204之后还包括:获取目标Hudi表对应的初始提交频率,将初始提交频率设置为预设窗口大小,得到目标提交频率。
具体地,在创建好目标Hudi表后,可以将目标Hudi表的初始提交频率设置为预设窗口大小,这里的预设窗口大小是提前设置的统计窗口大小,是对用户行为数据进行统计的窗口大小,可以是时间滚动窗口大小等,将目标Hudi表的提交频率与预设窗口大小保持一致,能够保证用户行为数据写入的流畅性。
步骤206,根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据。
具体地,在写入目标Hudi表之前,可以根据预设窗口大小对用户行为数据进行轻量级的聚合运算,聚合运算可以是根据用户行为数据进行统计计算,得到目标维度下的目标业务数据,例如,根据用户行为数据中记录的数据,计算得到目标渠道下的商品订单量。
在一个实施例中,步骤206包括:获取预设窗口大小,在当前窗口大小达到预设窗口大小时,从多维度的用户行为数据中筛选得到目标维度对应的中间用户行为数据,对目标维度对应的中间用户行为数据进行聚合,得到聚合后的目标维度对应的目标业务数据。
具体地,对根据预设窗口大小对用户行为数据进行轻量级的聚合运算,具体可以是,获取提前设置的窗口大小,预设窗口大小可以根据实际业务需求、实际产品需求或实际应用场景进行设置得到,可以是时间滚动窗口大小,再获取当前窗口大小,比较当前窗口大小是否达到预设窗口大小,在当前窗口大小达到预设窗口大小时,从多个维度的用户行为数据中筛选出目标维度对应的中间用户行为数据,目标维度是从多个维度中筛选出来的,目标维度的确定可以根据实际业务需求、实际产品需求或实际应用场景进行筛选得到的。
进一步地,对筛选出的目标维度下的中间用户行为数据进行统计计算,得到聚合后的目标维度下的目标业务数据。具体可以是,获取目标维度下的用户行为数据中有关目标业务的数据,对这些数据进行统计计算,最终得到目标维度下的目标业务数据。
步骤208,根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。
具体地,将目标Hudi表的目标提交频率设置与预设窗口大小相同后,可以根据目标提交频率将目标业务数据同步写入至目标Hudi表中,这样就能够保证统计与写入的一致性,目标业务数据统计后,能够及时地写入至目标Hudi表中。例如,预设窗口大小为时间滚动窗口大小,为5s,则目标提交频率也为5s,在达到目标提交频率时,可以将统计好的目标业务数据写入至目标Hudi表中。
在一个实施例中,步骤208包括:获取上一次提交时间,根据上一次提交时间和目标提交频率确定目标提交时间,在当前提交时间达到目标提交时间时,将目标业务数据和对应的目标提交时间同步至目标Hudi表。
具体地,获取目标Hudi表的上一次提交时间,可以从目标Hudi表对应的配置文件中获取得到,再根据上一次提交时间与目标提交频率计算出下一次提交时间,即目标提交时间。比较当前提交时间是否达到目标提交时间,如果当前提交时间达到目标提交时间时,可以将目标业务数据和对应的目标提交时间写入至目标Hudi表中。
在一个实施例中,步骤208之后还包括:向目标Hudi表发送查询请求,查询请求携带待查询维度信息和待查询提交时间信息,根据查询请求在目标Hudi表中查找与待查询维度信息和待查询提交时间信息匹配的业务数据。
具体地,在将用户行为数据中的目标业务数据写入至目标Hudi表中后,可以从目标Hudi表中查询。具体可以是,向目标Hudi表发送查询请求,查询请求可以携带待查询维度信息和待查询提交信息,也就是说,查询的时候,只要锁定不同的维度信息和提交时间信息,则可以在目标Hudi表中查找到匹配的业务数据。这样,只要锁定不同的维度信息和提交时间信息,即可从目标Hudi表中查找出匹配的业务数据,进行后续的统计分析。
上述用户行为数据写入方法中,获取多维度的用户行为数据,用户行为数据携带数据源,创建与数据源匹配的目标Hudi表,根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据,根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。因此,将用户行为数据写入至Hudi表中,基于Hudi存储,解决了Flink在做大窗口或大数据量的中间状态存储导致内存不足问题,从而也避免了引入其他组件作为存储介质。
而且现有技术中如果用户想基于不同维度分析,则需要创建多个任务,统计出多个状态结果集,这样显然在计算和存储方面都是一种较大的消耗。而本申请只要锁定不同的维度信息和提交时间信息,则可以在目标Hudi表中查找到匹配的业务数据,不需要创建多个任务,从而导致占用大量计算资源和存储资源的问题。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种用户行为数据写入装置300,包括:获取模块302、创建模块304、聚合模块306和同步模块308,其中:
获取模块302,用于获取多维度的用户行为数据,用户行为数据携带数据源。
创建模块304,用于创建与数据源匹配的目标Hudi表;
聚合模块306,用于根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据。
同步模块308,用于根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。
在一个实施例中,获取模块302从业务系统对应的日志文件中获取得到多维度的用户行为数据,用户行为数据是业务系统从采集到的原始数据中进行维度筛选得到。
在一个实施例中,创建模块304创建与数据源对应的MySql表,根据MySql表创建对应的目标Hudi表。
在一个实施例中,用户行为数据写入装置300获取目标Hudi表对应的初始提交频率,将初始提交频率设置为预设窗口大小,得到目标提交频率。
在一个实施例中,聚合模块306获取预设窗口大小,在当前窗口大小达到预设窗口大小时,从多维度的用户行为数据中筛选得到目标维度对应的中间用户行为数据,对目标维度对应的中间用户行为数据进行聚合,得到聚合后的目标维度对应的目标业务数据。
在一个实施例中,同步模块308获取上一次提交时间,根据上一次提交时间和目标提交频率确定目标提交时间,在当前提交时间达到目标提交时间时,将目标业务数据和对应的目标提交时间同步至目标Hudi表。
在一个实施例中,用户行为数据写入装置300向目标Hudi表发送查询请求,查询请求携带待查询维度信息和待查询提交时间信息,根据查询请求在目标Hudi表中查找与待查询维度信息和待查询提交时间信息匹配的业务数据。
关于用户行为数据写入装置的具体限定可以参见上文中对于用户行为数据写入方法的限定,在此不再赘述。上述用户行为数据写入装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标Hudi表。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户行为数据写入方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户行为数据写入方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4或图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取多维度的用户行为数据,用户行为数据携带数据源,创建与数据源匹配的目标Hudi表,根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据,根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从业务系统对应的日志文件中获取得到多维度的用户行为数据,用户行为数据是业务系统从采集到的原始数据中进行维度筛选得到。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:创建与数据源对应的MySql表,根据MySql表创建对应的目标Hudi表。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取目标Hudi表对应的初始提交频率,将初始提交频率设置为预设窗口大小,得到目标提交频率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设窗口大小,在当前窗口大小达到预设窗口大小时,从多维度的用户行为数据中筛选得到目标维度对应的中间用户行为数据,对目标维度对应的中间用户行为数据进行聚合,得到聚合后的目标维度对应的目标业务数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取上一次提交时间,根据上一次提交时间和目标提交频率确定目标提交时间,在当前提交时间达到目标提交时间时,将目标业务数据和对应的目标提交时间同步至目标Hudi表。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:向目标Hudi表发送查询请求,查询请求携带待查询维度信息和待查询提交时间信息,根据查询请求在目标Hudi表中查找与待查询维度信息和待查询提交时间信息匹配的业务数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取多维度的用户行为数据,用户行为数据携带数据源,创建与数据源匹配的目标Hudi表,根据预设窗口大小对用户行为数据进行聚合,得到目标维度对应的目标业务数据,根据目标提交频率将目标业务数据同步至目标Hudi表,目标提交频率与预设窗口大小相同。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从业务系统对应的日志文件中获取得到多维度的用户行为数据,用户行为数据是业务系统从采集到的原始数据中进行维度筛选得到。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:创建与数据源对应的MySql表,根据MySql表创建对应的目标Hudi表。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取目标Hudi表对应的初始提交频率,将初始提交频率设置为预设窗口大小,得到目标提交频率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设窗口大小,在当前窗口大小达到预设窗口大小时,从多维度的用户行为数据中筛选得到目标维度对应的中间用户行为数据,对目标维度对应的中间用户行为数据进行聚合,得到聚合后的目标维度对应的目标业务数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取上一次提交时间,根据上一次提交时间和目标提交频率确定目标提交时间,在当前提交时间达到目标提交时间时,将目标业务数据和对应的目标提交时间同步至目标Hudi表。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:向目标Hudi表发送查询请求,查询请求携带待查询维度信息和待查询提交时间信息,根据查询请求在目标Hudi表中查找与待查询维度信息和待查询提交时间信息匹配的业务数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种用户行为数据写入方法,所述方法包括:
获取多维度的用户行为数据,所述用户行为数据携带数据源;
创建与所述数据源匹配的目标Hudi表;
根据预设窗口大小对所述用户行为数据进行聚合,得到目标维度对应的目标业务数据;
根据目标提交频率将所述目标业务数据同步至所述目标Hudi表,所述目标提交频率与所述预设窗口大小相同。
2.根据权利要求1所述的方法,其特征在于,所述获取多维度的用户行为数据,所述用户行为数据携带数据源,包括:
从业务系统对应的日志文件中获取得到多维度的用户行为数据,所述用户行为数据是所述业务系统从采集到的原始数据中进行维度筛选得到。
3.根据权利要求1所述的方法,其特征在于,所述创建与所述数据源匹配的目标Hudi表,包括:
创建与所述数据源对应的MySql表;
根据所述MySql表创建对应的目标Hudi表。
4.根据权利要求1所述的方法,其特征在于,所述创建与所述数据源匹配的目标Hudi表之后,还包括:
获取所述目标Hudi表对应的初始提交频率;
将所述初始提交频率设置为预设窗口大小,得到目标提交频率。
5.根据权利要求1所述的方法,其特征在于,所述根据预设窗口大小对所述用户行为数据进行聚合,得到目标维度对应的目标业务数据,包括:
获取预设窗口大小;
在当前窗口大小达到预设窗口大小时,从所述多维度的用户行为数据中筛选得到目标维度对应的中间用户行为数据;
对所述目标维度对应的中间用户行为数据进行聚合,得到聚合后的目标维度对应的目标业务数据。
6.根据权利要求1所述的方法,其特征在于,所述根据目标提交频率将所述目标业务数据同步至所述目标Hudi表,所述目标提交频率与所述预设窗口大小相同,包括:
获取上一次提交时间;
根据所述上一次提交时间和所述目标提交频率确定目标提交时间;
在当前提交时间达到目标提交时间时,将所述目标业务数据和对应的目标提交时间同步至所述目标Hudi表。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
向所述目标Hudi表发送查询请求,所述查询请求携带待查询维度信息和待查询提交时间信息;
根据所述查询请求在所述目标Hudi表中查找与所述待查询维度信息和待查询提交时间信息匹配的业务数据。
8.一种用户行为数据写入装置,其特征在于,所述装置包括:
获取模块,用于获取多维度的用户行为数据,所述用户行为数据携带数据源;
创建模块,用于创建与所述数据源匹配的目标Hudi表;
聚合模块,用于根据预设窗口大小对所述用户行为数据进行聚合,得到目标维度对应的目标业务数据;
同步模块,用于根据目标提交频率将所述目标业务数据同步至所述目标Hudi表,所述目标提交频率与所述预设窗口大小相同。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111641860.XA 2021-12-29 2021-12-29 用户行为数据写入方法、装置、计算机设备和存储介质 Pending CN114461726A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111641860.XA CN114461726A (zh) 2021-12-29 2021-12-29 用户行为数据写入方法、装置、计算机设备和存储介质
CA3184895A CA3184895A1 (en) 2021-12-29 2022-12-23 User behavior data writing method and device, computer equipment and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111641860.XA CN114461726A (zh) 2021-12-29 2021-12-29 用户行为数据写入方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114461726A true CN114461726A (zh) 2022-05-10

Family

ID=81408226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111641860.XA Pending CN114461726A (zh) 2021-12-29 2021-12-29 用户行为数据写入方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN114461726A (zh)
CA (1) CA3184895A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116126976A (zh) * 2023-04-06 2023-05-16 之江实验室 一种数据同步的方法、装置、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116126976A (zh) * 2023-04-06 2023-05-16 之江实验室 一种数据同步的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CA3184895A1 (en) 2023-06-29

Similar Documents

Publication Publication Date Title
CN110008118B (zh) 页面数据测试方法、装置、计算机设备和存储介质
WO2020186786A1 (zh) 文件处理方法、装置、计算机设备和存储介质
CN112527816B (zh) 数据血缘关系解析方法、系统、计算机设备及存储介质
CN111177302A (zh) 业务单据处理方法、装置、计算机设备和存储介质
CN111078559B (zh) java代码中函数调用的提取方法、装置、介质及计算机设备
CN111176767B (zh) 表数据处理方法、装置、计算机设备和存储介质
CN112307049A (zh) 数据库的读写分离方法、装置、设备及可读存储介质
CN109542962B (zh) 数据处理方法、装置、计算机设备和存储介质
CN114461726A (zh) 用户行为数据写入方法、装置、计算机设备和存储介质
CN111209061A (zh) 用户信息的填写方法、装置、计算机设备和存储介质
CA3147376A1 (en) Data processing method, device, computer equipment and storage medium
CN111046240B (zh) 网关流量统计方法、装置、计算机设备和存储介质
CN111090701B (zh) 业务请求处理方法、装置、可读存储介质和计算机设备
CN109408532B (zh) 数据获取方法、装置、计算机设备和存储介质
CN110765131A (zh) 货源数据的数据压缩方法、装置、计算机设备和存储介质
CN110222290B (zh) 页面生成方法、装置、计算机设备和存储介质
CN111221817B (zh) 业务信息数据存储方法、装置、计算机设备及存储介质
CN113918651A (zh) 业务数据、资金流水处理方法、装置、设备和介质
CN109656549B (zh) 监察系统的构建方法、装置、计算机设备和存储介质
CN113672640A (zh) 数据查询方法、装置、计算机设备和存储介质
CN112966015A (zh) 大数据分析处理和存储方法、装置、设备及介质
CN110874370B (zh) 数据查询方法、装置、计算机设备和可读存储介质
CN113535855A (zh) 基于区块链的主数据管理方法、系统、计算机设备及介质
CN112463783A (zh) 索引数据监控方法、装置、计算机设备和存储介质
CN112835886A (zh) 数据表字段添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination