CN113763020A - 一种数据处理方法及装置、设备、存储介质 - Google Patents
一种数据处理方法及装置、设备、存储介质 Download PDFInfo
- Publication number
- CN113763020A CN113763020A CN202110152978.XA CN202110152978A CN113763020A CN 113763020 A CN113763020 A CN 113763020A CN 202110152978 A CN202110152978 A CN 202110152978A CN 113763020 A CN113763020 A CN 113763020A
- Authority
- CN
- China
- Prior art keywords
- click
- data
- purchase
- path
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 55
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 230000006399 behavior Effects 0.000 claims description 164
- 238000000034 method Methods 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 208000035475 disorder Diseases 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000004899 c-terminal region Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/542—Event management; Broadcasting; Multicasting; Notifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据处理方法,所述方法包括:接收用户行为数据,对所述用户行为数据进行解析;当根据解析的结果检测到针对资源位的点击事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流;所述目标点击路径为包括所述点击事件的点击路径;当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树;建立所述资源位与所述订单路径树之间的关联关系。本申请还公开了一种数据处理装置、设备和存储介质。
Description
技术领域
本申请实施例涉及计算机技术领域,涉及但不限于一种数据处理方法及装置、设备、存储介质。
背景技术
随着经济发展和社会进步,越来越多的人通过电脑、手机等智能终端设备进行购物,但在该些终端设备上购物时,即使购买同一款产品,用户的购买路径也不尽相同。
随着市场竞争日益激烈,广告商、APP供应商越来越重视用户对产品的体验,企业通常通过提取用户的点击数据,以对用户访问行为进行分析,并对产品进行优化,提高用户体验。尤其对以企业为主的商家用户即B端客户进行分析结果能够更好的指导产品的运营方向。
发明内容
有鉴于此,本申请实施例为解决相关技术中存在的至少一个问题而提供一种数据处理方法及装置、设备、存储介质。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种信数据处理方法,所述方法包括:
接收用户行为数据,对所述用户行为数据进行解析;
当根据解析的结果检测到针对资源位的点击事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流;所述目标点击路径为包括所述点击事件的点击路径;
当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树;
建立所述资源位与所述订单路径树之间的关联关系。
第二方面,本申请实施例提供一种数据处理装置,所述装置包括:
接收模块,用于接收用户行为数据,对所述用户行为数据进行解析;
确定模块,用于当根据解析的结果检测到针对资源位的点击事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流;所述目标点击路径为包括所述点击事件的点击路径;
生成模块,用于当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树;
建立模块,用于建立所述资源位与所述订单路径树之间的关联关系。
第三方面,本申请实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据处理方法中的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法中的步骤。
本申请实施例提供了一种数据处理方法,接收用户行为数据,对所述用户行为数据进行解析;当根据解析的结果检测到针对资源位的点击事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流;所述目标点击路径为包括所述点击事件的点击路径;当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树;建立所述资源位与所述订单路径树之间的关联关系;从而在商家用户B端上将用户的点击行为转换为订单路径树,并建立资源位和订单路径树之间的关联关系,对资源位的订单转换效率进行统计,实行B端数据的精细化运营,更好地为B端客户指导产品的运营方向。
附图说明
图1为本申请实施例数据处理系统的可选地架构示意图;
图2为本申请实施例数据处理系统的可选地架构示意图;
图3为本申请实施例数据处理系统的可选地架构示意图;
图4为本申请实施例数据处理方法的可选地流程示意图;
图5为本申请实施例数据处理方法的可选地流程示意图
图6为本申请实施例数据处理方法的可选地流程示意图
图7为本申请实施例数据处理方法的可选地流程示意图;
图8为本申请实施例数据处理方法的可选地流程示意图;
图9为本申请实施例提供的数据处理装置的一种可选的结构示意图;
图10为本申请实施例提供的电子设备的一种可选的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
本申请实施例可提供为数据处理方法及装置、设备和存储介质。实际应用中,数据处理方法可由数据处理装置实现,数据处理装置中的各功能实体可以由计算机设备(如终端设备、服务器、服务器集群)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)协同实现。
在本申请实施例提供的数据处理方法进行描述,对本申请涉及的部分术语进行说明。
1)、B(Business)端,即针对商家(多为企业)的产品,通常是企业或商家,为工作或商业目的而使用的系统型软件、工具或平台。例如:腾讯云、阿里云等。B端服务于企业用户,具有针对所服务的企业用户的特定功能。
2)、C(Custome)端,即针对消费者(多为用户)的产品,个人用户或终端用户使用的是客户端。例如:微信、抖音、微博等。C端面向个人用户,具有通用性。
3)、资源位,页面中能够触发点击事件的指定位置,其中,资源位可以焦点图或下四图。在一示例中,资源位可展示广告等指定素材。
4)、点击路径,根据针对多个连续的页面的点击事件形成的点击记录,比如:用户依次点击页面1、页面2和页面3。
5)、点击流,用户的点击路径所包括的页面中,各页面的点击事件的数据构成的数据流,其中,点击事件的数据包括:用户信息、访次、访序、页面参数、事件参数、商品库存量单位(Stock Keeping Unit,SKU)等信息。在一示例中,点击路径为页面1、页面2和页面3,则该点击路径对应的点击流包括:针对页面的点击事件1的数据、针对页面2的点击事件2的数据、针对页面3的点击事件3的数据。
6)、加购路径树,用户从打开网站到加购行为所点击的页面构成的路径,能够体现用户从点击到加购的路径行为。比如:主页-搜索页-商详页-加购,又比如:首页-列表页-商详页-加购。在一示例中,在一示例中,订单路径树所包括的数据包括:点击事件顺序、页面编号、点击事件发生时间戳、点击事件标识、用户信息、访次、访序、商品信息、商品数量。
7)、订单路径树,用户从打开某网站到最终下单所点击的页面构成的路径,能够体现用户从点击到购买的路径行为。比如:主页-搜索页-商详页-加购-下单,又比如:首页-列表页-商详页-加购-下单(列表页下单路径)。在一示例中,订单路径树所包括的数据包括:点击事件顺序、页面编号、点击事件发生时间戳、点击事件标识、用户信息、订单时间戳、访次、访序、订单号、商品信息、商品数量。
本申请实施例的数据处理方法可应用于图1或图2所示的数据处理系统。
在一示例中,如图1所示,该数据处理系统包括客户端10和服务端20;其中,客户端10为针对B端客户的数据端,能够提供用户界面,并基于用户界面采集用户的行为数据,并将采集的用户的行为数据发送至服务端20,服务端20能够对B端用户的行为数据进行分析,确定B端用户的商品倾向性等B端用户特征。客户端10和服务端20之间通过网络30进行交互。
客户端10与服务端20可集成在一个物理实体上。客户端10与服务端20可分别位于不同的物理实体。
服务端20可实施为实现数据处理方法的数据处理设备。服务端20接收用户行为数据,对所述用户行为数据进行解析;当根据解析的结果检测到针对资源位的点击事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流;所述目标点击路径为包括所述点击事件的点击路径;当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树;建立所述资源位与所述订单路径树之间的关联关系。
在一示例中,如图2所示,数据处理系统中还包括有数据库40,数据库40则可为云端服务器或服务器集群,能够存储大量的数据。
在一示例中,如图3所示,数据处理系统中仅包括客户端50,且客户端50实施为实现数据处理方法的数据处理设备。
客户端根据用户的点击行为生成点击行为数据,接收用户行为数据,对所述用户行为数据进行解析;当根据解析的结果检测到针对资源位的点击事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流;所述目标点击路径为包括所述点击事件的点击路径;当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树;建立所述资源位与所述订单路径树之间的关联关系。
本申请实施例提出的数据处理方法,能够基于B端用户的点击行为得到B端用户的订单路径树,并建立资源位与订单路径树之间的关联关系,从而对B端用户的点击行为进行精细化分析,基于订单路径树为针对该B端用户进行运营指导。
下面,结合图1、图2或图3所示的数据处理系统的示意图,对本申请实施例提供的数据处理方法、装置、设备和存储介质的各实施例进行说明。
本实施例提供一种数据处理方法,该方法应用于数据处理设备,其中,数据处理设备可为计算机设备或计算机设备组成的分布式网络。该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该计算机设备至少包括处理器和存储介质。
图4为本申请实施例的一种数据处理方法的实现流程示意图,如图4所示,该方法可以包括如下步骤:
S401、接收用户行为数据,对所述用户行为数据进行解析。
客户端中安装有应用程序或浏览器,使得用户通过应用程序或浏览器能够访问页面。客户端根据用户对页面的点击行为生成点击行为数据。
在一示例中,数据处理设备为客户端,客户端根据指定格式生成点击行为数据。
在一示例中,数据处理设备为服务端,客户端将生成的点击行为数据按照指定格式上报至服务端。
这里,指定格式包括:轻量级数据交互格式(JavaScript Object Notation,JSON)。
本申请实施例中,一条用户行为数据可对应一次点击事件。数据处理设备可接收多条用户行为数据,且对每条用户行为数据进行解析。
用户行为数据的内容包括以下信息中的一个或多个:用户信息、访次、访序、页面参数、事件参数、商品库存量单位(Stock Keeping Unit,SKU)等。其中,访次用于表征点击事件所属的会话;访序表征当前点击事件所针对的页面在所属的点击路径中的顺序;页面参数表征当前点击事件所针对的页面的参数,包括:页面标识、点击事件针对的资源位等;事件参数表征当前点击事件的参数,包括:点击事件标识、事件发生时间等;SKU表征当前点击事件所针对的页面针对的商品的SKU。这里,同一会话中的不同点击事件的访次相同,针对访次相同的点击事件,访序能够表征各点击事件的先后顺序。
在实际应用中,用户行为数据中的点击事件为页面最后一次点击的点击事件。对于同一会话,当存在多条针对同一页面的用户行为数据,则根据各用户行为数据中点击事件的发生时间来选取发生时间最晚的点击事件对应的用户行为数据,将该页面对应的其他用户行为数据删除。
本申请实施例中,可通过页面参数中的页面标识来标识一个页面,当多个点击事件对应的页面标识相同,则确定这些点击事件归属于同一页面。
本申请实施例中的点击事件包括:打开下一页面的访问事件、将商品添加到购物车的加购事件,购买商品的下单事件等。其中,不同类型的点击事件可通过不同的点击事件标识表征。
本申请实施例中,当存在以下情况之一时,当前点击事件对应的用户行为数据包括SKU:
当当前点击事件为打开下一页面的访问事件,且打开的下一页面为商品详情页面;
当前点击事件针对的资源位为商品素材时;
当前点击事件为将商品添加至购物车的加购事件;
当前点击事件为购买商品的下单事件。
本申请实施例中,数据处理设备可将同一点击路径的用户行为数据作为一条数据流发送至第一分布式消息处理队列,并对第一分布式消息队列中的各条数据流的用户行为数据进行解析。其中,第一分布式消息队列可为kafka。
本申请实施例中,客户端中可通过埋点软件开发工具包(Software DevelopmentKit,SDK)埋点上报用户行为数据。数据处理设备将接收的用户行为数据发送到数据处理设备的第一分布式消息队列中,且通过大数据实时计算引擎flink解析第一分布式消息队列中的用户行为数据。数据处理设备对用户行为数据进行解析时,从埋点规则系统中提取各种点击事件的埋点解析规则,并根据所获取的埋点解析规则对各点击事件的行为数据进行分析。
其中,数据处理设备可利用flink的watermark机制处理用户点击事件的乱序和迟到场景,避免了使用复杂的时间判断代码和缓存去处理数据乱序和迟到场景。
S402、当根据解析的结果检测到针对资源位的点击事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流。
当检测到一条用户行为数据中包括针对资源的点击事件,则将该点击事件所属的点击路径确定为目标点击路径,并确定接收的用户行为数据中,该目标点击路径中所有点击事件的用户行为数据,构成该目标点击路径的点击数据流。
S403、当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树。
根据接收的用户行为数据判断用户是否存在下单行为,当用户行为数据中存在的点击事件为购买商品的下单事件,则确定用户存在下单行为,根据点击数据流生成订单路径树。
本申请实施例中,订单路径树的内容包括:点击事件顺序、页面编号、点击事件发生时间戳、点击事件标识、用户信息、订单时间戳、访次、访序、订单号、商品信息、商品数量等。其中,点击事件顺序可以表示为Sequence,页面编号可以表示为page_num、点击事件发生时间戳可以表示为:click_ts,点击事件标识可以表示为:event_id,用户信息可以表示为browser_uniq_id,订单时间戳可以表示为order_ts,访次可以表示为pv_sid,访序可以表示为pv_seq,订单号可以表示为sale_ord_id,商品信息可以表示为item_sku_id,商品数量可以表示为item_qtty。在一示例中,订单路径树的内容包括:sequence:0,page_num:3001,click_ts:1610642172068,event_id:detail_BackArrow,order_time:2021-01-1500:36:27,page_num:3001,item_sku_id:1400281,pv_sid:10,pv_seq:1,sequence:1,page_num:4001,click_ts:1610642090601,event_id:submitOrder_SubmitOrder_Success,order_time:2021-01-15 00:36:27,page_num:4001,item_sku_id:1400281,pv_sid:10,pv_seq,2;其中,该订单路径树的这部分内容为页面标号分别为3001和4001的两个页面,且针对这两个页面发生的事件为浏览事件和订单提交事件。
S404、建立所述资源位与所述订单路径树之间的关联关系。
在生成订单路径树后,可建立资源位标识和订单路径树标识的关联关系,以在订单路径树和资源位之间建立关联关系。
本申请实施例中,一个资源位可与多个订单路径树建立关联关系,其中,当一个订单路径树对应的点击路径中包括针对多个资源位的点击事件的情况下,一个订单路径树可与多个资源位建立关联关系。
本申请实施例提供了一种数据处理方法,接收用户行为数据,对所述用户行为数据进行解析;检测到用户针对资源位的点击事件,确定包括所述点击事件的目标点击路径的点击数据流;当检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树;建立所述资源位与所述订单路径树之间的关联关系;从而在商家用户B端上将用户的点击行为转换为订单路径树,并建立资源位和订单路径树之间的关联关系,对资源位的订单转换效率进行统计,实行B端数据的精细化运营,更好地为B端客户指导产品的运营方向。
在一些实施例中,S402的实施包括:
S4021、确定针对所述资源位对应的目标访次;
其中,所述目标访次对应的点击事件构成所述目标点击路径。
这里,将针对资源位的点击事件对应的用户行为数据中的访次作为目标访次。其中,访次可包括:会话标识。
S4022、查找所述用户行为数据中,对应所述目标访次的目标用户行为数据,得到所述点击数据流。
确定目标访次后,将访次为目标访次的用户行为数据作为目标用户行为数据,将目标用户行为数据进行组合,得到点击数据流。
本申请实施例中,通过访次来识别归属于同一点击路径的用户行为数据,能够简单快速的确定点击路径对应的点击数据流。
本申请中,如果点击流中某个用户的访次和购物车中某个用户的访次相同,那么点击流中的数据就属于该用户购买的某个商品的加购路径树中的一条。
在一些实施例中,在S404之前,所述方法还包括:
当所述目标点击路径中包括针对至少两个资源位的至少两个点击事件,且所述至少两个资源位位于同一页面;获取所述至少两个资源位中各资源位的点击时间;
对应的,S404的实施包括:建立目标资源位于所述订单路径树之间的关联关系;所述目标资源位为所述至少两个资源中点击时间最早的资源位。
本申请实施例中,当一个会话中包括针对同一页面的多个点击事件,则该多个点击时间属于同一点击路径。数据处理设备获取目标点击路径中的多个点击事件,以及各点击事件针对的资源位不同,此时,确定各资源位对应的点击事件的发生时间,即资源位的点击时间,将各资源位的点击时间进行比较,确定出点击之间最早的资源位为目标资源位。
在一示例中,目标点击路径中包括页面1,且基于页面1发生有点击事件1和点击事件2,且点击事件1是针对页面1中的资源位1,点击事件1的发生时间为时间1,点击事件2是针对页面2中的资源位2,点击事件2的发生时间为时间2,时间1早于时间2,则将资源位1和目标点击路径对应的点击数据流生成的订单路径树建立关联关系。
本申请实施例中,在同一会话中,一个点击路径包括多个资源点,则用户选取最先点击的资源点和订单路径树来建立关联关系。
在一些实施例中,S402的实施包括:判断所述目标点击路径中是否包括加购事件;当所述目标点击路径中包括加购事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成加购数据子流。
在一些实施例中,S402的实施还包括:当所述目标点击路径不包括所述加购事件,则根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据子流;根据所述用户行为数据判断在第一时间段内是否存在所述加购事件;当存在所述加购事件,将所述加购事件的加购行为数据和所述点击数据子流进行融合,得到所述加购数据子流。
本申请实施例中,将目标点击路径对应的点击数据流根据是否包括加购事件,分为加购数据子流或点击数据子流。当目标点击事件中包括加购事件,则该点击数据流为加购数据子流,当目标点击事件中不包括加购事件,则该点击数据流为点击数据子流。
对于点击数据子流,根据接收的用户行为数据判断该目标点击路径在第一时间段内是否发生了加购事件,如果发生了加购事件,则将加购事件对应的用户行为数据作为加购行为数据和该点击数据子流进行融合,得到加购数据子流。如果在第一时间段内未发生加购事件,则将该点击数据子流删除,即该目标点击路径不记。
可选地,第一时间段包括:12小时、24小时、48小时等,第一时间段的时长可根据实际需求进行设置。
在一些实施例中,当存在针对同一目标商品的至少多条加购数据子流,获取各加购数据子流对应的加购时间,所述加购时间为所述加购数据子流对应的加购事件的发生时间;根据各加购数据子流对应的加购时间,确定目标加购数据子流;所述目标加购数据子流为所述多条加购数据子流中加购时间最早的加购数据子流;将所述多条加购数据子流中的除所述目标加购数据子流以外的过期加购数据子流删除。
当存在针对同一目标商品的至少多条加购数据子流,即存在多条将同一商品加入购物车的点击路径,此时,获取各加购数据子流对应的加购时间,其中各加购数据子流对应的加购时间为各加购数据子流中加购事件的发生时间即点击事件发生时间。
在确定各加购数据子流对应的加购时间后,将加购事件最早的加购数据子流保留,并将其他的加购数据子流作为过期加购数据子流删除。
本申请实施例中,当同SKU多次加入购物车,仅记录第一次加入购物车的点击路径,将其余的加入购物车的点击路径删除。
在一些实施例中,根据所述加购数据子流生成加购路径树,将所述加购路径树添加到加购路径树集合中;对应的,S403的实施包括:
S4031、当检测到所述用户存在下单行为,生成订单数据;
S4032、将所述订单数据和所述加购路径树集合的加购路径树进行匹配,得到构成订单路径树集合的所述订单路径树。
在一些实施例在红,S4032的实施包括:将所述订单数据对应的第一商品信息和所述加购路径树集合中的所述加购路径树对应的第二商品信息进行匹配;当所述第二商品信息与所述第一商品信息匹配,则将所述加购路径树作为所述订单路径树,从所述加购路径树集合,转移至所述订单路径树集合中。
这里,将加购路径树对应的商品信息即第二商品信息,和下单行为对应的商品信息即第一商品信息进行匹配,当加购路径树对应的商品为下单商品,则直接将该加购路径树作为该下单行为对应的订单路径树。
在实际应用中,可将订单数据和作为订单数据子流,从而将第一分布式消息队列中的用户行为数据分为以下三个子流:点击数据子流、加购数据子流和订单数据子流,从而对第一分布式消息队列中的各个主题的用户行为数据进行消耗,其中,一个主题对应一个子流。这里,将加购数据子流和订单数据子流发送至第二分布式消息队列中,从而将加购数据子流对应的架构路径树和订单数据子流进行匹配,得到订单路径树。其中,第二分布式消息队列可为kafka。
在一些实施例中,S4032的实施还包括:当所述加购路径树的第二商品信息,在第二时间段内不存在匹配的所述第一商品信息,将所述加购路径树从所述加购路径树集合中删除。
本申请实施例中,可周期性的访问订单数据,确定是否包括当前加购路径树对应的商品信息,如果在第二时间段内都不存在匹配的第一商品信息,将该加购路径树删除。
本申请实施例中,对非下单的用户行为数据进行解析,根据解析结果对同一路径的用户行为数据进行区分,将属于同一点击路径的用户行为数据合并为一条数据流,且根据该条数据流是否存在加购行为进行区分,存在加购行为的数据流生成加购路径树,不存在加购行为的数据流存储,并判断该点击路径在一定的时间内是否存在加购行为,如果存在加购行为,则将加购行为的加购行为数据和该数据流合并为加购数据流,并生成加购路径树。
将加购路径树和用户的下单行为进行合并,根据订单流中的sku,找到加购路径树中是否有该购物车路径树,如果有就将该加购路径树加入到订单路径树中,如果没有就等待一定的时间然后再去触发查询,有就加入到订单路径树集合中。
下面,对本申请实施例提供的数据处理方法进行进一步说明。
随着B端用户采购平台规模的日益扩大,逐步开始了针对B端采购平台的精细化运营,目前能够进行用户行为的分析,比如说分析用户各个环节流失率。
相关技术中,对B端用户的行为的分析方案如图5所示,包括:通过对B端封闭平台501埋点,B端封闭平台501将点击事件、加购事件、搜索事件、下单事件等事件的消息发送到点击流系统502,点击流系统502根据事件的类型将各消息分别发送到kaflka503的不同主题(topic)中,其中,kaflka503的主题包括:曝光、浏览、点击、搜索、下单等。Kaflka503将这些消息同步到数据仓hive504中进行分析,hive504以此为数据源分析用户的各种行为从而指导运营。
第一、对于C端,点击流的处理逻辑如图6所示,包括:
S601、接收点击数据。
S602、对点击数据进行过滤和解析。
这里,过滤掉点击数据中的非法字段和过期数据,其中,过期数据可为超过15天的点击数据。解析点击数据中的页面标识PageNum和sku,其中,通过ddr/活动规则对PageNum进行解析,通过ddr解析规则对sku进行解析。
S603、判断当前事件是否为加购事件?
如果当前事件为加购事件,则该点击数据为加购数据,执行S604,如果不是加购事件,则为点击事件,执行S605。
S604、保存至缓存队列中。
S605、判断点击事件的点击时间ctm是否小于该用户的最后加购时间lastAcCtm?
如果是,则执行S606,否则,执行S604。
S606、遍历用户加购列表。
S607、判断当前点击数据的加购时间是否大于点击时间ctm?
如果否,则继续执行S606,如果是,则执行S608。
S608、根据加购key查询Hbase中该点击所在页面的点击时间ts。
S609、判断ts是否为空,且是否小于点击时间ctm?
如果是,则执行S610,如果否,则执行S611。
S610、更新点击。
S611、更新覆盖次数cn。
其中,覆盖次数指示一个页面在一个会话中被访问的次数。
对于C端,订单流的处理逻辑参照图6所示的点击流的处理逻辑。
本申请实施例中,点击流和订单流实时消费,并按照相应数据结构进行临时存储。
第二、对于C端,轮询逻辑如图7所示,包括:
S701、获取用户行为数据,对key进行排序。
这里,从用户等待队列700中取出用户等待队列700中的用户行为数据,对各用户行为数据的key进行排序,其中,key包括:点击事件ctm、加入队列事件rtm、用户队列中点击事件个数cn和点击事件类型,其中点击事件类型包括:点击、加购和订单。
S702、倒叙遍历所有的key。
S703、判断当前的用户行为数据加入用户等待队列700的时间是否超过20分钟?
当是,则执行S704,否则执行S702。
S704、处理该节点之前所有的用户行为数据。
S705、判断用户行为数据是否为订单数据?
如果是,则执行S7061,如果不是,则S7062。
S7061、处理订单。
S711、查询加购时间。
S712、判断加购事件是否小于或等于订单时间。
当加购事件大于订单时间,则执行S713,当小于,则执行S714。
S713、不移除队列。
S714、保存订单路径树。
S715、移除加购的key,用户加购列表移除加购。
S716、当前用户行为数据移除队列。
S7062、执行生成点击路径树。
S721、判断是否存在加购。
如果存在,执行S722。
S722、拆分sku,并遍历所有用户行为数据。
S723、判断是否为第一次加购?
如果是,执行S723,如果不是,执行S721。
S724、生成加购路径树。
S725、更新用户加购时间和最后加购时间。
这里,加购时间和最后加购时间更新后,执行S716。
基于图7所示的轮询逻辑:
1、对用户队列中的数据处理流程如下:
1.1对于点击数据,更新点击路径树,更新页面覆盖次数
1.2对于加购数据,处理第一次加购,生成加购路径树,更新用户最后加购时间。
1.3对于订单数据,Hbase查询加购路径树,封装生成订单路径树生产到kafka,并删除删除与Hbase相关联的key,和用户加购列表中的此加购数据。
1.4移除已经处理的数据出队列。
1.5未找到加购的订单重新加回队列,更新入队时间。
2、移除前一天订单(每天凌晨5点会移除前一天未找到加购的订单)
3、路径树数据临时存储到Kafka。数据结构参照第三点。
其中,当队列中当前数据等待20分钟未被处理,解决上报乱序问题。
第三、Kafka中存储的数据的数据结构如下:
·用户队列(jimdb):
1.Hash结构(delay|uid,delay|uid|0)
2.Field(ctm|入队时间|随机数|类型)
3.Value数据json串
4.过期时间30分钟
String结构(delay|uid|num)--用户队列个数(防止单个队列过大,造成获取数据超时)。
其中,delay代表的是等待队列,uid指的是某个用户,|num指的是对某个用户的大队列进行拆分,拆分成好几个子队列。
·轮询队列(jimdb)
1.Set结构(queue|0)
2.Value用户队列key
3.不设置过期时间
轮询队列为了负载均衡实现同一用户相同线程计算,目前大小是1500个。
·点击路径树(jimdb)
1.Hash结构(c|uid|pv_sid|yyyy-MM-dd)
2.Filed页面编号|字段标识(3101|ctm)
3.Value点击字段内容
4.过期时间1天
后缀+日期目的是解决路径只保留24小时问题,数据取今天和昨天的key。
·加购路径树(Hbase)
1.rowKey(ac|uid|skuid)的哈希值前8位
2.family p
3.qualifier空字符串
4.value map的json格式串
5.过期时间15天
额外在jimdb中维护key(ac|uid|skuid),value为空串与Hbase关联,减少jimdb操作。
·用户最后加购时间(jimdb)
1.String(lc|uid)
2.Value时间戳
3.过期时间15天
·用户加购列表(jimdb)
1.Zset结构(u|uid)
2.Score用户pv_sid
3.Value用户加购时间|加购时间key名称,或者订单sku路径树key名
用户最后加购时间和用户加购列表的目的主要是为了处理延迟上报数据。
第四、对于C端,还设置有轮询服务,用于实现负载均衡。
轮询服务负载均衡实现:
1、服务器在zookeeper上注册临时节点,获取到节点位置index和总节点数count。
2.、轮询队列轮询分给每个线程。例:有15个轮询队列,3台服务器,每台服务器2个线程,服务器1负责轮询队列:0、3、6、9和12,其中,线程1:0、6和12,线程2:3和9;服务器2负责轮询队列:1,4,7,10,13,其中,线程1:1、7和13,线程2:4和10。服务器3责轮询队列:2、5、8、11和14,线程1:2、8和14,线程2:5和11。
用户队列处理实现:
1.用户队列中各个数据前缀都是ctm|入队时间
2.Map集合取出所有的key,执行sort排序,这样数据是按时间有序的
3.倒序查找入队时间超过20分钟的数据位置index
4.正序处理队列数据一直到index位置(index之前就是等到的乱序数据)
上述方案存在以下技术缺陷:
1、无法将B端用户每次下单成功所有的点击事件信息串联起来形成订单路径树;
2、无法统计页面中资源位的点击转换成的订单;
3、C端实现逻辑复杂,用大量的存储和代码处理了数据延迟问题;
4、C端实现了复杂的负载均衡,但是当服务器数量发生变化时,每台服务器都要重新分配队列;
5、C端实现方案用户队列拆分比较繁琐;
6、C端技术性代码侵入业务性代码太多,影响后期维护和扩展。
本申请实施例提供的数据处理方法的设计思路包括:
1、同一个访次,记录每个页面最后一次点击event_id,通过埋点方案中页面编号page_no来识别哪些event_id归属于同一个页面,目前一般是按照客户端前端展示的点位来归属页面关系。
2、同SKU多次加入购物车,记录第一次加入购物车的点击路径。
3、若用户24小时内没有加购行为,则点击路径不记。
4、加购行为路径缓存15天,即用户加购后15天内下单,路径树可找回用户下单路径。
本申请实施例中的数据处理设备包括以下三部分:
1、埋点sdk:负责将用户行为按照一定的格式上报到点击流系统。
2、埋点系统解析规则:负责每一种事件的解析方法,比如事件参数,页面参数按照什么样的格式解析。
3、数据处理模块:通过大数据实时处理技术加工出订单路径树。
本申请实施例中的数据处理方法,如图8所示,包括:
设计页面上某个位置为pageNo,定义每个路径点击事件的上报格式,并且保存在路径树埋点规则表中。
B端封闭平台800的页面系统通过sdk的方式收集用户点击等事件行为数据,通过点击流系统801发送到kafka802中。
消费kafka802中用户的行为数据,从埋点规则库表803提取各种点击事件的解析规则。
使用大数据实时计算引擎flink解析kafka801中的事件消息,利用flink的watermark机制处理用户点击事件的乱序和迟到场景,避免了使用复杂的时间判断代码和缓存去处理数据乱序和迟到场景,然后根据pageNO和skuId解析出普通点击事件即浏览事件和加购事件,过滤掉那些上报信息不合法的消息(比如说版本号过低的,事件参数为空或者格式不正确的)。
利用大数据实时处理引擎中的分组算子keyby(用户pin)进行分区,从而避免大量的拆分用户队列的工作,以及复杂的负载均衡操作。
将用户相同访次内有加购行为的点击事件全部放入加购路径树,该访次没有加购的点击事件流804的点击数据暂存24h,保存使用的是大数据实时引擎的状态存储后端实现的,避免了复杂的外部存储操作,并且处理数据的效率提高了,如果24h该访次还没有加购行为,则删除点击数据。
利用大数据实时处理框架的双流合并操作,这个流可以访问另一个流中数据的状态。具体如下:合并加购事件流805和订单流806,根据订单流806中的sku,找到加购事件流805生成的加购路径树中是否有该购物车路径树,如果有就将该加购路径树加入到订单路径树中,如果没有就等待一定的时间然后再去触发查询,有就加入;没有的话,加购路径树如果15天内没有形成订单,则删除。
本申请中,可将加购路径树和订单流804发送到kafka807中,以进行加购事件流805和订单流806的合并,其中,kafka807可将生成的订单路径树发送至hive808中。
图9为本申请实施例的一种数据处理装置的实现流程示意图,如图9所示,装置900包括:
接收模块901,用于接收用户行为数据,对所述用户行为数据进行解析;
确定模块902,用于当根据解析的结果检测到针对资源位的点击事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流;所述目标点击路径为包括所述点击事件的点击路径;
生成模块903,用于当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树;
建立模块904,用于建立所述资源位与所述订单路径树之间的关联关系。
在一些实施例中,确定模块902,还用于:
确定针对所述资源位对应的目标访次;其中,所述目标访次对应的点击事件构成所述目标点击路径;
查找所述用户行为数据中,对应所述目标访次的目标用户行为数据,得到所述点击数据流。
在一些实施例中,装置900还包括:获取模块,用于当所述目标点击路径中包括针对至少两个资源位的至少两个点击事件,且所述至少两个资源位位于同一页面,获取所述至少两个资源位中各资源位的点击时间;
对应的,建立模块904:用于建立目标资源位于所述订单路径树之间的关联关系;所述目标资源位为所述至少两个资源中点击时间最早的资源位。
在一些实施例中,确定模块902,还用于:
判断所述目标点击路径中是否包括加购事件;
当所述目标点击路径中包括加购事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成加购数据子流。
在一些实施例中,确定模块902,还用于:
当所述目标点击路径不包括所述加购事件,则根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据子流;
根据所述用户行为数据判断在第一时间段内是否存在所述加购事件;
当存在所述加购事件,将所述加购事件的加购行为数据和所述点击数据子流进行融合,得到所述加购数据子流。
在一些实施例中,装置900,还包括:过滤模块,用于:
当存在针对同一目标商品的至少多条加购数据子流,获取各加购数据子流对应的加购时间,所述加购时间为所述加购数据子流对应的加购事件的发生时间;
根据各加购数据子流对应的加购时间,确定目标加购数据子流;所述目标加购数据子流为所述多条加购数据子流中加购时间最早的加购数据子流;
将所述多条加购数据子流中的除所述目标加购数据子流以外的过期加购数据子流删除。
在一些实施例中,装置900,还包括:添加模块,用于根据所述加购数据子流生成加购路径树,将所述加购路径树添加到加购路径树集合中;
对应的,生成模块903还用于:
当根据解析的结果检测到所述用户存在下单行为,生成订单数据;
将所述订单数据和所述加购路径树集合的加购路径树进行匹配,得到构成订单路径树集合的所述订单路径树。
在一些实施例中,生成模块903还用于:
将所述订单数据对应的第一商品信息和所述加购路径树集合中的所述加购路径树对应的第二商品信息进行匹配;
当所述第二商品信息与所述第一商品信息匹配,则将所述加购路径树作为所述订单路径树,从所述加购路径树集合,转移至所述订单路径树集合中。
在一些实施例中,生成模块903还用于:
当所述加购路径树的第二商品信息,在第二时间段内不存在匹配的所述第一商品信息,将所述加购路径树从所述加购路径树集合中删除。
需要说明的是,本申请实施例提供的数据处理装置包括所包括的各单元,可以通过电子设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU,Central Processing Unit)、微处理器(MPU,Micro ProcessorUnit)、数字信号处理器(DSP,Digital Signal Processor)或现场可编程门阵列(FPGA,Field-Programmable Gate Array)等。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的数据处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例中提供的数据处理方法中的步骤。其中,该电子设备可为客户端,也可为服务端。
对应地,本申请实施例提供一种存储介质,也就是计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的数据处理方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,图10为本申请实施例电子设备(数据处理设备)的一种硬件实体示意图,如图10所示,所述电子设备1000包括:一个处理器1001、至少一个通信总线1002、至少一个外部通信接口1004和存储器1005。其中,通信总线1002配置为实现这些组件之间的连接通信。在一示例中,电子设备1000还包括:用户接口1003、其中,用户接口1003可以包括显示屏,外部通信接口1004可以包括标准的有线接口和无线接口。
存储器1005配置为存储由处理器1001可执行的指令和应用,还可以缓存待处理器1001以及电子设备中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定属性、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一些实施例中”未必一定指相同的实施例。此外,这些特定的属性、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些属性可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种数据处理方法,其特征在于,所述方法包括:
接收用户行为数据,对所述用户行为数据进行解析;
当根据解析的结果检测到针对资源位的点击事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流;所述目标点击路径为包括所述点击事件的点击路径;
当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树;
建立所述资源位与所述订单路径树之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流,包括:
确定针对所述资源位对应的目标访次;其中,所述目标访次对应的点击事件构成所述目标点击路径;
查找所述用户行为数据中,对应所述目标访次的目标用户行为数据,得到所述点击数据流。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述目标点击路径中包括针对至少两个资源位的至少两个点击事件,且所述至少两个资源位位于同一页面,获取所述至少两个资源位中各资源位的点击时间;
对应的,建立所述资源位与所述订单路径树之间的关联关系,包括:
建立目标资源位于所述订单路径树之间的关联关系;所述目标资源位为所述至少两个资源中点击时间最早的资源位。
4.根据权利要求1所述的方法,其特征在于,所述根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流,包括:
判断所述目标点击路径中是否包括加购事件;
当所述目标点击路径中包括加购事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成加购数据子流。
5.根据权利要求4所述的方法,其特征在于,所述根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流,包括:
当所述目标点击路径不包括所述加购事件,则根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据子流;
根据所述用户行为数据判断在第一时间段内是否存在所述加购事件;
当存在所述加购事件,将所述加购事件的加购行为数据和所述点击数据子流进行融合,得到所述加购数据子流。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当存在针对同一目标商品的至少多条加购数据子流,获取各加购数据子流对应的加购时间,所述加购时间为所述加购数据子流对应的加购事件的发生时间;
根据各加购数据子流对应的加购时间,确定目标加购数据子流;所述目标加购数据子流为所述多条加购数据子流中加购时间最早的加购数据子流;
将所述多条加购数据子流中的除所述目标加购数据子流以外的过期加购数据子流删除。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述加购数据子流生成加购路径树,将所述加购路径树添加到加购路径树集合中;
对应的,当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树,包括:
当根据解析的结果检测到所述用户存在下单行为,生成订单数据;
将所述订单数据和所述加购路径树集合的加购路径树进行匹配,得到构成订单路径树集合的所述订单路径树。
8.根据权利要求7所述的方法,其特征在于,所述将所述订单数据和所述加购路径树集合的加购路径树进行匹配,得到构成订单路径树集合的所述订单路径树,包括:
将所述订单数据对应的第一商品信息和所述加购路径树集合中的所述加购路径树对应的第二商品信息进行匹配;
当所述第二商品信息与所述第一商品信息匹配,则将所述加购路径树作为所述订单路径树,从所述加购路径树集合,转移至所述订单路径树集合中。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
当所述加购路径树的第二商品信息,在第二时间段内不存在匹配的所述第一商品信息,将所述加购路径树从所述加购路径树集合中删除。
10.一种数据处理装置,其特征在于,所述装置包括:
接收模块,用于接收用户行为数据,对所述用户行为数据进行解析;
确定模块,用于当根据解析的结果检测到针对资源位的点击事件,根据所述用户行为数据中,对应目标点击路径的目标用户行为数据生成点击数据流;所述目标点击路径为包括所述点击事件的点击路径;
生成模块,用于当根据解析的结果检测到所述用户存在下单行为,则根据所述点击数据流生成订单路径树;
建立模块,用于建立所述资源位与所述订单路径树之间的关联关系。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述数据处理方法中的步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现权利要求1至9任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110152978.XA CN113763020A (zh) | 2021-02-03 | 2021-02-03 | 一种数据处理方法及装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110152978.XA CN113763020A (zh) | 2021-02-03 | 2021-02-03 | 一种数据处理方法及装置、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113763020A true CN113763020A (zh) | 2021-12-07 |
Family
ID=78786577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110152978.XA Pending CN113763020A (zh) | 2021-02-03 | 2021-02-03 | 一种数据处理方法及装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113763020A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850988B1 (en) * | 2000-09-15 | 2005-02-01 | Oracle International Corporation | System and method for dynamically evaluating an electronic commerce business model through click stream analysis |
JP2007087208A (ja) * | 2005-09-22 | 2007-04-05 | Toshiba Tec Corp | 顧客動向収集システム、顧客動向収集方法および顧客動向収集プログラム |
KR20110034175A (ko) * | 2009-09-28 | 2011-04-05 | 주식회사 다음커뮤니케이션 | 구매전환확률 산출방법 및 그를 위한 서버 장치 |
US20120030011A1 (en) * | 2010-07-30 | 2012-02-02 | Yahoo! Inc. | Systems and Methods for Estimating a Conversion Rate for a Digital Advertisement Based on Dwell Times Associated with the Digital Advertisement |
CN103597508A (zh) * | 2011-04-11 | 2014-02-19 | 谷歌公司 | 基于转化路径的分段 |
CN106204122A (zh) * | 2016-07-05 | 2016-12-07 | 北京京东尚科信息技术有限公司 | 触点价值度量方法和装置 |
CN106371842A (zh) * | 2016-08-31 | 2017-02-01 | 北京字节跳动科技有限公司 | 一种网页转化跟踪方法和系统 |
TW201740330A (zh) * | 2016-05-05 | 2017-11-16 | 和盟電子商務股份有限公司 | 電子商務網站中消費者行為之可視化分析-最佳成單路徑 |
US10169778B1 (en) * | 2015-03-26 | 2019-01-01 | Amazon Technologies, Inc. | Cross-channel online advertising attribution |
WO2019024661A1 (zh) * | 2017-08-03 | 2019-02-07 | 北京京东尚科信息技术有限公司 | 一种订单跟踪的方法和装置 |
CN111292108A (zh) * | 2018-12-07 | 2020-06-16 | 北京京东尚科信息技术有限公司 | 订单统计方法、装置、设备及计算机可读存储介质 |
US20200244748A1 (en) * | 2019-01-24 | 2020-07-30 | Dell Products L.P. | Analysis and Visualization of Session Paths |
CN111861583A (zh) * | 2020-07-31 | 2020-10-30 | 成都新潮传媒集团有限公司 | 一种广告点击率的预测方法、装置及计算机可读存储介质 |
-
2021
- 2021-02-03 CN CN202110152978.XA patent/CN113763020A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850988B1 (en) * | 2000-09-15 | 2005-02-01 | Oracle International Corporation | System and method for dynamically evaluating an electronic commerce business model through click stream analysis |
JP2007087208A (ja) * | 2005-09-22 | 2007-04-05 | Toshiba Tec Corp | 顧客動向収集システム、顧客動向収集方法および顧客動向収集プログラム |
KR20110034175A (ko) * | 2009-09-28 | 2011-04-05 | 주식회사 다음커뮤니케이션 | 구매전환확률 산출방법 및 그를 위한 서버 장치 |
US20120030011A1 (en) * | 2010-07-30 | 2012-02-02 | Yahoo! Inc. | Systems and Methods for Estimating a Conversion Rate for a Digital Advertisement Based on Dwell Times Associated with the Digital Advertisement |
CN103597508A (zh) * | 2011-04-11 | 2014-02-19 | 谷歌公司 | 基于转化路径的分段 |
US10169778B1 (en) * | 2015-03-26 | 2019-01-01 | Amazon Technologies, Inc. | Cross-channel online advertising attribution |
TW201740330A (zh) * | 2016-05-05 | 2017-11-16 | 和盟電子商務股份有限公司 | 電子商務網站中消費者行為之可視化分析-最佳成單路徑 |
CN106204122A (zh) * | 2016-07-05 | 2016-12-07 | 北京京东尚科信息技术有限公司 | 触点价值度量方法和装置 |
CN106371842A (zh) * | 2016-08-31 | 2017-02-01 | 北京字节跳动科技有限公司 | 一种网页转化跟踪方法和系统 |
WO2019024661A1 (zh) * | 2017-08-03 | 2019-02-07 | 北京京东尚科信息技术有限公司 | 一种订单跟踪的方法和装置 |
CN111292108A (zh) * | 2018-12-07 | 2020-06-16 | 北京京东尚科信息技术有限公司 | 订单统计方法、装置、设备及计算机可读存储介质 |
US20200244748A1 (en) * | 2019-01-24 | 2020-07-30 | Dell Products L.P. | Analysis and Visualization of Session Paths |
CN111861583A (zh) * | 2020-07-31 | 2020-10-30 | 成都新潮传媒集团有限公司 | 一种广告点击率的预测方法、装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
张岳帆等: "网络广告设计高转化率创新路径探析", 《新闻战线》, no. 8, 30 April 2015 (2015-04-30), pages 66 - 67 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6126099B2 (ja) | タイムリーイベントデータ分配用マーケットプレイス | |
US8396834B2 (en) | Real time web usage reporter using RAM | |
CN102208992B (zh) | 面向互联网的不良信息过滤系统及其方法 | |
CN109684358A (zh) | 数据查询的方法和装置 | |
CN101572629B (zh) | 一种ip数据的处理方法及装置 | |
JP2014528126A (ja) | 複数のターゲットへのマルチソースプッシュ通知の分配 | |
EP1918832A2 (en) | Session based web usage reporter | |
CN108268565B (zh) | 基于数据仓库处理用户浏览行为数据的方法及系统 | |
CN110928853A (zh) | 一种标识日志的方法和装置 | |
CN103944799B (zh) | 消息处理方法及系统 | |
CN111552885B (zh) | 实现自动化实时消息推送运营的系统及其方法 | |
US20240104088A1 (en) | Real time system for ingestion, aggregation, and identity association of data from user actions performed on websites or applications | |
CN102902775A (zh) | 互联网实时计算的方法和系统 | |
US20160239533A1 (en) | Identity workflow that utilizes multiple storage engines to support various lifecycles | |
US8874666B2 (en) | Publisher-assisted, broker-based caching in a publish-subscription environment | |
CN114971714A (zh) | 一种基于大数据标签的精准客户运营方法和计算机设备 | |
CN114357280A (zh) | 一种信息推送方法、装置、电子设备及计算机可读介质 | |
US20120278168A1 (en) | Targeted communication between promoters and consumers | |
CN104657383B (zh) | 一种基于关联特性的重复视频检测方法与系统 | |
US20120215858A1 (en) | Caching potentially repetitive message data in a publish-subscription environment | |
US20120246243A1 (en) | Electronic mail system, user terminal apparatus, information providing apparatus, and computer readable medium | |
US8990301B2 (en) | Broker designation and selection in a publish-subscription environment | |
CN113763020A (zh) | 一种数据处理方法及装置、设备、存储介质 | |
KR20150132647A (ko) | 온라인 게시물의 알림 방법 및 시스템 | |
US8229994B2 (en) | Method, system, and program product for providing automatic group subscriptions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |