CN108984668A - 一种数据处理的方法、装置、设备及存储介质 - Google Patents

一种数据处理的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108984668A
CN108984668A CN201810697894.2A CN201810697894A CN108984668A CN 108984668 A CN108984668 A CN 108984668A CN 201810697894 A CN201810697894 A CN 201810697894A CN 108984668 A CN108984668 A CN 108984668A
Authority
CN
China
Prior art keywords
metaevent
data collection
data
page
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810697894.2A
Other languages
English (en)
Inventor
黄琳
李文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dingsheng Computer Technology Co Ltd
Original Assignee
Shenzhen Dingsheng Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dingsheng Computer Technology Co Ltd filed Critical Shenzhen Dingsheng Computer Technology Co Ltd
Priority to CN201810697894.2A priority Critical patent/CN108984668A/zh
Publication of CN108984668A publication Critical patent/CN108984668A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理的方法、装置、设备及存储介质,其中,该方法包括:当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息;对所述特征信息进行分类,生成原子数据集;根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐;将所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件;根据所述元事件,生成与所述页面操作行为相对应的报表。本发明实施例可以精简前端数据、快速记录用户的行为轨迹、并保证后台服务器稳定运行。

Description

一种数据处理的方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据库技术,尤其涉及一种数据处理的方法、装置、设备及存储介质。
背景技术
记录并分析用户在电商网站上页面之间的行为轨迹,对网站运营极其重要。为了尽可能完整的追溯和还原用户在网站浏览时发生的行为和操作轨迹,通常需要在用户触发每个页面时,收集尽可能多的数据,并上报至后台服务器,然后这样处理造成前端上传数据过大,后台服务器扩展和维护成本很高。
发明内容
本发明提供一种数据处理的方法、装置、设备及存储介质,可以精简前端数据、快速记录用户的行为轨迹、并保证后台服务器稳定运行。
第一方面,本发明实施例提供了一种数据处理的方法,包括:
当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息;
对所述特征信息进行分类,生成原子数据集;
根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐;
将所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件;
根据所述元事件,生成与所述页面操作行为相对应的报表。
第二方面,本发明实施例还提供了一种数据处理的装置,包括:
特征信息获取模块,用于当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息;
原子数据集生成模块,对所述特征信息进行分类,生成原子数据集;
补齐模块,用于根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐;
元事件生成模块,用于将所述补齐后的原子数据集分类导入自定义事件类型中,生成元事件;
报表生成模块,用于根据所述元事件,生成与所述页面操作行为相对应的报表。
第三方面,本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例任一所述的数据处理的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例任一所述的数据处理的方法。
本发明实施例提供了一种数据处理的方法、装置、设备及存储介质,其中,该方法包括:当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息;对所述特征信息进行分类,生成原子数据集;根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐;将所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件;根据所述元事件,生成与所述页面操作行为相对应的报表。本发明实施例可以精简前端数据、快速记录用户的行为轨迹、并保证后台服务器稳定运行。
附图说明
图1是本发明实施例一提供的一种数据处理的方法的流程图;
图2是本发明实施例二提供的一种数据处理的方法的流程图;
图3是本发明实施例三提供的一种数据处理的方法的流程图;
图4是本发明实施例四提供的一种数据处理的装置的结构示意图;
图5是本发明实施例五提供的一种计算机设备的结构示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种数据处理的方法的流程图,本实施例可适用于记录并分析用户在电商网站上页面之间的行为轨迹的情况,该方法可以由数据处理的装置来执行,该装置可以由软件和/或硬件的方式实现,并一般可集成于后台服务器中。本实施例的方法具体包括如下步骤:
步骤110、当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息。
其中,所述页面操作行为包括:浏览、搜索和点击;
所述特征信息包括:用户标记特征值、页面信息、用户行为类型信息、商品基本信息和订单基本信息。
其中,用户标记特征值可以是区分用户无登录状态和登录状态时的特征值说明,如以“0”表示用户无登录状态的标记特征值,用“1”表示用户登录状态时的标记特征值说明。页面信息可以是当前访问页面的域名、页面的路径、页面的链接、网络类型、指向refer域名、refer地址。用户行为类型信息可以是用户行为类型、用户触发行为的区域位特征值、用户来源渠道。商品基本信息可以是商品的编号SKU_ID。订单基本信息可以是订单ID。
示例性的,如一个用户访问一个商品详情页面的时候,若记录用户的行为轨迹,则需要在用户触发访问商品详情页时,采集用户的信息(如用户性别、用户年龄、用户学历等)、商品的信息(如商品的ID、商品的所属类目、商品的品牌、商品的接个等)、用户的操作信息(如点击的页面位置、网络状态、手机系统等);当用户访问完商品详情页进行购买时,则转入到下单页面。
现有技术中,针对上述示例,需要对商品详情页面时采集的各种信息进行上报;在下单页面,需要对商品详情页面时采集各种信息进行重新采集,同时采集订单相关的信息,如优惠方式、下单金额、下单事件、下单订单号等,并将采集的所有信息上报,即在下单页面需要对商品详情页面所采集的各种信息上报两次。这样就会导致前端上传数据过多,需要较多的服务器对各种信息进行存储,无疑浪费内存资源。
而本发明实施例采用的是,无论在商品详情页面还是下单页面,当检测到客户端用户触发页面的操作行为时,获取与商品详情页面和下单页面的特征信息,如用户ID、商品ID以及订单ID进行上报,这样就保证了上传的数据是最小的,落地存储就会节省很多服务器空间。
步骤120、对所述特征信息进行分类,生成原子数据集。
其中,可以将特征信息按照用户信息、商品信息、行为信息、订单信息进行分类,将所述特征信息分别对应于所属的类别中,如在用户触发页面行为时,可以获取用户浏览商品的SKU_ID,并将其归类到商品信息中。可以理解的是,原子数据集可以是用户信息、商品信息、行为信息、订单信息等类别的集合,每个类别中具备与所述类别相匹配的特征信息。
可以理解的是,可以采用分类模型,如支持向量机、神经网络、决策树、聚类分析等模型,对所述特征信息进行分类。也可以采用数据库中的分类的子句及运算符,对所述特征信息进行分类。
步骤130、根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐。
其中,索引字段可以是与原子数据集中的分类信息相匹配的字段。索引字段也可以是与对字段建立索引所创建的数据结构,其中保存有字段的值,每个值又指向与所述值相关的记录。在预先存储的数据库中,可以为表字段添加索引,如添加主键索引、唯一索引、普通索引、全文索引、多列索引等。
示例性的,根据所述相匹配的数据,对所述原子数据集进行补齐,可以是根据用户标记特征值,在数据库中查找与用户标记特征值相对应的用户性别、用户年龄、用户学历等数据,并将这些数据对原子数据集进行补齐。可以是根据商品的SKU_ID查询并补全商品名称、商品价格、商品享受优惠的方式、商品所属类目、商品所述品牌等数据。
步骤140、将所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件。
其中,所述自定义事件模型包括:页面行为、订单流程和商品评价。示例性的,将用户触发页面的点击、浏览、搜索行为相对应的匹配搭配页面行为中,形成与页面行为相匹配的元事件。元事件是形成报表的基本事件单位。
可以理解的是,可以采用分类模型,如支持向量机、神经网络、决策树、聚类分析等模型,对补齐后后的原子数据集进行分类。也可以采用数据库中分类的子句及运算符,对补齐后的原子数据集进行分类。
步骤150、根据所述元事件,生成与所述页面操作行为相对应的报表。
其中,通过报表,可以构建并分析用户的行为轨迹。所述报表包括:购物车转化漏斗、下单转化漏斗、流失用户行为分析和一级类目复购。漏斗模型适用于网站中某些关键路径的转化率分析,通过漏斗模型可以了解用户打开并浏览该网站的真正目的,为用户提供合理的访问路径或操作流程,不仅可以显示用户在进入流程到实现目标的最终转化率,还可以展示整个关键路径中每一步的转化率,从而网站运营者可以根据漏斗模型进一步调整网站的营销策略。流失用户行为分析是通过对相关数据进行统计、分析,从中发现用户使用产品的规律,并将这些规律与网站的营销策略、产品功能、运营策略相结合,发现营销、产品和运营中可能存在的问题,从而优化用户体验、实现更精细和精准的运营与营销,让产品获得更好的增长。一级类目复购是一级类目的重复购买行为,类目是商品的重要属性,一级类目如女装,与女装相对应的T恤、上衣则是二级类目,每个商品都有相对应的类目。
本发明实施例提供的数据处理的方法,通过当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息;对所述特征信息进行分类,生成原子数据集;根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐;将所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件;根据所述元事件,生成与所述页面操作行为相对应的报表。本发明实施例可以精简前端数据、快速记录用户的行为轨迹、并保证后台服务器稳定运行。
实施例二
图2是本发明实施例二提供的一种数据处理的方法的流程图,本实施例是在上述实施例基础上的进一步优化。在本实施例中,将所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件,具体为:对所述补齐后的原子数据集进行清洗;将清洗后的所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件。
进一步的,生成与所述用户触发页面操作行为相对应的报表,具体为:根据所述元事件,对所述元事件按照指定字段进行条件组合查询,生成与所述用户触发页面操作行为相对应的报表。
相应的,如图2所示,本实施例的方法包括如下步骤:
步骤210、当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息。
步骤220、对所述特征信息进行分类,生成原子数据集。
步骤230、将所述原子数据集落地为日志文件。
其中,可以理解是,对于重要的需要保存的原子数据集,需要落地为日志文件,对所述原子数据集进行存储,方便后续查阅。
步骤240、定时触发对所述日志文件的转移,将所述日志文件存储于设定的数据集群中。
示例性的,如日志文件采用acess.log,搭建nginx weekendo8,并配置flumeweekend08节点,搭建hadoop集群weekend08、weekend09、weekend10、weekend11、weekend12、weekend13,可以顺序启动hadoop集群、flume、nginx,其中,ngnix配置的是开机启动方式,然后启动tomcat服务器访问网站,产生的日志信息会存储在/opt/data/acess.log,flume会实时读取acess.log信息,然后存储到hdfs中,在hdfs中日志是按照当前的日期作为文件夹存储的。
步骤250、根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐。
步骤260、对所述补齐后的原子数据集进行清洗。
其中,数据清洗是对数据进行重新审查和检验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
示例性的,以步骤240所示例的对补齐后的原子数据集进行清洗,可以继续启动Hbase服务,即在weekend10上执行start-hbase.sh命令,在Hbase中创建eventlog表指定列族log,然后运行mapreduce程序进行数据清洗。
步骤270、将清洗后的所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件。
步骤280、根据所述元事件,对所述元事件按照指定字段进行条件组合查询,生成与所述用户触发页面操作行为相对应的报表。
其中,可以按元事件的指定的多个字段进行条件组合查询。可以理解的是,报表可以定期更新。
示例性的,将多个字段转换为一个数组字段。如果查询中包含“=、<、>”以外的查询(如某些字段为年龄、销售额等,那么可能有大于或小于范围的查询需求),则需要阶梯化对应的标签TAG的值VALUE。然后按照UID哈希进行拆表,其中拆表的目的是并行保持每个表的体量,可以理解的是,拆表可以是本地拆分,也可以是跨库拆分,拆表后扫描所有的分区表,确定聚合结果。之后建立数组GIN查询,可以理解的是,建立GIN索引实际上是倒排索引,数据元素作为KEY,行号作为VALUE的B树。最后进行数组组合查询,数组查询通过GIN索引扫描,可以获得理想的索引速度。
本发明实施例提供的一种数据处理的方法,通过将补齐后的原子数据集进行清洗,剔除脏数据,进一步优化服务器的存储空间,同时,可以对元事件中的指定字段进行组合查询,生成与用户触发页面操作行为相对应的报表,可以实现报表的快速查询,了解用户的行为轨迹。
实施例三
图3是本发明实施例三提供的一种数据处理的方法的流程图,本实施例是在上述实施例基础上的进一步优化,在本实施例中,根据所述元事件,生成与所述用户触发页面操作行为相对应的报表,还可以具体为:根据所述元事件,对所述元事件中的指定字段按照数据沉淀规则生成虚拟事件;根据所述虚拟事件的条件组合查询,生成与所述用户触发页面操作行为相对应的报表。
相应的,如图3所示,本实施例的方法包括如下步骤:
步骤310、当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息。
步骤320、对所述特征信息进行分类,生成原子数据集。
步骤330、根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐。
步骤340、对所述补齐后的原子数据集进行清洗。
步骤350、将清洗后的所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件。
步骤360、根据所述元事件,对所述元事件中的指定字段按照数据沉淀规则生成虚拟事件。
其中,数据沉淀即数据抓取,是从大量数据中通过算法搜索隐藏其中信息的过程。虚拟事件包括:指定页面的页面访问量PV和/或访问某个站点或点击某个页面位置的不同IP地址的人数UV、订单审核通过、订单生成。虚拟事件是与元事件相关联的中间事件,可以采用关联规则、聚类分析等沉淀与元事件相关联的虚拟事件。
步骤370、根据所述虚拟事件的条件组合查询,生成与所述用户触发页面操作行为相对应的报表。
示例性的,可以按照虚拟事件的指定字段,如PV和UV进行条件组合查询。
本发明实施例通过检测客户端用户的页面操作行为,获取与页面操作行为相匹配的特征信息,并对特征信息分类为原子数据,通过预先存储的数据库对原子数据集补齐,并在清洗后将其分类为元事件,将元事件按照数据沉淀规则生成虚拟事件,并对虚拟事件进行条件组合查询,生成报表。本发明实施例中,数据采集代码铺设成本极低,且扩展性和灵活性较高,数据可根据业务特性定制化且可以保持独立性,并可以完整追溯用户在电商网站上浏览、点击、页面跳转、行为路径、下单轨迹等记录,可查看关键页面的PV、UV、形成转化漏斗模型等,对用户行为进行分析。
实施例四
图4是本发明实施例四提供的一种数据处理的装置的流程图,如图4所示,所述装置包括:特征信息获取模块410、原子数据集生成模块420、补齐模块430、元事件生成模块440和报表生成模块450,其中:
特征信息获取模块410,用于当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息;
原子数据集生成模块420,对所述特征信息进行分类,生成原子数据集;
补齐模块430,用于根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐;
元事件生成模块440,用于将所述补齐后的原子数据集分类导入自定义事件类型中,生成元事件;
报表生成模块450,用于根据所述元事件,生成与所述页面操作行为相对应的报表。
本发明实施例提供的数据处理的装置,通过当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息;对所述特征信息进行分类,生成原子数据集;根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐;将所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件;根据所述元事件,生成与所述页面操作行为相对应的报表。本发明实施例可以精简前端数据、快速记录用户的行为轨迹、并保证后台服务器稳定运行。
进一步的,在上述各实施例的基础上,具体的:
所述页面操作行为包括:浏览、搜索和点击;
所述特征信息包括:用户标记特征值、页面信息、用户行为类型信息、商品基本信息和订单基本信息;
所述自定义事件模型包括:页面行为、订单流程和商品评价;
所述报表包括:购物车转化漏斗、下单转化漏斗、流失用户行为分析和一级类目复购。
进一步的,在上述各实施例的基础上,还包括:
日志文件落地模块,用于对所述特征信息进行分类,生成原子数据集之后,将所述原子数据集落地为日志文件;
日志文件存储模块,用于定时触发对所述日志文件的转移,将所述日志文件存储于设定的数据集群中。
进一步的,在上述各实施例的基础上,所述元事件生成模块,具体用于:
对所述补齐后的原子数据集进行清洗;
将清洗后的所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件。
进一步的,在上述各实施例的基础上,所述报表生成模块,具体用于:
根据所述元事件,对所述元事件按照指定字段进行条件组合查询,生成与所述用户触发页面操作行为相对应的报表。
进一步的,在上述各实施例的基础上,所述报表生成模块,还具体用于:
根据所述元事件,对所述元事件中的指定字段按照数据沉淀规则生成虚拟事件;
根据所述虚拟事件的条件组合查询,生成与所述用户触发页面操作行为相对应的报表。
本发明实施例所提供的数据处理的装置可执行本发明任意实施例所提供的数据处理的方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例5提供的一种设备的结构示意图,如图5所示,该设备包括处理器50、存储器51、输入装置52和输出装置53;设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据处理的方法对应的程序指令/模块(例如,数据处理的装置中的特征信息获取模块410、原子数据集生成模块420、补齐模块430、元事件生成模块440和报表生成模块450)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据处理的方法。
存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置52可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据处理的方法,该方法包括:
当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息;
对所述特征信息进行分类,生成原子数据集;
根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐;
将所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件;
根据所述元事件,生成与所述页面操作行为相对应的报表。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据处理的方法中的相关操作.
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述数据处理的方法的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据处理的方法,其特征在于,包括:
当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息;
对所述特征信息进行分类,生成原子数据集;
根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐;
将所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件;
根据所述元事件,生成与所述页面操作行为相对应的报表。
2.根据权利要求1所述的方法,其特征在于:
所述页面操作行为包括:浏览、搜索和点击;
所述特征信息包括:用户标记特征值、页面信息、用户行为类型信息、商品基本信息和订单基本信息;
所述自定义事件模型包括:页面行为、订单流程和商品评价;
所述报表包括:购物车转化漏斗、下单转化漏斗、流失用户行为分析和一级类目复购。
3.根据权利要求1所述的方法,其特征在于,包括:对所述特征信息进行分类,生成原子数据集之后,还包括:
将所述原子数据集落地为日志文件;
定时触发对所述日志文件的转移,将所述日志文件存储于设定的数据集群中。
4.根据权利要求1所述的方法,其特征在于,将所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件,包括:
对所述补齐后的原子数据集进行清洗;
将清洗后的所述补齐后的原子数据集分类导入自定义事件模型中,生成元事件。
5.根据权利要求1所述的方法,其特征在于,根据所述元事件,生成与所述用户触发页面操作行为相对应的报表,包括:
根据所述元事件,对所述元事件按照指定字段进行条件组合查询,生成与所述用户触发页面操作行为相对应的报表。
6.根据权利要求1所述的方法,其特征在于,根据所述元事件,生成与所述用户触发页面操作行为相对应的报表,还包括:
根据所述元事件,对所述元事件中的指定字段按照数据沉淀规则生成虚拟事件;
根据所述虚拟事件的条件组合查询,生成与所述用户触发页面操作行为相对应的报表。
7.一种数据处理的装置,其特征在于,包括:
特征信息获取模块,用于当检测到客户端用户的页面操作行为时,获取与所述页面操作行为相匹配的特征信息;
原子数据集生成模块,对所述特征信息进行分类,生成原子数据集;
补齐模块,用于根据索引字段,在预先存储的数据库中,查找与所述索引字段相匹配的数据,并根据所述相匹配的数据,对所述原子数据集进行补齐;
元事件生成模块,用于将所述补齐后的原子数据集分类导入自定义事件类型中,生成元事件;
报表生成模块,用于根据所述元事件,生成与所述页面操作行为相对应的报表。
8.根据权利要求7所述的装置,其特征在于,还包括:
日志文件落地模块,用于对所述特征信息进行分类,生成原子数据集之后,将所述原子数据集落地为日志文件;
日志文件存储模块,用于定时触发对所述日志文件的转移,将所述日志文件存储于设定的数据集群中。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的数据处理的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的数据处理的方法。
CN201810697894.2A 2018-06-29 2018-06-29 一种数据处理的方法、装置、设备及存储介质 Pending CN108984668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810697894.2A CN108984668A (zh) 2018-06-29 2018-06-29 一种数据处理的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810697894.2A CN108984668A (zh) 2018-06-29 2018-06-29 一种数据处理的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN108984668A true CN108984668A (zh) 2018-12-11

Family

ID=64539580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810697894.2A Pending CN108984668A (zh) 2018-06-29 2018-06-29 一种数据处理的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108984668A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298750A (zh) * 2019-05-22 2019-10-01 平安银行股份有限公司 高并发交易数据处理方法、装置、计算机设备和存储介质
CN113672601A (zh) * 2021-07-22 2021-11-19 北京明略软件系统有限公司 一种流式数据补齐方法、系统、电子设备及存储介质
CN110298750B (zh) * 2019-05-22 2024-06-04 平安银行股份有限公司 高并发交易数据处理方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366020A (zh) * 2013-08-06 2013-10-23 刘临 用户行为分析系统及方法
CN103593376A (zh) * 2012-08-17 2014-02-19 阿里巴巴集团控股有限公司 一种采集用户行为数据的方法及装置
CN106209512A (zh) * 2016-07-11 2016-12-07 乐视控股(北京)有限公司 一种上报用户行为数据的方法及装置
US20160379268A1 (en) * 2013-12-10 2016-12-29 Tencent Technology (Shenzhen) Company Limited User behavior data analysis method and device
CN107609890A (zh) * 2017-08-03 2018-01-19 北京京东尚科信息技术有限公司 一种订单跟踪的方法和装置
CN107784076A (zh) * 2017-09-25 2018-03-09 北京京东尚科信息技术有限公司 可视化构建用户行为数据的方法和装置
CN107908606A (zh) * 2017-10-31 2018-04-13 上海壹账通金融科技有限公司 基于不同信息源自动生成报表的方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593376A (zh) * 2012-08-17 2014-02-19 阿里巴巴集团控股有限公司 一种采集用户行为数据的方法及装置
CN103366020A (zh) * 2013-08-06 2013-10-23 刘临 用户行为分析系统及方法
US20160379268A1 (en) * 2013-12-10 2016-12-29 Tencent Technology (Shenzhen) Company Limited User behavior data analysis method and device
CN106209512A (zh) * 2016-07-11 2016-12-07 乐视控股(北京)有限公司 一种上报用户行为数据的方法及装置
CN107609890A (zh) * 2017-08-03 2018-01-19 北京京东尚科信息技术有限公司 一种订单跟踪的方法和装置
CN107784076A (zh) * 2017-09-25 2018-03-09 北京京东尚科信息技术有限公司 可视化构建用户行为数据的方法和装置
CN107908606A (zh) * 2017-10-31 2018-04-13 上海壹账通金融科技有限公司 基于不同信息源自动生成报表的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298750A (zh) * 2019-05-22 2019-10-01 平安银行股份有限公司 高并发交易数据处理方法、装置、计算机设备和存储介质
CN110298750B (zh) * 2019-05-22 2024-06-04 平安银行股份有限公司 高并发交易数据处理方法、装置、计算机设备和存储介质
CN113672601A (zh) * 2021-07-22 2021-11-19 北京明略软件系统有限公司 一种流式数据补齐方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Huang et al. Taxonomy-aware multi-hop reasoning networks for sequential recommendation
KR101419504B1 (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
US9600530B2 (en) Updating a search index used to facilitate application searches
CN102591890B (zh) 一种展示搜索信息的方法及搜索信息展示装置
Zhang et al. Neural IR meets graph embedding: A ranking model for product search
CN111444334B (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN104254852B (zh) 用于混合信息查询的方法和系统
CN101488151B (zh) 一种聚合Web站点内容的系统和方法
CN105447186B (zh) 一种基于大数据平台的用户行为分析系统
US20210118024A1 (en) Multi-label product categorization
CN107077486A (zh) 情感评价系统和方法
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN108830689A (zh) 物品推荐方法、装置、服务器和存储介质
CN103118111A (zh) 一种基于多个数据交互中心的数据进行信息推送的方法
Tibély et al. Extracting tag hierarchies
CN102663019B (zh) 一种即时推荐系统
Kochtchi et al. Networks of Names: Visual Exploration and Semi‐Automatic Tagging of Social Networks from Newspaper Articles
Luo et al. Conceptualize and infer user needs in e-commerce
Tan et al. Recommendation Based on Users’ Long‐Term and Short‐Term Interests with Attention
Lu et al. A recommendation algorithm based on fine-grained feature analysis
Han et al. Fitnet: Identifying fashion influencers on twitter
CN110443265A (zh) 一种基于社团的行为检测方法和装置
Woo et al. Predicting the ratings of Amazon products using Big Data
Ding et al. Computational Technologies for Fashion Recommendation: A Survey
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211

RJ01 Rejection of invention patent application after publication