CN107609139A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN107609139A
CN107609139A CN201710853054.6A CN201710853054A CN107609139A CN 107609139 A CN107609139 A CN 107609139A CN 201710853054 A CN201710853054 A CN 201710853054A CN 107609139 A CN107609139 A CN 107609139A
Authority
CN
China
Prior art keywords
user
statistical
matrix
matrixes
action log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710853054.6A
Other languages
English (en)
Inventor
朱迪
程浩
柳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dike Technology Co Ltd
Original Assignee
Beijing Dike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dike Technology Co Ltd filed Critical Beijing Dike Technology Co Ltd
Priority to CN201710853054.6A priority Critical patent/CN107609139A/zh
Publication of CN107609139A publication Critical patent/CN107609139A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明提供一种数据处理方法及装置,该方法包括:获取当前统计周期内所有用户的用户行为日志;分别解析每个用户的用户行为日志,得到每个用户的用户基本信息和用户行为矩阵;根据预设的数据分类规则及每个用户的用户基本信息和用户行为矩阵,生成数据分类规则对应的统计矩阵。本发明将用户行为日志矩阵化以便于统计,一维UV矩阵统计网页的访客数量,二维UV矩阵统计跳转路径对应的用户数目,一维PV矩阵统计网页的访问次数,二维PV矩阵统计跳转路径对应的总跳转次数,统计效率高,节省时间及系统资源。将海量的用户行为日志最终统计为四个矩阵,并格式化存储,节省内存,方便可视化平台读取及展示,便于企业基于用户行为日志进行决策分析。

Description

一种数据处理方法及装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法及装置。
背景技术
目前,网站通常设计有固定个数的网页,用户访问不同的网页并在网页之间进行切换,据此形成用户访问的行为轨迹。网站将用户的每一个行为轨迹记录为一条日志记录,每个用户每天将产生成百上千条日志记录,用户的日志记录形成海量的用户行为日志。
用户行为日志能够反映用户的喜好,不仅可以通过用户行为日志窥测到诸多商机,而且可以基于用户行为日志统计用户的喜好点,根据用户的喜好点来为用户进行个性化推荐等其他服务。但海量的用户行为日志中交织着大量用户的行为记录,当需要获知某类数据时,传统方式首先从海量的用户行为日志中遍历出该类数据,然后对遍历出的数据进行解析统计。例如,当需要获知所有VIP(Very Important Person,贵宾)用户的浏览行为数据时,首先遍历出VIP用户对应的用户行为日志,然后再对遍历出的用户行为日志进行统计,以统计出VIP用户喜好访问的网页及访问轨迹等。
但上述遍历出所需的某类数据后再进行数据统计,由于数据量巨大,很耗时且耗费系统资源,效率很低。
发明内容
有鉴于此,本发明实施例的目的在于提供一种数据处理方法及装置,将用户行为日志矩阵化,矩阵化后的日志数据非常便于统计,计算效率高,节省时间及系统资源。将海量的用户行为日志最终统计为四个矩阵,并格式化存储,大大节省了内存,方便可视化平台读取及展示,便于企业基于用户行为日志进行决策分析。
第一方面,本发明实施例提供了一种数据处理方法,所述方法包括:
获取当前统计周期内所有用户的用户行为日志;
分别解析每个用户的用户行为日志,得到每个用户对应的用户基本信息和用户行为矩阵;
根据预设的数据分类规则及所述每个用户对应的用户基本信息和用户行为矩阵,生成所述数据分类规则对应的统计矩阵。
结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,所述分别解析每个用户的用户行为日志,得到每个用户对应的用户基本信息和用户行为矩阵,包括:
遍历用户的用户行为日志,根据所述用户行为日志的存储结构,解析出所述用户对应的用户基本信息及页面跳转记录;
根据所述页面跳转记录,生成所述用户对应的用户行为矩阵。
结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,根据所述页面跳转记录,生成所述用户对应的用户行为矩阵,包括:
根据网站的网页数目,创建独立访客UV矩阵和页面流量PV矩阵,所述UV矩阵和所述PV矩阵中元素的初始值均为0;
根据所述页面跳转记录,分别重置所述UV矩阵和所述PV矩阵中元素的取值;
将重置操作后的所述UV矩阵和所述PV矩阵确定为所述用户对应的用户行为矩阵。
结合第一方面,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,所述根据预设的数据分类规则及所述每个用户对应的用户基本信息和用户行为矩阵,生成所述数据分类规则对应的统计矩阵,包括:
根据预设的数据分类规则及所述每个用户对应的用户基本信息,对所述所有用户进行分类;
将划分为同一类的多个用户对应的用户行为矩阵进行矩阵相加,得到所述数据分类规则对应的统计矩阵。
结合第一方面的第三种可能的实现方式,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,所述数据分类规则为按数据来源进行分类,所述数据来源包括万维网WEB、应用程序APP、无线应用协议WAP;
或者,所述数据分类规则为按照用户类型进行分类,所述用户类型包括普通用户、贵宾VIP用户或媒体用户。
结合第一方面的第三种可能的实现方式,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中,所述用户行为矩阵包括一维UV矩阵、二维UV矩阵、一维PV矩阵和二维PV矩阵;
所述将划分为同一类的多个用户对应的用户行为矩阵进行矩阵相加,得到所述数据分类规则对应的统计矩阵,包括:
将划分为同一类的多个用户对应的所述一维UV矩阵、所述二维UV矩阵、所述一维PV矩阵和所述二维PV矩阵分别进行矩阵相加,得到所述数据分类规则对应的一维UV统计矩阵、二维UV统计矩阵、一维PV统计矩阵及二维PV统计矩阵。
结合第一方面,本发明实施例提供了上述第一方面的第六种可能的实现方式,其中,所述生成所述数据分类规则对应的统计矩阵之后,还包括:
获取与所述当前统计周期相邻的上一周期获得的统计矩阵;
将所述当前统计周期获得的统计矩阵与所述上一周期获得的统计矩阵进行矩阵相减,得到环比统计值。
结合第一方面,本发明实施例提供了上述第一方面的第七种可能的实现方式,其中,所述生成所述数据分类规则对应的统计矩阵之后,还包括:
获取与所述当前统计周期相隔预设周期数目的历史统计周期获得的统计矩阵;
将所述当前统计周期获得的统计矩阵与所述历史统计周期获得的统计矩阵进行矩阵相减,得到同比统计值。
结合第一方面,本发明实施例提供了上述第一方面的第八种可能的实现方式,其中,所述生成所述数据分类规则对应的统计矩阵之后,还包括:
存储所述当前统计周期与所述统计矩阵的对应关系。
第二方面,本发明实施例提供了一种数据处理装置,所述装置包括:
获取模块,用于获取当前统计周期内所有用户的用户行为日志;
解析模块,用于分别解析每个用户的用户行为日志,得到每个用户对应的用户基本信息和用户行为矩阵;
生成模块,用于根据预设的数据分类规则及所述每个用户对应的用户基本信息和用户行为矩阵,生成所述数据分类规则对应的统计矩阵。
在本发明实施例提供的方法及装置中,解析每个用户的用户行为日志,得到每个用户的用户基本信息,并将用户行为日志矩阵化得到用户行为矩阵。根据预设的数据分类规则及每个用户的用户基本信息和用户行为矩阵,生成数据分类规则对应的统计矩阵。本发明将用户行为日志矩阵化以便于统计,一维UV矩阵统计网页的访客数量,二维UV矩阵统计跳转路径对应的用户数目,一维PV矩阵统计网页的访问次数,二维PV矩阵统计跳转路径对应的总跳转次数,统计效率高,节省时间及系统资源。将海量的用户行为日志最终统计为四个矩阵,并格式化存储,节省内存,方便可视化平台读取及展示,便于企业基于用户行为日志进行决策分析。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例1所提供的一种数据处理方法的流程图;
图2示出了本发明实施例1所提供的一种生成用户行为矩阵的示意图;
图3示出了本发明实施例2所提供的一种数据处理装置的结构示意图;
图4示出了本发明实施例2所提供的另一种数据处理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有技术中当需要获知某类数据时,需要首先从海量的用户行为日志中遍历出该类数据,然后再对遍历出的数据进行解析统计。由于数据量巨大,很耗时且耗费系统资源,效率很低。基于此,本发明实施例提供了一种数据处理方法及装置,下面通过实施例进行描述。
实施例1
本发明实施例提供了一种数据处理方法。
当前网站通常都设置有固定数目的网页。当用户通过自己的手机或平板电脑等用户终端访问该网站的网页时,该网站对应的服务器会获取该用户的IP(InternetProtocol,网络互联协议)地址、用户类型、用户终端的设备标识及渠道信息,渠道信息可以为用户终端的品牌名称,用户类型可以为普通用户、VIP用户或媒体用户等。当用户终端为手机时服务器还获取该用户的手机号,并对该手机号进行加密。服务器创建该用户对应的用户行为日志,该用户行为日志包括服务器自身的服务器地址、上述用户的IP地址、设备标识、渠道信息、加密手机号、用户所访问网页的网页地址、访问时间戳及用户类型等。
例如,假设网站有A、B、C、D、E共5个网页,网站服务器的服务器地址为www.abc.com,用户通过自己的华为手机访问该网站的网页A,则服务器存储如表1所示的用户行为日志。当用户访问该网站的其他网页时,服务器同样存储其他网页对应的用户行为日志,如此每天用户访问网站都会产生成百上千条用户行为日志。
表1
服务器地址 www.abc.com
IP地址 113.89.149.161
访问时间戳 1502121601.462
网页地址 A
加密手机号 gobWKEabUU0
渠道信息 HuaWei
设备标识 869573025300480
用户类型 VIP用户
对于每个访问网站的用户,网站的服务器均按照上述方式存储每个用户对应的用户行为日志。因此每天服务器都存储大量的用户行为日志,为了充分利用这些用户行为日志,从中挖掘用户喜好,开拓商机,参见图1,本发明实施例通过如下步骤101-103的操作来对海量的用户行为日志进行统计分析。
步骤101:获取当前统计周期内所有用户的用户行为日志。
本发明实施例周期性地对用户行为日志进行统计分析,统计周期可以为每天统计一次或每周统计一次等。本发明实施例并不具体限定统计周期的长短,具体应用中可根据需求来确定统计周期。
在用户访问网站时服务器记录了用户对应的用户行为日志,在当前统计周期的统计节点到来时,获取已记录的所有用户的用户行为日志。统计节点为预先设置的时间点,如当统计周期为每天统计一次时,统计节点可以为每天23:00;当统计周期为每周统计一次时,统计节点可以为每周周日23:00。同样地,本发明实施例并不具体限定统计节点的具体时间点取值,实际应用中可根据需求来确定统计节点。
本发明实施例的执行主体可以为网站的服务器或区别于网站服务器且专门用于统计分析用户行为日志的终端。当执行主体为网站的服务器时,在当前统计周期的统计节点到来时,服务器直接从本地获取已记录的所有用户的用户行为日志。当执行主体为专门用于统计分析用户行为日志的终端时,终端与网站的服务器通信连接,在当前统计周期的统计节点到来时,该终端从服务器获取所有用户的用户行为日志。或者,该终端并不与网站的服务器通信连接,而是在当前统计周期的统计节点到来之前,通过人工拷贝的方式将所有用户的用户行为日志从服务器拷贝到该终端。
步骤102:分别解析每个用户的用户行为日志,得到每个用户对应的用户基本信息和用户行为矩阵。
遍历用户的用户行为日志,根据用户行为日志的存储结构,解析出用户对应的用户基本信息及页面跳转记录。根据页面跳转记录,生成用户对应的用户行为矩阵。
具体如图2所示,本发明实施例通过如下步骤A1-A的操作来获得用户对应的用户基本信息及用户行为矩阵,具体包括:
A1:遍历用户的用户行为日志,根据用户行为日志的存储结构,解析出用户对应的用户基本信息及页面跳转记录。
用户行为日志的存储结构规定了用户行为日志包括的多个信息的排列顺序及每种信息的存储形式,如上述表1中所示服务器地址、IP地址、访问时间戳、网页地址、加密手机号、渠道信息、设备标识和用户类型的排列顺序及存储形式即为存储结构的一种。本发明实施例中并不具体限定存储结构,实际应用中可根据需求来确定。
上述用户基本信息包括IP地址、加密手机号、渠道信息、设备标识和用户类型等。遍历用户的用户行为日志,根据用户行为日志的存储结构分别解析出每个用户对应的用户基本信息。由于同一个用户对应的多个用户行为日志中上述IP地址、加密手机号、渠道信息、设备标识和用户类型等用户基本信息是相同的,因此从用户对应的任意一个用户行为日志中都可以解析出用户基本信息。在本发明实施例中,可以先将用户基本信息初始化,即将用户基本信息包括的各个信息的取值先填充为空值。从用户行为日志中解析出各个信息的实际取值时,再将用户基本信息中预先填充的空值修改为解析出的实际取值。
同时,从用户对应的所有用户行为日志中,能够解析出每个用户行为日志包括的访问时间戳和网页地址,根据用户访问每个网页地址的访问时间戳,能够确定出用户在各个网页地址之间进行跳转的先后顺序,得到用户对应的页面跳转记录。例如,假设从用户对应的所有用户行为日志中解析出的访问时间戳与网页地址为1月1日10:00对应网页地址A,1月1日10:02对应网页地址C,1月1日10:06对应网页地址B,则得到的页面跳转记录为A->C->B。
A2:根据网站的网页数目,创建UV(Unique Visitor,独立访客)矩阵和PV(PageView,页面流量)矩阵,UV矩阵和PV矩阵中元素的初始值均为0。
上述UV矩阵包括一维UV矩阵和二维UV矩阵,一维UV矩阵和二维UV矩阵用于统计访客数量。PV矩阵包括一维PV矩阵和二维PV矩阵,一维PV矩阵和二维PV矩阵用于存储网页的浏览量。其中,假设网站的网页数目为N,N为大于1的正整数。则一维UV矩阵和一维PV矩阵包括的元素数目均为N,且一维UV矩阵和一维PV矩阵中的元素与网站包括的网页一一对应。二维UV矩阵和二维PV矩阵包括的元素数目均为N*N,且二维UV矩阵和二维PV矩阵包括的元素与网站包括的所有网页中任意两个网页之间的跳转路径一一对应。在创建一维UV矩阵、二维UV矩阵、一维PV矩阵和二维PV矩阵时,将这四个矩阵包括的元素的取值均初始化为0。
例如,假设网站的网页数目为5,5个网页分别为A、B、C、D和E,则创建的一维UV矩阵和一维PV矩阵均为[0,0,0,0,0],[0,0,0,0,0]中5个元素与网页A、B、C、D、E一一对应。创建的二维UV矩阵和二维PV矩阵均为该矩阵中的每个元素均对应于从一个网页跳转至另一个网页的跳转路径。如第一行包括的五个元素分别对应于跳转路径A->A、A->B、A->C、A->D、A->E。第二行包括的五个元素分别对应于跳转路径B->A、B->B、B->C、B->D、B->E。第三行包括的五个元素分别对应于跳转路径C->A、C->B、C->C、C->D、C->E。第四行包括的五个元素分别对应于跳转路径D->A、D->B、D->C、D->D、D->E。第五行包括的五个元素分别对应于跳转路径E->A、E->B、E->C、E->D、E->E。
A3:根据页面跳转记录,分别重置UV矩阵和PV矩阵中元素的取值。
在根据页面跳转记录重置UV矩阵和PV矩阵时,若页面跳转记录中包含网页A的网页地址,则表明用户访问了网页A,则将一维UV矩阵中网页A对应的元素值更新为1。如果页面跳转记录中包含有从网页A跳转至网页B的记录,则表明用户访问网页A后继续访问了网页B,则将二维UV矩阵中A->B对应的元素值更新为1,以此类推。一维UV矩阵中仅记录用户是否访问过某网页,二维UV矩阵仅记录是否存在从一个网页跳转到另一个网页的用户行为,所以一维UV矩阵和二维UV矩阵中元素的取值均为1或0。而由于PV矩阵用于记录网页的浏览量,所以若页面跳转记录中出现三次网页A的网页地址,则则表明用户访问了网页A三次,一维PV矩阵中网页A对应的元素值更新为3。如果页面跳转记录中包含有两次从网页A跳转至网页B的记录,则将二维PV矩阵中A->B对应的元素值更新为2,以此类推。
为了进一步理解上述根据页面跳转记录重置UV矩阵和PV矩阵的操作,下面举例进行说明。假设网站共有5个网页分别为A、B、C、D和E,用户对应的页面跳转记录为A->C->E->A->C->E->B->E,则得到的一维UV矩阵、二维UV矩阵、一维PV矩阵和二维PV矩阵如表2所示。
表2
A4:将重置操作后的UV矩阵和PV矩阵确定为用户对应的用户行为矩阵。
在当前统计周期,通过上述方式得到每个用户对应的用户基本信息和用户行为矩阵后,通过如下步骤103来进行统计分析。
步骤103:根据预设的数据分类规则及每个用户对应的用户基本信息和用户行为矩阵,生成数据分类规则对应的统计矩阵。
上述数据分类规则可以按照数据来源进行分类,也可以按照用户类型进行分类。其中,数据来源包括WEB(World Wide Web,万维网)、APP(Application,应用程序)、WAP(Wireless Application Protocol,无线应用协议)。用户类型包括普通用户、VIP用户或媒体用户。除按照数据来源或用户类型进行分类的方式外,还可以按照渠道信息的不同进行分类,如将所有用户划分为华为用户、小米用户等。
本发明实施例根据预设的数据分类规则及每个用户对应的用户基本信息,对所有用户进行分类;将划分为同一类的多个用户对应的用户行为矩阵进行矩阵相加,得到数据分类规则对应的统计矩阵。
由于用户行为矩阵包括一维UV矩阵、二维UV矩阵、一维PV矩阵和二维PV矩阵,所以在进行矩阵相加操作时,将划分为同一类的多个用户对应的一维UV矩阵相加得到一维UV统计矩阵,将划分为同一类的多个用户对应的二维UV矩阵相加得到二维UV统计矩阵,将划分为同一类的多个用户对应的一维PV矩阵相加得到一维PV统计矩阵,将划分为同一类的多个用户对应的二维PV矩阵相加得到二维PV统计矩阵。如此得到的一维UV统计矩阵、二维UV统计矩阵、一维PV统计矩阵及二维PV统计矩阵即为数据分类规则对应的统计矩阵。
一维UV统计矩阵中的元素值代表当前统计周期内访问该元素值对应的网页的用户数目。二维UV统计矩阵中的元素值代表当前统计周期内访问网页过程中存在该元素值对应的跳转路径的用户数目。一维PV统计矩阵中的元素值代表当前统计周期内该元素值对应的网页的被访问次数。二维PV统计矩阵中的元素值代表当前统计周期内该元素值对应的跳转路径对应的总跳转次数。
通过上述方式得到统计矩阵后还存储当前统计周期与统计矩阵的对应关系。本发明实施例能够高效率地统计不同数据来源、不同数据类型或来自不同渠道的用户行为日志,将当前统计周期内海量的用户行为日志统计为四个矩阵,并对着四个矩阵进行格式化存储,以方便可视化平台读取调用统计矩阵。将用户行为日志解析存入矩阵后,用户的访问记录及行为记录一目了然,且矩阵化的存储方式节省内存,计算效率高。
在本发明实施例中,生成数据分类规则对应的统计矩阵之后,还获取与当前统计周期相邻的上一周期获得的统计矩阵;将当前统计周期获得的统计矩阵与上一周期获得的统计矩阵进行矩阵相减,得到环比统计值。例如,当统计周期为每天统计一次时,获取昨天统计得到的统计矩阵,将今天得到的统计矩阵与昨天得到的统计矩阵进行矩阵相减,得到环比统计值。
由于统计矩阵包括一维UV统计矩阵、二维UV统计矩阵、一维PV统计矩阵及二维PV统计矩阵,所以在进行上述矩阵相减操作时,将当前统计周期的一维UV统计矩阵与上一周期的一维UV统计矩阵相减得到一维UV环比值,将当前统计周期的二维UV统计矩阵与上一周期的二维UV统计矩阵相减得到二维UV环比值,将当前统计周期的一维PV统计矩阵与上一周期的一维PV统计矩阵相减得到一维PV环比值,将当前统计周期的二维PV统计矩阵与上一周期的二维PV统计矩阵相减得到二维PV环比值。即上述环比统计值包括一维UV环比值、二维UV环比值、一维PV环比值及二维PV环比值。通过上述方式得到环比统计值后还存储当前统计周期与环比统计值的对应关系。
相似地,本发明实施例还获取与当前统计周期相隔预设周期数目的历史统计周期获得的统计矩阵;将当前统计周期获得的统计矩阵与历史统计周期获得的统计矩阵进行矩阵相减,得到同比统计值。预设周期数目可以为5或10等。例如,当统计周期为每天统计一次,且当前统计周期为周一,预设周期数目为6,则获取上周一统计得到的统计矩阵,将本周一得到的统计矩阵与上周一得到的统计矩阵进行矩阵相减,得到同比统计值。
由于统计矩阵包括一维UV统计矩阵、二维UV统计矩阵、一维PV统计矩阵及二维PV统计矩阵,所以在进行上述矩阵相减操作时,同样将当前统计周期的一维UV统计矩阵、二维UV统计矩阵、一维PV统计矩阵、二维PV统计矩阵分别与历史统计周期的一维UV统计矩阵、二维UV统计矩阵、一维PV统计矩阵、二维PV统计矩阵进行相减得到同比统计值。得到同比统计值后还存储当前统计周期与同比统计值的对应关系。
通过本发明实施例提供的矩阵化日志处理方式,能够高效的对解析后的用户行为日志进行数据统计,针对在线数据、离线数据均适用,格式化存储矩阵化的数据后方便可视化平台进行数据读取及展示,从而便于企业基于用户行为日志进行决策分析,提高了数据处理效率及海量用户行为日志的利用率。
在本发明实施例中,解析每个用户的用户行为日志,得到每个用户的用户基本信息,并将用户行为日志矩阵化得到用户行为矩阵。根据预设的数据分类规则及每个用户的用户基本信息和用户行为矩阵,生成数据分类规则对应的统计矩阵。本发明将用户行为日志矩阵化以便于统计,一维UV矩阵统计网页的访客数量,二维UV矩阵统计跳转路径对应的用户数目,一维PV矩阵统计网页的访问次数,二维PV矩阵统计跳转路径对应的总跳转次数,统计效率高,节省时间及系统资源。将海量的用户行为日志最终统计为四个矩阵,并格式化存储,节省内存,方便可视化平台读取及展示,便于企业基于用户行为日志进行决策分析。
实施例2
参见图3,本发明实施例提供了一种数据处理装置,该装置用于执行上述实施例1所提供的数据处理方法,该装置具体包括:
获取模块20,用于获取当前统计周期内所有用户的用户行为日志;
解析模块21,用于分别解析每个用户的用户行为日志,得到每个用户对应的用户基本信息和用户行为矩阵;
生成模块22,用于根据预设的数据分类规则及每个用户对应的用户基本信息和用户行为矩阵,生成数据分类规则对应的统计矩阵。
如图4所示,上述解析模块21包括:
解析单元210,用于遍历用户的用户行为日志,根据用户行为日志的存储结构,解析出用户对应的用户基本信息及页面跳转记录;
生成单元211,用于根据页面跳转记录,生成用户对应的用户行为矩阵。
上述生成单元211包括:
创建子单元,用于根据网站的网页数目,创建独立访客UV矩阵和页面流量PV矩阵,UV矩阵和PV矩阵中元素的初始值均为0;
重置子单元,用于根据页面跳转记录,分别重置UV矩阵和PV矩阵中元素的取值;
确定子单元,用于将重置操作后的UV矩阵和PV矩阵确定为用户对应的用户行为矩阵。
如图4所示,生成模块22包括:
分类单元220,用于根据预设的数据分类规则及每个用户对应的用户基本信息,对所有用户进行分类;
矩阵相加单元221,用于将划分为同一类的多个用户对应的用户行为矩阵进行矩阵相加,得到数据分类规则对应的统计矩阵。
在本发明实施例中,数据分类规则为按数据来源进行分类,数据来源包括万维网WEB、应用程序APP、无线应用协议WAP;或者,数据分类规则为按照用户类型进行分类,用户类型包括普通用户、贵宾VIP用户或媒体用户。
用户行为矩阵包括一维UV矩阵、二维UV矩阵、一维PV矩阵和二维PV矩阵;上述矩阵相加单元221,用于将划分为同一类的多个用户对应的一维UV矩阵、二维UV矩阵、一维PV矩阵和二维PV矩阵分别进行矩阵相加,得到数据分类规则对应的一维UV统计矩阵、二维UV统计矩阵、一维PV统计矩阵及二维PV统计矩阵。
在本发明实施例中,该装置还包括:
环比统计模块,用于获取与当前统计周期相邻的上一周期获得的统计矩阵;将当前统计周期获得的统计矩阵与上一周期获得的统计矩阵进行矩阵相减,得到环比统计值。
同比统计模块,用于获取与当前统计周期相隔预设周期数目的历史统计周期获得的统计矩阵;将当前统计周期获得的统计矩阵与历史统计周期获得的统计矩阵进行矩阵相减,得到同比统计值。
存储模块,用于存储当前统计周期与统计矩阵的对应关系。该存储模块还用于存储当前统计周期与同比统计值及环比统计值之间的对应关系。
在本发明实施例中,解析每个用户的用户行为日志,得到每个用户的用户基本信息,并将用户行为日志矩阵化得到用户行为矩阵。根据预设的数据分类规则及每个用户的用户基本信息和用户行为矩阵,生成数据分类规则对应的统计矩阵。本发明将用户行为日志矩阵化以便于统计,一维UV矩阵统计网页的访客数量,二维UV矩阵统计跳转路径对应的用户数目,一维PV矩阵统计网页的访问次数,二维PV矩阵统计跳转路径对应的总跳转次数,统计效率高,节省时间及系统资源。将海量的用户行为日志最终统计为四个矩阵,并格式化存储,节省内存,方便可视化平台读取及展示,便于企业基于用户行为日志进行决策分析。
本发明实施例所提供的数据处理装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取当前统计周期内所有用户的用户行为日志;
分别解析每个用户的用户行为日志,得到每个用户对应的用户基本信息和用户行为矩阵;
根据预设的数据分类规则及所述每个用户对应的用户基本信息和用户行为矩阵,生成所述数据分类规则对应的统计矩阵。
2.根据权利要求1所述的方法,其特征在于,所述分别解析每个用户的用户行为日志,得到每个用户对应的用户基本信息和用户行为矩阵,包括:
遍历用户的用户行为日志,根据所述用户行为日志的存储结构,解析出所述用户对应的用户基本信息及页面跳转记录;
根据所述页面跳转记录,生成所述用户对应的用户行为矩阵。
3.根据权利要求2所述的方法,其特征在于,根据所述页面跳转记录,生成所述用户对应的用户行为矩阵,包括:
根据网站的网页数目,创建独立访客UV矩阵和页面流量PV矩阵,所述UV矩阵和所述PV矩阵中元素的初始值均为0;
根据所述页面跳转记录,分别重置所述UV矩阵和所述PV矩阵中元素的取值;
将重置操作后的所述UV矩阵和所述PV矩阵确定为所述用户对应的用户行为矩阵。
4.根据权利要求1所述的方法,其特征在于,所述根据预设的数据分类规则及所述每个用户对应的用户基本信息和用户行为矩阵,生成所述数据分类规则对应的统计矩阵,包括:
根据预设的数据分类规则及所述每个用户对应的用户基本信息,对所述所有用户进行分类;
将划分为同一类的多个用户对应的用户行为矩阵进行矩阵相加,得到所述数据分类规则对应的统计矩阵。
5.根据权利要求4所述的方法,其特征在于,所述数据分类规则为按数据来源进行分类,所述数据来源包括万维网WEB、应用程序APP、无线应用协议WAP;
或者,所述数据分类规则为按照用户类型进行分类,所述用户类型包括普通用户、贵宾VIP用户或媒体用户。
6.根据权利要求4所述的方法,其特征在于,所述用户行为矩阵包括一维UV矩阵、二维UV矩阵、一维PV矩阵和二维PV矩阵;
所述将划分为同一类的多个用户对应的用户行为矩阵进行矩阵相加,得到所述数据分类规则对应的统计矩阵,包括:
将划分为同一类的多个用户对应的所述一维UV矩阵、所述二维UV矩阵、所述一维PV矩阵和所述二维PV矩阵分别进行矩阵相加,得到所述数据分类规则对应的一维UV统计矩阵、二维UV统计矩阵、一维PV统计矩阵及二维PV统计矩阵。
7.根据权利要求1所述的方法,其特征在于,所述生成所述数据分类规则对应的统计矩阵之后,还包括:
获取与所述当前统计周期相邻的上一周期获得的统计矩阵;
将所述当前统计周期获得的统计矩阵与所述上一周期获得的统计矩阵进行矩阵相减,得到环比统计值。
8.根据权利要求1所述的方法,其特征在于,所述生成所述数据分类规则对应的统计矩阵之后,还包括:
获取与所述当前统计周期相隔预设周期数目的历史统计周期获得的统计矩阵;
将所述当前统计周期获得的统计矩阵与所述历史统计周期获得的统计矩阵进行矩阵相减,得到同比统计值。
9.根据权利要求1所述的方法,其特征在于,所述生成所述数据分类规则对应的统计矩阵之后,还包括:
存储所述当前统计周期与所述统计矩阵的对应关系。
10.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取当前统计周期内所有用户的用户行为日志;
解析模块,用于分别解析每个用户的用户行为日志,得到每个用户对应的用户基本信息和用户行为矩阵;
生成模块,用于根据预设的数据分类规则及所述每个用户对应的用户基本信息和用户行为矩阵,生成所述数据分类规则对应的统计矩阵。
CN201710853054.6A 2017-09-20 2017-09-20 一种数据处理方法及装置 Pending CN107609139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710853054.6A CN107609139A (zh) 2017-09-20 2017-09-20 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710853054.6A CN107609139A (zh) 2017-09-20 2017-09-20 一种数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN107609139A true CN107609139A (zh) 2018-01-19

Family

ID=61061666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710853054.6A Pending CN107609139A (zh) 2017-09-20 2017-09-20 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN107609139A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320166A (zh) * 2018-02-06 2018-07-24 上海致趣广告有限公司 一种商机进度追踪方法及系统
WO2019228011A1 (en) * 2018-05-31 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and apparatuses for obtaining user behavior paths
CN113761443A (zh) * 2021-08-24 2021-12-07 百安居信息技术(上海)有限公司 一种网站页面数据采集与统计方法、存储介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702653A (zh) * 2009-10-27 2010-05-05 中国科学院声学研究所 一种基于用户行为定向的消息通告系统及方法
CN104572962A (zh) * 2014-12-31 2015-04-29 浙江大学 一种app推荐的方法和系统
CN104951517A (zh) * 2015-05-29 2015-09-30 小米科技有限责任公司 行为日志统计方法及装置
CN106210044A (zh) * 2016-07-11 2016-12-07 焦点科技股份有限公司 一种基于访问行为的活跃用户识别方法
CN106791983A (zh) * 2016-12-23 2017-05-31 Tcl集团股份有限公司 一种智能电视用户行为分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702653A (zh) * 2009-10-27 2010-05-05 中国科学院声学研究所 一种基于用户行为定向的消息通告系统及方法
CN104572962A (zh) * 2014-12-31 2015-04-29 浙江大学 一种app推荐的方法和系统
CN104951517A (zh) * 2015-05-29 2015-09-30 小米科技有限责任公司 行为日志统计方法及装置
CN106210044A (zh) * 2016-07-11 2016-12-07 焦点科技股份有限公司 一种基于访问行为的活跃用户识别方法
CN106791983A (zh) * 2016-12-23 2017-05-31 Tcl集团股份有限公司 一种智能电视用户行为分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨东援等著: "《大数据环境下城市交通分析技术》", 31 January 2015, 同济大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320166A (zh) * 2018-02-06 2018-07-24 上海致趣广告有限公司 一种商机进度追踪方法及系统
WO2019228011A1 (en) * 2018-05-31 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and apparatuses for obtaining user behavior paths
CN110633390A (zh) * 2018-05-31 2019-12-31 北京嘀嘀无限科技发展有限公司 获取用户行为路径的方法和装置
CN113761443A (zh) * 2021-08-24 2021-12-07 百安居信息技术(上海)有限公司 一种网站页面数据采集与统计方法、存储介质及设备

Similar Documents

Publication Publication Date Title
CN108306962B (zh) 一种商业大数据分析系统
CN104426713B (zh) 网络站点访问效果数据的监测方法和装置
US20160210657A1 (en) Real-time marketing campaign stimuli selection based on user response predictions
KR101297271B1 (ko) 소셜 네트워크 분석 서비스 방법 및 장치
CN107798102A (zh) 一种页面展示方法及装置
CN104035926B (zh) 一种互联网信息的投放和系统
CN106940705A (zh) 一种用于构建用户画像的方法与设备
WO2018223672A1 (zh) 数据处理方法及装置
JP2015534682A (ja) デジタルトラフィックメトリックを処理するためのシステムおよび方法
CN107292463A (zh) 一种对应用程序进行项目评估的方法及系统
EP3076359A1 (en) Implementing retail customer analytics data model in a distributed computing environment
CN107609139A (zh) 一种数据处理方法及装置
CN107220266A (zh) 一种创建业务数据库、业务数据存储和确定业务数据的方法及装置
CN109561052A (zh) 网站异常流量的检测方法及装置
CN107707404A (zh) 网站在线人数统计方法、装置和网站服务器
CN110381151A (zh) 一种异常设备检测方法及装置
CN108416627A (zh) 一种基于互联网数据的品牌影响力监控方法及系统
CN109977296A (zh) 一种信息推送方法、装置、设备及存储介质
CN105975479A (zh) 一种基于标签库的电信用户兴趣度分析方法及系统
CN109669995A (zh) 数据存储、质量计算方法、装置、存储介质及服务器
CN107483381A (zh) 关联账户的监控方法及装置
US20140129334A1 (en) Method and system for modeling consumer activity areas based on social media and mobile data
CN102982112A (zh) 排行榜生成方法、日志生成方法和服务器
CN107818116B (zh) 用于确定用户行为区域位置信息的方法与设备
CN109598171A (zh) 一种基于二维码的数据处理方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180119