CN116915638A - 一种埋点数据处理方法、装置、电子设备及可读存储介质 - Google Patents
一种埋点数据处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116915638A CN116915638A CN202310722312.2A CN202310722312A CN116915638A CN 116915638 A CN116915638 A CN 116915638A CN 202310722312 A CN202310722312 A CN 202310722312A CN 116915638 A CN116915638 A CN 116915638A
- Authority
- CN
- China
- Prior art keywords
- data
- application data
- application
- access
- preset acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000007405 data analysis Methods 0.000 claims abstract description 14
- 238000012544 monitoring process Methods 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims description 57
- 230000003993 interaction Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 238000012958 reprocessing Methods 0.000 claims description 11
- 239000000758 substrate Substances 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000004891 communication Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/12—Network monitoring probes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/1396—Protocols specially adapted for monitoring users' activity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本申请涉及数据处理技术领域,提供了一种埋点数据处理方法、装置、电子设备及可读存储介质。该方法应用于终端设备,包括:基于预设采集维度,监听应用数据流并采集对应预设采集维度的应用数据;基于各预设采集维度对应的不同数据等级,根据当前网络状态将对应不同数据等级的应用数据上传至云平台,以使云平台根据应用数据进行数据分析。本申请通过设置不同预设采集维度采集多种不同类型的应用数据,从而应用数据的分析价值更高,同时本申请中针对不同数据等级和当前网络状态上传应用数据,进一步提高了云平台接收应用数据的可靠性。通过本申请的方法,云平台能够获得多维度、未发生缺漏的应用数据,进而利用该应用数据更为准确地分析账户行为。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种埋点数据处理方法、装置、电子设备及可读存储介质。
背景技术
在购车网站的程序中进行埋点来采集数据,进而分析用户行为并提供个人化的服务,可以为用户提供更为舒适的购物体验。但是,目前购物网站的埋点分析不够完善,数据采集措施较为混乱,数据采集维度较单一,有效信息较少,以当前采集方法得到的采集数据分析价值较低,用户体验较差。
因此,如何提供一种解决上述技术问题的方案是目前本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种埋点数据处理方法、装置、电子设备及可读存储介质,以解决现有技术中埋点数据采集有效信息较少的问题。
本申请实施例的第一方面,提供了一种埋点数据处理方法,应用于终端设备,包括:
基于预设采集维度,监听应用数据流并采集对应预设采集维度的应用数据;
基于各预设采集维度对应的不同数据等级,根据当前网络状态将对应不同数据等级的应用数据上传至云平台,以使云平台根据应用数据进行数据分析;
预设采集维度包括访问基础数据、账号行为数据、访问页面元素信息中的一种或多种;
访问基础数据包括账号唯一标识、访问唯一标识、访问页面域名、访问路径、浏览器、操作系统、屏幕分辨率、访问来源、访问时间、页面标题中的一种或多种;
账号行为数据包括点击链接的行为数据、提交表单的行为数据、修改选择的行为数据、交互行为类型、交互页面信息、交互元素信息中的一种或多种;
访问页面元素信息包括页面信息、元素信息、文本内容、超链接、位置信息中的一种或多种。
本申请实施例的第二方面,提供了一种埋点数据处理装置,应用于终端设备,包括:
采集模块,用于基于预设采集维度,监听应用数据流并采集对应预设采集维度的应用数据;
上传模块,用于基于各预设采集维度对应的不同数据等级,根据当前网络状态将对应不同数据等级的应用数据上传至云平台,以使云平台根据应用数据进行数据分析;
预设采集维度包括访问基础数据、账号行为数据、访问页面元素信息中的一种或多种;
访问基础数据包括账号唯一标识、访问唯一标识、访问页面域名、访问路径、浏览器、操作系统、屏幕分辨率、访问来源、访问时间、页面标题中的一种或多种;
账号行为数据包括点击链接的行为数据、提交表单的行为数据、修改选择的行为数据、交互行为类型、交互页面信息、交互元素信息中的一种或多种;
访问页面元素信息包括页面信息、元素信息、文本内容、超链接、位置信息中的一种或多种。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种可读存储介质,该可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果至少包括:本申请实施例通过设置不同预设采集维度采集多种不同类型的应用数据,从而应用数据的分析价值更高,同时本申请实施例中针对不同数据等级和当前网络状态上传应用数据,进一步提高了云平台接收应用数据的可靠性。通过本申请的方法,云平台能够获得多维度、未发生缺漏的应用数据,进而利用该应用数据更为准确地分析账户行为。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例的一种应用场景的场景示意图;
图2是本申请实施例提供的一种埋点数据处理方法的流程示意图;
图3是本申请实施例提供的一种埋点数据处理装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面将结合附图详细说明根据本申请实施例的一种埋点数据处理方法、装置、电子设备及可读存储介质。
图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括第一终端设备101、第二终端设备102、第三终端设备103、服务器104以及网络105。
第一终端设备101可以是硬件,也可以是软件。当第一终端设备101为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当第一终端设备101为软件时,其可以安装在如上所述的电子设备中。第一终端设备101可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,第一终端设备101上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
第二终端设备102可以是硬件,也可以是软件。当第二终端设备102为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当第二终端设备102为软件时,其可以安装在如上所述的电子设备中。第二终端设备102可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,第二终端设备102上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
第三终端设备103可以是硬件,也可以是软件。当第三终端设备103为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当第三终端设备103为软件时,其可以安装在如上所述的电子设备中。第三终端设备103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,第三终端设备103上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器104可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本申请实施例对此不作限制。
需要说明的是,服务器104可以是硬件,也可以是软件。当服务器104为硬件时,其可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的各种电子设备。当服务器104为软件时,其可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的多个软件或软件模块,也可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的单个软件或软件模块,本申请实施例对此不作限制。
网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本申请实施例对此不作限制。
需要说明的是,第一终端设备101、第二终端设备102、第三终端设备103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本申请实施例对此不作限制。
需要说明的是,第一终端设备101、第二终端设备102、第三终端设备103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本申请实施例对此不作限制。
图2是本申请实施例提供的一种埋点数据处理方法的流程示意图。图2的埋点数据处理方法应用于终端设备,可以由图1的第一终端设备或第二终端设备或第三终端设备执行。如图2所示,该埋点数据处理方法包括:
S201:基于预设采集维度,监听应用数据流并采集对应预设采集维度的应用数据;
S202:基于各预设采集维度对应的不同数据等级,根据当前网络状态将对应不同数据等级的应用数据上传至云平台,以使云平台根据应用数据进行数据分析;
其中,预设采集维度包括访问基础数据、账号行为数据、访问页面元素信息中的一种或多种;
访问基础数据包括账号唯一标识、访问唯一标识、访问页面域名、访问路径、浏览器、操作系统、屏幕分辨率、访问来源、访问时间、页面标题中的一种或多种;
账号行为数据包括点击链接的行为数据、提交表单的行为数据、修改选择的行为数据、交互行为类型、交互页面信息、交互元素信息中的一种或多种;
访问页面元素信息包括页面信息、元素信息、文本内容、超链接、位置信息中的一种或多种。
其中,访问基础数据指的是对某一应用进行访问时,状态保持较久的基础信息,例如账号唯一标识、访问唯一标识、访问页面域名、访问路径、浏览器、操作系统、屏幕分辨率、访问来源、访问时间、页面标题。
其中,账号唯一标识指的是对当前访问的端口的描述,由账号ID(Identity,身份识别号码)和设备ID共同确定,如果没有账号ID登录,也即游客模式登录时,账号唯一标识为设备ID。即账号唯一标识由账号ID和设备ID确定;当账号ID为游客ID,账号唯一标识为设备ID。具体的,对于不同的操作系统,设备ID的选择方式不同。目前常见的操作系统包括Android系统、iOS系统和网页系统,网页系统也即采用web网页登入应用的操作系统。每个操作系统中可能包括多个可作为设备ID的标识号,从中选择某一种标识号作为设备ID。
如下表1所示,Android系统的标识号至少包括OAID(Open Anonymous DeviceIdentifier,开放匿名设备标识符)、Android_ID、IMEI(International Mobile EquipmentIdentity,国际移动设备标识)三种,每种标识号对应不同的Android版本和权限特性、标识号唯一性。
表1Android系统的标识号
根据不同标识号实现唯一性的难度,优选IMEI作为设备ID,如果无法获取到IMEI,则获取Android_ID作为设备ID,如果Android_ID也无法获取,则将OAID作为设备ID。因此,当操作系统为Android系统,确定设备ID的过程包括:当存在IMEI号,将IMEI号确定为设备ID;当不存在IMEI号但存在OAID,将OAID确定为设备ID;当不存在IMEI号和OAID但存在Android_ID,根据Android_ID确定设备ID。
类似的,如下表2所示,iOS系统的标识号至少包括IDFA(Identifier ForAdvertising,iOS独有的广告标识符)、IDFV(Identifier For Vendor,应用开发商标识符)、UDID(Unique Device Identifier,唯一设备识别码)三种,每种标识号对应不同的系统版本和权限特性。
表2iOS系统的标识号
标识符 | 系统版本/权限特性 |
IDFA | iOS10后,用户修改或关闭后无法确定唯一性 |
IDFV | 同一开发商不同APP相同 |
UDID | iOS6以前可以获取,iOS7完全弃用 |
根据不同标识号获取的难度和唯一性比较,优选IDFA作为设备ID,如果无法获取到IDFA,则获取IDFV作为设备ID,如果IDFV也无法获取,则将UDID作为设备ID。因此,当操作系统为iOS系统,确定设备ID的过程包括:
当存在IDFA号,将IDFA号确定为设备ID;
当不存在IDFA号但存在IDFV,将IDFV确定为设备ID;
当不存在IDFA号和IDFV但存在UDID,根据UDID确定设备ID。
类似的,采用web网页登入应用的操作系统即网页系统,其设备ID较为单一,通常将登入应用的web网站的cookie_id作为设备ID,并存储在浏览器的cookie中,直接获取cookie即可,因此当操作系统为网页系统,确定设备ID的过程包括:将cookie_id确定为设备ID。
进一步的,账号唯一标识和账号ID、设备ID之间具有相应的对应关系,账号ID和设备ID共同确定一个账号唯一标识,该账号唯一标识意味着,只有唯一的该设备ID的终端设备上登录唯一的该账号ID时才会生成该账号唯一标识。
类似的,访问基础数据中的访问唯一标识与账号唯一标识类似,为对某一应用进行访问时,与访问者信息相关的信息,例如访问者的IP地址(InternetProtocol Address,互联网协议地址)、访问者的账号ID、终端设备的MAC码(Media Access Control Address,媒体访问控制地址)等,均具有唯一性。
具体可参考表3中对每种访问基础数据的格式描述和举例。
表3访问基础数据的格式描述和举例
类似的,账号行为数据表示以某一账号ID登入应用后所进行的一系列操作动作的数据记录,包括点击链接的行为数据、提交表单的行为数据、修改选择的行为数据、交互行为类型、交互页面信息、交互元素信息中的一种或多种,其中交互行为类型的字段类型为布尔型变量,其余账号行为数据均为字符串,每个账号行为数据都可通过相应的字段名称、字段类型进行描述。需要注意的是,账号在文本框中输入的密码等个人隐私信息不属于账号行为数据,禁止采集。
类似的,访问页面元素信息表示当前正在访问的页面所包含的元素信息,主要包括页面信息、元素信息、文本内容、超链接、位置信息中的一种或多种。这些访问界面元素信息的字段类型一般均为字符串,每个页面的访问页面元素信息都可通过相应的字段名称、字段类型进行描述。
在已知预设采集维度的前提下,对应用的应用数据流进行监听,从中采集对应预设采集维度的实际应用数据。除了预设采集维度的应用数据的采集外,还可采集错误信息,以提供更多分析价值。
进一步的,在采集到应用数据后应上传应用数据到云平台,由云平台利用应用数据进行数据分析。上传时一般使用标准协议如HTTPS协议和数据加密技术实现,以确保应用数据的传输安全性。由于应用数据的上传过程将受到网络状态的影响,例如网络波动或网络线路故障,存在上传失败的可能,如果上传失败,可根据不同数据等级,判断是否需要再次上传或直接舍弃上传失败的数据,因此,基于各预设采集维度对应的不同数据等级,根据当前网络状态将对应不同数据等级的应用数据上传至云平台的过程,包括:
将应用数据上传至云平台;
判断在预设时间段内是否接收到云平台收到应用数据的反馈信息;
若否,根据各预设采集维度对应的不同数据等级,对未收到反馈信息的应用数据进行对应的再处理操作;
再处理操作包括舍弃操作和再次上传操作。
若是,则判定应用数据以成功上传至云平台。
通常各预设采集维度的数据等级从高到低依次为访问基础信息、账号行为数据和访问页面元素信息。以访问基础信息的再处理操作为再次上传操作为例,访问基础信息的应用数据首先缓存到本地,然后上传到云平台,判断预设时间段内是否收到云平台的反馈信息,若是,则上传成功,若否,则重新上传本地缓存的访问基础信息的应用数据。而以访问页面元素信息的再处理操作为舍弃操作为例,访问页面元素信息的应用数据先缓存到本地,然后上传到云平台,判断预设时间段内是否收到云平台的反馈信息,若是,则上传成功,若否,则对访问页面元素信息的应用数据进行舍弃操作,从本地缓存中删除该部分应用数据并结束上传操作。
进一步的,允许存在高数据等级的应用数据进行多次上传,此时不同数据等级的最大上传次数也可进行设置,例如可设置访问基础信息的最大上传次数为3。此时根据各预设采集维度对应的不同数据等级,对未收到反馈信息的应用数据进行对应的再处理操作的过程,包括:
根据各预设采集维度对应的不同数据等级和不同数据等级对应的最大上传次数,对未收到反馈信息的应用数据进行舍弃或再次上传的操作。
本申请实施例的方法,可以通过在应用的HTML(HyperText Markup Language,超文本标记语言)代码中引入用于埋点跟踪的JavaScript代码,通过异步加载该部分JavaScript代码,将该部分代码嵌入应用的代码中,从而不影响应用的访问性能。该部分JavaScript代码,可以直接编写,也可以使用开源的SensorAnalytics SDK完成。
本申请实施例通过设置不同预设采集维度采集多种不同类型的应用数据,从而应用数据的分析价值更高,同时本申请实施例中针对不同数据等级和当前网络状态上传应用数据,进一步提高了云平台接收应用数据的可靠性。通过本申请的方法,云平台能够获得多维度、未发生缺漏的应用数据,进而利用该应用数据更为准确地分析账户行为。
本发明实施例公开了一种具体的埋点数据处理方法,相对与上一实施例,本实施例对技术方案做了进一步的说明和优化。
云平台根据应用数据进行数据分析的动作,主要包括数据清洗、数据处理数据应用和数据共享协同几部分。
其中,数据清洗指对无效、不完整、异常的数据进行过滤,最终保留出高质量、精准的数据。其中无效的数据包括因为网络、设备等原因造成请求失败的数据,或API(Application Programming Interface,应用程序编程接口)的使用过程中中断和异常的数据;不完整的数据包括数据缺失或者没有完整信息,缺少重要等级的数据,比如没有频道分类、没有商品ID、没有地理位置;异常的数据包括数据明显异常或者破坏了原始数据的分布特征,比如网络连接时间为负数、账号操作时长过度缩短、地理位置不合理。
其中,数据处理指的是采用机器学习、深度学习等技术,从大量数据中挖掘出有价值的信息和规律。涉及到的学习模型包括分类模型、聚类模型、关联模型、预测模型。
分类模型指利用逻辑回归、朴素贝叶斯、决策树、支持向量机、随机森林、梯度提升树,将数据按照某些特征进行分类。在埋点数据分析中,可以通过分类模型识别用户账号的行为类别,如用于分类用户账号的购买行为、不同的互动行为等,从而更好地了解用户账号的兴趣、需求和行为特征。
聚类模型指采用亲和力传播、聚合聚类、BIRCH(Balanced Iterative Reducingand Clustering Using Hierarchies,利用层次方法的平衡迭代规约和聚类)、DBSCAN(Density-Based Spatial Clustering of Applications with Noise,一种基于密度、对噪声鲁棒的空间聚类算法)、Mini-Batch、K-均值、Mean Shift、OPTICS(Ordering pointsto identify the clustering structure,对点排序以确定簇结构)、光谱聚类、高斯混合等算法将数据按照相似度进行分组,埋点数据分析中,可以通过聚类模型发现一些用户的共性,比如用户的购买习惯、使用设备、访问频率等,快速进行用户画像。
关联模型指采用Apriori算法发现数据之间的关联关系。在埋点数据分析中,可以使用关联模型来识别不同事件之间的相关性,从而预测用户的行为。
预测模型指基于历史数据和模型进行预测,如基于线性回归模型、决策树模型、随机森林模型等进行分析,用于查找趋势和预估选项的结果。例如,通过线性回归模型预测用户某项行为的可能性,从而制定相应的营销策略。
数据处理还包括可视化部分,指采用图表等可视化技术,形象直观的展示数据分析结果。
进一步的,数据应用指的是数据通过分析和挖掘,为企业提供更好的数据支持,帮助企业更好地了解用户需求和行为。应用数据通常要求具有以下特点:
数据具有代表性,即样本数量大、多样性强,能够反映整体情况;
数据准确无误,排除数据异常,保证数据质量;
数据有价值,具有实际应用价值;
数据能够清晰表达问题,可直接应用于后续决策;
数据有长期价值,可以为企业未来的业务发展提供指导。
进一步的,通过数据分析,生成用户画像,了解用户需求和特征,进而制定针对性的创新策略,之后可结合用户画像信息和其他分析结果,提出有效建议和改进措施。
数据共享协同,指的是数据在不同的业务之间进行共享和协同,进而提高数据价值和利用效率,主要包括以下几个部分:
数据集成,指将不同业务领域中的数据整合到一起,构建一个完整的数据仓库,以便实现数据共享和协同。
数据标准化与管理,指对于不同来源的数据进行标准化管理,以确保数据格式的一致性、准确性和清晰性。
数据安全性,指在共享和协同数据的过程中,考虑数据隐私和安全性问题,采取相应的数据安全策略,包括数据加密和权限控制等,保证数据以及相关信息的保密性和完整性。
数据交互,指通过使用标准化API,实现不同业务之间的数据交互和协作。
数据监控,指对数据进行监控和追踪,检测数据的变化和异常,及时提出警报和处理措施。
数据流程管理,指制定优化的数据共享和协同流程,对于数据的交换和处理过程中出现的问题及时跟进和解决,提高数据质量、效率和可靠性。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图3是本申请实施例提供的一种埋点数据处理装置的示意图。如图3所示,该埋点数据处理装置应用于终端设备,包括:
采集模块301,用于基于预设采集维度,监听应用数据流并采集对应预设采集维度的应用数据;
上传模块302,用于基于各预设采集维度对应的不同数据等级,根据当前网络状态将对应不同数据等级的应用数据上传至云平台,以使云平台根据应用数据进行数据分析;
预设采集维度包括访问基础数据、账号行为数据、访问页面元素信息中的一种或多种;
访问基础数据包括账号唯一标识、访问唯一标识、访问页面域名、访问路径、浏览器、操作系统、屏幕分辨率、访问来源、访问时间、页面标题中的一种或多种;
账号行为数据包括点击链接的行为数据、提交表单的行为数据、修改选择的行为数据、交互行为类型、交互页面信息、交互元素信息中的一种或多种;
访问页面元素信息包括页面信息、元素信息、文本内容、超链接、位置信息中的一种或多种。
本申请实施例通过设置不同预设采集维度采集多种不同类型的应用数据,从而应用数据的分析价值更高,同时本申请实施例中针对不同数据等级和当前网络状态上传应用数据,进一步提高了云平台接收应用数据的可靠性。通过本申请的方法,云平台能够获得多维度、未发生缺漏的应用数据,进而利用该应用数据更为准确地分析账户行为。
在一些具体的实施例中,账号唯一标识由账号ID和设备ID确定;当账号ID为游客ID,账号唯一标识为设备ID。
在一些具体的实施例中,当操作系统为Android系统,确定设备ID的过程包括:
当存在IMEI号,将IMEI号确定为设备ID;
当不存在IMEI号但存在OAID,将OAID确定为设备ID;
当不存在IMEI号和OAID但存在Android_ID,根据Android_ID确定设备ID。
在一些具体的实施例中,当操作系统为iOS系统,确定设备ID的过程包括:
当存在IDFA号,将IDFA号确定为设备ID;
当不存在IDFA号但存在IDFV,将IDFV确定为设备ID;
当不存在IDFA号和IDFV但存在UDID,根据UDID确定设备ID。
在一些具体的实施例中,当操作系统为网页系统,确定设备ID的过程包括:
将cookie_id确定为设备ID。
在一些具体的实施例中,基于各预设采集维度对应的不同数据等级,根据当前网络状态将对应不同数据等级的应用数据上传至云平台的过程,包括:
将应用数据上传至云平台;
判断在预设时间段内是否接收到云平台收到应用数据的反馈信息;
若否,根据各预设采集维度对应的不同数据等级,对未收到反馈信息的应用数据进行对应的再处理操作;
再处理操作包括舍弃操作和再次上传操作。
在一些具体的实施例中,根据各预设采集维度对应的不同数据等级,对未收到反馈信息的应用数据进行对应的再处理操作的过程,包括:
根据各预设采集维度对应的不同数据等级和不同数据等级对应的最大上传次数,对未收到反馈信息的应用数据进行舍弃或再次上传的操作。
图4是本申请实施例提供的电子设备4的示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,可读存储介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种埋点数据处理方法,其特征在于,应用于终端设备,包括:
基于预设采集维度,监听应用数据流并采集对应所述预设采集维度的应用数据;
基于各所述预设采集维度对应的不同数据等级,根据所述当前网络状态将对应不同所述数据等级的所述应用数据上传至云平台,以使所述云平台根据所述应用数据进行数据分析;
所述预设采集维度包括访问基础数据、账号行为数据、访问页面元素信息中的一种或多种;
所述访问基础数据包括账号唯一标识、访问唯一标识、访问页面域名、访问路径、浏览器、操作系统、屏幕分辨率、访问来源、访问时间、页面标题中的一种或多种;
所述账号行为数据包括点击链接的行为数据、提交表单的行为数据、修改选择的行为数据、交互行为类型、交互页面信息、交互元素信息中的一种或多种;
所述访问页面元素信息包括页面信息、元素信息、文本内容、超链接、位置信息中的一种或多种。
2.根据权利要求1所述的方法,其特征在于,
所述账号唯一标识由账号ID和设备ID确定;
当所述账号ID为游客ID,所述账号唯一标识为所述设备ID。
3.根据权利要求2所述的方法,其特征在于,当所述操作系统为Android系统,确定所述设备ID的过程包括:
当存在IMEI号,将所述IMEI号确定为所述设备ID;
当不存在所述IMEI号但存在OAID,将所述OAID确定为所述设备ID;
当不存在所述IMEI号和所述OAID但存在Android_ID,根据所述Android_ID确定所述设备ID。
4.根据权利要求2所述的方法,其特征在于,当所述操作系统为iOS系统,确定所述设备ID的过程包括:
当存在IDFA号,将所述IDFA号确定为所述设备ID;
当不存在所述IDFA号但存在IDFV,将所述IDFV确定为所述设备ID;
当不存在所述IDFA号和所述IDFV但存在UDID,根据所述UDID确定所述设备ID。
5.根据权利要求2所述的方法,其特征在于,当所述操作系统为网页系统,确定所述设备ID的过程包括:
将cookie_id确定为所述设备ID。
6.根据权利要求1至5中任一项所述的方法,其特征在于,基于各所述预设采集维度对应的不同数据等级,根据所述当前网络状态将对应不同所述数据等级的所述应用数据上传至云平台的过程,包括:
将所述应用数据上传至云平台;
判断在预设时间段内是否接收到所述云平台收到所述应用数据的反馈信息;
若否,根据各所述预设采集维度对应的不同数据等级,对未收到所述反馈信息的所述应用数据进行对应的再处理操作;
所述再处理操作包括舍弃操作和再次上传操作。
7.根据权利要求6所述的方法,其特征在于,根据各所述预设采集维度对应的不同数据等级,对未收到所述反馈信息的所述应用数据进行对应的再处理操作的过程,包括:
根据各所述预设采集维度对应的不同数据等级和不同所述数据等级对应的最大上传次数,对未收到所述反馈信息的所述应用数据进行舍弃或再次上传的操作。
8.一种埋点数据处理装置,其特征在于,应用于终端设备,包括:
采集模块,用于基于预设采集维度,监听应用数据流并采集对应所述预设采集维度的应用数据;
上传模块,用于基于各所述预设采集维度对应的不同数据等级,根据所述当前网络状态将对应不同所述数据等级的所述应用数据上传至云平台,以使所述云平台根据所述应用数据进行数据分析;
所述预设采集维度包括访问基础数据、账号行为数据、访问页面元素信息中的一种或多种;
所述访问基础数据包括账号唯一标识、访问唯一标识、访问页面域名、访问路径、浏览器、操作系统、屏幕分辨率、访问来源、访问时间、页面标题中的一种或多种;
所述账号行为数据包括点击链接的行为数据、提交表单的行为数据、修改选择的行为数据、交互行为类型、交互页面信息、交互元素信息中的一种或多种;
所述访问页面元素信息包括页面信息、元素信息、文本内容、超链接、位置信息中的一种或多种。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310722312.2A CN116915638A (zh) | 2023-06-16 | 2023-06-16 | 一种埋点数据处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310722312.2A CN116915638A (zh) | 2023-06-16 | 2023-06-16 | 一种埋点数据处理方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116915638A true CN116915638A (zh) | 2023-10-20 |
Family
ID=88359131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310722312.2A Pending CN116915638A (zh) | 2023-06-16 | 2023-06-16 | 一种埋点数据处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116915638A (zh) |
-
2023
- 2023-06-16 CN CN202310722312.2A patent/CN116915638A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240054245A1 (en) | Dynamic management of data with context-based processing | |
US11805180B2 (en) | Native activity tracking using credential and authentication management in scalable data networks | |
US11936652B2 (en) | Proxied multi-factor authentication using credential and authentication management in scalable data networks | |
US20210250341A1 (en) | Credential and authentication management in scalable data networks | |
US10528973B2 (en) | Network-aware product rollout in online social networks | |
US20170250930A1 (en) | Interactive content recommendation personalization assistant | |
CA2824627C (en) | System and method for analyzing messages in a network or across networks | |
US10534835B2 (en) | Global media lists for mobile devices | |
US20160350675A1 (en) | Systems and methods to identify objectionable content | |
KR102504075B1 (ko) | 사용자 디바이스 이벤트의 매칭 및 속성 | |
US9712520B1 (en) | User authentication using client-side browse history | |
US20130036351A1 (en) | Apparatus, system, and method for dynamically customizing a web page | |
US10097552B2 (en) | Network of trusted users | |
KR20180019653A (ko) | 소셜 네트워킹 시스템 자원을 위한 콜 투 액션을 생성하는 시스템 및 방법 | |
US20140244784A1 (en) | Website Impersonation System and Method | |
US11610021B2 (en) | System and method for masking user identity in digital interactions | |
AU2019331371A1 (en) | System and method for providing customer specified webpage configuration | |
CN112534431A (zh) | 基于公开可用数据提高受密码保护资源的安全性 | |
US10747390B1 (en) | Graphical composer for policy management | |
US20160124959A1 (en) | System and method to recommend a bundle of items based on item/user tagging and co-install graph | |
US20220067078A1 (en) | Aggregation system, Response Summary Process, and Method of Use | |
CN116915638A (zh) | 一种埋点数据处理方法、装置、电子设备及可读存储介质 | |
KR20170098877A (ko) | 콜 투 액션을 생성, 선택, 표시 및 실행하기 위한 시스템 및 방법 | |
TWI680666B (zh) | 網路使用者身份辨識方法與系統 | |
US11467868B1 (en) | Service relationship orchestration service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |