CN114490358A - 一种基于无埋点技术的数据采集及时稽查方法 - Google Patents
一种基于无埋点技术的数据采集及时稽查方法 Download PDFInfo
- Publication number
- CN114490358A CN114490358A CN202210037107.8A CN202210037107A CN114490358A CN 114490358 A CN114490358 A CN 114490358A CN 202210037107 A CN202210037107 A CN 202210037107A CN 114490358 A CN114490358 A CN 114490358A
- Authority
- CN
- China
- Prior art keywords
- monitoring
- data
- codes
- points
- data acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3684—Test management for test design, e.g. generating new test cases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3688—Test management for test execution, e.g. scheduling of test suites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于无埋点技术的数据采集及时稽查方法,根据监测点需求编写包含基础监测代码、细粒度监测代码和对接代码在内的监测代码,结合追踪模型可以预测并绑定相应的监测代码,实现基于无埋点的数据采集。本发明的方法通过依靠无埋点的灵活性,结合基于机器学习关联计算的自动分析追踪方法,智能定位更细粒度的监测点,并自动定位监测位置;同时通过客户端与服务端的联动计算,将监测代码准确的置于监测点位置。根据准确的位置,将数据捕捉上传至服务器进行数据分析,实现稽查分析功能。本发明的方法结合了无埋点与埋点两者的优点,使得整个网页的监测数据更丰富,监测位置更精准,后续数据稽查分析更准确。
Description
技术领域
本发明涉及数据采集技术领域,特别是一种基于无埋点技术的数据采集及时稽查方法。
背景技术
埋点分析,是网站分析的一种常用的数据采集方法。数据埋点分为埋点、无埋点、可视化埋点和全埋点等方式。数据埋点是一种良好的私有化部署数据采集方式。在前端开发中,技术人员通常会和业务人员进行沟通,针对业务需求点在网站或客户端app页面开发过程中的监测点进行监测代码的嵌入。这些监测代码专门用于收集到埋点数据,如某用户在某在线商品平台的事件行为:打开App—观看了首屏广告—点击“跳过”——到达APP首页等事件数据,还有包括业务类型的商品属性数据、订单数据、支付价格等数据。这些数据经过API接口可以上传到远程服务端进行处理,其包括通过大数据处理、数据统计、数据分析、数据挖掘等加工处理,可以得到衡量产品状态的一些基本指标,比如活跃、留存、新增等大盘数据,以及用户的各阶段的转化率等,从而洞察产品的运营状态,更好的为产品更迭作预期计划。
在电网服务平台,技术人员在网站和app中的各个业务监测位置均设置有相应的埋点,用于获取用户的各项待分析数据,包括注册页面、营业厅、支付页面等每个页面都设置有相应的监测点。如:支付各跳转页面设置监测点统计事件监测分析转化率,可以监测用户在哪些阶段最容易发生放弃支付,以帮助系统改善功能并更好引导用户使用网上营业厅。然而,虽然从应用上,埋点的技术在实际反馈中得到较佳的效果,但是对于技术人员,却是一种较为繁琐复杂的设计难点。对前端不同位置的监测点,在代码层面上,每一个节点、属性和事件触发位置都是不相同的,而目前较多采用的是直接采用埋点的技术,为各个监测点设计专门的数据收集代码,依据业务需要,进行部署。另一方面,也有结合可视化埋点的方法,通过外包的方式,把埋点技术外包给数据分析团队,由服务平台的各页面通过API接入相应的SDK包,以实现外部数据分析,并通过可视化方法,监测全页面的用户交互数据情况。这种可视化埋点方式,由于针对性并没有直接埋点的方式高,造成数据分析在一定程度上欠准确,存在误导分析的可能。
无埋点技术一般用于非业务类型的事件数据监测,而埋点技术一般用于监测业务上的,如支付价格、商品相关信息以及人员注册信息。现有电网服务平台中,网站设计埋点时候需要技术人员专门设计监测代码,这种技术方式容易造成网页代码错误,且工作繁琐。此外,当使用无埋点技术的时候,亦出现个性化自定义获取数据欠佳,缺乏数据获取的灵活性的问题;这些问题影响后续数据分析过程。
发明内容
本发明上述问题,提供一种基于无埋点技术的数据采集及时稽查方法。本发明的技术方案为:
一种基于无埋点技术的数据采集及时稽查方法,包括如下步骤:
S1、根据监测点需求,在数据采集端编写监测代码;
S2、训练基于机器学习的追踪模型,并设定追踪模型与所述数据采集端之间的调用关系;
S3、目标监测网页启动无埋点数据录入分析后,根据监测点需求选定预设监测点;
S4、数据采集端持续抓取目标监测网页中所有控件的信息和用户操作行为信息,获取预设监测点的监测数据作为原有监测点数据;
S5、将所述原有监测点数据发送至所述追踪模型进行分类预测得到预测监测点,对所述预测监测点绑定相应的监测代码并进行监测后得到分类预测完成数据;
S6、数据采集端将所述分类预测完成数据和原有监测点数据进行合并,并发送至外部数据分析服务器,由外部数据分析服务器对合并后的监控数据进行分析,得到稽查结果。
作为本发明进一步地说明,所述监测代码包括基础监测代码、细粒度监测代码和对接代码;所述基础监测代码用于检测简单可见的用户行为;所述细粒度监测代码用于绑定所述预测监测点;所述对接代码用于API形式对接外部数据分析服务器。
更进一步地,所述追踪模型通过网页代码head处引入代码包调用。
更进一步地,所述预测监测点由所述追踪模型基于预设监测点的所有相关联的JS上下级节点、DOM事件、属性等信息条目进行分类运算得到。
更进一步地,所述预测监测点包含需要监测和不需要监测两种。
更进一步地,对于需要监测的预测监测点,通过分类运算得到其需要绑定相应的细粒度监测代码。
更进一步地,每个预测监测点绑定的细粒度监测代码包含两个或两个以上维度的监测代码。
本发明的有益效果:
本发明可以提高服务平台的数据获取及分析能力,便于业务人员及技术人员对平台产品的更迭规划,更好提升平台服务质量。通过依靠无埋点的灵活性,结合基于机器学习关联计算的自动分析追踪方法,智能定位更细粒度的监测点,并自动定位监测位置;同时通过客户端与服务端的联动计算,将监测代码准确的置于监测点位置;根据准确的位置,将数据捕捉上传至服务器进行数据分析,实现稽查分析功能;本发明结合无埋点与埋点两者的优点,使得整个网页的监测数据更丰富,监测位置更精准,后续数据稽查分析更准确。
附图说明
图1为本发明基于无埋点技术的数据采集及时稽查方法的流程图。
具体实施方式
实施例:
下面结合附图对本发明实施例详细的说明,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“第一”、“第二”等指示的方位或位置或顺序关系为基于附图所示的方位或位置或顺序关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明的基于无埋点技术的数据采集及时稽查方法具体包括如下步骤:
步骤1:与业务员沟通,根据监测点的需求编写监测代码。监测代码分为基础监测代码和细粒度监测代码以及与无埋点监测的对接代码。基础监测代码用于检测诸如简单的可见的用户行为,如交易点击、下拉菜单的点击、发起评价次数甚至单纯的点击次数等。而细粒度监测代码用于绑定预设监测点之外的预测监测点。与无埋点监测的对接代码用于API形式对接外部数据分析服务器。
步骤2:训练基于机器学习的追踪模型,并设定追踪模型与所述数据采集端之间的调用关系。具体可以在前端JS代码编写上,调用python模块包,引入基于机器学习的追踪算法,例如通过网页代码head处引入代码包调用。
步骤3:目标监测网页启动无埋点数据录入分析后,可以根据监测点需求勾选相应的监测点作为预设监测点。运行时数据采集端持续抓取网页中所有控件的信息和用户操作行为信息。
步骤4:持续获取用户交互数据的时候,当用户发生交互时候或不在交互的时候,数据采集端获取基于预设监测点的监测数据。
步骤5:数据采集端将监测数据发送至追踪模型进行分类预测得到预测监测点,通过分类算法得到需要监测的预测监测点并绑定相应的细粒度监测代码,以监测并扩大获取分类预测完成的数据。
步骤6:将分类预测完成的数据与预设监测点的监测数据进行合并,并发送至外部服务器。外部服务器对监控的数据进行分析,达到对更全面的录入数据进行分析,得到更准确的稽查结果。
对于上述追踪模型的基于机器学习的追踪算法,是结合大数据分析,可以预测并追踪与预设监测点相关联的潜在监测位置(即预测监测点),获取监测点上下级的属性信息等,并根据分类算法绑定相应的细粒度监测代码。这种方式相当于进一步丰富无埋点数据录入的数据丰富度,其主要包含以下两个步骤:
步骤1:获取与预设监测点所有相关联的JS的上下级节点、DOM事件、属性等等信息条目。基于本发明的无埋点技术,事先并不会去针对每一个监测点设置专门的监测代码,仅抓取所有的可交互事件元素进行解析,获取它们的DOM path,因为在一些情况下,许多窗口的监测点的条目都是几乎相同的,如不同的支付页面,虽然不同的业务办理流程,但业务信息、业务价格这些共同点是可以通过相似的监测代码共同监测。更进一步,由于自动追踪算法基于大量数据训练,可以知道在特定的节点名称、菜单下,可以自动识别出哪些位置需要绑定哪些监测代码,即是监测点中除事件DOM本实交互、点击情况等数据之外,还有哪些属性信息可以补充捕捉,以使得整个无埋点数据录入过程实现更主动个性化的监测数据捕捉,从而不需要技术人员自己花费巨量时间思考设置哪一些代码和收集哪一些数据。
步骤2:基于获取的各预设监测点所有相关联的JS上下级节点、DOM事件、属性等等信息条目,通过分类算法输出预测监测点的类别,预测监测点的类别数量可根据需要调整,如0对应于无需监测,1对需设定监测点。对于需要监测的预测监测点,可以通过分类算法分类出其需要绑定相应的细粒度监测代码,绑定的细粒度监测代码需要立即执行,相当于一种个性化的数据捕捉方式的补充,以使得后续更好的分析用户隐藏交互过程。
本发明的每个预测监测点绑定的细粒度监测代码包含两个或两个以上维度的监测代码,例如:
1、日期
进行数据筛查的最基础维度,包含月粒度、周粒度、天粒度和小时粒度。
2.用户类型
根据用户的历史启动行为划分,首次启动为“新用户”;历史上有过启动行为为“老用户”,新用户和老用户都是“活跃用户”。
3.品牌
设备所属的品牌,如苹果、华为、三星等。
4.设备型号
单一机型的型号,如iPhoneX、华为P20等。
5.操作系统
设备的操作系统平台,主流平台有:Android、IOS等。
6.分辨率
设备屏幕的分辨率,当前主流分辨率有:1080 1920、720 1280、1440*2560等。
7.运营商
设备移动蜂窝网络的供应商,如国内三大运营商:中国移动、中国联通、中国电信。
8.APP版本
设备所安装的APP的版本号。
9.渠道
该设备用户所安装的APP的渠道来源,如AppStore、百度手机助手、豌豆荚手机助手等。
10.地域
用户启动APP时的IP地址匹配的地理位置,包含国家、省份、城市三层粒度。
11.页面
APP内的页面层级,是用户浏览APP信息的主要载体,如首页、商品详情页等。在移动统计中,页面维度可以使用默认抓取的“页面路径”,也可手动编辑“页面备注名”。
以上仅就本发明较佳的实施例作了说明,但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例,其具体结构允许有变化,总之,凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。
Claims (7)
1.一种基于无埋点技术的数据采集及时稽查方法,其特征在于:包括如下步骤:
S1、根据监测点需求,在数据采集端编写监测代码;
S2、训练基于机器学习的追踪模型,并设定追踪模型与所述数据采集端之间的调用关系;
S3、目标监测网页启动无埋点数据录入分析后,根据监测点需求选定预设监测点;
S4、数据采集端持续抓取目标监测网页中所有控件的信息和用户操作行为信息,获取预设监测点的监测数据作为原有监测点数据;
S5、将所述原有监测点数据发送至所述追踪模型进行分类预测得到预测监测点,对所述预测监测点绑定相应的监测代码并进行监测后得到分类预测完成数据;
S6、数据采集端将所述分类预测完成数据和原有监测点数据进行合并,并发送至外部数据分析服务器,由外部数据分析服务器对合并后的监控数据进行分析,得到稽查结果。
2.根据权利要求1所述的基于无埋点技术的数据采集及时稽查方法,其特征在于:所述监测代码包括基础监测代码、细粒度监测代码和对接代码;所述基础监测代码用于检测简单可见的用户行为;所述细粒度监测代码用于绑定所述预测监测点;所述对接代码用于API形式对接外部数据分析服务器。
3.根据权利要求1或2所述的基于无埋点技术的数据采集及时稽查方法,其特征在于:所述追踪模型通过网页代码head处引入代码包调用。
4.根据权利要求3所述的基于无埋点技术的数据采集及时稽查方法,其特征在于:所述预测监测点由所述追踪模型基于预设监测点的所有相关联的JS上下级节点、DOM事件、属性等信息条目进行分类运算得到。
5.根据权利要求4所述的基于无埋点技术的数据采集及时稽查方法,其特征在于:所述预测监测点包含需要监测和不需要监测两种。
6.根据权利要求5所述的基于无埋点技术的数据采集及时稽查方法,其特征在于:对于需要监测的预测监测点,通过分类运算得到其需要绑定相应的细粒度监测代码。
7.根据权利要求3所述的基于无埋点技术的数据采集及时稽查方法,其特征在于:每个预测监测点绑定的细粒度监测代码包含两个或两个以上维度的监测代码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210037107.8A CN114490358A (zh) | 2022-01-13 | 2022-01-13 | 一种基于无埋点技术的数据采集及时稽查方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210037107.8A CN114490358A (zh) | 2022-01-13 | 2022-01-13 | 一种基于无埋点技术的数据采集及时稽查方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114490358A true CN114490358A (zh) | 2022-05-13 |
Family
ID=81512887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210037107.8A Pending CN114490358A (zh) | 2022-01-13 | 2022-01-13 | 一种基于无埋点技术的数据采集及时稽查方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114490358A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648255A (zh) * | 2022-05-18 | 2022-06-21 | 国网浙江省电力有限公司 | 基于营销业务风险数字化内控体系的稽查方法及平台 |
-
2022
- 2022-01-13 CN CN202210037107.8A patent/CN114490358A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648255A (zh) * | 2022-05-18 | 2022-06-21 | 国网浙江省电力有限公司 | 基于营销业务风险数字化内控体系的稽查方法及平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1672153B (zh) | 捕获和呈现站点访问路径数据 | |
CN105553769A (zh) | 一种数据采集分析系统和方法 | |
CN107562620A (zh) | 一种埋点自动设置方法和装置 | |
CN102307315B (zh) | Iptv系统中用户行为分析装置及实现分析应用的系统 | |
CN104133618A (zh) | 进行终端设备推荐页面展示的方法及系统 | |
CN103220164A (zh) | 数据完整性计分和网络可视化及用户体验监控 | |
CN110163654B (zh) | 一种广告投放数据追踪方法和系统 | |
CN110515830A (zh) | 操作轨迹可视化方法、装置、设备及存储介质 | |
CN111581067B (zh) | 一种数据采集方法和装置 | |
CN103268361A (zh) | 网页中隐藏url的提取方法、装置和系统 | |
CN102043716A (zh) | 基于业务驱动的软件自动化测试方法 | |
CN107967209A (zh) | 一种检测前端网页代码中错误的方法、检测设备及服务器 | |
CN105373293A (zh) | 一种数据采集方法和装置 | |
CN113159807B (zh) | 落地页处理方法、装置、设备和介质 | |
KR20140023225A (ko) | 통신행동의 통계분석 시스템 | |
CN105577472A (zh) | 一种数据采集测试方法和装置 | |
CN101354706A (zh) | 一种收集网页信息的方法及装置 | |
Grigera et al. | Kobold: web usability as a service | |
CN114490358A (zh) | 一种基于无埋点技术的数据采集及时稽查方法 | |
CN113190512A (zh) | 一种基于埋点技术的电力客户行为数据分析方法 | |
CN110781052A (zh) | 离线监控方法、装置、计算机设备及存储介质 | |
CN112817817A (zh) | 埋点信息查询方法、装置、计算机设备和存储介质 | |
KR101648102B1 (ko) | 사용자단말, 부동산 중계 웹 서비스 시스템 및 방법 | |
CN106488156A (zh) | 基于用户的切换广告分析及提供系统 | |
EP1933230A1 (en) | Log component of user interface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |