CN116385052A - 基于贝叶斯预测埋点文档价值分析潜在用户特征的方法 - Google Patents

基于贝叶斯预测埋点文档价值分析潜在用户特征的方法 Download PDF

Info

Publication number
CN116385052A
CN116385052A CN202310072234.6A CN202310072234A CN116385052A CN 116385052 A CN116385052 A CN 116385052A CN 202310072234 A CN202310072234 A CN 202310072234A CN 116385052 A CN116385052 A CN 116385052A
Authority
CN
China
Prior art keywords
data
embedded point
buried point
embedded
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310072234.6A
Other languages
English (en)
Inventor
翟文军
李博
郭骥
薛玉东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netboat United Technology Beijing Co ltd
Original Assignee
Netboat United Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netboat United Technology Beijing Co ltd filed Critical Netboat United Technology Beijing Co ltd
Priority to CN202310072234.6A priority Critical patent/CN116385052A/zh
Publication of CN116385052A publication Critical patent/CN116385052A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5011Pool
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于贝叶斯预测埋点文档价值分析潜在用户特征的方法,具体包括如下步骤:收集服务端埋点数据、网页埋点数据和第三方埋点数据,将收集的埋点数据存入数据库;在线程池占用率允许范围内,通过拉取数据库中的埋点数据对当前埋点的埋点文档进行数据填充,通过贝叶斯构建埋点文档价值预测模型,预测埋点文档价值;将预测的埋点文档价值进行聚类分析,分析出潜在用户的特征。本发明针对用户行为的研究和数据挖掘,不断推进以“云网融合”为核心特征的数字信息建设与升级背景下通过埋点数据采集预测埋点文档价值,并分析潜在用户的特征,实现对潜在用户的精准定位。

Description

基于贝叶斯预测埋点文档价值分析潜在用户特征的方法
技术领域
本发明属于潜在用户特征分析技术领域,具体地,涉及一种基于贝叶斯预测埋点文档价值分析潜在用户特征的方法。
背景技术
近年来,随着大数据的兴起,消费者行为分析的研究方兴未艾,数据库与数据挖掘、信息系统与信息管理、图像处理与计算机视觉、社会网络分析、电子商务等很多领域的学者加人消费者行为研究的队伍。同时,这一研究领域也受到了电子商务、社交网络等数字经济形态下的企业的高度关注,用户行为分析被视为数字经济形态下企业了解用户并开展营销活动的有效手段。随着物联网等新技术的持续推进,数据分析作为企业创新发展的关键因素之一。埋点分析,是网站分析和APP分析常用的数据采集方法。
数据埋点是数据产品经理、数据运营以及数据分析师,基于业务需求或产品需求对用户行为的每一个事件对应的位置进行开发埋点,并通过上报埋点的数据结果到埋点文档,记录汇总数据后进行分析,推动产品优化和指导运营。但是埋点文档中的指标能帮助企业宏观的了解用户访问的整体情况和趋势,从整体上把握产品的运营状况,但很难基于这些指标直接得到切实的产品改进策略,因此需要辅助人工智能进行分析。
发明内容
针对现有技术中存在的问题,本发明提供了一种基于贝叶斯预测埋点文档价值分析潜在用户特征的方法,针对用户行为的研究和数据挖掘,不断推进以“云网融合”为核心特征的数字信息建设与升级背景下通过埋点数据采集预测埋点文档价值,并分析潜在用户的特征,实现对潜在用户的精准定位。
为实现上述目的,本发明采用如下技术方案:一种基于贝叶斯预测埋点文档价值分析潜在用户特征的方法,具体包括如下步骤:
步骤S1、收集服务端埋点数据、网页埋点数据和第三方埋点数据,将收集的埋点数据存入数据库;
步骤S2、在线程池占用率允许范围内,通过拉取数据库中的埋点数据对当前埋点的埋点文档进行数据填充,通过贝叶斯构建埋点文档价值预测模型,预测埋点文档价值;
步骤S3、将预测的埋点文档价值进行聚类分析,分析出潜在用户的特征。
进一步地,所述埋点文档包含:事件名称、事件定义、包含属性、属性定义、属性值类型、开发名称、当前状态、上线版本。
进一步地,所述线程池占用率通过线程池占用率模型进行计算:
Figure BDA0004065074130000021
其中,ω是线程池占用率,N是线程池运行时工作线程数,Nmax是设置的最大线程数,
Figure BDA0004065074130000022
描述工作线程饱和度,ξ1是工作线程饱和度的权重系数,Tcur是当前采集时间窗口的任务数,Tpre是上一采集时间窗口的任务数,Q是任务缓冲队列大小,/>
Figure BDA0004065074130000023
描述当前任务饱和度,ξ2为当前任务饱和度的权重系数,/>
Figure BDA0004065074130000025
描述任务缓冲队列增长速率,ξ3是任务缓冲队列增长速率的权重系数。
进一步地,所述线程池占用率达到设定阈值,通过增设线程池或当线程池占用率下降至40%以下,再从数据库中拉取埋点数据对当前埋点的埋点文档进行数据填充。
进一步地,所述埋点文档价值预测模型为:
Figure BDA0004065074130000024
其中,X为埋点文档中关于类别的描述,Ci为埋点文档中第i个类别,P(X)为X的先验概率,P(Ci)为Ci的先验概率,P(X|Ci)为X是Ci的概率,P(Ci|X)为Ci属于X的后验概率。
与现有技术相比,本发明具有如下有益效果:本发明基于贝叶斯预测埋点文档价值分析潜在用户特征的方法通过贝叶斯构建埋点文档价值预测模型,实现埋点文档价值的精准预测;本发明通过线程池来实现埋点数据进行有序填充,若发现线程池占用率超过设定阈值,能够及时预警并暂停埋点数据填充;本发明通过预测的埋点文档价值进行聚类分析,分析出潜在用户的特征,为潜在用户行为特征分析提供有价值的参考。
附图说明
图1为本发明基于贝叶斯预测埋点文档价值分析潜在用户特征的方法的流程图;
图2为本发明中埋点文档的内容示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步地解释说明。
如图1为本发明基于贝叶斯预测埋点文档价值分析潜在用户特征的方法的流程图,该方法具体包括如下步骤:
步骤S1、收集服务端埋点数据、网页埋点数据和第三方埋点数据,将收集的埋点数据存入数据库;
步骤S2、在线程池占用率允许范围内,通过拉取数据库中的埋点数据对当前埋点的埋点文档进行数据填充,若线程池占用率达到设定阈值,通过增设线程池或当线程池占用率下降至40%以下,再从数据库中拉取埋点数据对当前埋点的埋点文档进行数据填充,通过线程池来实现埋点数据进行有序填充,若发现线程池占用率超过设定阈值,能够及时预警并暂停埋点数据填充;通过贝叶斯构建埋点文档价值预测模型,预测埋点文档价值,提升埋点文档价值的精确度;本发明通过结合埋点文档历史数据预测埋点文档价值大小,随着埋点数据的填充,其预测概率越准确。
本发明中线程池占用率通过线程池占用率模型进行计算:
Figure BDA0004065074130000031
其中,ω是线程池占用率,N是线程池运行时工作线程数,Nmax是设置的最大线程数,
Figure BDA0004065074130000032
描述工作线程饱和度,ξ1是工作线程饱和度的权重系数,Tcur是当前采集时间窗口的任务数,Tpre是上一采集时间窗口的任务数,Q是任务缓冲队列大小,/>
Figure BDA0004065074130000033
描述当前任务饱和度,ξ2为当前任务饱和度的权重系数,/>
Figure BDA0004065074130000034
描述任务缓冲队列增长速率,ξ33是任务缓冲队列增长速率的权重系数。
本发明中埋点文档是每个用户操作映射到不同的事件,通过开发工程师在track()调用,在代码段中跟踪。因此,如图2,埋点文档包含:事件名称、事件定义、包含属性、属性定义、属性值类型、开发名称、当前状态、上线版本,事件名称是埋点的事件名称,如:文章阅读/文章评论/关注;事件定义是用于说明事件是什么,如何触发;包含属性是指用户进行了该行为,上报事件中需要传输哪些些参数,包括:用户ID、时间、应用版本、网络环境、手机型号、IP、内容ID、内容类型、第几篇浏览,如某些包含属性在所有事件中都需要上传,则可以整理公共属性进行管理;属性定义是说明属性的定义,如用户地址为用户主动上传的地址,如没有则用用户IP代替;属性值类型是说明传输至的类型,包括:字符串、数值、bool;开发名称是对应的开发变量名,可以由开发进行补充,如:userID、contentID;当前状态是说明当前该变量的状态,如:待开发、开发中、验收中、已上线、已下线;上线版本是说明该内容在哪个版本进行上线。
埋点文档价值预测模型为:
Figure BDA0004065074130000041
其中,X为埋点文档中关于类别的描述,Ci为埋点文档中第i个类别,P(X)为X的先验概率,P(Ci)为Ci的先验概率,P(X|Ci)为X是Ci的概率,P(Ci|X)为Ci属于X的后验概率。
步骤S3、将预测的埋点文档价值进行聚类分析,分析出潜在用户的特征,为潜在用户行为特征分析提供有价值的参考。
实施例
本实施例基于贝叶斯预测埋点文档价值分析潜在用户特征的方法用于获取潜在付费用户群,具体过程如下:
(1)收集与付费相关的服务端埋点数据、网页埋点数据和第三方埋点数据,将收集的埋点数据存入数据库;
(2)在线程池占用率允许范围内,通过拉取数据库中的埋点数据对当前埋点的埋点文档进行数据填充,通过贝叶斯构建埋点文档价值预测模型,预测埋点文档价值;
(3)将埋点文档价值分成付费用户数据集合和非付费用户数据集合,通过聚类分析指标结合付费用户和非付费用户数据集合之间的网络行为特征,获得共同网络行为特征的数据集合,从而获得潜在付费用户群。
付费用户和非付费用户显性数据:包括用户点评、打分、评论等数据,但也存在一定的问题,譬如用户很少参与评论,从而造成显性打分数据较可能存在欺诈嫌疑或者仅给定了部分信息;用户一旦评分,就不会去更新用户评分分值等。付费用户和非付费用户隐性数据:主要是指用户点击行为、购买行为和搜索行为等,这些数据隐性的揭示了用户对商品喜好,隐性数据也存在一定的问题,譬如如何识别用户是为自己购买商品,还是做为礼物赠送给朋友。将显性数据和隐性数据进行聚类分析,获得更加据有典型付费用户特征的优化数据集合,便于分析出潜在用户的特征。
本实施例中聚类分析的指标包括:均方根标准偏差RMSSTD、确定系数R-Square,均方根标准偏差RMSSTD越小表明簇内个体对象的相似程度越高,聚类效果越好,计算公式如下:
Figure BDA0004065074130000051
其中,Si为第i个类别在各群内的标准差之和,p为类别数量;
确定系数R-Square表示聚类后群体间差异的大小,R-Square越大表明簇间的相异性越高,聚类效果就越好,计算公式如下:
Figure BDA0004065074130000052
其中,W代表聚类分组后的各组内部的差异程度,B代表聚类分组后各组之间的差异程度,T代表聚类分组后所有数据对象总的差异程度,并且T=W+B。R_Square∈[0,1],R_Square越接近1,聚类效果越好。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (5)

1.一种基于贝叶斯预测埋点文档价值分析潜在用户特征的方法,其特征在于,具体包括如下步骤:
步骤S1、收集服务端埋点数据、网页埋点数据和第三方埋点数据,将收集的埋点数据存入数据库;
步骤S2、在线程池占用率允许范围内,通过拉取数据库中的埋点数据对当前埋点的埋点文档进行数据填充,通过贝叶斯构建埋点文档价值预测模型,预测埋点文档价值;
步骤S3、将预测的埋点文档价值进行聚类分析,分析出潜在用户的特征。
2.根据权利要求1所述的一种基于贝叶斯预测埋点文档价值的方法,其特征在于,所述埋点文档包含:事件名称、事件定义、包含属性、属性定义、属性值类型、开发名称、当前状态、上线版本。
3.根据权利要求1所述的一种基于贝叶斯预测埋点文档价值分析潜在用户特征的方法,其特征在于,所述线程池占用率通过线程池占用率模型进行计算:
Figure FDA0004065074120000011
其中,ω是线程池占用率,N是线程池运行时工作线程数,Nmax是设置的最大线程数,
Figure FDA0004065074120000012
描述工作线程饱和度,ξ1是工作线程饱和度的权重系数,Tcur是当前采集时间窗口的任务数,Tpre是上一采集时间窗口的任务数,Q是任务缓冲队列大小,/>
Figure FDA0004065074120000013
描述当前任务饱和度,ξ2为当前任务饱和度的权重系数,/>
Figure FDA0004065074120000014
描述任务缓冲队列增长速率,ξ3是任务缓冲队列增长速率的权重系数。
4.根据权利要求1所述的一种基于贝叶斯预测埋点文档价值分析潜在用户特征的方法,其特征在于,所述线程池占用率达到设定阈值,通过增设线程池或当线程池占用率下降至40%以下,再从数据库中拉取埋点数据对当前埋点的埋点文档进行数据填充。
5.根据权利要求1所述的一种基于贝叶斯预测埋点文档价值分析潜在用户特征的方法,其特征在于,所述埋点文档价值预测模型为:
Figure FDA0004065074120000015
其中,X为埋点文档中关于类别的描述,Ci为埋点文档中第i个类别,P(X)为X的先验概率,P(Ci)为Ci的先验概率,P(X|Ci)为X是Ci的概率,P(Ci|X)为Ci属于X的后验概率。
CN202310072234.6A 2023-02-07 2023-02-07 基于贝叶斯预测埋点文档价值分析潜在用户特征的方法 Pending CN116385052A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310072234.6A CN116385052A (zh) 2023-02-07 2023-02-07 基于贝叶斯预测埋点文档价值分析潜在用户特征的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310072234.6A CN116385052A (zh) 2023-02-07 2023-02-07 基于贝叶斯预测埋点文档价值分析潜在用户特征的方法

Publications (1)

Publication Number Publication Date
CN116385052A true CN116385052A (zh) 2023-07-04

Family

ID=86960406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310072234.6A Pending CN116385052A (zh) 2023-02-07 2023-02-07 基于贝叶斯预测埋点文档价值分析潜在用户特征的方法

Country Status (1)

Country Link
CN (1) CN116385052A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372959A (zh) * 2016-08-22 2017-02-01 广州图灵科技有限公司 一种基于互联网的用户访问行为数字营销系统及方法
CN109783731A (zh) * 2019-01-08 2019-05-21 西藏纳旺网络技术有限公司 一种定制信息推送方法及系统
CN110543474A (zh) * 2019-08-21 2019-12-06 河海大学 一种基于全埋点与潜在因子模型的用户行为分析方法和装置
CN112435047A (zh) * 2020-10-30 2021-03-02 四川新网银行股份有限公司 一种基于埋点数据的营销外呼数据推荐方法
CN113850314A (zh) * 2021-09-22 2021-12-28 广东电网有限责任公司 客户价值等级预测模型建立方法、装置、介质及设备
CN113987808A (zh) * 2021-10-29 2022-01-28 国网辽宁省电力有限公司阜新供电公司 一种特征加权贝叶斯网络的用电用户投诉预警方法
CN114201680A (zh) * 2021-12-13 2022-03-18 中数通信息有限公司 一种向用户推荐营销产品内容的方法
CN115481297A (zh) * 2022-09-29 2022-12-16 中电信数智科技有限公司 一种数据湖的数据管理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372959A (zh) * 2016-08-22 2017-02-01 广州图灵科技有限公司 一种基于互联网的用户访问行为数字营销系统及方法
CN109783731A (zh) * 2019-01-08 2019-05-21 西藏纳旺网络技术有限公司 一种定制信息推送方法及系统
CN110543474A (zh) * 2019-08-21 2019-12-06 河海大学 一种基于全埋点与潜在因子模型的用户行为分析方法和装置
CN112435047A (zh) * 2020-10-30 2021-03-02 四川新网银行股份有限公司 一种基于埋点数据的营销外呼数据推荐方法
CN113850314A (zh) * 2021-09-22 2021-12-28 广东电网有限责任公司 客户价值等级预测模型建立方法、装置、介质及设备
CN113987808A (zh) * 2021-10-29 2022-01-28 国网辽宁省电力有限公司阜新供电公司 一种特征加权贝叶斯网络的用电用户投诉预警方法
CN114201680A (zh) * 2021-12-13 2022-03-18 中数通信息有限公司 一种向用户推荐营销产品内容的方法
CN115481297A (zh) * 2022-09-29 2022-12-16 中电信数智科技有限公司 一种数据湖的数据管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵敏;倪志伟;刘斌;: "K-means与朴素贝叶斯在商务智能中的应用", 计算机技术与发展, no. 04 *

Similar Documents

Publication Publication Date Title
US10896392B2 (en) Methods and systems for generating supply chain representations
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
US9104960B2 (en) Click prediction using bin counting
CN110400215B (zh) 面向企业家族的小微企业信用评估模型构建方法及系统
CN106408184A (zh) 一种基于多源异构数据的用户信用评估模型
CN106445988A (zh) 一种大数据的智能处理方法和系统
CN110310163A (zh) 一种精准制定营销策略的方法、设备及可读介质
CN111611478A (zh) 信息推荐方法、装置和电子设备
CN110619462A (zh) 一种基于ai模型的项目质量评估方法
Zhou et al. Corporate communication network and stock price movements: insights from data mining
CN111612610A (zh) 风险预警方法及系统、电子设备及存储介质
CN109754177A (zh) 污染源画像标签体系、污染源画像的构造方法及其应用
CN110751317A (zh) 一种电力负荷预测系统及预测方法
CN110782349A (zh) 一种模型训练方法和系统
CN114819967A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN107609203B (zh) 一种搜索引擎优化效果量化评估的数据分析系统及方法
CN117852980A (zh) 基于MoE模型融合技术的智能物流服务管理系统及方法
CN116385052A (zh) 基于贝叶斯预测埋点文档价值分析潜在用户特征的方法
CN114708073B (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
CN115545437A (zh) 一种基于多源异构数据融合的金融企业经营风险预警方法
Li et al. Automatic classification algorithm for multisearch data association rules in wireless networks
He et al. Tara-net: a fusion network for detecting takeaway rider accidents
CN115689713A (zh) 异常风险数据处理方法、装置、计算机设备和存储介质
CN113704407B (zh) 基于类别分析的投诉量分析方法、装置、设备及存储介质
CN113379211B (zh) 基于区块链的物流信息平台违约风险管控系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230704

RJ01 Rejection of invention patent application after publication