CN106168976A - 一种基于朴素贝叶斯算法的特定用户挖掘方法及系统 - Google Patents

一种基于朴素贝叶斯算法的特定用户挖掘方法及系统 Download PDF

Info

Publication number
CN106168976A
CN106168976A CN201610554168.6A CN201610554168A CN106168976A CN 106168976 A CN106168976 A CN 106168976A CN 201610554168 A CN201610554168 A CN 201610554168A CN 106168976 A CN106168976 A CN 106168976A
Authority
CN
China
Prior art keywords
user
characteristic index
index
characteristic
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610554168.6A
Other languages
English (en)
Inventor
龚灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201610554168.6A priority Critical patent/CN106168976A/zh
Publication of CN106168976A publication Critical patent/CN106168976A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明公开了一种基于朴素贝叶斯算法的特定用户挖掘方法及系统,涉及网络技术领域。该方法包括以下步骤:从服务器采集设定时间段内用户的行为信息指标,选取部分行为信息指标作为用户的特征指标;从采集到的用户中抽样部分用户作为采样用户,根据所述采样用户的特征指标,通过贝叶斯工具包构建朴素贝叶斯分类器;将在设定时间段之后采集的用户的特征指标作为朴素贝叶斯分类器的输入变量,获得用户是否为特定用户的概率。本发明通过贝叶斯工具包,根据从用户的行为信息指标中选取的特征指标构建朴素贝叶斯分类器,能够找到有效的特征指标组合,准确地识别特定用户,而且朴素贝叶斯分类器的构建效率高。

Description

一种基于朴素贝叶斯算法的特定用户挖掘方法及系统
本发明涉及网络技术领域,具体是涉及一种基于朴素贝叶斯算法的特定用户挖掘方法及系统。
背景技术
随着直播行业的飞速发展,各个直播平台之间的竞争也日益激烈,如何快速有效地将特定用户从直播网站的全部用户中挖掘出来,例如,如何有效地将潜在付费用户从直播网站的全部用户中挖掘出来,便于运营人员针对特定用户做进一步的精细化营销方案,提升用户体验,提高特定用户的付费转化率,成为各个直播网站迫切需要解决的问题。目前,由于直播网站的用户数量呈现爆炸式增长,用户行为趋于多样化和复杂化,而且用户行为变化迅速,直接导致用户数据维度多,用户数据更新快,数据量大,从而导致建立特定用户预测模型的过程和模型本身较为复杂,建模周期较长,由此导致模型对特定用户预测的准确性和效率不高。
发明内容
针对现有技术中存在的缺陷,本发明的主要目的在于提供一种基于朴素贝叶斯算法的特定用户挖掘方法,本发明的另一目的在于提供一种基于朴素贝叶斯算法的特定用户挖掘系统,通过贝叶斯工具包,根据从用户的行为信息指标中选取的特征指标构建朴素贝叶斯分类器,能够找到有效的特征指标组合,准确地识别特定用户,而且朴素贝叶斯分类器的构建效率高。
本发明提供一种基于朴素贝叶斯算法的特定用户挖掘方法,包括以下步骤:
S1.从服务器采集设定时间段内用户的行为信息指标,选取部分行为信息指标作为用户的特征指标;
S2.从采集到的用户中抽样部分用户作为采样用户,根据所述采样用户的特征指标,通过贝叶斯工具包构建朴素贝叶斯分类器;
S3.将在所述设定时间段之后采集的用户的所述特征指标作为所述朴素贝叶斯分类器的输入变量,获得用户是否为特定用户的概率。
在上述技术方案的基础上,所述特定用户为付费用户,所述行为信息指标包括充值金额;
将所述充值金额等于零的用户划分为未付费用户,将所述充值金额大于零的用户划分为付费用户。
在上述技术方案的基础上,对除充值金额之外的行为信息指标与所述充值金额之间进行相关分析,获得特征指标;
所述特征指标包括观看时长、观看次数、发送弹幕数量、赠送虚拟礼物数量、在线领取虚拟礼物数量、赠送虚拟礼物金额、关注房间数和关注分区数。
在上述技术方案的基础上,所述采样用户包括分别从未付费用户和付费用户中抽样的部分用户。
在上述技术方案的基础上,步骤S2中,在通过贝叶斯工具包构建所述朴素贝叶斯分类器之前,将所有所述特征指标的取值归一化到相同的范围内,所述范围为0和1之间,所述归一化依据公式:y=[x-MinValue(x)]/[MaxValue(x)-MinValue(x)],其中,x为任一个所述特征指标归一化之前的取值,MinValue(x)和MaxValue(x)分别为x的最小值和最大值,y为归一化之后该特征指标的取值。
在上述技术方案的基础上,所述贝叶斯工具包为Spark Mllib;
通过贝叶斯工具包构建朴素贝叶斯分类器具体包括:
对每一个所述特征指标的取值范围进行划分,并根据所有特征指标的取值范围的划分,计算获得概率P(yj>ajk|Ci)、P(Ci)和P(yj>ajk),其中,yj为第j个所述特征指标的取值,j=1,2,…,N,N为所述特征指标的总数,ajk为第j个特征指标yj的第k个划分点的取值,0<ajk≤1,k为正整数,Ci为所有用户的类,i=1,2,C1为付费用户,C2为未付费用户,其中P(Ci)为Ci类用户的概率,P(yj>ajk|Ci)为在Ci类用户中特征指标的取值yj>ajk出现的条件概率,P(yj>ajk)为特征指标的取值yj>ajk的概率;
设置迭代次数,并计算所述朴素贝叶斯分类器的准确率,当朴素贝叶斯分类器的准确率大于设定的阈值时,获得最终的所述朴素贝叶斯分类器。
在上述技术方案的基础上,步骤S3具体包括:
在所述设定时间段之后采集用户的所述特征指标,并进行归一化处理;
对于其中任一个用户的所有特征指标,计算概率:
P ( C i , | y 1 , > a 1 k , ... , y j , > a j k , ... , y N , > a N k ) = P ( C i ) * Π j = 1 N P ( y j > a j k | C i ) / Π j = 1 N P ( y j > a j k )
其中,C1'为潜在付费用户,C2'为非潜在付费用户,C1'和C2'分别对应于C1和C2,y'j为所述用户的第j个所述特征指标的取值,P(Ci'|y1'>a1k,…,y'j>ajk,…,y'N>aNk)表示所述用户的特征指标的取值分别为y1'>a1k,…,y'j>ajk,…,y'N>aNk的条件下,所述用户为Ci'类的条件概率;
选择P(Ci'|y1'>a1k,…,yj'>ajk,…,yN'>aNk)中的最大值,将该最大值对应的Ci'确定为所述用户的类别。
本发明还提供一种基于朴素贝叶斯算法的特定用户挖掘系统,包括:
数据采集模块,用于从服务器分别采集设定时间段内以及所述设定时间段之后用户的行为信息指标;
特征指标选取模块,用于选取部分在设定时间段内采集的所述行为信息指标作为用户的特征指标;
分类器构建模块,用于从所述设定时间段内采集到的用户中抽样部分用户作为采样用户,根据所述采样用户的特征指标,通过贝叶斯工具包构建朴素贝叶斯分类器;
用户识别模块,用于将在所述设定时间段之后采集的用户的所述特征指标作为所述朴素贝叶斯分类器的输入变量,获得用户是否为特定用户的概率。
在上述技术方案的基础上,所述特定用户为付费用户,所述行为信息指标包括充值金额;
特征指标选取模块将所述充值金额等于零的用户划分为未付费用户,将所述充值金额大于零的用户划分为付费用户,并通过对除所述充值金额之外的所述行为信息指标与所述充值金额之间的相关分析,获得所述特征指标;
所述特征指标包括观看时长、观看次数、发送弹幕数量、赠送虚拟礼物数量、在线领取虚拟礼物数量、赠送虚拟礼物金额、关注房间数和关注分区数。
在上述技术方案的基础上,所述贝叶斯工具包为Spark MLlib。
与现有技术相比,本发明的优点如下:
(1)本发明从服务器采集设定时间段内用户的行为信息指标,选取部分行为信息指标作为用户的特征指标;从采集到的用户中抽样部分用户作为采样用户,根据采样用户的特征指标,通过贝叶斯工具包构建朴素贝叶斯分类器;将在设定时间段之后采集的用户的特征指标作为朴素贝叶斯分类器的输入变量,获得用户是否为特定用户的概率。本发明基于特征指标,朴素贝叶斯分类器能够找到有效的特征指标组合,准确地识别特定用户,而且朴素贝叶斯分类器的构建效率高。
(2)本发明采用相关分析方法从用户的行为信息指标中选取特征指标,特征指标选取重复性好,反映实际情况,预测准确率高。
(3)本发明充分利用Spark基于内存计算的优点,计算速度更快,大大缩短了构建朴素贝叶斯分类器的时间。
附图说明
图1是本发明实施例基于朴素贝叶斯算法的特定用户挖掘方法流程图;
图2是本发明实施例基于朴素贝叶斯算法的特定用户挖掘系统示意图。
附图标记:
数据采集模块1,特征指标选取模块2,分类器构建模块3,用户识别模块4。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述。
参见图1所示,本发明实施例提供一种基于朴素贝叶斯算法的特定用户挖掘方法,包括以下步骤:
S1.从服务器采集设定时间段内用户的行为信息指标,选取部分行为信息指标作为用户的特征指标。
特定用户为付费用户,行为信息指标包括充值金额,行为信息指标还包括除充值金额之外的其它行为信息指标。
将充值金额等于零的用户划分为未付费用户,将充值金额大于零的用户划分为付费用户。
具体的,可以抽样选取部分付费用户作为正样本,标记为1,抽样选取部分未付费用户作为负样本,标记为0。
对除充值金额之外的行为信息指标与充值金额之间进行相关分析,获得特征指标。
具体的,计算除充值金额之外的行为信息指标与充值金额之间的相关系数,保留相关系数大于设定的阈值的行为信息指标为特征指标。
特征指标包括观看时长、观看次数、发送弹幕数量、赠送虚拟礼物数量、在线领取虚拟礼物数量、赠送虚拟礼物金额、关注房间数和关注分区数。
本发明采用相关分析方法从用户的行为信息指标中选取特征指标,特征指标选取重复性好,反映实际情况,预测准确率高。
S2.从采集到的用户中抽样部分用户作为采样用户,根据采样用户的特征指标,通过贝叶斯工具包构建朴素贝叶斯分类器。
采样用户包括分别从未付费用户和付费用户中抽样的部分用户。
步骤S2中,在通过贝叶斯工具包构建朴素贝叶斯分类器之前,将所有特征指标的取值归一化到相同的范围内,范围为0和1之间,归一化依据公式:
y=[x-MinValue(x)]/[MaxValue(x)-MinValue(x)],
其中,x为任一个特征指标归一化之前的取值,MinValue(x)和MaxValue(x)分别为x的最小值和最大值,y为归一化之后该特征指标的取值。
归一化之后的特征指标的取值都集中在0和1之间,其目的是为了避免特征指标的量纲不同对朴素贝叶斯分类器的结果造成影响。
贝叶斯工具包为Spark Mllib。
通过贝叶斯工具包构建朴素贝叶斯分类器具体包括:
对每一个特征指标的取值范围进行划分,并根据所有特征指标的取值范围的划分,计算获得概率P(yj>ajk|Ci)、P(Ci)和P(yj>ajk),其中,yj为第j个特征指标的取值,j=1,2,…,N,N为特征指标的总数,ajk为第j个特征指标yj的第k个划分点的取值,0<ajk≤1,k为正整数,而且对于任意两个特征指标,k可以不相等,Ci为所有用户的类,i=1,2,C1为付费用户,C2为未付费用户,其中P(Ci)为Ci类用户的概率,P(yj>ajk|Ci)为在Ci类用户中特征指标的取值yj>ajk出现的条件概率,P(yj>ajk)为特征指标的取值yj>ajk的概率。
例如,任一个采样用户具有8种特征指标,即Y={y1,y2,…,y8},所有采样用户的8种特征指标构成训练数据集。
根据朴素贝叶斯定理:P(Ci|yj)=P(yj|Ci)*P(Ci)/P(yj),其中,i=1,2,j=1,2,…,8。对于任一个特征指标yj,P(yj)、P(Ci)以及条件概率P(yj|Ci)可以从训练数据集直接计算获得。
对任一个特征指标yj的取值范围进行划分,由朴素贝叶斯定理获得:P(Ci|yj>ajk)=P(yj>ajk|Ci)*P(Ci)/P(yj>ajk),
P(yj>ajk|Ci)、P(Ci)和P(yj>ajk)均可以从训练数据集直接计算获得。
设置迭代次数,并计算朴素贝叶斯分类器的准确率,当朴素贝叶斯分类器的准确率大于设定的阈值时,获得最终的朴素贝叶斯分类器。
基于Hadoop分布式系统基础架构的分布式文件处理系统HDFS以及分布式计算框架MapReduce被广泛应用于大数据分析领域。Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
本发明充分利用Spark基于内存计算的优点,直接调用Spark MLlib提供的并行化接口,将选取的采样用户的特征指标输入Spark MLlib的朴素贝叶斯算法接口中,并设置好迭代次数,Spark MLlib自动迭代计算,迭代完成后,获得朴素贝叶斯分类器,使潜在付费用户的挖掘过程更智能化,挖掘的特征指标组合更全面。
本发明充分利用Spark基于内存计算的优点,计算速度更快,大大缩短了构建朴素贝叶斯分类器的时间。
S3.将在设定时间段之后采集的用户的特征指标作为朴素贝叶斯分类器的输入变量,获得用户是否为特定用户的概率。
步骤S3具体包括:
在设定时间段之后采集用户的特征指标,并进行归一化处理。
对于其中任一个用户的所有特征指标,计算概率:
P ( C i , | y 1 , > a 1 k , ... , y j , > a j k , ... , y N , > a N k ) = P ( C i ) * Π j = 1 N P ( y j > a j k | C i ) / Π j = 1 N P ( y j > a j k )
其中,C1'为潜在付费用户,C2'为非潜在付费用户,C1'和C2'分别对应于C1和C2,y'j为用户的第j个特征指标的取值,P(Ci'|y1'>a1k,…,y'j>ajk,…,y'N>aNk)表示用户的特征指标的取值分别为y1'>a1k,…,y'j>ajk,…,y'N>aNk的条件下,用户为Ci'类的条件概率;
选择P(Ci'||y1'>a1k,…,yj'>ajk,…,yN'>aNk)中的最大值,将该最大值对应的Ci'确定为用户的类别。
具体的,在设定时间段之后采集用户的特征指标,并进行归一化处理,获得用户的所有8种特征指标,即Y={y1',y2',…,y8'}。
根据朴素贝叶斯定理获得:
P(Ci'|y'j>ajk)=P(yj>ajk|Ci)P(Ci)/P(yj>ajk),
其中,y'j为任一个用户的第j个特征指标的取值,j=1,2,…,8。
又因为假定特征指标之间相互独立,所以
P ( C i , | y 1 , > a 1 k , ... , y j , > a j k , ... , y N , > a N k ) = P ( y 1 , > a 1 k , ... , y j , > a j k , ... , y N , > a N k | C i ) * P ( C i ) / Π j = 1 N P ( y j > a j k ) = P ( C i ) * Π j = 1 N P ( y j > a j k | C i ) / Π j = 1 N P ( y j > a j k )
选择P(Ci'||y1'>a1k,…,y'j>ajk,…,y8'>a8k)中的最大值,将该最大值对应的Ci'确定为该用户的类别。
本发明从服务器采集设定时间段内用户的行为信息指标,选取部分行为信息指标作为用户的特征指标;从采集到的用户中抽样部分用户作为采样用户,根据采样用户的特征指标,通过贝叶斯工具包构建朴素贝叶斯分类器;将在设定时间段之后采集的用户的特征指标作为朴素贝叶斯分类器的输入变量,获得用户是否为特定用户的概率。本发明基于特征指标,朴素贝叶斯分类器能够找到有效的特征指标组合,准确地识别特定用户,而且朴素贝叶斯分类器的构建效率高。
参见图2所示,本发明还提供一种基于朴素贝叶斯算法的特定用户挖掘系统,包括数据采集模块1、特征指标选取模块2、分类器构建模块3和用户识别模块4。
数据采集模块1,用于从服务器分别采集设定时间段内以及设定时间段之后用户的行为信息指标。
特定用户为付费用户,行为信息指标包括充值金额。
特征指标选取模块2,用于选取部分在设定时间段内采集的行为信息指标作为用户的特征指标。
特征指标选取模块2将充值金额等于零的用户划分为未付费用户,将充值金额大于零的用户划分为付费用户,并通过对除充值金额之外的行为信息指标与充值金额之间的相关分析,获得特征指标。
特征指标包括观看时长、观看次数、发送弹幕数量、赠送虚拟礼物数量、在线领取虚拟礼物数量、赠送虚拟礼物金额、关注房间数和关注分区数。
分类器构建模块3,用于从设定时间段内采集到的用户中抽样部分用户作为采样用户,根据采样用户的特征指标,通过贝叶斯工具包构建朴素贝叶斯分类器。
贝叶斯工具包为Spark MLlib。
用户识别模块4,用于将在设定时间段之后采集的用户的特征指标作为朴素贝叶斯分类器的输入变量,获得用户是否为特定用户的概率。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种基于朴素贝叶斯算法的特定用户挖掘方法,其特征在于,包括以下步骤:
S1.从服务器采集设定时间段内用户的行为信息指标,选取部分行为信息指标作为用户的特征指标;
S2.从采集到的用户中抽样部分用户作为采样用户,根据所述采样用户的特征指标,通过贝叶斯工具包构建朴素贝叶斯分类器;
S3.将在所述设定时间段之后采集的用户的所述特征指标作为所述朴素贝叶斯分类器的输入变量,获得用户是否为特定用户的概率。
2.如权利要求1所述的一种基于朴素贝叶斯算法的特定用户挖掘方法,其特征在于:
所述特定用户为付费用户,所述行为信息指标包括充值金额;
将所述充值金额等于零的用户划分为未付费用户,将所述充值金额大于零的用户划分为付费用户。
3.如权利要求2所述的一种基于朴素贝叶斯算法的特定用户挖掘方法,其特征在于:对除充值金额之外的行为信息指标与所述充值金额之间进行相关分析,获得特征指标;
所述特征指标包括观看时长、观看次数、发送弹幕数量、赠送虚拟礼物数量、在线领取虚拟礼物数量、赠送虚拟礼物金额、关注房间数和关注分区数。
4.如权利要求3所述的一种基于朴素贝叶斯算法的特定用户挖掘方法,其特征在于:所述采样用户包括分别从未付费用户和付费用户中抽样的部分用户。
5.如权利要求4所述的一种基于朴素贝叶斯算法的特定用户挖掘方法,其特征在于:步骤S2中,在通过贝叶斯工具包构建所述朴素贝叶斯分类器之前,将所有所述特征指标的取值归一化到相同的范围内,所述范围为0和1之间,所述归一化依据公式:y=[x-MinValue(x)]/[MaxValue(x)-MinValue(x)],其中,x为任一个所述特征指标归一化之前的取值,MinValue(x)和MaxValue(x)分别为x的最小值和最大值,y为归一化之后该特征指标的取值。
6.如权利要求5所述的一种基于朴素贝叶斯算法的特定用户挖掘方法,其特征在于:
所述贝叶斯工具包为Spark Mllib;
通过贝叶斯工具包构建朴素贝叶斯分类器具体包括:
对每一个所述特征指标的取值范围进行划分,并根据所有特征指标的取值范围的划分,计算获得概率P(yj>ajk|Ci)、P(Ci)和P(yj>ajk),其中,yj为第j个所述特征指标的取值,j=1,2,…,N,N为所述特征指标的总数,ajk为第j个特征指标yj的第k个划分点的取值,0<ajk≤1,k为正整数,Ci为所有用户的类,i=1,2,C1为付费用户,C2为未付费用户,其中P(Ci)为Ci类用户的概率,P(yj>ajk|Ci)为在Ci类用户中特征指标的取值yj>ajk出现的条件概率,P(yj>ajk)为特征指标的取值yj>ajk的概率;
设置迭代次数,并计算所述朴素贝叶斯分类器的准确率,当朴素贝叶斯分类器的准确率大于设定的阈值时,获得最终的所述朴素贝叶斯分类器。
7.如权利要求6所述的一种基于朴素贝叶斯算法的特定用户挖掘方法,其特征在于,步骤S3具体包括:
在所述设定时间段之后采集用户的所述特征指标,并进行归一化处理;
对于其中任一个用户的所有特征指标,计算概率:
P ( C i , | y 1 , > a 1 k , ... , y j , > a j k , ... , y N , > a N k ) = P ( C i ) * Π j = 1 N P ( y j > a j k | C i ) / Π j = 1 N P ( y j > a j k )
其中,C′1为潜在付费用户,C′2为非潜在付费用户,C′1和C′2分别对应于C1和C2,y'j为所述用户的第j个所述特征指标的取值,P(C′i|y′1>a1k,…,y'j>ajk,…,y'N>aNk)表示所述用户的特征指标的取值分别为y1'>a1k,…,y'j>ajk,…,y'N>aNk的条件下,所述用户为Ci'类的条件概率;
选择P(C′i|y′1>a1k,…,y′j>ajk,…,y′N>aNk)中的最大值,将该最大值对应的C′i确定为所述用户的类别。
8.一种基于权利要求1所述方法的基于朴素贝叶斯算法的特定用户挖掘系统,其特征在于,包括:
数据采集模块,用于从服务器分别采集设定时间段内以及所述设定时间段之后用户的行为信息指标;
特征指标选取模块,用于选取部分在设定时间段内采集的所述行为信息指标作为用户的特征指标;
分类器构建模块,用于从所述设定时间段内采集到的用户中抽样部分用户作为采样用户,根据所述采样用户的特征指标,通过贝叶斯工具包构建朴素贝叶斯分类器;
用户识别模块,用于将在所述设定时间段之后采集的用户的所述特征指标作为所述朴素贝叶斯分类器的输入变量,获得用户是否为特定用户的概率。
9.如权利要求8所述的一种基于朴素贝叶斯算法的特定用户挖掘系统,其特征在于:
所述特定用户为付费用户,所述行为信息指标包括充值金额;
特征指标选取模块将所述充值金额等于零的用户划分为未付费用户,将所述充值金额大于零的用户划分为付费用户,并通过对除所述充值金额之外的所述行为信息指标与所述充值金额之间的相关分析,获得所述特征指标;
所述特征指标包括观看时长、观看次数、发送弹幕数量、赠送虚拟礼物数量、在线领取虚拟礼物数量、赠送虚拟礼物金额、关注房间数和关注分区数。
10.如权利要求8所述的一种基于朴素贝叶斯算法的特定用户挖掘系统,其特征在于:所述贝叶斯工具包为Spark MLlib。
CN201610554168.6A 2016-07-14 2016-07-14 一种基于朴素贝叶斯算法的特定用户挖掘方法及系统 Pending CN106168976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610554168.6A CN106168976A (zh) 2016-07-14 2016-07-14 一种基于朴素贝叶斯算法的特定用户挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610554168.6A CN106168976A (zh) 2016-07-14 2016-07-14 一种基于朴素贝叶斯算法的特定用户挖掘方法及系统

Publications (1)

Publication Number Publication Date
CN106168976A true CN106168976A (zh) 2016-11-30

Family

ID=58065317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610554168.6A Pending CN106168976A (zh) 2016-07-14 2016-07-14 一种基于朴素贝叶斯算法的特定用户挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN106168976A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220557A (zh) * 2017-05-02 2017-09-29 广东电网有限责任公司信息中心 一种用户越权访问敏感数据行为的检测方法及系统
CN108256827A (zh) * 2018-01-10 2018-07-06 广东轩辕网络科技股份有限公司 目标职位分析方法及系统
CN108733696A (zh) * 2017-04-19 2018-11-02 阿里巴巴集团控股有限公司 一种征信表单的生成方法及装置
CN108965938A (zh) * 2018-08-03 2018-12-07 山东大学 智能电视中潜在付费用户预测方法及系统
CN111428963A (zh) * 2020-02-21 2020-07-17 贝壳技术有限公司 一种数据处理方法及装置
CN113920381A (zh) * 2021-12-15 2022-01-11 深圳市明源云科技有限公司 重复派生指标识别方法、电子设备及可读存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733696A (zh) * 2017-04-19 2018-11-02 阿里巴巴集团控股有限公司 一种征信表单的生成方法及装置
CN108733696B (zh) * 2017-04-19 2021-05-04 创新先进技术有限公司 一种征信表单的生成方法及装置
CN107220557A (zh) * 2017-05-02 2017-09-29 广东电网有限责任公司信息中心 一种用户越权访问敏感数据行为的检测方法及系统
CN108256827A (zh) * 2018-01-10 2018-07-06 广东轩辕网络科技股份有限公司 目标职位分析方法及系统
CN108965938A (zh) * 2018-08-03 2018-12-07 山东大学 智能电视中潜在付费用户预测方法及系统
CN111428963A (zh) * 2020-02-21 2020-07-17 贝壳技术有限公司 一种数据处理方法及装置
CN111428963B (zh) * 2020-02-21 2023-12-19 贝壳技术有限公司 一种数据处理方法及装置
CN113920381A (zh) * 2021-12-15 2022-01-11 深圳市明源云科技有限公司 重复派生指标识别方法、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN106168976A (zh) 一种基于朴素贝叶斯算法的特定用户挖掘方法及系统
Bui et al. Spatial-temporal graph neural network for traffic forecasting: An overview and open research issues
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
US9152691B2 (en) System and method for performing set operations with defined sketch accuracy distribution
CN106339942A (zh) 一种金融信息处理方法和系统
CN103116582B (zh) 一种信息检索方法及相关系统和装置
CN106663224A (zh) 用于机器学习模型评估的交互式界面
CN106575246A (zh) 机器学习服务
CN106030589A (zh) 使用开源数据的疾病预测系统
Wankhade et al. A clustering and ensemble based classifier for data stream classification
US11620683B2 (en) Utilizing machine-learning models to create target audiences with customized auto-tunable reach and accuracy
Shi et al. Recent advances in plant disease severity assessment using convolutional neural networks
CN107885503A (zh) 一种基于程序特征分析的迭代编译优化方法
Liu et al. Multi-perspective User2Vec: Exploiting re-pin activity for user representation learning in content curation social network
CN115099461A (zh) 基于双分支特征提取的太阳辐射预测方法及系统
Pandey et al. Plant leaf disease classification using deep attention residual network optimized by opposition-based symbiotic organisms search algorithm
Kamarthi et al. CAMul: Calibrated and Accurate Multi-view Time-Series Forecasting
CN104778480A (zh) 一种基于局部密度和测地距离的分层谱聚类方法
Jørgensen et al. Efficient Bayesian inference for stochastic agent-based models
Meirom et al. Optimizing tensor network contraction using reinforcement learning
Kim et al. A daily tourism demand prediction framework based on multi-head attention CNN: The case of the foreign entrant in South Korea
CN114978931B (zh) 基于流形学习的网络流量预测方法、装置及存储介质
CN115694985A (zh) 基于tmb的混合网络流量攻击预测方法
CN105871630A (zh) 一种确定网络用户的上网行为类别的方法
CN106897376A (zh) 基于蚁群的模糊c均值算法实现关键词优化

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161130