CN106168976A

CN106168976A - 一种基于朴素贝叶斯算法的特定用户挖掘方法及系统

Info

Publication number: CN106168976A
Application number: CN201610554168.6A
Authority: CN
Inventors: 龚灿
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2016-11-30

Abstract

本发明公开了一种基于朴素贝叶斯算法的特定用户挖掘方法及系统，涉及网络技术领域。该方法包括以下步骤：从服务器采集设定时间段内用户的行为信息指标，选取部分行为信息指标作为用户的特征指标；从采集到的用户中抽样部分用户作为采样用户，根据所述采样用户的特征指标，通过贝叶斯工具包构建朴素贝叶斯分类器；将在设定时间段之后采集的用户的特征指标作为朴素贝叶斯分类器的输入变量，获得用户是否为特定用户的概率。本发明通过贝叶斯工具包，根据从用户的行为信息指标中选取的特征指标构建朴素贝叶斯分类器，能够找到有效的特征指标组合，准确地识别特定用户，而且朴素贝叶斯分类器的构建效率高。

Description

一种基于朴素贝叶斯算法的特定用户挖掘方法及系统

本发明涉及网络技术领域，具体是涉及一种基于朴素贝叶斯算法的特定用户挖掘方法及系统。

背景技术

随着直播行业的飞速发展，各个直播平台之间的竞争也日益激烈，如何快速有效地将特定用户从直播网站的全部用户中挖掘出来，例如，如何有效地将潜在付费用户从直播网站的全部用户中挖掘出来，便于运营人员针对特定用户做进一步的精细化营销方案，提升用户体验，提高特定用户的付费转化率，成为各个直播网站迫切需要解决的问题。目前，由于直播网站的用户数量呈现爆炸式增长，用户行为趋于多样化和复杂化，而且用户行为变化迅速，直接导致用户数据维度多，用户数据更新快，数据量大，从而导致建立特定用户预测模型的过程和模型本身较为复杂，建模周期较长，由此导致模型对特定用户预测的准确性和效率不高。

发明内容

针对现有技术中存在的缺陷，本发明的主要目的在于提供一种基于朴素贝叶斯算法的特定用户挖掘方法，本发明的另一目的在于提供一种基于朴素贝叶斯算法的特定用户挖掘系统，通过贝叶斯工具包，根据从用户的行为信息指标中选取的特征指标构建朴素贝叶斯分类器，能够找到有效的特征指标组合，准确地识别特定用户，而且朴素贝叶斯分类器的构建效率高。

本发明提供一种基于朴素贝叶斯算法的特定用户挖掘方法，包括以下步骤：

S1.从服务器采集设定时间段内用户的行为信息指标，选取部分行为信息指标作为用户的特征指标；

S2.从采集到的用户中抽样部分用户作为采样用户，根据所述采样用户的特征指标，通过贝叶斯工具包构建朴素贝叶斯分类器；

S3.将在所述设定时间段之后采集的用户的所述特征指标作为所述朴素贝叶斯分类器的输入变量，获得用户是否为特定用户的概率。

在上述技术方案的基础上，所述特定用户为付费用户，所述行为信息指标包括充值金额；

将所述充值金额等于零的用户划分为未付费用户，将所述充值金额大于零的用户划分为付费用户。

在上述技术方案的基础上，对除充值金额之外的行为信息指标与所述充值金额之间进行相关分析，获得特征指标；

所述特征指标包括观看时长、观看次数、发送弹幕数量、赠送虚拟礼物数量、在线领取虚拟礼物数量、赠送虚拟礼物金额、关注房间数和关注分区数。

在上述技术方案的基础上，所述采样用户包括分别从未付费用户和付费用户中抽样的部分用户。

在上述技术方案的基础上，步骤S2中，在通过贝叶斯工具包构建所述朴素贝叶斯分类器之前，将所有所述特征指标的取值归一化到相同的范围内，所述范围为0和1之间，所述归一化依据公式：y＝[x-MinValue(x)]/[MaxValue(x)-MinValue(x)]，其中，x为任一个所述特征指标归一化之前的取值，MinValue(x)和MaxValue(x)分别为x的最小值和最大值，y为归一化之后该特征指标的取值。

在上述技术方案的基础上，所述贝叶斯工具包为Spark Mllib；

通过贝叶斯工具包构建朴素贝叶斯分类器具体包括：

对每一个所述特征指标的取值范围进行划分，并根据所有特征指标的取值范围的划分，计算获得概率P(y_j＞a_jk|C_i)、P(C_i)和P(y_j＞a_jk)，其中，y_j为第j个所述特征指标的取值，j＝1，2，…，N，N为所述特征指标的总数，a_jk为第j个特征指标y_j的第k个划分点的取值，0＜a_jk≤1，k为正整数，C_i为所有用户的类，i＝1，2，C₁为付费用户，C₂为未付费用户，其中P(C_i)为C_i类用户的概率，P(y_j＞a_jk|C_i)为在C_i类用户中特征指标的取值y_j＞a_jk出现的条件概率，P(y_j＞a_jk)为特征指标的取值y_j＞a_jk的概率；

设置迭代次数，并计算所述朴素贝叶斯分类器的准确率，当朴素贝叶斯分类器的准确率大于设定的阈值时，获得最终的所述朴素贝叶斯分类器。

在上述技术方案的基础上，步骤S3具体包括：

在所述设定时间段之后采集用户的所述特征指标，并进行归一化处理；

对于其中任一个用户的所有特征指标，计算概率：

\begin{matrix} P (C_{i}^{,} | y_{1}^{,} > a_{1 k}, ..., y_{j}^{,} > a_{j k}, ..., y_{N}^{,} > a_{N k}) \\ = P (C_{i}) * Π_{j = 1}^{N} P (y_{j} > a_{j k} | C_{i}) / Π_{j = 1}^{N} P (y_{j} > a_{j k}) \end{matrix}

其中，C₁'为潜在付费用户，C₂'为非潜在付费用户，C₁'和C₂'分别对应于C₁和C₂，y'_j为所述用户的第j个所述特征指标的取值，P(C_i'|y₁'＞a_1k,…,y'_j＞a_jk,…,y'_N＞a_Nk)表示所述用户的特征指标的取值分别为y₁'＞a_1k,…,y'_j＞a_jk,…,y'_N＞a_Nk的条件下，所述用户为C_i'类的条件概率；

选择P(C_i'|y₁'＞a_1k,…,y_j'＞a_jk,…,y_N'＞a_Nk)中的最大值，将该最大值对应的C_i'确定为所述用户的类别。

本发明还提供一种基于朴素贝叶斯算法的特定用户挖掘系统，包括：

数据采集模块，用于从服务器分别采集设定时间段内以及所述设定时间段之后用户的行为信息指标；

特征指标选取模块，用于选取部分在设定时间段内采集的所述行为信息指标作为用户的特征指标；

分类器构建模块，用于从所述设定时间段内采集到的用户中抽样部分用户作为采样用户，根据所述采样用户的特征指标，通过贝叶斯工具包构建朴素贝叶斯分类器；

用户识别模块，用于将在所述设定时间段之后采集的用户的所述特征指标作为所述朴素贝叶斯分类器的输入变量，获得用户是否为特定用户的概率。

特征指标选取模块将所述充值金额等于零的用户划分为未付费用户，将所述充值金额大于零的用户划分为付费用户，并通过对除所述充值金额之外的所述行为信息指标与所述充值金额之间的相关分析，获得所述特征指标；

在上述技术方案的基础上，所述贝叶斯工具包为Spark MLlib。

与现有技术相比，本发明的优点如下：

(1)本发明从服务器采集设定时间段内用户的行为信息指标，选取部分行为信息指标作为用户的特征指标；从采集到的用户中抽样部分用户作为采样用户，根据采样用户的特征指标，通过贝叶斯工具包构建朴素贝叶斯分类器；将在设定时间段之后采集的用户的特征指标作为朴素贝叶斯分类器的输入变量，获得用户是否为特定用户的概率。本发明基于特征指标，朴素贝叶斯分类器能够找到有效的特征指标组合，准确地识别特定用户，而且朴素贝叶斯分类器的构建效率高。

(2)本发明采用相关分析方法从用户的行为信息指标中选取特征指标，特征指标选取重复性好，反映实际情况，预测准确率高。

(3)本发明充分利用Spark基于内存计算的优点，计算速度更快，大大缩短了构建朴素贝叶斯分类器的时间。

附图说明

图1是本发明实施例基于朴素贝叶斯算法的特定用户挖掘方法流程图；

图2是本发明实施例基于朴素贝叶斯算法的特定用户挖掘系统示意图。

附图标记：

数据采集模块1，特征指标选取模块2，分类器构建模块3，用户识别模块4。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述。

参见图1所示，本发明实施例提供一种基于朴素贝叶斯算法的特定用户挖掘方法，包括以下步骤：

S1.从服务器采集设定时间段内用户的行为信息指标，选取部分行为信息指标作为用户的特征指标。

特定用户为付费用户，行为信息指标包括充值金额，行为信息指标还包括除充值金额之外的其它行为信息指标。

将充值金额等于零的用户划分为未付费用户，将充值金额大于零的用户划分为付费用户。

具体的，可以抽样选取部分付费用户作为正样本，标记为1，抽样选取部分未付费用户作为负样本，标记为0。

对除充值金额之外的行为信息指标与充值金额之间进行相关分析，获得特征指标。

具体的，计算除充值金额之外的行为信息指标与充值金额之间的相关系数，保留相关系数大于设定的阈值的行为信息指标为特征指标。

特征指标包括观看时长、观看次数、发送弹幕数量、赠送虚拟礼物数量、在线领取虚拟礼物数量、赠送虚拟礼物金额、关注房间数和关注分区数。

本发明采用相关分析方法从用户的行为信息指标中选取特征指标，特征指标选取重复性好，反映实际情况，预测准确率高。

S2.从采集到的用户中抽样部分用户作为采样用户，根据采样用户的特征指标，通过贝叶斯工具包构建朴素贝叶斯分类器。

采样用户包括分别从未付费用户和付费用户中抽样的部分用户。

步骤S2中，在通过贝叶斯工具包构建朴素贝叶斯分类器之前，将所有特征指标的取值归一化到相同的范围内，范围为0和1之间，归一化依据公式：

y＝[x-MinValue(x)]/[MaxValue(x)-MinValue(x)]，

其中，x为任一个特征指标归一化之前的取值，MinValue(x)和MaxValue(x)分别为x的最小值和最大值，y为归一化之后该特征指标的取值。

归一化之后的特征指标的取值都集中在0和1之间，其目的是为了避免特征指标的量纲不同对朴素贝叶斯分类器的结果造成影响。

贝叶斯工具包为Spark Mllib。

通过贝叶斯工具包构建朴素贝叶斯分类器具体包括：

对每一个特征指标的取值范围进行划分，并根据所有特征指标的取值范围的划分，计算获得概率P(y_j＞a_jk|C_i)、P(C_i)和P(y_j＞a_jk)，其中，y_j为第j个特征指标的取值，j＝1，2，…，N，N为特征指标的总数，a_jk为第j个特征指标y_j的第k个划分点的取值，0＜a_jk≤1，k为正整数，而且对于任意两个特征指标，k可以不相等，C_i为所有用户的类，i＝1，2，C₁为付费用户，C₂为未付费用户，其中P(C_i)为C_i类用户的概率，P(y_j＞a_jk|C_i)为在C_i类用户中特征指标的取值y_j＞a_jk出现的条件概率，P(y_j＞a_jk)为特征指标的取值y_j＞a_jk的概率。

例如，任一个采样用户具有8种特征指标，即Y＝{y₁，y₂，…，y₈}，所有采样用户的8种特征指标构成训练数据集。

根据朴素贝叶斯定理：P(C_i|y_j)＝P(y_j|C_i)*P(C_i)/P(y_j)，其中，i＝1，2，j＝1，2，…，8。对于任一个特征指标y_j，P(y_j)、P(C_i)以及条件概率P(y_j|C_i)可以从训练数据集直接计算获得。

对任一个特征指标y_j的取值范围进行划分，由朴素贝叶斯定理获得：P(C_i|y_j＞a_jk)＝P(y_j＞a_jk|C_i)*P(C_i)/P(y_j＞a_jk)，

P(y_j＞a_jk|C_i)、P(C_i)和P(y_j＞a_jk)均可以从训练数据集直接计算获得。

设置迭代次数，并计算朴素贝叶斯分类器的准确率，当朴素贝叶斯分类器的准确率大于设定的阈值时，获得最终的朴素贝叶斯分类器。

基于Hadoop分布式系统基础架构的分布式文件处理系统HDFS以及分布式计算框架MapReduce被广泛应用于大数据分析领域。Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

本发明充分利用Spark基于内存计算的优点，直接调用Spark MLlib提供的并行化接口，将选取的采样用户的特征指标输入Spark MLlib的朴素贝叶斯算法接口中，并设置好迭代次数，Spark MLlib自动迭代计算，迭代完成后，获得朴素贝叶斯分类器，使潜在付费用户的挖掘过程更智能化，挖掘的特征指标组合更全面。

本发明充分利用Spark基于内存计算的优点，计算速度更快，大大缩短了构建朴素贝叶斯分类器的时间。

S3.将在设定时间段之后采集的用户的特征指标作为朴素贝叶斯分类器的输入变量，获得用户是否为特定用户的概率。

步骤S3具体包括：

在设定时间段之后采集用户的特征指标，并进行归一化处理。

对于其中任一个用户的所有特征指标，计算概率：

\begin{matrix} P (C_{i}^{,} | y_{1}^{,} > a_{1 k}, ..., y_{j}^{,} > a_{j k}, ..., y_{N}^{,} > a_{N k}) \\ = P (C_{i}) * Π_{j = 1}^{N} P (y_{j} > a_{j k} | C_{i}) / Π_{j = 1}^{N} P (y_{j} > a_{j k}) \end{matrix}

其中，C₁'为潜在付费用户，C₂'为非潜在付费用户，C₁'和C₂'分别对应于C₁和C₂，y'_j为用户的第j个特征指标的取值，P(C_i'|y₁'＞a_1k,…,y'_j＞a_jk,…,y'_N＞a_Nk)表示用户的特征指标的取值分别为y₁'＞a_1k,…,y'_j＞a_jk,…,y'_N＞a_Nk的条件下，用户为C_i'类的条件概率；

选择P(C_i'||y₁'＞a_1k,…,y_j'＞a_jk,…,y_N'＞a_Nk)中的最大值，将该最大值对应的C_i'确定为用户的类别。

具体的，在设定时间段之后采集用户的特征指标，并进行归一化处理，获得用户的所有8种特征指标，即Y＝{y₁'，y₂'，…，y₈'}。

根据朴素贝叶斯定理获得：

P(C_i'|y'_j＞a_jk)＝P(y_j＞a_jk|C_i)P(C_i)/P(y_j＞a_jk)，

其中，y'_j为任一个用户的第j个特征指标的取值，j＝1，2，…，8。

又因为假定特征指标之间相互独立，所以

\begin{matrix} P (C_{i}^{,} | y_{1}^{,} > a_{1 k}, ..., y_{j}^{,} > a_{j k}, ..., y_{N}^{,} > a_{N k}) \\ = P (y_{1}^{,} > a_{1 k}, ..., y_{j}^{,} > a_{j k}, ..., y_{N}^{,} > a_{N k} | C_{i}) * P (C_{i}) / Π_{j = 1}^{N} P (y_{j} > a_{j k}) \\ = P (C_{i}) * Π_{j = 1}^{N} P (y_{j} > a_{j k} | C_{i}) / Π_{j = 1}^{N} P (y_{j} > a_{j k}) \end{matrix}

选择P(C_i'||y₁'＞a_1k,…,y'_j＞a_jk,…,y₈'＞a_8k)中的最大值，将该最大值对应的C_i'确定为该用户的类别。

本发明从服务器采集设定时间段内用户的行为信息指标，选取部分行为信息指标作为用户的特征指标；从采集到的用户中抽样部分用户作为采样用户，根据采样用户的特征指标，通过贝叶斯工具包构建朴素贝叶斯分类器；将在设定时间段之后采集的用户的特征指标作为朴素贝叶斯分类器的输入变量，获得用户是否为特定用户的概率。本发明基于特征指标，朴素贝叶斯分类器能够找到有效的特征指标组合，准确地识别特定用户，而且朴素贝叶斯分类器的构建效率高。

参见图2所示，本发明还提供一种基于朴素贝叶斯算法的特定用户挖掘系统，包括数据采集模块1、特征指标选取模块2、分类器构建模块3和用户识别模块4。

数据采集模块1，用于从服务器分别采集设定时间段内以及设定时间段之后用户的行为信息指标。

特定用户为付费用户，行为信息指标包括充值金额。

特征指标选取模块2，用于选取部分在设定时间段内采集的行为信息指标作为用户的特征指标。

特征指标选取模块2将充值金额等于零的用户划分为未付费用户，将充值金额大于零的用户划分为付费用户，并通过对除充值金额之外的行为信息指标与充值金额之间的相关分析，获得特征指标。

分类器构建模块3，用于从设定时间段内采集到的用户中抽样部分用户作为采样用户，根据采样用户的特征指标，通过贝叶斯工具包构建朴素贝叶斯分类器。

贝叶斯工具包为Spark MLlib。

用户识别模块4，用于将在设定时间段之后采集的用户的特征指标作为朴素贝叶斯分类器的输入变量，获得用户是否为特定用户的概率。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于朴素贝叶斯算法的特定用户挖掘方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于朴素贝叶斯算法的特定用户挖掘方法，其特征在于：

所述特定用户为付费用户，所述行为信息指标包括充值金额；

3.如权利要求2所述的一种基于朴素贝叶斯算法的特定用户挖掘方法，其特征在于：对除充值金额之外的行为信息指标与所述充值金额之间进行相关分析，获得特征指标；

4.如权利要求3所述的一种基于朴素贝叶斯算法的特定用户挖掘方法，其特征在于：所述采样用户包括分别从未付费用户和付费用户中抽样的部分用户。

5.如权利要求4所述的一种基于朴素贝叶斯算法的特定用户挖掘方法，其特征在于：步骤S2中，在通过贝叶斯工具包构建所述朴素贝叶斯分类器之前，将所有所述特征指标的取值归一化到相同的范围内，所述范围为0和1之间，所述归一化依据公式：y＝[x-MinValue(x)]/[MaxValue(x)-MinValue(x)]，其中，x为任一个所述特征指标归一化之前的取值，MinValue(x)和MaxValue(x)分别为x的最小值和最大值，y为归一化之后该特征指标的取值。

6.如权利要求5所述的一种基于朴素贝叶斯算法的特定用户挖掘方法，其特征在于：

所述贝叶斯工具包为Spark Mllib；

通过贝叶斯工具包构建朴素贝叶斯分类器具体包括：

7.如权利要求6所述的一种基于朴素贝叶斯算法的特定用户挖掘方法，其特征在于，步骤S3具体包括：

对于其中任一个用户的所有特征指标，计算概率：

\begin{matrix} P (C_{i}^{,} | y_{1}^{,} > a_{1 k}, ..., y_{j}^{,} > a_{j k}, ..., y_{N}^{,} > a_{N k}) \\ = P (C_{i}) * Π_{j = 1}^{N} P (y_{j} > a_{j k} | C_{i}) / Π_{j = 1}^{N} P (y_{j} > a_{j k}) \end{matrix}

其中，C′₁为潜在付费用户，C′₂为非潜在付费用户，C′₁和C′₂分别对应于C₁和C₂，y'_j为所述用户的第j个所述特征指标的取值，P(C′_i|y′₁＞a_1k,…,y'_j＞a_jk,…,y'_N＞a_Nk)表示所述用户的特征指标的取值分别为y₁'＞a_1k,…,y'_j＞a_jk,…,y'_N＞a_Nk的条件下，所述用户为C_i'类的条件概率；

选择P(C′_i|y′₁＞a_1k,…,y′_j＞a_jk,…,y′_N＞a_Nk)中的最大值，将该最大值对应的C′_i确定为所述用户的类别。

8.一种基于权利要求1所述方法的基于朴素贝叶斯算法的特定用户挖掘系统，其特征在于，包括：

9.如权利要求8所述的一种基于朴素贝叶斯算法的特定用户挖掘系统，其特征在于：

10.如权利要求8所述的一种基于朴素贝叶斯算法的特定用户挖掘系统，其特征在于：所述贝叶斯工具包为Spark MLlib。