CN109597844A

CN109597844A - 基于深度神经网络与图网络的核心用户挖掘方法及系统

Info

Publication number: CN109597844A
Application number: CN201910099267.3A
Authority: CN
Inventors: 吴书; 王亮; 于雪莉; 王海滨; 纪文峰; 李凯
Original assignee: China Science And Technology Institute Of Artificial Intelligence Innovation Technology (qingdao) Co Ltd
Current assignee: China Science And Technology Institute Of Artificial Intelligence Innovation Technology (qingdao) Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-04-09
Anticipated expiration: 2039-01-31
Also published as: CN109597844B

Abstract

本公开提出了基于深度神经网络与图网络的核心用户挖掘方法，包括：构建用户‑游戏历史信息数据库；进行数据预处理；根据数据预处理后的游戏用户游戏历史序列观测数据，建立以游戏名称为节点，时间顺序为边的有向图，并输入到图网络嵌入方法中，以预测下一时间感兴趣的游戏；针对每个游戏用户均进行上述有向图的建立，得到的每个游戏的表达，与对应用户的个人信息进行特征拼接，融合输入到深度神经网络中，以预测该用户是否为该款游戏的核心玩家。本公开基于图网络嵌入与深度神经网络的融合方法来解决序列预测问题，将时序信息以图网络的形式充分地学习，并融合深度学习方法学习更高层次地交互表达，以此提高模型预测地准确度。

Description

基于深度神经网络与图网络的核心用户挖掘方法及系统

技术领域

本公开涉及人工智能与数据挖掘和推荐系统技术领域，特别是涉及基于深度神经网络与图网络的核心用户挖掘方法及系统。

背景技术

随着互联网与智能手机的飞速发展与普及，每天会有海量的用户使用日志数据被记录下来。

针对手机游戏领域，一次的登录游戏界面的行为，往往存在着与该用户关联的许多背景信息，如用户个人信息，设备信息，游戏行为信息等，这些多领域的信息的复杂交互作用往往会对用户的对游戏的行为产生巨大的影响。还有，对于序列上的游戏行为，即在某一预定的时间段内按照时间先后顺序排列的用户游戏行为的集合，包含着丰富的序列信息，如用户之前的一次游戏行为导致了当前的对某款游戏的行为，这一序列间的行为的相互影响与相互作用会对用户未来的行为预估有很大的帮助。

当前一些序列行为预测模型使用多领域的拼接特征作为模型输入，使用传统的逻辑斯特回归或因子分解机等方法对行为进行预估。但该种方法仅将动态的序列特征进行简单罗列，并不能很好地获取动态的隐含表达，同时，该种方法仅实现了低阶的特征间交互，对于更为复杂的高阶交互特征的学习并不擅长。

另外，近年来也有使用循环神经网络的方法来进行动态的序列预测，但该种方法忽略了用户在特定时间段内所玩历史游戏的游戏间的复杂转换关系，并不能很好地学习出用户对于这些游戏的偏好。

发明内容

为了解决现有技术的不足，本公开实施例子提供了基于深度神经网络与图网络的核心用户挖掘方法，能够用来挖掘某款游戏未来的核心用户。

基于深度神经网络与图网络的核心用户挖掘方法，包括：

根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据，构建用户-游戏历史信息数据库；

对用户-游戏历史信息数据库中的信息进行数据预处理，使之满足长序列建模标准；

根据数据预处理后的游戏用户游戏历史序列观测数据，建立以游戏名称为节点，时间顺序为边的有向图，并输入到图网络嵌入方法中，以预测下一时间感兴趣的游戏；

针对每个游戏用户均进行上述有向图的建立，得到的每个游戏的表达，与对应用户的个人信息进行特征拼接，融合输入到深度神经网络中，以预测该用户是否为该款游戏的核心玩家。

作为本公开进一步的技术方案，对用户-游戏历史信息数据库中的信息进行数据预处理步骤，包括数据清洗，具体为根据长序列建模标准，剔除掉历史序列较少的用户。

作为本公开进一步的技术方案，历史序列较少的用户包括将每天登陆时长大于第一设定时间以及小于第二设定时间的数据均剔除。

作为本公开进一步的技术方案，对用户-游戏历史信息数据库中的信息进行数据预处理时，还将登录时长或付费金额占所有时长和充值金额前设定百分比的游戏作为给用户的核心游戏，亦即，该用户为该款游戏的核心用户。

作为本公开进一步的技术方案，数据清洗步骤之后，进行特征选取，至少包括用户性别、年龄、历史所玩游戏的付费次数、付费金额、登录时长与登录次数。

作为本公开进一步的技术方案，将清洗后的数据做一定的按时间序列的切割处理，根据登录数据和付费数据，生成模型所需序列和目标；

按照所有用户设定比例进行分割，大部分的用户作为训练，其余的部分的用户作为测试集；同时，针对序列进行滑动切割，设定滑动窗口，切割过程中，生成的测试集序列中的游戏，保证都在训练集序列中出现过。且训练集和测试集的目标都是当月的核心游戏且不在历史序列，负样本为历史序列中的样本。

作为本公开进一步的技术方案，建图具体过程为，根据所有训练序列建立有向图，在每个用户按照时间顺序使用游戏的时间序列中，对于同一用户名，当从一个游戏跳转到下一个游戏中时，两个游戏在图中建立一条边，或权重增加1，最后再进行权重的归一化；

最后通过networkx导出图的每条边和权重，用于Graph embedding模型的训练。

作为本公开进一步的技术方案，Graph embedding模型采用的是LINE的方法，利用图中已存在的边构造目标函数，该目标函数显式描绘了一阶和二阶的邻近关系；

为构建一阶相似度的模型，设定节点i和节点j有边连接的概率为：

其中，u_i和u_j分别为节点v_i和v_j的低维潜在表达向量，而p₁(vi,vj)的真实值其中W＝∑_(i，j)∈Ew_ij，学习过程即为减少以上两个分布的距离的过程，即一阶损失函数为：

其中，d为两者的KL-散度值。

作为本公开进一步的技术方案，为构建二阶相似度模型，对于每个节点，构造两个对应的向量，一个是节点的表达向量，一个是当节点被当成上下文时的表达向量，V_j节点出现在V_i节点的上下文的概率为：

对应拟合的真实值为其中，d_i为所有边的权重和，即归一化常数。二阶相似度的损失函数为：

O₂＝-∑w_ijlogp₂(v_j|v_i)。

作为本公开进一步的技术方案，训练过程中采用真实值与预测值之间的交叉熵作为损失函数，AUC作为模型的指标，损失函数的计算公式分别如下，其中y为真实值而为模型预测值；

本公开的实施例子还公开了基于深度神经网络与图网络的核心用户挖掘系统，包括：

信息数据库建立单元，被配置为根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据，构建用户-游戏历史信息数据库；

数据预处理单元，被配置为对用户-游戏历史信息数据库中的信息进行数据预处理，使之满足长序列建模标准；

感兴趣的游戏预测单元，根据数据预处理后的游戏用户游戏历史序列观测数据，建立以游戏名称为节点，时间顺序为边的有向图，并输入到图网络嵌入方法中，以预测下一时间感兴趣的游戏；

核心玩家预测单元，针对每个游戏用户均进行上述有向图的建立，得到的每个游戏的表达，与对应用户的个人信息进行特征拼接，融合输入到深度神经网络中，以预测该用户是否为该款游戏的核心玩家。

采集单元，采集游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据并传输至服务器；

所述服务器被配置为：根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据，构建用户-游戏历史信息数据库；

针对每个游戏用户均进行上述有向图的建立，得到的每个游戏的表达，与对应用户的个人信息进行特征拼接，融合输入到深度神经网络中，以预测该用户是否为该款游戏的核心玩家；

显示单元，从服务器中提取某款游戏的核心玩家，并将核心玩家的基本信息进行显示。

本公开的实施例子还公开了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现按照上述所述的基于深度神经网络与图网络的核心用户挖掘方法的步骤。

与现有技术相比，本公开的有益效果是：

本公开基于深度神经网络与图网络嵌入的融合模型，利用静态与动态特征相结合的方法，将其应用于游戏玩家核心用户挖掘业务中，用以预测某款游戏未来的核心玩家，从而辅助相关运营部门精准营销。

本公开基于图网络嵌入与深度神经网络的融合方法来解决序列预测问题，将时序信息以图网络的形式充分地学习，并融合深度学习方法学习更高层次地交互表达，以此提高模型预测地准确度。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为利用本公开实施例子方法产生的模型示意图；

图2为本公开实施例子所利用的深度神经网络示意图；

图3为本公开实施例子系统单元组成示意图；

图4为本公开实施例子系统构成示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本公开的一种典型的实施方式中，如图1所示，提供了基于深度神经网络与图网络的核心用户挖掘方法，具体步骤为：

步骤S1：收集用户个人信息数据和游戏历史序列观测数据，构建用户-游戏历史信息数据库，该步骤中，游戏历史序列观测数据可以为：用户对某款游戏的每天的登录次数、登录时长、付费次数、付费金额。

步骤S2：清洗数据，根据长序列建模标准，剔除掉历史序列较少的用户。

在具体实施例子中，对用户的历史游戏的登录次数、登录时长、付费次数与付费金额做统计与分析，将每天登陆时长大于24小时和小于30秒的数据剔除；将登录时长或付费金额占该用户名下的所有游戏的时长和充值金额前10％的游戏作为给用户的核心游戏，亦即，该用户为该款游戏的核心用户。

另外，由于模型在丰富的历序列下才能学出用户的动态表达，因此在具体实施例子中，将删除历史序列较短的数据，删除标准是根据数据统计得到。历史序列较少的用户是指对某款游戏的登录次数较少的数据。

步骤S3：选取特征，包含用户性别、年龄等个人信息、历史所玩游戏的付费次数、付费金额、登录时长与登录次数。

在具体实施例子中，为了构建序列预测数据，将清洗后的数据做一定的按时间序列的切割处理，根据登录数据和付费数据，生成模型所需序列和目标。按照所有用户8:2进行分割，80％的用户作为训练，20％的用户作为测试集；同时，序列(包括每个用户按时间顺序登录或者付费过的游戏名称序列)按照4:1进行滑动切割，滑动窗口为1个月。如某用户有12个月的历史序列数据，那么切割方式为1-4月为训练，5月做测试、2-5月为训练，6月做测试、以此类推。切割过程中，生成的测试集序列中的游戏，保证都在训练集序列中出现过。且训练集和测试集的目标都是当月的核心游戏且不在历史序列(前4个月)，负样本为历史序列(前4个月)中的样本。

根据登录数据和付费数据，生成模型所需序列和目标，具体为：根据用户登录过或者付费过的游戏，以时间顺序建立游戏的序列，每个游戏作为对应序列中的节点，下一个时间点的登录或者付费游戏作为该序列的预测目标。

在本公开实施例子中，以推荐新游戏作为目标，预测的未来玩家可能会深度玩的游戏，需要是该用户之前没有玩过的游戏。

在本公开实施例子中，负样本要做随机负采样，采样方法为在历史序列中随机采集的游戏，是正样本的新游戏对应的负样本。

步骤S4：根据用户的历史信息即用户登录和付费过的游戏的历史纪录，建立以所有游戏编号后的id为节点，时间顺序为边的有向图，并输入到图网络嵌入方法中，以预测下一时点会玩的游戏为目标，根据输出结果和真实预测目标更新模型参数，此处模型采用的是LINE模型，参数为模型中定义的游戏的表达向量，通过向量间的一定的计算得到预测值。

在具体实施例子中，建图具体过程为，根据所有训练序列建立有向图，在每个用户按照时间顺序使用游戏的时间序列中，当一个用户从一个游戏跳转到下一个游戏中时，两个游戏在图中建立一条边，或权重增加1，最后再进行权重的归一化。最后通过networkx导出图的每条边和权重，用于Graph embedding模型的训练。

具体实施时，图网络嵌入方法对每个用户的序列处理成游戏id序列的形式，如[01,03,10,12…]。

本方法中的Graph embedding方法，采用的是LINE的方法，利用图中已存在的边构造目标函数，该目标函数显式描绘了一阶和二阶的邻近关系，通过最小化目标函数的损失来训练模型。

其中，u_i和u_j分别为节点v_i和v_j的低维潜在表达向量。i和j分别为图中的两个不同节点。T表示向量的转置。而p₁(vi,vj)的真实值其中W＝∑_{(i，j)∈Ewij}，w_ij表示节点i和节点j之间的连接权重，学习过程即为减少以上两个分布的距离的过程，即一阶损失函数为(其中d为两者的KL-散度值)：

为构建二阶相似度模型，本方法对于每个节点，构造两个对应的向量，一个是节点的表达向量，一个是当节点被当成上下文时的表达向量。V_j节点出现在V_i节点的上下文的概率为：

对应拟合的真实值为其中d_i为所有边的权重和，即归一化常数。二阶相似度的损失函数为：

O₂＝-∑w_ijlogp₂(v_j|v_i)。

步骤S5：直到模型参数收敛，此时得到的每个游戏的表达，与对应用户的个人信息进行特征拼接，融合输入到深度神经网络中，以预测该用户是否为该款游戏的核心玩家为目标，根据输出结果和真实预测目标更新参数，参数为神经网络中的矩阵参数。

具体实施时，关于模型参数的收敛的判断为：模型的损失函数的损失值不再减小，趋于稳定，可视为模型参数收敛。每个游戏的表达具体指每个游戏的表达向量，如上面公式中的ui和uj分别为节点i和j的表达向量。

深度神经网络：将每个用户历史游戏的表达向量，与其个人信息的特征做向量拼接。同时拼接上要预测的游戏的表达，预测该用户是否为该款游戏的核心玩家，是标注为1，不是为0。

神经网络模型的训练过程中采用真实值与预测值之间的交叉熵作为损失函数，AUC作为模型的指标，损失函数的计算公式分别如下，其中y为真实值而为模型预测值。

步骤S6：模型参数收敛，此时得到的参数达到全局最优，这些参数就构成了的框架学习出来的新模型。具体为神经网络的模型参数，如神经网络的第二层有128个神经单元，第三层有64个神经单元，那么在二层与三层之间的参数为128*64的权重矩阵。

针对一款新的游戏，可以利用步骤S6所建立的模型，预测哪些用户未来会是该款游戏的核心玩家。

为了验证本公开的实施效果，接下来以在腾讯游戏玩家的真实历史数据上的实验结果作进一步的说明。具体步骤如下：

步骤S1：训练和测试样本抽取规则：2016年7月1日至2018年1月1日的有历史行为的用户。

对用户的历史游戏的登录次数、登录时长、付费次数与付费金额做统计与分析，将每天登陆时长大于24小时和小于30秒的数据剔除；将登录时长或付费金额占所有时长和充值金额前10％的游戏作为给用户的核心游戏，亦即，该用户为该款游戏的核心用户。

步骤S3：选取特征，所用特征包括用户年龄、性别、省份、城市等个人简介信息，游戏类别、总下载量、安装包大小、评分，游戏在不同场景的下载量或下载率。用户的历史所玩游戏的登录次数、登录时长、付费次数以及付费金额。

为了构建序列预测数据，将清洗后的数据做一定的按时间序列的切割处理，根据登录数据和付费数据，生成模型所需序列和目标。按照所有用户8:2进行分割，80％的用户作为训练，20％的用户作为测试集；同时，序列按照4:1进行滑动切割，滑动窗口为1个月，并将前4个月作为序列特征，最后1个月作为预测目标。如某用户有12个月的历史序列数据，那么切割方式为1-4月为训练，5月做测试、2-5月为训练，6月做测试、以此类推。切割过程中，生成的测试集序列中的游戏，保证都在训练集序列中出现过。且训练集和测试集的目标都是当月的核心游戏且不在历史序列(前4个月)，负样本为历史序列(前4个月)中的样本。

步骤S4：根据用户的历史信息，建立以游戏为节点，时间顺序为边的有向图，并输入到图网络嵌入方法中，以预测下一时点会玩的游戏为目标，根据输出结果和真实预测目标更新模型参数。

步骤S5：直到模型参数收敛，此时得到的每个游戏的表达，与对应用户的个人信息进行特征拼接，融合输入到深度神经网络中，以预测该用户是否为该款游戏的核心玩家为目标，根据输出结果和真实预测目标更新参数。

步骤S6：直到模型参数收敛，此时得到的参数达到全局最优，这些参数就构成了我们的框架学习出来的新模型；获得全局最优后，模型最终的AUC以及Baseline方法(不加LINE的深度网络方法)，以及传统的LR(logistic regression)和FM(factorizationmachine)进行了指标对比。

实验结果参见附图1，为基于LINE(large-scale Information NetworkEmbedding)的图网络嵌入方法，其输入为利用用户历史所玩游戏的序列构建的有向图节点与边。

参见附图2，为深度神经网络，输入层输入为包括用户性别、年龄等个人信息以及游戏的种类、评分等游戏信息，以及LINE学习出的用户的图嵌入表达信息，隐含层为多层的全连接网络结构，输出层为利用隐含层学到的高阶的交互表达来预测该用户是否为该款游戏的核心用户。

实验结果如表1所示。

表1

用不加入图网络嵌入方法的深度神经网络与加入后的本公开方法进行了AUC指标对比，本公开方法相比Baseline的DNN方法提高了14.3％，比LR和FM提升的更多，可见本公开方法在核心用户挖掘业务中提升显著。

本公开的上述实施例子能够根据用户的历史所玩的游戏序列较好地预测用户未来会是哪款游戏的核心玩家，实现利用深度学习与图网络嵌入来做数据挖掘和推荐。利用图网络嵌入与深度学习融合方法做游戏玩家核心用户挖掘与预测问题，并达到很好的预测效果。

本公开实施例子的该方法不同于以往模型中的仅用深度学习模型静态地建模，它可以对静态信息与动态序列信息分别建模并做融合，学习到用户在时间序列上更为丰富的转换关系。

本公开实施例子的该方法能对游戏玩家的信息进行建模，并利用时间序列信息更好地挖掘出某款游戏地未来核心玩家。

参见附图3所示，本公开的实施例子还公开了基于深度神经网络与图网络的核心用户挖掘系统，包括：

参见附图4所示，本公开的又一实施例子还公开了基于深度神经网络与图网络的核心用户挖掘系统，包括：

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.基于深度神经网络与图网络的核心用户挖掘方法，其特征是，包括：

2.如权利要求1所述的基于深度神经网络与图网络的核心用户挖掘方法，其特征是，对用户-游戏历史信息数据库中的信息进行数据预处理步骤，包括数据清洗，具体为根据长序列建模标准，剔除掉历史序列较少的用户。

3.如权利要求2所述的基于深度神经网络与图网络的核心用户挖掘方法，其特征是，历史序列较少的用户包括将每天登陆时长大于第一设定时间以及小于第二设定时间的数据均剔除。

4.如权利要求1所述的基于深度神经网络与图网络的核心用户挖掘方法，其特征是，对用户-游戏历史信息数据库中的信息进行数据预处理时，还将登录时长或付费金额占所有时长和充值金额前设定百分比的游戏作为给用户的核心游戏，亦即，该用户为该款游戏的核心用户。

5.如权利要求1所述的基于深度神经网络与图网络的核心用户挖掘方法，其特征是，数据清洗步骤之后，进行特征选取，至少包括用户性别、年龄、历史所玩游戏的付费次数、付费金额、登录时长与登录次数。

6.如权利要求5所述的基于深度神经网络与图网络的核心用户挖掘方法，其特征是，将清洗后的数据做一定的按时间序列的切割处理，根据登录数据和付费数据，生成模型所需序列和目标；

按照所有用户设定比例进行分割，大部分的用户作为训练，其余的部分的用户作为测试集；同时，针对序列进行滑动切割，设定滑动窗口，切割过程中，生成的测试集序列中的游戏，保证都在训练集序列中出现过，且训练集和测试集的目标都是当月的核心游戏且不在历史序列，负样本为历史序列中的样本。

7.如权利要求1所述的基于深度神经网络与图网络的核心用户挖掘方法，其特征是，建图具体过程为，根据所有训练序列建立有向图，在每个用户按照时间顺序使用游戏的时间序列中，对于同一用户名，当从一个游戏跳转到下一个游戏中时，两个游戏在图中建立一条边，或权重增加1，最后再进行权重的归一化；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现按照权利要求1-7任一所述的基于深度神经网络与图网络的核心用户挖掘方法的步骤。

9.基于深度神经网络与图网络的核心用户挖掘系统，其特征是，包括：

10.基于深度神经网络与图网络的核心用户挖掘系统，其特征是，包括：