CN109597844B - 基于深度神经网络与图网络的核心用户挖掘方法及系统 - Google Patents

基于深度神经网络与图网络的核心用户挖掘方法及系统 Download PDF

Info

Publication number
CN109597844B
CN109597844B CN201910099267.3A CN201910099267A CN109597844B CN 109597844 B CN109597844 B CN 109597844B CN 201910099267 A CN201910099267 A CN 201910099267A CN 109597844 B CN109597844 B CN 109597844B
Authority
CN
China
Prior art keywords
game
user
graph
sequence
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910099267.3A
Other languages
English (en)
Other versions
CN109597844A (zh
Inventor
吴书
王亮
于雪莉
王海滨
纪文峰
李凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cas Artificial Intelligence Research Qingdao Co ltd
Original Assignee
Cas Artificial Intelligence Research Qingdao Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cas Artificial Intelligence Research Qingdao Co ltd filed Critical Cas Artificial Intelligence Research Qingdao Co ltd
Priority to CN201910099267.3A priority Critical patent/CN109597844B/zh
Publication of CN109597844A publication Critical patent/CN109597844A/zh
Application granted granted Critical
Publication of CN109597844B publication Critical patent/CN109597844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

本公开提出了基于深度神经网络与图网络的核心用户挖掘方法,包括:构建用户‑游戏历史信息数据库;进行数据预处理;根据数据预处理后的游戏用户游戏历史序列观测数据,建立以游戏名称为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时间感兴趣的游戏;针对每个游戏用户均进行上述有向图的建立,得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家。本公开基于图网络嵌入与深度神经网络的融合方法来解决序列预测问题,将时序信息以图网络的形式充分地学习,并融合深度学习方法学习更高层次地交互表达,以此提高模型预测地准确度。

Description

基于深度神经网络与图网络的核心用户挖掘方法及系统
技术领域
本公开涉及人工智能与数据挖掘和推荐系统技术领域,特别是涉及基于深度神经网络与图网络的核心用户挖掘方法及系统。
背景技术
随着互联网与智能手机的飞速发展与普及,每天会有海量的用户使用日志数据被记录下来。
针对手机游戏领域,一次的登录游戏界面的行为,往往存在着与该用户关联的许多背景信息,如用户个人信息,设备信息,游戏行为信息等,这些多领域的信息的复杂交互作用往往会对用户的对游戏的行为产生巨大的影响。还有,对于序列上的游戏行为,即在某一预定的时间段内按照时间先后顺序排列的用户游戏行为的集合,包含着丰富的序列信息,如用户之前的一次游戏行为导致了当前的对某款游戏的行为,这一序列间的行为的相互影响与相互作用会对用户未来的行为预估有很大的帮助。
当前一些序列行为预测模型使用多领域的拼接特征作为模型输入,使用传统的逻辑斯特回归或因子分解机等方法对行为进行预估。但该种方法仅将动态的序列特征进行简单罗列,并不能很好地获取动态的隐含表达,同时,该种方法仅实现了低阶的特征间交互,对于更为复杂的高阶交互特征的学习并不擅长。
另外,近年来也有使用循环神经网络的方法来进行动态的序列预测,但该种方法忽略了用户在特定时间段内所玩历史游戏的游戏间的复杂转换关系,并不能很好地学习出用户对于这些游戏的偏好。
发明内容
为了解决现有技术的不足,本公开实施例子提供了基于深度神经网络与图网络的核心用户挖掘方法,能够用来挖掘某款游戏未来的核心用户。
基于深度神经网络与图网络的核心用户挖掘方法,包括:
根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据,构建用户-游戏历史信息数据库;
对用户-游戏历史信息数据库中的信息进行数据预处理,使之满足长序列建模标准;
根据数据预处理后的游戏用户游戏历史序列观测数据,建立以游戏名称为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时间感兴趣的游戏;
针对每个游戏用户均进行上述有向图的建立,得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家。
作为本公开进一步的技术方案,对用户-游戏历史信息数据库中的信息进行数据预处理步骤,包括数据清洗,具体为根据长序列建模标准,剔除掉历史序列较少的用户。
作为本公开进一步的技术方案,历史序列较少的用户包括将每天登陆时长大于第一设定时间以及小于第二设定时间的数据均剔除。
作为本公开进一步的技术方案,对用户-游戏历史信息数据库中的信息进行数据预处理时,还将登录时长或付费金额占所有时长和充值金额前设定百分比的游戏作为给用户的核心游戏,亦即,该用户为该款游戏的核心用户。
作为本公开进一步的技术方案,数据清洗步骤之后,进行特征选取,至少包括用户性别、年龄、历史所玩游戏的付费次数、付费金额、登录时长与登录次数。
作为本公开进一步的技术方案,将清洗后的数据做一定的按时间序列的切割处理,根据登录数据和付费数据,生成模型所需序列和目标;
按照所有用户设定比例进行分割,大部分的用户作为训练,其余的部分的用户作为测试集;同时,针对序列进行滑动切割,设定滑动窗口,切割过程中,生成的测试集序列中的游戏,保证都在训练集序列中出现过。且训练集和测试集的目标都是当月的核心游戏且不在历史序列,负样本为历史序列中的样本。
作为本公开进一步的技术方案,建图具体过程为,根据所有训练序列建立有向图,在每个用户按照时间顺序使用游戏的时间序列中,对于同一用户名,当从一个游戏跳转到下一个游戏中时,两个游戏在图中建立一条边,或权重增加1,最后再进行权重的归一化;
最后通过networkx导出图的每条边和权重,用于Graph embedding模型的训练。
作为本公开进一步的技术方案,Graph embedding模型采用的是LINE的方法,利用图中已存在的边构造目标函数,该目标函数显式描绘了一阶和二阶的邻近关系;
为构建一阶相似度的模型,设定节点i和节点j有边连接的概率为:
Figure BDA0001965273100000021
其中,ui和uj分别为节点vi和vj的低维潜在表达向量,而p1(vi,vj)的真实值
Figure BDA0001965273100000022
其中W=∑(i,j)∈Ewij,学习过程即为减少以上两个分布的距离的过程,即一阶损失函数为:
Figure BDA0001965273100000023
其中,d为两者的KL-散度值。
作为本公开进一步的技术方案,为构建二阶相似度模型,对于每个节点,构造两个对应的向量,一个是节点的表达向量,一个是当节点被当成上下文时的表达向量,Vj节点出现在Vi节点的上下文的概率为:
Figure BDA0001965273100000031
对应拟合的真实值为
Figure BDA0001965273100000032
其中,di为所有边的权重和,即归一化常数。二阶相似度的损失函数为:
O2=-∑wijlogp2(vj|vi)。
作为本公开进一步的技术方案,训练过程中采用真实值与预测值之间的交叉熵作为损失函数,AUC作为模型的指标,损失函数的计算公式分别如下,其中y为真实值而
Figure BDA0001965273100000033
为模型预测值;
Figure BDA0001965273100000034
本公开的实施例子还公开了基于深度神经网络与图网络的核心用户挖掘系统,包括:
信息数据库建立单元,被配置为根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据,构建用户-游戏历史信息数据库;
数据预处理单元,被配置为对用户-游戏历史信息数据库中的信息进行数据预处理,使之满足长序列建模标准;
感兴趣的游戏预测单元,根据数据预处理后的游戏用户游戏历史序列观测数据,建立以游戏名称为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时间感兴趣的游戏;
核心玩家预测单元,针对每个游戏用户均进行上述有向图的建立,得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家。
本公开的实施例子还公开了基于深度神经网络与图网络的核心用户挖掘系统,包括:
采集单元,采集游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据并传输至服务器;
所述服务器被配置为:根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据,构建用户-游戏历史信息数据库;
对用户-游戏历史信息数据库中的信息进行数据预处理,使之满足长序列建模标准;
根据数据预处理后的游戏用户游戏历史序列观测数据,建立以游戏名称为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时间感兴趣的游戏;
针对每个游戏用户均进行上述有向图的建立,得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家;
显示单元,从服务器中提取某款游戏的核心玩家,并将核心玩家的基本信息进行显示。
本公开的实施例子还公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现按照上述所述的基于深度神经网络与图网络的核心用户挖掘方法的步骤。
与现有技术相比,本公开的有益效果是:
本公开基于深度神经网络与图网络嵌入的融合模型,利用静态与动态特征相结合的方法,将其应用于游戏玩家核心用户挖掘业务中,用以预测某款游戏未来的核心玩家,从而辅助相关运营部门精准营销。
本公开基于图网络嵌入与深度神经网络的融合方法来解决序列预测问题,将时序信息以图网络的形式充分地学习,并融合深度学习方法学习更高层次地交互表达,以此提高模型预测地准确度。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为利用本公开实施例子方法产生的模型示意图;
图2为本公开实施例子所利用的深度神经网络示意图;
图3为本公开实施例子系统单元组成示意图;
图4为本公开实施例子系统构成示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本公开的一种典型的实施方式中,如图1所示,提供了基于深度神经网络与图网络的核心用户挖掘方法,具体步骤为:
步骤S1:收集用户个人信息数据和游戏历史序列观测数据,构建用户-游戏历史信息数据库,该步骤中,游戏历史序列观测数据可以为:用户对某款游戏的每天的登录次数、登录时长、付费次数、付费金额。
步骤S2:清洗数据,根据长序列建模标准,剔除掉历史序列较少的用户。
在具体实施例子中,对用户的历史游戏的登录次数、登录时长、付费次数与付费金额做统计与分析,将每天登陆时长大于24小时和小于30秒的数据剔除;将登录时长或付费金额占该用户名下的所有游戏的时长和充值金额前10%的游戏作为给用户的核心游戏,亦即,该用户为该款游戏的核心用户。
另外,由于模型在丰富的历序列下才能学出用户的动态表达,因此在具体实施例子中,将删除历史序列较短的数据,删除标准是根据数据统计得到。历史序列较少的用户是指对某款游戏的登录次数较少的数据。
步骤S3:选取特征,包含用户性别、年龄等个人信息、历史所玩游戏的付费次数、付费金额、登录时长与登录次数。
在具体实施例子中,为了构建序列预测数据,将清洗后的数据做一定的按时间序列的切割处理,根据登录数据和付费数据,生成模型所需序列和目标。按照所有用户8:2进行分割,80%的用户作为训练,20%的用户作为测试集;同时,序列(包括每个用户按时间顺序登录或者付费过的游戏名称序列)按照4:1进行滑动切割,滑动窗口为1个月。如某用户有12个月的历史序列数据,那么切割方式为1-4月为训练,5月做测试、2-5月为训练,6月做测试、以此类推。切割过程中,生成的测试集序列中的游戏,保证都在训练集序列中出现过。且训练集和测试集的目标都是当月的核心游戏且不在历史序列(前4个月),负样本为历史序列(前4个月)中的样本。
根据登录数据和付费数据,生成模型所需序列和目标,具体为:根据用户登录过或者付费过的游戏,以时间顺序建立游戏的序列,每个游戏作为对应序列中的节点,下一个时间点的登录或者付费游戏作为该序列的预测目标。
在本公开实施例子中,以推荐新游戏作为目标,预测的未来玩家可能会深度玩的游戏,需要是该用户之前没有玩过的游戏。
在本公开实施例子中,负样本要做随机负采样,采样方法为在历史序列中随机采集的游戏,是正样本的新游戏对应的负样本。
步骤S4:根据用户的历史信息即用户登录和付费过的游戏的历史纪录,建立以所有游戏编号后的id为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时点会玩的游戏为目标,根据输出结果和真实预测目标更新模型参数,此处模型采用的是LINE模型,参数为模型中定义的游戏的表达向量,通过向量间的一定的计算得到预测值。
在具体实施例子中,建图具体过程为,根据所有训练序列建立有向图,在每个用户按照时间顺序使用游戏的时间序列中,当一个用户从一个游戏跳转到下一个游戏中时,两个游戏在图中建立一条边,或权重增加1,最后再进行权重的归一化。最后通过networkx导出图的每条边和权重,用于Graph embedding模型的训练。
具体实施时,图网络嵌入方法对每个用户的序列处理成游戏id序列的形式,如[01,03,10,12…]。
本方法中的Graph embedding方法,采用的是LINE的方法,利用图中已存在的边构造目标函数,该目标函数显式描绘了一阶和二阶的邻近关系,通过最小化目标函数的损失来训练模型。
为构建一阶相似度的模型,设定节点i和节点j有边连接的概率为:
Figure BDA0001965273100000061
其中,ui和uj分别为节点vi和vj的低维潜在表达向量。i和j分别为图中的两个不同节点。T表示向量的转置。而p1(vi,vj)的真实值
Figure BDA0001965273100000062
其中W=∑(i,j)∈Ewij,wij表示节点i和节点j之间的连接权重,学习过程即为减少以上两个分布的距离的过程,即一阶损失函数为(其中d为两者的KL-散度值):
Figure BDA0001965273100000063
为构建二阶相似度模型,本方法对于每个节点,构造两个对应的向量,一个是节点的表达向量,一个是当节点被当成上下文时的表达向量。Vj节点出现在Vi节点的上下文的概率为:
Figure BDA0001965273100000065
对应拟合的真实值为
Figure BDA0001965273100000064
其中di为所有边的权重和,即归一化常数。二阶相似度的损失函数为:
O2=-∑wijlogp2(vj|vi)。
步骤S5:直到模型参数收敛,此时得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家为目标,根据输出结果和真实预测目标更新参数,参数为神经网络中的矩阵参数。
具体实施时,关于模型参数的收敛的判断为:模型的损失函数的损失值不再减小,趋于稳定,可视为模型参数收敛。每个游戏的表达具体指每个游戏的表达向量,如上面公式中的ui和uj分别为节点i和j的表达向量。
深度神经网络:将每个用户历史游戏的表达向量,与其个人信息的特征做向量拼接。同时拼接上要预测的游戏的表达,预测该用户是否为该款游戏的核心玩家,是标注为1,不是为0。
神经网络模型的训练过程中采用真实值与预测值之间的交叉熵作为损失函数,AUC作为模型的指标,损失函数的计算公式分别如下,其中y为真实值而
Figure BDA0001965273100000071
为模型预测值。
Figure BDA0001965273100000072
步骤S6:模型参数收敛,此时得到的参数达到全局最优,这些参数就构成了的框架学习出来的新模型。具体为神经网络的模型参数,如神经网络的第二层有128个神经单元,第三层有64个神经单元,那么在二层与三层之间的参数为128*64的权重矩阵。
针对一款新的游戏,可以利用步骤S6所建立的模型,预测哪些用户未来会是该款游戏的核心玩家。
为了验证本公开的实施效果,接下来以在腾讯游戏玩家的真实历史数据上的实验结果作进一步的说明。具体步骤如下:
步骤S1:训练和测试样本抽取规则:2016年7月1日至2018年1月1日的有历史行为的用户。
步骤S2:清洗数据,根据长序列建模标准,剔除掉历史序列较少的用户。
对用户的历史游戏的登录次数、登录时长、付费次数与付费金额做统计与分析,将每天登陆时长大于24小时和小于30秒的数据剔除;将登录时长或付费金额占所有时长和充值金额前10%的游戏作为给用户的核心游戏,亦即,该用户为该款游戏的核心用户。
步骤S3:选取特征,所用特征包括用户年龄、性别、省份、城市等个人简介信息,游戏类别、总下载量、安装包大小、评分,游戏在不同场景的下载量或下载率。用户的历史所玩游戏的登录次数、登录时长、付费次数以及付费金额。
为了构建序列预测数据,将清洗后的数据做一定的按时间序列的切割处理,根据登录数据和付费数据,生成模型所需序列和目标。按照所有用户8:2进行分割,80%的用户作为训练,20%的用户作为测试集;同时,序列按照4:1进行滑动切割,滑动窗口为1个月,并将前4个月作为序列特征,最后1个月作为预测目标。如某用户有12个月的历史序列数据,那么切割方式为1-4月为训练,5月做测试、2-5月为训练,6月做测试、以此类推。切割过程中,生成的测试集序列中的游戏,保证都在训练集序列中出现过。且训练集和测试集的目标都是当月的核心游戏且不在历史序列(前4个月),负样本为历史序列(前4个月)中的样本。
步骤S4:根据用户的历史信息,建立以游戏为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时点会玩的游戏为目标,根据输出结果和真实预测目标更新模型参数。
步骤S5:直到模型参数收敛,此时得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家为目标,根据输出结果和真实预测目标更新参数。
步骤S6:直到模型参数收敛,此时得到的参数达到全局最优,这些参数就构成了我们的框架学习出来的新模型;获得全局最优后,模型最终的AUC以及Baseline方法(不加LINE的深度网络方法),以及传统的LR(logistic regression)和FM(factorizationmachine)进行了指标对比。
实验结果参见附图1,为基于LINE(large-scale Information NetworkEmbedding)的图网络嵌入方法,其输入为利用用户历史所玩游戏的序列构建的有向图节点与边。
参见附图2,为深度神经网络,输入层输入为包括用户性别、年龄等个人信息以及游戏的种类、评分等游戏信息,以及LINE学习出的用户的图嵌入表达信息,隐含层为多层的全连接网络结构,输出层为利用隐含层学到的高阶的交互表达来预测该用户是否为该款游戏的核心用户。
实验结果如表1所示。
表1
Figure BDA0001965273100000081
Figure BDA0001965273100000091
用不加入图网络嵌入方法的深度神经网络与加入后的本公开方法进行了AUC指标对比,本公开方法相比Baseline的DNN方法提高了14.3%,比LR和FM提升的更多,可见本公开方法在核心用户挖掘业务中提升显著。
本公开的上述实施例子能够根据用户的历史所玩的游戏序列较好地预测用户未来会是哪款游戏的核心玩家,实现利用深度学习与图网络嵌入来做数据挖掘和推荐。利用图网络嵌入与深度学习融合方法做游戏玩家核心用户挖掘与预测问题,并达到很好的预测效果。
本公开实施例子的该方法不同于以往模型中的仅用深度学习模型静态地建模,它可以对静态信息与动态序列信息分别建模并做融合,学习到用户在时间序列上更为丰富的转换关系。
本公开实施例子的该方法能对游戏玩家的信息进行建模,并利用时间序列信息更好地挖掘出某款游戏地未来核心玩家。
参见附图3所示,本公开的实施例子还公开了基于深度神经网络与图网络的核心用户挖掘系统,包括:
信息数据库建立单元,被配置为根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据,构建用户-游戏历史信息数据库;
数据预处理单元,被配置为对用户-游戏历史信息数据库中的信息进行数据预处理,使之满足长序列建模标准;
感兴趣的游戏预测单元,根据数据预处理后的游戏用户游戏历史序列观测数据,建立以游戏名称为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时间感兴趣的游戏;
核心玩家预测单元,针对每个游戏用户均进行上述有向图的建立,得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家。
参见附图4所示,本公开的又一实施例子还公开了基于深度神经网络与图网络的核心用户挖掘系统,包括:
采集单元,采集游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据并传输至服务器;
所述服务器被配置为:根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据,构建用户-游戏历史信息数据库;
对用户-游戏历史信息数据库中的信息进行数据预处理,使之满足长序列建模标准;
根据数据预处理后的游戏用户游戏历史序列观测数据,建立以游戏名称为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时间感兴趣的游戏;
针对每个游戏用户均进行上述有向图的建立,得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家;
显示单元,从服务器中提取某款游戏的核心玩家,并将核心玩家的基本信息进行显示。
本公开的实施例子还公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现按照上述所述的基于深度神经网络与图网络的核心用户挖掘方法的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (9)

1.基于深度神经网络与图网络的核心用户挖掘方法,其特征是,包括:
根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据,构建用户-游戏历史信息数据库;
对用户-游戏历史信息数据库中的信息进行数据预处理,使之满足长序列建模标准;
根据数据预处理后的游戏用户游戏历史序列观测数据,建立以游戏名称为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时间感兴趣的游戏;
针对每个游戏用户均进行上述有向图的建立,得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家;
建立有向图的具体过程为,根据所有训练序列建立有向图,在每个用户按照时间顺序使用游戏的时间序列中,对于同一用户名,当从一个游戏跳转到下一个游戏中时,两个游戏在图中建立一条边,或权重增加1,最后再进行权重的归一化;
最后通过networkx导出图的每条边和权重,用于Graph embedding模型的训练。
2.如权利要求1所述的基于深度神经网络与图网络的核心用户挖掘方法,其特征是,对用户-游戏历史信息数据库中的信息进行数据预处理步骤,包括数据清洗,具体为根据长序列建模标准,剔除掉历史序列较少的用户。
3.如权利要求2所述的基于深度神经网络与图网络的核心用户挖掘方法,其特征是,历史序列较少的用户包括将每天登陆时长大于第一设定时间以及小于第二设定时间的数据均剔除。
4.如权利要求1所述的基于深度神经网络与图网络的核心用户挖掘方法,其特征是,对用户-游戏历史信息数据库中的信息进行数据预处理时,还将登录时长或付费金额占所有时长和充值金额前设定百分比的游戏作为给用户的核心游戏,亦即,该用户为该款游戏的核心用户。
5.如权利要求2所述的基于深度神经网络与图网络的核心用户挖掘方法,其特征是,数据清洗步骤之后,进行特征选取,至少包括用户性别、年龄、历史所玩游戏的付费次数、付费金额、登录时长与登录次数。
6.如权利要求5所述的基于深度神经网络与图网络的核心用户挖掘方法,其特征是,将清洗后的数据做一定的按时间序列的切割处理,根据登录数据和付费数据,生成模型所需序列和目标;
按照所有用户设定比例进行分割,大部分的用户作为训练,其余的部分的用户作为测试集;同时,针对序列进行滑动切割,设定滑动窗口,切割过程中,生成的测试集序列中的游戏,保证都在训练集序列中出现过,且训练集和测试集的目标都是当月的核心游戏且不在历史序列,负样本为历史序列中的样本。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现按照权利要求1-6任一所述的基于深度神经网络与图网络的核心用户挖掘方法的步骤。
8.基于深度神经网络与图网络的核心用户挖掘系统,其特征是,包括:
信息数据库建立单元,被配置为根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据,构建用户-游戏历史信息数据库;
数据预处理单元,被配置为对用户-游戏历史信息数据库中的信息进行数据预处理,使之满足长序列建模标准;
感兴趣的游戏预测单元,根据数据预处理后的游戏用户游戏历史序列观测数据,建立以游戏名称为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时间感兴趣的游戏;
核心玩家预测单元,针对每个游戏用户均进行上述有向图的建立,得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家;
建立有向图的具体过程为,根据所有训练序列建立有向图,在每个用户按照时间顺序使用游戏的时间序列中,对于同一用户名,当从一个游戏跳转到下一个游戏中时,两个游戏在图中建立一条边,或权重增加1,最后再进行权重的归一化;
最后通过networkx导出图的每条边和权重,用于Graph embedding模型的训练。
9.基于深度神经网络与图网络的核心用户挖掘系统,其特征是,包括:
采集单元,采集游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据并传输至服务器;
所述服务器被配置为:根据游戏用户个人信息数据和游戏用户对应的游戏历史序列观测数据,构建用户-游戏历史信息数据库;
对用户-游戏历史信息数据库中的信息进行数据预处理,使之满足长序列建模标准;
根据数据预处理后的游戏用户游戏历史序列观测数据,建立以游戏名称为节点,时间顺序为边的有向图,并输入到图网络嵌入方法中,以预测下一时间感兴趣的游戏;
针对每个游戏用户均进行上述有向图的建立,得到的每个游戏的表达,与对应用户的个人信息进行特征拼接,融合输入到深度神经网络中,以预测该用户是否为该款游戏的核心玩家;
显示单元,从服务器中提取某款游戏的核心玩家,并将核心玩家的基本信息进行显示;
建立有向图的具体过程为,根据所有训练序列建立有向图,在每个用户按照时间顺序使用游戏的时间序列中,对于同一用户名,当从一个游戏跳转到下一个游戏中时,两个游戏在图中建立一条边,或权重增加1,最后再进行权重的归一化;
最后通过networkx导出图的每条边和权重,用于Graph embedding模型的训练。
CN201910099267.3A 2019-01-31 2019-01-31 基于深度神经网络与图网络的核心用户挖掘方法及系统 Active CN109597844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910099267.3A CN109597844B (zh) 2019-01-31 2019-01-31 基于深度神经网络与图网络的核心用户挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910099267.3A CN109597844B (zh) 2019-01-31 2019-01-31 基于深度神经网络与图网络的核心用户挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN109597844A CN109597844A (zh) 2019-04-09
CN109597844B true CN109597844B (zh) 2020-12-22

Family

ID=65967143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910099267.3A Active CN109597844B (zh) 2019-01-31 2019-01-31 基于深度神经网络与图网络的核心用户挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN109597844B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555719B (zh) * 2019-07-31 2023-09-29 华南理工大学 一种基于深度学习的商品点击率预测方法
US10970350B2 (en) 2019-08-15 2021-04-06 Advanced New Technologies Co., Ltd. Method and apparatus for processing user interaction sequence data
CN110598847B (zh) * 2019-08-15 2020-08-28 阿里巴巴集团控股有限公司 处理交互序列数据的方法及装置
CN110765352B (zh) * 2019-10-11 2022-11-11 上海上湖信息技术有限公司 一种用户兴趣识别方法及装置
CN110737890B (zh) * 2019-10-25 2021-04-02 中国科学院信息工程研究所 一种基于异质时序事件嵌入学习的内部威胁检测系统及方法
CN111178509B (zh) * 2019-12-30 2023-12-15 深圳万知达科技有限公司 基于时间信息和序列上下文的下一个游戏推荐方法
CN111325340B (zh) * 2020-02-17 2023-06-02 南方科技大学 信息网络关系预测方法及系统
CN111581454B (zh) * 2020-04-27 2023-05-23 清华大学 基于深度图压缩算法的并行查询表现预测系统及方法
CN111966889B (zh) * 2020-05-20 2023-04-28 清华大学深圳国际研究生院 一种图嵌入向量的生成方法以及推荐网络模型的生成方法
CN111681049B (zh) * 2020-06-04 2023-08-11 广州视源电子科技股份有限公司 用户行为的处理方法、存储介质及相关设备
CN111460323B (zh) * 2020-06-17 2020-09-25 腾讯科技(深圳)有限公司 基于人工智能的焦点用户挖掘方法和装置
CN112307256A (zh) * 2020-10-28 2021-02-02 有半岛(北京)信息科技有限公司 一种跨域推荐及模型训练的方法和装置
CN115396715B (zh) * 2022-08-18 2024-01-30 咪咕数字传媒有限公司 桌游互动方法、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615658A (zh) * 2014-12-31 2015-05-13 中国科学院深圳先进技术研究院 一种确定用户身份的方法
CN105511263A (zh) * 2015-12-18 2016-04-20 浙江大学 一种基于层次分解的分布式模型预测控制方法
CN105678582A (zh) * 2016-01-07 2016-06-15 北京乐动卓越科技有限公司 游戏广告定向投放的方法及系统
CN109142171A (zh) * 2018-06-15 2019-01-04 上海师范大学 基于特征扩张的融合神经网络的城市pm10浓度预测方法
CN109284864A (zh) * 2018-09-04 2019-01-29 广州视源电子科技股份有限公司 行为序列获取方法及装置、用户转化率预测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9256969B2 (en) * 2013-02-01 2016-02-09 Microsoft Technology Licensing, Llc Transformation function insertion for dynamically displayed tracer data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615658A (zh) * 2014-12-31 2015-05-13 中国科学院深圳先进技术研究院 一种确定用户身份的方法
CN105511263A (zh) * 2015-12-18 2016-04-20 浙江大学 一种基于层次分解的分布式模型预测控制方法
CN105678582A (zh) * 2016-01-07 2016-06-15 北京乐动卓越科技有限公司 游戏广告定向投放的方法及系统
CN109142171A (zh) * 2018-06-15 2019-01-04 上海师范大学 基于特征扩张的融合神经网络的城市pm10浓度预测方法
CN109284864A (zh) * 2018-09-04 2019-01-29 广州视源电子科技股份有限公司 行为序列获取方法及装置、用户转化率预测方法及装置

Also Published As

Publication number Publication date
CN109597844A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109597844B (zh) 基于深度神经网络与图网络的核心用户挖掘方法及系统
US20210329094A1 (en) Discovering signature of electronic social networks
US20220215032A1 (en) Ai-based recommendation method and apparatus, electronic device, and storage medium
Seker Computerized argument Delphi technique
CN108921221A (zh) 用户特征的生成方法、装置、设备及存储介质
CN107220352A (zh) 基于人工智能构建评论图谱的方法和装置
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN110032630A (zh) 话术推荐设备、方法及模型训练设备
CN106056444A (zh) 数据处理方法和装置
Loh et al. Comparison of similarity measures to differentiate players' actions and decision-making profiles in serious games analytics
CN112612942B (zh) 一种基于社交大数据的基金推荐系统及方法
CN109815631A (zh) 一种游戏数据的处理方法和装置
CN108304853A (zh) 游戏相关度的获取方法、装置、存储介质和电子装置
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN110175857A (zh) 优选业务确定方法及装置
CN113672797A (zh) 一种内容推荐方法及装置
CN109978575A (zh) 一种挖掘用户流量经营场景的方法及装置
CN107644268B (zh) 一种基于多特征的开源软件项目孵化状态预测方法
CN113836388A (zh) 信息推荐方法、装置、服务器及存储介质
CN116738066A (zh) 乡村旅游服务推荐方法、装置、电子设备及存储介质
CN114048294B (zh) 相似人群扩展模型训练方法、相似人群扩展方法和装置
CN112734142B (zh) 基于深度学习的资源学习路径规划方法及装置
CN109753651B (zh) 一种针对体现用户意图的app软件用户评论挖掘方法
Soares et al. Citizen science-based labeling of imprecisely segmented images: Case study and preliminary results
CN111686451A (zh) 一种业务处理方法、装置、设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant