CN112801706A - 一种游戏用户行为数据挖掘方法及系统 - Google Patents
一种游戏用户行为数据挖掘方法及系统 Download PDFInfo
- Publication number
- CN112801706A CN112801706A CN202110156674.0A CN202110156674A CN112801706A CN 112801706 A CN112801706 A CN 112801706A CN 202110156674 A CN202110156674 A CN 202110156674A CN 112801706 A CN112801706 A CN 112801706A
- Authority
- CN
- China
- Prior art keywords
- game
- user
- vector
- login time
- sequence coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000007418 data mining Methods 0.000 title claims description 10
- 239000013598 vector Substances 0.000 claims abstract description 154
- 230000009471 action Effects 0.000 claims abstract description 124
- 230000006399 behavior Effects 0.000 claims abstract description 100
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/60—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
- A63F13/61—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor using advertising information
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/70—Game security or game management aspects
- A63F13/79—Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/70—Game security or game management aspects
- A63F13/79—Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
- A63F13/792—Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories for payment purposes, e.g. monthly subscriptions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/50—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
- A63F2300/55—Details of game data or player data management
- A63F2300/5506—Details of game data or player data management using advertisements
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/50—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
- A63F2300/55—Details of game data or player data management
- A63F2300/5513—Details of game data or player data management involving billing
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/50—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
- A63F2300/55—Details of game data or player data management
- A63F2300/5546—Details of game data or player data management using player registration data, e.g. identification, account, preferences, game history
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种游戏用户行为数据挖掘方法及系统,通过将用户行为数据拆分为用户游戏时的动作子序列和用户登录时间子序列;将两个子序列进行嵌入操作,得到预设维度的用户行为序列和相应的行为类型;对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵;对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量;将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习;利用学习的深度神经网络DNN中进行游戏用户行为的预测。针对游戏用户的原始数据进行挖掘,训练出精准预测游戏用户行为的模型。
Description
技术领域
本申请实施例涉及游戏数据分析技术领域,具体涉及一种游戏用户行为数据挖掘方法及系统。
背景技术
近几年,移动端游戏市场异常火爆,在安卓还是ios平台等移动端平台上,无论是游戏产品还是用户数量都不断攀升;对于一款游戏来说,用户活跃度以及用户付费率尤为重要。
一般来说,这些移动端游戏会存在部分玩家因为种种原因流失掉的现象和游戏内玩家付费率下降的现象,一旦出现大量玩家流失和付费率下降,会严重影响游戏公司的营收;另一方面,游戏要保持一定的热度,往往会通过媒体或社交平台,如抖音/百度/微信朋友圈/今日头条等进行投放买入用户,这个投入是游戏公司主要的运营成本之一,所以如何让进行精准投放也是游戏公司核心研究的方向。
目前大部分的游戏公司都是通过运营来人工统计分析玩家流失状态和玩家付费行为。一般情况下,每天或者在一段时间内,运营会根据游戏内玩家流失和付费等多项指标,来分析玩家流失状态和玩家付费行为,以及分析广告投放的效果。这样不仅工作量很大,也很难找到影响玩家流失状态和玩家付费行为的深层次原因。
发明内容
为此,本申请实施例提供一种游戏用户行为数据挖掘方法及系统,针对游戏用户的原始数据进行挖掘,训练出精准预测游戏用户行为的模型,可以进一步减少人力成本和广告投放成本,实现更加精准的投放。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,提供了一种游戏用户行为数据挖掘方法,所述方法包括:
获取游戏用户行为数据;
将所述用户行为数据拆分为用户游戏时的动作子序列和用户登录时间子序列;
将两个子序列进行嵌入操作,得到预设维度的用户行为序列和相应的行为类型;所述用户行为序列包括游戏动作序列和登录时间序列;
对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵;
对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量;
将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习;
利用学习的深度神经网络DNN中进行游戏用户行为的预测。
可选地,所述对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵,包括:
对用户游戏的动作子序列进行编码,通过embedding层得到把动作子序列向量化的到长度为n的特征向量;
对用户的历史登录数据按照时间窗口拆分为若干个等长度的子序列,并构建形成预定的登录时间特征矩阵。
可选地,所述对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量,包括:
将游戏动作特征向量输入Bi-LSTM网络,得到游戏动作序列编码向量;
将登录时间特征矩阵输入LSTM网络,得到登录时间序列编码向量。
可选地,所述将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习,包括:
将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,输入深度神经网络DNN中进行学习,经过多层网络最后经过softmax分类器,以计算用户类型分类的概率。
根据本申请实施例的第二方面,提供了一种游戏用户行为数据挖掘系统,所述系统包括:
游戏数据预处理模块,用于获取游戏用户行为数据;还用于将所述用户行为数据拆分为用户游戏时的动作子序列和用户登录时间子序列;还用于将两个子序列进行嵌入操作,得到预设维度的用户行为序列和相应的行为类型;所述用户行为序列包括游戏动作序列和登录时间序列;
第一训练模块,用于对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵;
第二训练模块,用于对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量;
深度学习模块,用于将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习;
预测模块,用于利用学习的深度神经网络DNN中进行游戏用户行为的预测。
可选地,所述第一训练模块,具体用于:
对用户游戏的动作子序列进行编码,通过embedding层得到把动作子序列向量化的到长度为n的特征向量;
对用户的历史登录数据按照时间窗口拆分为若干个等长度的子序列,并构建形成预定的登录时间特征矩阵。
可选地,所述第二训练模块,具体用于:
将游戏动作特征向量输入Bi-LSTM网络,得到游戏动作序列编码向量;
将登录时间特征矩阵输入LSTM网络,得到登录时间序列编码向量。
可选地,所述深度学习模块,具体用于:
将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,输入深度神经网络DNN中进行学习,经过多层网络最后经过softmax分类器,以计算用户类型分类的概率。
根据本申请实施例的第三方面,提供了一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行第一方面任一项所述的方法。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如第一方面任一项所述的方法。
综上所述,本申请实施例提供了一种游戏用户行为数据挖掘方法及系统,通过将用户行为数据拆分为用户游戏时的动作子序列和用户登录时间子序列;将两个子序列进行嵌入操作,得到预设维度的用户行为序列和相应的行为类型;所述用户行为序列包括游戏动作序列和登录时间序列;对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵;对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量;将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习;利用学习的深度神经网络DNN中进行游戏用户行为的预测。针对游戏用户的原始数据进行挖掘,训练出精准预测游戏用户行为的模型,可以进一步减少人力成本和广告投放成本,实现更加精准的投放。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本申请实施例提供的一种游戏用户行为数据挖掘方法流程示意图;
图2为本申请实施例提供的游戏用户行为数据挖掘模型框架示意图;
图3为本申请实施例提供的Embedding层的模型框架示意图;
图4为本申请实施例提供的lstm计算单元的网络结构示意图;
图5为本申请实施例提供的一种游戏用户行为数据挖掘系统框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先对本申请实施例涉及的算法进行简述:
embedding:数学中的含义Embedding在数学上表示一个映射关系:f(x)-->y从一个空间映射到另外一个空间,保留基本属性:a.injective(单射的):就是我们所说的单射函数,每个X只有唯一的Y对应;b.structure-preserving(结构保存):比如在X所属的空间上x1<=x2,那么映射后在Y所属空间上同理y1<=y2;在word/graph中的应用高维物体在低维空间只会有一个低维的投影,其意义是将高维数据转换到低维利于算法的处理,同时解决one-hot向量长度随样本的变化而变化,以及无法表示两个实体之间的相关性这一问题。最常见的embeding方法是word2vec,根据语料库中单词的共现关系求出每个单词的embedding,常用的word2vec模型有cbow和skip-gram两种,cbow根据上下文预测中心词,skip-gram根据中心词预测上下文。
LSTM和BI-LSTM:Long Short Term网络——一般就叫做LSTM——是一种RNN特殊的类型,可以学习长期依赖信息。LSTM由Hochreiter&Schmidhuber(1997)提出,并在近期被Alex Graves进行了改良和推广。在很多问题,LSTM都取得相当巨大的成功,并得到了广泛的使用。LSTM通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是LSTM的默认行为,而非需要付出很大代价才能获得的能力。
Bi-LSTM即双向LSTM,较单向的LSTM,Bi-LSTM能更好地捕获序列信号中前后的信息。
LSTM和Bi-LSTM在文本领域取得了极大的成功,本文将它们引入同样是序列信息的游戏行为数据中。
为了减少人力成本和广告投放成本,提高效率,实现更加精准的投放。因此,需要一种能有效地发现游戏中影响玩家流失和付费行为的因素的技术方案,以便有针对性地对游戏进行改进,同时根据付费玩家的行为进行精准投放。
图1示出了本申请实施例提供的一种游戏用户行为数据挖掘方法流程示意图,如图1所示,所述方法包括:
步骤101:获取游戏用户行为数据;
步骤102:将所述用户行为数据拆分为用户游戏时的动作子序列和用户登录时间子序列;
步骤103:将两个子序列进行嵌入操作,得到预设维度的用户行为序列和相应的行为类型;所述用户行为序列包括游戏动作序列和登录时间序列;
步骤104:对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵;
步骤105:对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量;
步骤106:将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习;
步骤107:利用学习的深度神经网络DNN中进行游戏用户行为的预测。
在一种可能的实施方式中,用户的动作序列包括游戏的过程中用户点击按钮的序列,例如打击、移动、点击商店等一些点击操作,动作序列长度是指用户一系列动作的数量;用户的登录时间序列包括:游戏用户每天登录游戏的时间、在线时长等用户登录产生的序列数据;行为类型包括:用户流失、用户付费、用户活跃程度等行为类型。
在一种可能的实施方式中,在步骤104中,所述对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵,包括:
对用户游戏的动作子序列进行编码,通过embedding层得到把动作子序列向量化的到长度为n的特征向量;对用户的历史登录数据按照时间窗口拆分为若干个等长度的子序列,并构建形成预定的登录时间特征矩阵。
在一种可能的实施方式中,在步骤105中,所述对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量,包括:
将游戏动作特征向量输入Bi-LSTM网络,得到游戏动作序列编码向量;将登录时间特征矩阵输入LSTM网络,得到登录时间序列编码向量。
在一种可能的实施方式中,在步骤106中,所述将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习,包括:
将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,输入深度神经网络DNN中进行学习,经过多层网络最后经过softmax分类器,以计算用户类型分类的概率。
下面结合附图2的模型框架对本申请实施例提供的方法进行详细描述。
第一方面,用户行为数据预处理。
获取用户的行为数据,将其拆分为用户游戏内的动作序列和用户的登录时间序列两部分,然后生成预定维度的用户行为序列和相应的行为类型;其中用户的动作序列包括:游戏的过程中用户点击按钮的序列,例如打击、移动、点击商店等一些点击操作,动作序列长度是指用户一系列动作的数量;用户的登录时间序列包括:游戏用户每天登录游戏的时间、在线时长等用户登录产生的序列数据;行为类型包括:用户流失、用户付费、用户活跃程度等行为类型。最终,数据处理成:游戏动作序列+登录时间序列+行为类型(label)。
第二方面,对用户行为序列进行训练得到基础特征向量。该部分主要有两方面:
(1)第一部分是对游戏动作序列进行编码(图2上半的虚线框),该步骤包括:
将用户的动作子序列进行one-hot编码,通过embedding层得到把动作序列向量化的到长度为n的向量,具体如公式(1)所示:
将输入的动作序列转化成固定长度的序列,按照下面公式(2)表示:
s=(s1,s2,……,sn)……公式(2)
如果动作序列长度超过n,则使用最近n个行为。如果不足n,则从后面做padding(补0)直到长度为n。
一般的Embedding训练过程中并不包含循环神经网络(RNN),不能感知到之前动作(behaviour)的位置。本申请实施例输入embedding中结合了位置EmbeddingP信息,并且位置embedding是可学习的。此处的重点是结合使用预训练的BERT模型。
Embedding层的模型框架如图3所示,矩阵表达式如下公式(3)所示:
其中P代表的是位置信息,M是用户输入动作序列。
(2)用户登录序列编码(图2下半部分虚线框图):
该部分相对比较简单,将玩家带的历史登录数据按时间窗口拆分成若干个等长度的子序列,并构建形成预定的序列矩阵如下:
S=[01001 3
10010 5
01010 2
11110 8]
矩阵的宽度固定为4,代表划分的4个时间窗口,序列长度跟时间序列长度n有关,前几位为二进制编码,0或1代表玩家当日是否登录,最后一位代表这个时间窗口用户登录的平均在线时长。
该步骤最终得到:游戏动作embedding后的特征向量+登录时间特征矩阵。
第三方面,将基础特征进一步训练得到特征向量。具体包括以下步骤:
(1)上半部分时候基础的用户动作序列学习。
将embedding层的数据输入Bi-LSTM网络,这部分称为Behaviour Encoder,公式(4)如下:
其中,W是网络学习获得,输入用户动作序列,输出为第一层特征向量。
(2)下半部分是用户的登录序列学习。
该部分是将用户基础的登录特征向量,输入到LSTM网络中,输出是第一层的特征向量。下面为是一个lstm计算单元的网络结构如图4所示,计算公式(5)如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
本过程最终得到:游戏动作序列编码向量和登录时间序列编码向量。
第四方面,拼接特征并输入深度神经网络(DNN)中进行学习。
如图2中的DNN部分,该部分主要将第三方面中处理的特征向量拼接,作为DNN的输入,经过多层网络最后经过softmax分类器计算用户类型分类的概率(流失/非流失,付费/非付费),按照如下公式(6)计算:
P=softmax(Wb+b)……公式(6)
其中,Wb为分类器的权重矩阵,b为正则化偏置换。
第五方面,根据历史数据训练模型来预测。
根据第一方面到第四方面训练获得模型,并将模型保存到计算机中(程序),这样可以实时计算得到每一个用户在未来一段时间是否流失、或者是否付费的概率,输出一个相对准确的量化数据,这样很好的指导运营来做用户增长和用户活跃,例如在SS(funpluns的一款手机游戏)中运用预测的结果来进行广告投放,经过ab-test,实际减少了30%的广告成本,koa(也是一款游戏)节省40%的投放成本。
综上所述,本申请实施例提供了一种游戏用户行为数据挖掘方法,通过将用户行为数据拆分为用户游戏时的动作子序列和用户登录时间子序列;将两个子序列进行嵌入操作,得到预设维度的用户行为序列和相应的行为类型;所述用户行为序列包括游戏动作序列和登录时间序列;对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵;对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量;将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习;利用学习的深度神经网络DNN中进行游戏用户行为的预测。针对游戏用户的原始数据进行挖掘,训练出精准预测游戏用户行为的模型,可以进一步减少人力成本和广告投放成本,实现更加精准的投放。
基于相同的技术构思,本申请实施例还提供了一种游戏用户行为数据挖掘系统,如图5所示,所述系统包括:
游戏数据预处理模块501,用于获取游戏用户行为数据;还用于将所述用户行为数据拆分为用户游戏时的动作子序列和用户登录时间子序列;还用于将两个子序列进行嵌入操作,得到预设维度的用户行为序列和相应的行为类型;所述用户行为序列包括游戏动作序列和登录时间序列;
第一训练模块502,用于对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵;
第二训练模块503,用于对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量;
深度学习模块504,用于将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习;
预测模块505,用于利用学习的深度神经网络DNN中进行游戏用户行为的预测。
在一种可能的实施方式中,所述第一训练模块502,具体用于:对用户游戏的动作子序列进行编码,通过embedding层得到把动作子序列向量化的到长度为n的特征向量;对用户的历史登录数据按照时间窗口拆分为若干个等长度的子序列,并构建形成预定的登录时间特征矩阵。
在一种可能的实施方式中,所述第二训练模块503,具体用于:将游戏动作特征向量输入Bi-LSTM网络,得到游戏动作序列编码向量;将登录时间特征矩阵输入LSTM网络,得到登录时间序列编码向量。
在一种可能的实施方式中,所述深度学习模块504,具体用于:将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,输入深度神经网络DNN中进行学习,经过多层网络最后经过softmax分类器,以计算用户类型分类的概率。
基于相同的技术构思,本申请实施例还提供了一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行所述的方法。
基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行所述的方法。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种游戏用户行为数据挖掘方法,其特征在于,所述方法包括:
获取游戏用户行为数据;
将所述用户行为数据拆分为用户游戏时的动作子序列和用户登录时间子序列;
将两个子序列进行嵌入操作,得到预设维度的用户行为序列和相应的行为类型;所述用户行为序列包括游戏动作序列和登录时间序列;
对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵;
对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量;
将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习;
利用学习的深度神经网络DNN中进行游戏用户行为的预测。
2.如权利要求1所述的方法,其特征在于,所述对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵,包括:
对用户游戏的动作子序列进行编码,通过embedding层得到把动作子序列向量化的到长度为n的特征向量;
对用户的历史登录数据按照时间窗口拆分为若干个等长度的子序列,并构建形成预定的登录时间特征矩阵。
3.如权利要求1所述的方法,其特征在于,所述对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量,包括:
将游戏动作特征向量输入Bi-LSTM网络,得到游戏动作序列编码向量;
将登录时间特征矩阵输入LSTM网络,得到登录时间序列编码向量。
4.如权利要求1所述的方法,其特征在于,所述将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习,包括:
将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,输入深度神经网络DNN中进行学习,经过多层网络最后经过softmax分类器,以计算用户类型分类的概率。
5.一种游戏用户行为数据挖掘系统,其特征在于,所述系统包括:
游戏数据预处理模块,用于获取游戏用户行为数据;还用于将所述用户行为数据拆分为用户游戏时的动作子序列和用户登录时间子序列;还用于将两个子序列进行嵌入操作,得到预设维度的用户行为序列和相应的行为类型;所述用户行为序列包括游戏动作序列和登录时间序列;
第一训练模块,用于对所述用户行为序列进行训练,得到游戏动作embedding后的特征向量和登录时间特征矩阵;
第二训练模块,用于对游戏动作特征向量和登录时间特征矩阵进行训练,得到游戏动作序列编码向量和登录时间序列编码向量;
深度学习模块,用于将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,并输入深度神经网络DNN中进行学习;
预测模块,用于利用学习的深度神经网络DNN中进行游戏用户行为的预测。
6.如权利要求5所述的系统,其特征在于,所述第一训练模块,具体用于:
对用户游戏的动作子序列进行编码,通过embedding层得到把动作子序列向量化的到长度为n的特征向量;
对用户的历史登录数据按照时间窗口拆分为若干个等长度的子序列,并构建形成预定的登录时间特征矩阵。
7.如权利要求5所述的系统,其特征在于,所述第二训练模块,具体用于:
将游戏动作特征向量输入Bi-LSTM网络,得到游戏动作序列编码向量;
将登录时间特征矩阵输入LSTM网络,得到登录时间序列编码向量。
8.如权利要求5所述的系统,其特征在于,所述深度学习模块,具体用于:
将所述游戏动作序列编码向量和登录时间序列编码向量进行特征拼接,输入深度神经网络DNN中进行学习,经过多层网络最后经过softmax分类器,以计算用户类型分类的概率。
9.一种设备,其特征在于,所述设备包括:数据采集装置、处理器和存储器;
所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行如权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110156674.0A CN112801706B (zh) | 2021-02-04 | 2021-02-04 | 一种游戏用户行为数据挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110156674.0A CN112801706B (zh) | 2021-02-04 | 2021-02-04 | 一种游戏用户行为数据挖掘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801706A true CN112801706A (zh) | 2021-05-14 |
CN112801706B CN112801706B (zh) | 2024-02-02 |
Family
ID=75814258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110156674.0A Active CN112801706B (zh) | 2021-02-04 | 2021-02-04 | 一种游戏用户行为数据挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801706B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537560A (zh) * | 2021-06-07 | 2021-10-22 | 同盾科技有限公司 | 用户投保意愿预测的方法、系统、电子装置和存储介质 |
CN113837858A (zh) * | 2021-08-19 | 2021-12-24 | 同盾科技有限公司 | 用户信贷风险预测的方法、系统、电子装置和存储介质 |
CN115511546A (zh) * | 2022-11-23 | 2022-12-23 | 深圳市云积分科技有限公司 | 一种电商用户的行为分析方法、系统、设备及可读介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944915A (zh) * | 2017-11-21 | 2018-04-20 | 北京深极智能科技有限公司 | 一种游戏用户行为分析方法及计算机可读存储介质 |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN108830409A (zh) * | 2018-05-31 | 2018-11-16 | 中国科学技术大学 | 面向众筹平台的捐赠行为与捐赠者保持预测方法 |
CN109034861A (zh) * | 2018-06-04 | 2018-12-18 | 挖财网络技术有限公司 | 基于移动端日志行为数据的用户流失预测方法及装置 |
CN109447361A (zh) * | 2018-11-07 | 2019-03-08 | 成都夏飞科技有限公司 | 基于bp神经网络的游戏用户流失预测方法 |
US20190147231A1 (en) * | 2017-11-16 | 2019-05-16 | Adobe Systems Incorporated | Predictive analysis of target behaviors utilizing rnn-based user embeddings |
CN109919685A (zh) * | 2019-03-18 | 2019-06-21 | 苏州大学 | 客户流失预测方法、装置、设备及计算机可读存储介质 |
US10402692B1 (en) * | 2019-01-22 | 2019-09-03 | StradVision, Inc. | Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same |
CN111460277A (zh) * | 2020-02-19 | 2020-07-28 | 天津大学 | 一种基于移动社交网络树状传输路径的个性化推荐方法 |
-
2021
- 2021-02-04 CN CN202110156674.0A patent/CN112801706B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190147231A1 (en) * | 2017-11-16 | 2019-05-16 | Adobe Systems Incorporated | Predictive analysis of target behaviors utilizing rnn-based user embeddings |
CN107944915A (zh) * | 2017-11-21 | 2018-04-20 | 北京深极智能科技有限公司 | 一种游戏用户行为分析方法及计算机可读存储介质 |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN108830409A (zh) * | 2018-05-31 | 2018-11-16 | 中国科学技术大学 | 面向众筹平台的捐赠行为与捐赠者保持预测方法 |
CN109034861A (zh) * | 2018-06-04 | 2018-12-18 | 挖财网络技术有限公司 | 基于移动端日志行为数据的用户流失预测方法及装置 |
CN109447361A (zh) * | 2018-11-07 | 2019-03-08 | 成都夏飞科技有限公司 | 基于bp神经网络的游戏用户流失预测方法 |
US10402692B1 (en) * | 2019-01-22 | 2019-09-03 | StradVision, Inc. | Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same |
CN109919685A (zh) * | 2019-03-18 | 2019-06-21 | 苏州大学 | 客户流失预测方法、装置、设备及计算机可读存储介质 |
CN111460277A (zh) * | 2020-02-19 | 2020-07-28 | 天津大学 | 一种基于移动社交网络树状传输路径的个性化推荐方法 |
Non-Patent Citations (1)
Title |
---|
陈纬奇,王敬昌,陈岭,杨勇勤,吴勇: "基于深度神经网络的多因素感知终端换机预测模型", 《浙江大学学报(工学版)》, pages 109 - 115 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537560A (zh) * | 2021-06-07 | 2021-10-22 | 同盾科技有限公司 | 用户投保意愿预测的方法、系统、电子装置和存储介质 |
CN113837858A (zh) * | 2021-08-19 | 2021-12-24 | 同盾科技有限公司 | 用户信贷风险预测的方法、系统、电子装置和存储介质 |
CN115511546A (zh) * | 2022-11-23 | 2022-12-23 | 深圳市云积分科技有限公司 | 一种电商用户的行为分析方法、系统、设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112801706B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI788529B (zh) | 基於lstm模型的信用風險預測方法及裝置 | |
CN109902706B (zh) | 推荐方法及装置 | |
CN111784348B (zh) | 账户风险识别方法及装置 | |
CN112801706A (zh) | 一种游戏用户行为数据挖掘方法及系统 | |
Ravichandiran | Deep Reinforcement Learning with Python: Master classic RL, deep RL, distributional RL, inverse RL, and more with OpenAI Gym and TensorFlow | |
Salehinejad et al. | Customer shopping pattern prediction: A recurrent neural network approach | |
CN108648020A (zh) | 用户行为量化方法、系统、设备及存储介质 | |
CN108959482A (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
JP7059458B2 (ja) | 生成的敵対神経網ベースの分類システム及び方法 | |
CN111352965A (zh) | 序列挖掘模型的训练方法、序列数据的处理方法及设备 | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
CN111709754A (zh) | 一种用户行为特征提取方法、装置、设备及系统 | |
CN110598120A (zh) | 基于行为数据的理财推荐方法及装置、设备 | |
Petropoulos et al. | A hidden Markov model with dependence jumps for predictive modeling of multidimensional time-series | |
Genet et al. | A Temporal Kolmogorov-Arnold Transformer for Time Series Forecasting | |
CN111221881B (zh) | 用户特征数据合成方法、装置及电子设备 | |
CN112785005A (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN109902273A (zh) | 关键词生成模型的建模方法和装置 | |
Ayyadevara | Neural Networks with Keras Cookbook: Over 70 recipes leveraging deep learning techniques across image, text, audio, and game bots | |
Yuan et al. | Deep learning from a statistical perspective | |
Seddik et al. | Multi-variable time series decoding with long short-term memory and mixture attention | |
CN111311000A (zh) | 用户消费行为预测模型训练方法、装置、设备及存储介质 | |
CN116703466A (zh) | 基于改进灰狼算法的系统访问量预测方法及其相关设备 | |
CN117196744A (zh) | 商品推荐方法、装置、设备及计算机可读存储介质 | |
CN113947431A (zh) | 一种用户行为质量评估方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |