CN110732139A - 检测模型的训练方法和用户数据的检测方法、装置 - Google Patents
检测模型的训练方法和用户数据的检测方法、装置 Download PDFInfo
- Publication number
- CN110732139A CN110732139A CN201911025897.2A CN201911025897A CN110732139A CN 110732139 A CN110732139 A CN 110732139A CN 201911025897 A CN201911025897 A CN 201911025897A CN 110732139 A CN110732139 A CN 110732139A
- Authority
- CN
- China
- Prior art keywords
- sample data
- data
- label
- detection model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 269
- 238000012549 training Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000001914 filtration Methods 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 20
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000009991 scouring Methods 0.000 description 8
- 238000006467 substitution reaction Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000013138 pruning Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 208000015041 syndromic microphthalmia 10 Diseases 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/70—Game security or game management aspects
- A63F13/75—Enforcing rules, e.g. detecting foul play or generating lists of cheating players
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/50—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
- A63F2300/55—Details of game data or player data management
- A63F2300/5586—Details of game data or player data management for enforcing rights or rules, e.g. to prevent foul play
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种检测模型的训练方法和用户数据的检测方法、装置,涉及数据处理领域。该方法包括:获取至少两个用户各自对应的样本数据;基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据;基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型;通过所述第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据;基于各个第一标签样本数据和各个第二标签样本数据对所述第一检测模型进行训练,得到训练后的检测模型。本申请提升了检测模型的检测精度和鲁棒性。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种检测模型的训练方法、装置、电子设备及计算机可读存储介质,以及一种用户数据的检测方法、装置、电子设备及计算机可读存储介质。
背景技术
MOBA(Multiplayer Online Battle Arena),指的是多人在线战术竞技游戏,这类游戏的玩法是:在游戏对局的战斗中一般需要购买装备,玩家通常被分为两队,两队在分散的游戏地图中互相竞争,每个玩家都通过一个界面控制所选的角色。
通常来说,每个玩家都会使用自己的账号进行游戏对局,但是,因为每个玩家的能力不同,所以各个玩家的账号的游戏属性也不相同,比如游戏角色等级、声望、装备、游戏币等。因此,有的能力较低的玩家为了快速提升自己账号的游戏属性,会采用“代练”、“盗号”,或者“租号”等方式来实现。
代练:是指在游戏中第三方玩家通过收费的方式代替账号拥有者进行游戏的行为,通过拥有比账号拥有者更熟练的技术达到快速赚取游戏角色等级,声望,装备,游戏币等目标,从而帮助账号拥有者快速提高其账号的游戏属性。
盗号:指的是通过一定手段,盗取他人账号和密码,从而获取他人账号的游戏属性。
租号:是指玩家向第三方中介平台租赁游戏账号拥有者闲置的游戏账号,根据账号的游戏属性定价,包括时租、包夜、日租等方式,租赁过程中租客可以随时体验账号的任何游戏属性,往往一个租赁账号的装备、角色、道具等都远远比普通玩家的账号多。
不管是代练、租号,还是盗号,都会给游戏环境造成一定的危害和负面影响。尤其是盗号,是一种不合理的手段,侵犯了账号拥有者的合法权利。因此,如何对玩家账号的异常行为进行检测成为了亟需解决的问题。
针对上述问题,目前存在IP跳变、机器码变更,以及客户端样本等检测方法。
IP跳变:对于盗号等具有明显黑产特点的行为,IP是比较显著的恶意特征,因为黑产的IP资源是有限的,而且无法做到IP欺骗。IP维度的攻击/登录显现量大但成功率低,对于大规模的登录账号和扫号,这个特征有助于排查异常IP背后的盗号/代练等行为。
机器码变更:黑产的设备类型、登录号段、登录版本等也可用于识别账号异常登录的机器,从而判断账号是否发生被盗、异地游戏等情况,对于代练行为,单台机器的登录账号数量,对局数量,对局胜率相较于个人玩家机器都有一定的差异。
客户端样本:各大线上代练平台/代练软件兴起,并逐渐形成成熟的产业链,个人玩家通过平台发布代练需求,代练平台集中分配代练单给雇佣的打手进行代打,在代练过程中,客户端可以上报图标hash,进程名等代练软件特征,来识别账号是否正在进行代练对局。
但是IP跳变、机器码变更、客户端样本等检测方法存在被绕过的风险,并且运营成本高且检测的覆盖度存在瓶颈,同时对于部分大网关等登录账号比较多的IP、登录账号数量较多的网吧机器等都存在误判的风险。因此检测的精度较低、鲁棒性较低。
发明内容
本申请提供了一种检测模型的训练方法和用户数据的检测方法、装置,可以解决对玩家账号的异常行为进行检测的现有方法的检测精度较底、鲁棒性较低的问题。所述技术方案如下:
一方面,提供了一种检测模型的训练方法,该方法包括:
获取至少两个用户各自对应的样本数据;
基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据;
基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型;
通过所述第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据;
基于各个第一标签样本数据和各个第二标签样本数据对所述第一检测模型进行训练,得到训练后的检测模型。
优选地,所述基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据的步骤,包括:
当任一样本数据满足预设条件、获取所述任一样本数据时未检测到预设的指定进程,以及所述任一样本数据对应唯一的网络地址时,将所述任一样本数据确定为正样本数据,并为所述正样本数据设置白名单标签,得到第一标签样本数据;
或,
当任一样本数据满足所述预设条件,以及获取所述任一样本数据时检测到所述指定进程时,将所述任一样本数据确定为负样本数据,并为所述正样本数据设置黑名单标签,得到第一标签样本数据;
或,
当任一样本数据满足所述预设条件且获取所述任一样本数据时未检测到预设的指定进程,以及所述任一样本数据不对应唯一的网络地址时,将所述任一样本数据确定为灰样本数据,并对所述灰样本数据不设置标签,得到无标签样本数据。
优选地,在所述基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型的步骤之前,还包括以下任一项:
当正样本数据的数量与负样本数据的数量的比例超过比例阈值时,基于负样本数据构建新的负样本数据,直至正样本数据的数量与负样本数据的数量的比例不超过所述比例阈值,并将所述正样本数据、包括新构建的负样本数据的各个负样本数据作为对预设的检测模型进行训练的第一标签样本数据;
当负样本数据的数量与正样本数据的数量的比例超过所述比例阈值时,基于正样本数据构建新的正样本数据,直至负样本数据的数量与正样本数据的数量的比例不超过所述比例阈值,并将所述负样本数据、包括新构建的正样本数据的各个正样本数据作为对预设的检测模型进行训练的第一标签样本数据。
优选地,基于比例小的样本数据构建新的样本数据,包括:
针对比例小的样本数据,计算其中任一样本数据与除所述任一样本数据外的其它各个样本数据的相似度,并确定出相似度最高的m个第一样本数据;其中,m为正整数;
基于所述比例从m个第一样本数据中确定出n个第二样本数据;其中,n为小于m的正整数;
基于所述比例与比例阈值的比例差值为n个第二样本数据构建各自对应的样本数据,得到所述比例差值*n个新的样本数据,所述新的样本数据与比例小的样本数据具有相同的标签。
优选地,所述样本数据包括至少两个特征数据;
在所述基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型的步骤之前,还包括:
通过预设的特征过滤模型对所述样本数据中的各个特征数据进行过滤,得到过滤后的至少两个目标特征数据,并将各个目标特征数据作为预设的检测模型的指定特征数据。
优选地,所述通过预设的特征过滤模型对所述样本数据中的各个特征数据进行过滤,得到过滤后的至少两个目标特征数据的步骤,包括:
通过所述特征过滤模型得到各个特征数据的重要度平均值,并确定出平均值最高的预设数量的第一特征数据;
采用前向过滤和向后过滤从各个特征数据中除所述第一特征数据之外的特征数据中确定出至少一个第二特征数据;
将各个第一特征数据和各个第二特征数据作为过滤后的至少两个目标特征数据。
优选地,基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型的步骤,包括:
从各个第一标签样本数据中提取出各自对应的指定特征数据,得到各个第一指定特征数据;
采用各个第一指定特征数据对所述预设的检测模型进行训练,得到所述第一检测模型;
基于各个第一标签样本数据和各个第二标签样本数据对所述第一检测模型进行训练,得到训练后的检测模型的步骤,包括:
从各个第二标签样本数据中提取出各自对应的指定特征数据,得到各个第二指定特征数据;
采用各个第一指定特征数据和各个第二指定特征数据对所述第一检测模型进行训练,得到所述训练后的检测模型。
优选地,所述基于各个第一标签样本数据和各个第二标签样本数据对所述第一检测模型进行训练,得到训练后的检测模型的步骤,包括:
确定出各个第一标签样本数据中各自对应的第一噪声数据,以及,各个第二标签样本数据中各自对应的第二噪声数据;
对各个第一标签样本数据中的各个第一噪声数据进行过滤,得到至少两个过滤后的第一标签样本数据,以及,对各个第二标签样本数据中的各个第二噪声数据进行过滤,得到至少两个过滤后的第二标签样本数据;
计算得到各个过滤后的第一标签样本数据各自对应的权重,以及各个过滤后的第二标签样本数据各自对应的权重;
采用各个过滤后的第一标签样本数据、各个过滤后的第一标签样本数据各自对应的权重、各个过滤后的第二标签样本数据,以及各个过滤后的第二标签样本数据各自对应的权重对所述第一检测模型进行训练,直至所述第一检测模型的损失函数最小值收敛,得到所述训练后的检测模型。
另一方面,提供了一种用户数据的检测方法,该方法包括:
获取待检测用户的待检测数据;
通过第一方面所示的检测模型从所述历史数据中提取出指定特征数据,并基于所述指定特征数据对所述待检测用户存在异常行为的概率进行预测,并基于预测结果确定出针对所述待检测用户的检测结果。
优选地,所述获取待检测用户的历史数据的步骤,包括:
获取所述待检测用户在预设时间段内的日志文件;
从所述日志文件中提取出待检测数据;所述待检测数据包括所述待检测用户在所述预设时间段内的游戏数据。
另一方面,提供了一种检测模型的训练的装置,该装置包括:
第一获取模块,用于获取至少两个用户各自对应的样本数据;
标签设置模块,用于基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据;
第一处理模块,用于基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型;
第二处理模块,用于通过所述第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据;
第三处理模块,用于基于各个第一标签样本数据和各个第二标签样本数据对所述第一检测模型进行训练,得到训练后的检测模型。
优选地,所述标签设置模块具体用于:
当任一样本数据满足预设条件、获取所述任一样本数据时未检测到预设的指定进程,以及所述任一样本数据对应唯一的网络地址时,将所述任一样本数据确定为正样本数据,并为所述正样本数据设置白名单标签,得到第一标签样本数据;
或,
当任一样本数据满足所述预设条件,以及获取所述任一样本数据时检测到所述指定进程时,将所述任一样本数据确定为负样本数据,并为所述正样本数据设置黑名单标签,得到第一标签样本数据;
或,
当任一样本数据满足所述预设条件且获取所述任一样本数据时未检测到预设的指定进程,以及所述任一样本数据不对应唯一的网络地址时,将所述任一样本数据确定为灰样本数据,并对所述灰样本数据不设置标签,得到无标签样本数据。
优选地,所述装置还包括构建模块,用于:
当正样本数据的数量与负样本数据的数量的比例超过比例阈值时,基于负样本数据构建新的负样本数据,直至正样本数据的数量与负样本数据的数量的比例不超过所述比例阈值,并将所述正样本数据、包括新构建的负样本数据的各个负样本数据作为对预设的检测模型进行训练的第一标签样本数据;
或,
当负样本数据的数量与正样本数据的数量的比例超过所述比例阈值时,基于正样本数据构建新的正样本数据,直至负样本数据的数量与正样本数据的数量的比例不超过所述比例阈值,并将所述负样本数据、包括新构建的正样本数据的各个正样本数据作为对预设的检测模型进行训练的第一标签样本数据。
优选地,所述构建模块具体用于:
针对比例小的样本数据,计算其中任一样本数据与除所述任一样本数据外的其它各个样本数据的相似度,并确定出相似度最高的m个第一样本数据;其中,m为正整数;基于所述比例从m个第一样本数据中确定出n个第二样本数据;其中,n为小于m的正整数;基于所述比例与比例阈值的比例差值为n个第二样本数据构建各自对应的样本数据,得到所述比例差值*n个新的样本数据,所述新的样本数据与比例小的样本数据具有相同的标签。
优选地,所述样本数据包括至少两个特征数据;
所述装置还包括:
过滤模块,用于通过预设的特征过滤模型对所述样本数据中的各个特征数据进行过滤,得到过滤后的至少两个目标特征数据,并将各个目标特征数据作为预设的检测模型的指定特征数据。
优选地,过滤模块具体用于:
通过所述特征过滤模型得到各个特征数据的重要度平均值,并确定出平均值最高的预设数量的第一特征数据;采用前向过滤和向后过滤从各个特征数据中除所述第一特征数据之外的特征数据中确定出至少一个第二特征数据;将各个第一特征数据和各个第二特征数据作为过滤后的至少两个目标特征数据。
优选地,所述第一处理模块具体用于:
从各个第一标签样本数据中提取出各自对应的指定特征数据,得到各个第一指定特征数据;采用各个第一指定特征数据对所述预设的检测模型进行训练,得到所述第一检测模型;
所述第三处理模块具体用于:
从各个第二标签样本数据中提取出各自对应的指定特征数据,得到各个第二指定特征数据;采用各个第一指定特征数据和各个第二指定特征数据对所述第一检测模型进行训练,得到所述训练后的检测模型。
优选地,所述第三处理模块,具体用于:
确定出各个第一标签样本数据中各自对应的第一噪声数据,以及,各个第二标签样本数据中各自对应的第二噪声数据;
对各个第一标签样本数据中的各个第一噪声数据进行过滤,得到至少两个过滤后的第一标签样本数据,以及,对各个第二标签样本数据中的各个第二噪声数据进行过滤,得到至少两个过滤后的第二标签样本数据;
计算得到各个过滤后的第一标签样本数据各自对应的权重,以及各个过滤后的第二标签样本数据各自对应的权重;
采用各个过滤后的第一标签样本数据、各个过滤后的第一标签样本数据各自对应的权重、各个过滤后的第二标签样本数据,以及各个过滤后的第二标签样本数据各自对应的权重对所述第一检测模型进行训练,直至所述第一检测模型的损失函数最小值收敛,得到所述训练后的检测模型。
另一方面,提供了一种用户数据的检测的装置,该装置包括:
第二获取模块,用于获取待检测用户的待检测数据;
第四处理模块,用于通过如权利要求1~8任一所述的训练后的检测模型从所述历史数据中提取出指定特征数据,并基于所述指定特征数据对所述待检测用户存在异常行为的概率进行预测,并基于预测结果确定出针对所述待检测用户的检测结果。
优选地,所述第二获取模块,包括:
日志文件获取子模块,用于获取所述待检测用户在预设时间段内的日志文件;
提取子模块,用于从所述日志文件中提取出待检测数据;所述待检测数据包括所述待检测用户在所述预设时间段内的游戏数据。
另一方面,提供了一种电子设备,该电子设备包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请的第一方面所示的检测模型的训练方法对应的操作。
另一方面,提供了一种电子设备,该电子设备包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请的第二方面所示的用户数据的检测方法对应的操作。
另一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的检测模型的训练方法。
另一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第二方面所示的用户数据的检测方法。
本申请提供的技术方案带来的有益效果是:
在本发明实施例中,首先获取至少两个用户各自对应的样本数据,然后基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据,并基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,接着通过所述第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据,进一步基于各个第一标签样本数据和各个第二标签样本数据对所述第一检测模型进行训练,得到训练后的检测模型。这样,采用对样本数据进行分类后得到的各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,再采用第一检测模型对各个无标签样本数据进行分类,得到各个第二标签样本数据,从而不仅实现了对所有样本数据进行分类,而且还是采用训练得到的第一检测模型对无标签样本数据进行分类,提高了样本数据的利用率和样本数据分类的准确性。并且,对各个标签样本数据中的噪声数据进行过滤,并基于过滤后的各个标签样本数据对第一检测模型进行训练,不仅提高了标签样本数据的纯度,而且也提升了检测模型的检测精度和鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请一个实施例提供的一种检测模型的训练方法的流程示意图;
图2为本申请另一实施例提供的一种用户数据的检测方法的流程示意图;
图3为本申请又一实施例提供的一种用户数据的检测方法的流程示意图;
图4为本申请又一实施例提供的一种检测模型的训练装置的结构示意图;
图5为本申请又一实施例提供的一种用户数据的检测装置的结构示意图
图6为本申请又一实施例提供的一种检测模型的训练的电子设备的结构示意图;
图7为本申请又一实施例提供的一种用户数据的检测的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请提供的检测模型的训练方法、装置、电子设备和计算机可读存储介质,以及用户数据的检测方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
在一个实施例中提供了一种检测模型的训练方法,如图1所示,该方法包括:
步骤S101,获取至少两个用户各自对应的样本数据;
其中,样本数据可以是采集用户的一个账号在预设时间段内的游戏数据,游戏的类型可以是MOBA,比如英雄联盟。
在实际应用中,经过数据统计可知大部分代练等行为发生在连续登录游戏的3~5天之内,所以,本发明实施例可以将预设时间段设置为10天的观察期,以保证观察期中有代练期(非用户本人登录游戏的时期)和非代练期(用户本人登录游戏的时期),从而有利于提取数据特征,同时增加一定容错性。
当然,预设时间段的具体时间可以根据实际需求进行设置,本发明实施例对此不作限制。
步骤S102,基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据;
在获取到各个样本数据之后,并不是直接采用各个样本数据对预设的检测模型进行训练,需要对各个样本数据进行分类,也就是为各个样本数据设置各自对应的标签或者不设置标签,得到多个第一标签样本数据和多个无标签样本数据,以便于后续采用多个第一标签样本数据对预设的检测模型进行训练。
步骤S103,基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型;
其中,预设的检测模型可以是半监督剪枝深度神经网络模型(RP-SDNN),半监督指的是基于无标签样本数据对检测模型进行训练,剪枝指的是对样本数据中的噪声数据进行过滤,解决了样本数据纯度较低的问题,基于半监督和剪枝可以提升检测模型的训练精度和鲁棒性。
步骤S104,通过第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据;
具体而言,采用第一检测对各个无标签样本数据(灰样本数据)进行分类,也就是预测各个无标签样本数据到底是正样本数据还是负样本数据。对各个无标签样本数据进行分类之后得到各个第二标签样本数据,其中,一部分为正样本数据,设置有白名单标签,另一部分为负样本数据,设置有黑名单标签。这样,各个灰样本数据全部都进行了分类,步骤S101中获取的所有样本数据被分成了两类,一部分为正样本数据,另一部分为负样本数据。
步骤S105,基于各个第一标签样本数据和各个第二标签样本数据对第一检测模型进行训练,得到训练后的检测模型。
在本发明实施例中,首先获取至少两个用户各自对应的样本数据,然后基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据,并基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,接着通过第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据,进一步基于各个第一标签样本数据和各个第二标签样本数据对第一检测模型进行训练,得到训练后的检测模型。这样,采用对样本数据进行分类后得到的各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,再采用第一检测模型对各个无标签样本数据进行分类,得到各个第二标签样本数据,从而不仅实现了对所有样本数据进行分类,而且还是采用训练得到的第一检测模型对无标签样本数据进行分类,提高了样本数据的利用率和样本数据分类的准确性。并且,对各个标签样本数据中的噪声数据进行过滤,并基于过滤后的各个标签样本数据对第一检测模型进行训练,不仅提高了标签样本数据的纯度,而且也提升了检测模型的检测精度和鲁棒性。
在另一个实施例中继续对如图1所示的一种检测模型的训练方法进行详细说明。
步骤S101,获取至少两个用户各自对应的样本数据;
其中,样本数据可以是采集用户的一个账号在预设时间段内的游戏数据,游戏的类型可以是MOBA,比如英雄联盟。
在实际应用中,经过数据统计可知大部分代练等行为发生在连续登录游戏的3~5天之内,所以,本发明实施例可以将预设时间段设置为10天的观察期,以保证观察期中有代练期(非用户本人登录游戏的时期)和非代练期(用户本人登录游戏的时期),从而有利于提取数据特征,同时增加一定容错性。
当然,预设时间段的具体时间可以根据实际需求进行设置,本发明实施例对此不作限制。
步骤S102,基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据;
在获取到各个样本数据之后,并不是直接采用各个样本数据对预设的检测模型进行训练,需要对各个样本数据进行分类,也就是为各个样本数据设置各自对应的标签或者不设置标签,得到多个第一标签样本数据和多个无标签样本数据,以便于后续采用多个第一标签样本数据对预设的检测模型进行训练。
在本发明一种优选实施例中,基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据的步骤,包括:
当任一样本数据满足预设条件、获取任一样本数据时未检测到预设的指定进程,以及任一样本数据对应唯一的网络地址时,将任一样本数据确定为正样本数据,并为正样本数据设置白名单标签,得到第一标签样本数据;
或,
当任一样本数据满足预设条件,以及获取任一样本数据时检测到指定进程时,将任一样本数据确定为负样本数据,并为正样本数据设置黑名单标签,得到第一标签样本数据;
或,
当任一样本数据满足预设条件且获取任一样本数据时未检测到预设的指定进程,以及任一样本数据不对应唯一的网络地址时,将任一样本数据确定为灰样本数据,并对灰样本数据不设置标签,得到无标签样本数据。
通常来说,代练都是在代练工作室等场所中进行的,代练工作室会通过代练软件在各个网络平台上发布代练信息,用户通过代练信息找到代练工作室并购买代练产品,从而完成交易。因此,本发明实施例在采集用户的游戏数据时,可以检测登录某个账号的终端中是否安装有代练软件,或者具有相同功能的其它软件,具体的可以是检测终端中是否运行了具有代练相关功能的指定进程。
其中,终端可以具有如下特点:
(1)在硬件体系上,设备具备中央处理器、存储器、输入部件和输出部件,也就是说,设备往往是具备通信功能的微型计算机设备。另外,还可以具有多种输入方式,诸如键盘、鼠标、触摸屏、送话器和摄像头等,并可以根据需要进行调整输入。同时,设备往往具有多种输出方式,如受话器、显示屏等,也可以根据需要进行调整;
(2)在软件体系上,设备必须具备操作系统,如Windows Mobile、Symbian、Palm、Android、iOS等。同时,这些操作系统越来越开放,基于这些开放的操作系统平台开发的个性化应用程序层出不穷,如通信簿、日程表、记事本、计算器以及各类游戏等,极大程度地满足了个性化用户的需求;
(3)在通信能力上,设备具有灵活的接入方式和高带宽通信性能,并且能根据所选择的业务和所处的环境,自动调整所选的通信方式,从而方便用户使用。设备可以支持GSM(Global System for Mobile Communication,全球移动通信系统)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、CDMA2000(Code Division MultipleAccess,码分多址)、TDSCDMA(Time Division-Synchronous Code Division MultipleAccess,时分同步码分多址)、Wi-Fi(Wireless-Fidelity,无线保真)以及WiMAX(WorldwideInteroperability for Microwave Access,全球微波互联接入)等,从而适应多种制式网络,不仅支持语音业务,更支持多种无线数据业务;
(4)在功能使用上,设备更加注重人性化、个性化和多功能化。随着计算机技术的发展,设备从“以设备为中心”的模式进入“以人为中心”的模式,集成了嵌入式计算、控制技术、人工智能技术以及生物认证技术等,充分体现了以人为本的宗旨。由于软件技术的发展,设备可以根据个人需求调整设置,更加个性化。同时,设备本身集成了众多软件和硬件,功能也越来越强大。
进一步,除了检测终端中是否运行了指定进程之外,还可以从同一账号的游戏数据(样本数据)中提取出指定的特征数据,并判断指定的特征数据是否满足预设条件。比如,从某个账号的游戏数据(样本数据)中提取出该账号在观察期内进行的游戏对局数以及胜率,然后判断对局数和胜率是否同时满足预设条件。
还可以获取登录游戏时该账号对应的网络地址,比如终端的IP地址、MAC地址等。
若在观察期内,某个账号的游戏数据中的对局数和胜率均未超过对局数阈值和胜率阈值、在登录该账号的终端中没有检测到指定进程,以及网络地址是唯一的,那么就可以确定在观察期内,该账号的游戏数据为正样本数据,并对正样本数据设置白名单标签,从而得到第一样本标签数据。
若在观察期内,某个账号的游戏数据中的对局数超过了对局数阈值,和/或,胜率超过了胜率阈值,以及在登录该账号的终端中检测到了指定进程,那么不需要判断网络地址是否唯一,就可以确定在观察期内,该账号的游戏数据为负样本数据,并对负样本数据设置黑名单标签,从而得到第一样本标签数据。
若在观察期内,某个账号的游戏数据中的对局数和胜率均未超过对局数阈值和胜率阈值、在登录该账号的终端中没有检测到指定进程,但是网络地址不是唯一的,这种情况就可能是网络地址发生了变动,或者是非用户本人在其它电脑上登录了用户本人的账号等,所以,这种情况需要进一步检测,因此,可以确定在观察期内,该账号的游戏数据为灰样本数据,并对灰样本数据不设置标签,从而得到无标签数据,以便于在后续对灰样本数据进行进一步检测。
需要说明的是,除了针对代练的账号之外,针对租号和盗号的账号也可以采用上述方法进行检测,在此就不赘述了。
进一步,除了在登录该账号的终端中检测到了指定进程之外,如果某个账号存在观察期内存在被举报记录,和/或被处罚记录,那么也可以将该账号的样本数据确定为负样本数据。
更进一步,在本发明实施例中,可以对样本数据设置标签,也可以对账号设置标签,具体情况可以根据实际需求进行调整,本发明实施例对此不作限制。
在本发明一种优选实施例中,还包括以下任一项:
当正样本数据的数量与负样本数据的数量的比例超过比例阈值时,基于负样本数据构建新的负样本数据,直至正样本数据的数量与负样本数据的数量的比例不超过比例阈值,并将正样本数据、包括新构建的负样本数据的各个负样本数据作为对预设的检测模型进行训练的第一标签样本数据;
当负样本数据的数量与正样本数据的数量的比例超过比例阈值时,基于正样本数据构建新的正样本数据,直至负样本数据的数量与正样本数据的数量的比例不超过比例阈值,并将负样本数据、包括新构建的正样本数据的各个正样本数据作为对预设的检测模型进行训练的第一标签样本数据。
具体而言,当正样本数据的数量与负样本数据的数量的差距较大时,会对模型训练的结果造成影响,所以,需要基于正样本数据的数量与负样本数据的数量的比例,以及比例小的各个样本数据来构建新的样本数据,新的样本数据和比例小的样本数据具有相同的标签,直到正样本数据的数量与负样本数据的数量的比例不超过比例阈值,得到新的样本数据,然后将新的样本数据、原始的第一标签样本数据作为最终的第一标签样本数据。
比如,构建新的正样本数据时,基于原始的正样本数据的数量与负样本数据的数量的比例,以及各个原始的正样本数据构建正样本数据,得到新的正样本数据,然后将原始的正样本数据、负样本数据,以及新的正样本数据作为最终的第一标签样本数据。
其中,基于比例小的样本数据构建新的样本数据,包括:
针对比例小的样本数据,计算其中任一样本数据与除任一样本数据外的其它各个样本数据的相似度,并确定出相似度最高的m个第一样本数据;其中,m为正整数;
基于比例从m个第一样本数据中确定出n个第二样本数据;其中,n为小于m的正整数;
基于比例与比例阈值的比例差值为n个第二样本数据构建各自对应的样本数据,得到比例差值*n个新的样本数据,新的样本数据与比例小的样本数据具有相同的标签。
以正样本数据的数量小于负样本数据的数量,且正样本数据的数量与负样本数据的数量的比例超过比例阈值为例进行举例说明。
比如,确定的正样本数据的数量为5000,负样本数据的数量为20000,预设的比例阈值为1:1,此时正样本数据的数量与负样本数据的数量的比例为1:4,超过了比例阈值1:1,因此需要对构建正样本数据。
具体地,针对任一正样本数据,计算该正样本数据与其它4999个正样本数据的相似度,比如,计算该正样本数据与其它4999个正样本数据的欧氏距离,得到4999个计算结果,并从4999个计算结果中选择出相似度最高的m个第一正样本数据,比如5个。
然后从5个第一正样本数据中随机选择n个第二正样本数据,比如3个,并通过计算得到比例差值为1:3,因此,针对每一个第二正样本数据采用smote算法构建3个新的正样本数据,从而得到总共9个新的正样本数据。
需要说明的是,构建负样本数据的过程与构建正样本数据的原理相同,在此就不赘述了。
在本发明一种优选实施例中,还包括:
通过预设的特征过滤模型对样本数据中的各个特征数据进行过滤,得到过滤后的至少两个目标特征数据,并将各个目标特征数据作为预设的检测模型的指定特征数据。
具体而言,样本数据包括至少两个特征数据。比如,对局数和胜率都是特征数据,除此之外,每场对局的发育能力、用户的登录习惯、游戏评价,以及上分习惯等也属于特征数据。
而且,还可以进一步将观察期中所有的对局按时间排序,划分时间窗口,以最近k场对局作为一个时间窗口,统计每个时间窗口所有对局的发育能力、用户的登录习惯、游戏评价,以及上分习惯等维度上的平均值作为窗口状态特征,比如第1~5局作为窗口期1,第6~10局作为窗口期2等,同时计算相邻两个窗口对应特征比值作为窗口趋势特征,比如窗口期1与窗口期2的比值。其中,窗口状态特征和窗口趋势特征也属于特征数据。
更进一步,发育能力可以包括补兵、经济、击杀野怪等特征,登录习惯可以包括跨越自然日的固定对局数量、连续对局时间等特征,游戏评价可以包括KDA、输出比、参团率、伤害、最大击杀、elo变化等特征,上分习惯可以包括角度熟练度、角色胜率、角色出场率、单排频率、组队频率、评分置信度等特征。
也就是说,样本数据会包含大量的特征数据,但是在实际应用中,并不会每个特征数据都可以用于检测,因此,本发明实施例可以对特征数据的数量进行筛选,将不能用于检测或针对检测作用较小的特征数据过滤掉。
在本发明一种优选实施例中,通过预设的特征过滤模型对样本数据中的各个特征数据进行过滤,得到过滤后的至少两个目标特征数据的步骤,包括:
通过特征过滤模型得到各个特征数据的重要度平均值,并确定出平均值最高的预设数量的第一特征数据;
采用前向过滤和向后过滤从各个特征数据中除第一特征数据之外的特征数据中确定出至少一个第二特征数据;
将各个第一特征数据和各个第二特征数据作为过滤后的至少两个目标特征数据。
其中,特征过滤模型可以为Xgboost树模型。具体地,假设样本数据包含100个特征数据,将样本数据输入特征过滤模型中,特征过滤模型计算各个特征数据在树模型中的重要度平均值,从而得到各个特征数据对应的重要度平均值,然后按照各个重要度平均值的大小,选择出重要度平均值最高的预设数量的第一特征数据,比如10个第一特征数据,然后结合前向过滤和后向过滤的方法从剩下的90个特征数据中选出至少一个第二特征数据,并将各个第一特征数据和各个第二特征数据作为预设的检测模型的指定特征数据。
步骤S103,基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型;
其中,预设的检测模型可以是半监督剪枝深度神经网络模型(RP-SDNN),半监督指的是基于无标签样本数据对检测模型进行训练,剪枝指的是对样本数据中的噪声数据进行过滤,解决了样本数据纯度较低的问题,基于半监督和剪枝可以提升检测模型的训练精度和鲁棒性。
在本发明一种优选实施例中,基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型的步骤,包括:
从各个第一标签样本数据中提取出各自对应的指定特征数据,得到各个第一指定特征数据;
采用各个第一指定特征数据对预设的检测模型进行训练,得到第一检测模型。
具体而言,每个第一标签样本数据都包括所有的特征数据,所以各个第一标签样本数据在输入预设的检测模型后,检测模型会从所有的特征数据中提取出各自对应的指定特征数据,并采用各个指定特征数据对检测模型的进行训练,得到第一检测模型。
步骤S104,通过第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据;
具体而言,采用第一检测对各个无标签样本数据(灰样本数据)进行分类,也就是预测各个无标签样本数据到底是正样本数据还是负样本数据。对各个无标签样本数据进行分类之后得到各个第二标签样本数据,其中,一部分为正样本数据,设置有白名单标签,另一部分为负样本数据,设置有黑名单标签。这样,各个灰样本数据全部都进行了分类,步骤S101中获取的所有样本数据被分成了两类,一部分为正样本数据,另一部分为负样本数据。
步骤S105,基于各个第一标签样本数据和各个第二标签样本数据对第一检测模型进行训练,得到训练后的检测模型。
在本发明一种优选实施例中,基于各个第一标签样本数据和各个第二标签样本数据对第一检测模型进行训练,得到训练后的检测模型的步骤,包括:
确定出各个第一标签样本数据中各自对应的第一噪声数据,以及,各个第二标签样本数据中各自对应的第二噪声数据;
对各个第一标签样本数据中的各个第一噪声数据进行过滤,得到至少两个过滤后的第一标签样本数据,以及,对各个第二标签样本数据中的各个第二噪声数据进行过滤,得到至少两个过滤后的第二标签样本数据;
计算得到各个过滤后的第一标签样本数据各自对应的权重,以及各个过滤后的第二标签样本数据各自对应的权重;
采用各个过滤后的第一标签样本数据、各个过滤后的第一标签样本数据各自对应的权重、各个过滤后的第二标签样本数据,以及各个过滤后的第二标签样本数据各自对应的权重对第一检测模型进行训练,直至第一检测模型的损失函数最小值收敛,得到训练后的检测模型。
具体而言,本发明实施例定义了以下参数:
s:样本数据的观测标签,也就是为各个样本数据设置的标签;
y:样本数据的实际标签,也就是各个样本数据真实的标签,需要通过检测模型进行预测;
噪声参数ρ0=P(s=1|y=0);
噪声参数ρ1=P(s=0|y=1);
噪声参数π0=P(y=1|s=0);
噪声参数π1=P(y=0|s=1);
噪声参数c=1-ρ1=P(s=1|y=1);
第一标签样本数据Xlabel;
其中,1表示白名单标签,0表示黑名单标签,即s=1和y=1的样本数据为正样本数据,s=0和y=0的样本数据为负样本数据。
定义完各个参数后,采用公式(1)计算得到各个样本数据(包括所有第一标签样本数据和所有第二标签样本数据)预测为1的概率:
采用公式(2)计算得到所有样本数据中观测标签为1的比例:
采用公式(3)计算得到标签为1的样本数据关于g(x)的期望:
采用公式(4)计算得到标签为0的样本数据关于g(x)的期望:
采用公式(5)计算得到所有样本数据中实际标签为0但是设置为1的样本数据的比例:
采用公式(6)计算得到所有样本数据中实际标签为1但是设置为0的样本数据的比例:
采用公式(7)计算得到所有样本数据中观察标签为1但是实际为0的样本数据的比例:
采用公式(8)计算得到所有样本数据中观察标签为0但是实际为1的样本数据的比例:
将标签(包括观察标签和实际标签)为0的所有样本数据中的负样本数据进行过滤,得到过滤后的各个负样本数据,包括第一标签样本数据中的负样本数据和第二标签样本数据中的负样本数据,以及,将标签(包括观察标签和实际标签)为1的所有样本数据中的正样本数据进行过滤,得到过滤后的各个正样本数据,包括第一标签样本数据中的正样本数据和第二标签样本数据中的正样本数据。
进一步,采用公式(9)计算过滤后的各个样本数据的权重:
得到各个样本数据的权重的集合(Xconf,sconf),其中,X为过滤后的所有样本数据,s为所有样本数据的标签的集合;各个样本数据包括各个正样本数据和各个负样本数据,各个正样本数据包括第一标签样本数据和各个第二标签样本数据中的正样本数据,各个负样本数据包括第一标签样本数据和各个第二标签样本数据中的负样本数据。
然后采用过滤后的各个样本数据及各个样本数据各自对应的权重对第一检测模型进行训练,直至第一检测模型的损失函数最小值收敛,得到训练后的检测模型。
在本发明一种优选实施例中,基于各个第一标签样本数据和各个第二标签样本数据对第一检测模型进行训练,得到训练后的检测模型的步骤,包括:
从各个第二标签样本数据中提取出各自对应的指定特征数据,得到各个第二指定特征数据;
采用各个第一指定特征数据和各个第二指定特征数据对第一检测模型进行训练,得到训练后的检测模型。
具体而言,每个第一标签样本数据和每个第二标签数据都包括所有的特征数据,所以各个第一标签样本数据和各个第二标签数据在输入预设的检测模型后,检测模型会从所有的特征数据中提取出各自对应的指定特征数据,并采用各个指定特征数据对第一检测模型的进行训练,得到训练后的检测模型。
在本发明实施例中,首先获取至少两个用户各自对应的样本数据,然后基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据,并基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,接着通过第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据,进一步基于各个第一标签样本数据和各个第二标签样本数据对第一检测模型进行训练,得到训练后的检测模型。这样,采用对样本数据进行分类后得到的各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,再采用第一检测模型对各个无标签样本数据进行分类,得到各个第二标签样本数据,从而不仅实现了对所有样本数据进行分类,而且还是采用训练得到的第一检测模型对无标签样本数据进行分类,提高了样本数据的利用率和样本数据分类的准确性。并且,对各个标签样本数据中的噪声数据进行过滤,并基于过滤后的各个标签样本数据对第一检测模型进行训练,不仅提高了标签样本数据的纯度,而且也提升了检测模型的检测精度和鲁棒性。
进一步,在基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型之前,本发明实施例还会检测第一标签样本数据中的正样本数据和负样本数据的数量是否平衡,如果不平衡,可以基于数量少的样本数据构建新的、具有相同标签的样本数据,直至正样本数据和负样本数据的数量达到平衡,从而避免了由于正样本数据和负样本数据的数量不平衡导致检测模型的训练精度不够的情况,进一步提升了检测模型的检测精度。
在另一个实施例中提供了一种用户数据的检测方法,如图2所示,该方法包括:
步骤S201,获取待检测用户的待检测数据;
其中,待检测数据可以是待检测用户的一个账号在预设时间段内的游戏数据,游戏的类型可以是MOBA,比如英雄联盟。
在实际应用中,经过数据统计可知大部分代练等行为发生在连续登录游戏的3~5天之内,所以,本发明实施例可以将预设时间段设置为10天的观察期,以保证观察期中有代练期(非用户本人登录游戏的时期)和非代练期(用户本人登录游戏的时期),从而有利于提取数据特征,同时增加一定容错性。
在本发明一种优选实施例中,获取待检测用户的历史数据的步骤,包括:
获取待检测用户在预设时间段内的日志文件;
从日志文件中提取出待检测数据;待检测数据包括待检测用户在预设时间段内的游戏数据。
具体而言,如图3所示,用户在预设时间段内每次登录游戏、进行游戏对局、游戏对局的结果等都会记录在游戏的日志文件中,因此,服务器在获取用户的游戏数据时可以先获取该用户的日志文件,然后从游戏日志中提取出预设时间段内的游戏数据即可。
步骤S202,通过训练后的检测模型从历史数据中提取出指定特征数据,并基于指定特征数据对待检测用户存在异常行为的概率进行预测,并基于预测结果确定出针对待检测用户的检测结果。
其中,训练后的检测模型可以是通过步骤S101~步骤S105训练得到的检测模型,具体的训练步骤可以参照步骤S101~步骤S105,在此就不赘述了。
进一步,在获取到待检测用户的游戏数据后,训练后的检测模型可以先从游戏数据中提取出指定特征数据,然后基于指定特征数据对待检测用户的账号存在异常行为的概率进行预测,当存在异常行为的概率大于预设的概率阈值时,则可以判定该用户的账号存在异常行为,否则,可以判定该用户的账号不存在异常行为。其中,异常行为可以是非用户本人登录了用户本人的游戏账号并进行了游戏对局的行为。
当判定用户的账号存在异常行为时,可以将该账号输入处罚系统,使得处罚系统对该账号进行相应的处罚,如图3所示。
在实际应用中,也存在传统的检测模型,比如Xgboost、DNN,以及SDNN等模型,为了方便理解,本发明实施例将现有的上述模型的识别率与RP-SDNN的识别率进行比较,具体如表1所示:
表1
可以得知,RP-SDNN模型相较于传统的Xgboost、DNN,半监督DNN等模型在分类精度和覆盖度上均有不同程度提高,相较于目前业务侧成熟使用的Xgboost模型,算法的分类精度提升了8%,F测度(分类精度、准确率,以及覆盖度的综合指标)提升了约15%,可见RP-SDNN对于标签样本数据稀少且纯度较低的场景具有较好的预测效果,因此,基于用户的游戏数据预测用户的账户存在异常行为的准确率也更高。
在本发明实施例中,首先获取待检测用户的待检测数据,然后,通过训练后的检测模型从历史数据中提取出指定特征数据,并基于指定特征数据对待检测用户存在异常行为的概率进行预测,并基于预测结果确定出针对待检测用户的检测结果。训练后的检测模型对于标签样本数据稀少且纯度较低的场景具有较好的预测效果,因此,基于用户的游戏数据的训练得到的检测模型,可以从账号在游戏中的差异化数据来判断账号是否存在共享/盗号/代练等异常行为的风险,因为每个人的行为习惯是无法改变的,所以非本人用户很难从行为上绕过检测模型的检测,因此检测的精度高,可解释性强,并且具有一定的鲁棒性和高门槛。
图4为本申请又一实施例提供的一种检测模型的训练装置的结构示意图,如图4所示,本实施例的装置可以包括:
第一获取模块401,用于获取至少两个用户各自对应的样本数据;
标签设置模块402,用于基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据;
第一处理模块403,用于基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型;
第二处理模块404,用于通过第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据;
第三处理模块405,用于基于各个第一标签样本数据和各个第二标签样本数据对第一检测模型进行训练,得到训练后的检测模型。
在本发明一种优选实施例中,标签设置模块具体用于:
当任一样本数据满足预设条件、获取任一样本数据时未检测到预设的指定进程,以及任一样本数据对应唯一的网络地址时,将任一样本数据确定为正样本数据,并为正样本数据设置白名单标签,得到第一标签样本数据;
或,
当任一样本数据满足预设条件,以及获取任一样本数据时检测到指定进程时,将任一样本数据确定为负样本数据,并为正样本数据设置黑名单标签,得到第一标签样本数据;
或,
当任一样本数据满足预设条件且获取任一样本数据时未检测到预设的指定进程,以及任一样本数据不对应唯一的网络地址时,将任一样本数据确定为灰样本数据,并对灰样本数据不设置标签,得到无标签样本数据。
在本发明一种优选实施例中,装置还包括构建模块,用于:
当正样本数据的数量与负样本数据的数量的比例超过比例阈值时,基于负样本数据构建新的负样本数据,直至正样本数据的数量与负样本数据的数量的比例不超过比例阈值,并将正样本数据、包括新构建的负样本数据的各个负样本数据作为对预设的检测模型进行训练的第一标签样本数据;
或,
当负样本数据的数量与正样本数据的数量的比例超过比例阈值时,基于正样本数据构建新的正样本数据,直至负样本数据的数量与正样本数据的数量的比例不超过比例阈值,并将负样本数据、包括新构建的正样本数据的各个正样本数据作为对预设的检测模型进行训练的第一标签样本数据。
在本发明一种优选实施例中,构建模块具体用于:
针对比例小的样本数据,计算其中任一样本数据与除任一样本数据外的其它各个样本数据的相似度,并确定出相似度最高的m个第一样本数据;其中,m为正整数;基于比例从m个第一样本数据中确定出n个第二样本数据;其中,n为小于m的正整数;基于比例与比例阈值的比例差值为n个第二样本数据构建各自对应的样本数据,得到比例差值*n个新的样本数据,新的样本数据与比例小的样本数据具有相同的标签。
在本发明一种优选实施例中,样本数据包括至少两个特征数据;
装置还包括:
过滤模块,用于通过预设的特征过滤模型对样本数据中的各个特征数据进行过滤,得到过滤后的至少两个目标特征数据,并将各个目标特征数据作为预设的检测模型的指定特征数据。
在本发明一种优选实施例中,过滤模块具体用于:
通过特征过滤模型得到各个特征数据的重要度平均值,并确定出平均值最高的预设数量的第一特征数据;采用前向过滤和向后过滤从各个特征数据中除第一特征数据之外的特征数据中确定出至少一个第二特征数据;将各个第一特征数据和各个第二特征数据作为过滤后的至少两个目标特征数据。
在本发明一种优选实施例中,第一处理模块具体用于:
从各个第一标签样本数据中提取出各自对应的指定特征数据,得到各个第一指定特征数据;采用各个第一指定特征数据对预设的检测模型进行训练,得到第一检测模型;
第三处理模块具体用于:
从各个第二标签样本数据中提取出各自对应的指定特征数据,得到各个第二指定特征数据;采用各个第一指定特征数据和各个第二指定特征数据对第一检测模型进行训练,得到训练后的检测模型。
在本发明一种优选实施例中,第三处理模块,具体用于:
确定出各个第一标签样本数据中各自对应的第一噪声数据,以及,各个第二标签样本数据中各自对应的第二噪声数据;
对各个第一标签样本数据中的各个第一噪声数据进行过滤,得到至少两个过滤后的第一标签样本数据,以及,对各个第二标签样本数据中的各个第二噪声数据进行过滤,得到至少两个过滤后的第二标签样本数据;
计算得到各个过滤后的第一标签样本数据各自对应的权重,以及各个过滤后的第二标签样本数据各自对应的权重;
采用各个过滤后的第一标签样本数据、各个过滤后的第一标签样本数据各自对应的权重、各个过滤后的第二标签样本数据,以及各个过滤后的第二标签样本数据各自对应的权重对第一检测模型进行训练,直至第一检测模型的损失函数最小值收敛,得到训练后的检测模型。
本实施例的检测模型的训练装置可执行本申请第一个实施例所示的检测模型的训练方法,其实现原理相类似,此处不再赘述。
在本发明实施例中,首先获取至少两个用户各自对应的样本数据,然后基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据,并基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,接着通过第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据,进一步基于各个第一标签样本数据和各个第二标签样本数据对第一检测模型进行训练,得到训练后的检测模型。这样,采用对样本数据进行分类后得到的各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,再采用第一检测模型对各个无标签样本数据进行分类,得到各个第二标签样本数据,从而不仅实现了对所有样本数据进行分类,而且还是采用训练得到的第一检测模型对无标签样本数据进行分类,提高了样本数据的利用率和样本数据分类的准确性。并且,对各个标签样本数据中的噪声数据进行过滤,并基于过滤后的各个标签样本数据对第一检测模型进行训练,不仅提高了标签样本数据的纯度,而且也提升了检测模型的检测精度和鲁棒性。
进一步,在基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型之前,本发明实施例还会检测第一标签样本数据中的正样本数据和负样本数据的数量是否平衡,如果不平衡,可以基于数量少的样本数据构建新的、具有相同标签的样本数据,直至正样本数据和负样本数据的数量达到平衡,从而避免了由于正样本数据和负样本数据的数量不平衡导致检测模型的训练精度不够的情况,进一步提升了检测模型的检测精度。
图5为本申请又一实施例提供的一种用户数据的检测装置的结构示意图,如图5所示,本实施例的装置可以包括:
第二获取模块501,用于获取待检测用户的待检测数据;
第四处理模块502,用于通过如权利要求1~8任一的训练后的检测模型从历史数据中提取出指定特征数据,并基于指定特征数据对待检测用户存在异常行为的概率进行预测,并基于预测结果确定出针对待检测用户的检测结果。
在本发明一种优选实施例中,第二获取模块,包括:
日志文件获取子模块,用于获取待检测用户在预设时间段内的日志文件;
提取子模块,用于从日志文件中提取出待检测数据;待检测数据包括待检测用户在预设时间段内的游戏数据。
本实施例的用户数据的检测装置可执行本申请第三个实施例所示的用户数据的检测方法,其实现原理相类似,此处不再赘述。
在本发明实施例中,首先获取待检测用户的待检测数据,然后,通过训练后的检测模型从历史数据中提取出指定特征数据,并基于指定特征数据对待检测用户存在异常行为的概率进行预测,并基于预测结果确定出针对待检测用户的检测结果。训练后的检测模型对于标签样本数据稀少且纯度较低的场景具有较好的预测效果,因此,基于用户的游戏数据的训练得到的检测模型,可以从账号在游戏中的差异化数据来判断账号是否存在共享/盗号/代练等异常行为的风险,因为每个人的行为习惯是无法改变的,所以非本人用户很难从行为上绕过检测模型的检测,因此检测的精度高,可解释性强,并且具有一定的鲁棒性和高门槛。
本申请的又一实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:在本发明实施例中,首先获取至少两个用户各自对应的样本数据,然后基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据,并基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,接着通过第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据,进一步基于各个第一标签样本数据和各个第二标签样本数据对第一检测模型进行训练,得到训练后的检测模型。这样,采用对样本数据进行分类后得到的各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,再采用第一检测模型对各个无标签样本数据进行分类,得到各个第二标签样本数据,从而不仅实现了对所有样本数据进行分类,而且还是采用训练得到的第一检测模型对无标签样本数据进行分类,提高了样本数据的利用率和样本数据分类的准确性。并且,对各个标签样本数据中的噪声数据进行过滤,并基于过滤后的各个标签样本数据对第一检测模型进行训练,不仅提高了标签样本数据的纯度,而且也提升了检测模型的检测精度和鲁棒性。
在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备6000包括:处理器6001和存储器6003。其中,处理器6001和存储器6003相连,如通过总线6002相连。可选地,电子设备6000还可以包括收发器6004。需要说明的是,实际应用中收发器6004不限于一个,该电子设备6000的结构并不构成对本申请实施例的限定。
处理器6001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器6001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线6002可包括一通路,在上述组件之间传送信息。总线6002可以是PCI总线或EISA总线等。总线6002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器6003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器6003用于存储执行本申请方案的应用程序代码,并由处理器6001来控制执行。处理器6001用于执行存储器6003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,在本发明实施例中,首先获取至少两个用户各自对应的样本数据,然后基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据,并基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,接着通过第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据,进一步基于各个第一标签样本数据和各个第二标签样本数据对第一检测模型进行训练,得到训练后的检测模型。这样,采用对样本数据进行分类后得到的各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型,再采用第一检测模型对各个无标签样本数据进行分类,得到各个第二标签样本数据,从而不仅实现了对所有样本数据进行分类,而且还是采用训练得到的第一检测模型对无标签样本数据进行分类,提高了样本数据的利用率和样本数据分类的准确性。并且,对各个标签样本数据中的噪声数据进行过滤,并基于过滤后的各个标签样本数据对第一检测模型进行训练,不仅提高了标签样本数据的纯度,而且也提升了检测模型的检测精度和鲁棒性。
本申请的又一实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:在本发明实施例中,首先获取待检测用户的待检测数据,然后,通过训练后的检测模型从历史数据中提取出指定特征数据,并基于指定特征数据对待检测用户存在异常行为的概率进行预测,并基于预测结果确定出针对待检测用户的检测结果。训练后的检测模型对于标签样本数据稀少且纯度较低的场景具有较好的预测效果,因此,基于用户的游戏数据的训练得到的检测模型,可以从账号在游戏中的差异化数据来判断账号是否存在共享/盗号/代练等异常行为的风险,因为每个人的行为习惯是无法改变的,所以非本人用户很难从行为上绕过检测模型的检测,因此检测的精度高,可解释性强,并且具有一定的鲁棒性和高门槛。
在一个可选实施例中提供了一种电子设备,如图7所示,图7所示的电子设备7000包括:处理器7001和存储器7003。其中,处理器7001和存储器7003相连,如通过总线7002相连。可选地,电子设备7000还可以包括收发器7004。需要说明的是,实际应用中收发器7004不限于一个,该电子设备7000的结构并不构成对本申请实施例的限定。
处理器7001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器7001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线7002可包括一通路,在上述组件之间传送信息。总线7002可以是PCI总线或EISA总线等。总线7002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器7003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器7003用于存储执行本申请方案的应用程序代码,并由处理器7001来控制执行。处理器7001用于执行存储器7003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,在本发明实施例中,首先获取待检测用户的待检测数据,然后,通过训练后的检测模型从历史数据中提取出指定特征数据,并基于指定特征数据对待检测用户存在异常行为的概率进行预测,并基于预测结果确定出针对待检测用户的检测结果。训练后的检测模型对于标签样本数据稀少且纯度较低的场景具有较好的预测效果,因此,基于用户的游戏数据的训练得到的检测模型,可以从账号在游戏中的差异化数据来判断账号是否存在共享/盗号/代练等异常行为的风险,因为每个人的行为习惯是无法改变的,所以非本人用户很难从行为上绕过检测模型的检测,因此检测的精度高,可解释性强,并且具有一定的鲁棒性和高门槛。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种检测模型的训练方法,其特征在于,包括:
获取至少两个用户各自对应的样本数据;
基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据;
基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型;
通过所述第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据;
基于各个第一标签样本数据和各个第二标签样本数据对所述第一检测模型进行训练,得到训练后的检测模型。
2.根据权利要求1所述的检测模型的训练方法,其特征在于,所述基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据的步骤,包括:
当任一样本数据满足预设条件、获取所述任一样本数据时未检测到预设的指定进程,以及所述任一样本数据对应唯一的网络地址时,将所述任一样本数据确定为正样本数据,并为所述正样本数据设置白名单标签,得到第一标签样本数据;
或,
当任一样本数据满足所述预设条件,以及获取所述任一样本数据时检测到所述指定进程时,将所述任一样本数据确定为负样本数据,并为所述正样本数据设置黑名单标签,得到第一标签样本数据;
或,
当任一样本数据满足所述预设条件且获取所述任一样本数据时未检测到预设的指定进程,以及所述任一样本数据不对应唯一的网络地址时,将所述任一样本数据确定为灰样本数据,并对所述灰样本数据不设置标签,得到无标签样本数据。
3.根据权利要求1或2所述的检测模型的训练方法,其特征在于,在所述基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型的步骤之前,还包括以下任一项:
当正样本数据的数量与负样本数据的数量的比例超过比例阈值时,基于负样本数据构建新的负样本数据,直至正样本数据的数量与负样本数据的数量的比例不超过所述比例阈值,并将所述正样本数据、包括新构建的负样本数据的各个负样本数据作为对预设的检测模型进行训练的第一标签样本数据;
当负样本数据的数量与正样本数据的数量的比例超过所述比例阈值时,基于正样本数据构建新的正样本数据,直至负样本数据的数量与正样本数据的数量的比例不超过所述比例阈值,并将所述负样本数据、包括新构建的正样本数据的各个正样本数据作为对预设的检测模型进行训练的第一标签样本数据。
4.根据权利要求3所述的检测模型的训练方法,其特征在于,基于比例小的样本数据构建新的样本数据,包括:
针对比例小的样本数据,计算其中任一样本数据与除所述任一样本数据外的其它各个样本数据的相似度,并确定出相似度最高的m个第一样本数据;其中,m为正整数;
基于所述比例从m个第一样本数据中确定出n个第二样本数据;其中,n为小于m的正整数;
基于所述比例与比例阈值的比例差值为n个第二样本数据构建各自对应的样本数据,得到所述比例差值*n个新的样本数据,所述新的样本数据与比例小的样本数据具有相同的标签。
5.根据权利要求1所述的检测模型的训练方法,其特征在于,所述样本数据包括至少两个特征数据;
在所述基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型的步骤之前,还包括:
通过预设的特征过滤模型对所述样本数据中的各个特征数据进行过滤,得到过滤后的至少两个目标特征数据,并将各个目标特征数据作为预设的检测模型的指定特征数据。
6.根据权利要求1或5所述的检测模型的训练方法,其特征在于,所述通过预设的特征过滤模型对所述样本数据中的各个特征数据进行过滤,得到过滤后的至少两个目标特征数据的步骤,包括:
通过所述特征过滤模型得到各个特征数据的重要度平均值,并确定出平均值最高的预设数量的第一特征数据;
采用前向过滤和向后过滤从各个特征数据中除所述第一特征数据之外的特征数据中确定出至少一个第二特征数据;
将各个第一特征数据和各个第二特征数据作为过滤后的至少两个目标特征数据。
7.根据权利要求1或2或5所述的检测模型的训练方法,其特征在于,基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型的步骤,包括:
从各个第一标签样本数据中提取出各自对应的指定特征数据,得到各个第一指定特征数据;
采用各个第一指定特征数据对所述预设的检测模型进行训练,得到所述第一检测模型;
基于各个第一标签样本数据和各个第二标签样本数据对所述第一检测模型进行训练,得到训练后的检测模型的步骤,包括:
从各个第二标签样本数据中提取出各自对应的指定特征数据,得到各个第二指定特征数据;
采用各个第一指定特征数据和各个第二指定特征数据对所述第一检测模型进行训练,得到所述训练后的检测模型。
8.根据权利要求1所述的检测模型的训练方法,其特征在于,所述基于各个第一标签样本数据和各个第二标签样本数据对所述第一检测模型进行训练,得到训练后的检测模型的步骤,包括:
确定出各个第一标签样本数据中各自对应的第一噪声数据,以及,各个第二标签样本数据中各自对应的第二噪声数据;
对各个第一标签样本数据中的各个第一噪声数据进行过滤,得到至少两个过滤后的第一标签样本数据,以及,对各个第二标签样本数据中的各个第二噪声数据进行过滤,得到至少两个过滤后的第二标签样本数据;
计算得到各个过滤后的第一标签样本数据各自对应的权重,以及各个过滤后的第二标签样本数据各自对应的权重;
采用各个过滤后的第一标签样本数据、各个过滤后的第一标签样本数据各自对应的权重、各个过滤后的第二标签样本数据,以及各个过滤后的第二标签样本数据各自对应的权重对所述第一检测模型进行训练,直至所述第一检测模型的损失函数最小值收敛,得到所述训练后的检测模型。
9.一种用户数据的检测方法,其特征在于,包括:
获取待检测用户的待检测数据;
通过如权利要求1~8任一所述的训练后的检测模型从历史数据中提取出指定特征数据,并基于所述指定特征数据对所述待检测用户存在异常行为的概率进行预测,并基于预测结果确定出针对所述待检测用户的检测结果。
10.根据权利要求9所述的用户数据的检测方法,其特征在于,所述获取待检测用户的历史数据的步骤,包括:
获取所述待检测用户在预设时间段内的日志文件;
从所述日志文件中提取出待检测数据;所述待检测数据包括所述待检测用户在所述预设时间段内的游戏数据。
11.一种检测模型的训练装置,其特征在于,包括:
第一获取模块,用于获取至少两个用户各自对应的样本数据;
标签设置模块,用于基于预设规则为各个样本数据设置各自对应的标签或不设置标签,得到至少两个第一标签样本数据和至少两个无标签样本数据;
第一处理模块,用于基于各个第一标签样本数据对预设的检测模型进行训练,得到第一检测模型;
第二处理模块,用于通过所述第一检测模型为各个无标签样本数据设置各自对应的标签,得到各个第二标签样本数据;
第三处理模块,用于基于各个第一标签样本数据和各个第二标签样本数据对所述第一检测模型进行训练,得到训练后的检测模型。
12.一种用户数据的检测装置,其特征在于,包括:
第二获取模块,用于获取待检测用户的待检测数据;
第四处理模块,用于通过如权利要求1~8任一所述的训练后的检测模型从历史数据中提取出指定特征数据,并基于所述指定特征数据对所述待检测用户存在异常行为的概率进行预测,并基于预测结果确定出针对所述待检测用户的检测结果。
13.一种电子设备,其特征在于,其包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行上述权利要求1-8中任一项所述的检测模型的训练方法。
14.一种电子设备,其特征在于,其包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行上述权利要求9-10中任一项所述的用户数据的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025897.2A CN110732139B (zh) | 2019-10-25 | 2019-10-25 | 检测模型的训练方法和用户数据的检测方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025897.2A CN110732139B (zh) | 2019-10-25 | 2019-10-25 | 检测模型的训练方法和用户数据的检测方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110732139A true CN110732139A (zh) | 2020-01-31 |
CN110732139B CN110732139B (zh) | 2024-03-05 |
Family
ID=69271510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911025897.2A Active CN110732139B (zh) | 2019-10-25 | 2019-10-25 | 检测模型的训练方法和用户数据的检测方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110732139B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111330871A (zh) * | 2020-03-31 | 2020-06-26 | 新华三信息安全技术有限公司 | 一种品质分类方法及装置 |
CN111428757A (zh) * | 2020-03-05 | 2020-07-17 | 支付宝(杭州)信息技术有限公司 | 模型训练方法、异常数据检测方法、装置和电子设备 |
CN112402986A (zh) * | 2020-11-19 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 一种对战游戏中强化学习模型的训练方法及装置 |
CN113780314A (zh) * | 2020-05-20 | 2021-12-10 | 阿里巴巴集团控股有限公司 | 一种分类模型训练方法、装置和系统 |
WO2022095352A1 (zh) * | 2020-11-03 | 2022-05-12 | 平安科技(深圳)有限公司 | 基于智能决策的异常用户识别方法、装置及计算机设备 |
CN114565030A (zh) * | 2022-02-17 | 2022-05-31 | 北京百度网讯科技有限公司 | 特征筛选方法、装置、电子设备和存储介质 |
CN115051833A (zh) * | 2022-05-12 | 2022-09-13 | 中国电子科技集团公司电子科学研究院 | 一种基于终端进程的互通网络异常检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017102540A (ja) * | 2015-11-30 | 2017-06-08 | 日本電信電話株式会社 | 分類装置、方法、及びプログラム |
CN107798390A (zh) * | 2017-11-22 | 2018-03-13 | 阿里巴巴集团控股有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
CN108596266A (zh) * | 2018-05-02 | 2018-09-28 | 深圳市易成自动驾驶技术有限公司 | 基于半监督学习的融合决策方法、装置及存储介质 |
CN108875776A (zh) * | 2018-05-02 | 2018-11-23 | 北京三快在线科技有限公司 | 模型训练方法和装置、业务推荐的方法和装置、电子设备 |
US20190080148A1 (en) * | 2017-09-08 | 2019-03-14 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating image |
CN109636047A (zh) * | 2018-12-17 | 2019-04-16 | 江苏满运软件科技有限公司 | 用户活跃度预测模型训练方法、系统、设备及存储介质 |
CN109688110A (zh) * | 2018-11-22 | 2019-04-26 | 顺丰科技有限公司 | Dga域名检测模型构建方法、装置、服务器及存储介质 |
US20190147297A1 (en) * | 2017-11-16 | 2019-05-16 | Accenture Global Solutions Limited | System for time-efficient assignment of data to ontological classes |
CN109818918A (zh) * | 2017-11-21 | 2019-05-28 | 丛林网络公司 | 基于软件定义网络加密策略的策略驱动的工作负载启动 |
CN109951476A (zh) * | 2019-03-18 | 2019-06-28 | 中国科学院计算机网络信息中心 | 基于时序的攻击预测方法、装置及存储介质 |
CN110097130A (zh) * | 2019-05-07 | 2019-08-06 | 深圳市腾讯计算机系统有限公司 | 分类任务模型的训练方法、装置、设备及存储介质 |
-
2019
- 2019-10-25 CN CN201911025897.2A patent/CN110732139B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017102540A (ja) * | 2015-11-30 | 2017-06-08 | 日本電信電話株式会社 | 分類装置、方法、及びプログラム |
US20190080148A1 (en) * | 2017-09-08 | 2019-03-14 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating image |
US20190147297A1 (en) * | 2017-11-16 | 2019-05-16 | Accenture Global Solutions Limited | System for time-efficient assignment of data to ontological classes |
CN109818918A (zh) * | 2017-11-21 | 2019-05-28 | 丛林网络公司 | 基于软件定义网络加密策略的策略驱动的工作负载启动 |
CN107798390A (zh) * | 2017-11-22 | 2018-03-13 | 阿里巴巴集团控股有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
CN108596266A (zh) * | 2018-05-02 | 2018-09-28 | 深圳市易成自动驾驶技术有限公司 | 基于半监督学习的融合决策方法、装置及存储介质 |
CN108875776A (zh) * | 2018-05-02 | 2018-11-23 | 北京三快在线科技有限公司 | 模型训练方法和装置、业务推荐的方法和装置、电子设备 |
CN109688110A (zh) * | 2018-11-22 | 2019-04-26 | 顺丰科技有限公司 | Dga域名检测模型构建方法、装置、服务器及存储介质 |
CN109636047A (zh) * | 2018-12-17 | 2019-04-16 | 江苏满运软件科技有限公司 | 用户活跃度预测模型训练方法、系统、设备及存储介质 |
CN109951476A (zh) * | 2019-03-18 | 2019-06-28 | 中国科学院计算机网络信息中心 | 基于时序的攻击预测方法、装置及存储介质 |
CN110097130A (zh) * | 2019-05-07 | 2019-08-06 | 深圳市腾讯计算机系统有限公司 | 分类任务模型的训练方法、装置、设备及存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428757A (zh) * | 2020-03-05 | 2020-07-17 | 支付宝(杭州)信息技术有限公司 | 模型训练方法、异常数据检测方法、装置和电子设备 |
CN111330871A (zh) * | 2020-03-31 | 2020-06-26 | 新华三信息安全技术有限公司 | 一种品质分类方法及装置 |
CN113780314A (zh) * | 2020-05-20 | 2021-12-10 | 阿里巴巴集团控股有限公司 | 一种分类模型训练方法、装置和系统 |
WO2022095352A1 (zh) * | 2020-11-03 | 2022-05-12 | 平安科技(深圳)有限公司 | 基于智能决策的异常用户识别方法、装置及计算机设备 |
CN112402986A (zh) * | 2020-11-19 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 一种对战游戏中强化学习模型的训练方法及装置 |
CN114565030A (zh) * | 2022-02-17 | 2022-05-31 | 北京百度网讯科技有限公司 | 特征筛选方法、装置、电子设备和存储介质 |
CN114565030B (zh) * | 2022-02-17 | 2022-12-20 | 北京百度网讯科技有限公司 | 特征筛选方法、装置、电子设备和存储介质 |
CN115051833A (zh) * | 2022-05-12 | 2022-09-13 | 中国电子科技集团公司电子科学研究院 | 一种基于终端进程的互通网络异常检测方法 |
CN115051833B (zh) * | 2022-05-12 | 2023-12-15 | 中国电子科技集团公司电子科学研究院 | 一种基于终端进程的互通网络异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110732139B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110732139A (zh) | 检测模型的训练方法和用户数据的检测方法、装置 | |
CN111773732B (zh) | 目标游戏用户的检测方法、装置及设备 | |
CN106682906B (zh) | 一种风险识别、业务处理方法和设备 | |
CN110689438A (zh) | 企业类金融风险评分方法、装置、计算机设备及存储介质 | |
CN104836781A (zh) | 区分访问用户身份的方法及装置 | |
CN111078880B (zh) | 子应用的风险识别方法以及装置 | |
WO2016201938A1 (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN105023165A (zh) | 社交网络平台中投放任务的控制方法、装置及系统 | |
WO2019161027A1 (en) | System and method for bot detection | |
US20090271714A1 (en) | Identifying mutual friends in online environments | |
CN108804918B (zh) | 安全性防御方法、装置、电子设备及存储介质 | |
CN103617393A (zh) | 一种基于支持向量机的移动互联网恶意应用软件检测方法 | |
CN108932646B (zh) | 基于运营商的用户标签验证方法、装置和电子设备 | |
CN115174250B (zh) | 网络资产安全评估方法、装置、电子设备及存储介质 | |
CN109194689A (zh) | 异常行为识别方法、装置、服务器及存储介质 | |
CN110782333A (zh) | 一种设备风险控制方法、装置、设备及介质 | |
CN106789837A (zh) | 网络异常行为检测方法及检测装置 | |
CN110868383A (zh) | 一种网站风险评估方法、装置、电子设备及存储介质 | |
CN111160783A (zh) | 数字资产价值的评价方法、系统及电子设备 | |
CN112370793A (zh) | 用户账号的风险控制方法及装置 | |
CN110572302B (zh) | 无盘局域网场景识别方法、装置及终端 | |
CN112184241A (zh) | 一种身份认证的方法及装置 | |
CN110196805B (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN113318448A (zh) | 游戏资源展示方法及装置、设备、模型训练方法 | |
CN111027065A (zh) | 一种勒索病毒识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40020854 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |