CN110917626A

CN110917626A - 基于机器学习的游戏盗量监督方法和装置

Info

Publication number: CN110917626A
Application number: CN201911201774.XA
Authority: CN
Inventors: 许守明; 陈国庆; 谢强
Original assignee: Wuhan Summit Network Technology Co Ltd
Current assignee: Wuhan Summit Network Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-27

Abstract

本发明实施例提供一种基于机器学习的游戏盗量监督方法和装置，该方法包括：搜集平台的用户行为中的内容数据，对内容数据进行解析获取信息内容；对信息内容进行分词和音译处理，得到每一分词的拼音；将每一名词分词的拼音输入恶意信息识别模型，输出与每一名词分词对应的恶意信息概率值，其中，恶意信息识别模型是基于名词分词的拼音样本数据和预先确定的恶意信息标签进行训练后得到的；对所有名词分词的恶意信息概率值求和，得到内容数据的恶意概率值；显示恶意概率值，以供监管人员决定内容数据的处置方式。本发明实施例提供的方法和装置，解决现有技术中的无法识别同音不同字的恶意信息的问题，提高了恶意信息的识别的全面程度。

Description

基于机器学习的游戏盗量监督方法和装置

技术领域

本发明涉及互联网游戏风控技术领域，尤其涉及一种基于机器学习的游戏盗量监督方法和装置。

背景技术

对于线上游戏行业，稳定数量的游戏玩家无疑是该游戏赖以存活的生命线。因此，对于游戏厂家而言，需要投入很大的成本用于新用户的获得以及老用户的维护。由于对游戏用户的运营需要较高的成本，也因此催生了针对这一领域的黑产行业。黑产行业通过注册受害游戏平台的账户，之后在受害游戏平台内，用平台内邮件，聊天等形式向其他正常用户发送带有包含色情、暴利等内容的其它游戏平台的广告信息或者是包含暴恐、造谣等内容的，对当前游戏平台的恶意攻击信息，通过上述手段，造成当前受害游戏平台的用户流失，形成恶意竞争，或者将当前受害游戏平台的用户引流到其它平台去，并赚取引流费用，无论哪一种，都给游戏厂家造成了巨大的经济损失。对于这一类黑产行为，在游戏行业内一般称之为“游戏盗量”。

目前行业内针对游戏盗量的防控措施，主要有两种。其一，由运营人员时刻监控系统日志，通过人工对平台内的邮件、聊天内容进行观察，发现恶意攻击后，对黑产的账户进行封号，禁言等操作；其二，将某套风控规则引擎接入游戏系统后台，从而对某些行为的内容进行实时风控规则匹配，以达到实时的业务防控。一般来说，规则引擎会预先定义一套敏感词集合，之后使用正则表达式匹配的方式进行这一类风控规则的实现。

前者的缺点一目了然，首先需要不断投入人力成本进行不间断的监管分析；之后还会存在由于人员疏忽造成的误判；最重要的是这种方式的防护行为多为事后的，无法做到实时的防控。后者的缺点在于，策略一旦制定就会固化，如果出现了新的敏感词，原有的策略是无法自动识别到的。策略的定制还是需要运营人员根据系统日志数据进行持续分析，随后根据分析结果来制定，并没有实质上节省人力成本。同时，风控规则引擎使用时，对于恶意信息的识别是使用正则表达式匹配的方式进行，对于不同字组成的同音恶意信息没有识别能力，例如，可以识别“加我微信有现金”，却无法识别“+窝威歆油县今”为恶意信息。

因此，如何解决现有技术中的使用风控规则引擎的无法识别同音不同字的恶意信息的问题，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明实施例提供一种基于机器学习的游戏盗量监督方法和装置，用以解决现有的风控规则引擎的无法人工定制策略的问题。

第一方面，本发明实施例提供一种基于机器学习的游戏盗量监督方法，包括：

搜集平台的用户行为中的内容数据，对所述内容数据进行解析获取信息内容；

对所述信息内容进行分词处理，得到分词序列，确定所述分词序列中每一分词的拼音；

将每一名词分词的拼音输入恶意信息识别模型，输出与每一名词分词对应的恶意信息概率值，其中，所述恶意信息识别模型是基于名词分词的拼音样本数据和预先确定的恶意信息标签进行训练后得到的；

对所有名词分词的恶意信息概率值求和，得到所述内容数据的恶意概率值；

显示所述恶意概率值，以供监管人员决定所述内容数据的处置方式。

优选地，该方法中，所述对所述内容数据进行解析获取信息内容，具体包括：

对所述内容数据进行解析，拆分为结构化数据，所述结构化数据包括信息内容、内容类型、发信人账号、收信人账号、内容标题和发送内容的时间，获取所述结构化数据中的信息内容。

优选地，该方法中，还包括：

将所述结构化数据存入时序日志，确定所述时序日志中的结构化数据的标记，若所述标记为恶意信息，则将所述结构化数据的信息内容作分词处理，得到分词序列；

确定所述分词序列中每一分词的拼音，基于每一名词分词的拼音和恶意信息标签对所述恶意信息识别模型进行矫正训练。

优选地，该方法中，所述确定所述时序日志中的结构化数据的标记，具体包括：

若用户对内容数据举报为恶意信息，则时序日志中所述内容数据对应的结构化数据的标记为恶意信息；或者，

若用户对账号举报为恶意账号，则时序日志中所述恶意账号作为发信人发送的内容数据对应的结构化数据的标记为恶意信息；或者，

若平台运营人员禁封账号为恶意账号，则时序日志中所述恶意账号作为发信人发送的内容数据对应的结构化数据的标记为恶意信息。

优选地，该方法中，所述确定所述时序日志中的结构化数据的标记，具体还包括：

周期性地分析所述时序日志中的结构化数据，确定账号属性，若所述账号属性为异常，则时序日志中所述异常账号作为发信人发送的内容数据对应的结构化数据的标记为恶意信息。

优选地，该方法中，所述确定账号属性，具体还包括：

若账号在当前周期内的向不同用户发送内容数据的次数高于预设阈值，则确定账号属性为异常。

优选地，该方法中，所述恶意信息识别模型采用了NLP模型。

第二方面，本发明实施例提供一种基于机器学习的游戏盗量监督装置，包括：

数据分发器模块，用于搜集平台的用户行为中的内容数据，对所述内容数据进行解析获取信息内容；

分词音译模块，用于对所述信息内容进行分词处理，得到分词序列，确定所述分词序列中每一分词的拼音；

恶意信息识别模块，用于将每一名词分词的拼音输入恶意信息识别模型，输出与每一名词分词对应的恶意信息概率值，其中，所述恶意信息识别模型是基于名词分词的拼音样本数据和预先确定的恶意信息标签进行训练后得到的；

计算模块，用于对所有名词分词的恶意信息概率值求和，得到所述内容数据的恶意概率值；

显示模块，用于显示所述恶意概率值，以供监管人员决定所述内容数据的处置方式。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的基于机器学习的游戏盗量监督方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如如第一方面所提供的基于机器学习的游戏盗量监督方法的步骤。

本发明实施例提供的一种基于机器学习的游戏盗量监督方法和装置，通过提取用户行为中的内容数据的信息内容，处理信息内容得到信息内容中每一分词的拼音，再将每一分词拼音输入恶意信息识别模型输出与每一分词对应的恶意概率值，再基于每一分词的恶意概率值确定内容数据的恶意概率值，最后将恶意概率值展示给监管人员以供监管人员作出处置判断，其中，所述恶意信息识别模型是基于名词分词的拼音样本数据和预先确定的恶意信息标签进行训练后得到的。此处，恶意信息识别模型是由分词的拼音样本数据和恶意信息标签进行训练后得到的，使得该方法能对分词的拼音作恶意信息的判断，实现了不同字但同音的恶意信息的识别。因此，解决现有技术中的使用风控规则引擎的无法识别同音不同字的恶意信息的问题，提高了恶意信息的识别的全面程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于机器学习的游戏盗量监督方法的流程示意图；

图2为本发明实施例提供的基于机器学习的游戏盗量监督装置的结构示意图；

图3为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的基于使用风控规则引擎进行游戏盗量监督的方法，普遍存在无法识别不同字但同音的恶意信息，识别恶意信息不全面的问题。对此，本发明实施例提供了一种基于机器学习的游戏盗量监督方法。图1为本发明实施例提供的基于机器学习的游戏盗量监督方法的流程示意图，如图1所示，该方法包括：

步骤110，搜集平台的用户行为中的内容数据，对所述内容数据进行解析获取信息内容。

具体地，搜集游戏内容平台中平台用户行为中的内容数据，所述内容数据可以是平台邮件数据，也可以是平台聊天数据，然后解析搜集的内容数据提取内容数据的信息内容，此处信息内容指的是邮件正文里面的内容或者聊天对话中的内容。

步骤120，对所述信息内容进行分词处理，得到分词序列，确定所述分词序列中每一分词的拼音。

具体地，将提取到的信息内容进行分词处理，得到一系列对应于该信息内容的拆分后的中文单词的单词序列。例如，“加我微信有现金”这个信息内容拆分成[加，我，微信，有，现金]这个中文单词序列。然后再对中文单词序列进行音译，即将各个中文单词序列，转换为对应的拼音发音的音译序列。例如下面的中文单词序列[加，我，微信，有，现金]和[家，窝，蔚xin，游，县金]经过音译之后，都会转化为如下的音译序列：[jia，wo，weixin，you，xianjin]。经过音译部分的转换，可以彻底解决恶意信息采用相同发音的模糊词汇进行的游戏盗量行为。

步骤130，将每一名词分词的拼音输入恶意信息识别模型，输出与每一名词分词对应的恶意信息概率值，其中，所述恶意信息识别模型是基于名词分词的拼音样本数据和预先确定的恶意信息标签进行训练后得到的。

具体地，通过将每一名词分词的拼音输入恶意信息识别模型，得到每一名词分词对应的恶意信息概率值，即通过实体标注环节对整个音译序列中的指代名词分别指定一个恶意信息概率值。例如，weixin的输出结果是30％，wo的输出结果是5％，xianjin的输出结果是40％，即出现“weixin”名词后其所在序列的黑产行为的概率值是30％，出现“wo”名词后其所在序列的黑产行为的概率值是5％，出现“xianjin”名词后其所在序列的黑产行为的概率值是40％。而所述恶意信息识别模型是基于名词分词的拼音样本数据和预先确定的恶意信息标签进行训练后得到的，恶意信息标签只有“是”和“否”两种，例如，我们用于训练的名词分词是“dubo”,该名词分词“dubo”对应的恶意信息标签是“是”，我们用于训练的名词分词是“xianlu”,该名词分词“xianlu”对应的恶意信息标签是“否”，通过大量的名词分词的拼音样本数据和预先确定的恶意信息标签进行训练可以得到较为精准的恶意信息识别模型。

步骤140，对所有名词分词的恶意信息概率值求和，得到所述内容数据的恶意概率值。

具体地，整个信息内容的恶意信息概率值是对信息内容中的所有名词分词的恶意信息概率值求和，例如，信息内容“加我微信有现金”，单词“我”的恶意信息概率值为5％，单词“微信”的恶意信息概率值为30％，单词“现金”的恶意信息概率值为40％，那么信息内容“加我微信有现金”的恶意信息概率值为5％+30％+40％＝75％。

步骤150，显示所述恶意概率值，以供监管人员决定所述内容数据的处置方式。

具体地，计算完该信息内容的恶意概率值，进行显示，由游戏内容平台的监管人员决定本次内容数据的处置方式。

本发明实施例提供的方法，通过对所述信息内容进行分词处理，得到分词序列，确定所述分词序列中每一分词的拼音，然后将每一名词分词的拼音输入恶意信息识别模型，得到每个名词分词的恶意信息概率值，最后对所有名词分词的恶意信息概率值求和得到内容数据的恶意概率值。本发明实施例是对每个名词分词的拼音进行恶意信息识别，恶意信息识别模型也是用名词单词的拼音训练出来的，实现了对不同字但同音的模糊词汇的恶意信息的识别。如此，提高了恶意信息的识别的全面程度。

基于上述实施例，该方法中，所述对所述内容数据进行解析获取信息内容，具体包括：

表1结构化数据的组成部分

字段说明	备注
		内容类型	邮件、聊天、公告
发信人账户	内容发送人的账户
		收信人账户	内容接收人的账户
内容标题	邮件或公告的标题
		信息内容	信息的内容
发送内容的时间	内容发送的时间

具体地，对内容数据进行解析是将内容数据拆分为结构化数据，表1为结构化数据的组成部分。如表1所示，结构化数据包括信息内容，即信息的内容，内容类型，即邮件、聊天或公告，发信人账户，即内容发送人的账户，收信人账户，即内容接收人的账户，内容标题，即邮件或公告的标题，发送内容的时间，即内容的发送时间。

基于上述实施例，该方法中，还包括：将所述结构化数据存入时序日志，确定所述时序日志中的结构化数据的标记，若所述标记为恶意信息，则将所述结构化数据的信息内容作分词处理，得到分词序列；

具体地，解析完成的结构化的内容数据还将被存入时序日志，所述时序日志按照时序进行内容数据的保存。确定所述时序日志中的结构化数据的标记，若该结构化数据被标记为恶意信息，则将该结构化数据进行分词和音译处理，得到信息内容的分词序列中的每一分词的拼音，然后从中挑出名词分词的拼音，用上述名词分词的拼音和它们的恶意信息标签“是”对恶意信息识别模型进行矫正训练。

基于上述任一实施例，该方法中，所述确定所述时序日志中的结构化数据的标记，具体包括：

具体地，确定时序日志中的结构化数据的标记有多种情况：当收到平台用户举报时，若举报的是内容数据，则将时序日志中所述内容数据对应的结构化数据的标记为恶意信息；若举报的是账号，则将时序日志中所述账号作为发信人发送的内容数据对应的结构化数据的标记为恶意信息；当平台运营人员对某一账号禁封时，则将时序日志中所述账号作为发信人发送的内容数据对应的结构化数据的标记为恶意信息。

基于上述任一实施例，该方法中，所述确定所述时序日志中的结构化数据的标记，具体还包括：

具体地，确定时序日志中的结构化数据的标记还可以通过周期性的分析时序日志中的结构化数据得到，若分析得出某账号为异常账号，则将时序日志中该异常账号作为发信人发送的内容数据对应的结构化数据标记为恶意信息。

基于上述任一实施例，该方法中，所述确定账号属性，具体还包括：

具体地，对时序日志中的结构化数据进行周期性地分析，具体可以是统计账号在每个周期内向不同用户发送内容数据的次数，若当前周期内该账号向不同用户发送内容数据的次数高于预设阈值，则确定账号属性为异常账号。

基于上述任一实施例，该方法中，所述恶意信息识别模型采用了NLP模型。

具体地，NLP(自然语言处理)模型是一种常用的语义分析模型，经常用于语义分析的深度学习，而本发明实施例中恶意信息识别模型优选采用NLP模型。

基于上述任一实施例，本发明实施例提供一种基于机器学习的游戏盗量监督装置，图2为本发明实施例提供的基于机器学习的游戏盗量监督装置的结构示意图。如图2所示，该装置包括：数据分发器模块210、分词音译模块220、恶意信息识别模块230、计算模块240和显示模块250，其中，

所述数据分发器模块210，用于搜集平台的用户行为中的内容数据，对所述内容数据进行解析获取信息内容；

所述分词音译模块220，用于对所述信息内容进行分词处理，得到分词序列，确定所述分词序列中每一分词的拼音；

所述恶意信息识别模块230，用于将每一名词分词的拼音输入恶意信息识别模型，输出与每一名词分词对应的恶意信息概率值，其中，所述恶意信息识别模型是基于名词分词的拼音样本数据和预先确定的恶意信息标签进行训练后得到的；

所述计算模块240，用于对所有名词分词的恶意信息概率值求和，得到所述内容数据的恶意概率值；

所述显示模块250，用于显示所述恶意概率值，以供监管人员决定所述内容数据的处置方式。

本发明实施例提供的装置，通过对所述信息内容进行分词处理，得到分词序列，确定所述分词序列中每一分词的拼音，然后将每一名词分词的拼音输入恶意信息识别模型，得到每个名词分词的恶意信息概率值，最后对所有名词分词的恶意信息概率值求和得到内容数据的恶意概率值。本发明实施例是对每个名词分词的拼音进行恶意信息识别，恶意信息识别模型也是用名词单词的拼音训练出来的，实现了对不同字但同音的模糊词汇的恶意信息的识别。如此，提高了恶意信息的识别的全面程度。

基于上述任一实施例，该装置中，所述对所述内容数据进行解析获取信息内容，具体包括：

基于上述任一实施例，该装置中，还包括时序日志模块和模型矫正模块，其中，

所述时序日志模块，用于将所述结构化数据存入时序日志，确定所述时序日志中的结构化数据的标记，若所述标记为恶意信息，则将所述结构化数据的信息内容作分词处理，得到分词序列；

所述模型矫正模块，用于确定所述分词序列中每一分词的拼音，基于每一名词分词的拼音和恶意信息标签对所述恶意信息识别模型进行矫正训练。

基于上述任一实施例，该装置中，所述确定所述时序日志中的结构化数据的标记，具体包括：

基于上述任一实施例，该装置中，所述确定所述时序日志中的结构化数据的标记，具体还包括：

基于上述任一实施例，该装置中，所述确定账号属性，具体还包括：

基于上述任一实施例，该装置中，所述恶意信息识别模型采用了NLP模型。

图3为本发明实施例提供的电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序，以执行上述各实施例提供的基于机器学习的游戏盗量监督方法，例如包括：搜集平台的用户行为中的内容数据，对所述内容数据进行解析获取信息内容；对所述信息内容进行分词处理，得到分词序列，确定所述分词序列中每一分词的拼音；将每一名词分词的拼音输入恶意信息识别模型，输出与每一名词分词对应的恶意信息概率值，其中，所述恶意信息识别模型是基于名词分词的拼音样本数据和预先确定的恶意信息标签进行训练后得到的；对所有名词分词的恶意信息概率值求和，得到所述内容数据的恶意概率值；显示所述恶意概率值，以供监管人员决定所述内容数据的处置方式。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于机器学习的游戏盗量监督方法，例如包括：搜集平台的用户行为中的内容数据，对所述内容数据进行解析获取信息内容；对所述信息内容进行分词处理，得到分词序列，确定所述分词序列中每一分词的拼音；将每一名词分词的拼音输入恶意信息识别模型，输出与每一名词分词对应的恶意信息概率值，其中，所述恶意信息识别模型是基于名词分词的拼音样本数据和预先确定的恶意信息标签进行训练后得到的；对所有名词分词的恶意信息概率值求和，得到所述内容数据的恶意概率值；显示所述恶意概率值，以供监管人员决定所述内容数据的处置方式。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于机器学习的游戏盗量监督方法，其特征在于，包括：

2.根据权利要求1所述的基于机器学习的游戏盗量监督方法，其特征在于，所述对所述内容数据进行解析获取信息内容，具体包括：

3.根据权利要求2所述的基于机器学习的游戏盗量监督方法，其特征在于，还包括：

4.根据权利要求3所述的基于机器学习的游戏盗量监督方法，其特征在于，所述确定所述时序日志中的结构化数据的标记，具体包括：

5.根据权利要求4所述的基于机器学习的游戏盗量监督方法，其特征在于，所述确定所述时序日志中的结构化数据的标记，具体还包括：

6.根据权利要求5所述的基于机器学习的游戏盗量监督方法，其特征在于，所述确定账号属性，具体还包括：

7.根据权利要求1-6任一项所述的基于机器学习的游戏盗量监督方法，其特征在于，所述恶意信息识别模型采用了NLP模型。

8.一种基于机器学习的游戏盗量监督装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的基于机器学习的游戏盗量监督方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于机器学习的游戏盗量监督方法的步骤。