CN111340112B - 分类方法、装置、服务器 - Google Patents

分类方法、装置、服务器 Download PDF

Info

Publication number
CN111340112B
CN111340112B CN202010119992.5A CN202010119992A CN111340112B CN 111340112 B CN111340112 B CN 111340112B CN 202010119992 A CN202010119992 A CN 202010119992A CN 111340112 B CN111340112 B CN 111340112B
Authority
CN
China
Prior art keywords
behavior information
user
behavior
segment
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010119992.5A
Other languages
English (en)
Other versions
CN111340112A (zh
Inventor
温蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010119992.5A priority Critical patent/CN111340112B/zh
Publication of CN111340112A publication Critical patent/CN111340112A/zh
Application granted granted Critical
Publication of CN111340112B publication Critical patent/CN111340112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种分类方法、装置、服务器;本发明实施例可以获取用户的时序行为信息序列和用户所使用设备的设备信息,时序行为信息序列中包括多个按照时间顺序排列的行为信息片段;基于行为信息片段,以及时序行为信息序列中行为信息片段的前一行为信息片段,预测用户在时间尺度上的时序行为特征;根据用户所使用设备的设备信息构建关联关系图,关联关系图中包括用户节点,以及与用户节点相关联的设备节点;基于关联关系图中的用户节点和设备节点确定用户与设备之间的关联关系特征;基于行为特征、关联关系特征预测用户的用户类型。本方案考虑了用户自身行为在时间上的特点,以及用户与设备之间的关系,由此,本方案可以提升分类的准确度。

Description

分类方法、装置、服务器
技术领域
本发明涉及计算机领域,具体涉及一种分类方法、装置、服务器。
背景技术
群控(Group control)是指采用一台电子设备控制多个终端,从而实现多个终端同时同步操作的方法。群控可以作为作弊手段之一,作弊者可以采用电脑来控制多部移动设备,使得这些移动设备根据作弊脚本批量地执行指定的操作,比如,在账号注册场景中,作弊者可以利用作弊脚本来控制多个移动终端来通过滑动验证、自动获取填写验证码、修改资料等功能;再比如,在广告发布场景中,作弊者可以利用作弊脚本来控制多个移动终端来大规模地添加好友、自动向好友发布广告信息,等等。
然而,目前的反作弊方法很难针对这些作弊手段进行侦测,无法识别出用户是否是采用了作弊手段的异常用户,因此,目前对于用户的分类方法准确度较低。
发明内容
本发明实施例提供一种分类方法、装置、服务器,可以提升分类的准确度。
本发明实施例提供一种分类方法,包括:
获取用户的时序行为信息序列和所述用户所使用设备的设备信息,所述时序行为信息序列中包括多个按照时间顺序排列的行为信息片段;
基于所述行为信息片段,以及所述时序行为信息序列中所述行为信息片段的前一行为信息片段,预测所述用户在时间尺度上的时序行为特征;
根据所述用户所使用设备的设备信息构建关联关系图,所述关联关系图中包括用户节点,以及与所述用户节点相关联的设备节点;
基于所述关联关系图中的用户节点和设备节点确定所述用户与设备之间的关联关系特征;
基于所述行为特征、关联关系特征预测所述用户的用户类型。
本发明实施例还提供一种分类装置,包括:
获取单元,用于获取用户的时序行为信息序列和所述用户所使用设备的设备信息,所述时序行为信息序列中包括多个按照时间顺序排列的行为信息片段;
行为单元,用于基于所述行为信息片段,以及所述时序行为信息序列中所述行为信息片段的前一行为信息片段,预测所述用户在时间尺度上的时序行为特征;
图单元,用于根据所述用户所使用设备的设备信息构建关联关系图,所述关联关系图中包括用户节点,以及与所述用户节点相关联的设备节点;
设备单元,用于基于所述关联关系图中的用户节点和设备节点确定所述用户与设备之间的关联关系特征;
类型单元,用于基于所述时序行为特征、关联关系特征预测所述用户的用户类型。
在一些实施例中,所述行为单元,包括:
转换子单元,用于对所述行为信息片段进行向量转换,得到所述行为信息片段对应的输入向量;
片段向量子单元,用于基于所述行为信息片段对应的输入向量,以及所述行为信息片段的前一行为信息片段,预测所述行为信息片段对应的片段向量;
合并子单元,用于对所述片段向量进行特征合并处理,得到所述用户的时序行为特征。
在一些实施例中,所述行为单元,包括:
转换子单元,用于对所述行为信息片段进行向量转换,得到所述行为信息片段对应的输入向量;
正序转换子单元,用于基于所述行为信息片段对应的输入向量,以及所述行为信息片段的前一行为信息片段,预测所述行为信息片段对应的正序片段向量;
逆序转换子单元,用于基于所述行为信息片段对应的输入向量,以及所述行为信息片段的后一行为信息片段,预测所述行为信息片段对应的逆序片段向量;
正逆合并子单元,用于对所述正序片段向量和所述逆序片段向量进行特征合并处理,得到所述用户的时序行为特征。
在一些实施例中,所述片段向量子单元,包括:
预设时序模型模块,用于获取行为信息样本和预设时序模型;
时序模型模块,用于采用所述行为信息样本训练所述预设时序模型,直至所述预设时序模型收敛,得到时序模型;
片段向量模块,用于采用所述时序模型基于所述行为信息片段对应的输入向量,以及所述行为信息片段的前一行为信息片段,预测所述行为信息片段对应的片段向量。
在一些实施例中,所述时序模型包括输入层、隐藏层和输出层,所述片段向量模块,包括:
第一加权子模块,用于在输入层对所述行为信息片段对应的输入向量进行第一次加权处理,得到所述行为信息片段的处理后输入向量;
第二加权子模块,用于在隐藏层确定所述前一行为信息片段对应的隐藏向量,以及,对所述行为信息片段的处理后输入向量、前一行为信息片段对应的隐藏向量进行第二次加权处理,得到所述行为信息片段对应的隐藏向量;
第三加权子模块,用于在输出层对所述行为信息片段对应的隐藏向量进行第三次加权处理,得到所述行为信息片段对应的片段向量。
在一些实施例中,所述第二加权子模块,用于:
确定所述前一行为信息片段对应的隐藏向量,以及所述隐藏层上一时刻的层状态;
根据所述隐藏层上一时刻的层状态、所述前一行为信息片段对应的隐藏向量、所述行为信息片段的处理后输入向量更新隐藏层当前时刻的层状态;
根据所述隐藏层当前时刻的层状态和所述前一行为信息片段对应的隐藏向量,计算所述行为信息片段对应的隐藏向量。
在一些实施例中,所述第二加权子模块,用于:
确定所述前一行为信息片段对应的隐藏向量;
对所述前一行为信息片段对应的隐藏向量、所述行为信息片段的处理后输入向量进行加权求和,得到所述行为信息片段对应的隐藏向量。
在一些实施例中,所述设备单元,包括:
预设图神经网络子单元,用于获取设备信息样本和预设图神经网络模型;
图神经网络子单元,用于采用所述设备信息样本训练所述预设图神经网络模型,直至所述预设图神经网络模型收敛,得到图关系模型;
关联关系子单元,用于采用所述图关系模型基于所述关联关系图确定所述用户与所述设备之间的关联关系特征。
在一些实施例中,所述关联关系子单元,用于:
对所述关联关系图中的节点进行近邻采样,得到所述节点的邻居节点;
根据所述节点的邻居节点计算所述节点的聚合特征;
根据所述聚合特征确定所述用户与所述设备之间的关联关系特征。
在一些实施例中,所述关联关系子单元,用于:
在所述关联关系图中确定目标节点,以及所述目标节点的邻居节点;
对所述目标节点的邻居节点进行随机游走采样,得到所述节点的游走节点序列;
根据所述游走节点序列计算所述节点的嵌入特征;
根据所述嵌入特征确定所述用户与所述设备之间的关联关系特征。
在一些实施例中,所述类型单元,包括:
预设分类模型子单元,用于获取标注了用户类型的融合特征样本,以及预设分类模型;
分类模型子单元,用于采用所述标注了用户类型的融合特征样本训练所述预设分类模型,直至所述预设分类模型收敛,得到分类模型;
融合子单元,用于对所述行为特征、关联关系特征进行特征融合处理,得到融合特征;
类型子单元,用于采用所述分类模型根据所述融合特征预测所述用户的用户类型。
在一些实施例中,所述分类模型包括多个分类权重值和分类偏置值,所述类型子单元,用于:
采用所述分类权重值和所述分类偏置值对所述融合特征进行加权求和计算,得到加权求和值;
对所述加权求和值进行归一化处理,得到概率结果;
根据所述概率结果确定所述用户的用户类型。
在一些实施例中,所述分类装置还包括上报单元,当所述用户的用户类型为作弊用户类型时,所述上报单元用于将所述用户上报给作弊管理系统,以便所述作弊管理系统对所述用户进行作弊惩罚处理。
本发明实施例还提供一种服务器,包括存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本发明实施例所提供的任一种分类方法中的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种分类方法中的步骤。
本发明实施例可以获取用户的时序行为信息序列和所述用户所使用设备的设备信息,所述时序行为信息序列中包括多个按照时间顺序排列的行为信息片段;基于所述行为信息片段,以及所述时序行为信息序列中所述行为信息片段的前一行为信息片段,预测所述用户在时间尺度上的时序行为特征;根据所述用户所使用设备的设备信息构建关联关系图,所述关联关系图中包括用户节点,以及与所述用户节点相关联的设备节点;基于所述关联关系图中的用户节点和设备节点确定所述用户与设备之间的关联关系特征;基于所述行为特征、关联关系特征预测所述用户的用户类型。
在本发明中,可以同时根据用户自身的行为,以及与该用户关联的多个设备,来判断该用户的用户类型,特别是针对群控等批量采用多个设备进行作弊的手段,本方案可以从多维的角度来准确、有效地判断出用户是否采用了脚本来对多个设备进行批量控制。由此,本方案可以提升分类的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的分类方法的场景示意图;
图1b是本发明实施例提供的分类方法的第一种流程示意图;
图1c是本发明实施例提供的时序模型的预测过程示意图;
图1d是本发明实施例提供的时序模型的结构示意图;
图1e是本发明实施例提供的LSTM结构示意图;
图1f是本发明实施例提供的GRU结构示意图;
图1g是本发明实施例提供的关联关系图;
图2是本发明实施例提供的分类方法的第二种流程示意图;
图3是本发明实施例提供的分类装置的结构示意图;
图4是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种分类方法、装置、服务器。
其中,该分类装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该分类装置还可以集成在多个电子设备中,比如,分类装置可以集成在多个服务器中,由多个服务器来实现本发明的分类方法。
在一些实施例中,服务器也可以以终端的形式来实现。
例如,参考图1a,该电子设备可以是服务器,该服务器可以从用户日志数据库中获取用户的时序行为信息序列和用户所使用设备的设备信息,然后基于所述行为信息片段,以及所述时序行为信息序列中所述行为信息片段的前一行为信息片段,预测所述用户在时间尺度上的时序行为特征,再根据所述用户所使用设备的设备信息构建关联关系图,所述关联关系图中包括用户节点,以及与所述用户节点相关联的设备节点;基于所述关联关系图中的用户节点和设备节点确定所述用户与设备之间的关联关系特征,最后基于行为特征、关联关系特征预测用户的用户类型。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
人工智能(Artificial Intelligence,AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是利用计算机代替人模拟或实现人类的学习行为,以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身的性能的技术。
机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学习等方面的研究,其中,人工神经网络(Artificial Neural Network,ANN)是由大量处理单元互联组成的非线性、自适应信息处理系统,它可以用于考虑网络连接的拓扑结构、神经元的特征、学习规则等,从而对权值进行调整,改善系统。
在本实施例中,提供了一种基于机器学习的分类方法,如图1b所示,该分类方法的具体流程可以如下:
101、获取用户的时序行为信息序列和所述用户所使用设备的设备信息,该所述时序行为信息序列中包括多个按照时间顺序排列的行为信息片段。
用户的时序行为信息序列是一种基于时间顺序保存的用户行为信息,该时序行为信息序列中包含多个以时间顺序进行排列的行为信息片段;其中,用户行为信息可以是用户的注册行为信息、操作行为信息、登录行为信息、验证行为信息,等等。
比如,参考表1,用户A在2月10日13:00时~13:30时的时序行为信息序列如下:
时间 行为类型 行为
13:00 注册行为 注册账号XXX
13:12 登录行为 账号XXX登录了MAC地址xx:xx:xx:xx
13:25 浏览行为 点击广告Y并观看了2分钟
13:30 注销行为 注销账号XXX
表1
其中,该时序行为信息序列中包括4个按照时间顺序排列的行为信息片段,分别是行为“注册账号XXX”、“账号XXX登录了MAC地址xx:xx:xx:xx”、“点击广告Y并观看了2分钟”、“注销账号XXX”。
用户所使用设备的设备信息是指用户所使用的设备的相关信息,设备信息可以包括设备的地址信息、设备的标识信息、设备名称、设备的种类、设备的产品编号,等等比如,参考表2,用户A所使用设备的设备信息如下:
所属用户 设备编号 设备名称 设备IP地址 设备MAC地址
用户A 1 x米S10 10.255.xx.xxx xx:xx:xx:xx
用户A 2 x为P20 10.255.yy.yyy yy:yy:yy:yy
用户A 3 x星S10 10.255.zz.zzz zz:zz:zz:zz
表2
获取用户的时序行为信息序列和用户所使用设备的设备信息的方法具有多种,比如,可以通过网络从用户日志数据库中获取用户的时序行为信息序列和用户所使用设备的设备信息;比如,可以通过人工录入的方法获取用户的时序行为信息序列和用户所使用设备的设备信息;再比如,可以通过读取本地内存来获取时序行为信息序列和用户所使用设备的设备信息,等等。
102、基于行为信息片段,以及时序行为信息序列中行为信息片段的前一行为信息片段,预测用户在时间尺度上的时序行为特征。
在多种作弊手段中,群控是利用脚本使得多个终端批量地执行指定的操作,故采用群控方法进行作弊的用户,其使用的设备所生成的日志数据在操作内容、操作顺序上具有高度的相似性,故作弊设备的用户行为特征在时间上具有连续性。
故在一些实施例中,时序行为信息序列中包括多个按照时间顺序排列的行为信息片段,行为信息片段的前一行为信息片段是指在行为信息片段序列中,位于该行为信息片段前一位的另一行为信息片段。
例如,定义数据序列X={x1,x2,x3,x4...xn},其中xi是该数据序列X中的行为信息片段,行为信息片段x3的前一行为信息片段为x2,该行为信息片段x3和行为信息片段为x2之间可以具有某种依赖关系,比如,行为信息片段x3依赖行为信息片段x2
为了进对数据序列进行完整、准确分析,在本实施例中可以根据行为信息片段及其前一行为信息片段之间的依赖关系来分析该行为信息片段,具体地,可以基于行为信息片段的前一行为信息片段,预测行为信息片段对应的片段向量。
比如,在一些实施例中,为了进一步提高分类准确度,步骤102可以包括以下步骤:
对行为信息片段进行向量转换,得到行为信息片段对应的输入向量;
基于行为信息片段对应的输入向量,以及行为信息片段的前一行为信息片段,预测行为信息片段对应的片段向量;
对片段向量进行特征合并处理,得到用户的时序行为特征。
比如,在一些实施例中,用户在时间上的前后行为有极强的相互关联性,故,为了更进一步地提高分类准确度,步骤102可以包括以下步骤:
对行为信息片段进行向量转换,得到行为信息片段对应的输入向量;
基于行为信息片段对应的输入向量,以及行为信息片段的前一行为信息片段,预测行为信息片段对应的正序片段向量;
基于行为信息片段对应的输入向量,以及行为信息片段的后一行为信息片段,预测行为信息片段对应的逆序片段向量;
对正序片段向量和逆序片段向量进行特征合并处理,得到用户的时序行为特征。
其中,对行为信息片段进行向量转换的方法具有多种,比如,可以通过降维、算子等方式进行向量转换。
常用的特征向量转换方法可以包括主成分分析(Principal ComponentAnalysis,PCA),独立成分分析(Independent Component Analysis,ICA),线性判别分析(Linear Discriminant Analysis,LDA),等等。
在一些实施例中,可以通过机器学习的方法得到用户的时序行为特征,故基于行为信息片段对应的输入向量,以及行为信息片段的前一行为信息片段,预测行为信息片段对应的片段向量可以包括:
获取行为信息样本和预设时序模型;
采用行为信息样本训练预设时序模型,直至预设时序模型收敛,得到时序模型;
采用时序模型基于行为信息片段对应的输入向量,以及行为信息片段的前一行为信息片段,预测行为信息片段对应的片段向量。
其中,时序模型可以是一种循环神经网络(Recurrent Neural Network,RNN)模型,RNN是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络,比如,在一些实施例中,时序模型可以为任意一种单向的循环神经网络模型。
其中,参考图1c,该时序模型可以依次对行为信息片段序列X={x1,x2,x3,x4...xn}中的行为信息片段进行由x1、x2、x3到xn-1、xn的顺序预测,分别得到这些行为信息片段对应的片段向量,其中行为信息片段xi对应其片段向量为
在一些实施例中,时序模型包括输入层、隐藏层和输出层,步骤“采用时序模型基于行为信息片段对应的输入向量,以及行为信息片段的前一行为信息片段,预测行为信息片段对应的片段向量”可以包括以下步骤:
在输入层对行为信息片段对应的输入向量进行第一次加权处理,得到行为信息片段的处理后输入向量;
在隐藏层确定前一行为信息片段对应的隐藏向量,以及,对行为信息片段的处理后输入向量、前一行为信息片段对应的隐藏向量进行第二次加权处理,得到行为信息片段对应的隐藏向量;
在输出层对行为信息片段对应的隐藏向量进行第三次加权处理,得到行为信息片段对应的片段向量。
其中,参考图1d,图1d是时序模型的结构示意图,其中,输入层具有第一权重U,隐藏层具有第二权重W,输出层具有第三权重V。
在输入层可以对输入向量xt进行第一次加权处理,得到行为信息片段的处理后输入向量Uxt
在隐藏层可以确定前一行为信息片段xt-1对应的隐藏向量st-1,以及,对行为信息片段的处理后输入向量Uxt、前一行为信息片段对应的隐藏向量st-1进行第二次加权处理,得到行为信息片段对应的隐藏向量st=Wst-1+Uxt
在输出层可以对行为信息片段对应的隐藏向量st进行第三次加权处理,得到行为信息片段对应的输出向量(即片段向量)ot=Vst
在一些实施例中,为了检测出信息片段序列中信息片段之间的长期依赖信息,可以采用长短期记忆网络(Long Short-Term Memory,LSTM)作为时序模型的循环单元,其中,LSTM包含了四个全连接层(一个用于输出,三个用于控制)、三个门(遗忘门,输入门,输出门)、两条状态向量(长期记忆,短期记忆),具体结构可以参考图1e,计算公式如下:
其中,h(t-1)是前一行为信息片段x(t-1)对应的输入向量,c(t-1)是前一行为信息片段x(t-1)对应的状态向量,h(t)是该行为信息片段x(t)对应的处理后输入向量,c(t)是该行为信息片段x(t)对应的状态向量(也是长期记忆信息),i(t)是输入门的计算公式,f(t)是遗忘门的的计算公式,o(t)是输出门的计算公式,g(t)是计算的信息,y(t)是长期记忆信息。
其中,σ(x)=1/(1+e-x)是一个sigmoid函数。
故步骤“在隐藏层确定前一行为信息片段对应的隐藏向量,以及,对行为信息片段的处理后输入向量、前一行为信息片段对应的隐藏向量进行第二次加权处理,得到行为信息片段对应的隐藏向量”可以包括以下步骤:
确定前一行为信息片段对应的隐藏向量,以及隐藏层上一时刻的层状态;
根据隐藏层上一时刻的层状态、前一行为信息片段对应的隐藏向量、行为信息片段的处理后输入向量更新隐藏层当前时刻的层状态;
根据隐藏层当前时刻的层状态和前一行为信息片段对应的隐藏向量,计算行为信息片段对应的隐藏向量。
在一些实施例中,可以采用门控循环单元网络(Gated Recurrent Unit,GRU)作为正向预测模型的循环单元,其中,GRU类似于LSTM结构,但GRU合并两条状态向量为一条状态向量,且合并了遗忘门和输入门,以及没有输出门,但是多了一个对状态输入进行过滤的门。具体结构可以参考图1f,其中:
其中,h(t-1)是前一行为信息片段x(t-1)对应的输入向量,h(t)是该行为信息片段x(t)对应的输入向量,z(t)可以控制增删记忆信息,g(t)可以计算全连接层。
故步骤“在隐藏层确定前一行为信息片段对应的隐藏向量,以及,对行为信息片段的处理后输入向量、前一行为信息片段对应的隐藏向量进行第二次加权处理,得到行为信息片段对应的隐藏向量”可以包括以下步骤:
确定前一行为信息片段对应的隐藏向量;
对前一行为信息片段对应的隐藏向量、行为信息片段的处理后输入向量进行加权求和,得到行为信息片段对应的隐藏向量。
103、根据用户所使用设备的设备信息构建关联关系图,关联关系图中包括用户节点,以及与用户节点相关联的设备节点。
关联关系图可以是一种拓扑图,其中包括多个相互连接的节点,节点包括用户节点和设备节点,根据用户所使用设备的设备信息中每个用户相关联的所有设备,可以构建以用户、设备为节点,以关联关系为边的关联关系图。
比如,假设设备信息中记录了用户A、用户B、用户C所使用设备的设备信息,如下:
用户A:设备a、设备b、设备c、设备d、设备r
用户B:设备e、设备f、设备g、设备h
用户B:设备d、设备h、设备i、设备j、设备k
参考图1g,可以根据上述用户A、用户B、用户C所使用设备的设备信息构建关联关系图,其中,白色节点为用户节点,黑色节点为设备节点。
104、基于关联关系图中的用户节点和设备节点确定用户与设备之间的关联关系特征。
比如,在一些实施例中,通过构建拓扑图的方式可以更加准确地得出关联关系特征,进一步提高分类准确度,步骤103可以包括以下步骤:
在一些实施例中,可以通过机器学习的方法来进行关系抽取(Relationextraction),即基于关联关系图确定用户与设备之间的关联关系特征,故步骤“基于关联关系图确定用户与设备之间的关联关系特征”可以包括以下步骤:
获取设备信息样本和预设图神经网络模型;
采用设备信息样本训练预设图神经网络模型,直至预设图神经网络模型收敛,得到图关系模型;
采用图关系模型基于关联关系图确定用户与设备之间的关联关系特征。
其中,可以利用图神经网络(Graph Neural Network,GNN)、图嵌入(GraphEmbedding)等方式进行关系抽取,比如,采用图卷积神经网络(Graph ConvolutionalNetwork,GCN)、DeepWalk(一种图嵌入算法)、node2vec(一种图嵌入算法),等等。
在一些实施例中,可以采用图神经网络作为图关系模型,比如,采用GraphSAGE(一种GCN)作为图关系模型,故步骤“采用图关系模型基于关联关系图确定用户与设备之间的关联关系特征”可以包括以下步骤:
对关联关系图中的节点进行近邻采样,得到节点的邻居节点;
根据节点的邻居节点计算节点的聚合特征;
根据聚合特征确定用户与设备之间的关联关系特征。
在一些实施例中,可以采用节点嵌入算法作为图关系模型,比如,采用DeepWalk(一种节点嵌入算法)作为图关系模型,故步骤“采采用图关系模型基于关联关系图确定用户与设备之间的关联关系特征”可以包括以下步骤:
在关联关系图中确定目标节点,以及目标节点的邻居节点;
对目标节点的邻居节点进行随机游走采样,得到节点的游走节点序列;
根据游走节点序列计算节点的嵌入特征;
根据嵌入特征确定用户与设备之间的关联关系特征。
105、基于行为特征、关联关系特征预测用户的用户类型。
用户类型可以指用户的异常类型,比如,用户类型可以包括正常类型、作弊类型、异常类型,等等,比如作弊类型可以包括群控作弊类型、修改作弊类型、其它作弊类型,等等。
在一些实施例中,可以通过机器学习的方法来基于行为特征、关联关系特征预测用户的用户类型,故步骤104可以包括以下步骤:
获取标注了用户类型的融合特征样本,以及预设分类模型;
采用标注了用户类型的融合特征样本训练预设分类模型,直至预设分类模型收敛,得到分类模型;
对行为特征、关联关系特征进行特征融合处理,得到融合特征;
采用分类模型根据融合特征预测用户的用户类型。
其中,分类模型可以包括多分类模型和二分类模型,比如,常见的分类模型包括随机森林、线性回归、逻辑回归、决策树,等等。
比如,在一些实施例中,可以采用多层感知机(Multilayer Perceptron,MLP)作为分类模型,分类模型包括多个分类权重值和分类偏置值,步骤“采用分类模型根据融合特征预测用户的用户类型”可以包括以下步骤:
采用分类权重值和分类偏置值对融合特征进行加权求和计算,得到加权求和值;
对加权求和值进行归一化处理,得到概率结果;
根据概率结果确定用户的用户类型。
本实施例可以提供用户类型的分析结果以便进行下一步分析,从而可以提高预测的准确度。
在一些实施例中,在步骤105之后,还可以进行以下步骤,以便侦测作弊用户,从而打击用户作弊行为、提高其它正常用户的用户体验:
当用户的用户类型为作弊用户类型时,将用户上报给作弊管理系统,以便作弊管理系统对用户进行作弊惩罚处理。
由上可知,本发明实施例可以获取用户的时序行为信息序列和用户所使用设备的设备信息,时序行为信息序列中包括多个按照时间顺序排列的行为信息片段;基于行为信息片段,以及时序行为信息序列中行为信息片段的前一行为信息片段,预测用户在时间尺度上的时序行为特征;根据用户所使用设备的设备信息构建关联关系图,关联关系图中包括用户节点,以及与用户节点相关联的设备节点;基于关联关系图中的用户节点和设备节点确定用户与设备之间的关联关系特征;基于行为特征、关联关系特征预测用户的用户类型。
由此,本方案在进行分类的过程中,考虑了用户自身行为在时间上的特点,同时还考虑了用户与用户、用户与设备之间的关联关系,从而提升了分类的准确度;特别是针对群控这种一个用户控制多台设备进行相同的操作的作弊情况,本方案相比于现有技术,检测到作弊用户的准确率有显著提升。
本发明实施例提供的用户分类方案可以应用在各种反作弊场景中。
比如,以在用户群体中侦测作弊用户为例,本方案可以对使用群控脚本控制多台移动终端进行账号注册的作弊用户进行侦测,以下将根据上述例子对对本发明实施例的方法进行详细说明:
在采用群控进行账号注册的场景下,被控终端可以自动通过滑动验证、自动获取填写验证码、自动修改资料等,此时,这些被控终端的表现的行为相似,在时间上这些行为的顺序也非常相似;此外,这些被控终端的来源地址具有高度的关联性,比如,登陆了相同的IP地址、登陆了被篡改了多次MAC地址等等。
为了侦测上述群控作弊的作弊用户,如图2所示,一种用户分类方法具体流程如下:
201、获取用户日志,该用户日志包括用户的行为信息和用户所使用设备的设备信息。
比如,在本实施例中,可以获取用户日志数据库中的用户日志。
其中,行为信息可以参考表3,如下:
表3
其中,设备信息可以参考表4,如下:
用户标识码 01a234d5f
IP地址 22.235.255.255.1
MAC地址 0D:64:2F:DE:34
IMEI 123456789123456789
表4
202、对用户的行为信息和用户所使用设备的设备信息进行数据预处理,得到行为信息样本和关联关系图样本。
比如,对用户的行为信息和用户所使用设备的设备信息进行数据清洗、数据生成、数据规整,等等,得到行为信息样本以及预处理后的设备信息。
然后,根据预处理后的设备信息构建关联关系图样本。
203、采用行为信息样本训练预设时序模型,得到时序模型。
在本实施例中,可以采用LSTM作为预设时序模型。
其中,LSTM能够处理序列变化的数据,并且在较长的序列数据中有较好的表现。因此,可以利用LSTM提取出在时间顺序上具有前后关系的行为特征。
204、采用关联关系图样本训练预设图神经网络模型,得到图神经网络模型。
在本实施例中,可以采用GraphSAGE作为预设图神经网络模型,GraphSAGE通过采样和聚合策略,可以有效地学习图结构中节点的自身属性和拓扑结构。因此,可以利用GraphSAGE提取出具有空间关系的关联关系特征。
205、采用时序模型根据行为信息进行行为特征提取操作,得到用户的行为特征。
具体步骤可以参考步骤102,在此不做赘述。
206、采用图神经网络模型根据设备信息进行关联关系构建操作,得到用户与设备之间的关联关系特征。
具体步骤可以参考步骤103,在此不做赘述。
207、对行为特征、关联关系特征进行特征融合,得到融合特征样本。
具体步骤可以参考步骤104,在此不做赘述。
208、采用融合特征样本训练预设分类模型,得到分类模型。
具体步骤可以参考步骤104,在此不做赘述。
209、获取待测用户日志,采用时序模型、图神经网络模型、分类模型根据待测用户日志预测用户的用户类型。
最后,在实际需要进行群控作弊用户的侦测时,可以根据上述步骤203训练得到的时序模型、步骤204训练得到的图神经网络模型、步骤208训练得到的分类模型,来根据待测用户日志预测用户的用户类型。
210、上报用户类型为群控作弊类型的用户。
在本实施例中,可以将用户类型为群控作弊类型的用户的相关信息上报给对应的作弊处理服务器,比如,将群控作弊用户的用户账号及其关联的作弊设备、作弊设备的IP地址、MAC地址等信息发送给作弊处理服务器,以便作弊处理服务器封禁该作弊用户的用户账号,以及,禁止作弊设备进行用户注册,同时,禁止使用作弊设备的IP地址、MAC地址的其它设备进行用户注册,等等,从而实现准确、完整地封禁作弊用户及其网络地址,有效地遏制了该作弊用户通过更改网络地址、新增作弊设备来继续进行作弊。
由上可知,本发明实施例可以获取用户日志,该用户日志包括用户的行为信息和用户所使用设备的设备信息;对用户的行为信息和用户所使用设备的设备信息进行数据预处理,得到行为信息样本和关联关系图样本;采用行为信息样本训练预设时序模型,得到时序模型;采用关联关系图样本训练预设图神经网络模型,得到图神经网络模型;采用时序模型根据行为信息进行行为特征提取操作,得到用户的行为特征;采用图神经网络模型根据设备信息进行关联关系构建操作,得到用户与设备之间的关联关系特征;对行为特征、关联关系特征进行特征融合,得到融合特征样本;采用融合特征样本训练预设分类模型,得到分类模型;获取待测用户日志,采用时序模型、图神经网络模型、分类模型根据待测用户日志预测用户的用户类型;上报用户类型为群控作弊类型的用户。
本方案在侦测群控作弊用户时,同时根据用户自身行为在时间上的分布特点,以及用户与用户、用户与设备之间的关系来判断用户属于正常用户还是群控作弊用户,本方案可以更加准确、有效地辨识用户是否是群控作弊用户,且可以实现不错封、不漏封的效果,有效遏制作弊者通过伪造网络地址、重新注册、更换作弊设备等来继续作弊的行为。
为了更好地实施以上方法,本发明实施例还提供一种分类装置,该分类装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以分类装置具体集成在服务器为例,对本发明实施例的方法进行详细说明。
例如,如图3所示,该分类装置可以包括获取单元301、行为单元302、图单元303、设备单元304以及类型单元305,如下:
(一)获取单元301。
获取单元301可以用于获取用户的时序行为信息序列和所述用户所使用设备的设备信息,所述时序行为信息序列中包括多个按照时间顺序排列的行为信息片段。
(二)行为单元302。
行为单元302可以用于根据行为信息进行行为特征提取操作,得到用户的行为特征。
在一些实施例中,行为单元302可以包括转换子单元、片段向量子单元以及合并子单元,如下:
(1)转换子单元。
转换子单元可以用于对行为信息片段进行向量转换,得到行为信息片段对应的输入向量。
(2)片段向量子单元。
片段向量子单元可以用于基于行为信息片段对应的输入向量,以及行为信息片段的前一行为信息片段,预测行为信息片段对应的片段向量。
在一些实施例中,片段向量子单元可以包括预设时序模型模块、时序模型模块、片段向量模块,其中:
预设时序模型模块可以用于获取行为信息样本和预设时序模型;
时序模型模块可以用于采用行为信息样本训练预设时序模型,直至预设时序模型收敛,得到时序模型;
片段向量模块可以用于采用时序模型基于行为信息片段对应的输入向量,以及行为信息片段的前一行为信息片段,预测行为信息片段对应的片段向量。
在一些实施例中,时序模型包括输入层、隐藏层和输出层,片段向量模块可以包括第一加权子模块、第二加权子模块、第三加权子模块,其中:
第一加权子模块可以用于在输入层对行为信息片段对应的输入向量进行第一次加权处理,得到行为信息片段的处理后输入向量;
第二加权子模块可以用于在隐藏层确定前一行为信息片段对应的隐藏向量,以及,对行为信息片段的处理后输入向量、前一行为信息片段对应的隐藏向量进行第二次加权处理,得到行为信息片段对应的隐藏向量;
第三加权子模块可以用于在输出层对行为信息片段对应的隐藏向量进行第三次加权处理,得到行为信息片段对应的片段向量。
在一些实施例中,第二加权子模块可以用于:
确定前一行为信息片段对应的隐藏向量,以及隐藏层上一时刻的层状态;
根据隐藏层上一时刻的层状态、前一行为信息片段对应的隐藏向量、行为信息片段的处理后输入向量更新隐藏层当前时刻的层状态;
根据隐藏层当前时刻的层状态和前一行为信息片段对应的隐藏向量,计算行为信息片段对应的隐藏向量。
在一些实施例中,第二加权子模块可以用于:
确定前一行为信息片段对应的隐藏向量;
对前一行为信息片段对应的隐藏向量、行为信息片段的处理后输入向量进行加权求和,得到行为信息片段对应的隐藏向量。
(3)合并子单元。
合并子单元可以用于对片段向量进行特征合并处理,得到用户的时序行为特征。
在一些实施例中,行为单元302可以包括转换子单元、正序转换子单元、逆序转换子单元以及正逆合并子单元,如下:
(1)转换子单元。
转换子单元,用于对行为信息片段进行向量转换,得到行为信息片段对应的输入向量。
(2)正序转换子单元。
正序转换子单元用于基于行为信息片段对应的输入向量,以及行为信息片段的前一行为信息片段,预测行为信息片段对应的正序片段向量。
(3)逆序转换子单元。
逆序转换子单元用于基于行为信息片段对应的输入向量,以及行为信息片段的后一行为信息片段,预测行为信息片段对应的逆序片段向量。
(4)正逆合并子单元。
正逆合并子单元用于对正序片段向量和逆序片段向量进行特征合并处理,得到用户的时序行为特征。
(三)图单元303。
图单元303可以用于根据所述用户所使用设备的设备信息构建关联关系图,所述关联关系图中包括用户节点,以及与所述用户节点相关联的设备节点。
(四)设备单元304。
设备单元304可以用于基于关联关系图中的用户节点和设备节点确定所述用户与设备之间的关联关系特征。
在一些实施例中,设备单元304可以包括预设图神经网络子单元、图神经网络子单元以及关联关系子单元,如下:
(1)预设图神经网络子单元。
预设图神经网络子模块可以用于获取设备信息样本和预设图神经网络模型;
(2)图神经网络子单元。
图神经网络子单元可以用于采用设备信息样本训练预设图神经网络模型,直至预设图神经网络模型收敛,得到图关系模型;
(3)关联关系子单元。
关联关系子单元可以用于采用图关系模型基于关联关系图确定用户与设备之间的关联关系特征。
在一些实施例中,关联关系子单元可以用于:
对关联关系图中的节点进行近邻采样,得到节点的邻居节点;
根据节点的邻居节点计算节点的聚合特征;
根据聚合特征确定用户与设备之间的关联关系特征。
在一些实施例中,关联关系子单元可以用于:
在关联关系图中确定目标节点,以及目标节点的邻居节点;
对目标节点的邻居节点进行随机游走采样,得到节点的游走节点序列;
根据游走节点序列计算节点的嵌入特征;
根据嵌入特征确定用户与设备之间的关联关系特征。
(五)类型单元305,类型单元305用于基于时序行为特征、关联关系特征预测用户的用户类型。
在一些实施例中,类型单元305可以包括预设分类模型子单元、分类模型子单元、融合子单元以及类型子单元,如下:
(1)预设分类模型子单元。
预设分类模型子单元可以用于获取标注了用户类型的融合特征样本,以及预设分类模型。
(2)分类模型子单元。
分类模型子单元可以用于采用标注了用户类型的融合特征样本训练预设分类模型,直至预设分类模型收敛,得到分类模型。
(3)融合子单元。
融合子单元可以用于对行为特征、关联关系特征进行特征融合处理,得到融合特征。
(4)类型子单元。
类型子单元可以用于采用分类模型根据融合特征预测用户的用户类型。
在一些实施例中,分类模型包括多个分类权重值和分类偏置值,类型子单元可以用于:
采用分类权重值和分类偏置值对融合特征进行加权求和计算,得到加权求和值;
对加权求和值进行归一化处理,得到概率结果;
根据概率结果确定用户的用户类型。
在一些实施例中,分类装置还可以包括上报单元,当所述用户的用户类型为作弊用户类型时,所述上报单元用于将所述用户上报给作弊管理系统,以便所述作弊管理系统对所述用户进行作弊惩罚处理。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的分类装置可以由获取单元,用于获取用户的时序行为信息序列和所述用户所使用设备的设备信息,所述时序行为信息序列中包括多个按照时间顺序排列的行为信息片段;由行为单元基于所述行为信息片段,以及所述时序行为信息序列中所述行为信息片段的前一行为信息片段,预测所述用户在时间尺度上的时序行为特征;由图单元根据所述用户所使用设备的设备信息构建关联关系图,所述关联关系图中包括用户节点,以及与所述用户节点相关联的设备节点;由设备单元基于所述关联关系图中的用户节点和设备节点确定所述用户与设备之间的关联关系特征;由类型单元基于所述时序行为特征、关联关系特征预测所述用户的用户类型。
由此,本发明实施例可以提升分类的准确度。
本发明实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该分类装置还可以集成在多个电子设备中,比如,分类装置可以集成在多个服务器中,由多个服务器来实现本发明的分类方法。
在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,服务器可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取用户的时序行为信息序列和所述用户所使用设备的设备信息,所述时序行为信息序列中包括多个按照时间顺序排列的行为信息片段;
基于所述行为信息片段,以及所述时序行为信息序列中所述行为信息片段的前一行为信息片段,预测所述用户在时间尺度上的时序行为特征;
根据所述用户所使用设备的设备信息构建关联关系图,所述关联关系图中包括用户节点,以及与所述用户节点相关联的设备节点;
基于所述关联关系图中的用户节点和设备节点确定所述用户与设备之间的关联关系特征;
基于所述行为特征、关联关系特征预测所述用户的用户类型。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种分类方法中的步骤。例如,该指令可以执行如下步骤:
获取用户的时序行为信息序列和所述用户所使用设备的设备信息,所述时序行为信息序列中包括多个按照时间顺序排列的行为信息片段;
基于所述行为信息片段,以及所述时序行为信息序列中所述行为信息片段的前一行为信息片段,预测所述用户在时间尺度上的时序行为特征;
根据所述用户所使用设备的设备信息构建关联关系图,所述关联关系图中包括用户节点,以及与所述用户节点相关联的设备节点;
基于所述关联关系图中的用户节点和设备节点确定所述用户与设备之间的关联关系特征;
基于所述行为特征、关联关系特征预测所述用户的用户类型。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种分类方法中的步骤,因此,可以实现本发明实施例所提供的任一种分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种分类方法、装置、服务器和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种分类方法,其特征在于,包括:
获取用户的时序行为信息序列和所述用户所使用设备的设备信息,所述时序行为信息序列中包括多个按照时间顺序排列的行为信息片段;
基于所述行为信息片段,以及所述时序行为信息序列中所述行为信息片段的前一行为信息片段,预测所述用户在时间尺度上的时序行为特征;包括:对所述行为信息片段进行向量转换,得到所述行为信息片段对应的输入向量;基于所述行为信息片段对应的输入向量,以及所述行为信息片段的前一行为信息片段,计算所述行为信息片段对应的片段向量;对多个所述行为信息片段分别对应的片段向量进行特征合并处理,得到所述用户的时序行为特征;
根据所述用户所使用设备的设备信息构建关联关系图,所述关联关系图中包括用户节点,以及与所述用户节点相关联的设备节点;
基于所述关联关系图中的用户节点和设备节点确定所述用户与设备之间的关联关系特征;
基于所述时序行为特征、关联关系特征预测所述用户的用户类型。
2.如权利要求1所述的分类方法,其特征在于,所述基于所述行为信息片段对应的输入向量,以及所述行为信息片段的前一行为信息片段,计算所述行为信息片段对应的片段向量,包括:
获取行为信息样本和预设时序模型;
采用所述行为信息样本训练所述预设时序模型,直至所述预设时序模型收敛,得到时序模型;
采用所述时序模型基于所述行为信息片段对应的输入向量,以及所述行为信息片段的前一行为信息片段,预测所述行为信息片段对应的片段向量。
3.如权利要求2所述的分类方法,其特征在于,所述时序模型包括输入层、隐藏层和输出层,所述采用所述时序模型基于所述行为信息片段对应的输入向量,以及所述行为信息片段的前一行为信息片段,预测所述行为信息片段对应的片段向量,包括:
在输入层对所述行为信息片段对应的输入向量进行第一次加权处理,得到所述行为信息片段的处理后输入向量;
在隐藏层确定所述前一行为信息片段对应的隐藏向量,以及,对所述行为信息片段的处理后输入向量、前一行为信息片段对应的隐藏向量进行第二次加权处理,得到所述行为信息片段对应的隐藏向量;
在输出层对所述行为信息片段对应的隐藏向量进行第三次加权处理,得到所述行为信息片段对应的片段向量。
4.如权利要求3所述的分类方法,其特征在于,所述在隐藏层确定所述前一行为信息片段对应的隐藏向量,以及,对所述行为信息片段的处理后输入向量、前一行为信息片段对应的隐藏向量进行第二次加权处理,得到所述行为信息片段对应的隐藏向量,包括:
确定所述前一行为信息片段对应的隐藏向量,以及所述隐藏层上一时刻的层状态;
根据所述隐藏层上一时刻的层状态、所述前一行为信息片段对应的隐藏向量、所述行为信息片段的处理后输入向量更新隐藏层当前时刻的层状态;
根据所述隐藏层当前时刻的层状态和所述前一行为信息片段对应的隐藏向量,计算所述行为信息片段对应的隐藏向量。
5.如权利要求3所述的分类方法,其特征在于,所述在隐藏层确定所述前一行为信息片段对应的隐藏向量,以及,对所述行为信息片段的处理后输入向量、前一行为信息片段对应的隐藏向量进行第二次加权处理,得到所述行为信息片段对应的隐藏向量,包括:
确定所述前一行为信息片段对应的隐藏向量;
对所述前一行为信息片段对应的隐藏向量、所述行为信息片段的处理后输入向量进行加权求和,得到所述行为信息片段对应的隐藏向量。
6.如权利要求1所述的分类方法,其特征在于,所述基于所述关联关系图中的用户节点和设备节点确定所述用户与所述设备之间的关联关系特征,包括:
获取设备信息样本和预设图神经网络模型,其中,所述设备信息样本包括设备信息和用户信息;
采用所述设备信息样本训练所述预设图神经网络模型,直至所述预设图神经网络模型收敛,得到图关系模型;
采用所述图关系模型基于所述关联关系图中的用户节点和设备节点确定所述用户与所述设备之间的关联关系特征。
7.如权利要求6所述的分类方法,其特征在于,所述采用所述图关系模型基于所述关联关系图中的用户节点和设备节点确定所述用户与所述设备之间的关联关系特征,包括:
对所述关联关系图中的节点进行近邻采样,得到所述节点的邻居节点,所述节点包括用户节点和设备节点;
根据所述节点的邻居节点计算所述节点的聚合特征;
根据所述聚合特征确定所述用户与所述设备之间的关联关系特征。
8.如权利要求6所述的分类方法,其特征在于,所述采用所述图关系模型基于所述关联关系图中的用户节点和设备节点确定所述用户与所述设备之间的关联关系特征,包括:
在所述关联关系图中确定目标节点,以及所述目标节点的邻居节点;
对所述目标节点的邻居节点进行随机游走采样,得到所述目标节点的游走节点序列;
根据所述游走节点序列计算所述目标节点的嵌入特征;
根据多个所述目标节点的嵌入特征,确定所述用户与所述设备之间的关联关系特征。
9.如权利要求1所述的分类方法,其特征在于,所述的分类方法,其特征在于,所述基于所述行为特征、关联关系特征预测所述用户的用户类型,包括:
获取标注了用户类型的融合特征样本,以及预设分类模型,其中,所述融合特征样本由时序行为特征、关联关系特征进行特征融合得到;
采用所述标注了用户类型的融合特征样本训练所述预设分类模型,直至所述预设分类模型收敛,得到分类模型;
对所述行为特征、关联关系特征进行特征融合处理,得到融合特征;
采用所述分类模型根据所述融合特征预测所述用户的用户类型。
10.如权利要求9所述的分类方法,其特征在于,所述分类模型包括多个分类权重值和分类偏置值,所述采用所述分类模型根据所述融合特征预测所述用户的用户类型,包括:
采用所述分类权重值和所述分类偏置值对所述融合特征进行加权求和计算,得到加权求和值;
对所述加权求和值进行归一化处理,得到概率结果;
根据所述概率结果确定所述用户的用户类型。
11.如权利要求1所述的分类方法,其特征在于,所述基于所述时序行为特征、关联关系特征预测所述用户的用户类型之后,还包括:
当所述用户的用户类型为作弊用户类型时,将所述用户上报给作弊管理系统,以便所述作弊管理系统对所述用户进行作弊惩罚处理。
12.一种分类装置,其特征在于,包括:
获取单元,用于获取用户的时序行为信息序列和所述用户所使用设备的设备信息,所述时序行为信息序列中包括多个按照时间顺序排列的行为信息片段;
行为单元,用于基于所述行为信息片段,以及所述时序行为信息序列中所述行为信息片段的前一行为信息片段,预测所述用户在时间尺度上的时序行为特征;所述行为单元具体用于:对所述行为信息片段进行向量转换,得到所述行为信息片段对应的输入向量;基于所述行为信息片段对应的输入向量,以及所述行为信息片段的前一行为信息片段,计算所述行为信息片段对应的片段向量;对多个所述行为信息片段分别对应的片段向量进行特征合并处理,得到所述用户的时序行为特征;
图单元,用于根据所述用户所使用设备的设备信息构建关联关系图,所述关联关系图中包括用户节点,以及与所述用户节点相关联的设备节点;
设备单元,用于基于所述关联关系图中的用户节点和设备节点确定所述用户与设备之间的关联关系特征;
类型单元,用于基于所述时序行为特征、关联关系特征预测所述用户的用户类型。
13.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~11任一项所述的分类方法中的步骤。
14.一种电子设备,其特征在于,包括:包括存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1~11任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~11任一项所述方法中的步骤。
CN202010119992.5A 2020-02-26 2020-02-26 分类方法、装置、服务器 Active CN111340112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010119992.5A CN111340112B (zh) 2020-02-26 2020-02-26 分类方法、装置、服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010119992.5A CN111340112B (zh) 2020-02-26 2020-02-26 分类方法、装置、服务器

Publications (2)

Publication Number Publication Date
CN111340112A CN111340112A (zh) 2020-06-26
CN111340112B true CN111340112B (zh) 2023-09-26

Family

ID=71185637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010119992.5A Active CN111340112B (zh) 2020-02-26 2020-02-26 分类方法、装置、服务器

Country Status (1)

Country Link
CN (1) CN111340112B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183622B (zh) * 2020-09-27 2024-03-12 广州汇量信息科技有限公司 一种移动应用bots安装作弊检测方法、装置、设备及介质
CN112487305B (zh) * 2020-12-01 2022-06-03 重庆邮电大学 一种基于gcn的动态社交用户对齐方法
CN112926045B (zh) * 2021-02-24 2023-12-26 北京通付盾人工智能技术有限公司 一种基于逻辑回归模型的群控设备识别方法
CN113486235A (zh) * 2021-05-31 2021-10-08 杭州摸象大数据科技有限公司 用户兴趣识别的方法和系统
CN114491617A (zh) * 2021-12-16 2022-05-13 重庆邮电大学 一种基于目的隐藏的联邦学习方法及其系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022960A (zh) * 2015-08-10 2015-11-04 济南大学 基于网络流量的多特征移动终端恶意软件检测方法及系统
CN106022900A (zh) * 2016-08-08 2016-10-12 北京京东尚科信息技术有限公司 用户风险数据挖掘方法和装置
WO2016201933A1 (zh) * 2015-06-19 2016-12-22 百度在线网络技术(北京)有限公司 用户数据处理方法、提供方法、系统和计算机设备
CN107316198A (zh) * 2016-04-26 2017-11-03 阿里巴巴集团控股有限公司 账户风险识别方法及装置
CN108446374A (zh) * 2018-03-16 2018-08-24 北京三快在线科技有限公司 用户意图预测方法、装置、电子设备、存储介质
CN108648020A (zh) * 2018-05-15 2018-10-12 携程旅游信息技术(上海)有限公司 用户行为量化方法、系统、设备及存储介质
CN108763319A (zh) * 2018-04-28 2018-11-06 中国科学院自动化研究所 融合用户行为和文本信息的社交机器人检测方法和系统
CN109271488A (zh) * 2018-10-08 2019-01-25 广东工业大学 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
CN109345260A (zh) * 2018-10-09 2019-02-15 北京芯盾时代科技有限公司 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
US10282546B1 (en) * 2016-06-21 2019-05-07 Symatec Corporation Systems and methods for detecting malware based on event dependencies
CN109903087A (zh) * 2019-02-13 2019-06-18 广州视源电子科技股份有限公司 基于行为特征预测用户属性值的方法、装置及存储介质
CN109905411A (zh) * 2019-04-25 2019-06-18 北京腾云天下科技有限公司 一种异常用户识别方法、装置和计算设备
CN110232630A (zh) * 2019-05-29 2019-09-13 腾讯科技(深圳)有限公司 恶意账户识别方法、装置及存储介质
CN110278175A (zh) * 2018-03-14 2019-09-24 阿里巴巴集团控股有限公司 图结构模型训练、垃圾账户识别方法、装置以及设备
CN110287938A (zh) * 2019-07-02 2019-09-27 齐鲁工业大学 基于关键片段检测的事件识别方法、系统、设备及介质
CN110399705A (zh) * 2019-07-03 2019-11-01 上海上湖信息技术有限公司 判断欺诈用户的方法、装置、设备、及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180022A1 (en) * 2014-12-18 2016-06-23 Fortinet, Inc. Abnormal behaviour and fraud detection based on electronic medical records
US9875357B2 (en) * 2015-02-06 2018-01-23 Qualcomm Incorporated Methods and systems for detecting fake user interactions with a mobile device for improved malware protection
US10476896B2 (en) * 2016-09-13 2019-11-12 Accenture Global Solutions Limited Malicious threat detection through time series graph analysis
US10699009B2 (en) * 2018-02-28 2020-06-30 Microsoft Technology Licensing, Llc Automatic malicious session detection
CN108734338A (zh) * 2018-04-24 2018-11-02 阿里巴巴集团控股有限公司 基于lstm模型的信用风险预测方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016201933A1 (zh) * 2015-06-19 2016-12-22 百度在线网络技术(北京)有限公司 用户数据处理方法、提供方法、系统和计算机设备
CN105022960A (zh) * 2015-08-10 2015-11-04 济南大学 基于网络流量的多特征移动终端恶意软件检测方法及系统
CN107316198A (zh) * 2016-04-26 2017-11-03 阿里巴巴集团控股有限公司 账户风险识别方法及装置
US10282546B1 (en) * 2016-06-21 2019-05-07 Symatec Corporation Systems and methods for detecting malware based on event dependencies
CN106022900A (zh) * 2016-08-08 2016-10-12 北京京东尚科信息技术有限公司 用户风险数据挖掘方法和装置
CN110278175A (zh) * 2018-03-14 2019-09-24 阿里巴巴集团控股有限公司 图结构模型训练、垃圾账户识别方法、装置以及设备
CN108446374A (zh) * 2018-03-16 2018-08-24 北京三快在线科技有限公司 用户意图预测方法、装置、电子设备、存储介质
CN108763319A (zh) * 2018-04-28 2018-11-06 中国科学院自动化研究所 融合用户行为和文本信息的社交机器人检测方法和系统
CN108648020A (zh) * 2018-05-15 2018-10-12 携程旅游信息技术(上海)有限公司 用户行为量化方法、系统、设备及存储介质
CN109271488A (zh) * 2018-10-08 2019-01-25 广东工业大学 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
CN109345260A (zh) * 2018-10-09 2019-02-15 北京芯盾时代科技有限公司 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN109903087A (zh) * 2019-02-13 2019-06-18 广州视源电子科技股份有限公司 基于行为特征预测用户属性值的方法、装置及存储介质
CN109905411A (zh) * 2019-04-25 2019-06-18 北京腾云天下科技有限公司 一种异常用户识别方法、装置和计算设备
CN110232630A (zh) * 2019-05-29 2019-09-13 腾讯科技(深圳)有限公司 恶意账户识别方法、装置及存储介质
CN110287938A (zh) * 2019-07-02 2019-09-27 齐鲁工业大学 基于关键片段检测的事件识别方法、系统、设备及介质
CN110399705A (zh) * 2019-07-03 2019-11-01 上海上湖信息技术有限公司 判断欺诈用户的方法、装置、设备、及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Log2vec: a heterogeneous graph embedding based approach for detecting cyber threats within enterprise;Fucheng Liu, et.al;《Proceedings of the 2019 ACM SIGSAC conference on computer and communications security》;第1777-1794页 *
pBMDS: a behavior-based malware detection system for cellphone devices;Liang Xie, et.al;《Proceedings of the third ACM conference on wireless network security》;第37-48页 *
基于内容和用户行为的社交平台反作弊系统的设计与实现;马如林;《中国优秀硕士学位论文全文数据库(信息科技辑)》(第2期);第I138-813页 *

Also Published As

Publication number Publication date
CN111340112A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111340112B (zh) 分类方法、装置、服务器
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
Tingting et al. Three‐stage network for age estimation
Torralba et al. Contextual models for object detection using boosted random fields
Lee et al. Deep asymmetric multi-task feature learning
CN111382190B (zh) 一种基于智能的对象推荐方法、装置和存储介质
CN111651671B (zh) 用户对象推荐方法、装置、计算机设备和存储介质
WO2020238353A1 (zh) 数据处理方法和装置、存储介质及电子装置
CN112052948B (zh) 一种网络模型压缩方法、装置、存储介质和电子设备
CN111506820B (zh) 推荐模型、方法、装置、设备及存储介质
He et al. MTAD‐TF: Multivariate Time Series Anomaly Detection Using the Combination of Temporal Pattern and Feature Pattern
CN110737730B (zh) 基于无监督学习的用户分类方法、装置、设备及存储介质
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN111522926A (zh) 文本匹配方法、装置、服务器和存储介质
Jing et al. Relational graph neural network for situation recognition
CN115952343A (zh) 一种基于多关系图卷积网络的社交机器人检测方法
Brindha Devi et al. IoT attack detection and mitigation with optimized deep learning techniques
Kong et al. A novel ConvLSTM with multifeature fusion for financial intelligent trading
de Oliveira et al. Flexible knowledge–vision–integration platform for personal protective equipment detection and classification using hierarchical convolutional neural networks and active leaning
CN111177493B (zh) 数据处理方法、装置、服务器和存储介质
CN116720009A (zh) 一种社交机器人检测方法、装置、设备及存储介质
CN114116692B (zh) 一种基于mask和双向模型的缺失POI轨迹补全方法
US20230018525A1 (en) Artificial Intelligence (AI) Framework to Identify Object-Relational Mapping Issues in Real-Time
CN117010480A (zh) 模型训练方法、装置、设备、存储介质及程序产品
Chang et al. A novel approach for rumor detection in social platforms: Memory-augmented transformer with graph convolutional networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024305

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant