CN116943229A - 一种数据处理方法、装置、设备以及存储介质 - Google Patents

一种数据处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN116943229A
CN116943229A CN202310002181.0A CN202310002181A CN116943229A CN 116943229 A CN116943229 A CN 116943229A CN 202310002181 A CN202310002181 A CN 202310002181A CN 116943229 A CN116943229 A CN 116943229A
Authority
CN
China
Prior art keywords
sequence
cluster
vector
layer
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310002181.0A
Other languages
English (en)
Inventor
陈观钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN202310002181.0A priority Critical patent/CN116943229A/zh
Publication of CN116943229A publication Critical patent/CN116943229A/zh
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/75Enforcing rules, e.g. detecting foul play or generating lists of cheating players
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,用于识别异常行为群体。包括:获取待处理序列数据集合,待处理序列数据集合对应第一行为数据;将待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;对全局序列特征向量进行聚类分区得到第一簇集合以及第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定第一簇集合中每个簇的密集度;从第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定第二簇集合中每个簇的可疑判决结果。本申请提供的技术方案可应用于计算机、云技术、游戏等领域。

Description

一种数据处理方法、装置、设备以及存储介质
技术领域
本申请涉及计算机领域,尤其涉及一种数据处理方法、装置、设备以及存储介质。
背景技术
随着互联网的普及和发展,网络游戏越来越受到广大网民的喜爱,其丰富了人们的休闲娱乐生活。然而,近年来,作弊行为在各种团队作战的玩法中不断涌现,作弊用户通过使用外挂程序带领实力较弱的玩家通过游戏关卡,从而获得游戏收益。这种作弊行为对于正常玩家来说极为不公平,严重破坏了游戏的玩法生态。
因此目前急需一种可以识别游戏黑产的方法来进行识别,进而保证游戏的正常运行。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,用于识别异常行为群体。
有鉴于此,本申请一方面提供一种数据处理方法,包括:获取待处理序列数据集合,该待处理序列数据集合对应第一行为数据;将该待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,该特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;对该全局序列特征向量进行聚类分区得到第一簇集合以及该第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定该第一簇集合中每个簇的密集度;从该第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定该第二簇集合中每个簇的可疑判决结果。
本申请另一方面提供一种数据处理装置,包括:获取模块,用于获取待处理序列数据集合,该待处理序列数据集合对应第一行为数据;
处理模块,用于将该待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,该特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;对该全局序列特征向量进行聚类分区得到第一簇集合以及该第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定该第一簇集合中每个簇的密集度;从该第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定该第二簇集合中每个簇的可疑判决结果。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于计算每个簇中的对象与该每个簇的聚类中心的欧式距离;对每个簇中的全部欧式距离计算平均值,该平均值作为每个簇的密集度。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于对该全局序列特征向量求平均得到平均特征向量;
对该平均特征向量进行去冗余和降维处理以得到特征向量;
基于聚类算法对该特征向量进行聚类分区得到该第一簇集合以及该第一簇集合中每个簇的聚类中心。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,具体用于获取行为日志数据;
从该行为日志数据中截取预设时长的行为数据生成序列数据集合,该序列数据集合中每一个序列数据包括对象标识号和行为序列号;
将该序列数据集合中的各个序列数据按照预设长度进行处理得到该待处理序列数据集合,该预设长度根据该预设时长内行为数据的长度设定。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,具体用于在该序列数据集合中存在序列长度小于该预设长度的第一序列数据时,对该第一序列数据进行补充处理,以使得该第一序列数据的序列长度等于该预设长度;
在该序列数据集合中存在序列长度大于该预设长度的第二序列数据时,对该第二序列数据进行截断处理,以使得该第二序列数据的序列长度等于该预设长度;
该序列长度等于该预设长度的序列数据作为该待处理序列数据集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,还用于获取训练行为序列数据和初始模型,该初始模型包括输入层、嵌入层、多头自注意力机制层以及多层全连接层;
该处理模块,还用于将该训练行为序列数据输入该初始模型的输入层和嵌入层得到该训练行为序列数据的序列向量;
对该序列向量进行掩码处理和随机顺序调整得到待预测序列向量,其中,该待预测序列向量包括经过掩码处理得到掩码字符向量和经过随机顺序调整得到随机字符向量;
将该待预测序列向量输入该初始模型的多头自注意力机制层以及多层全连接层得到第一预测字符和第二预测字符,该第一预测字符为该掩码字符向量对应的预测字符,该第二预测字符为该随机字符向量对应的预测字符;
根据该第一预测字符与该掩码字符向量对应的真实字符计算第一损失值,并根据该第二预测字符与该随机字符向量对应的真实字符计算第二损失值;
根据该第一损失值和该第二损失值训练该初始模型得到的特征提取模型。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于将该训练行为序列数据输入该输入层得到该训练行为序列数据中每个行为序列的第一编码和第二编码,该第二编码用于指示行为序列所处位置的位置编码,该第一编码用于指示行为序列的数据编码;
通过该嵌入层将该第一编码与该第二编码嵌入编码得到该训练行为序列数据的序列向量。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于选择该序列向量中的第一字符向量集合进行掩码处理得到该掩码字符向量,选择该序列向量中的第二字符向量集合进行随机顺序调整得到该随机字符向量;
将该序列向量中未经过处理的字符向量、该掩码字符向量和该随机字符向量生成该待预测序列向量。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,还用于将该待预测序列向量通过该初始模型的第一自注意力机制层,得到该待预测序列向量的第一语义矩阵,该第一自注意力机制包含于该多头自注意力机制层;
将该第一语义矩阵输入第一全连接层得到第一语义转换表示,该第一全连接层包含于该多层全连接层;
将该第一语义转换输入该初始模型的第二自注意力机制层,得到第二语义矩阵,该第二自注意力机制包含于该多头自注意力机制层;
将该第二语义矩阵输入第二全连接层,得到第二语义转换表示,该第二全连接层包含于该多层全连接层;
重复上述动作至目标次数得到该待预测序列向量的最终语义表示;
将该最终语义表示输入该初始模型的全连接分类层,得到该第一预测字符和该第二预测字符,该全连接分类层包含于该多层全连接层。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该全连接分类层的权重参数包括L1和L2正则化参数。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于根据交叉熵损失函数计算该第一预测字符与该掩码字符向量对应的真实字符的第一损失值,并根据交叉熵损失函数计算该第二预测字符与该随机字符向量对应的真实字符的第一损失值。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于在该第二簇集合中存在网络协议地址归于同一区域的第一簇时,确定该第一簇的对象为可疑对象;
或者,
在该第二簇集合中存在虚拟交易物品获取异常的第二簇时,确定该第二簇的对象为可疑对象。
本申请另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:通过已训练好的模型获取各个行为序列数据的特征向量,然后根据该特征向量进行聚类分区,并根据聚类分区得到的簇的聚类中心以及可疑特征判断各个簇中的对象是否为可疑对象,这样训练好的模型可以应用于多种场景,提高方案的适应性,同时将聚类算法进行聚类分区,方便获取行为序列相似的对象,从而加快可疑对象的识别的速度以及识别的覆盖范围。
附图说明
图1为本申请实施例中数据处理方案的一个应用场景下的一个可选的架构示意图;
图2为本申请实施例中特征提取模型的一个网络架构图;
图3为本申请实施例中预测掩码字符向量的一个流程示意图;
图4为本申请实施例中预测随机字符向量的一个流程示意图;
图5为本申请实施例中多头自注意力机制层的一个网络架构图;
图6为本申请实施例中数据处理方法的一个实施例示意图;
图7为本申请实施例中数据处理装置的一个实施例示意图;
图8为本申请实施例中数据处理装置的另一个实施例示意图;
图9为本申请实施例中数据处理装置的另一个实施例示意图。
具体实施方式
本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,用于识别异常行为群体。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着互联网的普及和发展,网络游戏越来越受到广大网民的喜爱,丰富了人们的休闲娱乐生活。然而,近年来,作弊行为在各种团队作战的玩法中不断涌现,作弊用户通过使用外挂程序带领实力较弱的玩家通过游戏关卡,从而获得游戏收益。这种作弊行为对于正常玩家来说极为不公平,严重破坏了游戏的玩法生态。因此目前急需一种可以识别游戏黑产的方法来进行识别,进而保证游戏的正常运行。
为了解决上述问题,本申请提供如下技术方案:获取待处理序列数据集合,该待处理序列数据集合对应第一行为数据;将该待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,该特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;对该全局序列特征向量进行聚类分区得到第一簇集合以及该第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定该第一簇集合中每个簇的密集度;从该第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定该第二簇集合中每个簇的可疑判决结果。这样通过已训练好的模型获取各个行为序列数据的特征向量,然后根据该特征向量进行聚类分区,并根据聚类分区得到的簇的聚类中心以及可疑特征判断各个簇中的对象是否为可疑对象,这样训练好的模型可以应用于多种场景,提高方案的适应性,同时将聚类算法进行聚类分区,方便获取行为序列相似的对象,从而加快可疑对象的识别的速度以及识别的覆盖范围。
为了方便理解,下面对本申请中涉及的部分名词进行说明:
人工智能(Artificial Intelligence,AI),人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
卷积层(Convolutional layer,Conv)是指卷积神经网络层中由若干卷积单元组成的层状结构,卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,卷积神经网络中包括至少两个神经网络层,其中,每一个神经网络层包含若干个神经元,各个神经元分层排列,同一层的神经元之间没有互相连接,层间信息的传送只沿一个方向进行。
全连接层(Fully Connected layer,FC)是指该层状结构中的每一个结点均与上一层的所有结点相连,可用于将上一层的神经网络层提取的特征进行综合处理,在神经网络模型中起到“分类器”的作用。
反向传播:前向传播是指模型的前馈处理过程,反向传播与前向传播相反,指根据模型输出的结果对模型各个层的权重参数进行更新。例如,模型包括输入层、隐藏层和输出层,则前向传播是指按照输入层-隐藏层-输出层的顺序进行处理,反向传播是指按照输出层-隐藏层-输入层的顺序,依次更新各个层的权重参数。
虚拟操作对象:是指虚拟环境中的可活动对象。该可活动对象可以是虚拟人物、虚拟动物、动漫人物等,比如:在三维虚拟环境中显示的人物、动物。可选地,虚拟操作对象是基于动画骨骼技术创建的三维立体模型。每个虚拟操作对象在三维虚拟环境中具有自身的形状和体积,占据三维虚拟环境中的一部分空间。
行为序列数据:基于虚拟环境中虚拟操作对象的行为数据产生的行为序列数据。本申请中,对于虚拟环境中的不同虚拟操作对象来说,均可以通过读取虚拟环境对应的应用程序的标识号以及虚拟行为名称,获取到以标识号序列的行为序列数据。比如在游戏A中,该用户A的行为序列数据可以为“20133245|23,34,56,1,1,2,34,55,65,34,1,2,123,23,45,34,34,324,42,34,434,43,23,4”,其中,“20133245”为该用户A的标识号,该“23,34,56,1,1,2,34,55,65,34,1,2,123,23,45,34,34,324,42,34,434,43,23,4”是游戏行为的不同行为标识号。假设该游戏行为为“拾取虚拟物品”,则该“23”可以用于指示“拾取虚拟物品23”,该“34”可以用于指示“拾取虚拟物品34”,该“1”可以用于指示“拾取虚拟物品1”,该“56”可以用于指示“拾取虚拟物品56”,依此类推。
本申请实施例提供的一种数据处理方法、装置、设备及存储介质,能够提高对游戏黑产对象的识别效果。下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为各种类型的用户终端,也可以实施为服务器。
电子设备通过运行本申请实施例提供的数据处理方案,能够提高对游戏黑产对象的识别效果。即提高电子设备自身对游戏黑产对象的识别效果,适用于多种游戏应用。例如,第一人称射击游戏、角色扮演游戏、动作角色扮演类游戏、即时战略游戏、赛车竞速类游戏、策略与战棋类游戏、模拟经营类游戏、格斗类游戏等等。
参见图1,图1是本申请实施例提供的数据处理方案的一个应用场景下的一个可选的架构示意图,为实现支撑一个数据处理方案,终端设备100通过网络200连接服务器300,服务器300连接数据库400,网络200可以是广域网或者局域网,又或者是二者的组合。其中用于实现数据处理方案的客户端部署于终端设备100上,其中,客户端可以通过浏览器的形式运行于终端设备100上,也可以通过独立的应用程序(application,APP)的形式运行于终端设备100上等,对于客户端的具体展现形式,此处不做限定。本申请涉及的服务器300可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备100可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备等,但并不局限于此。终端设备100以及服务器300可以通过有线或无线通信方式通过网络200进行直接或间接地连接,本申请在此不做限制。服务器300和终端设备100的数量也不做限制。本申请提供的方案可以由终端设备100独立完成,也可以由服务器300独立完成,还可以由终端设备100与服务器300配合完成,对此,本申请并不做具体限定。其中,数据库400,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。数据库管理系统(Database Management System,DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、可扩展标记语言(Extensible Markup Language,XML);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如结构化查询语言(StructuredQuery Language,SQL)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。在本申请中,数据库400可以用于存储行为日志数据,当然,行为日志数据的存储位置并不限于数据库,例如还可以存储于终端设备100、区块链或者服务器300的分布式文件系统中等。
在一些实施例中,服务器300和该终端设备100均可以执行本申请实施例提供的数据处理方法以及数据处理方法中特征提取模型的训练方法,本实施例中,该特征提取模型包括多层神经网络,其中,该特征提取模型可以包括如图2所示的输入层、嵌入层、多头自注意力机制层以及多个全连接层。其中,该输入层和该嵌入层用于将行为序列数据编码生成行为序列向量,其中,该输入层用于输出行为序列数据中每个行为序列的数据编码(即本申请的第一编码)和该行为序列数据中每个行为序列的位置编码(即本申请的第二编码);然后该嵌入层用于将该第二编码和该第一编码进行嵌入编码得到该行为序列向量。在本实施例中,在训练阶段,该输入层和该嵌入层还用于行为序列向量进行掩码处理以及位置顺序调换处理;而在应用阶段,该输入层和该嵌入层用于输出无掩码以及无位置顺序调换的行为序列向量。在本实施例中,这样将行为序列数据进行数据编码和位置编码可以保证学习到的行为序列数据中在时间上变化特征。该多头自注意力机制层和该多个全连接层用于深度学习该行为序列向量中的语义表示,并基于该语义表示预测训练行为序列中的掩码字符向量和随机调整顺序的随机字符向量。同时为了避免预测结果过拟合化,该多层全连接层的全连接分类层中可以设定L1和L2正则化参数。其中L1正则化就是在损失函数后加正则项为L1范数,这样加上L1范数容易得到稀疏解(即得到较多的0)。L2正则化就是损失函数后加正则项为L2范数的平方,这样L2正则相比于L1正则来说,得到的解比较平滑(不是稀疏),但是同样能够保证解中接近于0(但不是等于0,所以相对平滑)的维度比较多,降低模型的复杂度。
一种示例性方案中,在预测该掩码字符向量和该随机调整顺序的随机字符向量可以如图3和图4所示。其中,该图3所示为预测掩码字符向量的过程。在此方案中,首先需要对待输入多头自注意力机制层和多层全连接层的行为序列向量任意选择一部分字符向量进行掩码处理得到包括掩码字符向量的序列向量。一个示例性方案中,在进行掩码处理时,可以选择行为序列向量中的百分之十五至百分之三十的字符进行掩码处理。在掩码处理时,可以直接通过“mask”对原始字符进行掩盖,也可以将原始字符采用其他字符进行替换处理。如图3所示,原始行为序列向量为“11,23,35,33,49,67,33,49,33,49,67”进行掩码处理之后得到输入多头自注意力机制层和多层全连接层的行为序列向量“11,23,35,33,49,mask,33,49,28,49,67”。其中,“mask”和“28”为掩码字符向量,“mask”用于指示对原始字符向量“67”进行掩码处理得到的掩码字符向量,此时掩码处理是将原始字符向量替换成新的字符向量。该“28”用于指示对原始字符向量“33”进行掩码处理得到的掩码字符向量,此时掩码处理是将原始字符向量替换成新的字符向量。在训练过程中,其训练目标是需要将“mask”预测得到原始字符向量“67”,然后将“28”预测得到原始字符向量“33”。在此方案中,可以对行为序列向量中任意选择一部分字符向量进行掩码处理得到掩码
图4所示为预测随机字符向量的过程。在此方案中,首先需要对待输入多头自注意力机制层和多层全连接层的行为序列向量任意选择一部分字符向量进行位置顺序调换得到包括随机字符向量的序列向量。一个示例性方案中,在进行顺序位置调换时,可以选择行为序列向量中的任一片段的字符进行位置顺序调换。如图4所示,原始行为序列向量为“11,23,35,33,49,67,33,49,33,49,67”进行位置顺序调换之后得到输入多头自注意力机制层和多层全连接层的行为序列向量“11,23,35,33,49,67,49,67,33,49,67”。其中“49,67,33”为调换了顺序的字符向量,即为本申请中通过随机顺序调换后得到的随机字符向量。在训练过程中,其训练目标是需要将“49,67,33”预测为原始字符向量“33,49,67”。
基于上述两个训练任务对该特征提取模型进行训练,可以使得该特征提取模型对该行为序列数据的特征提取更准确。
其中,该多头自注意力机制层的目的是用于对行为序列向量中的各个状态向量作加权求和,得到不同侧重点的融合状态向量。其通用范式可以表示成如图5所示的神经网络。多头自注意力机制是重复多次的自注意力机制,是获取该行为序列向量的内部语义表示的一种方式。其具体计算过程可以如下:
首先利用公式1表示该嵌入层的输出向量序列,也就是该本申请中训练行为序列或者该待处理序列数据集合通过输出层和嵌入层处理得到的行为序列向量。然后该自注意力机制层的输入都为该行为序列向量,其计算范式如公式2所示。然后自注意力机制层的计算方法可以如公式3至公式6所示。其中,该公式3、公式4以及公式5分别表示将该行为序列向量通过非线性映射函数relu映射得到该行为序列向量对应的查询矩阵、状态矩阵以及待加权求和的语义矩阵。其中,该非线性映射函数有利于将查询矩阵、状态矩阵以及待加权求和的语义矩阵转换到同一个子空间。最后,公式6表示查询矩阵和状态矩阵做内积的相似性操作并对其值做归一化操作,得到权重系数矩阵。通过权重系数矩阵和行为序列向量的语义矩阵的对应元素分别相乘,得到加权后的全局语义矩阵(如本申请中的第一语义矩阵、第二语义矩阵)。其中,公式1至公式6具体如下:
h=[h1,h2,…,hn] 公式1;
Ch=Attention(h,h,h) 公式2;
Q=Relu(hWq) 公式3;
K=Relu(hWk) 公式4;
V=Relu(hWv) 公式5;
Ch=Softmax(QK)⊙V 公式6。
其中,h用于指示行为序列向量矩阵;该公式2中的Ch用于指示语义矩阵;Q用于指示查询矩阵;K用于指示状态矩阵;V用于指示待加权求和的语义矩阵;该公式6中的Ch用于指示归一化加权后的语义矩阵;Wq用于指示查询矩阵的权重系数;Wk用于指示状态矩阵的权重系数;Wv用于指示语义矩阵的权重系数。
自注意力机制层能够获得行为序列向量中每个编码和全部编码的相对语义关系,即每个编码的语义可以用行为序列向量中的全部编码的语义向量做线性表示。多头自注意力机制层是指通过不同的参数模板重复执行多次自注意力机制,获得多种不同特性的内部关系语义信息,然后通过拼接的方式组成高层语义矩阵,其包含了行为序列向量的高层内部语义关系信息。
多层全连接层为一个非线性全连接网络结构,主要作用是把自注意力机制层输出的信息做进一步的语义转换,并为下一个自注意力机制层提供输入信息。多层全连接层的定义如公式7所示。其中,该公式7为F(X)=Relu(XW1+b1)W2+b2。其中,W1、W2、b1、b2为待训练优化的网络参数。该公式7用于表示将输入向量X通过两层全连接网络层,其中第一层含有激活函数Relu,第二层全连接层用于做线性变换。其中,该多层全连接层的输入与输出的维度调度为相同的数目,但是第一层全连接层的输出向量可以增加维度,然后该第二层全连接层的输出向量设计为该第一层全连接层的输入向量的维度。比如该第一全连接层的输出维度可以设计为该第一全连接层的输入维度的4倍。这样可以扩大网络参数,学习到更多的语义表示,使得自注意力机制的结果做更好的融合。
本申请中,为了有效地得到表示高层内部关系的语义向量和保证特征提取模型的训练效果,特征提取模型把自注意力机制层和全连接层重复执行多次,并在自注意力机制层和全连接层之间增加了技巧性操作,该技巧性操作包括同等映射的残差相加连接和层间的规范化操作。其中,该规范化操作可以是归一化处理也可以是其他操作,具体此处不做限定。该同等映射的残差相加连接是指将输入通过直连残差边加入卷积,然后再输出。其中残差边的相加可以如下:一种可能实现方式中,对于输入输出尺寸相同的情况,直接进行值相加即可。另一种可能实现方式中,是对于输出输出不等的情况,一种方式就是对通道数较小的特征层向外补0,再相加。另一种方式是通过1*1投影卷积,将通道数变成相同的,再进行相加。
本实施例中,该特征提取模型的训练流程可以如下:从终端设备100和/或数据库400中获取获取训练行为序列数据并建立初始模型;通过初始模型对该训练行为序列数据进行预测处理得到预测字符,并根据包括预先设计损失因素的损失函数,确定该预测字符与真实字符对应损失值,进而根据该损失值反向传播调整该识别模型的参数,从而实现对该初始模型的训练得到该特征提取模型。
本实施例中,在训练该特征提取模型时,该服务器300计算该损失值可以采用交叉熵损失函数。一个示例性文字如,该交叉熵损失函数的表达式可以如公式8所示,其中,该公式8如下:其中,该M用于指示该特征提取模型时,该全连接分类层的分类类别的数量,该N用于指示输入的样本的数量,该yic用于指示该训练行为序列中掩码字符向量和随机字符向量对应的真实字符,该pic用于指示第一预测字符或者该第二预测字符。
本实施例中,该训练行为序列数据的获取操作可以通过采集用户在游戏对局中的虚拟操作行为的行为日志数据,并从该行为日志数据中按照预设时长截取虚拟操作行为数据。比如,对于某一款游戏获取虚拟操作对象的行为日志数据,按照时间先后顺序,把虚拟操作对象的虚拟操作行为转换为行为编号的序列形式。例如这里的虚拟操作行为名称是“打副本”,把虚拟操作对象在游戏中“打副本”的副本编号按照时间先后有顺序构成一条序列数据。每一个在线虚拟操作对象都存在“打副本”的行为序列,每个虚拟操作对象构成一条序列样本。
在实际操作中,由于每个虚拟操作对象的行为序列不尽相同。因为虚拟操作对象有可能只上线1小时,也有可能上线2小时,或者10小时等,所以行为序列数据的长度是不一致的。不能因长度差异很大而引入黑白样本的偏差,因此需要对行为序列数据进行截取操作。同时,由于可疑行为序列的行为表现相似,因此无论是截取24小时的行为序列数据的最后一段还是中间的一段,行为序列数据的行为表现应该都是一样的。同时由于所有虚拟操作对象的行为序列数据进行截取时,均应该选择相同的起点。最后,由于存在特别序列长度很长的行为序列数据,基于运行效率和预测性能的综合考虑,对每个虚拟操作对象的行为序列数据可以选择覆盖虚拟操作对象的行为序列长度中90%的长度作为预设长度。经过编码处理后的行为序列数据展示“用户id|行为序列”的形式,一个示例性方案中,该行为序列数据可以如下:“20133245|23,34,56,1,1,2,34,55,65,34,1,2,123,23,45,34,34,324,42,34,434,43,23,4”。本实施例中,在确定该预设长度之后,对于预设时长内的行为序列数据可以基于该预设长度进行补足和截断得到可以输入该输入层和嵌入层的行为序列数据。
本实施例中,在根据该损失值训练该初始模型时,可以采用优化器根据该损失值反向调整该初始模型的参数。可以理解的是,该优化器可以选择ADAM优化器,它基于动量计算神经网络的每个参数地自适应学习率,仅需要少量调参,从而加快模型训练效率。
在对特征提取模型训练完毕后,服务器300可以将特征提取模型保存至本地,从而为终端设备100提供远程的游戏黑产对象识别功能。例如,服务器300可以接收终端设备100发送的待处理序列数据集合,并通过特征提取模型对待处理序列数据集合进行特征提取,得到全局序列特征向量;对该全局序列特征向量进行聚类分区得到第一簇集合以及该第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定该第一簇集合中每个簇的密集度;从该第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定该第二簇集合中每个簇的可疑判决结果,并将可疑判决结果发送至游戏服务商,以使得该服务商针对该目标用户或者游戏进行相应的操作。比如在该目标用户使用的终端设备100中显示封号或者收益惩罚等等提示信息,或者优化游戏设计。
服务器300也可以将训练完毕的特征提取模型发送(部署)至终端设备100,从而在终端设备100本地实现游戏黑产对象识别。例如,终端设备100可以实时获取待处理序列数据集合或从其他设备中获取待处理序列数据集合,并通过特征提取模型对待处理序列数据集合进行特征提取,得到全局序列特征向量;对该全局序列特征向量进行聚类分区得到第一簇集合以及该第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定该第一簇集合中每个簇的密集度;从该第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定该第二簇集合中每个簇的可疑判决结果,并将可疑判决结果发送至游戏服务商,以使得该服务商针对该目标用户或者游戏进行相应的操作。比如在该目标用户使用的终端设备100中显示封号或者收益惩罚等等提示信息,或者优化游戏设计。
可以理解的是,在本申请的具体实施方式中,涉及到行为日志数据等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
结合上述介绍,下面以服务器为执行主体对本申请中数据处理方法进行介绍,请参阅图6,本申请实施例中数据处理方法的一个实施例包括:
601、获取待处理序列数据集合,该待处理序列数据集合对应第一行为数据。
本实施例中,该服务器获取同一虚拟环境中不同虚拟操作对象的行为序列数据集合,然后对该行为序列数据集合中的每一个行为序列进行补足或者截断得到序列长度满足预设长度的中间行为序列数据,然后根据该中间行为序列数据生成该待处理序列数据集合。
一个示例性方案中,该服务器获取该游戏A中在线虚拟操作对象在一天内的行为日志数据;然后该服务器截取晚上7点至晚上12点之间的行为日志数据作为行充序列数据集合。比如,游戏A中虚拟操作对象1的行为序列数据为“0001|1,4,5,8,11,15,78,100,200,109,12”,该虚拟操作对象2的行为序列数据为“0002|1,4,15,78,100,109,12”,该虚拟操作对象3的行为序列数据为“0003|1,4,15,78,100,109,12,8,11,15,78,100,200”。此时假设该预设长度为11,则虚拟操作对象1的行为序列数据为满足预设长度的数据。而该虚拟操作对象2的行为序列数据的序列长度小于11,则此时需要对该虚拟操作对象2的行为序列数据进行补足。一个示例性方案中,对该虚拟操作对象2的行为序列数据从尾部开始补0,直至该虚拟操作对象2的行为序列数据的序列长度达到11。即补足后的该虚拟操作对象2的行为序列数据为“0002|1,4,15,78,100,109,12,0,0,0”。而该虚拟操作对象3的行为序列序列数据的序列长度大于11,则此时需要对该虚拟操作对象3的行为序列数据进行截断。一个示例性方案中,对该虚拟操作对象3的行为序列数据从尾部开始截断,直至该虚拟操作对象3的行为序列数据的序列长度达到11。即截断后的该虚拟操作对象3的行为序列数据为“0003|1,4,15,78,100,109,12,8,11,15,78”。
可以理解的是,该补足的过程中可以是补0,也可以是补其他对于行为序列无影响的数据,同时补足的位置也可以是从头部开始补,具体此处不再赘述。该截断的过程中也可以是从头部开始截断,具体此处不再赘述。
602、将该待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,该特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到。
该服务器将该待处理序列数据集合输入该特征提取模型中学习得到该待处理序列数据集合的全局序列特征向量。本实施例中,该全局序列特征向量为该待处理序列数据集合通过该特征提取模型后得到的高维度的语义表示矩阵。
本实施例中,该特征提取模型的训练过程可以参阅上述模型训练过程中的描述,具体此处不再赘述。
可以理解的是,该特征提取模型仅为针对一个虚拟操作行为的特征提取。该虚拟操作行为可以为虚拟环境中不同的操作类别。比如,该虚拟操作行为可以是“拾取虚拟操作道具”、“获取虚拟交易道具”、“通关副本”等等。本实施例中,若需要对同一个游戏中的至少两个虚拟操作行为进行识别,则需要为该游戏训练至少两个特征提取模型。
603、对该全局序列特征向量进行聚类分区得到第一簇集合以及该第一簇集合中每个簇的聚类中心。
该服务器对该全局序列特征向量得到该平均特征向量;然后对所述平均特征向量去冗余和降维处理得到特征向量;基于聚类算法对所述特征向量进行聚类分区得到所述第一簇集合以及所述第一簇集合中每个簇的聚类中心。
一个示例性方案中,该全局序列特征向量可以是一个m*n的语义矩阵,比如20*10的矩阵,然后对该全局序列特征向量的每一列的取值求平均值,从而得到一个1*10的矩阵作为该平均特征向量;然后该服务器通过主成分分析(Principal components analysis,PCA)算法对该平均特征向量去冗余和降维得到特征向量,即对该1*10的矩阵再次进行去冗余和降维得到一个1*6的矩阵。其中,该PCA算法是一种常用的数学分析的方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
一个示例性方案中,该聚类算法可以是MiniBatchKMeans算法进行聚类分区。其中,该MiniBatchKMeans算法是K-Means算法的一种优化变种,采用小规模的数据子集减少计算时间。其算法过程可以如下:首先抽取部分数据集,使用K-Means算法构建出K个聚簇点的模型;然后继续抽取训练数据集中的数据集样本数据,并将其添加至模型中,分配给距离最近的聚簇中心;更新聚簇的中心点值;循环第二步和第三步操作,直到聚类中心稳定或者达到迭代次数,停止聚类计算。一个示例性方案中,该MiniBatchKMeans算法的聚类参数可以定义如下“MiniBatchKMeans(n_clusters=6000,init='k-means++',verbose=False,max_iter=300,n_init=8,batch_size=5000)”。其中,n_clusters用于指示聚类点的数量;max_iter用于指示最大的迭代次数;n_init用于指示不同的初始化质心运行算法的次数;batch_size用于指示用来跑Mini Batch KMeans算法的采样集的大小。Init用于指示初始值选择的方式。
可以理解的是,该聚类算法也可以采用如K-Means算法或者基于密度的算法DBSCAN或者层次密度聚类HDBSCAN等等,具体此处不做限定。
604、基于簇的对象数量以及簇的聚类中心确定该第一簇集合中每个簇的密集度。
该服务器在获取到该第一簇集合以及该第一簇集合中每个簇的聚类中心之后,计算每个簇中的各个对象与其聚类中心的欧式距离;然后对该簇中的全部欧式距离求平均值,该平均值用于指示每个簇的密集度。
本实施例中,该密集度越小表示该簇中对象的行为序列更相似。
605、从该第一簇集合中选择密集度排序前N个簇生成第二簇集合。
本实施例中,由于游戏中的黑产对象在行为序列上均是十分的相似,或者黑产对象控制的账号数量很大,因此该服务器可以根据该密度集对该第一簇集合中的每一个簇进行降序排序,然后选择密集度排序前N个簇生成该第二簇集合。这样选择密集度较高的簇进行
本实施例中,该服务器还可以根据簇的对象数量和该密集度进行综合考虑,具体此处不再赘述。
606、根据可疑判决规则确定该第二簇集合中每个簇的可疑判决结果。
该服务器根据预设的可疑判决规则对该第二簇集合中的每个簇进行可疑判决得到可疑判决结果。
具体来说,该服务器可以统计该第二簇集合是否存在每个对象的网络协议地址相同的第一簇,若存在,则说明该第一簇中的对象为可疑对象。比如,在一个簇中的对象,其登录的网络协议地址(又称为IP地址)均指示为同一个地方,则说明在同一个地方存在多个账号指示的虚拟操作对象在进行相同的虚拟操作行为,此时,可以认定这一个簇里的对象为可疑对象。
或者,该服务器统计该第二簇集合是否存在每个对象的虚拟交易物品获取异常的第二簇,若存在,则说明该第二簇中的对象为可疑对象。比如,在一个簇中的对象,其在固定时长内获取的游戏货币明显超出正常范围值,则确定这一个簇中的对象在作弊。
可以理解的是,上述可疑判决规则可以是综合考虑也可以只要满足其中任意一项就行,具体此处不做限定。
本实施例中,在该服务器识别出某一个簇中的对象为游戏作弊玩家之后,该服务器可以对某一个簇中的对象执行相应的操作。具体的,对某一个簇中的对象的处理包括对用户的警告处理、强行要求用户下线或者对用户的游戏账号进行封号处理等等。具体此处不做限定。
下面以一个实验数据对本申请提供的技术方案的有益效果进行说明,其具体结果可以如表1和表2所示:
表1
基于表1所示,可知本申请提供的方案(即表中SelfAtten-AR+PCA+kmeans聚类)其效果比其他方案的效果都好。
表2
从表2所示的结果可知,本申请提供的技术方案可以使得同一个簇内的行为序列相似度很大,同时对于行为序列相似片段偏移以及行为序列相似片段中突然多插入一个编码标识的情况也能聚在一起。
下面对本申请中的数据处理装置进行详细描述,请参阅图7,图7为本申请实施例中数据处理装置的一个实施例示意图,数据处理装置20包括:
获取模块201,用于获取待处理序列数据集合,该待处理序列数据集合对应第一行为数据;
处理模块202,用于将该待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,该特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;对该全局序列特征向量进行聚类分区得到第一簇集合以及该第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定该第一簇集合中每个簇的密集度;从该第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定该第二簇集合中每个簇的可疑判决结果。
本申请实施例中,提供了一种数据处理装置。采用上述装置,通过已训练好的模型获取各个行为序列数据的特征向量,然后根据该特征向量进行聚类分区,并根据聚类分区得到的簇的聚类中心以及可疑特征判断各个簇中的对象是否为可疑对象,这样训练好的模型可以应用于多种场景,提高方案的适应性,同时将聚类算法进行聚类分区,方便获取行为序列相似的对象,从而加快可疑对象的识别的速度以及识别的覆盖范围。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,
该处理模块202,具体用于计算每个簇中的对象与该每个簇的聚类中心的欧式距离;对每个簇中的全部欧式距离计算平均值,该平均值作为每个簇的密集度。
本申请实施例中,提供了一种数据处理装置。采用上述装置,利用每个簇中全部对象与簇中聚类中心的欧式距离的平均值计算得到密集度,这样可以获取到对象之间的行为数据的相似度,从而实现根据行为序列的相似度生成簇,进而加快可疑对象的识别的速度以及识别的覆盖范围。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,该处理模块202,具体用于对该全局序列特征向量求平均得到平均特征向量;
对该平均特征向量进行去冗余和降维处理以得到特征向量;
基于聚类算法对该特征向量进行聚类分区得到该第一簇集合以及该第一簇集合中每个簇的聚类中心。
本申请实施例中,提供了一种数据处理装置。采用上述装置,对全局特征向量求取平均值且对平均值再次进行去冗余和降维,从而降低聚类的计算量。从而加快聚类分区的速度,进而加快可疑对象的识别的速度以及识别的覆盖范围。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,该获取模块201,具体用于获取行为日志数据;
从该行为日志数据中截取预设时长的行为数据生成序列数据集合,该序列数据集合中每一个序列数据包括对象标识号和行为序列号;
将该序列数据集合中的各个序列数据按照预设长度进行处理得到该待处理序列数据集合,该预设长度根据该预设时长内行为数据的长度设定。
本申请实施例中,提供了一种数据处理装置。采用上述装置,将数据以行为序列的方式进行构建,方便特征提取,从而提升本方案的适用性。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,该获取模块201,具体用于在该序列数据集合中存在序列长度小于该预设长度的第一序列数据时,对该第一序列数据进行补充处理,以使得该第一序列数据的序列长度等于该预设长度;
在该序列数据集合中存在序列长度大于该预设长度的第二序列数据时,对该第二序列数据进行截断处理,以使得该第二序列数据的序列长度等于该预设长度;
该序列长度等于该预设长度的序列数据作为该待处理序列数据集合。
本申请实施例中,提供了一种数据处理装置。采用上述装置,将行为序列数据处理为同样长度的序列数据,方便后续进行特征提取,从而方便后续可疑对象的识别过程。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,该获取模块201,还用于获取训练行为序列数据和初始模型,该初始模型包括输入层、嵌入层、多头自注意力机制层以及多层全连接层;
该处理模块202,还用于将该训练行为序列数据输入该初始模型的输入层和嵌入层,得到该训练行为序列数据的序列向量;
对该序列向量进行掩码处理和随机顺序调整得到待预测序列向量,其中,该待预测序列向量包括经过掩码处理得到掩码字符向量和经过随机顺序调整得到随机字符向量;
将该待预测序列向量输入该初始模型的多头自注意力机制层以及多层全连接层,得到第一预测字符和第二预测字符,该第一预测字符为该掩码字符向量对应的预测字符,该第二预测字符为该随机字符向量对应的预测字符;
根据该第一预测字符与该掩码字符向量对应的真实字符计算第一损失值,并根据该第二预测字符与该随机字符向量对应的真实字符计算第二损失值;
根据该第一损失值和该第二损失值训练该初始模型得到的特征提取模型。
本申请实施例中,提供了一种数据处理装置。采用上述装置,训练好的模型可以应用于多种场景,提高方案的适应性,同时将聚类算法进行聚类分区,方便获取行为序列相似的对象,从而加快可疑对象的识别的速度以及识别的覆盖范围。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,该处理模块202,具体用于将该训练行为序列数据输入该输入层得到该训练行为序列数据中每个行为序列的第一编码和第二编码,该第二编码用于指示行为序列所处位置的位置编码,该第一编码用于指示行为序列的数据编码;
通过该嵌入层将该第一编码与该第二编码嵌入编码得到该训练行为序列数据的序列向量。
本申请实施例中,提供了一种数据处理装置。采用上述装置,增加位置编码,可以使得行为序列数据更加具有可学习性。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,
该处理模块202,具体用于选择该序列向量中的第一字符向量集合进行掩码处理得到该掩码字符向量,选择该序列向量中的第二字符向量集合进行随机顺序调整得到该随机字符向量;
将该序列向量中未经过处理的字符向量、该掩码字符向量和该随机字符向量生成该待预测序列向量。
本申请实施例中,提供了一种数据处理装置。采用上述装置,增加两个训练任务,使得模型的特征提取更具有精确性。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,
该处理模块202,还用于将该待预测序列向量通过该初始模型的第一自注意力机制层得到该待预测序列向量的第一语义矩阵,该第一自注意力机制包含于该多头自注意力机制层;
将该第一语义矩阵输入第一全连接层得到第一语义转换表示,该第一全连接层包含于该多层全连接层;
将该第一语义转换输入该初始模型的第二自注意力机制层得到第二语义矩阵,该第二自注意力机制包含于该多头自注意力机制层;
将该第二语义矩阵输入第二全连接层得到第二语义转换表示,该第二全连接层包含于该多层全连接层;
重复上述动作至目标次数得到该待预测序列向量的最终语义表示;
将该最终语义表示输入该初始模型的全连接分类层得到该第一预测字符和该第二预测字符,该全连接分类层包含于该多层全连接层。
本申请实施例中,提供了一种数据处理装置。采用上述装置,以多头自注意力层和多层全连接层提高对行为序列数据的语义表示,从而提升对特征预测的精确度。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,该全连接分类层的权重参数包括L1和L2正则化参数。
本申请实施例中,提供了一种数据处理装置。采用上述装置,以L1和L2范数进行正则化处理,从而避免模型的过度拟合化。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,该处理模块202,具体用于根据交叉熵算法计算该第一预测字符与该掩码字符向量对应的真实字符的第一损失值,并根据交叉熵算法计算该第二预测字符与该随机字符向量对应的真实字符的第一损失值。
本申请实施例中,提供了一种数据处理装置。采用上述装置,提供交叉熵计算方式,增加方案的可实行性。
可选地,在上述图7所对应的实施例的基础上,本申请实施例提供的数据处理装置20的另一实施例中,
该处理模块202,具体用于在该第二簇集合中存在网络协议地址归于同一区域的第一簇时,确定该第一簇的对象为可疑对象;
或者,
在该第二簇集合中存在虚拟交易物品获取异常的第二簇时,确定该第二簇的对象为可疑对象。
本申请实施例中,提供了一种数据处理装置。采用上述装置,提供多种判决规则,从而增加可疑对象的识别精度。
本申请提供的数据处理装置可用于服务器,请参阅图8,图8是本申请实施例提供的一种服务器结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。
本申请提供的数据处理装置可用于终端设备,请参阅图9,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。在本申请实施例中,以终端设备为智能手机为例进行说明:
图9示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图9,智能手机包括:射频(radio frequency,RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wireless fidelity,WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解,图9中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图9对智能手机的各个构成部件进行具体的介绍:
RF电路410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器480处理;另外,将设计上行的数据发送给基站。通常,RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器420可用于存储软件程序以及模块,处理器480通过运行存储在存储器420的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元430可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元430可包括触控面板431以及其他输入设备432。触控面板431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器480,并能接收处理器480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431,输入单元430还可以包括其他输入设备432。具体地,其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元440可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元440可包括显示面板441,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板441。进一步的,触控面板431可覆盖显示面板441,当触控面板431检测到在其上或附近的触摸操作后,传送给处理器480以确定触摸事件的类型,随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图9中,触控面板431与显示面板441是作为两个独立的部件来实现智能手机的输入和输入功能,但是在某些实施例中,可以将触控面板431与显示面板441集成而实现智能手机的输入和输出功能。
智能手机还可包括至少一种传感器450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板441的亮度,接近传感器可在智能手机移动到耳边时,关闭显示面板441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路460、扬声器461,传声器462可提供用户与智能手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号,传输到扬声器461,由扬声器461转换为声音信号输出;另一方面,传声器462将收集的声音信号转换为电信号,由音频电路460接收后转换为音频数据,再将音频数据输出处理器480处理后,经RF电路410以发送给比如另一智能手机,或者将音频数据输出至存储器420以便进一步处理。
WiFi属于短距离无线传输技术,智能手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块470,但是可以理解的是,其并不属于智能手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器480是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监测。可选的,处理器480可包括一个或多个处理单元;可选的,处理器480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器480中。
智能手机还包括给各个部件供电的电源490(比如电池),可选的,电源可以通过电源管理系统与处理器480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
上述实施例中由终端设备所执行的步骤可以基于该图9所示的终端设备结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取待处理序列数据集合,所述待处理序列数据集合对应第一行为数据;
将所述待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,所述特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;
对所述全局序列特征向量进行聚类分区得到第一簇集合以及所述第一簇集合中每个簇的聚类中心;
基于簇的对象数量以及簇的聚类中心确定所述第一簇集合中每个簇的密集度;
从所述第一簇集合中选择密集度排序前N个簇生成第二簇集合;
根据可疑判决规则确定所述第二簇集合中每个簇的可疑判决结果。
2.根据权利要求1所述的方法,其特征在于,所述基于簇的对象数量以及簇的聚类中心确定所述第一簇集合中每个簇的密集度包括:
计算每个簇中的对象与所述每个簇的聚类中心的欧式距离,
对每个簇中的全部欧式距离计算平均值,所述平均值作为每个簇的密集度。
3.根据权利要求1所述的方法,其特征在于,所述对所述全局序列特征向量进行聚类分区得到第一簇集合以及所述第一簇集合中每个簇的聚类中心包括:
对所述全局序列特征向量求平均得到平均特征向量;
对所述平均特征向量进行去冗余和降维处理以得到特征向量;
基于聚类算法对所述特征向量进行聚类分区得到所述第一簇集合以及所述第一簇集合中每个簇的聚类中心。
4.根据权利要求1所述的方法,其特征在于,所述获取待处理序列数据集合包括:
获取行为日志数据;
从所述行为日志数据中截取预设时长的行为数据生成序列数据集合,所述序列数据集合中每一个序列数据包括对象标识号和行为序列号;
将所述序列数据集合中的各个序列数据按照预设长度进行处理,得到所述待处理序列数据集合,所述预设长度根据所述预设时长内行为数据的长度设定。
5.根据权利要求4所述的方法,其特征在于,所述将所述序列数据集合中的各个序列数据按照预设长度进行处理得到所述待处理序列数据集合包括:
在所述序列数据集合中存在序列长度小于所述预设长度的第一序列数据时,对所述第一序列数据进行补充处理,以使得所述第一序列数据的序列长度等于所述预设长度;
在所述序列数据集合中存在序列长度大于所述预设长度的第二序列数据时,对所述第二序列数据进行截断处理,以使得所述第二序列数据的序列长度等于所述预设长度;
所述序列长度等于所述预设长度的序列数据作为所述待处理序列数据集合。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
获取训练行为序列数据和初始模型,所述初始模型包括输入层、嵌入层、多头自注意力机制层以及多层全连接层;
将所述训练行为序列数据输入所述初始模型的输入层和嵌入层,得到所述训练行为序列数据的序列向量;
对所述序列向量进行掩码处理和随机顺序调整得到待预测序列向量,其中,所述待预测序列向量包括经过掩码处理得到掩码字符向量和经过随机顺序调整得到随机字符向量;
将所述待预测序列向量输入所述初始模型的多头自注意力机制层以及多层全连接层,得到第一预测字符和第二预测字符,所述第一预测字符为所述掩码字符向量对应的预测字符,所述第二预测字符为所述随机字符向量对应的预测字符;
根据所述第一预测字符与所述掩码字符向量对应的真实字符计算第一损失值,并根据所述第二预测字符与所述随机字符向量对应的真实字符计算第二损失值;
根据所述第一损失值和所述第二损失值训练所述初始模型得到的特征提取模型。
7.根据权利要求6所述的方法,其特征在于,所述将所述训练行为序列数据输入所述初始模型的输入层和嵌入层得到所述训练行为序列数据的序列向量包括:
将所述训练行为序列数据输入所述输入层,得到所述训练行为序列数据中每个行为序列的第一编码和第二编码,所述第二编码用于指示行为序列所处位置的位置编码,所述第一编码用于指示行为序列的数据编码;
通过所述嵌入层将所述第一编码与所述第二编码嵌入编码,得到所述训练行为序列数据的序列向量。
8.根据权利要求6所述的方法,其特征在于,所述对所述序列向量进行掩码处理和随机顺序调整得到待预测序列向量包括:
选择所述序列向量中的第一字符向量集合进行掩码处理得到所述掩码字符向量,选择所述序列向量中的第二字符向量集合进行随机顺序调整得到所述随机字符向量;
将所述序列向量中未经过处理的字符向量、所述掩码字符向量和所述随机字符向量生成所述待预测序列向量。
9.根据权利要求6所述的方法,其特征在于,所述将所述待预测序列向量输入所述初始模型的多头自注意力机制层以及多层全连接层得到第一预测字符和第二预测字符包括:
将所述待预测序列向量通过所述初始模型的第一自注意力机制层,得到所述待预测序列向量的第一语义矩阵,所述第一自注意力机制包含于所述多头自注意力机制层;
将所述第一语义矩阵输入第一全连接层得到第一语义转换表示,所述第一全连接层包含于所述多层全连接层;
将所述第一语义转换输入所述初始模型的第二自注意力机制层,得到第二语义矩阵,所述第二自注意力机制包含于所述多头自注意力机制层;
将所述第二语义矩阵输入第二全连接层得到第二语义转换表示,所述第二全连接层包含于所述多层全连接层;
重复上述动作至目标次数得到所述待预测序列向量的最终语义表示;
将所述最终语义表示输入所述初始模型的全连接分类层,得到所述第一预测字符和所述第二预测字符,所述全连接分类层包含于所述多层全连接层。
10.根据权利要求9所述的方法,其特征在于,所述全连接分类层的权重参数包括L1和L2正则化参数。
11.根据权利要求6所述的方法,其特征在于,所述根据所述第一预测字符与所述掩码字符向量对应的真实字符计算第一损失值,并根据所述第二预测字符与所述随机字符向量对应的真实字符计算第二损失值包括:
根据交叉熵损失函数计算所述第一预测字符与所述掩码字符向量对应的真实字符的第一损失值,并根据交叉熵损失函数计算所述第二预测字符与所述随机字符向量对应的真实字符的第一损失值。
12.根据权利要求1至5、7至11中任一项所述的方法,其特征在于,所述根据可疑判决规则确定所述第二簇集合中每个簇的可疑判决结果包括:
在所述第二簇集合中存在网络协议地址归于同一区域的第一簇时,确定所述第一簇的对象为可疑对象;
或者,
在所述第二簇集合中存在虚拟交易物品获取异常的第二簇时,确定所述第二簇的对象为可疑对象。
13.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待处理序列数据集合,所述待处理序列数据集合对应第一行为数据;
处理模块,用于将所述待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,所述特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;对所述全局序列特征向量进行聚类分区得到第一簇集合以及所述第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定所述第一簇集合中每个簇的密集度;从所述第一簇集合中选择密集度排序前N个簇生成第二簇集合;
根据可疑判决规则确定所述第二簇集合中每个簇的可疑判决结果。
14.一种计算机设备,其特征在于,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据程序代码中的指令执行权利要求1至12中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的方法。
CN202310002181.0A 2023-01-03 2023-01-03 一种数据处理方法、装置、设备以及存储介质 Pending CN116943229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310002181.0A CN116943229A (zh) 2023-01-03 2023-01-03 一种数据处理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310002181.0A CN116943229A (zh) 2023-01-03 2023-01-03 一种数据处理方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116943229A true CN116943229A (zh) 2023-10-27

Family

ID=88448016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310002181.0A Pending CN116943229A (zh) 2023-01-03 2023-01-03 一种数据处理方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116943229A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540935A (zh) * 2024-01-09 2024-02-09 上海银行股份有限公司 一种基于区块链技术的dao运营管理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540935A (zh) * 2024-01-09 2024-02-09 上海银行股份有限公司 一种基于区块链技术的dao运营管理方法
CN117540935B (zh) * 2024-01-09 2024-04-05 上海银行股份有限公司 一种基于区块链技术的dao运营管理方法

Similar Documents

Publication Publication Date Title
CN108280458A (zh) 群体关系类型识别方法及装置
CN110245293B (zh) 一种网络内容召回方法和装置
CN110738211A (zh) 一种对象检测的方法、相关装置以及设备
CN111368063B (zh) 一种基于机器学习的信息推送方法以及相关装置
CN111709398A (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
CN110516113B (zh) 一种视频分类的方法、视频分类模型训练的方法及装置
CN116943229A (zh) 一种数据处理方法、装置、设备以及存储介质
CN116010630A (zh) 推荐视频的实时筛选方法、装置、电子设备及存储介质
CN111738000B (zh) 一种短语推荐的方法以及相关装置
CN113569889A (zh) 一种基于人工智能的图像识别的方法以及相关装置
CN116957678A (zh) 一种数据处理方法和相关装置
CN115168568B (zh) 一种数据内容的识别方法、装置以及存储介质
CN116957585A (zh) 一种数据处理方法、装置、设备和存储介质
CN112200198B (zh) 目标数据特征提取方法、装置及存储介质
CN114971504A (zh) 一种实体类型确定方法和相关装置
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN111859240A (zh) 一种图片导出的方法、相关装置及存储介质
CN116943146A (zh) 一种数据处理方法、装置、设备和存储介质
CN118035567B (zh) 模型训练和数据推荐方法、装置、设备、介质及程序产品
CN116450808B (zh) 一种数据的处理方法、装置以及存储介质
CN113704447B (zh) 一种文本信息的识别方法以及相关装置
CN112990236B (zh) 一种数据处理方法和相关装置
CN117373093A (zh) 基于人工智能的图像识别方法、装置、设备以及存储介质
CN116955795A (zh) 一种数据处理方法、装置、设备以及存储介质
CN117482532A (zh) 一种数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication