CN116956080A - 一种数据处理方法、装置以及存储介质 - Google Patents

一种数据处理方法、装置以及存储介质 Download PDF

Info

Publication number
CN116956080A
CN116956080A CN202211619986.1A CN202211619986A CN116956080A CN 116956080 A CN116956080 A CN 116956080A CN 202211619986 A CN202211619986 A CN 202211619986A CN 116956080 A CN116956080 A CN 116956080A
Authority
CN
China
Prior art keywords
classification model
target
file structure
preset
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211619986.1A
Other languages
English (en)
Inventor
李洛勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211619986.1A priority Critical patent/CN116956080A/zh
Publication of CN116956080A publication Critical patent/CN116956080A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置以及存储介质。通过对预设样本集合进行聚类得到可疑异常样本;然后基于可疑异常样本进行训练得到目标分类模型;进而基于目标分类模型进行数据中异常样本的检测。从而实现基于潜在异常样本的检测过程,由于进行可疑异常样本的聚类,扩展了可疑异常样本可能的结构形变,使得分类模型可以得到更多的可疑异常样本以进行数据中异常样本的检测,提高了数据处理过程中异常样本检测的准确性。

Description

一种数据处理方法、装置以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置以及存储介质。
背景技术
随着智能手机的发展,越来越多的电子游戏能够安装到手机上,让人们随时随地的消遣娱乐,同时已经成为了一个较大的手游产业。而手游产业的蓬勃发展,随之而来也会催生出一系列的问题出来,例如外挂问题。
一般,可以基于已知的外挂样本进行进程或函数角度的外挂检测,但是,由于已知的外挂样本的数量有限,在海量数据样本的场景中,可能出现外挂样本无法检测的情况,影响数据处理过程中异常检测的准确性。
发明内容
有鉴于此,本申请提供一种数据处理方法,可以有效提高数据处理过程中异常检测的准确性。
本申请第一方面提供一种数据处理方法,可以应用于终端设备中包含数据处理功能的系统或程序中,具体包括:
获取目标对象中配置的文件结构信息;
对所述文件结构信息进行文件内容的提取,以得到文件结构内容;
基于预设维度对所述文件结构内容进行特征提取,以得到对象特征,所述预设维度基于所述文件结构信息和所述目标对象进行设定;
确定所述对象特征配置的画像标签,以基于所述画像标签对预设样本集合进行聚类得到目标聚类簇,所述目标聚类簇中包含所述目标对象和多个可疑异常样本;
基于所述目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,所述预设分类模型中的注意力层用于对所述可疑异常样本对应的文件结构特征和画像特征进行融合得到注意力权重矩阵,所述注意力权重矩阵用于对所述预设分类模型进行参数调整;
基于所述目标分类模型进行数据中异常样本的检测。
可选的,在本申请一些可能的实现方式中,所述对所述文件结构信息进行文件内容的提取,以得到文件结构内容,包括:
获取所述文件结构信息对应的属性信息;
对所述属性信息中的属性参数进行提取,以得到各个所述属性信息对应的校验值;
将所述校验值映射到目标范围,以得到映射值;
基于所述映射值进行分桶操作,以得到所述属性信息对应的特征值,所述特征值用于指示所述文件结构内容。
可选的,在本申请一些可能的实现方式中,所述确定所述对象特征配置的画像标签,以基于所述画像标签对预设样本集合进行聚类得到目标聚类簇,包括:
确定所述对象特征配置的所述画像标签;
对所述预设样本集合中的样本基于所述画像标签进行标记,以得到核心点、边界点和噪声点;
将所述噪声点进行删除;
基于领域阈值为所述核心点配置边;
根据所述核心点配置的边进行连通,以得到核心簇;
基于所述边界点与所述核心点之间的距离关系将所述边界点关联到所述核心簇中,以得到包含所述目标对象的所述目标聚类簇。
可选的,在本申请一些可能的实现方式中,所述对所述预设样本集合中的样本基于所述画像标签进行标记,以得到核心点、边界点和噪声点,包括:
将所述目标对象作为预设异常样本和所述预设样本集合中的样本整合为样本数据点;
根据所述画像标签对所述样本数据点进行分布,以得到分布信息;
对所述分布信息中指示半径范围中的数据点数大于点数阈值的样本数据点标记为所述核心点;
对所述分布信息中指示半径范围中的数据点数小于或等于所述点数阈值的样本数据点标记为所述边界点;
将所述样本数据点中未标记的点作为所述噪声点。
可选的,在本申请一些可能的实现方式中,所述基于所述可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,包括:
获取所述可疑异常样本对应的文件结构内容和画像标签;
对所述可疑异常样本对应的文件结构内容进行编码,以得到结构编码;
对所述结构编码进行表征,以得到结构表征;
对所述可疑异常样本对应的画像标签进行表征,以得到标签表征;
将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层,以基于点乘注意力机制对所述结构表征和所述标签表征进行处理得到所述注意力权重矩阵;
将所述注意力权重矩阵输入所述预设分类模型中的卷积层,以得到卷积信息;
将所述卷积特征输入所述预设分类模型中的池化层,以得到池化信息;
将所述池化信息输入所述预设分类模型中的全连接层,以得到输出信息;
基于所述输出信息对应的损失信息对所述预设分类模型进行监督训练,以得到所述目标分类模型。
可选的,在本申请一些可能的实现方式中,所述将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层,以基于点乘注意力机制对所述结构表征和所述标签表征进行处理得到所述注意力权重矩阵,包括:
将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层;
确定所述结构表征对应的文本长度,以及所述标签表征对应的特征长度;
根据所述文本长度和所述特征长度对所述结构表征和所述标签表征进行隔离,以得到隔离表征序列;
基于点乘注意力机制对所述隔离表征序列进行处理,以得到所述注意力权重矩阵。
可选的,在本申请一些可能的实现方式中,所述基于所述目标分类模型进行数据中异常样本的检测,包括:
基于所述目标分类模型对候选样本集进行检测,以得到目标异常样本;
响应于待检测样本的输入,基于所述待检测样本与所述目标异常样本的相似度进行异常样本的检测。
本申请第二方面提供一种数据处理装置,包括:获取单元,用于获取目标对象中配置的文件结构信息;
提取单元,用于对所述文件结构信息进行文件内容的提取,以得到文件结构内容;
所述提取单元,还用于基于预设维度对所述文件结构内容进行特征提取,以得到对象特征,所述预设维度基于所述文件结构信息和所述目标对象进行设定;
处理单元,用于确定所述对象特征配置的画像标签,以基于所述画像标签对预设样本集合进行聚类得到目标聚类簇,所述目标聚类簇中包含所述目标对象和多个可疑异常样本;
所述处理单元,还用于基于所述目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,所述预设分类模型中的注意力层用于对所述可疑异常样本对应的文件结构特征和画像特征进行融合得到注意力权重矩阵,所述注意力权重矩阵用于对所述预设分类模型进行参数调整;
所述处理单元,还用于基于所述目标分类模型进行数据中异常样本的检测。
可选的,在本申请一些可能的实现方式中,所述提取单元,具体用于获取所述文件结构信息对应的属性信息;
所述提取单元,具体用于对所述属性信息中的属性参数进行提取,以得到各个所述属性信息对应的校验值;
所述提取单元,具体用于将所述校验值映射到目标范围,以得到映射值;
所述提取单元,具体用于基于所述映射值进行分桶操作,以得到所述属性信息对应的特征值,所述特征值用于指示所述文件结构内容。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于确定所述对象特征配置的所述画像标签;
所述处理单元,具体用于对所述预设样本集合中的样本基于所述画像标签进行标记,以得到核心点、边界点和噪声点;
所述处理单元,具体用于将所述噪声点进行删除;
所述处理单元,具体用于基于领域阈值为所述核心点配置边;
所述处理单元,具体用于根据所述核心点配置的边进行连通,以得到核心簇;
所述处理单元,具体用于基于所述边界点与所述核心点之间的距离关系将所述边界点关联到所述核心簇中,以得到包含所述目标对象的所述目标聚类簇。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于将所述目标对象作为预设异常样本和所述预设样本集合中的样本整合为样本数据点;
所述处理单元,具体用于根据所述画像标签对所述样本数据点进行分布,以得到分布信息;
所述处理单元,具体用于对所述分布信息中指示半径范围中的数据点数大于点数阈值的样本数据点标记为所述核心点;
所述处理单元,具体用于对所述分布信息中指示半径范围中的数据点数小于或等于所述点数阈值的样本数据点标记为所述边界点;
所述处理单元,具体用于将所述样本数据点中未标记的点作为所述噪声点。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于获取所述可疑异常样本对应的文件结构内容和画像标签;
所述处理单元,具体用于对所述可疑异常样本对应的文件结构内容进行编码,以得到结构编码;
所述处理单元,具体用于对所述结构编码进行表征,以得到结构表征;
所述处理单元,具体用于对所述可疑异常样本对应的画像标签进行表征,以得到标签表征;
所述处理单元,具体用于将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层,以基于点乘注意力机制对所述结构表征和所述标签表征进行处理得到所述注意力权重矩阵;
所述处理单元,具体用于将所述注意力权重矩阵输入所述预设分类模型中的卷积层,以得到卷积信息;
所述处理单元,具体用于将所述卷积特征输入所述预设分类模型中的池化层,以得到池化信息;
所述处理单元,具体用于将所述池化信息输入所述预设分类模型中的全连接层,以得到输出信息;
所述处理单元,具体用于基于所述输出信息对应的损失信息对所述预设分类模型进行监督训练,以得到所述目标分类模型。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层;
所述处理单元,具体用于确定所述结构表征对应的文本长度,以及所述标签表征对应的特征长度;
所述处理单元,具体用于根据所述文本长度和所述特征长度对所述结构表征和所述标签表征进行隔离,以得到隔离表征序列;
所述处理单元,具体用于基于点乘注意力机制对所述隔离表征序列进行处理,以得到所述注意力权重矩阵。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于基于所述目标分类模型对候选样本集进行检测,以得到目标异常样本;
所述处理单元,具体用于响应于待检测样本的输入,基于所述待检测样本与所述目标异常样本的相似度进行异常样本的检测。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的数据处理方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的数据处理方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的数据处理方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取目标对象中配置的文件结构信息;然后对文件结构信息进行文件内容的提取,以得到文件结构内容;并基于预设维度对文件结构内容进行特征提取,以得到对象特征,该预设维度基于文件结构信息和目标对象进行设定;进一步的确定对象特征配置的画像标签,以基于画像标签对预设样本集合进行聚类得到目标聚类簇,该目标聚类簇中包含目标对象和多个可疑异常样本;从而基于目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,该预设分类模型中的注意力层用于对可疑异常样本对应的文件结构特征和画像特征进行融合得到注意力权重矩阵,且注意力权重矩阵用于对预设分类模型进行参数调整;进而基于目标分类模型进行数据中异常样本的检测。从而实现基于潜在异常样本的检测过程,由于从样本的结构信息角度进行可疑异常样本的聚类,扩展了可疑异常样本可能的结构形变,且通过可疑异常样本的样本结构以及画像维度进行分类模型的训练,使得分类模型可以得到更多的可疑异常样本以进行外挂检测,提高了数据处理过程中异常样本检测的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为数据处理系统运行的网络架构图;
图2为本申请实施例提供的一种数据处理的流程架构图;
图3为本申请实施例提供的一种数据处理方法的流程图;
图4为本申请实施例提供的一种数据处理方法的场景示意图;
图5为本申请实施例提供的另一种数据处理方法的场景示意图;
图6为本申请实施例提供的另一种数据处理方法的场景示意图;
图7为本申请实施例提供的另一种数据处理方法的场景示意图;
图8为本申请实施例提供的另一种数据处理方法的场景示意图;
图9为本申请实施例提供的另一种数据处理方法的场景示意图;
图10为本申请实施例提供的一种数据处理装置的结构示意图;
图11为本申请实施例提供的一种终端设备的结构示意图;
图12为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种数据处理方法以及相关装置,可以应用于终端设备中包含数据处理功能的系统或程序中,通过获取目标对象中配置的文件结构信息;然后对文件结构信息进行文件内容的提取,以得到文件结构内容;并基于预设维度对文件结构内容进行特征提取,以得到对象特征,该预设维度基于文件结构信息和目标对象进行设定;进一步的确定对象特征配置的画像标签,以基于画像标签对预设样本集合进行聚类得到目标聚类簇,该目标聚类簇中包含目标对象和多个可疑异常样本;从而基于目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,该预设分类模型中的注意力层用于对可疑异常样本对应的文件结构特征和画像特征进行融合得到注意力权重矩阵,且注意力权重矩阵用于对预设分类模型进行参数调整;进而基于目标分类模型进行数据中异常样本的检测。从而实现基于潜在异常样本的检测过程,由于从样本的结构信息角度进行可疑异常样本的聚类,扩展了可疑异常样本可能的结构形变,且通过可疑异常样本的样本结构以及画像维度进行分类模型的训练,使得分类模型可以得到更多的可疑异常样本以进行外挂检测,提高了数据处理过程中异常样本检测的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供的数据处理方法可以应用于终端设备中包含数据处理功能的系统或程序中,例如游戏,具体的,数据处理系统可以运行于如图1所示的网络架构中,如图1所示,是数据处理系统运行的网络架构图,如图可知,数据处理系统可以提供与多个信息源的数据处理过程,即通过终端侧的触发操作对服务器下发的应用信息进行外挂检测;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到数据处理的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多模型训练交互的场景中,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述数据处理系统可以运行于个人移动终端,例如:作为游戏这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供数据处理,以得到信息源的数据处理处理结果;具体的数据处理系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,本实施例可应用于云技术、自动驾驶等场景,具体运作模式因实际场景而定,此处不做限定。
随着智能手机的发展,越来越多的电子游戏能够安装到手机上,让人们随时随地的消遣娱乐,同时已经成为了一个较大的手游产业。而手游产业的蓬勃发展,随之而来也会催生出一系列的问题出来,例如外挂问题。
一般,可以基于已知的外挂样本进行进程或函数角度的外挂检测,但是,由于已知的外挂样本的数量有限,在海量数据样本的场景中,可能出现外挂样本无法检测的情况,影响数据处理过程中异常检测的准确性。
为了解决上述问题,本申请提出了一种数据处理方法,该方法应用于图2所示的数据处理的流程框架中,如图2所示,为本申请实施例提供的一种数据处理的流程架构图,响应于用户的检测请求,根据文件结构以及样本相关画像、使用者相关画像进行相似样本的扩展,从而训练具有外挂识别能力的模型,以进行外挂检测。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种数据处理装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该数据处理装置通过获取目标对象中配置的文件结构信息;然后对文件结构信息进行文件内容的提取,以得到文件结构内容;并基于预设维度对文件结构内容进行特征提取,以得到对象特征,该预设维度基于文件结构信息和目标对象进行设定;进一步的确定对象特征配置的画像标签,以基于画像标签对预设样本集合进行聚类得到目标聚类簇,该目标聚类簇中包含目标对象和多个可疑异常样本;从而基于目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,该预设分类模型中的注意力层用于对可疑异常样本对应的文件结构特征和画像特征进行融合得到注意力权重矩阵,且注意力权重矩阵用于对预设分类模型进行参数调整;进而基于目标分类模型进行数据中异常样本的检测。从而实现基于潜在异常样本的检测过程,由于从样本的结构信息角度进行可疑异常样本的聚类,扩展了可疑异常样本可能的结构形变,且通过可疑异常样本的样本结构以及画像维度进行分类模型的训练,使得分类模型可以得到更多的可疑异常样本以进行外挂检测,提高了数据处理过程中异常样本检测的准确性。
本申请实施例提供的方案涉及人工智能的机器学习技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中数据处理方法进行介绍,请参阅图3,图3为本申请实施例提供的一种数据处理方法的流程图,该管理方法可以是由服务器或终端执行的,本申请实施例至少包括以下步骤:
301、获取目标对象中配置的文件结构信息。
本实施例中,目标对象即为标记为配置了异常数据(样本)的对象,该异常数据可以是外挂、恶意程序等形式,本实施例以外挂为例进行说明;对于目标对象的对象形式,可以是终端中安装的应用,可以是用户关联的终端中安装的应用,具体的应用可以是游戏或其他网络交互软件,此处以游戏为例进行说明。即本实施例可以应用到不同游戏中对未知外挂的挖掘,包括MMO、RBG等不同类型的游戏。通过结合文件结构信息和画像特征,可以有效覆盖网络资源中未知外挂样本,显著的挖掘出相似变种外挂样本。
具体的,本实施例从异常数据的文件结构信息进行异常检测,该文件结构信息可以是Manifest信息,Manifest信息是一种可扩展标记语言(Extensible Markup Language,XML)的描述文件,且对于每个动态链接库(Dynamic Link Library,DLL)都配置了Manifest文件;而对于每个应用程序(Application)也配置有对应的Manifest文件,对于应用程序而言,Manifest可以是一个和可执行程序(executable program,exe)处于同一目录下的.Manifest文件,也可以是作为一个资源嵌入在exe文件内部的。因此,通过Manifest文件可以解析得到各种数据类型的文件结构信息。
可以理解的是,在异常数据为外挂的场景中,由于外挂会修改原始数据的文件结构信息,而指示文件结构信息通过Manifest文件可以解析得到,因此通过对Manifest文件的解析能够表征整体的异常样本的结构,同时功能相似的外挂会存在高可疑相似的文件结构信息,因此可以通过文件结构信息进行结构维度的解析,以对不同功能类型的外挂进行检测,具体的外挂类型如表1所示。
表1外挂类型
302、对文件结构信息进行文件内容的提取,以得到文件结构内容。
本实施例中,文件结构内容的提取通过解析Manifest所得;这是由于Manifest包含了目标对象各种形式下的结构组成。其中,从目标对象为应用的角度,文件结构信息(Manifest)中包含了目标对象对应的应用的结构组成,通过对应用结构的解析即可得到各个应用结构中的文件结构内容。另外,从目标对象为系统程序的角度,Manifest中的AndroidManifest.xml是每个系统程序(例如android程序)中必须的文件,这个xml文件位于整个系统程序的根目录,描述了程序包(package)中暴露的功能组件(例如动作组件activities,服务组件services等),和这些功能组件各自的实现类,以及各个功能组件中各种能被处理的数据和启动位置。因此Manifest在系统程序中可以对功能组件进行逐步解析,得到功能组件对应的结构关系;进一步的,Manifest除了能声明程序中的功能组件(例如动作组件activities、内容提供组件ContentProviders、服务组件services和消息传递组件IntentReceivers),还能指示安全组件(permissions和instrumentation),由于该安全组件用于进行安全控制和测试,从而可以得到安全配置维度的文件结构内容,具有针对性的解析异常数据的文件结构内容。
具体的,对于Manifest的解析可以通过解析Manifest中指示的属性进行,即首先获取文件结构信息对应的属性信息;具体的,属性信息的指示内容可以包括:
1、一般属性:Manifest-Version、Created-By、Signature-Version以及Class-Path。
具体的,Manifest-Version用来定义Manifest文件的版本,例如Manifest-Version:1.0,从而可以得到文件结构内容中的版本信息,以便于在后续特征处理过程中针对特定版本进行特征提取。
Created-By可以声明Manifest文件的生成者,该属性是由压缩(jar)命令行工具生成的,例如:Created-,从而可以得到文件结构内容中的生成者信息,从而可以进行特定生成者的标记,例如外挂作者。
Signature-Version可以定义程序中压缩文件的签名版本,从而可以得到文件结构内容中的压缩方式信息,以便于了解目标对象在数据处理过程中的压缩方式。
Class-Path可以指示应用程序或者类装载器构建内部的类搜索路径,从而可以得到文件结构内容中的路径信息,可以标记出外挂特定的搜索路径方式。
2、应用程序相关属性:Main-Class,用于定义jar文件的入口类,由于jar文件为归档文件,可以通过确定jar文件的入口类得到应用程序的数据归档过程的信息,即可以得到文件结构内容中的数据归档信息,以便于从数据归档维度进行结构特征的描述。
3、小程序(Applet)相关属性:由于Applet用于网络页面的交互和动态执行,因此通过小程序相关属性可以得到文件结构内容中的外部程序交互信息。
4、扩展标识属性:Extension-Nam,由于该属性定义了jar文件的标识,例如Extension-Name:Struts Framework,因此可以得到文件结构内容中的数据扩展信息,以便于从数据扩展维度进行结构特征的描述。
5、包扩展属性:包括Implementation-Title,该信息定义了扩展实现的标题;Implementation-Version,该信息定义扩展实现的版本;Implementation-Vendor,该信息定义扩展实现的组织;Implementation-Vendor-Id:定义扩展实现的组织的标识;通过上述包扩展属性可以得到文件结构内容中的包扩展过程中的过程信息,以便于从包扩展维度进行结构特征的描述。
6、签名相关属性:由于签名指示了程序在编辑过程中的置信信息,可以通过签名相关属性得到文件结构内容中的签名对象、加密方式等置信信息。
通过上述Manifest中指示的属性信息,可以从不同的维度对文件结构内容进行描述,然后对属性信息中的属性参数进行提取,以得到各个属性信息对应的校验值(CRC),其中CRC是一种根据属性信息产生的简短固定位数校核码,可以用来检测或校核数据传输或者保存后可能出现的错误,而本实施例用于对Manifest中的属性信息进行表征;进一步的,由于不同属性参数的校验值采用不同的表征方式,因此可以将校验值映射到目标范围得到映射值,以便于在同一量纲下进行多种属性参数的表征;另外,由于一些属性信息中可能包括多个子类别(例如一般属性中包含了Manifest-Version、Created-By、Signature-Version以及Class-Path),为了进行子类别的粒度参数统计,可以基于映射值进行分桶操作,以得到各个属性信息以及其子类别中对应的特征值,其中分桶操作的过程即根据预设的分桶键哈希进行取模的数值计算,根据取模的结果(特征值)进行分桶;在得到特征值后,由于在计算机中数据以二进制的形式存储,因此可以采用ASCII码将特征值转化为指示文件结构内容的二进制形式,通过上述Manifest文件中各个维度属性信息的解析,可以得到程序的结构成分;然后通过属性参数进行文件内容的映射,得到Manifest文件结构内容。
303、基于预设维度对文件结构内容进行特征提取,以得到对象特征。
本实施例中,预设维度基于文件结构信息和目标对象进行设定,因此对象特征包含了文本结构维度以及对象画像维度;且可以在提取对象特征后进行标签化的表述,为对象特征配置对应的画像标签,以便于聚类过程的进行。
具体的,对于对象特征的提取过程,由于文件结构内容采用二进制的特征值形式进行表述,不同的特征值对应了具体的文本内容(例如操作信息、数据处理过程信息等),因此对于对象特征的提取过程即为特征值的识别并标记为文本特征或画像特征的过程,例如文件结构内容在Main-Class属性的特征值为1,说明文件结构中jar文件入口类发生篡改,即对象特征对应的画像标签为jar文件入口类发生篡改;或文件结构内容在操作信息中指示目标对象的近N天中提升等级数的特征值为0,目标对象的近N天中提升等级数表示达到阈值等。
在一种可能的场景中,预设维度即包括了文件结构维度以及目标对象与应用交互的特征维度,即对象画像维度;因此可以根据对象画像、设备画像、Manifest画像等特征对玩家进行多维度的刻画,得到对象特征,从而形成对应的画像标签,如该玩家是否存在高举报、近N天中上星数以及文件结构中签名不一致等。
具体的,如图4所示,图4为本申请实施例提供的一种数据处理方法的场景示意图;图中示出了预设维度包括设备维度、统计特征维度、基础特征维度以及用户维度,从而得到对象特征,并配置对应的画像标签。
可以理解的是,对于文件结构内容与画像特征的提取,是为了进行可疑异常样本的扩展,即从文件结构的维度进行变形,从画像特征的维度进行相似性比较,具体如图5所示,图5为本申请实施例提供的另一种数据处理方法的场景示意图;图中示出了本实施例首先通过检测异常用户的应用安装包(APK)安装情况,若异常用户安装了目标应用,则读取目标应用中的MANIFEST.MF文件结构信息,然后通过对文件结构信息中的文件结构内容进行提取,获取Manifest文件结构内容;进一步的,利用特征模块,对Manifest文件结构内容进行对象特征的提取,并基于对象特征标记出Manifest文件结构内容对应的的用户标签(画像标签);进一步的利用DBSCAN聚类方法,在网络样本集合中筛选出具有可疑性的样本,然后利用可疑异常样本,通过改进的Transformer模型,融合进文Manifest文件结构信息和其画像特征,进一步提升可疑异常样本的识别能力;最后得到的可疑异常样本,可以用来进行异常样本检测(例如训练分类模型进行样本分类,或推送给外挂算法进行相似性检测),从而有效抑制外挂的泛滥;在下述实施例中,作为一种示例,对DBSCAN聚类以及Transformer模型的组成进行说明。
304、确定对象特征配置的画像标签,以基于画像标签对预设样本集合进行聚类得到目标聚类簇。
本实施例中,确定对象特征配置的画像标签是为了在提取对象特征后进行标签化的表述,以便于聚类过程的进行,例如文件结构信息指示jar文件入口类发生篡改,目标对象的近N天中提升等级数达到阈值等。
可以理解的是,目标聚类簇中包括目标对象对应的样本和多个可疑异常样本,该可疑异常样本即为与目标对象存在相似的画像标签的样本;即通过对预设样本集合进行聚类,得到与目标对象(已知异常样本)处于同一簇中的相似样本;由于通过获得的Manifest文件结构,可以构建出更多的对象特征、设备特征等画像标签。利用这些画像标签,可以通过聚类算法,基于现有的异常样本挖掘出目标网络资源中从各个画像标签相似的可疑相似样本,从而实现可疑异常样本的扩展。其中,聚类算法可以采用DBSCAN进行,这是由于与划分和层次聚类方法不同,DBSCAN将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类,该特性符合异常样本在样本集合中的分布。
具体的,对于采用DBSCAN聚类确定可疑异常样本的场景,可以首先确定对象特征配置的画像标签(例如举报次数多、近7天升级多等),然后对预设样本集合中的样本基于画像标签进行标记,以得到核心点、边界点和噪声点;然后将噪声点进行删除;并基于领域阈值为核心点配置边;进一步的根据核心点配置的边进行连通,以得到核心簇;进而基于边界点与核心点之间的距离关系将边界点关联到核心簇中,以得到包含目标对象的目标聚类簇。
其中,对于DBSCAN聚类的过程,即由密度可达关系导出的最大密度相连的样本集合,该最大密度相连的样本集合即为目标聚类簇,通过将包含目标对象的簇进行提取,可以得到相似的可疑异常样本。由于簇里面可以有一个或者多个核心点,故目标对象可以是核心点之一。如果只有一个核心点,则簇里其他的非核心点样本都在这个核心点的密度半径(Eps)邻域里。如果有多个核心点,则簇里的任意一个核心点的Eps邻域中一定有一个其他的核心点,否则这两个核心点无法密度可达。这些核心点的Eps邻域里所有的样本的集合组成一个DBSCAN聚类簇。
具体的,对于DBSCAN聚类过程中核心点、边界点和噪声点的确定,可以首先将目标对象作为预设异常样本和预设样本集合中的样本整合为样本数据点;然后根据画像标签对样本数据点进行分布,以得到分布信息;并对分布信息中指示半径范围中的数据点数大于点数阈值的样本数据点标记为核心点;然后对分布信息中指示半径范围中的数据点数小于或等于点数阈值的样本数据点标记为边界点;进而将样本数据点中未标记的点作为噪声点。即可以总结为核心点为在Eps领域阈值内含有超过点数阈值(MinPts)数目的点。边界点为在半径Eps内点的数目小于MinPts,但是落在核心点的临域内。而噪音点:既不是核心点也不是边界点的点,从而实现数据点的聚类划分。
另外,上述实施例中,预设样本集合采用目标网络资源进行(例如外网),在另一种可能的场景中,预设样本集合也可以是历史收集的样本集合、应用服务器在过去N天内新增的样本集合,具体的预设样本集合形式因实际场景而定,此处不作限定。
在一种可能的场景中,在聚类过程中,top1簇类中,有56%的设备近7天地址有变动过;登陆账号数:账号数3及其以上占比为45%。这说明这部分设备登陆账号数较多且有过变动地址的情况。42.6%的设备在近7天有被举报过2次及以上。在top5簇类中,无处罚样本中,有59.9%的设备近7天地址有变动过;登陆账号数:账号数3及其以上占比为41%。这说明这部分设备登陆账号数较多且有过变动地址的情况,14%的设备在近7天有被举报过。因此,可以得到如图6所示的效果图,图6为本申请实施例提供的另一种数据处理方法的场景示意图;从图中所示的聚类效果图上看,能明显观察出较为明显的几个大簇,说明挖掘到的画像标签特征较为明显。
305、基于目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型。
本实施例中,预设分类模型采用包含注意力层的深度神经网络,该注意力层用于对可疑异常样本对应的文件结构内容和画像标签进行融合得到注意力权重矩阵,该注意力权重矩阵用于对预设分类模型进行参数调整;其中,可疑异常样本对应的文件结构内容参照步骤302中的文件结构内容进行解析所得,而可疑异常样本对应的画像标签参照步骤303中的画像标签对应的维度进行统计所得。另外,之所以采用文件结构内容和画像标签进行融合的特征形式,是由于Manifest存在两种不同的内容形式:文件结构内容、画像标签,而这两种内容形式无法直接关联,因此使用包含注意力层的深度神经网络来融合不同类型的特征信息,例如预设分类模型为Transformer模型。
接下来,以预设分类模型为Transformer模型的场景进行说明,对于Transformer模型的训练过程,结合其结构进行说明,如图7所示,图7为本申请实施例提供的另一种数据处理方法的场景示意图;图中示出了Transformer主体结构主要是堆叠了多层的多头注意力层(multihead attention)。经过注意力层(attention)之后,连接了卷积层(conv1d)、全局池化层(GlobalAveragePolling1D),最后再利用全连接层(FFN)预测正确的结构。
具体的,由于目标对象为已经标记为异常的样本,故预设分类模型(Transformer)可以采用监督训练的方式进行训练,即首先获取可疑异常样本对应的文件结构内容和画像标签;然后对可疑异常样本对应的文件结构内容进行编码,以得到结构编码;并对结构编码进行表征,以得到结构表征;并对可疑异常样本对应的画像标签进行表征,以得到标签表征;上述标注即为输入部分,该输入部分包含了Manifest文件结构信息和画像标签。其中Manifest文件结构可以进行有效的循环冗余校验码(Cyclic Redundancy Check,crc)的编码形式,共128个位置编码,每个编码位置表征对应的文件个数。而Manifest Feature则对应于画像标签。因此在表征层(Embedding)中,把这两个特征分别进行映射操作:
其中,dmf和表示结构编码对应的词典大小,dfe表示画像标签对应的词典大小,从而可以基于各自的词典进行映射操作得到对应的embedding信息。
在对文件结构内容和画像标签进行映射表征后,将得到的结构表征和标签表征输入预设分类模型中的注意力层,以基于点乘注意力机制对结构表征和标签表征进行处理得到注意力权重矩阵,从而得到如图8所示的注意力权重矩阵,该注意力权重矩阵计算过程的具体公式如下:
其中,Q和K分别代表词语的embedding输入,V表示需要查询的值。
需要注意的是,本实施例中Transformer中采用点乘注意力,点乘注意力机制对于加法注意力而言,有更快的速度同时更加节省空间,从而提高文件结构内容和画像标签的特征融合效率。
进一步的,在融合得到注意力权重矩阵后,将注意力权重矩阵输入预设分类模型中的卷积层,以得到卷积信息;并将卷积特征输入预设分类模型中的池化层,以得到池化信息;然后将池化信息输入预设分类模型中的全连接层,以得到输出信息;从而基于输出信息对应的损失信息对预设分类模型进行监督训练,以得到目标分类模型。
可选的,为了将文件结构内容和画像标签充分进行融合,可以采用交叉掩码(crossmask)结构来对融合过程中的部分信息进行掩码;具体如图9所示,图9为本申请实施例提供的另一种数据处理方法的场景示意图;即对于注意力权重矩阵的掩码过程,首先将结构表征和标签表征输入预设分类模型中的注意力层;然后确定结构表征对应的文本长度,以及标签表征对应的特征长度;然后根据文本长度和特征长度对结构表征和标签表征进行隔离,以得到隔离表征序列;即定义Manifest中结构表征对应的文本长度为n,标签表征对应的特征长度为m,零矩阵为o∈RN×N。因此可以得到文本和特征向量的掩码(mask):
其中,表示标签表征的掩码;/>表示结构表征的掩码。
进一步的,在得到标签表征和结构表征的掩码后,可以把相应的文件结构特征和画像标签特征进行有效隔离,形成crossmask操作,其具体计算步骤如下:
Aij=1 if Aij=-1
进而基于点乘注意力机制对隔离表征序列进行处理,以得到注意力权重矩阵,由于特征融合过程中进行了有效的隔离,提高了注意力权重矩阵中权重信息的准确性。
可选的,在训练模型过程中,优化器中选择Adam,学习率选定为1e-4。其他的一些重要超参数定义和取值如表2所示:
表2模型超参数
可以理解的是,本实施例在模型结构上选用了transformer模型作为基础,同时还采用crossmask机制用来隔离文本信息结构和画像标签特征。但是,本实施例不具体限定深度神经网络的模型类型和拓扑结构,可以替换为各种其它有效的新型的模型结构,例如,使用BERT和GAN等结构相结合的模型,或者其它网络结构,例如时延网络、闸控卷积神经网络等。同时在mask机制的拓展上,可以改进更符合结构信息的机制,从而提升模型效果。
在一种可能的场景中,为了证明本实施例中基于文件结构内容与画像标签进行融合训练的目标分类模型的性能,采用不同模型在黑白样本上得到如表3所示的具体效果,即本实施例中的目标分类模型在识别黑样本外挂上F1值能够达94.33%,比基于的transformer模型要高5.64%。
表3Transformer模型效果
另外,本实施例还取了6天的数据进行验证,如表4所示,发现与现有的异常样本交集高达93.3%,说明本实施例的模型在挖掘潜在异常样本上具有高覆盖率。
表4模型判定外挂与真实外挂样本之前的交集
最后,目前模型已经在网络中挖掘潜在异常样本上进行了部署,模型覆盖率达93.3%,能够有效挖掘出潜在可疑异常样本。同时模型部署上线后,该类问题的举报下降明显,5人举报下降93.3%,2局举报下降72%。
306、基于目标分类模型进行数据中异常样本的检测。
本实施例中,通过目标分类模型进行数据中异常样本的检测即周期性或实时将新增数据输入目标分类模型进行异常样本的检测,即检测是否为外挂样本。
另外,基于目标分类模型进行数据中异常样本的检测过程也可以为相似度的检测过程,首先基于目标分类模型对候选样本集进行检测,以得到目标异常样本(外挂);然后响应于待检测样本的输入,通过比较待检测样本与目标异常样本在Manifest文件上的相似度进行异常样本的检测,若相似度大于阈值(例如80%),则将待检测样本标记为异常样本(外挂),该相似度比较的过程可以封装为外挂识别算法,以进行异常样本的检测。从而可以对目标网络(例如外网或指定的网络资源)中可疑外挂进行检测;还可以扩大可疑量级推送,即把异常样本的Manifest文件推送到模型中判定玩家行为是否存在作弊。
在一种可能的场景中,将目标分类模型在MOBA游戏外挂对抗上进行部署,模型准确率达94.33%,能够有效挖掘出未知异常样本,日均覆盖提单外挂70%以上。另外,在目标分类模型部署上线后,外挂问题的举报下降明显,5人举报下降93.3%,2局举报下降72%。
结合上述实施例可知,通过获取目标对象中配置的文件结构信息;然后对文件结构信息进行文件内容的提取,以得到文件结构内容;并基于预设维度对文件结构内容进行特征提取,以得到对象特征,该预设维度基于文件结构信息和目标对象进行设定,且对象特征配置了对应的画像标签;并根据画像标签参照预设异常样本对预设样本集合进行聚类,以得到包含预设异常样本的目标聚类簇,该目标聚类簇中包括多个可疑异常样本,可疑异常样本与预设异常样本相似;然后基于可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,预设分类模型中的注意力层用于对可疑异常样本对应的文件结构内容和画像标签进行融合得到注意力权重矩阵,注意力权重矩阵用于对预设分类模型进行参数调整;进而基于目标分类模型进行数据中异常样本的检测。从而实现基于潜在异常样本的检测过程,由于从样本的结构信息角度进行可疑异常样本的聚类,扩展了可疑异常样本可能的结构形变,且通过可疑异常样本的样本结构以及画像维度进行分类模型的训练,使得分类模型可以得到更多的可疑异常样本以进行外挂检测,提高了外挂检测的准确性。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图10,图10为本申请实施例提供的一种数据处理装置的结构示意图,数据处理装置1000包括:
获取单元1001,用于获取目标对象中配置的文件结构信息;
提取单元1002,用于对所述文件结构信息进行文件内容的提取,以得到文件结构内容;
所述提取单元1002,还用于基于预设维度对所述文件结构内容进行特征提取,以得到对象特征,所述预设维度基于所述文件结构信息和所述目标对象进行设定;
处理单元1003,用于确定所述对象特征配置的画像标签,以基于所述画像标签对预设样本集合进行聚类得到目标聚类簇,所述目标聚类簇中包含所述目标对象和多个可疑异常样本;
所述处理单元1003,还用于基于所述目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,所述预设分类模型中的注意力层用于对所述可疑异常样本对应的文件结构特征和画像特征进行融合得到注意力权重矩阵,所述注意力权重矩阵用于对所述预设分类模型进行参数调整;
所述处理单元1003,还用于基于所述目标分类模型进行数据中异常样本的检测。
可选的,在本申请一些可能的实现方式中,所述提取单元1002,具体用于获取所述文件结构信息对应的属性信息;
所述提取单元1002,具体用于对所述属性信息中的属性参数进行提取,以得到各个所述属性信息对应的校验值;
所述提取单元1002,具体用于将所述校验值映射到目标范围,以得到映射值;
所述提取单元1002,具体用于基于所述映射值进行分桶操作,以得到所述属性信息对应的特征值,所述特征值用于指示所述文件结构内容。
可选的,在本申请一些可能的实现方式中,所述处理单元1003,具体用于确定所述对象特征配置的所述画像标签;
所述处理单元1003,具体用于对所述预设样本集合中的样本基于所述画像标签进行标记,以得到核心点、边界点和噪声点;
所述处理单元1003,具体用于将所述噪声点进行删除;
所述处理单元1003,具体用于基于领域阈值为所述核心点配置边;
所述处理单元1003,具体用于根据所述核心点配置的边进行连通,以得到核心簇;
所述处理单元1003,具体用于基于所述边界点与所述核心点之间的距离关系将所述边界点关联到所述核心簇中,以得到包含所述目标对象的所述目标聚类簇。
可选的,在本申请一些可能的实现方式中,所述处理单元1003,具体用于将所述目标对象作为预设异常样本和所述预设样本集合中的样本整合为样本数据点;
所述处理单元1003,具体用于根据所述画像标签对所述样本数据点进行分布,以得到分布信息;
所述处理单元1003,具体用于对所述分布信息中指示半径范围中的数据点数大于点数阈值的样本数据点标记为所述核心点;
所述处理单元1003,具体用于对所述分布信息中指示半径范围中的数据点数小于或等于所述点数阈值的样本数据点标记为所述边界点;
所述处理单元1003,具体用于将所述样本数据点中未标记的点作为所述噪声点。
可选的,在本申请一些可能的实现方式中,所述处理单元1003,具体用于获取所述可疑异常样本对应的文件结构内容和画像标签;
所述处理单元1003,具体用于对所述可疑异常样本对应的文件结构内容进行编码,以得到结构编码;
所述处理单元1003,具体用于对所述结构编码进行表征,以得到结构表征;
所述处理单元1003,具体用于对所述可疑异常样本对应的画像标签进行表征,以得到标签表征;
所述处理单元1003,具体用于将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层,以基于点乘注意力机制对所述结构表征和所述标签表征进行处理得到所述注意力权重矩阵;
所述处理单元1003,具体用于将所述注意力权重矩阵输入所述预设分类模型中的卷积层,以得到卷积信息;
所述处理单元1003,具体用于将所述卷积特征输入所述预设分类模型中的池化层,以得到池化信息;
所述处理单元1003,具体用于将所述池化信息输入所述预设分类模型中的全连接层,以得到输出信息;
所述处理单元1003,具体用于基于所述输出信息对应的损失信息对所述预设分类模型进行监督训练,以得到所述目标分类模型。
可选的,在本申请一些可能的实现方式中,所述处理单元1003,具体用于将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层;
所述处理单元1003,具体用于确定所述结构表征对应的文本长度,以及所述标签表征对应的特征长度;
所述处理单元1003,具体用于根据所述文本长度和所述特征长度对所述结构表征和所述标签表征进行隔离,以得到隔离表征序列;
所述处理单元1003,具体用于基于点乘注意力机制对所述隔离表征序列进行处理,以得到所述注意力权重矩阵。
可选的,在本申请一些可能的实现方式中,所述处理单元1003,具体用于基于所述目标分类模型对候选样本集进行检测,以得到目标异常样本;
所述处理单元1003,具体用于响应于待检测样本的输入,基于所述待检测样本与所述目标异常样本的相似度进行异常样本的检测。
通过获取目标对象中配置的文件结构信息;然后对文件结构信息进行文件内容的提取,以得到文件结构内容;并基于预设维度对文件结构内容进行特征提取,以得到对象特征,该预设维度基于文件结构信息和目标对象进行设定,且对象特征配置了对应的画像标签;并根据画像标签参照预设异常样本对预设样本集合进行聚类,以得到包含预设异常样本的目标聚类簇,该目标聚类簇中包括多个可疑异常样本,可疑异常样本与预设异常样本相似;然后基于可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,预设分类模型中的注意力层用于对可疑异常样本对应的文件结构内容和画像标签进行融合得到注意力权重矩阵,注意力权重矩阵用于对预设分类模型进行参数调整;进而基于目标分类模型进行数据中异常样本的检测。从而实现基于潜在异常样本的检测过程,由于从样本的结构信息角度进行可疑异常样本的聚类,扩展了可疑异常样本可能的结构形变,且通过可疑异常样本的样本结构以及画像维度进行分类模型的训练,使得分类模型可以得到更多的可疑异常样本以进行外挂检测,提高了外挂检测的准确性。
本申请实施例还提供了一种终端设备,如图11所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图11示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图11,手机包括:射频(radio frequency,RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对手机的各个构成部件进行具体的介绍:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1130可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作,以及在触控面板1131上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体检测。可选的,处理器1180可包括一个或多个处理单元;可选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
手机还包括给各个部件供电的电源1190(比如电池),可选的,电源可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1180还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图12,图12是本申请实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1222(例如,一个或一个以上处理器)和存储器1232,一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中,存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1222可以设置为与存储介质1230通信,在服务器1200上执行存储介质1230中的一系列指令操作。
服务器1200还可以包括一个或一个以上电源1226,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1258,和/或,一个或一个以上操作系统1241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图12所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有数据处理指令,当其在计算机上运行时,使得计算机执行如前述图3至图9所示实施例描述的方法中数据处理装置所执行的步骤。
本申请实施例中还提供一种包括数据处理指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图9所示实施例描述的方法中数据处理装置所执行的步骤。
本申请实施例还提供了一种数据处理系统,所述数据处理系统可以包含图10所描述实施例中的数据处理装置,或图11所描述实施例中的终端设备,或者图12所描述的服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,数据处理装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取目标对象中配置的文件结构信息;
对所述文件结构信息进行文件内容的提取,以得到文件结构内容;
基于预设维度对所述文件结构内容进行特征提取,以得到对象特征,所述预设维度基于所述文件结构信息和所述目标对象进行设定;
确定所述对象特征配置的画像标签,以基于所述画像标签对预设样本集合进行聚类得到目标聚类簇,所述目标聚类簇中包含所述目标对象和多个可疑异常样本;
基于所述目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,所述预设分类模型中的注意力层用于对所述可疑异常样本对应的文件结构内容和画像标签进行融合得到注意力权重矩阵,所述注意力权重矩阵用于对所述预设分类模型进行参数调整;
基于所述目标分类模型进行数据中异常样本的检测。
2.根据权利要求1所述的方法,其特征在于,所述对所述文件结构信息进行文件内容的提取,以得到文件结构内容,包括:
获取所述文件结构信息对应的属性信息;
对所述属性信息中的属性参数进行提取,以得到各个所述属性信息对应的校验值;
将所述校验值映射到目标范围,以得到映射值;
基于所述映射值进行分桶操作,以得到所述属性信息对应的特征值,所述特征值用于指示所述文件结构内容。
3.根据权利要求1所述的方法,其特征在于,所述确定所述对象特征配置的画像标签,以基于所述画像标签对预设样本集合进行聚类得到目标聚类簇,包括:
确定所述对象特征配置的所述画像标签;
对所述预设样本集合中的样本基于所述画像标签进行标记,以得到核心点、边界点和噪声点;
将所述噪声点进行删除;
基于领域阈值为所述核心点配置边;
根据所述核心点配置的边进行连通,以得到核心簇;
基于所述边界点与所述核心点之间的距离关系将所述边界点关联到所述核心簇中,以得到包含所述目标对象的所述目标聚类簇。
4.根据权利要求3所述的方法,其特征在于,所述对所述预设样本集合中的样本基于所述画像标签进行标记,以得到核心点、边界点和噪声点,包括:
将所述目标对象作为预设异常样本和所述预设样本集合中的样本整合为样本数据点;
根据所述画像标签对所述样本数据点进行分布,以得到分布信息;
对所述分布信息中指示半径范围中的数据点数大于点数阈值的样本数据点标记为所述核心点;
对所述分布信息中指示半径范围中的数据点数小于或等于所述点数阈值的样本数据点标记为所述边界点;
将所述样本数据点中未标记的点作为所述噪声点。
5.根据权利要求1所述的方法,其特征在于,所述基于所述可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,包括:
获取所述可疑异常样本对应的文件结构内容和画像标签;
对所述可疑异常样本对应的文件结构内容进行编码,以得到结构编码;
对所述结构编码进行表征,以得到结构表征;
对所述可疑异常样本对应的画像标签进行表征,以得到标签表征;
将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层,以基于点乘注意力机制对所述结构表征和所述标签表征进行处理得到所述注意力权重矩阵;
将所述注意力权重矩阵输入所述预设分类模型中的卷积层,以得到卷积信息;
将所述卷积特征输入所述预设分类模型中的池化层,以得到池化信息;
将所述池化信息输入所述预设分类模型中的全连接层,以得到输出信息;
基于所述输出信息对应的损失信息对所述预设分类模型进行监督训练,以得到所述目标分类模型。
6.根据权利要求5所述的方法,其特征在于,所述将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层,以基于点乘注意力机制对所述结构表征和所述标签表征进行处理得到所述注意力权重矩阵,包括:
将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层;
确定所述结构表征对应的文本长度,以及所述标签表征对应的特征长度;
根据所述文本长度和所述特征长度对所述结构表征和所述标签表征进行隔离,以得到隔离表征序列;
基于点乘注意力机制对所述隔离表征序列进行处理,以得到所述注意力权重矩阵。
7.根据权利要求1所述的方法,其特征在于,所述基于所述目标分类模型进行数据中异常样本的检测,包括:
基于所述目标分类模型对候选样本集进行检测,以得到目标异常样本;
响应于待检测样本的输入,基于所述待检测样本与所述目标异常样本的相似度进行异常样本的检测。
8.一种数据处理装置,其特征在于,包括:
获取单元,用于获取目标对象中配置的文件结构信息;
提取单元,用于对所述文件结构信息进行文件内容的提取,以得到文件结构内容;
所述提取单元,还用于基于预设维度对所述文件结构内容进行特征提取,以得到对象特征,所述预设维度基于所述文件结构信息和所述目标对象进行设定;
处理单元,用于确定所述对象特征配置的画像标签,以基于所述画像标签对预设样本集合进行聚类得到目标聚类簇,所述目标聚类簇中包含所述目标对象和多个可疑异常样本;
所述处理单元,还用于基于所述目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,所述预设分类模型中的注意力层用于对所述可疑异常样本对应的文件结构特征和画像特征进行融合得到注意力权重矩阵,所述注意力权重矩阵用于对所述预设分类模型进行参数调整;
所述处理单元,还用于基于所述目标分类模型进行数据中异常样本的检测。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的数据处理方法。
10.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于计算机可读存储介质,其特征在于,所述计算机可读存储介质中的所述计算机程序/指令被处理器执行时实现上述权利要求1至7任一项所述的数据处理方法的步骤。
CN202211619986.1A 2022-12-15 2022-12-15 一种数据处理方法、装置以及存储介质 Pending CN116956080A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211619986.1A CN116956080A (zh) 2022-12-15 2022-12-15 一种数据处理方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211619986.1A CN116956080A (zh) 2022-12-15 2022-12-15 一种数据处理方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN116956080A true CN116956080A (zh) 2023-10-27

Family

ID=88460782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211619986.1A Pending CN116956080A (zh) 2022-12-15 2022-12-15 一种数据处理方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN116956080A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150333A (zh) * 2023-10-31 2023-12-01 南通双耀冲压有限公司 一种冲压成型设备的运维监管方法及系统
CN117171141A (zh) * 2023-11-01 2023-12-05 广州中长康达信息技术有限公司 一种基于关系图谱的数据模型建模方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150333A (zh) * 2023-10-31 2023-12-01 南通双耀冲压有限公司 一种冲压成型设备的运维监管方法及系统
CN117150333B (zh) * 2023-10-31 2023-12-26 南通双耀冲压有限公司 一种冲压成型设备的运维监管方法及系统
CN117171141A (zh) * 2023-11-01 2023-12-05 广州中长康达信息技术有限公司 一种基于关系图谱的数据模型建模方法
CN117171141B (zh) * 2023-11-01 2024-02-20 广州中长康达信息技术有限公司 一种基于关系图谱的数据模型建模方法

Similar Documents

Publication Publication Date Title
US9973517B2 (en) Computing device to detect malware
CN108280458B (zh) 群体关系类型识别方法及装置
CN116956080A (zh) 一种数据处理方法、装置以及存储介质
CN108089977B (zh) 一种应用程序的异常处理方法、装置及移动终端
CN111368290A (zh) 一种数据异常检测方法、装置及终端设备
WO2017003593A1 (en) Customized network traffic models to detect application anomalies
CN111222563B (zh) 一种模型训练方法、数据获取方法以及相关装置
CN113190646B (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN112148305A (zh) 一种应用检测方法、装置、计算机设备和可读存储介质
CN113940033A (zh) 用户识别方法及相关产品
CN109726726B (zh) 视频中的事件检测方法及装置
CN113609479A (zh) 一种文件检测的方法、装置、电子设备及可读存储介质
CN109450853B (zh) 恶意网站判定方法、装置、终端及服务器
CN109657469B (zh) 一种脚本检测方法及装置
CN110399721B (zh) 一种软件识别方法和服务器以及客户端
CN116778306A (zh) 伪造对象检测方法、相关装置及存储介质
CN115239941B (zh) 对抗图像生成方法、相关装置及存储介质
CN116303085A (zh) 一种测试原因分析方法、装置、设备及存储介质
CN114416600B (zh) 应用检测方法、装置、计算机设备及存储介质
CN103269341B (zh) 一种间谍程序的分析方法和计算机系统
CN115145910A (zh) 一种协议数据的管理方法以及相关装置
CN112543201A (zh) 脆弱性数据处理方法、装置、设备及计算机可读存储介质
CN107169353B (zh) 异常文件识别方法及装置
US11954199B1 (en) Scanning and detecting threats in machine learning models
CN117010386A (zh) 一种对象名称的识别方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication