CN112052891A - 机器行为识别方法、装置、设备及计算机可读存储介质 - Google Patents

机器行为识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112052891A
CN112052891A CN202010888899.0A CN202010888899A CN112052891A CN 112052891 A CN112052891 A CN 112052891A CN 202010888899 A CN202010888899 A CN 202010888899A CN 112052891 A CN112052891 A CN 112052891A
Authority
CN
China
Prior art keywords
machine behavior
data set
sample data
target
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010888899.0A
Other languages
English (en)
Inventor
张秋蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010888899.0A priority Critical patent/CN112052891A/zh
Publication of CN112052891A publication Critical patent/CN112052891A/zh
Priority to PCT/CN2020/136324 priority patent/WO2021189975A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及安全防护技术领域,提供一种机器行为识别方法、装置、设备及计算机可读存储介质,该方法包括:获取待识别的目标数据以及机器行为识别模型;将目标数据输入至主成分分析层进行处理,得到目标数据的主成分特征;将主成分特征输入至梯度下降树模型层进行处理,得到目标数据的第一机器行为识别结果;将目标数据输入至随机森林树模型层进行处理,得到目标数据的第二机器行为识别结果;将第一机器行为识别结果和第二机器行为识别结果输入至逻辑回归模型层进行融合处理,得到目标数据的机器行为识别结果,其中,机器行为识别结果可以上传至区块链进行存储。本申请提高了机器行为的识别准确性。

Description

机器行为识别方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及信息安全技术领域,尤其涉及一种机器行为识别方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网技术的快速发展,越来越多的企业都依托于互联网技术实现业务办理、企业管理和资料管理等,业务办理、企业管理和资料管理等所需的数据,例如客户身份信息、企业机密资料和财务数据等,通常是存储在服务器中的,因此,如何保证数据的安全性极其重要。
目前,可以通过信息安全风控措施识别外界或内部访问服务器的机器行为,传统的信息安全风控措施通常是基于统计学知识,结合专家经验来设定规则,通过设定的规则来识别外界访问服务器的机器行为,但这种方式受限于编写规则的安全专家自身知识的深度和广度,灵活性较差,同时网络攻击层出不穷,机器行为也不尽相同,传统的信息安全风控措施无法准确的识别机器行为,数据的安全性有待提高。因此,如何提高机器行为的识别准确性,提高数据的安全性是目前亟待解决的问题。
发明内容
本申请的主要目的在于提供一种机器行为识别方法、装置、设备及计算机可读存储介质,旨在提高异常数据的识别准确性,提高数据的安全性。
第一方面,本申请实施例提供一种机器行为识别方法,包括:
获取待识别的目标数据以及机器行为识别模型,其中,所述机器行为识别模型包括主成分分析层、梯度下降树模型层、随机森林树模型层和逻辑回归模型层;
将所述目标数据输入至所述主成分分析层进行处理,得到所述目标数据的主成分特征;
将所述主成分特征输入至所述梯度下降树模型层进行处理,得到所述目标数据的第一机器行为识别结果;
将所述目标数据输入至所述随机森林树模型层进行处理,得到所述目标数据的第二机器行为识别结果;
将所述第一机器行为识别结果和第二机器行为识别结果输入至所述逻辑回归模型层进行融合处理,得到所述目标数据的机器行为识别结果。
第二方面,本申请实施例还提供一种机器行为识别装置,所述机器行为识别装置包括:
获取模块,用于获取待识别的目标数据以及机器行为识别模型,其中,所述机器行为识别模型是对随机森林树模型和梯度下降树模型进行融合训练确定的;
机器行为识别模块,用于将所述目标数据输入至所述机器行为识别模型,得到所述目标数据的机器行为识别结果。
第三方面,本申请实施例还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的机器行为识别方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的机器行为识别方法的步骤。
本申请实施例提供一种机器行为识别方法、装置、设备及计算机可读存储介质,本申请通过获取待识别的目标数据以及包含主成分分析层、梯度下降树模型层、随机森林树模型层和逻辑回归模型层的机器行为识别模型,将目标数据输入至主成分分析层进行处理,得到目标数据的主成分特征,并将主成分特征输入至梯度下降树模型层进行处理,得到目标数据的第一机器行为识别结果,同时将目标数据输入至随机森林树模型层进行处理,得到目标数据的第二机器行为识别结果,最后将第一机器行为识别结果和第二机器行为识别结果输入至逻辑回归模型层进行融合处理,得到目标数据的机器行为识别结果,极大地提高了机器行为的识别准确性,提高数据的安全性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种机器行为识别方法的流程示意图;
图2是本申请实施例中的机器行为识别模型的一层级示意图;
图3是本申请实施例提供的一种机器行为识别方法的流程示意图;
图4为图3中的欺诈识别方法的子步骤流程示意图;
图5是本申请实施例提供的一种机器行为识别装置的示意性框图;
图6是本申请实施例提供的一种计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参阅附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种机器行为识别方法、装置、设备及计算机可读存储介质。其中,该机器行为识别方法可应用于终端设备中,该终端设备可以手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备,该机器行为识别方法还可以应用于服务器,该服务器可以为单台的服务器,也可以为由多台服务器组成的服务器集群。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种机器行为识别方法的流程示意图。如图1所示,该机器行为识别方法包括步骤S101至步骤S105。
步骤S101、获取待识别的目标数据以及机器行为识别模型,其中,所述机器行为识别模型包括主成分分析层、梯度下降树模型层、随机森林树模型层和逻辑回归模型层。
示例性的,获取访问服务器的当前访问请求,并获取当前访问请求的当前访问时刻点,且从当前访问请求中提取IP地址、用户账号和用户权限;基于该IP地址,获取多个历史访问请求以及每个历史访问请求的访问时刻点,得到多个历史访问时刻点,其中,每个历史访问请求的IP地址与访问请求中的IP地址相同;将IP地址、用户账号、用户权限、当前访问时刻点以及每个历史访问时刻点作为一条待识别的目标数据。
其中,该机器行为识别模型存储在终端设备或者服务器中,该机器行为识别模型是对预设随机森林树模型和预设梯度下降树模型进行融合训练确定的,其中,该机器行为识别模型包括主成分分析(Principal Component Analysis,PCA)层、梯度下降树模型(Gradient Boost Decision Tree,GBDT)层、随机森林树(Random Forest,RF)模型层和逻辑回归模型(Logistic Regression,LR)层,如图2所示,PCA层与GBDT模型层串联,RF模型层与PCA层以及GBDT模型层并联,RF模型层与LR模型串联,GBDT模型层与LR模型串联,PCA层用于对目标数据进行降维。
步骤S102、将所述目标数据输入至所述主成分分析层进行处理,得到所述目标数据的主成分特征;
由于梯度下降树模型不适用于高维特征数据,需要先对目标数据进行降维处理,因此将目标数据输入至主成分分析层进行处理,得到目标数据的主成分特征,从而降低目标数据的维数,便于后续输入到梯度下降树模型层进行处理。
步骤S103、将所述主成分特征输入至所述梯度下降树模型层进行处理,得到所述目标数据的第一机器行为识别结果;
将目标数据的主成分特征输入至梯度下降树模型层进行处理,得到目标数据的第一机器行为识别结果,即将目标数据的主成分特征输入至梯度下降树模型层进行处理,得到该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率,并根据该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率输出目标数据的第一机器行为识别结果。
例如,该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率分别为75%、60%和95%,由于目标数据的分类为非机器行为类的概率最高,则目标数据的第一机器行为识别结果为目标数据为非机器行为类,又例如,该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率分别为98%、60%和30%,由于目标数据的分类为不确定行为类的概率的概率最高,则目标数据的第一机器行为识别结果为目标数据为不确定行为类。
步骤S104、将所述目标数据输入至所述随机森林树模型层进行处理,得到所述目标数据的第二机器行为识别结果;
由于梯度下降树模型不适用于高维特征数据,使用PCA对目标数据降维后,目标数据丢失了部分潜在信息,因此将未做降维的目标数据输入至随机森林树模型层进行处理,得到目标数据的第二机器行为识别结果,即将将未做降维的目标数据输入至随机森林树模型层进行处理,得到该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率,并根据该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率输出目标数据的第二机器行为识别结果。
例如,该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率分别为55%、93%和70%,由于目标数据的分类为机器行为类的概率最高,则目标数据的第二机器行为识别结果为目标数据为机器行为类,又例如,该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率分别为98%、60%和30%,由于目标数据的分类为不确定行为类的概率的概率最高,则目标数据的第二机器行为识别结果为目标数据为不确定行为类。
步骤S105、将所述第一机器行为识别结果和第二机器行为识别结果输入至所述逻辑回归模型层进行融合处理,得到所述目标数据的机器行为识别结果。
在得到目标数据的第一机器行为识别结果和第二机器行为识别结果后,将第一机器行为识别结果和第二机器行为识别结果输入至逻辑回归模型层进行融合处理,即当确定第一机器行为识别结果和第二机器行为识别结果不同时,确定目标数据的机器行为识别结果为目标数据的分类为不确定行为类;而当确定第一机器行为识别结果为目标数据的分类为机器行为类,且第二机器行为识别结果为目标数据的分类为机器行为类时,确定目标数据的机器行为识别结果为目标数据的分类为机器行为类;而当确定第一机器行为识别结果为目标数据的分类为非机器行为类,且第二机器行为识别结果为目标数据的分类为非机器行为类时,确定目标数据的机器行为识别结果为目标数据的分类为非机器行为类。
在一实施例中,将机器行为识别结果上传至区块链进行存储。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。通过将机器行为识别结果上传至区块链进行存储,可以保证机器行为识别结果的安全性。
上述实施例提供的机器行为识别方法,通过获取待识别的目标数据以及包含主成分分析层、梯度下降树模型层、随机森林树模型层和逻辑回归模型层的机器行为识别模型,将目标数据输入至主成分分析层进行处理,得到目标数据的主成分特征,并将主成分特征输入至梯度下降树模型层进行处理,得到目标数据的第一机器行为识别结果,同时将目标数据输入至随机森林树模型层进行处理,得到目标数据的第二机器行为识别结果,最后将第一机器行为识别结果和第二机器行为识别结果输入至逻辑回归模型层进行融合处理,得到目标数据的机器行为识别结果,极大地提高了机器行为的识别准确性,提高数据的安全性。
请参阅图3,图3是本申请实施例提供的另一种机器行为识别方法的流程示意图。
如图3所示,该机器行为识别方法包括步骤S201至S208。
步骤S201、获取机器行为数据集、非机器行为数据集和不确定行为数据集。
其中,机器行为数据集仅包含机器行为数据,非机器行为数据集仅包含非机器行为数据,不确定行为数据集仅包括无法确定是机器行为,还是非机器行为的不确定行为数据。
在一实施例中,获取机器行为数据集、非机器行为数据集和不确定行为数据集的方式可以为:获取服务器的日志数据集、机器行为识别规则和非机器行为识别规则;根据该机器行为识别规则从日志数据集中提取出机器行为数据集;根据该非机器行为识别规则从日志数据集中提取出非机器行为数据集;从该日志数据集中剔除该机器行为数据集和非机器行为数据集,得到不确定行为数据集。其中,机器行为识别规则是根据机器行为的特征信息确定的,非机器行为识别规则是根据非机器行为的特征信息确定的,机器行为的特征信息和非机器行为的特征信息是根据安全专家的经验和知识总结确定的,机器行为的特征信息包括但不限于规律访问、访问蜜罐链接和异地登录等。通过机器行为识别规则和非机器行为识别规则,可以从大量的日志数据中提取机器行为数据、非机器行为数据和不确定行为数据,便于后续准确地确定训练样本。
步骤S202、根据所述机器行为数据集、非机器行为数据集和不确定行为数据集,确定目标样本数据集。
其中,目标样本数据集包括机器行为数据、非机器行为数据和不确定行为数据,且机器行为数据、非机器行为数据和不确定行为数据的数量相同。
在一实施例中,确定目标样本数据集的方式可以为:对机器行为数据集、非机器行为数据集和不确定行为数据集中的样本进行聚类,得到多个类别的样本数据集;确定多个类别的样本数据集的机器行为数据、非机器行为数据和不确定行为数据的分布信息;当确定该分布信息满足预设分布条件时,根据多个类别的样本数据集确定目标样本数据集。通过对机器行为数据集、非机器行为数据集和不确定行为数据集中的样本进行聚类,能够进一步地从不确定行为数据集中标记出机器行为数据和非机器行为数据。
在一实施例中,可以采用聚类算法对机器行为数据集、非机器行为数据集和不确定行为数据集中的样本进行聚类,得到多个类别的样本数据集;当确定该分布信息不满足预设分布条件时,更新聚类算法的参数,并基于更新后的聚类算法对机器行为数据集、非机器行为数据集和不确定行为数据集中的样本进行聚类,得到新的多个类别的样本数据集。其中,聚类算法的参数包括聚类的类别个数和参与聚类的数据量,聚类算法包括但不限于K-Means聚类算法、Mini Batch KMeans聚类算法、均值漂移聚类算法和基于密度的聚类算法(DBSCAN)。通过调整聚类算法的参数,使得聚类得到的多个类别的样本数据集的机器行为数据、非机器行为数据和不确定行为数据的分布信息满足预设分布条件,能够提高样本数据集的准确性。
其中,多个类别样本数据集包括仅包含不确定行为数据的第一样本数据集、包含机器行为数据和不确定行为数据,但不包含非机器行为数据的第二样本数据集、包含非机器行为数据和不确定行为数据,但不包含机器行为数据的第三样本数据集和包含机器行为数据、非机器行为数据和不确定行为数据的第四样本数据集,预设分布条件为第一样本数据集内的样本个数占总样本个数的第一比例处于第一预设比例范围、第二样本数据集内的样本个数占总样本个数的第二比例处于第二预设比例范围、第三样本数据集内的样本个数占总样本个数的第三比例处于第三预设比例范围、第四样本数据集内的样本个数占总样本个数的第四比例处于第四预设比例范围,第一比例、第二比例、第三比例和第四比例之和为1,第一预设比例范围、第二预设比例范围、第三预设比例范围和第四预设比例范围可基于实际情况进行设置,本申请对此不做具体限定。
在一实施例中,当确定该分布信息满足预设分布条件时,根据多个类别的样本数据集确定目标样本数据集的方式可以为:将第一样本数据集和第四样本数据集内的样本数据标记为不确定行为类的样本数据,得到第一候选样本数据集;将第二样本数据集内的样本数据标记为机器行为类的样本数据,得到第二候选样本数据集;将第三样本数据集内的样本数据标记为非机器行为类的样本数据,得到第三候选样本数据集;分别从第一候选样本数据集、第二候选样本数据集和第三候选样本数据集内提取预设数量的样本数据,得到目标样本数据集。其中,预设数量可基于实际情况进行设置,本申请对此不做具体限定。
步骤S203、根据所述目标样本数据集,对预设随机森林树模型和预设梯度下降树模型进行融合训练,得到所述机器行为识别模型。
其中,预设随机森林树模型和预设梯度下降树模型的模型参数可基于实际情况进行设置,本申请对此不做具体限定。
在一实施例中,如图4所示,步骤S203包括子步骤S2031至S2035。
S2031、将所述目标样本数据集拆分为验证样本数据集和训练样本数据集。
获取验证样本数据集占目标样本数据集的比例系数,并按照该比例系数将目标样本数据集拆分为验证样本数据集和训练样本数据集。其中,验证样本数据集占目标样本数据集的比例系数可基于实际情况进行设置,本申请对此不做具体限定,例如,该比例系数为0.2。示例性的,目标样本数据集包括1000条样本数据,验证样本数据集占目标样本数据集的比例系数为0.2,则将目标样本数据集拆分为包括200条样本数据的验证样本数据集和包括800条样本数据的训练样本数据集。
S2032、根据所述训练样本数据集分别对预设梯度下降树模型和预设随机森林树模型进行训练,得到目标梯度下降树模型和目标随机森林树模型。
具体地,每次从训练样本数据集选取一个训练样本数据,并基于主成分分析算法,对选取的训练样本数据进行降维处理,得到选取的训练样本数据的主成分特征,且基于该主成分特征对预设梯度下降树模型进行训练,直到预设梯度下降树模型收敛或者训练次数达到设定次数;同时每次从训练样本数据集选取一个训练样本数据,并基于选取的训练样本数据对预设随机森林树模型进行训练,直到预设随机森林树模型收敛或者训练次数达到设定次数。其中,设定次数可基于实际情况进行设置,本申请对此不做具体限定。
S2033、根据所述验证样本数据集确定所述目标梯度下降树模型的第一准确率和第一错误样本数据集以及所述目标随机森林树模型的第二准确率和第二错误样本数据集。
具体地,每次从验证样本数据集中选取一个验证样本数据,并基于主成分分析算法,对选取的验证样本数据进行降维处理,得到选取的验证样本数据的主成分特征,且将该主成分特征输入至目标梯度下降树模型进行处理,得到选取的验证样本数据的机器识别结果的第一预测类别,重复上述过程,得到验证样本数据集中的每个验证样本数据的机器识别结果的第一预测类别;将每个验证样本数据的机器识别结果的第一预测类别与每个验证样本数据的机器识别结果的标记类别进行比较;统计第一预测类别与标记类别相同的验证样本数据的个数,得到第一个数,并统计验证样本数据集内的总样本个数,且将第一个数占总样本个数的比例作为目标梯度下降树模型的第一准确率;获取第一预测类别与标记类别不同的验证样本数据,并汇集第一预测类别与标记类别不同的验证样本数据,得到目标梯度下降树模型的第一错误样本数据集。
类似的,每次从验证样本数据集中选取一个验证样本数据,并将选取的验证样本数据输入至目标随机森林树模型进行处理,得到选取的验证样本数据的机器识别结果的第二预测类别,重复上述过程,得到验证样本数据集中的每个验证样本数据的机器识别结果的第二预测类别;将每个验证样本数据的机器识别结果的第二预测类别与每个验证样本数据的机器识别结果的标记类别进行比较;统计第二预测类别与标记类别相同的验证样本数据的个数,得到第二个数,并统计验证样本数据集内的总样本个数,且将第二个数占总样本个数的比例作为目标随机森林树模型的第二准确率;获取第二预测类别与标记类别不同的验证样本数据,并汇集第二预测类别与标记类别不同的验证样本数据,得到目标随机森林树模型的第二错误样本数据集。
S2034、确定所述第一错误样本数据集与所述第二错误样本数据集之间的相似度。
具体地,记目标梯度下降树模型的错误样本数据集为第一错误样本数据集,目标随机森林树模型的错误样本数据集为第二错误样本数据集,获取第一错误样本数据集与第二错误样本数据集的交集,并确定交集包含的错误样本数据的个数,记为目标个数;确定第一错误样本数据集包含的错误样本数据的个数,记为第一总个数,确定第二错误样本数据集包含的错误样本数据的个数,记为第二总个数;确定该目标个数占第一总个数的比例,得到第一相似度,确定该目标个数占第二总个数的比例,得到第二相似度;确定第一相似度与第二相似度的平均值,并将第一相似度与第二相似度的平均值作为第一错误样本数据集与第二错误样本数据集之间的相似度。
S2035、当确定所述相似度小于或等于预设相似度,且所述第一准确率和第二准确率均大于或等于预设准确率时,根据所述训练样本数据集对所述目标随机森林树模型和目标梯度下降树模型进行融合训练,得到机器行为识别模型。
当确定该相似度小于或等于预设相似度,且该目标随机森林树模型的准确率以及目标梯度下降树模型的准确率均大于或等于预设准确率时,根据该训练样本数据集对目标随机森林树模型和目标梯度下降树模型进行融合训练,得到机器行为识别模型。其中,预设相似度和预设准确率可基于实际情况进行设置,本申请对此不做具体限定。
在一实施例中,当确定该相似度大于预设相似度、目标随机森林树模型的准确率小于预设准确率或目标梯度下降树模型的准确率小于预设准确率时,调整预设随机森林树模型和预设梯度下降树模型的模型参数,并根据训练样本数据集分别对调整模型参数的梯度下降树模型和随机森林树模型进行训练,得到目标梯度下降树模型和目标随机森林树模型,然后再执行步骤S2033和S2034。
在一实施例中,根据该训练样本数据集对目标随机森林树模型和目标梯度下降树模型进行融合训练,得到机器行为识别模型的方式可以为:每次从该训练样本数据集中选择一个训练样本数据;将选择的训练样本数据输入目标随机森林树模型和目标梯度下降树模型进行处理,得到第一机器行为识别结果和第二机器行为识别结果;根据第一机器行为识别结果和第二机器行为识别结果,对预设逻辑回归模型进行训练,直至训练后的逻辑回归模型满足预设约束条件,得到机器行为识别模型。
其中预设约束条件为:
Figure BDA0002656339590000111
其中,x1为第一机器行为识别结果,x2为第二机器行为识别结果,h(xi)为LR模型输出的机器行为识别结果,w0为偏差,w1为GBDT模型的权重系数,w2为随机森林树模型的权重系数,yi为训练数据的标记的机器行为识别结果,wj为w0、w1和w2中的一个,γ为系数,可选为0.05,
Figure BDA0002656339590000112
为所有样本的输出的机器行为识别结果和标记的机器行为识别结果的差值平方求和,保证LR模型输出的分类结果和标记结果尽可能的一致,而在输出的机器行为识别结果和标记的机器行为识别结果一致的情况下,w1和w2尽可能的小,减少运算压力或者过拟合。
步骤S204、获取待识别的目标数据以及机器行为识别模型,其中,所述机器行为识别模型包括主成分分析层、梯度下降树模型层、随机森林树模型层和逻辑回归模型层。
示例性的,获取访问服务器的当前访问请求,并获取当前访问请求的当前访问时刻点,且从当前访问请求中提取IP地址、用户账号和用户权限;基于该IP地址,获取多个历史访问请求以及每个历史访问请求的访问时刻点,得到多个历史访问时刻点,其中,每个历史访问请求的IP地址与访问请求中的IP地址相同;将IP地址、用户账号、用户权限、当前访问时刻点以及每个历史访问时刻点作为一条待识别的目标数据。
步骤S205、将所述目标数据输入至所述主成分分析层进行处理,得到所述目标数据的主成分特征。
由于梯度下降树模型不适用于高维特征数据,需要先对目标数据进行降维处理,因此将目标数据输入至主成分分析层进行处理,得到目标数据的主成分特征,从而降低目标数据的维数,便于后续输入到梯度下降树模型层进行处理。
步骤S206、将所述主成分特征输入至所述梯度下降树模型层进行处理,得到所述目标数据的第一机器行为识别结果。
将目标数据的主成分特征输入至梯度下降树模型层进行处理,得到目标数据的第一机器行为识别结果,即将目标数据的主成分特征输入至梯度下降树模型层进行处理,得到该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率,并根据该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率输出目标数据的第一机器行为识别结果。
步骤S207、将所述目标数据输入至所述随机森林树模型层进行处理,得到所述目标数据的第二机器行为识别结果。
由于梯度下降树模型不适用于高维特征数据,使用PCA对目标数据降维后,目标数据丢失了部分潜在信息,因此将未做降维的目标数据输入至随机森林树模型层进行处理,得到目标数据的第二机器行为识别结果,即将将未做降维的目标数据输入至随机森林树模型层进行处理,得到该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率,并根据该目标数据的分类为不确定行为类的概率、目标数据的分类为机器行为类的概率和目标数据的分类为非机器行为类的概率输出目标数据的第二机器行为识别结果。
步骤S208、将所述第一机器行为识别结果和第二机器行为识别结果输入至所述逻辑回归模型层进行融合处理,得到所述目标数据的机器行为识别结果
在得到目标数据的第一机器行为识别结果和第二机器行为识别结果后,将第一机器行为识别结果和第二机器行为识别结果输入至逻辑回归模型层进行融合处理,即当确定第一机器行为识别结果和第二机器行为识别结果不同时,确定目标数据的机器行为识别结果为目标数据的分类为不确定行为类;而当确定第一机器行为识别结果为目标数据的分类为机器行为类,且第二机器行为识别结果为目标数据的分类为机器行为类时,确定目标数据的机器行为识别结果为目标数据的分类为机器行为类;而当确定第一机器行为识别结果为目标数据的分类为非机器行为类,且第二机器行为识别结果为目标数据的分类为非机器行为类时,确定目标数据的机器行为识别结果为目标数据的分类为非机器行为类。
上述实施例提供的机器行为识别方法,通过获取机器行为数据集、非机器行为数据集和不确定行为数据集,并根据该机器行为数据集、非机器行为数据集和不确定行为数据集,确定目标样本数据集,然后根据目标样本数据集,对预设随机森林树模型和预设梯度下降树模型进行融合训练,得到机器行为识别模型,将目标数据输入至主成分分析层进行处理,得到目标数据的主成分特征,并将主成分特征输入至梯度下降树模型层进行处理,得到目标数据的第一机器行为识别结果,同时将目标数据输入至随机森林树模型层进行处理,得到目标数据的第二机器行为识别结果,最后将第一机器行为识别结果和第二机器行为识别结果输入至逻辑回归模型层进行融合处理,得到该目标数据的机器行为识别结果,极大的提高了机器行为识别模型对机器行为识别的准确性。
请参阅图5,图5是本申请实施例提供的一种机器行为识别装置的示意性框图。
如图5所示,该机器行为识别装置300,包括:获取模块310、第一机器行为识别模块320、第二机器行为识别模块330和融合模块340,其中:
所述获取模块310,用于获取待识别的目标数据以及机器行为识别模型,其中,所述机器行为识别模型包括主成分分析层、梯度下降树模型层、随机森林树模型层和逻辑回归模型层;
所述第一机器行为识别模块320,用于将所述目标数据输入至所述主成分分析层进行处理,得到所述目标数据的主成分特征;以及将所述主成分特征输入至所述梯度下降树模型层进行处理,得到所述目标数据的第一机器行为识别结果;
所述第二机器行为识别模块330,用于将所述目标数据输入至所述随机森林树模型层进行处理,得到所述目标数据的第二机器行为识别结果;
所述融合模块340,用于将所述第一机器行为识别结果和第二机器行为识别结果输入至所述逻辑回归模型层进行融合处理,得到所述目标数据的机器行为识别结果。
在一实施例中,所述机器行为识别装置300还包括:
所述获取模块310,还用于获取机器行为数据集、非机器行为数据集和不确定行为数据集;
确定模块,用于根据所述机器行为数据集、非机器行为数据集和不确定行为数据集,确定目标样本数据集;
模型训练模块,用于根据所述目标样本数据集,对预设随机森林树模型和预设梯度下降树模型进行融合训练,得到所述机器行为识别模型。
在一实施例中,所述获取模块310还用于:
获取服务器的日志数据集、机器行为识别规则和非机器行为识别规则;
根据所述机器行为识别规则从所述日志数据集中提取出机器行为数据集;
根据所述非机器行为识别规则从所述日志数据集中提取出非机器行为数据集;
从所述日志数据集中剔除所述机器行为数据集和非机器行为数据集,得到不确定行为数据集。
在一实施例中,所述确定模块还用于:
对所述机器行为数据集、非机器行为数据集和不确定行为数据集中的样本进行聚类,得到多个类别的样本数据集;
确定所述多个类别的样本数据集的机器行为数据、非机器行为数据和不确定行为数据的分布信息;
当确定所述分布信息满足预设分布条件时,根据所述多个类别的样本数据集确定目标样本数据集。
在一实施例中,所述多个类别的样本数据集包括第一样本数据集、第二样本数据集、第三样本数据集和第四样本数据集,所述第一样本数据集仅包含不确定行为数据,所述第二样本数据集包含机器行为数据和不确定行为数据,但不包含非机器行为数据,所述第三样本数据集包含非机器行为数据和不确定行为数据,但不包含机器行为数据,所述第四样本数据集包含机器行为数据、非机器行为数据和不确定行为数据,所述确定模块还用于:
将所述第一样本数据集和所述第四样本数据集内的样本数据标记为不确定行为类的样本数据,得到第一候选样本数据集;
将所述第二样本数据集内的样本数据标记为机器行为类的样本数据,得到第二候选样本数据集;
将所述第三样本数据集内的样本数据标记为非机器行为类的样本数据,得到第三候选样本数据集;
分别从所述第一候选样本数据集、第二候选样本数据集和第三候选样本数据集内提取预设数量的样本数据,得到所述目标样本数据集。
在一实施例中,所述模型训练模块还用于:
将所述目标样本数据集拆分为验证样本数据集和训练样本数据集;
根据所述训练样本数据集分别对预设梯度下降树模型和预设随机森林树模型进行训练,得到目标梯度下降树模型和目标随机森林树模型;
根据所述验证样本数据集确定所述目标梯度下降树模型的第一准确率和第一错误样本数据集以及所述目标随机森林树模型的第二准确率和第二错误样本数据集;
确定所述第一错误样本数据集与所述第二错误样本数据集之间的相似度;
当确定所述相似度小于或等于预设相似度,且所述第一准确率和第二准确率大于或等于预设准确率时,根据所述训练样本数据集对所述目标随机森林树模型和目标梯度下降树模型进行融合训练,得到机器行为识别模型。
在一实施例中,所述模型训练模块还用于:
每次从所述训练样本数据集中选择一个训练样本数据;
将选择的训练样本数据输入所述目标随机森林树模型和目标梯度下降树模型进行处理,得到第一机器行为识别结果和第二机器行为识别结果;
根据所述第一机器行为识别结果和第二机器行为识别结果,对预设逻辑回归模型进行训练,直至训练后的逻辑回归模型满足预设约束条件,得到机器行为识别模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述机器行为识别方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端。
如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种数据泄露提醒方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种机器行为识别方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待识别的目标数据以及机器行为识别模型,其中,所述机器行为识别模型包括主成分分析层、梯度下降树模型层、随机森林树模型层和逻辑回归模型层;
将所述目标数据输入至所述主成分分析层进行处理,得到所述目标数据的主成分特征;
将所述主成分特征输入至所述梯度下降树模型层进行处理,得到所述目标数据的第一机器行为识别结果;
将所述目标数据输入至所述随机森林树模型层进行处理,得到所述目标数据的第二机器行为识别结果;
将所述第一机器行为识别结果和第二机器行为识别结果输入至所述逻辑回归模型层进行融合处理,得到所述目标数据的机器行为识别结果。
在一实施例中,所述获取待识别的目标数据以及机器行为识别模型之前,还包括:
获取机器行为数据集、非机器行为数据集和不确定行为数据集;
根据所述机器行为数据集、非机器行为数据集和不确定行为数据集,确定目标样本数据集;
根据所述目标样本数据集,对预设随机森林树模型和预设梯度下降树模型进行融合训练,得到所述机器行为识别模型。
在一实施例中,所述获取机器行为数据集、非机器行为数据集和不确定行为数据集,包括:
获取服务器的日志数据集、机器行为识别规则和非机器行为识别规则;
根据所述机器行为识别规则从所述日志数据集中提取出机器行为数据集;
根据所述非机器行为识别规则从所述日志数据集中提取出非机器行为数据集;
从所述日志数据集中剔除所述机器行为数据集和非机器行为数据集,得到不确定行为数据集。
在一实施例中,所述根据所述机器行为数据集、非机器行为数据集和不确定行为数据集,确定目标样本数据集,包括:
对所述机器行为数据集、非机器行为数据集和不确定行为数据集中的样本进行聚类,得到多个类别的样本数据集;
确定所述多个类别的样本数据集的机器行为数据、非机器行为数据和不确定行为数据的分布信息;
当确定所述分布信息满足预设分布条件时,根据所述多个类别的样本数据集确定目标样本数据集。
在一实施例中,所述多个类别的样本数据集包括第一样本数据集、第二样本数据集、第三样本数据集和第四样本数据集,所述第一样本数据集仅包含不确定行为数据,所述第二样本数据集包含机器行为数据和不确定行为数据,但不包含非机器行为数据,所述第三样本数据集包含非机器行为数据和不确定行为数据,但不包含机器行为数据,所述第四样本数据集包含机器行为数据、非机器行为数据和不确定行为数据,所述根据所述多个类别的样本数据集确定目标样本数据集,包括:
将所述第一样本数据集和所述第四样本数据集内的样本数据标记为不确定行为类的样本数据,得到第一候选样本数据集;
将所述第二样本数据集内的样本数据标记为机器行为类的样本数据,得到第二候选样本数据集;
将所述第三样本数据集内的样本数据标记为非机器行为类的样本数据,得到第三候选样本数据集;
分别从所述第一候选样本数据集、第二候选样本数据集和第三候选样本数据集内提取预设数量的样本数据,得到所述目标样本数据集。
在一实施例中,所述根据所述目标样本数据集,对预设随机森林树模型和预设梯度下降树模型进行融合训练,得到机器行为识别模型,包括:
将所述目标样本数据集拆分为验证样本数据集和训练样本数据集;
根据所述训练样本数据集分别对预设梯度下降树模型和预设随机森林树模型进行训练,得到目标梯度下降树模型和目标随机森林树模型;
根据所述验证样本数据集确定所述目标梯度下降树模型的第一准确率和第一错误样本数据集以及所述目标随机森林树模型的第二准确率和第二错误样本数据集;
确定所述第一错误样本数据集与所述第二错误样本数据集之间的相似度;
当确定所述相似度小于或等于预设相似度,且所述第一准确率和第二准确率均大于或等于预设准确率时,根据所述训练样本数据集对所述目标随机森林树模型和目标梯度下降树模型进行融合训练,得到机器行为识别模型。
在一实施例中,所述根据所述训练样本数据集对所述目标随机森林树模型和目标梯度下降树模型进行融合训练,得到机器行为识别模型,包括:
每次从所述训练样本数据集中选择一个训练样本数据;
将选择的训练样本数据输入所述目标随机森林树模型和目标梯度下降树模型进行处理,得到第一机器行为识别结果和第二机器行为识别结果;
根据所述第一机器行为识别结果和第二机器行为识别结果,对预设逻辑回归模型进行训练,直至训练后的逻辑回归模型满足预设约束条件,得到机器行为识别模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的计算机设备的具体工作过程,可以参考前述机器行为识别方法实施例中的对应过程,在此不再赘述。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参阅本申请机器行为识别方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅是本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种机器行为识别方法,其特征在于,包括:
获取待识别的目标数据以及机器行为识别模型,其中,所述机器行为识别模型包括主成分分析层、梯度下降树模型层、随机森林树模型层和逻辑回归模型层;
将所述目标数据输入至所述主成分分析层进行处理,得到所述目标数据的主成分特征;
将所述主成分特征输入至所述梯度下降树模型层进行处理,得到所述目标数据的第一机器行为识别结果;
将所述目标数据输入至所述随机森林树模型层进行处理,得到所述目标数据的第二机器行为识别结果;
将所述第一机器行为识别结果和第二机器行为识别结果输入至所述逻辑回归模型层进行融合处理,得到所述目标数据的机器行为识别结果。
2.根据权利要求1所述的机器行为识别方法,其特征在于,所述获取待识别的目标数据以及机器行为识别模型之前,还包括:
获取机器行为数据集、非机器行为数据集和不确定行为数据集;
根据所述机器行为数据集、非机器行为数据集和不确定行为数据集,确定目标样本数据集;
根据所述目标样本数据集,对预设随机森林树模型和预设梯度下降树模型进行融合训练,得到所述机器行为识别模型。
3.根据权利要求2所述的机器行为识别方法,其特征在于,所述获取机器行为数据集、非机器行为数据集和不确定行为数据集,包括:
获取服务器的日志数据集、机器行为识别规则和非机器行为识别规则;
根据所述机器行为识别规则从所述日志数据集中提取出机器行为数据集;
根据所述非机器行为识别规则从所述日志数据集中提取出非机器行为数据集;
从所述日志数据集中剔除所述机器行为数据集和非机器行为数据集,得到不确定行为数据集。
4.根据权利要求2所述的机器行为识别方法,其特征在于,所述根据所述机器行为数据集、非机器行为数据集和不确定行为数据集,确定目标样本数据集,包括:
对所述机器行为数据集、非机器行为数据集和不确定行为数据集中的样本进行聚类,得到多个类别的样本数据集;
确定所述多个类别的样本数据集的机器行为数据、非机器行为数据和不确定行为数据的分布信息;
当确定所述分布信息满足预设分布条件时,根据所述多个类别的样本数据集确定目标样本数据集。
5.根据权利要求4所述的机器行为识别方法,其特征在于,所述多个类别的样本数据集包括第一样本数据集、第二样本数据集、第三样本数据集和第四样本数据集,所述第一样本数据集仅包含不确定行为数据,所述第二样本数据集包含机器行为数据和不确定行为数据,但不包含非机器行为数据,所述第三样本数据集包含非机器行为数据和不确定行为数据,但不包含机器行为数据,所述第四样本数据集包含机器行为数据、非机器行为数据和不确定行为数据,所述根据所述多个类别的样本数据集确定目标样本数据集,包括:
将所述第一样本数据集和所述第四样本数据集内的样本数据标记为不确定行为类的样本数据,得到第一候选样本数据集;
将所述第二样本数据集内的样本数据标记为机器行为类的样本数据,得到第二候选样本数据集;
将所述第三样本数据集内的样本数据标记为非机器行为类的样本数据,得到第三候选样本数据集;
分别从所述第一候选样本数据集、第二候选样本数据集和第三候选样本数据集内提取预设数量的样本数据,得到所述目标样本数据集。
6.根据权利要求2所述的机器行为识别方法,其特征在于,所述根据所述目标样本数据集,对预设随机森林树模型和预设梯度下降树模型进行融合训练,得到机器行为识别模型,包括:
将所述目标样本数据集拆分为验证样本数据集和训练样本数据集;
根据所述训练样本数据集分别对预设梯度下降树模型和预设随机森林树模型进行训练,得到目标梯度下降树模型和目标随机森林树模型;
根据所述验证样本数据集确定所述目标梯度下降树模型的第一准确率和第一错误样本数据集以及所述目标随机森林树模型的第二准确率和第二错误样本数据集;
确定所述第一错误样本数据集与所述第二错误样本数据集之间的相似度;
当确定所述相似度小于或等于预设相似度,且所述第一准确率和第二准确率均大于或等于预设准确率时,根据所述训练样本数据集对所述目标随机森林树模型和目标梯度下降树模型进行融合训练,得到机器行为识别模型。
7.根据权利要求6所述的机器行为识别方法,其特征在于,所述根据所述训练样本数据集对所述目标随机森林树模型和目标梯度下降树模型进行融合训练,得到机器行为识别模型,包括:
每次从所述训练样本数据集中选择一个训练样本数据;
将选择的训练样本数据输入所述目标随机森林树模型和目标梯度下降树模型进行处理,得到第一机器行为识别结果和第二机器行为识别结果;
根据所述第一机器行为识别结果和第二机器行为识别结果,对预设逻辑回归模型进行训练,直至训练后的逻辑回归模型满足预设约束条件,得到机器行为识别模型。
8.一种机器行为识别装置,其特征在于,所述机器行为识别装置包括:
获取模块,用于获取待识别的目标数据以及机器行为识别模型,其中,所述机器行为识别模型包括主成分分析层、梯度下降树模型层、随机森林树模型层和逻辑回归模型层;
第一机器行为识别模块,用于将所述目标数据输入至所述主成分分析层进行处理,得到所述目标数据的主成分特征;以及将所述主成分特征输入至所述梯度下降树模型层进行处理,得到所述目标数据的第一机器行为识别结果;
第二机器行为识别模块,用于将所述目标数据输入至所述随机森林树模型层进行处理,得到所述目标数据的第二机器行为识别结果;
融合模块,用于将所述第一机器行为识别结果和第二机器行为识别结果输入至所述逻辑回归模型层进行融合处理,得到所述目标数据的机器行为识别结果。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的机器行为识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的机器行为识别方法的步骤。
CN202010888899.0A 2020-08-28 2020-08-28 机器行为识别方法、装置、设备及计算机可读存储介质 Pending CN112052891A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010888899.0A CN112052891A (zh) 2020-08-28 2020-08-28 机器行为识别方法、装置、设备及计算机可读存储介质
PCT/CN2020/136324 WO2021189975A1 (zh) 2020-08-28 2020-12-15 机器行为识别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010888899.0A CN112052891A (zh) 2020-08-28 2020-08-28 机器行为识别方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112052891A true CN112052891A (zh) 2020-12-08

Family

ID=73607582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010888899.0A Pending CN112052891A (zh) 2020-08-28 2020-08-28 机器行为识别方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN112052891A (zh)
WO (1) WO2021189975A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021189975A1 (zh) * 2020-08-28 2021-09-30 平安科技(深圳)有限公司 机器行为识别方法、装置、设备及计算机可读存储介质
CN113608946A (zh) * 2021-08-10 2021-11-05 国家计算机网络与信息安全管理中心 基于特征工程和表示学习的机器行为识别方法
CN115168916A (zh) * 2022-07-26 2022-10-11 北京大数据先进技术研究院 一种面向移动终端应用的数字对象可信存证方法和系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114389834B (zh) * 2021-11-26 2024-04-30 浪潮通信信息系统有限公司 一种api网关异常调用识别的方法、装置、设备及产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330445A (zh) * 2017-05-31 2017-11-07 北京京东尚科信息技术有限公司 用户属性的预测方法和装置
CN109598331A (zh) * 2018-12-04 2019-04-09 北京芯盾时代科技有限公司 一种欺诈识别模型训练方法、欺诈识别方法及装置
US20200126126A1 (en) * 2018-10-19 2020-04-23 Cerebri AI Inc. Customer journey management engine
CN111401440A (zh) * 2020-03-13 2020-07-10 重庆第二师范学院 目标分类识别方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144241A1 (en) * 2016-11-22 2018-05-24 Mitsubishi Electric Research Laboratories, Inc. Active Learning Method for Training Artificial Neural Networks
CN110517071A (zh) * 2019-08-15 2019-11-29 中国平安财产保险股份有限公司 基于机器模型的信息预测方法、装置、设备及存储介质
CN111259985B (zh) * 2020-02-19 2023-06-30 腾讯云计算(长沙)有限责任公司 基于业务安全的分类模型训练方法、装置和存储介质
CN112052891A (zh) * 2020-08-28 2020-12-08 平安科技(深圳)有限公司 机器行为识别方法、装置、设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330445A (zh) * 2017-05-31 2017-11-07 北京京东尚科信息技术有限公司 用户属性的预测方法和装置
US20200126126A1 (en) * 2018-10-19 2020-04-23 Cerebri AI Inc. Customer journey management engine
CN109598331A (zh) * 2018-12-04 2019-04-09 北京芯盾时代科技有限公司 一种欺诈识别模型训练方法、欺诈识别方法及装置
CN111401440A (zh) * 2020-03-13 2020-07-10 重庆第二师范学院 目标分类识别方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021189975A1 (zh) * 2020-08-28 2021-09-30 平安科技(深圳)有限公司 机器行为识别方法、装置、设备及计算机可读存储介质
CN113608946A (zh) * 2021-08-10 2021-11-05 国家计算机网络与信息安全管理中心 基于特征工程和表示学习的机器行为识别方法
CN113608946B (zh) * 2021-08-10 2023-09-12 国家计算机网络与信息安全管理中心 基于特征工程和表示学习的机器行为识别方法
CN115168916A (zh) * 2022-07-26 2022-10-11 北京大数据先进技术研究院 一种面向移动终端应用的数字对象可信存证方法和系统
CN115168916B (zh) * 2022-07-26 2023-01-13 北京大数据先进技术研究院 一种面向移动终端应用的数字对象可信存证方法和系统

Also Published As

Publication number Publication date
WO2021189975A1 (zh) 2021-09-30

Similar Documents

Publication Publication Date Title
CN112052891A (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
WO2023065632A1 (zh) 数据脱敏方法、数据脱敏装置、设备及存储介质
CN113657993B (zh) 信用风险识别方法、装置、设备及存储介质
CN112529429B (zh) 客户信息校验方法、装置、计算机设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
US20200090058A1 (en) Model variable candidate generation device and method
CN113139876B (zh) 风险模型训练方法、装置、计算机设备及可读存储介质
CN113554175B (zh) 一种知识图谱构建方法、装置、可读存储介质及终端设备
US12072961B2 (en) Systems and methods for password spraying identification and prevention using hash signature segmentation and behavior clustering analysis
CN113569910A (zh) 账户类型识别方法、装置、计算机设备及存储介质
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN110597977B (zh) 数据处理方法、装置、计算机设备和存储介质
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质
CN116166999A (zh) 异常交易数据识别方法、装置、计算机设备及存储介质
CN116029760A (zh) 消息推送方法、装置、计算机设备和存储介质
CN115422000A (zh) 异常日志处理方法及装置
CN112328779B (zh) 训练样本构建方法、装置、终端设备及存储介质
CN115099875A (zh) 基于决策树模型的数据分类方法及相关设备
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN114881761A (zh) 相似样本的确定方法与授信额度的确定方法
CN114495137A (zh) 票据异常检测模型生成方法与票据异常检测方法
CN113688206A (zh) 基于文本识别的趋势分析方法、装置、设备及介质
CN112712270A (zh) 信息处理方法、装置、设备及存储介质
CN111784069A (zh) 用户偏好预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination