CN113762294B - 一种特征向量维度压缩方法、装置、设备、介质 - Google Patents

一种特征向量维度压缩方法、装置、设备、介质 Download PDF

Info

Publication number
CN113762294B
CN113762294B CN202010495612.8A CN202010495612A CN113762294B CN 113762294 B CN113762294 B CN 113762294B CN 202010495612 A CN202010495612 A CN 202010495612A CN 113762294 B CN113762294 B CN 113762294B
Authority
CN
China
Prior art keywords
sample
dimension
important
training
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010495612.8A
Other languages
English (en)
Other versions
CN113762294A (zh
Inventor
郭开
刘彦南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202010495612.8A priority Critical patent/CN113762294B/zh
Priority to PCT/CN2021/081443 priority patent/WO2021244105A1/zh
Priority to EP21818964.5A priority patent/EP4336405A1/en
Publication of CN113762294A publication Critical patent/CN113762294A/zh
Application granted granted Critical
Publication of CN113762294B publication Critical patent/CN113762294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了一种特征向量维度压缩方法、装置、设备、介质,该方法包括:获取训练样本;利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本;分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度;利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本。这样能够删除掉冗余的特征,提高特征向量处理速度,且在删掉干扰特征之后,利用压缩后特征向量训练分类模型,可以减少分类模型的误报概率,并提升关键特征的重要度,从而提升分类模型对黑样本的敏感度,提升分类模型对恶意文件的检出率。

Description

一种特征向量维度压缩方法、装置、设备、介质
技术领域
本申请涉及信息技术领域,特别涉及一种特征向量维度压缩方法、装置、设备、介质。
背景技术
降维就是一种对高维度特征数据进行预处理的方法,是应用非常广泛的数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。现有的一种使用最广泛的数据降维算法是PCA(Principal Component Analysis),即主成分分析方法,是对主成分进行分析,试图在力保数据信息丢失最少的原则下,对多个变量进行最佳综合简化,即对高维变量空间进行降维处理。另外一种经典的降维方法是LDA(Linear Discriminant Analysis,线性判别分析),LDA是一种监督学习的降维技术,也就是说数据集的每个样本是有类别输出的,这是和PCA的不同之处。PCA是不考虑样本类别输出的无监督降维技术。但是这两种方法都存在一些问题,首先是解释性差,也即传统降维方法降维后特征不具有可解释性;还有就是性能损耗加大,传统降维方案中存在较多的矩阵运算,不属于轻量级方案,会损失大量的性能;此外大多数降维方案只是在优化特征空间,并没有考虑分类模型的特点,因此降维后的效果并不好。
发明内容
有鉴于此,本申请的目的在于提供一种特征向量维度压缩方法、装置、设备、介质,能够删除掉冗余的特征,提高特征向量处理速度,且在删掉干扰特征之后,利用压缩后特征向量训练分类模型,可以减少分类模型的误报概率,并提升关键特征的重要度,从而提升分类模型对黑样本的敏感度,提升分类模型对恶意文件的检出率,且压缩后特征向量的可解释性强,能够节约性能消耗,提高了降维效果。其具体方案如下:
第一方面,本申请公开了一种特征向量维度压缩方法,包括:
获取训练样本;
利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本;
分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度;
利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本。
可选地,所述利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本,包括:
将所述训练样本中的第一重要特征维度上的数据删除,并保留所述第二重要特征维度上的数据,得到维度压缩后训练样本。
可选地,所述确定所述误报样本的第一重要特征维度,包括:
利用预设公式分别确定所述误报样本中各个特征维度的目标重要参数,其中,所述目标重要参数用于表示各个特征维度对所述误报样本整体的重要程度;
利用所述目标重要参数确定所述误报样本的第一重要特征维度。
可选地,所述利用预设公式分别确定所述误报样本中各个特征维度的目标重要参数,包括:
利用第一预设公式确定所述误报样本中各个样本中的各个特征维度的局部重要参数,其中,所述局部重要参数用于表示各个特征维度对当前样本的重要程度,所述第一预设公式为:
fm,i=∑split(i)
其中,fm,i表示第m个样本中的第i个特征维度的局部重要参数,∑split(i)表示第m个样本中的第i个特征维度被用来分离决策树的次数;
利用第二预设公式和所述局部重要参数确定所述误报样本中的各个特征维度的目标重要参数,其中,所述第二预设公式为:
其中,Fi表示所述误报样本中的第i个特征维度的目标重要参数,N表示所述误报样本的数量。
可选地,所述利用所述目标重要参数确定所述误报样本的第一重要特征维度,包括:
将所述误报样本中各个特征维度的目标重要参数与预设重要参数阈值进行比较;
如果当前特征维度的目标重要参数大于或等于预设重要参数阈值,则将当前特征维度确定为第一重要特征维度。
可选地,所述利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本之后,还包括:
利用所述维度压缩后训练样本训练所述分类模型,得到训练后分类模型。
可选地,所述利用所述维度压缩后训练样本训练所述分类模型,得到训练后分类模型之后,还包括:
获取测试样本;
利用所述测试样本对所述训练后分类模型进行评估,直到满足预设条件,得到目标分类模型。
第二方面,本申请公开了一种特征向量维度压缩装置,包括:
样本获取模块,用于获取训练样本;
模型训练模块,用于利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本;
重要特征维度确定模块,用于分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度;
维度压缩模块,用于利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本。
第三方面,本申请公开了一种特征向量维度压缩设备,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现前述公开的特征向量维度压缩方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的特征向量维度压缩方法。
可见,本申请先获取训练样本,接着利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本,然后分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度,再利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本。由此可见,本申请在获取到训练样本之后,利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本。再利分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度,然后利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定压缩后训练样本,这样能够删除掉冗余的特征,提高特征向量处理速度,且在删掉干扰特征之后,利用压缩后特征向量训练分类模型,可以减少分类模型的误报概率,并提升关键特征的重要度,从而提升分类模型对黑样本的敏感度,提升分类模型对恶意文件的检出率,且压缩后特征向量的可解释性强,能够节约性能消耗,提高了降维效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种特征向量维度压缩方法流程图;
图2为本申请公开的一种具体的特征向量维度压缩方法流程图;
图3为本申请公开的一种具体的特征向量维度压缩方法流程图;
图4为本申请公开的一种特征向量维度压缩装置结构示意图;
图5为本申请公开的一种特征向量维度压缩设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1所示,本申请实施例公开了一种特征向量维度压缩方法,该方法包括:
步骤S11:获取训练样本。
在具体的实施过程中,需要先获取训练样本,以便利用获取到的训练样本训练预先构建的分类模型,并根据训练得到的结果确定需要压缩的特征维度。
步骤S12:利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本。
可以理解的是,在获取到所述训练样本之后,还需要利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本。具体的,就是将所述训练样本通过预先构建的分类模型之后,所述分类模型可以将所述样本分为相应的类型,根据分类结果可以确定出检测样本和误报样本。例如,所述样本为PE文件(Portable Executable,可移植的可执行的文件),预先构建的分类模型可以将所述PE模型分为正常PE文件和病毒PE文件,则将分为正常PE文件中确实为正常PE文件的和分为病毒PE文件中确实为病毒PE文件的确定为检出样本,将分为正常PE文件中实际不为正常PE文件的和分为病毒PE文件中实际不为病毒PE文件的确定为误报样本。其中,所述PE文件是微软操作系统上的可执行文件,比如常见的EXE、DLL、OCX、SYS、COM都是PE文件。在实际应用过程中,所述训练样本需要先用特征向量进行表示,再将用特征向量表示的训练样本输入到预先构建的分类模型中。特征向量是原始特征对应的特征表达,比如字符串apple,orange使用one-hot编码后对应的特征向量分别为[1,0]和[0,1]。其中,One-Hot编码又称为一位有效编码,主要是采用N位状态寄存器来对N个字符串进行编码,每个字符串都有独立的寄存器位,并且在任意时候只有一位有效,One-Hot编码是分类变量作为二进制向量的表示,这首先要求将分类值映射到整数值,然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。
步骤S13:分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度。
在得到所述误报样本和所述检出样本之后,需要分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度。也即分别确定出对于误报样本重要的特征维度和对于检出样本重要的特征维度,这样可以确定出需要压缩的特征维度。
步骤S14:利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本。
在确定出所述第一重要特征维度、所述第二重要特征维度和所述训练样本之后,便可以利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本确定维度压缩后样本。具体的,就是在确定出所述第一重要特征维度和所述第二重要特征维度之后,相应的可以确定出需要压缩的特征维度,以便进行特征维度压缩。
可见,本申请先获取训练样本,接着利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本,然后分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度,再利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本。由此可见,本申请在获取到训练样本之后,利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本。再分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度,然后利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定压缩后训练样本,这样能够删除掉冗余的特征,提高特征向量处理速度,且在删掉干扰特征之后,利用压缩后特征向量训练分类模型,可以减少分类模型的误报概率,并提升关键特征的重要度,从而提升分类模型对黑样本的敏感度,提升分类模型对恶意文件的检出率,且压缩后特征向量的可解释性强,能够节约性能消耗,提高了降维效果。
参见图2所示,本申请实施例公开了一种具体的特征向量维度压缩方法,该方法包括:
步骤S21:获取训练样本。
步骤S22:利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本。
步骤S21和步骤S22的具体实施过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
步骤S23:分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度。
在得到所述误报样本和所述检出样本之后,还需要分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度。具体的,确定所述误报样本的第一重要特征维度,包括:利用预设公式分别确定所述误报样本中各个特征维度的目标重要参数;利用所述目标重要参数确定所述误报样本的第一重要特征维度,其中,所述目标重要参数用于表示各个特征维度对所述误报样本整体的重要程度。
在具体的实施过程中,所述利用预设公式分别确定所述误报样本中各个特征维度的目标重要参数,包括:利用第一预设公式确定所述误报样本中各个样本中的各个特征维度的局部重要参数,其中,所述局部重要参数用于表示各个特征维度对当前样本的重要程度,所述第一预设公式为:
fm,i=∑split(i)
其中,fm,i表示第m个样本中的第i个特征维度的局部重要参数,∑split(i)表示第m个样本中的第i个特征维度被用来分离决策树的次数;利用第二预设公式和所述局部重要参数确定所述误报样本中的各个特征维度的目标重要参数,其中,所述第二预设公式为:
其中,Fi表示所述误报样本中的第i个特征维度的目标重要参数,N表示所述误报样本的数量。同样的,利用预设公式确定所述检出样本的第二重要特征维度,也包括:利用预设公式分别确定所述检出样本中各个特征维度的目标重要参数;利用所述检出样本中各个特征维度的目标重要参数确定所述检出样本的第二重要特征维度。
在所述利用预设公式确定所述误报样本中各个特征维度的目标重要参数之后,还包括利用所述目标重要参数确定所述误报样本的第一重要特征维度。具体的,所述利用所述目标重要参数确定所述误报样本的第一重要特征维度,包括:将所述误报样本中各个特征维度的目标重要参数与预设重要参数阈值进行比较;如果当前特征维度的目标重要参数大于或等于预设重要参数阈值,则将当前特征维度确定为第一重要特征维度。
步骤S24:将所述训练样本中的第一重要特征维度上的数据删除,并保留所述第二重要特征维度上的数据,得到维度压缩后训练样本。
在确定出所述第一重要特征维度和所述第二重要特征维度之后,也即确定出主要影响误报样本的特征维度和主要影响检出样本的特征维度,这样将所述训练样本中的第一重要特征维度上的数据删除,并保留所述第二重要特征维度上的数据,得到维度压缩后训练样本。
在另一种具体的实施方式中,利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本,包括:将所述训练样本中的第一重要特征维度上的数据删除,并保留所述第二重要特征维度上的数据;将所述第二重要特征维度上的数据赋予相应的权重参数,得到维度压缩后训练样本。例如,得到的所述第二重要特征维度为特征维度1、特征维度2、特征维度3,且相应的目标重要参数排序为特征维度1>特征维度2>特征维度3,则将特征维度1上的数据保留,并乘以权重10,特征维度2上的数据保留,并乘以权重6,特征维度3上的数据保留,并乘以权重4,得到维度压缩后训练样本。这样可以进一步扩大对检出样本重要的维度的影响,提高检出率。
步骤S25:利用所述维度压缩后训练样本训练所述分类模型,得到训练后分类模型。
在得到所述训练后训练样本之后,再利用所述压缩后训练样本训练所述分类模型,得到训练后分类模型,这样得到的训练后分类模型性能大大提升,减少分类模型的误报概率,并提升关键特征的重要度,从而提升分类模型对黑样本的敏感度,提升分类模型对恶意文件的检出率。
步骤S26:获取测试样本。
在得到所述训练后分类模型之后,还需要对所述训练后分类模型进行评估,具体的,需要先获取测试样本,其中,所述测试样本可以是待分类的PE文件。
步骤S27:利用所述测试样本对所述训练后分类模型进行评估,直到满足预设条件,得到目标分类模型。
可以理解的是,在得到所述测试样本之后,还需要利用所述测试样本对所述训练后分类模型进行评估,直到满足预设条件,得到目标分类模型。也即,利用所述测试样本对所述训练后分类模型进行评估,直到所述训练后分类模型的检测性能不再提升,得到目标分类模型。
参见图3所示,为一种特征向量维度压缩方法,获取恶意文件,并利用所述恶意文件训练构建的分类模型,确定出误报样本和检出样本,并对误报样本和检出样本进行特征重要性计算,得到误报维度和检出维度,并误报维度删除,并保留检出维度,得到新的训练样本,再利用所述新的训练样本训练所述分类模型,并评估训练后的分类模型的性能是否达标,如果否,则需要在获取恶意文件,如果是,则结束。
参见图4所示,本申请实施例公开了一种特征向量维度压缩装置,包括:
样本获取模块11,用于获取训练样本;
模型训练模块12,用于利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本;
重要特征维度确定模块13,用于分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度;
维度压缩模块14,用于利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本。
可见,本申请先获取训练样本,接着利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本,然后分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度,再利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本。由此可见,本申请在获取到训练样本之后,利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本。再分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度,然后利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定压缩后训练样本,这样能够删除掉冗余的特征,提高特征向量处理速度,且在删掉干扰特征之后,利用压缩后特征向量训练分类模型,可以减少分类模型的误报概率,并提升关键特征的重要度,从而提升分类模型对黑样本的敏感度,提升分类模型对恶意文件的检出率,且压缩后特征向量的可解释性强,能够节约性能消耗,提高了降维效果。
进一步的,参见图5所示,本申请实施例还公开了一种特征向量维度压缩设备20,包括:处理器21和存储器22。
其中,所述存储器22,用于存储计算机程序;所述处理器21,用于执行所述计算机程序,以实现前述实施例中公开的特征向量维度压缩装置和特征向量维度压缩方法。
所述特征向量维度压缩设备20具体可以包括但不限于平板电脑、笔记本电脑、台式电脑、服务器或服务器集群等。
其中,处理器21可以包括一个或多个处理核心,比如四核心处理器、八核心处理器等。处理器21可以采用DSP(digital signal processing,数字信号处理)、FPGA(field-programmable gate array,现场可编程们阵列)、PLA(programmable logic array,可编程逻辑阵列)中的至少一种硬件来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(central processing unit,中应处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有GPU(graphics processing unit,图像处理器),GPU用于负责显示屏所需要显示的图像的渲染和绘制。一些实施例中,处理器21可以包括AI(artificialintelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器22可以包括一个或多个计算机可读存储介质,计算机可读存储介质可以是非暂态的。存储器22还可以包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器22至少用于存储以下计算机程序221,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例中公开的特征向量维度压缩方法步骤。另外,存储器32所存储的资源还可以包括操作系统222和数据223等,存储方式可以是短暂存储也可以是永久存储。其中,操作系统222可以是Windows、Unix、Linux等。数据223可以包括各种各样的数据。
在一些实施例中,所述特征向量维度压缩设备20还可包括有显示屏23、输入输出接口24、通信接口25、传感器26、电源27以及通信总线28。
本技术领域人员可以理解,图5中示出的结构并不构成对特征向量维度压缩设备20的限定,可以包括比图示更多或更少的组件。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述任一实施例中公开的特征向量维度压缩方法。
其中,关于上述特征向量维度压缩方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种特征向量维度压缩方法、装置、设备、介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种特征向量维度压缩方法,其特征在于,包括:
获取训练样本;所述训练样本为PE文件样本;
利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本;所述分类模型用于识别所述PE文件样本的样本类型,所述样本类型包括正常PE文件样本类型和病毒PE文件样本类型;对于每一所述PE文件样本,当所述PE文件样本的实际样本类型与所述分类模型输出的样本类型一致时,将所述PE文件样本作为所述检出样本;当所述PE文件样本的实际样本类型与所述分类模型输出的样本类型不一致时,将所述PE文件样本作为所述误报样本;
分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度;
利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本;
其中,所述利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本,包括:
将所述训练样本中的第一重要特征维度上的数据删除,并保留所述第二重要特征维度上的数据,得到维度压缩后训练样本。
2.根据权利要求1所述的特征向量维度压缩方法,其特征在于,所述确定所述误报样本的第一重要特征维度,包括:
利用预设公式分别确定所述误报样本中各个特征维度的目标重要参数,其中,所述目标重要参数用于表示各个特征维度对所述误报样本整体的重要程度;
利用所述目标重要参数确定所述误报样本的第一重要特征维度。
3.根据权利要求2所述的特征向量维度压缩方法,其特征在于,所述利用预设公式分别确定所述误报样本中各个特征维度的目标重要参数,包括:
利用第一预设公式确定所述误报样本中各个样本中的各个特征维度的局部重要参数,其中,所述局部重要参数用于表示各个特征维度对当前样本的重要程度,所述第一预设公式为:
fm,i=∑split(i)其中,fm,i表示第m个样本中的第i个特征维度的局部重要参数,∑split(i)表示第m个样本中的第i个特征维度被用来分离决策树的次数;
利用第二预设公式和所述局部重要参数确定所述误报样本中的各个特征维度的目标重要参数,其中,所述第二预设公式为:
其中,Fi表示所述误报样本中的第i个特征维度的目标重要参数,N表示所述误报样本的数量。
4.根据权利要求2所述的特征向量维度压缩方法,其特征在于,所述利用所述目标重要参数确定所述误报样本的第一重要特征维度,包括:
将所述误报样本中各个特征维度的目标重要参数与预设重要参数阈值进行比较;
如果当前特征维度的目标重要参数大于或等于预设重要参数阈值,则将当前特征维度确定为第一重要特征维度。
5.根据权利要求1所述的特征向量维度压缩方法,其特征在于,所述利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本之后,还包括:
利用所述维度压缩后训练样本训练所述分类模型,得到训练后分类模型。
6.根据权利要求5所述的特征向量维度压缩方法,其特征在于,所述利用所述维度压缩后训练样本训练所述分类模型,得到训练后分类模型之后,还包括:
获取测试样本;
利用所述测试样本对所述训练后分类模型进行评估,直到满足预设条件,得到目标分类模型。
7.一种特征向量维度压缩装置,其特征在于,包括:
样本获取模块,用于获取训练样本;所述训练样本为PE文件样本;
模型训练模块,用于利用所述训练样本对预先构建的分类模型进行训练,得到误报样本和检出样本;所述分类模型用于识别所述PE文件样本的样本类型,所述样本类型包括正常PE文件样本类型和病毒PE文件样本类型;对于每一所述PE文件样本,当所述PE文件样本的实际样本类型与所述分类模型输出的样本类型一致时,将所述PE文件样本作为所述检出样本;当所述PE文件样本的实际样本类型与所述分类模型输出的样本类型不一致时,将所述PE文件样本作为所述误报样本;
重要特征维度确定模块,用于分别确定所述误报样本的第一重要特征维度和所述检出样本的第二重要特征维度;
维度压缩模块,用于利用所述第一重要特征维度、所述第二重要特征维度和所述训练样本,确定维度压缩后训练样本;
其中,所述维度压缩模块具体用于将所述训练样本中的第一重要特征维度上的数据删除,并保留所述第二重要特征维度上的数据,得到维度压缩后训练样本。
8.一种特征向量维度压缩设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现权利要求1至6任一项所述的特征向量维度压缩方法。
9.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的特征向量维度压缩方法。
CN202010495612.8A 2020-06-03 2020-06-03 一种特征向量维度压缩方法、装置、设备、介质 Active CN113762294B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010495612.8A CN113762294B (zh) 2020-06-03 2020-06-03 一种特征向量维度压缩方法、装置、设备、介质
PCT/CN2021/081443 WO2021244105A1 (zh) 2020-06-03 2021-03-18 一种特征向量维度压缩方法、装置、设备、介质
EP21818964.5A EP4336405A1 (en) 2020-06-03 2021-03-18 Feature vector dimension compression method and apparatus, and device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010495612.8A CN113762294B (zh) 2020-06-03 2020-06-03 一种特征向量维度压缩方法、装置、设备、介质

Publications (2)

Publication Number Publication Date
CN113762294A CN113762294A (zh) 2021-12-07
CN113762294B true CN113762294B (zh) 2024-04-12

Family

ID=78783253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010495612.8A Active CN113762294B (zh) 2020-06-03 2020-06-03 一种特征向量维度压缩方法、装置、设备、介质

Country Status (3)

Country Link
EP (1) EP4336405A1 (zh)
CN (1) CN113762294B (zh)
WO (1) WO2021244105A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817473A (zh) * 2022-05-09 2022-07-29 北京百度网讯科技有限公司 用于压缩语义理解模型的方法、装置、设备、介质和产品
CN117579079B (zh) * 2024-01-15 2024-03-29 每日互动股份有限公司 一种数据压缩的处理方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544499A (zh) * 2013-10-12 2014-01-29 江南大学 一种基于机器视觉的表面瑕疵检测的纹理特征降维方法
CN105743877A (zh) * 2015-11-02 2016-07-06 哈尔滨安天科技股份有限公司 一种网络安全威胁情报处理方法及系统
CN106992965A (zh) * 2017-02-27 2017-07-28 南京邮电大学 一种基于网络行为的木马检测方法
CN109255241A (zh) * 2018-08-31 2019-01-22 国鼎网络空间安全技术有限公司 基于机器学习的Android权限提升漏洞检测方法及系统
CN109934167A (zh) * 2019-03-13 2019-06-25 西安交通大学 一种降低特征维度的修正csp方法
CN110288047A (zh) * 2019-07-01 2019-09-27 山东浪潮人工智能研究院有限公司 一种用于异常检测的大数据特征降维方法及工具
WO2019228122A1 (zh) * 2018-05-29 2019-12-05 腾讯科技(深圳)有限公司 模型的训练方法、存储介质及计算机设备
CN110928862A (zh) * 2019-10-23 2020-03-27 深圳市华讯方舟太赫兹科技有限公司 数据清洗方法、数据清洗设备以及计算机存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826300B2 (en) * 2001-05-31 2004-11-30 George Mason University Feature based classification
CN101464907B (zh) * 2009-01-09 2011-05-11 中国科学院计算技术研究所 一种文本维度压缩及尺度调整方法以及基于此的分类方法
CN102682300A (zh) * 2011-03-18 2012-09-19 同济大学 一种基于轮廓模板匹配的误检样本去除方法
US11620471B2 (en) * 2016-11-30 2023-04-04 Cylance Inc. Clustering analysis for deduplication of training set samples for machine learning based computer threat analysis
CN110309840B (zh) * 2018-03-27 2023-08-11 创新先进技术有限公司 风险交易识别方法、装置、服务器及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544499A (zh) * 2013-10-12 2014-01-29 江南大学 一种基于机器视觉的表面瑕疵检测的纹理特征降维方法
CN105743877A (zh) * 2015-11-02 2016-07-06 哈尔滨安天科技股份有限公司 一种网络安全威胁情报处理方法及系统
CN106992965A (zh) * 2017-02-27 2017-07-28 南京邮电大学 一种基于网络行为的木马检测方法
WO2019228122A1 (zh) * 2018-05-29 2019-12-05 腾讯科技(深圳)有限公司 模型的训练方法、存储介质及计算机设备
CN109255241A (zh) * 2018-08-31 2019-01-22 国鼎网络空间安全技术有限公司 基于机器学习的Android权限提升漏洞检测方法及系统
CN109934167A (zh) * 2019-03-13 2019-06-25 西安交通大学 一种降低特征维度的修正csp方法
CN110288047A (zh) * 2019-07-01 2019-09-27 山东浪潮人工智能研究院有限公司 一种用于异常检测的大数据特征降维方法及工具
CN110928862A (zh) * 2019-10-23 2020-03-27 深圳市华讯方舟太赫兹科技有限公司 数据清洗方法、数据清洗设备以及计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Review of classical dimensionality reduction and sample selection methods for large-scale data processing;Xinzheng Xu等;《Neurocomputing》;20180818;第5-15页 *
特征选择的降维方法在配网工程项目工期预测模型中的应用;付健艺等;《科技视界》;20200420;第157-158页 *

Also Published As

Publication number Publication date
WO2021244105A1 (zh) 2021-12-09
EP4336405A1 (en) 2024-03-13
CN113762294A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN107908963B (zh) 一种自动化检测恶意代码核心特征的方法
CN111027069B (zh) 恶意软件家族检测方法、存储介质和计算设备
US11025649B1 (en) Systems and methods for malware classification
CN107944273B (zh) 一种基于tf-idf算法和svdd算法的恶意pdf文档检测方法
CN111259397B (zh) 一种基于马尔科夫图和深度学习的恶意软件分类方法
CN113762294B (zh) 一种特征向量维度压缩方法、装置、设备、介质
CN116361801B (zh) 基于应用程序接口语义信息的恶意软件检测方法及系统
CN112464233B (zh) 一种云平台上基于rnn的恶意软件检测方法
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN113627179B (zh) 一种基于大数据的威胁情报预警文本分析方法及系统
CN116383707A (zh) 恶意代码检测方法、装置、设备和介质
CN112131199A (zh) 一种日志处理方法、装置、设备及介质
CN111191238A (zh) 一种webshell检测方法、终端设备及存储介质
CN114499944A (zh) 一种检测WebShell的方法、装置和设备
CN113963185A (zh) 一种对神经网络中层特征表达能力的可视化及定量分析方法和系统
CN112860573A (zh) 一种智能手机恶意软件检测方法
CN111507195A (zh) 虹膜分割神经网络模型的训练方法、虹膜分割方法及装置
CN111581640A (zh) 一种恶意软件检测方法、装置及设备、存储介质
CN116611062B (zh) 基于图卷积网络的内存恶意进程取证方法与系统
CN111860662B (zh) 一种相似性检测模型的训练方法及装置、应用方法及装置
CN117354067B (zh) 一种恶意代码检测方法及系统
CN110728615B (zh) 基于序贯假设检验的隐写分析方法、终端设备及存储介质
US11741687B2 (en) Configuring spanning elements of a signature generator
US20240095346A1 (en) Anomalous command line entry detection
Dai et al. M4D: A malware detection method using multimodal features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant