CN106845229B - 一种基于fts模型的病毒特征提取方法及系统 - Google Patents

一种基于fts模型的病毒特征提取方法及系统 Download PDF

Info

Publication number
CN106845229B
CN106845229B CN201611237263.XA CN201611237263A CN106845229B CN 106845229 B CN106845229 B CN 106845229B CN 201611237263 A CN201611237263 A CN 201611237263A CN 106845229 B CN106845229 B CN 106845229B
Authority
CN
China
Prior art keywords
features
feature
sample set
specified
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611237263.XA
Other languages
English (en)
Other versions
CN106845229A (zh
Inventor
张春雷
吕智慧
韩文奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Antiy Technology Group Co Ltd
Original Assignee
Harbin Antiy Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Antiy Technology Group Co Ltd filed Critical Harbin Antiy Technology Group Co Ltd
Priority to CN201611237263.XA priority Critical patent/CN106845229B/zh
Publication of CN106845229A publication Critical patent/CN106845229A/zh
Application granted granted Critical
Publication of CN106845229B publication Critical patent/CN106845229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/561Virus type analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明提出一种基于FTS模型的病毒特征提取方法及系统,结合FTS模型算法以及GUS、GDS思想,通过将原始非线性高维样本空间通过高斯函数的变换映射到低维度的线性样本空间,提取一些表现突出的特征作为首选特征。此过程无需任何模型参数需要训练,操作简单,降维效果绝佳。本发明能够有效降低病毒特征集的维度和特征冗余度,保障病毒特征集的精准性,并有效降低病毒特征集的资源空间占用;进一步地,当有新特征加入时,只需将新特征与特征集中的特征进行相似度计算,确定其冗余度即可,使得特征集易于维护。

Description

一种基于FTS模型的病毒特征提取方法及系统
技术领域
本发明涉及信息安全技术领域,尤其涉及一种基于FTS模型的病毒特征提取方法及系统。
背景技术
信息安全领域中,针对病毒的分析与识别需要对其特征进行提取,而随着提取特征数量的增加,模型分类的准确度也有所提高,但是提取特征数量达到一定限度的时候,再增加特征,模型分类的准确度不是持续增加,反而会降低。这就是经典的“维数灾难”问题。通常不经专业筛选的特征空间一般是高维度且非线性,不仅占用存储空间,而且特征间的冗余度、特征与类别的相似度都没有考虑,导致分类的准确度降低。由此,控制特征空间的维度是至关重要的,特征既不能过剩,也不能缺失。
发明内容
本发明为解决上述问题,本发明提出一种基于FTS模型的病毒特征提取方法及系统,结合FTS模型算法以及GUS、GDS思想,通过将原始非线性高维样本空间通过高斯函数的变换映射到低维度的线性样本空间,提取一些表现突出的特征作为首选特征。此过程无需任何模型参数需要训练,操作简单,降维效果绝佳。虽然维度降低了,但仍含有一些冗余特征没有剔除干净,也没有考虑与类别的相关程度。所以,本发明还利用余弦度去除特征间的冗余,优选地,两个特征间的余弦值越小,表示不相关程度越大,余弦值越大,表示不相关程度越小,所以,保留余弦值小的特征值,剔除余弦值大的特征。利用相似度去除与类别无关的特征,优选地,两个特征间的相似度越小,表示与类别相关程度越小,相似度越大,表示与类别相关程度越大,保留相似度大的特征,剔除相似度小的特征。
具体发明内容包括:
一种基于FTS模型的病毒特征提取方法,包括:
收集病毒样本文件,提取样本文件信息,建立原始样本集;
按规定定义样本集包含的特征类别;
计算并得到原始样本集的高斯矩阵;
对高斯矩阵中心化,并计算中心化后的高斯矩阵的特征值和特征向量;
对特征值进行排序,选出规定特征值所对应的特征向量;
按规定对选出的特征向量进行计算,得到特征样本集;
将特征样本集中的特征与特征类别进行相似度计算,根据相似度计算结果选出指定的特征,并将指定特征存入中间特征样本集;
按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征;
将满足规定条件的特征存入特征样本集,得到最优特征集。
进一步地,所述样本文件信息包括:文件名、扩展名、文件编码格式、MD5值、KMD5值。
进一步地,所述计算并得到原始样本集的高斯矩阵,具体为:将原始样本集映射到高维度线性特征空间中,计算原始样本集中各个病毒特征间的高斯函数值,得到高斯矩阵。
进一步地,所述对特征值进行排序,选出规定特征值所对应的特征向量,具体为:对特征值进行降序排序,从序列前端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量;或对特征值进行升序排序,从序列后端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量;根据不同场景和需求,所述规定阈值和规定数量可自行设置不同的值,一般情况下规定数量小于原始样本集中特征的数量。
进一步地,所述按规定对选出的特征向量进行计算,具体为:将选出的特征向量与原始样本集做积运算。
进一步地,所述将特征样本集中的特征与特征类别进行相似度计算,其计算方式包括:将所述特征与特征类别进行余弦计算、将所述特征与特征类别按照向量空间模型的形式进行相似度计算。
进一步地,所述根据相似度计算结果选出指定的特征,具体为:将计算得到的相似度结果进行降序排序,从序列前端依次选出与指定数量相对应的相似度结果所对应的特征;或将计算得到的相似度计算结果进行升序排序,从序列后端依次选出与指定数量相对应的相似度计算结果所对应的特征;根据不同场景和需求,所述指定数量可自行设置,一般地,该数量设置的数值越高,最终结果的精确度越高,反之最终结果的精确度越低。
进一步地,所述按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征,具体为:计算中间特征样本集中的特征间的余弦值,将余弦值进行降序/升序排序,保留余弦值满足规定范围的余弦值所对应的特征,删除余弦值不满足规定范围的余弦值所对应的特征;根据不同场景和需求,所述余弦值得规定范围可自行设置,一般地,该数值范围越大,最终结果的精确度越高,反之最终结果的精确度越低。
进一步地,迭代执行下述过程,直到特征样本集中特征的数量满足预设条件,并得到最优特征集:将特征样本集中的特征与特征类别进行相似度计算,根据相似度计算结果选出指定的特征,并将指定特征存入中间特征样本集,按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征,将满足规定条件的特征存入特征样本集;一般地,最优特征集中的特征数量不少于原始样本集中特征数量的一半。
另,当有新特征加入时,根据新进入的特征数量以及具体需求,只需进行上述一次或几次迭代过程即可,来确定新加入的特征是否可以加入最优特征集。
一种基于FTS模型的病毒特征提取系统,包括:
原始样本集建立模块,用于收集病毒样本文件,提取样本文件信息,建立原始样本集;
特征类别定义模块,用于按规定定义样本集包含的特征类别;
原始样本集降维模块,用于计算并得到原始样本集的高斯矩阵,并对高斯矩阵中心化,计算中心化后的高斯矩阵的特征值和特征向量;
特征样本集生成模块,用于对所述特征值进行排序,选出规定特征值所对应的特征向量,并按规定对选出的特征向量进行计算,得到特征样本集;
降低特征冗余度模块,用于将特征样本集中的特征与特征类别进行相似度计算,根据相似度计算结果选出指定的特征,并将指定特征存入中间特征样本集,按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征;
最优特征集生成模块,用于将所述满足规定条件的特征存入特征样本集,得到最优特征集。
进一步地,所述样本文件信息包括:文件名、扩展名、文件编码格式、MD5值、KMD5值。
进一步地,所述计算并得到原始样本集的高斯矩阵,具体为:将原始样本集映射到高维度线性特征空间中,计算原始样本集中各个病毒特征间的高斯函数值,得到高斯矩阵。
进一步地,所述对特征值进行排序,选出规定特征值所对应的特征向量,具体为:对特征值进行降序排序,从序列前端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量;或对特征值进行升序排序,从序列后端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量;根据不同场景和需求,所述规定阈值和规定数量可自行设置不同的值,一般情况下规定数量小于原始样本集中特征的数量。
进一步地,所述按规定对选出的特征向量进行计算,具体为:将选出的特征向量与原始样本集做积运算。
进一步地,所述将特征样本集中的特征与特征类别进行相似度计算,其计算方式包括:将所述特征与特征类别进行余弦计算、将所述特征与特征类别按照向量空间模型的形式进行相似度计算。
进一步地,所述根据相似度计算结果选出指定的特征,具体为:将计算得到的相似度结果进行降序排序,从序列前端依次选出与指定数量相对应的相似度结果所对应的特征;或将计算得到的相似度计算结果进行升序排序,从序列后端依次选出与指定数量相对应的相似度计算结果所对应的特征;根据不同场景和需求,所述指定数量可自行设置,一般地,该数量设置的数值越高,最终结果的精确度越高,反之最终结果的精确度越低。
进一步地,所述按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征,具体为:计算中间特征样本集中的特征间的余弦值,将余弦值进行降序/升序排序,保留余弦值满足规定范围的余弦值所对应的特征,删除余弦值不满足规定范围的余弦值所对应的特征;根据不同场景和需求,所述余弦值得规定范围可自行设置,一般地,该数值范围越大,最终结果的精确度越高,反之最终结果的精确度越低。
进一步地,迭代运行降低特征冗余度模块与最优特征集生成模块,直到特征样本集中特征的数量满足预设条件,并得到最终的最优特征集;一般地,最优特征集中的特征数量不少于原始样本集中特征数量的一半。
另,当有新特征加入时,根据新进入的特征数量以及具体需求,只需进行上述一次或几次迭代过程即可,来确定新加入的特征是否可以加入最优特征集。
本发明的有益效果是:
本发明能够有效降低病毒特征集的维度和特征冗余度,保障病毒特征集的精准性,并有效降低病毒特征集的资源空间占用;
进一步地,当有新特征加入时,只需将新特征与特征集中的特征进行相似度计算,确定其冗余度即可,使得特征集易于维护。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于FTS模型的病毒特征提取的方法流程图;
图2为本发明一种基于FTS模型的病毒特征提取的系统结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明。
本发明给出了一种基于FTS模型的病毒特征提取的方法实施例,如图1所示,包括:
S101:收集病毒样本文件,提取样本文件信息,建立原始样本集;
S102:按规定定义样本集包含的特征类别;
S103:计算并得到原始样本集的高斯矩阵;
S104:对高斯矩阵中心化,并计算中心化后的高斯矩阵的特征值和特征向量;
S105:对特征值进行排序,选出规定特征值所对应的特征向量;
S106:按规定对选出的特征向量进行计算,得到特征样本集;
S107:将特征样本集中的特征与特征类别进行相似度计算,根据相似度计算结果选出指定的特征,并将指定特征存入中间特征样本集;
S108:按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征;
S109:将满足规定条件的特征存入特征样本集,得到最优特征集。
优选地,所述样本文件信息包括:文件名、扩展名、文件编码格式、MD5值、KMD5值。
优选地,所述计算并得到原始样本集的高斯矩阵,具体为:将原始样本集映射到高维度线性特征空间中,计算原始样本集中各个病毒特征间的高斯函数值,得到高斯矩阵。
优选地,所述对特征值进行排序,选出规定特征值所对应的特征向量,具体为:对特征值进行降序排序,从序列前端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量;或对特征值进行升序排序,从序列后端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量;根据不同场景和需求,所述规定阈值和规定数量可自行设置不同的值,一般情况下规定数量小于原始样本集中特征的数量。
优选地,所述按规定对选出的特征向量进行计算,具体为:将选出的特征向量与原始样本集做积运算。
优选地,所述将特征样本集中的特征与特征类别进行相似度计算,其计算方式包括:将所述特征与特征类别进行余弦计算、将所述特征与特征类别按照向量空间模型的形式进行相似度计算。
优选地,所述根据相似度计算结果选出指定的特征,具体为:将计算得到的相似度结果进行降序排序,从序列前端依次选出与指定数量相对应的相似度结果所对应的特征;或将计算得到的相似度计算结果进行升序排序,从序列后端依次选出与指定数量相对应的相似度计算结果所对应的特征;根据不同场景和需求,所述指定数量可自行设置,一般地,该数量设置的数值越高,最终结果的精确度越高,反之最终结果的精确度越低。
优选地,所述按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征,具体为:计算中间特征样本集中的特征间的余弦值,将余弦值进行降序/升序排序,保留余弦值满足规定范围的余弦值所对应的特征,删除余弦值不满足规定范围的余弦值所对应的特征;根据不同场景和需求,所述余弦值得规定范围可自行设置,一般地,该数值范围越大,最终结果的精确度越高,反之最终结果的精确度越低。
优选地,迭代执行下述过程,直到特征样本集中特征的数量满足预设条件,并得到最优特征集:将特征样本集中的特征与特征类别进行相似度计算,根据相似度计算结果选出指定的特征,并将指定特征存入中间特征样本集,按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征,将满足规定条件的特征存入特征样本集;一般地,最优特征集中的特征数量不少于原始样本集中特征数量的一半。
另,当有新特征加入时,根据新进入的特征数量以及具体需求,只需进行上述一次或几次迭代过程即可,来确定新加入的特征是否可以加入最优特征集。
本发明还给出了一种基于FTS模型的病毒特征提取的系统实施例,如图2所述,包括:
原始样本集建立模块201,用于收集病毒样本文件,提取样本文件信息,建立原始样本集;
特征类别定义模块202,用于按规定定义样本集包含的特征类别;
原始样本集降维模块203,用于计算并得到原始样本集的高斯矩阵,并对高斯矩阵中心化,计算中心化后的高斯矩阵的特征值和特征向量;
特征样本集生成模块204,用于对所述特征值进行排序,选出规定特征值所对应的特征向量,并按规定对选出的特征向量进行计算,得到特征样本集;
降低特征冗余度模块205,用于将特征样本集中的特征与特征类别进行相似度计算,根据相似度计算结果选出指定的特征,并将指定特征存入中间特征样本集,按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征;
最优特征集生成模块206,用于将所述满足规定条件的特征存入特征样本集,得到最优特征集。
优选地,所述样本文件信息包括:文件名、扩展名、文件编码格式、MD5值、KMD5值。
优选地,所述计算并得到原始样本集的高斯矩阵,具体为:将原始样本集映射到高维度线性特征空间中,计算原始样本集中各个病毒特征间的高斯函数值,得到高斯矩阵。
优选地,所述对特征值进行排序,选出规定特征值所对应的特征向量,具体为:对特征值进行降序排序,从序列前端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量;或对特征值进行升序排序,从序列后端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量;根据不同场景和需求,所述规定阈值和规定数量可自行设置不同的值,一般情况下规定数量小于原始样本集中特征的数量。
优选地,所述按规定对选出的特征向量进行计算,具体为:将选出的特征向量与原始样本集做积运算。
优选地,所述将特征样本集中的特征与特征类别进行相似度计算,其计算方式包括:将所述特征与特征类别进行余弦计算、将所述特征与特征类别按照向量空间模型的形式进行相似度计算。
优选地,所述根据相似度计算结果选出指定的特征,具体为:将计算得到的相似度结果进行降序排序,从序列前端依次选出与指定数量相对应的相似度结果所对应的特征;或将计算得到的相似度计算结果进行升序排序,从序列后端依次选出与指定数量相对应的相似度计算结果所对应的特征;根据不同场景和需求,所述指定数量可自行设置,一般地,该数量设置的数值越高,最终结果的精确度越高,反之最终结果的精确度越低。
优选地,所述按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征,具体为:计算中间特征样本集中的特征间的余弦值,将余弦值进行降序/升序排序,保留余弦值满足规定范围的余弦值所对应的特征,删除余弦值不满足规定范围的余弦值所对应的特征;根据不同场景和需求,所述余弦值得规定范围可自行设置,一般地,该数值范围越大,最终结果的精确度越高,反之最终结果的精确度越低。
优选地,迭代运行降低特征冗余度模块与最优特征集生成模块,直到特征样本集中特征的数量满足预设条件,并得到最终的最优特征集;一般地,最优特征集中的特征数量不少于原始样本集中特征数量的一半。
另,当有新特征加入时,根据新进入的特征数量以及具体需求,只需进行上述一次或几次迭代过程即可,来确定新加入的特征是否可以加入最优特征集。
本说明书中方法的实施例采用递进的方式描述,对于系统的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本发明提出一种基于FTS模型的病毒特征提取方法及系统,结合FTS模型算法以及GUS、GDS思想,通过将原始非线性高维样本空间通过高斯函数的变换映射到低维度的线性样本空间,提取一些表现突出的特征作为首选特征。此过程无需任何模型参数需要训练,操作简单,降维效果绝佳。本发明能够有效降低病毒特征集的维度和特征冗余度,保障病毒特征集的精准性,并有效降低病毒特征集的资源空间占用;进一步地,当有新特征加入时,只需将新特征与特征集中的特征进行相似度计算,确定其冗余度即可,使得特征集易于维护。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims (18)

1.一种基于FTS模型的病毒特征提取方法,其特征在于,包括:
收集病毒样本文件,提取样本文件信息,建立原始样本集;
按规定定义样本集包含的特征类别;
计算并得到原始样本集的高斯矩阵;
对高斯矩阵中心化,并计算中心化后的高斯矩阵的特征值和特征向量;
对特征值进行排序,选出规定特征值所对应的特征向量;
按规定对选出的特征向量进行计算,得到特征样本集;
将特征样本集中的特征与特征类别进行相似度计算,根据相似度计算结果选出指定的特征,并将指定特征存入中间特征样本集;
计算中间特征样本集中的特征间的余弦值,将余弦值进行降序/升序排序,保留余弦值满足规定范围的余弦值所对应的特征,删除余弦值不满足规定范围的余弦值所对应的特征;
将满足规定范围的特征存入特征样本集,得到最优特征集。
2.如权利要求1所述的方法,其特征在于,所述样本文件信息包括:文件名、扩展名、文件编码格式、MD5值、KMD5值。
3.如权利要求1或2所述的方法,其特征在于,所述计算并得到原始样本集的高斯矩阵,具体为:将原始样本集映射到高维度线性特征空间中,计算原始样本集中各个病毒特征间的高斯函数值,得到高斯矩阵。
4.如权利要求3所述的方法,其特征在于,所述对特征值进行排序,选出规定特征值所对应的特征向量,具体为:对特征值进行降序排序,从序列前端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量;或对特征值进行升序排序,从序列后端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量。
5.如权利要求4所述的方法,其特征在于,所述按规定对选出的特征向量进行计算,具体为:将选出的特征向量与原始样本集做积运算。
6.如权利要求5所述的方法,其特征在于,所述将特征样本集中的特征与特征类别进行相似度计算,其计算方式包括:将所述特征与特征类别进行余弦计算、将所述特征与特征类别按照向量空间模型的形式进行相似度计算。
7.如权利要求6所述的方法,其特征在于,所述根据相似度计算结果选出指定的特征,具体为:将计算得到的相似度结果进行降序排序,从序列前端依次选出与指定数量相对应的相似度结果所对应的特征;或将计算得到的相似度计算结果进行升序排序,从序列后端依次选出与指定数量相对应的相似度计算结果所对应的特征。
8.如权利要求1至2、4至7任一所述的方法,其特征在于,迭代执行下述过程,直到特征样本集中特征的数量满足预设条件,并得到最优特征集:将特征样本集中的特征与特征类别进行相似度计算,根据相似度计算结果选出指定的特征,并将指定特征存入中间特征样本集,计算中间特征样本集中的特征间的余弦值,将余弦值进行降序/升序排序,保留余弦值满足规定范围的余弦值所对应的特征,删除余弦值不满足规定范围的余弦值所对应的特征,将满足规定范围的特征存入特征样本集。
9.如权利要求3所述的方法,其特征在于,迭代执行下述过程,直到特征样本集中特征的数量满足预设条件,并得到最优特征集:将特征样本集中的特征与特征类别进行相似度计算,根据相似度计算结果选出指定的特征,并将指定特征存入中间特征样本集,按规定对中间特征样本集中的特征进行计算,保留满足规定条件的特征,删除不满足规定条件的特征,将满足规定范围的特征存入特征样本集。
10.一种基于FTS模型的病毒特征提取系统,其特征在于,包括:
原始样本集建立模块,用于收集病毒样本文件,提取样本文件信息,建立原始样本集;
特征类别定义模块,用于按规定定义样本集包含的特征类别;
原始样本集降维模块,用于计算并得到原始样本集的高斯矩阵,并对高斯矩阵中心化,计算中心化后的高斯矩阵的特征值和特征向量;
特征样本集生成模块,用于对所述特征值进行排序,选出规定特征值所对应的特征向量,并按规定对选出的特征向量进行计算,得到特征样本集;
降低特征冗余度模块,用于将特征样本集中的特征与特征类别进行相似度计算,根据相似度计算结果选出指定的特征,并将指定特征存入中间特征样本集,计算中间特征样本集中的特征间的余弦值,将余弦值进行降序/升序排序,保留余弦值满足规定范围的余弦值所对应的特征,删除余弦值不满足规定范围的余弦值所对应的特征;
最优特征集生成模块,用于将所述满足规定范围的特征存入特征样本集,得到最优特征集。
11.如权利要求10所述的系统,其特征在于,所述样本文件信息包括:文件名、扩展名、文件编码格式、MD5值、KMD5值。
12.如权利要求10或11所述的系统,其特征在于,所述计算并得到原始样本集的高斯矩阵,具体为:将原始样本集映射到高维度线性特征空间中,计算原始样本集中各个病毒特征间的高斯函数值,得到高斯矩阵。
13.如权利要求12所述的系统,其特征在于,所述对特征值进行排序,选出规定特征值所对应的特征向量,具体为:对特征值进行降序排序,从序列前端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量;或对特征值进行升序排序,从序列后端依次选出大于规定阈值且满足规定数量的特征值所对应的特征向量。
14.如权利要求13所述的系统,其特征在于,所述按规定对选出的特征向量进行计算,具体为:将选出的特征向量与原始样本集做积运算。
15.如权利要求14所述的系统,其特征在于,所述将特征样本集中的特征与特征类别进行相似度计算,其计算方式包括:将所述特征与特征类别进行余弦计算、将所述特征与特征类别按照向量空间模型的形式进行相似度计算。
16.如权利要求15所述的系统,其特征在于,所述根据相似度计算结果选出指定的特征,具体为:将计算得到的相似度结果进行降序排序,从序列前端依次选出与指定数量相对应的相似度结果所对应的特征;或将计算得到的相似度计算结果进行升序排序,从序列后端依次选出与指定数量相对应的相似度计算结果所对应的特征。
17.如权利要求10至11、13至16任一所述的系统,其特征在于,迭代运行降低特征冗余度模块与最优特征集生成模块,直到特征样本集中特征的数量满足预设条件,并得到最终的最优特征集。
18.如权利要求12所述的系统,其特征在于,迭代运行降低特征冗余度模块与最优特征集生成模块,直到特征样本集中特征的数量满足预设条件,并得到最终的最优特征集。
CN201611237263.XA 2016-12-28 2016-12-28 一种基于fts模型的病毒特征提取方法及系统 Active CN106845229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611237263.XA CN106845229B (zh) 2016-12-28 2016-12-28 一种基于fts模型的病毒特征提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611237263.XA CN106845229B (zh) 2016-12-28 2016-12-28 一种基于fts模型的病毒特征提取方法及系统

Publications (2)

Publication Number Publication Date
CN106845229A CN106845229A (zh) 2017-06-13
CN106845229B true CN106845229B (zh) 2019-12-20

Family

ID=59113550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611237263.XA Active CN106845229B (zh) 2016-12-28 2016-12-28 一种基于fts模型的病毒特征提取方法及系统

Country Status (1)

Country Link
CN (1) CN106845229B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376182A (zh) * 2018-09-26 2019-02-22 上海睿翎法律咨询服务有限公司 基于计算机软件系统实现关联公司识别处理的方法
CN111797394B (zh) * 2020-06-24 2021-06-08 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604363A (zh) * 2009-07-10 2009-12-16 珠海金山软件股份有限公司 基于文件指令频度的计算机恶意程序分类系统及分类方法
CN104978526A (zh) * 2015-06-30 2015-10-14 北京奇虎科技有限公司 病毒特征的提取方法及装置
CN106096413A (zh) * 2016-06-21 2016-11-09 康佳集团股份有限公司 一种基于多特征融合的恶意代码检测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101620931B1 (ko) * 2014-09-04 2016-05-13 한국전자통신연구원 악성코드 특징 정보 기반의 유사 악성코드 검색 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604363A (zh) * 2009-07-10 2009-12-16 珠海金山软件股份有限公司 基于文件指令频度的计算机恶意程序分类系统及分类方法
CN104978526A (zh) * 2015-06-30 2015-10-14 北京奇虎科技有限公司 病毒特征的提取方法及装置
CN106096413A (zh) * 2016-06-21 2016-11-09 康佳集团股份有限公司 一种基于多特征融合的恶意代码检测方法及系统

Also Published As

Publication number Publication date
CN106845229A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN111695626B (zh) 基于混合采样与特征选择的高维度不平衡数据分类方法
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN111325245B (zh) 重复图像识别方法、装置、电子设备及计算机可读存储介质
CN109472453B (zh) 基于全局最优模糊核聚类模型的电力用户信用评价方法
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN108319518B (zh) 基于循环神经网络的文件碎片分类方法及装置
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
CN106845229B (zh) 一种基于fts模型的病毒特征提取方法及系统
CN112437053A (zh) 入侵检测方法及装置
CN116523320A (zh) 基于互联网大数据的知识产权风险智能分析方法
CN109286622B (zh) 一种基于学习规则集的网络入侵检测方法
CN113536020B (zh) 数据查询的方法、存储介质和计算机程序产品
CN114691868A (zh) 文本聚类方法、装置及电子设备
CN112784008B (zh) 案件相似度确定方法及装置、存储介质、终端
CN114494809A (zh) 特征提取模型优化方法、装置及电子设备
CN109359090A (zh) 基于卷积神经网络的文件碎片分类方法及系统
CN104468276A (zh) 基于随机抽样多分类器的网络流量识别方法
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
JP2014085996A (ja) 多クラス識別器、データ識別装置、多クラス識別、データ識別方法、及びプログラム
Dhoot et al. Efficient Dimensionality Reduction for Big Data Using Clustering Technique
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN106202562B (zh) 一种降低敏感信息误判率的方法
CN112487991B (zh) 一种基于特征自学习的高精度负荷辨识方法及系统
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 150028 Building 7, Innovation Plaza, Science and Technology Innovation City, Harbin Hi-tech Industrial Development Zone, Harbin, Heilongjiang Province (838 Shikun Road)

Applicant after: Harbin antiy Technology Group Limited by Share Ltd

Address before: 150090 Room 506, No. 162 Hongqi Street, Nangang District, Harbin Development Zone, Heilongjiang Province

Applicant before: Harbin Antiy Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 150028 building 7, innovation and entrepreneurship square, science and technology innovation city, Harbin high tech Industrial Development Zone, Harbin, Heilongjiang Province (No. 838, Shikun Road)

Patentee after: Antan Technology Group Co.,Ltd.

Address before: 150028 building 7, innovation and entrepreneurship square, science and technology innovation city, Harbin high tech Industrial Development Zone, Harbin, Heilongjiang Province (No. 838, Shikun Road)

Patentee before: Harbin Antian Science and Technology Group Co.,Ltd.