CN113094713A - 一种自适应的主机入侵检测序列特征提取方法及系统 - Google Patents

一种自适应的主机入侵检测序列特征提取方法及系统 Download PDF

Info

Publication number
CN113094713A
CN113094713A CN202110645190.2A CN202110645190A CN113094713A CN 113094713 A CN113094713 A CN 113094713A CN 202110645190 A CN202110645190 A CN 202110645190A CN 113094713 A CN113094713 A CN 113094713A
Authority
CN
China
Prior art keywords
length
fixed
sequence
subsequence
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110645190.2A
Other languages
English (en)
Other versions
CN113094713B (zh
Inventor
陈文�
廖小瑶
黄登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan gehou Technology Co.,Ltd.
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110645190.2A priority Critical patent/CN113094713B/zh
Publication of CN113094713A publication Critical patent/CN113094713A/zh
Application granted granted Critical
Publication of CN113094713B publication Critical patent/CN113094713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了自适应的主机入侵检测序列特征提取方法,包括:提取定长特征子序列和变长特征子序列,得到定长语料库与变长语料库,取并集得到特征语料库,统计特征语料库中的子序列在待测试系统调用序列出现的频率得到特征向量,利用自动编码机对特征向量进行降维,将降维后的特征向量输入分类器进行分类,并得到分类结果。还公开了自适应的主机入侵检测序列特征提取系统,包括定长特征提取模块、变长特征提取模块、特征融合模块、自动编码机和分类器。结合定长和变长特征对主机程序行为进行描述,具有更好的自适应性,通过变长特征提取能够更好的刻画给定程序行为,基于TF‑IDF的定长特征选取方法,能够进一步提取出对分类贡献较高的特征。

Description

一种自适应的主机入侵检测序列特征提取方法及系统
技术领域
本发明涉及主机入侵检测技术领域,具体的说,是一种自适应的主机入侵检测序列特征提取方法及系统。
背景技术
主机入侵检测技术是一种通过事后分析从而防止进一步攻击的入侵检测技术,具备检测性价比高、检测视野集中、易于用户剪裁、无需另设硬件平台等优点。系统调用序列代表了主机中运行进程的行为特征,是主机入侵检测系统重要的数据来源。系统调用序列通常被抽象为代表调用函数的数字向量,各个系统调用之间的组合顺序代表了进程潜在的行动目标。传统的主机入侵检测特征提取方法有基于窗口的特征提取方法,主要利用定长窗口对系统调用序列进行划分得到子序列,并直接统计子序列在进程系统调用过程中出现的频率作为检测模型的输入特征,存在窗口长度难以自适应选择,以及如何从窗口序列中选取有效的分类特征的困难。尤其在处理海量系统调用序列集时,不恰当的窗口长度划分会导致系统调用子序列数量爆炸式增长,从而造成计算成本增加。并且子序列对窗口长度敏感,过短的子序列容易被攻击者绕过,而长子序列的长度与所用数据相关性较高,利用长序列进行训练容易造成分类模型的过拟合。
发明内容
本发明的目的在于提供一种自适应的主机入侵检测序列特征提取方法及系统,用于解决现有技术中基于定长窗口的特征提取方法不容易选择合适的窗口长度导致系统调用子序列数量爆炸式增长、计算成本增加以及过短的子序列容易被攻击者绕过,而长子序列的长度与所用数据相关性较高,利用长序列进行训练容易造成分类模型的过拟合的问题。
本发明通过下述技术方案解决上述问题:
一种自适应的主机入侵检测序列特征提取方法,包括:
步骤S100:从正常系统调用序列数据集提取定长特征子序列,包括:
步骤S110:利用N-Gram(N元模型)以设定的滑动窗口值将输入的系统调用序列切分成定长子序列;
步骤S120:利用TF-IDF(词频-逆文本频率)对各个定长子序列进行加权,TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency),TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。然后根据权重的大小对定长子序列进行筛选得到定长特征子序列的集合即为定长语料库;
步骤S200:从正常系统调用序列数据集提取变长特征子序列,包括:
步骤S210:判断输入的系统调用序列的长度是否大于指定单位长度d,若是,进入步骤S220;否则进入步骤S230;
步骤S220:将系统调用序列进行切分,得到系统调用子序列,进入下一步;
步骤S230:对每个系统调用序列或系统调用子序列分别建立后缀树,并筛选出每个系统调用序列或系统调用子序列的最长重复子串作为变长特征子序列,变长特征子序列的集合为变长语料库;
步骤S300:将得到的定长语料库与变长语料库取并集得到特征语料库,统计特征语料库中的子序列在待测试系统调用序列出现的频率得到特征向量,利用自动编码机对特征向量进行降维,将降维后的特征向量输入分类器进行分类,并得到分类结果。
本发明结合了定长特征和变长特征对主机程序行为进行描述,较传统的方法的完全定长窗口划分法具有更好的自适应性,通过变长特征提取能够更好的刻画给定程序行为,而基于TF-IDF的定长特征选取方法,能够进一步提取出对分类贡献较高的特征,从而使入侵检测的特征描述更全面、客观。
所述步骤S120具体包括:
步骤S121:统计定长子序列ti出现在所有系统调用序列中的频数,计算序列频数反比:
Figure 100002_DEST_PATH_IMAGE001
其中,N为系统调用序列数据集中系统调用序列的总数,
Figure DEST_PATH_IMAGE002
为系统调用序列数据集中的系统调用序列中出现过定长子序列ti的序列数;
步骤S122:计算定长子序列ti在系统调用序列
Figure 100002_DEST_PATH_IMAGE003
中出现的频数frei
Figure DEST_PATH_IMAGE004
得到所有定长子序列t={t1,t2,…,tm}出现在系统调用序列
Figure 838421DEST_PATH_IMAGE003
的频率向量Fre:
Fre=[fre1,fre2,…,frem]
步骤S123:计算进程行为权重
Figure 100002_DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
变换得到:
Figure 100002_DEST_PATH_IMAGE007
步骤S124:选取每个进程系统调用序列中进程行为权重前b位的定长子序列收录进定长子序列语料库
Figure DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
其中,tjb代表第j个系统调用序列
Figure 349037DEST_PATH_IMAGE003
中的第b个定长子序列,t1b代表第1个系统调用序列
Figure DEST_PATH_IMAGE010
中的第b个定长子序列,tnb代表第n个系统调用序列
Figure 100002_DEST_PATH_IMAGE011
中的第b个定长子序列,0<j≤n,n表示进程的数量。
一种自适应的主机入侵检测序列特征提取系统,包括定长特征提取模块、变长特征提取模块、特征融合模块、自动编码机模块和分类器模块,其中:
定长特征提取模块,用于将正常的系统调用序列利用N-Gram切分成定长特征子序列,并利用TF-IDF对各个定长特征子序列进行加权,再根据权重的大小对定长特征子序列进行筛选得到定长特征子序列集即定长子序列语料库;
变长特征提取模块,用于分别对正常的系统调用序列建立后缀树,并筛选出最长重复子串作为变长特征子序列,变长特征子序列集即为变长子序列语料库;
特征融合模块,用于整合定长特征提取模块和变长特征提取模块的提取结果,分别统计定长子序列语料库与变长子序列语料库中的子序列在待测试系统调用序列出现的频率得到特征向量;
自动编码机模块,用于对特征向量进行降维处理;
分类器模块,用于对降维后的特征向量进行分类。
本发明与现有技术相比,具有以下优点及有益效果:
本发明结合了定长和变长特征对主机程序行为进行描述,较传统的方法的完全定长窗口划分法具有更好的自适应性,通过变长特征提取能够更好的刻画给定程序行为,而基于TF-IDF的定长特征选取方法,能够进一步提取出对分类贡献较高的特征,从而使入侵检测的特征描述更全面、客观。
附图说明
图1为本发明的系统框图;
图2为本发明中的定长特征提取流程图;
图3为本发明中的变长特征提取流程图;
图4为后缀树建立过程示意图;
图5为后缀树建立结果示意图;
图6为ADFA-LD数据集在支持向量机、朴素贝叶斯、逻辑回归、随机森林以及梯度下降树的ROC曲线;
图7为UNM数据集在支持向量机、朴素贝叶斯、逻辑回归、随机森林以及梯度下降树的ROC曲线。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
一种自适应的主机入侵检测序列特征提取方法,包括:
S1:提取定长特征:将正常系统调用训练数据集的系统调用序列(即训练数据)
Figure DEST_PATH_IMAGE012
利用N-Gram(N元模型)滑动窗口值将每个系统调用序列切分成定长子序列,并利用TF-IDF对各个子序列进行加权,然后根据权重的大小对子序列进行筛选得到定长子序列,定长子序列集即为定长语料库,如图2所示。
上述步骤S1中利用TF-IDF对各个子序列进行加权的计算方法如下:
Figure DEST_PATH_IMAGE013
:计算序列频数反比,首先利用N-Gram将系统调用序列划分为长度为2的等长子序列,即长度为2的子序列为一个定长子序列。然后统计各个定长子序列ti出现在不同系统调用序列
Figure 551610DEST_PATH_IMAGE003
中的频数。即TF-IDF方法中的IDF逆向文件频率概念,其中N为训练序列的总数,
Figure DEST_PATH_IMAGE014
为系统调用序列数据集中的系统调用序列中出现过定长子序列ti的序列数。
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
:计算单个序列词汇频数,统计各个定长子序列ti在单个系统调用序列
Figure DEST_PATH_IMAGE017
中出现的频数frei。即TF-IDF方法中的TF词频概念。Fre代表系统调用序列
Figure 805874DEST_PATH_IMAGE017
中所有定长子序列t={t1,t2,...,tm}分别出现的频率向量。
Figure 89088DEST_PATH_IMAGE004
Fre=[fre1,fre2,…,frem]
Figure DEST_PATH_IMAGE018
:计算进程行为权重,通过计算出的单个序列词汇频数与序列频数反比可得进程行为权重
Figure 380392DEST_PATH_IMAGE005
。为了防止序列频数反比的分母为0,所以将公式进行了转换。
Figure 861140DEST_PATH_IMAGE006
Figure 325619DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE019
:系统调用序列定长语料库,因为进程行为权重
Figure 666602DEST_PATH_IMAGE005
表示了定长子序列ti 的重要性,从而说明了该定长子序列对异常检测的分类贡献。根据每个系统调用序列进程行为权重的大小进行筛选,选取单个进程中进程行为权重前三位收录进定长序列语料库。但是因为从不同进程的系统调用序列所筛选出的定长子序列可能相同,而相同定长序列不重复收录,所以语料库的长度不会呈线性增长。tji 代表系统调用序列
Figure 128807DEST_PATH_IMAGE017
中的第i个定长子序列。
Figure 148716DEST_PATH_IMAGE009
S2:分别对每个正常的系统调用序列建立后缀树,并筛选出最长重复子串作为变长特征子序列,变长特征子序列集即为变长子序列语料库。提取变长子序列模块整体流程如图3。
如图3所示,S2步骤中系统调用序列建立后缀树的过程如下:
Figure DEST_PATH_IMAGE020
判断系统调用序列的长度。若系统调用序列长度大于500,则进行第
Figure DEST_PATH_IMAGE021
步,否则进行第
Figure DEST_PATH_IMAGE022
步。
Figure 541520DEST_PATH_IMAGE021
切分长度过长的系统调用序列。长度为len>500的系统调用序列seqi={s1,s2,...,s500,...,slen},将序列以d为单位切分成子序列{seqi1,seqi2,...,seqij}。然后进行第
Figure 533747DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
步。
Figure 386427DEST_PATH_IMAGE022
构建后缀树。Ukkonen算法是一个经典的后缀树算法,其利用了路径压缩和后缀链的概念。Ukkonen算法的基本思路是假设现有一非空字符串S,将字符c添加到非空字符串S的所有后缀上,即可得到S+c字符串的所有后缀。此处利用Ukkonen算法将单个系统调用序列构建后缀树,例如序列seq=”6414143”,第一步,S=”6” , S字符串的后缀树建树结果如图4中(1)所示,第二步,S=”6”,c=’4’,所以S+c字符串的所有后缀为seq1=”4”,seq2=”64”,S+c字符串的后缀树建树结果如图4中(2)所示,第三步,S=”64”, c=’1’,所以S+c字符串的所有后缀为seq1=”1”,seq2=”41” ,seq3=”641”,S+c字符串的后缀树建树结果如图4中(3)所示,以此类推,seq=”6414143”最终的建树结果如图5所示,图5中$为字符串的结束符号,字符串没有结束的时候没有$,字符串结束时才有$。
Figure 893632DEST_PATH_IMAGE023
搜索最长重复子串。为单个系统调用序列建立后缀树之后,搜索系统调用序列的最长重复子串pk,即搜索后缀树的最深非叶子结点。
Figure DEST_PATH_IMAGE024
将从所有正常系统调用序列中提取出的最长重复子串进行整合得到变长子序列语料库。
Figure 840859DEST_PATH_IMAGE025
S3:将得到的定长子序列语料库与变长子序列语料库取并集得到特征语料库。其中
Figure DEST_PATH_IMAGE026
代表定长子序列语料库,即各个提取出的定长特征子序列的集合,
Figure 468019DEST_PATH_IMAGE027
代表变长子序列语料库,即各个提取出的变长特征子序列的集合。
Figure DEST_PATH_IMAGE028
S4:统计特征语料库中的子序列在待测试系统调用序列出现的频率作为特征向量。
S5:为了避免步骤S4中得到的特征向量维度过高,利用自动编码机对步骤S4得到的特征向量进行降维。
S6:将步骤S5的特征向量输入分类器进行分类,并得到分类结果。
实施例2:
结合附图1所示,一种自适应的主机入侵检测序列特征提取系统,包括定长特征提取模块、变长特征提取模块、特征融合模块、自动编码机模块和分类器模块,其中:
定长特征提取模块:将输入的正常系统调用序列利用N-Gram技术以窗口值对系统调用序列进行切分。统计各个定长子序列
Figure 475289DEST_PATH_IMAGE029
出现在不同系统调用序列
Figure 469790DEST_PATH_IMAGE017
中的频数。然后,计算进程行为权重,通过计算出的单个定长子序列频数与所有序列频数反比可得进程行为权重
Figure 17446DEST_PATH_IMAGE005
。因为进程行为权重
Figure 734997DEST_PATH_IMAGE005
表示了定长子序列ti的重要性,从而说明了该定长子序列对异常检测的分类贡献。最后,根据每个系统调用序列进程行为权重的大小进行筛选,选取单个进程中进程行为权重前三位收录进定长序列语料库
Figure DEST_PATH_IMAGE030
变长特征提取模块:首先判断输入的正常系统调用序列的长度。若系统调用序列长度大于指定长度d,则切分长度过长的系统调用序列。长度len>d的系统调用序列,将序列以d为单位切分成子序列,然后,将每一个子序列构建为后缀树。为单个系统调用序列建立后缀树之后,搜索系统调用序列的最长重复子串pk,即搜索后缀树的最深非叶子结点。最后,将从所有正常系统调用序列中提取出的最长重复子串进行整合得到变长子序列语料库
Figure 975486DEST_PATH_IMAGE031
特征融合模块:整合定长和变长特征提取模块的结果,分别对所述的定长与变长子序列语料库中的子序列进行频率计数,并将计数结果作为初始特征向量;随后将初始特征向量利用自编码器进行降维,将降维后的特征向量作为主机入侵检测模型的特征向量。
自动编码机模块:用于特征向量降维。利用自动编码机对特征向量进行降维。
分类器模块:利用支持向量机对所产生的特征向量进行分类。
为了证明本发明的有效性,本发明分别在由澳大利亚国防学院于2013年发布ADFA-LD数据集与来自新墨西哥大学免疫系统网站的UNM数据集上进行了准确率实验与监测时间实验。
为了验证所选特征在不同模型的效果,将从ADFA-LD数据集中提取的特征向量,分别使用支持向量机、朴素贝叶斯、逻辑回归、随机森林以及梯度下降树等模型进行计算,ROC曲线如图6。从实验结果可以看出,利用本发明提取出的特征能够对系统调用序列进行有效分类。以及将从UNM数据集中提取的特征向量,分别使用支持向量机、朴素贝叶斯、逻辑回归、随机森林以及梯度下降树等模型进行计算,ROC曲线如图7。由结果可知,本算法在UNM数据集上表现依旧良好,支持向量机、逻辑回归、随机森林以及梯度下降决策树效果与ADFA-LD数据集上的精确率结果相近,但误报率却下降至0%。从而说明了本算法并不依赖于特定数据,且分类效果稳定。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (3)

1.一种自适应的主机入侵检测序列特征提取方法,其特征在于,包括:
步骤S100:从正常系统调用序列数据集提取定长特征子序列,包括:
步骤S110:利用N元模型N-Gram以设定的滑动窗口值将输入的系统调用序列切分成定长子序列;
步骤S120:利用词频-逆文本频率TF-IDF对各个定长子序列进行加权,根据权重的大小对定长子序列进行筛选得到定长特征子序列的集合即为定长语料库;
步骤S200:从正常系统调用序列数据集提取变长特征子序列,包括:
步骤S210:判断输入的系统调用序列的长度是否大于指定单位长度d,若是,进入步骤S220;否则进入步骤S230;
步骤S220:将系统调用序列进行切分,得到系统调用子序列,进入下一步;
步骤S230:对每个系统调用序列或系统调用子序列分别建立后缀树,并筛选出每个系统调用序列或系统调用子序列的最长重复子串作为变长特征子序列,变长特征子序列的集合为变长语料库;
步骤S300:将得到的定长语料库与变长语料库取并集得到特征语料库,统计特征语料库中的子序列在待测试系统调用序列出现的频率得到特征向量,利用自动编码机对特征向量进行降维,将降维后的特征向量输入分类器进行分类,并得到分类结果。
2.根据权利要求1所述的一种自适应的主机入侵检测序列特征提取方法,其特征在于,所述步骤S120具体包括:
步骤S121:统计定长子序列ti出现在所有系统调用序列中的频数,计算序列频数反比:
Figure DEST_PATH_IMAGE001
其中,N为系统调用序列数据集中系统调用序列的总数,
Figure DEST_PATH_IMAGE003
为系统调用序列数据集中的系统调用序列中出现过定长子序列ti的序列数;
步骤S122:计算定长子序列ti在系统调用序列
Figure 200902DEST_PATH_IMAGE004
中出现的频数frei
Figure DEST_PATH_IMAGE005
得到所有定长子序列t={t1,t2,…,tm}出现在系统调用序列
Figure 861691DEST_PATH_IMAGE004
的频率向量Fre:
Fre=[fre1,fre2,…,frem];
步骤S123:计算进程行为权重
Figure 82588DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
变换得到:
Figure 92001DEST_PATH_IMAGE008
步骤S124:选取每个进程系统调用序列中进程行为权重前b位的定长子序列收录进定长子序列语料库
Figure DEST_PATH_IMAGE009
Figure 562296DEST_PATH_IMAGE010
其中,tjb代表第j个系统调用序列
Figure 292355DEST_PATH_IMAGE004
中的第b个定长子序列, t1b代表第1个系统调用序列
Figure DEST_PATH_IMAGE011
中的第b个定长子序列, tnb代表第n个系统调用序列
Figure 351447DEST_PATH_IMAGE012
中的第b个定长子序列,0<j≤n,n表示进程的数量。
3.一种自适应的主机入侵检测序列特征提取系统,其特征在于,包括定长特征提取模块、变长特征提取模块、特征融合模块、自动编码机模块和分类器模块,其中:
定长特征提取模块,用于将正常的系统调用序列利用N 元模型N-Gram切分成定长特征子序列,并利用词频-逆文本频率TF-IDF对各个定长特征子序列进行加权,再根据权重的大小对定长特征子序列进行筛选得到定长特征子序列集即定长子序列语料库;
变长特征提取模块,用于分别对正常的系统调用序列建立后缀树,并筛选出最长重复子串作为变长特征子序列,变长特征子序列集即为变长子序列语料库;
特征融合模块,用于整合定长特征提取模块和变长特征提取模块的提取结果,分别统计定长子序列语料库与变长子序列语料库中的子序列在待测试系统调用序列出现的频率得到特征向量;
自动编码机模块,用于对特征向量进行降维处理;
分类器模块,用于对降维后的特征向量进行分类。
CN202110645190.2A 2021-06-09 2021-06-09 一种自适应的主机入侵检测序列特征提取方法及系统 Active CN113094713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110645190.2A CN113094713B (zh) 2021-06-09 2021-06-09 一种自适应的主机入侵检测序列特征提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110645190.2A CN113094713B (zh) 2021-06-09 2021-06-09 一种自适应的主机入侵检测序列特征提取方法及系统

Publications (2)

Publication Number Publication Date
CN113094713A true CN113094713A (zh) 2021-07-09
CN113094713B CN113094713B (zh) 2021-08-13

Family

ID=76664895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110645190.2A Active CN113094713B (zh) 2021-06-09 2021-06-09 一种自适应的主机入侵检测序列特征提取方法及系统

Country Status (1)

Country Link
CN (1) CN113094713B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113654818A (zh) * 2021-07-21 2021-11-16 广州大学 基于胶囊网络的设备故障检测方法、系统、装置及介质
CN113670608A (zh) * 2021-07-21 2021-11-19 广州大学 基于后缀树和向量机的故障检测方法、系统、装置及介质
CN115378702A (zh) * 2022-08-22 2022-11-22 重庆邮电大学 一种基于Linux系统调用的攻击检测系统
CN115859277A (zh) * 2023-02-07 2023-03-28 四川大学 一种基于系统调用序列的主机入侵检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1773517A (zh) * 2005-11-10 2006-05-17 上海交通大学 基于中文分词技术的蛋白质序列特征提取方法
US20090307213A1 (en) * 2008-05-07 2009-12-10 Xiaotie Deng Suffix Tree Similarity Measure for Document Clustering
CN102831431A (zh) * 2012-02-05 2012-12-19 四川大学 一种基于层次聚类的检测器训练方法
CN107241622A (zh) * 2016-03-29 2017-10-10 北京三星通信技术研究有限公司 视频定位处理方法、终端设备及云端服务器
CN109271517A (zh) * 2018-09-29 2019-01-25 东北大学 Ig tf-idf文本特征向量生成及文本分类方法
CN109308413A (zh) * 2018-11-28 2019-02-05 杭州复杂美科技有限公司 特征提取方法、模型生成方法及恶意代码检测方法
CN110321563A (zh) * 2019-06-28 2019-10-11 浙江大学 基于混合监督模型的文本情感分析方法
CN110826337A (zh) * 2019-10-08 2020-02-21 西安建筑科技大学 一种短文本语义训练模型获取方法及相似度匹配算法
CN111797394A (zh) * 2020-06-24 2020-10-20 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1773517A (zh) * 2005-11-10 2006-05-17 上海交通大学 基于中文分词技术的蛋白质序列特征提取方法
US20090307213A1 (en) * 2008-05-07 2009-12-10 Xiaotie Deng Suffix Tree Similarity Measure for Document Clustering
CN102831431A (zh) * 2012-02-05 2012-12-19 四川大学 一种基于层次聚类的检测器训练方法
CN107241622A (zh) * 2016-03-29 2017-10-10 北京三星通信技术研究有限公司 视频定位处理方法、终端设备及云端服务器
CN109271517A (zh) * 2018-09-29 2019-01-25 东北大学 Ig tf-idf文本特征向量生成及文本分类方法
CN109308413A (zh) * 2018-11-28 2019-02-05 杭州复杂美科技有限公司 特征提取方法、模型生成方法及恶意代码检测方法
CN110321563A (zh) * 2019-06-28 2019-10-11 浙江大学 基于混合监督模型的文本情感分析方法
CN110826337A (zh) * 2019-10-08 2020-02-21 西安建筑科技大学 一种短文本语义训练模型获取方法及相似度匹配算法
CN111797394A (zh) * 2020-06-24 2020-10-20 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JHONATHAN DE GODOI BRANDÃO 等: "N-Gram and TF-IDF for Feature Extraction on Opinion Mining of Tweets with SVM Classifier", 《2019 INTERNATIONAL ARTIFICIAL INTELLIGENCE AND DATA PROCESSING SYMPOSIUM (IDAP)》 *
赵岚 等: "一种自适应的多级入侵检测模型", 《计算机安全》 *
黄飞: "基于进程行为的主机异常检测系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113654818A (zh) * 2021-07-21 2021-11-16 广州大学 基于胶囊网络的设备故障检测方法、系统、装置及介质
CN113670608A (zh) * 2021-07-21 2021-11-19 广州大学 基于后缀树和向量机的故障检测方法、系统、装置及介质
CN113654818B (zh) * 2021-07-21 2022-09-16 广州大学 基于胶囊网络的设备故障检测方法、系统、装置及介质
CN113670608B (zh) * 2021-07-21 2022-09-16 广州大学 基于后缀树和向量机的故障检测方法、系统、装置及介质
CN115378702A (zh) * 2022-08-22 2022-11-22 重庆邮电大学 一种基于Linux系统调用的攻击检测系统
CN115378702B (zh) * 2022-08-22 2024-04-02 重庆邮电大学 一种基于Linux系统调用的攻击检测系统
CN115859277A (zh) * 2023-02-07 2023-03-28 四川大学 一种基于系统调用序列的主机入侵检测方法

Also Published As

Publication number Publication date
CN113094713B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113094713B (zh) 一种自适应的主机入侵检测序列特征提取方法及系统
CN111027069B (zh) 恶意软件家族检测方法、存储介质和计算设备
CN102662952B (zh) 一种基于层次的中文文本并行数据挖掘方法
CN112507699B (zh) 一种基于图卷积网络的远程监督关系抽取方法
US20120078631A1 (en) Recognition of target words using designated characteristic values
CN112905421A (zh) 基于注意力机制的lstm网络的容器异常行为检测方法
CN107944273B (zh) 一种基于tf-idf算法和svdd算法的恶意pdf文档检测方法
CN101398820A (zh) 一种大规模关键词匹配方法
CN106294618A (zh) 搜索方法及装置
CN112464233B (zh) 一种云平台上基于rnn的恶意软件检测方法
CN110297879A (zh) 一种基于大数据的数据去重的方法、装置及存储介质
CN113691542B (zh) 基于HTTP请求文本的Web攻击检测方法及相关设备
CN113139189B (zh) 一种挖矿恶意软件的识别方法、系统和存储介质
Chen et al. Malicious URL detection based on improved multilayer recurrent convolutional neural network model
CN111651594B (zh) 基于键值记忆网络的案件案由分类方法及介质
CN114338199A (zh) 一种基于注意力机制的恶意流量检测方法和系统
CN112613032B (zh) 基于系统调用序列的主机入侵检测方法及装置
CN111737694B (zh) 一种基于行为树的恶意软件同源性分析方法
Zhao et al. Debt detection in social security by sequence classification using both positive and negative patterns
CN116318845B (zh) 一种正负样本比例不平衡条件下的dga域名检测方法
CN112052453A (zh) 基于Relief算法的webshell检测方法及装置
CN116502091A (zh) 一种基于lstm和注意力机制的网络入侵检测方法
CN116485512A (zh) 基于强化学习的银行数据分析方法及系统
Yao et al. Method and dataset mining in scientific papers
Liao et al. Anomaly Detection of System Call Sequence Based on Dynamic Features and Relaxed‐SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220330

Address after: 610000 No. 210, second floor, No. 115, Section 1, Jinhua Road, Jinjiang District, Chengdu, Sichuan Province (self numbering)

Patentee after: Sichuan gehou Technology Co.,Ltd.

Address before: 610000, No. 24, south section of Ring Road, Sichuan, Chengdu

Patentee before: SICHUAN University

TR01 Transfer of patent right