CN110990837B - 系统调用行为序列降维方法、系统、设备和存储介质 - Google Patents

系统调用行为序列降维方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN110990837B
CN110990837B CN202010132344.3A CN202010132344A CN110990837B CN 110990837 B CN110990837 B CN 110990837B CN 202010132344 A CN202010132344 A CN 202010132344A CN 110990837 B CN110990837 B CN 110990837B
Authority
CN
China
Prior art keywords
system call
word vector
sequence
call behavior
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010132344.3A
Other languages
English (en)
Other versions
CN110990837A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangyu Safety Technology Shenzhen Co ltd
Original Assignee
Wangyu Safety Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangyu Safety Technology Shenzhen Co ltd filed Critical Wangyu Safety Technology Shenzhen Co ltd
Priority to CN202010132344.3A priority Critical patent/CN110990837B/zh
Publication of CN110990837A publication Critical patent/CN110990837A/zh
Application granted granted Critical
Publication of CN110990837B publication Critical patent/CN110990837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及计算机安全技术领域,特别涉及一种基于词向量的系统调用行为序列降维方法、系统、电子设备和存储介质,该方法包括:撷取系统调用行为模式并得到系统调用行为模式对应的参数;当获得一组长度为W的系统调用行为序列时,根据词向量编码模型对系统调用行为序列进行降维处理,以获得维度为预设维度N的系统调用行为词向量序列;对N维的系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F。该基于词向量的系统调用行为序列降维方法、系统、电子设备和存储介质,能够自动撷取具代表性的序列特征,有效降低系统调用行为序列的维度,可提升后续进行机器学习的准确度及演算速率。

Description

系统调用行为序列降维方法、系统、设备和存储介质
技术领域
本发明涉及计算机安全技术领域,特别涉及一种基于词向量的系统调用行为序列降维方法、系统、电子设备和存储介质。
背景技术
目前市面上大部分对于异常系统调用入侵检测产品的防御手法仅能针对已经被清楚分析且了解的网路攻击行为,以人为定义规则库的方式来加以侦测,而一些经由变形方式或针对现有攻击做小幅度修改的攻击手法,往往成为异常系统调用入侵检测的弱点之一,更遑论对于未知攻击而言,此类侦测方式更可说毫无招架之力。
另外一种基于人工智能的异常系统调用入侵检测产品,是以One Class SVM(异常检测)为主体去自动归纳正常用户或是正常程序的行为模式,如未来发生任何明显偏离正常行为的活动都被视为是入侵。采取此种设计模式的好处,乃是系统安全人员不需经常更新入侵攻击的行为样式,亦可以侦测到未知的攻击,故此种入侵检测方式于近年来被广泛运用。
但随着大数据及人工智能时代的来临,以One Class SVM有效的归纳正常用户或是正常程序的行为模式,在嵌入式系统或芯片的实作上将变得越来越困难,主因是系统调用行为序列的维度,会随着人工智能辅助攻击手段及大数据的发展而变得越来越巨大,举例而言:One Class SVM分类法是O(n2)的算法,即演算时间复杂度会随着系统调用行为序列的维度呈现平方关系。也就是说,过大的系统调用行为序列维度,极不利于运算力较低的嵌入式系统或芯片进行实时处理。也就是说,过大的系统调用行为序列维度,极不利于运算力较低的嵌入式系统或芯片进行实时处理,但如以人工手段进行系统调用行为序列的降维,又可能会过于主观且不全面,从而进一步导致系统的侦测准确率受到严重影响。
发明内容
本发明实施方式的目的在于提供一种基于词向量的系统调用行为序列降维方法、系统、电子设备和存储介质,能够自动撷取具代表性的序列特征,有效降低系统调用行为序列的维度,不仅可提升后续进行机器学习的准确度及演算速率,亦不受人工手段降维的主观因素影响,并可有效将其实践于嵌入式系统或芯片进行实时处理。
为解决上述技术问题,本发明采用以下技术方案:
第一方面,提供一种基于词向量的系统调用行为序列降维方法,包括:
每间隔预设单位时长,撷取一个特定程序当下的系统调用行为模式;
根据预设数值对应关系,得到所述系统调用行为模式对应的参数;当所述参数的累积个数大于或等于预设个数阈值W时,获得一组长度为W的系统调用行为序列;
根据词向量编码模型对所述系统调用行为序列进行降维处理,以获得维度为预设维度N的系统调用行为词向量序列;其中,N<W,所述词向量编码模型为基于神经网络初始化的对应所述系统调用行为序列的词向量编码模型;
对N维的所述系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F。
优选地,所述每间隔预设单位时长,撷取一个特定程序当下的系统调用行为模式,包括:预先定义T=1为撷取特定程序当下的系统调用行为模式的初始时间,每间隔预设单位时长对应撷取一个所述系统调用行为模式;
所述当所述参数的累积个数大于或等于预设个数阈值W时,获得一组长度为W的系统调用行为序列,包括:重复撷取所述特定程序当下的系统调用行为模式直到T=W时,得到一组长度为W的系统调用行为序列。
优选地,所述降维处理包括训练过程和编码过程;所述词向量编码模型包括编码器和译码器;
所述训练过程包括:通过独热编码算法,将W维的所述系统调用行为序列转化成独热编码格式的V维序列,将若干个长度为V的所述V维序列通过所述词向量编码模型进行训练,直到训练准确度大于或等于预设标准门坎值时,获得并保存训练结果;
所述编码过程包括:输入所述V维序列,通过所述编码器将所述V维序列编码为维度为预设维度N的系统调用行为词向量序列;通过所述译码器将所述系统调用行为词向量序列还原成V维向量,以便用所述V维向量表示各个词汇在独热编码周围可能出现的几率。
优选地,所述对N维的所述系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F包括:重复所述编码过程直到获得S组长度为N的所述系统调用行为词向量序列,对所述S组长度为N的所述系统调用行为词向量序列进行平均运算,得到一组长度为N的系统调用行为模式特征词向量F,以便用所述系统调用行为模式特征词向量F代表所述系统调用行为序列的隐藏特征,其中,S为本次系统调用行为序列的总长度。
第二方面,提供一种基于词向量的系统调用行为序列降维系统,包括:
系统调用行为模式感测模块,用于每间隔预设单位时长,撷取一个特定程序当下的系统调用行为模式;
系统调用行为模式数值对应模块,用于根据预设数值对应关系,得到所述系统调用行为模式对应的参数;当所述参数的累积个数大于或等于预设个数阈值W时,获得一组长度为W的系统调用行为序列;
系统调用行为序列特征撷取模块,用于根据词向量编码模型对所述系统调用行为序列进行降维处理,以获得维度为预设维度N的系统调用行为词向量序列;其中,N<W,所述词向量编码模型为基于神经网络初始化的对应所述系统调用行为序列的词向量编码模型;
词向量平均运算模块,用于对N维的所述系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F。
优选地,所述系统调用行为模式感测模块具体包括:
预设单元,用于预先定义T=1为撷取特定程序当下的系统调用行为模式的初始时间;
撷取单元,用于每间隔预设单位时长对应撷取一个所述系统调用行为模式;
所述系统调用行为模式数值对应模块具体包括:
编号单元,用于根据预设数值对应关系,得到所述系统调用行为模式对应的参数;
获得单元,用于重复撷取所述特定程序当下的系统调用行为模式直到T=W时,得到一组长度为W的系统调用行为序列。
优选地,所述降维处理包括训练过程和编码过程;所述词向量编码模型包括编码器和译码器;
所述训练过程包括:通过独热编码算法,将W维的所述系统调用行为序列转化成独热编码格式的V维序列,将若干个长度为V的所述V维序列通过所述词向量编码模型进行训练,直到训练准确度大于或等于预设标准门坎值时,获得并保存训练结果;
所述编码过程包括:输入所述V维序列,通过所述编码器将所述V维序列编码为维度为预设维度N的系统调用行为词向量序列;通过所述译码器将所述系统调用行为词向量序列还原成V维向量,以便用所述V维向量表示各个词汇在独热编码周围可能出现的几率。
优选地,所述词向量平均运算模块具体包括:
重复单元,用于重复所述编码过程直到获得S组长度为N的所述系统调用行为词向量序列;
平均单元,用于对所述S组长度为N的所述系统调用行为词向量序列进行平均运算,得到一组长度为N的系统调用行为模式特征词向量F,以便用所述系统调用行为模式特征词向量F代表所述系统调用行为序列的隐藏特征,其中,S为本次系统调用行为序列的总长度。
第三方面,提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的基于词向量的系统调用行为序列降维方法的步骤。
第四方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于词向量的系统调用行为序列降维方法的步骤。
本发明的有益效果是:一种基于词向量的系统调用行为序列降维方法、系统、电子设备和存储介质,所述方法包括:每间隔预设单位时长,撷取一个特定程序当下的系统调用行为模式;根据预设数值对应关系,得到所述系统调用行为模式对应的参数;当所述参数的累积个数大于或等于预设个数阈值W时,获得一组长度为W的系统调用行为序列;根据词向量编码模型对所述系统调用行为序列进行降维处理,以获得维度为预设维度N的系统调用行为词向量序列;对N维的所述系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F。该基于词向量的系统调用行为序列降维方法、系统、电子设备和存储介质,能够自动撷取具代表性的序列特征,有效降低系统调用行为序列的维度,不仅可提升后续进行机器学习的准确度及演算速率,亦不受人工手段降维的主观因素影响,并可有效将其实践于嵌入式系统或芯片进行实时处理。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明的第一实施方式的基于词向量的系统调用行为序列降维方法的流程图;
图2是本发明的第二实施方式的基于词向量的系统调用行为序列降维方法的流程图;
图3是本发明的第二实施方式的系统调用行为序列的词向量编码模型示意图;
图4是本发明的第二实施方式的系统调用行为序列的词向量编码模型的编码器及译码器的架构示意图;
图5是本发明的第三实施方式的基于词向量的系统调用行为序列降维系统的结构示意图;
图6是本发明的第四实施方式的基于词向量的系统调用行为序列降维系统的结构示意图;
图7是本发明的第四实施方式的基于词向量的系统调用行为序列降维系统的原理图;
图8是本发明的第五实施方式的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
请参考图1,其是本发明的第一实施方式的基于词向量的系统调用行为序列降维方法的流程图。
该基于词向量的系统调用行为序列降维方法,包括:
步骤S101:每间隔预设单位时长,撷取一个特定程序当下的系统调用行为模式。
其中,步骤S101可由一种位于操作系统端,可侦测程序执行时所使用的系统调用行为模式的侦测器来执行,该侦测器可随时间变化得到一连串程序执行时系统调用行为模式的序列。例如: open、read、mmap、 mmap、open、getrlimit、 mmap、close等。系统调用行为模式的侦测器侦测到某个程序执行时,于某时间段该程序进行系统调用行为模式的序列。
步骤S102:根据预设数值对应关系,得到所述系统调用行为模式对应的参数;当所述参数的累积个数大于或等于预设个数阈值W时,获得一组长度为W的系统调用行为序列。
其中,系统调用行为模式的侦测器所侦测到的系统调用行为模式,可一对一对应至正整数域的预设编号表(该预设编号表即为预设数值对应关系),例如:open对应至编号1、read对应至编号2、mmap对应至编号3、……等,此预设数值对应关系可自行定义。
步骤S103:根据词向量编码模型对所述系统调用行为序列进行降维处理,以获得维度为预设维度N的系统调用行为词向量序列。
其中,N<W,所述词向量编码模型为基于神经网络初始化的对应所述系统调用行为序列的词向量编码模型。
其中,步骤S103是将系统调用行为模式对应的数值序列,进行词向量编码的映像函数f:NA→RB,其中N为正整数域,R为实数域,通常B<A。本映像函数的参数设定来自于系统调用行为序列的词向量编码模型。
步骤S104:对N维的所述系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F。
其中,对所述系统调用行为词向量序列进行平均运算能快速简单的获得系统调用行为模式特征词向量F。
与现有技术相比,本发明实施方式的基于词向量的系统调用行为序列降维方法,能够自动撷取具代表性的序列特征,有效降低系统调用行为序列的维度,不仅可提升后续进行机器学习的准确度及演算速率,亦不受人工手段降维的主观因素影响,并可有效将其实践于嵌入式系统或芯片进行实时处理。
请参考图2,其是本发明的第二实施方式的基于词向量的系统调用行为序列降维方法的流程图。本发明的第二实施方式在第一实施方式的基础上对一种基于词向量的系统调用行为序列降维方法的每一个步骤做了进一步说明。
该基于词向量的系统调用行为序列降维方法,包括:
步骤S201:预先定义T=1为撷取特定程序当下的系统调用行为模式的初始时间,每间隔预设单位时长对应撷取一个所述系统调用行为模式。
具体地,针对某特定程序当下系统调用行为模式进行实时撷取。本实施方式定义T=1为撷取系统调用行为模式的初始时间,每一单位时间对应撷取一个系统调用行为模式。
步骤S202:根据预设数值对应关系,得到所述系统调用行为模式对应的参数;重复撷取所述特定程序当下的系统调用行为模式直到T=W时,得到一组长度为W的系统调用行为序列。
具体地,得到一个单位时间系统调用行为模式所对应的参数,需暂存并重复前述的撷取过程直到T=W(其中,数值W的大小可视不同的系统调用行为模式的状况自行定义);当满足T=W时,将得到一组长度为W的系统调用行为序列,可将该序列定义为一单元序列X:(x1、x2、…、xW),此单元序列是后续进行降维处理的基础。
步骤S203:根据词向量编码模型对所述系统调用行为序列进行降维处理,以获得维度为预设维度N的系统调用行为词向量序列。
其中,N<W,所述词向量编码模型为基于神经网络初始化的对应所述系统调用行为序列的词向量编码模型。
其中,所述降维处理包括训练过程和编码过程;所述词向量编码模型包括编码器和译码器;
所述训练过程包括:通过独热编码算法,将W维的所述系统调用行为序列转化成独热编码格式的V维序列,将若干个长度为V的所述V维序列通过所述词向量编码模型进行训练,直到训练准确度大于或等于预设标准门坎值时,获得并保存训练结果;
所述编码过程包括:输入所述V维序列,通过所述编码器将所述V维序列编码为维度为预设维度N的系统调用行为词向量序列;通过所述译码器将所述系统调用行为词向量序列还原成V维向量,以便用所述V维向量表示各个词汇在独热编码周围可能出现的几率。
具体地,所述降维处理可分为两个阶段:训练阶段及编码阶段。
在训练阶段,先将单元序列转化成V维(x1、x2、…、xV)的独热编码(One-HotEncoding)格式,并初始化一个系统调用行为序列的词向量编码模型(如图3所示,其是本发明的第二实施方式的系统调用行为序列的词向量编码模型示意图,该图中A为Input layer输入层,B为Hidden layer隐层,C为Output layer输出层。),本模型可为一种基于神经网络的词向量编码模型。训练过程将输入多个长度为V的单元序列进行训练,直到训练准确度达到标准门坎值,即可保存此阶段的参数,进入词向量的编码阶段。
在编码阶段,将删去译码器的神经网络架构,只保留神经模型中编码器(Encoder)的架构。
具体地,所述词向量编码模型为基于神经网络初始化的对应所述系统调用行为序列的词向量编码模型,其是一种基于神经网络的词向量编码模型,其中一种型态如图3所示,主要分为编码器(WVXN)及译码器(W'NXV)。
所述词向量编码模型可透过编码器将原始输入V维(x1、x2、…、xV)的信息降低为N维(h1、h2、…、hN),并可透过译码器将降维后的信息恢复为V维(y1、y2、…、yV)。
如图4所示,其是本发明的第二实施方式的系统调用行为序列的词向量编码模型的编码器及译码器的架构示意图。本示意图表示将一个V维的独热编码序列输入Inputlayer,透过本编码器编码为300维(即预设维度N=300)的词向量序列(Hidden layer),最后透过译码器还原成V维向量,表示各个词汇在此独热编码周围可能出现的机率(Outputlayer)。该图中A为Input layer输入层,B为Hidden layer隐层,C为Output layer输出层。输入序列“the fluffy dog barked as it chased a cat”后,编码为300维序列(x1、x2……x300)再还原成V维向量,表示“the”在此独热编码周围可能出现的机率为0.15,“fluffy”在此独热编码周围可能出现的机率为0.35,“barked”在此独热编码周围可能出现的机率为0.35,……,“cat”在此独热编码周围可能出现的机率为0.05。
步骤S204:重复所述编码过程直到获得S组长度为N的所述系统调用行为词向量序列,对所述S组长度为N的所述系统调用行为词向量序列进行平均运算,得到一组长度为N的系统调用行为模式特征词向量F。
其中,S为本次系统调用行为序列的总长度。一组长度为N的系统调用行为模式特征词向量F代表所述系统调用行为序列的隐藏特征。
具体地,编码器训练完成后,继续重复前述的词向量编码过程直到T=S,其中数值S为该次系统调用序列的总长度。当满足T=S时,将得到S组长度为N的系统调用行为模式词向量序列,可将本词向量序列定义为:hx=(h1 x、h2 x、…、hN x),其中x=1~S。在T=S时,会将此S组长度为N的系统调用行为词向量序列进行平均运算,最后可得到一组长度为N的系统调用行为模式特征词向量F,以代表本次系统调用行为序列的隐藏特征。
对所述S组长度为N的所述系统调用行为词向量序列进行平均运算,其表达式如下式:
Figure DEST_PATH_IMAGE001
其中,F为一组长度为N的系统调用行为模式特征词向量,S为该次系统调用序列的总长度,hx为系统调用行为模式词向量序列。
与现有技术相比,本发明实施方式的基于词向量的系统调用行为序列降维方法,具有相当的弹性,因本降维方法可选择降维后的需求维度,故经本降维方法降维后的结果,可使用于深度学习(CNN)分类器。随着各种深度学习分类算法的进步,亦可以软件更新的方式,修改为其他深度学习分类算法,加强异常系统调用侦测的能力,且本基于词向量的系统调用行为序列降维方法,无地域及时间限制,具备鉴别迅速、正确直观,成本低廉等优点。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
以下为本发明提供的基于词向量的系统调用行为序列降维系统的实施方式。基于词向量的系统调用行为序列降维系统的实施方式与上述的基于词向量的系统调用行为序列降维方法的实施方式属于同一构思,基于词向量的系统调用行为序列降维系统的实施方式中未详尽描述的细节内容,可以参考上述基于词向量的系统调用行为序列降维方法的实施方式。
请参考图5,其是本发明的第三实施方式的基于词向量的系统调用行为序列降维系统的结构示意图。
该基于词向量的系统调用行为序列降维系统,包括:
系统调用行为模式感测模块100,用于每间隔预设单位时长,撷取一个特定程序当下的系统调用行为模式;
系统调用行为模式数值对应模块200,用于根据预设数值对应关系,得到所述系统调用行为模式对应的参数;当所述参数的累积个数大于或等于预设个数阈值W时,获得一组长度为W的系统调用行为序列;
系统调用行为序列特征撷取模块300,用于根据词向量编码模型对所述系统调用行为序列进行降维处理,以获得维度为预设维度N的系统调用行为词向量序列;其中,N<W,所述词向量编码模型为基于神经网络初始化的对应所述系统调用行为序列的词向量编码模型;
词向量平均运算模块400,用于对N维的所述系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F。
与现有技术相比,本发明实施方式的基于词向量的系统调用行为序列降维系统,能够自动撷取具代表性的序列特征,有效降低系统调用行为序列的维度,不仅可提升后续进行机器学习的准确度及演算速率,亦不受人工手段降维的主观因素影响,并可有效将其实践于嵌入式系统或芯片进行实时处理。
请参考图6,其是本发明的第四实施方式的基于词向量的系统调用行为序列降维系统的结构示意图。本实施方式与基于词向量的系统调用行为序列降维系统第三个实施方式的主要区别在于对系统调用行为模式感测模块100、系统调用行为模式数值对应模块200、系统调用行为序列特征撷取模块300和词向量平均运算模块400均进行了具体说明。
该基于词向量的系统调用行为序列降维系统,包括:
系统调用行为模式感测模块100,用于每间隔预设单位时长,撷取一个特定程序当下的系统调用行为模式;
系统调用行为模式数值对应模块200,用于根据预设数值对应关系,得到所述系统调用行为模式对应的参数;当所述参数的累积个数大于或等于预设个数阈值W时,获得一组长度为W的系统调用行为序列;
系统调用行为序列特征撷取模块300,用于根据词向量编码模型对所述系统调用行为序列进行降维处理,以获得维度为预设维度N的系统调用行为词向量序列;其中,N<W,所述词向量编码模型为基于神经网络初始化的对应所述系统调用行为序列的词向量编码模型;
词向量平均运算模块400,用于对N维的所述系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F。
其中,所述系统调用行为模式感测模块100具体包括:
预设单元1001,用于预先定义T=1为撷取特定程序当下的系统调用行为模式的初始时间;
撷取单元1002,用于每间隔预设单位时长对应撷取一个所述系统调用行为模式;
所述系统调用行为模式数值对应模块200具体包括:
编号单元2001,用于根据预设数值对应关系,得到所述系统调用行为模式对应的参数;
获得单元2002,用于重复撷取所述特定程序当下的系统调用行为模式直到T=W时,得到一组长度为W的系统调用行为序列。
其中,所述降维处理包括训练过程和编码过程;所述词向量编码模型包括编码器和译码器;
所述训练过程包括:通过独热编码算法,将W维的所述系统调用行为序列转化成独热编码格式的V维序列,将若干个长度为V的所述V维序列通过所述词向量编码模型进行训练,直到训练准确度大于或等于预设标准门坎值时,获得并保存训练结果;
所述编码过程包括:输入所述V维序列,通过所述编码器将所述V维序列编码为维度为预设维度N的系统调用行为词向量序列;通过所述译码器将所述系统调用行为词向量序列还原成V维向量,以便用所述V维向量表示各个词汇在独热编码周围可能出现的几率。
其中,所述词向量平均运算模块400具体包括:
重复单元4001,用于重复所述编码过程直到获得S组长度为N的所述系统调用行为词向量序列;
平均单元4002,用于对所述S组长度为N的所述系统调用行为词向量序列进行平均运算,得到一组长度为N的系统调用行为模式特征词向量F,以便用所述系统调用行为模式特征词向量F代表所述系统调用行为序列的隐藏特征。
其中,S为本次系统调用行为序列的总长度。
如图7所示,其是本发明的第四实施方式的基于词向量的系统调用行为序列降维系统的原理图。结合该原理图,下面具体说明基于词向量的系统调用行为序列降维系统的执行过程:
(1)经由系统调用行为模式感测模块100,针对某特定程序当下系统调用行为模式进行实时撷取。本实施方式定义T=1为撷取系统调用行为模式的初始时间,每一单位时间对应撷取一个系统调用行为模式。
(2) 利用系统调用行为模式数值对应模块200,得到每个单位时间系统调用行为模式所对应的参数,并暂存于本模块当中。重复前述的撷取过程直到T=W(其中,数值W的大小可视不同的系统调用行为模式的状况自行定义)。
(3) 当满足T=W时,本系统将得到一组长度为W的系统调用行为序列,可将该序列定义为一单元序列X:(x1、x2、…、xW),,系统调用行为模式数值对应模块200在此时,会将此单元序列传输至系统调用行为序列特征撷取模块300,该模块的功能可分为两个阶段:训练阶段及编码阶段。
(4) 在训练阶段,系统调用行为序列特征撷取模块300,会先将单元序列转化成V维(x1、x2、…、xV)的独热编码(One-Hot Encoding)格式。并初始化一个系统调用行为序列的词向量编码模型,本模型可为一种基于神经网络的词向量编码模型。训练过程将输入多个长度为V的单元序列进行训练,直到训练准确度达到标准门坎值,即可保存此阶段的参数,进入词向量编码阶段。
(5) 在词向量编码阶段,系统调用行为序列特征撷取模块300将删去译码器的神经网络架构,只保留神经模型中编码器(Encoder)的架构。词向量编码模型可透过编码器将一个V维的独热编码序列输入Input layer,透过本编码器编码为300维(即预设维度N=300)的词向量序列(Hidden layer),最后透过译码器还原成V维向量,表示各个词汇在此独热编码周围可能出现的机率(Output layer)。
(6) 本系统将重复前述的词向量编码过程直到T=S,其中数值S为该次系统调用序列的总长度。当满足T=S时,本系统将得到S组长度为N的系统调用行为模式词向量序列,可将本词向量序列定义为:hx=(h1 x、h2 x、…、hN x),其中x=1~S。词向量平均运算模块400在T=S时,会将此S组长度为N的系统调用行为词向量序列进行平均运算,最后可得到一组长度为N的系统调用行为模式特征词向量F,以代表本次系统调用序列的隐藏特征。
与现有技术相比,本发明实施方式的基于词向量的系统调用行为序列降维系统,具有相当的弹性,因本降维方法可选择降维后的需求维度,故经本降维方法降维后的结果,可使用于深度学习(CNN)分类器。随着各种深度学习分类算法的进步,亦可以软件更新的方式,修改为其他深度学习分类算法,加强异常系统调用侦测的能力,且本基于词向量的系统调用行为序列降维方法,无地域及时间限制,具备鉴别迅速、正确直观,成本低廉等优点。
以下为本发明提供的电子设备的实施方式。电子设备的实施方式与上述的基于词向量的系统调用行为序列降维方法的实施方式属于同一构思,电子设备的实施方式中未详尽描述的细节内容,可以参考上述基于词向量的系统调用行为序列降维方法的实施方式。
本发明的第五实施方式涉及一种电子设备,如图8所示,其是本发明的第五实施方式的电子设备的结构示意图。
该电子设备包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行如上述实施方式提及的基于词向量的系统调用行为序列降维方法的步骤。
处理器501、存储器502可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述基于词向量的系统调用行为序列降维方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意实施例中的基于词向量的系统调用行为序列降维方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施例所提供的基于词向量的系统调用行为序列降维方法。
以下为本发明提供的计算机可读存储介质的实施方式。计算机可读存储介质的实施方式与上述的基于词向量的系统调用行为序列降维方法的实施方式属于同一构思,计算机可读存储介质的实施方式中未详尽描述的细节内容,可以参考上述基于词向量的系统调用行为序列降维方法的实施方式。
该计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现如上述基于词向量的系统调用行为序列降维方法的步骤。
即,本领域技术人员可以理解,实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (6)

1.一种基于词向量的系统调用行为序列降维方法,其特征在于,包括:
每间隔预设单位时长,撷取一个特定程序当下的系统调用行为模式;
根据预设数值对应关系,得到所述系统调用行为模式对应的参数;当所述参数的累积个数大于或等于预设个数阈值W时,获得一组长度为W的系统调用行为序列;
根据词向量编码模型对所述系统调用行为序列进行降维处理,以获得维度为预设维度N的系统调用行为词向量序列;其中,N<W,所述词向量编码模型为基于神经网络初始化的对应所述系统调用行为序列的词向量编码模型;
对N维的所述系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F;
所述降维处理包括训练过程和编码过程;所述词向量编码模型包括编码器和译码器;
所述训练过程包括:通过独热编码算法,将W维的所述系统调用行为序列转化成独热编码格式的V维序列,将若干个长度为V的所述V维序列通过所述词向量编码模型进行训练,直到训练准确度大于或等于预设标准门坎值时,获得并保存训练结果;
所述编码过程包括:输入所述V维序列,通过所述编码器将所述V维序列编码为维度为预设维度N的系统调用行为词向量序列;通过所述译码器将所述系统调用行为词向量序列还原成V维向量,以便用所述V维向量表示各个词汇在独热编码周围可能出现的几率;
所述对N维的所述系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F包括:重复所述编码过程直到获得S组长度为N的所述系统调用行为词向量序列,对所述S组长度为N的所述系统调用行为词向量序列进行平均运算,得到一组长度为N的系统调用行为模式特征词向量F,以便用所述系统调用行为模式特征词向量F代表所述系统调用行为序列的隐藏特征,其中,S为本次系统调用行为序列的总长度。
2.根据权利要求1所述的基于词向量的系统调用行为序列降维方法,其特征在于:
所述每间隔预设单位时长,撷取一个特定程序当下的系统调用行为模式,包括:预先定义T=1为撷取特定程序当下的系统调用行为模式的初始时间,每间隔预设单位时长对应撷取一个所述系统调用行为模式;
所述当所述参数的累积个数大于或等于预设个数阈值W时,获得一组长度为W的系统调用行为序列,包括:重复撷取所述特定程序当下的系统调用行为模式直到T=W时,得到一组长度为W的系统调用行为序列。
3.一种基于词向量的系统调用行为序列降维系统,其特征在于,包括:
系统调用行为模式感测模块,用于每间隔预设单位时长,撷取一个特定程序当下的系统调用行为模式;
系统调用行为模式数值对应模块,用于根据预设数值对应关系,得到所述系统调用行为模式对应的参数;当所述参数的累积个数大于或等于预设个数阈值W时,获得一组长度为W的系统调用行为序列;
系统调用行为序列特征撷取模块,用于根据词向量编码模型对所述系统调用行为序列进行降维处理,以获得维度为预设维度N的系统调用行为词向量序列;其中,N<W,所述词向量编码模型为基于神经网络初始化的对应所述系统调用行为序列的词向量编码模型;
词向量平均运算模块,用于对N维的所述系统调用行为词向量序列进行平均运算,以获得系统调用行为模式特征词向量F;
所述降维处理包括训练过程和编码过程;所述词向量编码模型包括编码器和译码器;
所述训练过程包括:通过独热编码算法,将W维的所述系统调用行为序列转化成独热编码格式的V维序列,将若干个长度为V的所述V维序列通过所述词向量编码模型进行训练,直到训练准确度大于或等于预设标准门坎值时,获得并保存训练结果;
所述编码过程包括:输入所述V维序列,通过所述编码器将所述V维序列编码为维度为预设维度N的系统调用行为词向量序列;通过所述译码器将所述系统调用行为词向量序列还原成V维向量,以便用所述V维向量表示各个词汇在独热编码周围可能出现的几率;
所述词向量平均运算模块具体包括:
重复单元,用于重复所述编码过程直到获得S组长度为N的所述系统调用行为词向量序列;
平均单元,用于对所述S组长度为N的所述系统调用行为词向量序列进行平均运算,得到一组长度为N的系统调用行为模式特征词向量F,以便用所述系统调用行为模式特征词向量F代表所述系统调用行为序列的隐藏特征,其中,S为本次系统调用行为序列的总长度。
4.根据权利要求3所述的基于词向量的系统调用行为序列降维系统,其特征在于:
所述系统调用行为模式感测模块具体包括:
预设单元,用于预先定义T=1为撷取特定程序当下的系统调用行为模式的初始时间;
撷取单元,用于每间隔预设单位时长对应撷取一个所述系统调用行为模式;
所述系统调用行为模式数值对应模块具体包括:
编号单元,用于根据预设数值对应关系,得到所述系统调用行为模式对应的参数;
获得单元,用于重复撷取所述特定程序当下的系统调用行为模式直到T=W时,得到一组长度为W的系统调用行为序列。
5.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至2中任一项所述的基于词向量的系统调用行为序列降维方法的步骤。
6.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述的基于词向量的系统调用行为序列降维方法的步骤。
CN202010132344.3A 2020-02-29 2020-02-29 系统调用行为序列降维方法、系统、设备和存储介质 Active CN110990837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010132344.3A CN110990837B (zh) 2020-02-29 2020-02-29 系统调用行为序列降维方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010132344.3A CN110990837B (zh) 2020-02-29 2020-02-29 系统调用行为序列降维方法、系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110990837A CN110990837A (zh) 2020-04-10
CN110990837B true CN110990837B (zh) 2023-03-24

Family

ID=70081484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010132344.3A Active CN110990837B (zh) 2020-02-29 2020-02-29 系统调用行为序列降维方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110990837B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113179250B (zh) * 2021-03-26 2022-05-17 北京六方云信息技术有限公司 web未知威胁检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543403A (zh) * 2018-11-30 2019-03-29 网御安全技术(深圳)有限公司 一种系统调用行为序列降维方法、系统、装置及存储介质
CN110532381A (zh) * 2019-07-15 2019-12-03 中国平安人寿保险股份有限公司 一种文本向量获取方法、装置、计算机设备及存储介质
US10558759B1 (en) * 2018-01-04 2020-02-11 Facebook, Inc. Consumer insights analysis using word embeddings
CN110807314A (zh) * 2019-09-19 2020-02-18 平安科技(深圳)有限公司 文本情感分析模型训练方法、装置、设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430563B2 (en) * 2012-02-02 2016-08-30 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
CN109753801B (zh) * 2019-01-29 2022-04-22 重庆邮电大学 基于系统调用的智能终端恶意软件动态检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558759B1 (en) * 2018-01-04 2020-02-11 Facebook, Inc. Consumer insights analysis using word embeddings
CN109543403A (zh) * 2018-11-30 2019-03-29 网御安全技术(深圳)有限公司 一种系统调用行为序列降维方法、系统、装置及存储介质
CN110532381A (zh) * 2019-07-15 2019-12-03 中国平安人寿保险股份有限公司 一种文本向量获取方法、装置、计算机设备及存储介质
CN110807314A (zh) * 2019-09-19 2020-02-18 平安科技(深圳)有限公司 文本情感分析模型训练方法、装置、设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于加权词向量和LSTM-CNN的微博文本分类研究;马远浩等;《现代计算机(专业版)》;20180905(第25期);第20-24页 *
基于神经网络的二进制文本特征提取;衡威等;《通信技术》;20191210(第12期);第49-55页 *
通俗理解word2vec;江湖人称冷不丁;《简书https://www.jianshu.com/p/471d9bfbd72f》;20180721;第1-8页 *

Also Published As

Publication number Publication date
CN110990837A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN111091839B (zh) 语音唤醒方法、装置、存储介质及智能设备
CN109753987B (zh) 文件识别方法和特征提取方法
CN110958252A (zh) 一种网络安全设备及其网络攻击检测方法、装置和介质
CN114491525B (zh) 基于深度强化学习的安卓恶意软件检测特征提取方法
CN110990837B (zh) 系统调用行为序列降维方法、系统、设备和存储介质
CN111368887A (zh) 雷雨天气预测模型的训练方法及雷雨天气预测方法
CN111461979A (zh) 验证码图像去噪识别方法、电子装置及存储介质
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN115100739A (zh) 人机行为检测方法、系统、终端设备及存储介质
CN110119621B (zh) 异常系统调用的攻击防御方法、系统及防御装置
CN113221601A (zh) 字符识别方法、装置及计算机可读存储介质
CN114140831A (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN111858275B (zh) 一种异常媒体行为的识别方法、装置、设备及存储介质
CN110968702B (zh) 一种事理关系提取方法及装置
CN116488874A (zh) 基于自监督掩码上下文重构的网络入侵检测方法和系统
CN113301020B (zh) 一种基于rgb图像编码的车辆总线攻击检测方法
CN115622793A (zh) 一种攻击类型识别方法、装置、电子设备及存储介质
CN112183622B (zh) 一种移动应用bots安装作弊检测方法、装置、设备及介质
CN113420293A (zh) 一种基于深度学习的安卓恶意应用检测方法及系统
CN116416486A (zh) 图像识别方法及系统
CN110929786B (zh) 一种数据增广方法及电子设备
CN113626826A (zh) 智能合约安全检测方法、系统、设备、终端及应用
CN114491528A (zh) 恶意软件的检测方法、装置和设备
CN114915502B (zh) 资产异常行为检测方法、装置、终端设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant