CN109918906B - 异常行为侦测模型生成装置及其异常行为侦测模型生成方法 - Google Patents

异常行为侦测模型生成装置及其异常行为侦测模型生成方法 Download PDF

Info

Publication number
CN109918906B
CN109918906B CN201711320054.6A CN201711320054A CN109918906B CN 109918906 B CN109918906 B CN 109918906B CN 201711320054 A CN201711320054 A CN 201711320054A CN 109918906 B CN109918906 B CN 109918906B
Authority
CN
China
Prior art keywords
program operation
operation sequence
sequence data
word
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711320054.6A
Other languages
English (en)
Other versions
CN109918906A (zh
Inventor
魏得恩
谢志宏
孔祥重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Priority to CN201711320054.6A priority Critical patent/CN109918906B/zh
Publication of CN109918906A publication Critical patent/CN109918906A/zh
Application granted granted Critical
Publication of CN109918906B publication Critical patent/CN109918906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种异常行为侦测模型生成装置及其异常行为侦测模型生成方法。异常行为侦测模型生成装置对与异常行为相关联的多个程序操作序列数据中多个程序操作序列,进行词性分析,以产生多个词向量,并将该等词向量分群。基于分群后的结果,异常行为侦测模型生成装置获得各程序操作序列数据的特征向量,以使用该等特征向量,对一分类算法进行监督式学习,来生成异常行为侦测模型。

Description

异常行为侦测模型生成装置及其异常行为侦测模型生成方法
技术领域
本发明是关于异常行为侦测模型生成装置及其异常行为侦测模型生成方法。具体而言,本发明的异常行为侦测模型生成装置基于与异常行为相关联的多个程序操作序列数据中的多个程序操作序列,生成异常行为侦测模型。
背景技术
随着科技的快速发展,人们对于计算机及网络的依赖也与日俱增。基于各式各样的目的,有心人士会透过系统漏洞或恶意程序入侵网络上的服务器/计算机,以窃取数据或瘫痪系统。
针对这些入侵行为,目前的习知技术采用专家规则式(signature-based)或静态特征(Static Feature)的侦测机制来防护。然而,这些侦测机制是基于预先决定的专家规则或静态特征来判断异常的程序操作行为,故侦测手段上受限于固定的形式且难以抵御特征混淆的恶意程序。此外,动态行为序列分析(Dynamic Analysis)常受限于沙盒(Sandbox)环境设定的不同,故当恶意程序的行为序列长度不一且富含杂质的时候,难有泛用型的特征表达式作为判断异常的程序操作行为的依据。
有鉴于此,如何建立一种异常行为侦测模型,其无需依赖预先决定的专家规则或静态特征,亦不受沙盒(Sandbox)环境设定的不同而有所影响,乃是业界亟待解决的问题。
发明内容
本发明的目的在于提供一种异常行为侦测模型。本发明透过对与异常行为相关联的多个程序操作序列数据中的多个程序操作序列进行词性分析,以产生多个词向量,并将该等词向量分群。基于分群后的结果,本发明可获得各程序操作序列数据的特征向量,以根据该等特征向量,对一分类算法进行监督式学习,来生成异常行为侦测模型。不同于习知技术,本发明所生成的异常行为侦测模型可基于程序操作序列的词性分群结果,来获得程序操作序列数据的特征向量,故可有效地侦测抵御特征混淆的恶意程序,且无需依赖预先决定的专家规则或静态特征,亦不受沙盒(Sandbox)环境设定的不同而有所影响。
为达上述目的,本发明揭露一种异常行为侦测模型生成装置,其包含:一存储器以及一处理器。该存储器用以存储多个程序操作序列数据及多个行为标签。各该程序操作序列数据记载多个程序操作序列。各该程序操作序列数据对应至该等行为标签其中之一。该处理器,电性连接至该存储器,并用以执行下列操作:透过一词嵌入(word embedding)模型运算该等程序操作序列数据的该等程序操作序列,以产生多个词向量,各该词向量对应至该等程序操作序列其中之一;基于一聚类算法,将该等词向量分群为多个词向量群组;将各该程序操作序列数据的该等程序操作序列分别与各该词向量群组所包含的至少一该等词向量所对应的至少一该等程序操作序列进行一比对,以产生各该程序操作序列数据的一特征向量;基于该等特征向量及该等行为标签,进行一分类算法的一监督式学习,以生成一分类器,该分类器是用以将该等特征向量分类以对应至该等行为标签;以及基于该等词向量群组及该分类器,生成一异常行为侦测模型。
此外,本发明更揭露一种用于一异常行为侦测模型生成装置的异常行为侦测模型生成方法。该异常行为侦测模型生成装置包含一存储器及一处理器。该存储器存储多个程序操作序列数据及多个行为标签。各该程序操作序列数据记载多个程序操作序列。各该程序操作序列数据对应至该等行为标签其中之一。该异常行为侦测模型生成方法由该处理器执行且包含下列步骤:透过一词嵌入(word embedding)模型,运算该等程序操作序列数据的该等程序操作序列,以产生多个词向量,各该词向量对应至该等程序操作序列其中之一;基于一聚类算法,将该等词向量分群为多个词向量群组;将各该程序操作序列数据的该等程序操作序列分别与各该词向量群组所包含的至少一该等词向量所对应的至少一该等程序操作序列进行一比对,以产生各该程序操作序列数据的一特征向量;基于该等特征向量及该等行为标签,进行一分类算法的一监督式学习,以生成一分类器,该分类器是用以将该等特征向量分类以对应至该等行为标签;以及基于该等词向量群组及该分类器,生成一异常行为侦测模型。
在参阅附图及随后描述的实施方式后,本领域技术人员便可了解本发明的其他目的,以及本发明的技术手段及实施态样。
附图说明
图1是本发明的异常行为侦测模型生成装置1的示意图;
图2A是一程序操作序列数据的示意图;
图2B是另一程序操作序列数据的示意图;
图3是描绘各词向量于一二维空间中的分布;
图4是描绘分群后的各词向量群组;以及
图5是本发明的异常行为侦测模型生成方法的流程图。
符号说明
1:异常行为侦测模型生成装置
11:存储器
13:处理器
AL:行为标签
POSD:程序操作序列数据
WVD:词向量分布空间
G1-G4:词向量群组
V1-V11:词向量
S501-S509:步骤
具体实施方式
以下将透过实施例来解释本发明内容,本发明的实施例并非用以限制本发明须在如实施例所述的任何特定的环境、应用或特殊方式方能实施。因此,关于实施例的说明仅为阐释本发明的目的,而非用以限制本发明。需说明者,以下实施例及附图中,与本发明非直接相关的元件已省略而未绘示,且附图中各元件间的尺寸关系仅为求容易了解,并非用以限制实际比例。
本发明第一实施例如图1-4所示。图1是本发明的异常行为侦测模型生成装置1的示意图。异常行为侦测模型生成装置1包含一存储器11以及一处理器13。处理器13电性连接至存储器11。存储器11用以存储多个程序操作序列数据POSD及多个行为标签AL。各程序操作序列数据POSD记载多个程序操作序列。举例而言,该等程序操作序列可为一动态操程序操作序列,例如:一应用程序编程接口(Application Programming Interface;API)序列、一系统呼叫(System Call)序列,但不限于此。于一实施例中,动态程序操作序列可透过一追踪程序撷取。再举例而言,该等程序操作序列亦可为一静态程序操作序列,例如:一运算码(Operation Code;Opcode)序列,但不限于此。于一实施例中,静态程序操作序列可透过一反编译程序获得。
程序操作序列数据POSD对应至该等行为标签AL(例如:一正常行为标签、一异常行为标签等,但不限于此)。于一实施例中,该等程序操作序列数据POSD中包含多个异常程序操作序列数据,且各异常程序操作序列数据与一恶意程序相关联。在此情况下,该等行为标签AL可更包含一恶意广告(Adware)程序、一蠕虫(Worm)程序、一木马(Trojan)程序等,但不限于此。
以Opcode序列作为说明,如图2A所示,其是程序操作序列数据POSD的一范例,其所包含的该等程序操作序列为Opcode序列。须说明者,基于版面的限制,图2A中所显示的Opcode序列仅为程序操作序列数据POSD中的一部分。处理器13透过一词嵌入(wordembedding)模型,例如:一词至向量(Word2Vec)模型或一独热编码(One-Hot Encoding)模型,运算该等程序操作序列数据POSD的该等程序操作序列,以产生多个词向量。各词向量对应至该等程序操作序列其中之一。
举例而言,该等程序操作序列包含「xor」、「sub」、「add」、「and」、「push」、「pop」、「xchg」、「inc」、「cmp」、「jmp」、「jz」,处理器13透过词嵌入模型对该等程序操作序列进行运算,并产生对应程序操作序列的词向量V1-V11。在此假设词向量V1对应至「xor」,词向量V2对应至「sub」,词向量V3对应至「add」,词向量V4对应至「and」,词向量V5对应至「push」,词向量V6对应至「pop」,词向量V7对应至「xchg」,词向量V8对应至「inc」,词向量V9对应至「cmp」,词向量V10对应至「jmp」,词向量V11对应至「jz」。
另外,以API序列作为说明,如图2B所示,其是程序操作序列数据POSD的一范例,其所包含的该等程序操作序列为API序列。须说明者,基于版面的限制,图2B中所显示的API序列仅为程序操作序列数据POSD中的一部分。同样地,处理器13可透过词嵌入模型,运算该等程序操作序列数据POSD的该等程序操作序列,以产生多个词向量。各词向量对应至该等程序操作序列其中之一。
举例而言,该等程序操作序列包含「GetSystemInfo」、「GetFileSize」、「GetSystemDirectoryW」、「GetSystemMetrics」、「RegQueryValueExA」、「RegOpenKeyExA」、「LdrLoadDll」、「NtCreatFile」、「NtReadfile」、「NtClose」、「NtOpenDirectoryObject」,处理器13透过词嵌入模型对该等程序操作序列进行运算,并产生对应各程序操作序列的词向量V1-V11。在此假设词向量V1对应至「GetSystemInfo」,词向量V2对应至「GetFileSize」,词向量V3对应至「GetSystemDirectoryW」,词向量V4对应至「GetSystemMetrics」,词向量V5对应至「RegQueryValueExA」,词向量V6对应至「RegOpenKeyExA」,词向量V7对应至「LdrLoadDll」,词向量V8对应至「NtCreatFile」,词向量V9对应至「NtReadfile」,词向量V10对应至「NtClose」,词向量V11对应至「NtOpenDirectoryObject」。
图3显示一词向量分布空间WVD。须说明者,为简化说明,本实施例中词向量分布空间WVD是以二维空间来表示词向量的分布。然而,于实际操作上,基于程序操作序列数据的类型,开发者可自行决定词向量分布空间WVD的维度。由于本领域技术人员可了解如何设定输出的空间维度,故在此不再加以赘述。
于词向量分布空间WVD中,位置较接近的词向量具有类似的词性或语意。因此,本发明是基于非监督式学习的一聚类算法将这些词向量进行分群,以作为后续撷取各程序操作序列数据POSD的特征的依据。于本发明中,聚类算法可一吸引子传播(AffinityPropagation;AP)聚类算法、一谱(Spectral)聚类算法、一模糊平均数(Fuzzy C-means;FCM)聚类算法、一反复自我组织分析技术(Iterative Self-Organizing Data AnalysisTechnique Algorithm;ISODATA)算法聚类算法、一K平均值(K-means)聚类算法、一完整链接(Complete-linkage;CL)聚类算法、一单一链接(Single-Linkage;SL)聚类算法及一华德法(Ward’smethod)聚类算法其中之一,但不限于此。
举例而言,处理器13基于AP聚类算法,将该等词向量分群为四个词向量群组G1-G4,如图4所示。词向量群组G1包含词向量V1-V4,词向量群组G2包含词向量V5-V6,词向量群组G3包含词向量V7,词向量群组G4包含词向量V8-V11。须说明者,词向量群组的数量可由开发者自行设定聚类算法的参数决定(例如:直接设定所需群组的数量,或设定聚类算法执行的迭代次数)。由于本领域技术人员可了解如何基于聚类算法进行分群的详细操作,故在此不再加以赘述。
于获得该等词向量群组后,处理器13将各程序操作序列数据POSD的该等程序操作序列分别与各词向量群组所包含的该等词向量中至少一者所对应的该等程序操作序列中至少一者进行一比对,以产生各程序操作序列数据POSD的一特征向量。举例而言,假设一程序操作序列数据POSD中存在对应至词向量V2、词向量V6、词向量V8及词向量V11的程序操作序列,则表示此程序操作序列数据POSD对应词向量群组G1的特征值为1,对应词向量群组G2的特征值为1,对应词向量群组G3的特征值为0,以及对应词向量群组G4的特征值为2,故此程序操作序列数据POSD的特征向量为(1,1,0,2)。再举例而言,假设另一程序操作序列数据POSD中存在对应至词向量V1、词向量V2、词向量V4、词向量V5、词向量V7、词向量V9、词向量V10的程序操作序列,则表示此另一程序操作序列数据POSD对应词向量群组G1的特征值为3,对应词向量群组G2的特征值为1,对应词向量群组G3的特征值为1,以及对应词向量群组G4的特征值为2,故此另一程序操作序列数据POSD的特征向量为(3,1,1,2)。
须说明者,前述产生特征向量所进行的比对是基于程序操作序列数据POSD中是否存在各词向量群组所包含的该等词向量中至少一者所对应的该等程序操作序列中至少一者来实现;然而,于其他实施例中,产生特征向量所进行的比对亦可基于程序操作序列数据POSD中存在各词向量群组所包含的该等词向量中至少一者所对应的该等程序操作序列中至少一者的数量来实现。举例而言,假设一程序操作序列数据POSD中存在5个对应至词向量V2的程序操作序列、3个对应至词向量V6的程序操作序列、1个对应至词向量V8的程序操作序列及3个对应至词向量V11的程序操作序列,则表示此程序操作序列数据POSD对应词向量群组G1的特征值为5,对应词向量群组G2的特征值为3,对应词向量群组G3的特征值为0,以及对应词向量群组G4的特征值为4,故此程序操作序列数据POSD的特征向量为(5,3,0,4)。
于产生各程序操作序列数据POSD的特征向量后,基于该等特征向量及该等行为标签AL,处理器13进行一分类算法的一监督式学习,以生成一分类器。举例而言,分类算法可为一支持向量机(support vector machine;SVM)算法、一判定树(Decision Tree;DT)算法、一贝氏(Bayes)算法及一邻近(NearestNeighbors;NN)算法其中之一,但不限于此。前述的监督式学习是为了使该等特征向量经由分类算法运算后可确实地被分类至适当的类别,以对应至该等行为标签AL,例如:对应至恶意广告程序标签的该等程序操作序列数据POSD可确实地被归类至同一类别,对应至蠕虫程序标签的该等程序操作序列数据POSD可确实地被归类至同一类别,对应至木马程序标签的该等程序操作序列数据POSD可确实地被归类至同一类别,以及对应至正常行为标签的该等程序操作序列数据POSD可确实地被归类至同一类别。最后,处理器13基于该等词向量群组及该分类器,生成一异常行为侦测模型。
于其他实施例中,处理器13于生成异常行为侦测模型后,可利用多个测试程序操作序列数据对异常行为侦测模型进行测试,并根据一侦测率(Detection Rate),判断异常行为侦测模型辨识该等测试程序操作序列数据的准确度,以供开发者基于准确度,调整前述词嵌入模型、聚类算法及分类算法的相关参数设定,重新进行前述训练生成异常行为侦测模型的操作。据此,本发明经由前述操作可针对不同类型的程序操作序列数据,生成不同的异常行为侦测模型,以达到侦测各种动态程序操作序列或静态程序操作序列的异常行为。
再者,本发明所生成的异常行为侦测模型可被编译成一可执行程序,运作于一操作系统中,以提供该操作系统侦测异常行为(例如:侦测恶意程序、侦测非法操作等)。此外,本发明用于生成异常行为侦测模型所使用的程序操作序列数据POSD亦可全部为异常程序操作序列数据(例如,全部程序操作序列数据皆与恶意程序相关联),以使得生成异常行为侦测模型单纯地针对已被辨识为异常程序操作序列数据进行类别判别。换言之,本发明的所生成异常行为侦测模型可与其他异常行为侦测程序搭配使用,在其他异常行为侦测程序侦测到异常程序时,进一步地针对此异常程序的程序操作序列数据进行类别判别。举例而言,其他异常行为侦测程序可为一防病毒程序,当防病毒程序侦测到一异常程序时,本发明的异常行为侦测模型可进一步协助判断此异常程序的类别。
本发明第二实施例请参考图5,其是本发明的异常行为侦测模型生成方法的流程图。异常行为侦测模型生成方法适用于一异常行为侦测模型生成装置(例如:前述实施例的异常行为侦测模型生成装置1)。异常行为侦测模型生成装置包含一存储器及一处理器。存储器存储多个程序操作序列数据及多个行为标签。各程序操作序列数据记载多个程序操作序列。各程序操作序列数据对应至该等行为标签其中之一。异常行为侦测模型生成方法由处理器执行。
首先,于步骤S501中,透过一词嵌入(word embedding)模型,运算该等程序操作序列数据的该等程序操作序列,以产生多个词向量(例如:图3所示的词向量V1-V11)。如先前所述,各词向量对应至该等程序操作序列其中之一。接着,于步骤S503中,基于一聚类算法,将该等词向量分群为多个词向量群组(例如:图4所示的词向量群组G1-G4)。
于步骤S505中,将各程序操作序列数据的该等程序操作序列分别与各词向量群组所包含的该等词向量中至少一者所对应的该等程序操作序列中至少一者进行一比对,以产生各程序操作序列数据的一特征向量。之后,于步骤S507中,基于该等特征向量及该等行为标签,进行一分类算法的一监督式学习,以生成一分类器。分类器是用以将该等特征向量分类以对应至该等行为标签。最后,于步骤S509中,基于该等词向量群组及分类器,生成一异常行为侦测模型。
于其他实施例中,该等程序操作序列是一动态程序操作序列及一静态程序操作序列其中之一。动态程序操作序列为一应用程序编程接口(Application ProgrammingInterface;API)序列或一系统呼叫(System Call)序列。静态程序操作序列为一运算码(Operation Code;Opcode)序列。于一实施例中,动态程序操作序列是透过一追踪程序撷取。于其他实施例中,词嵌入模型是一词至向量(Word2Vec)模型及一独热编码(One-HotEncoding)模型其中之一。
于其他实施例中,聚类算法是一吸引子传播(Affinity Propagation;AP)聚类算法、一谱(Spectral)聚类算法、一模糊平均数(Fuzzy C-means;FCM)聚类算法、一反复自我组织分析技术(Iterative Self-Organizing Data Analysis Technique Algorithm;ISODATA)算法聚类算法、一K平均值(K-means)聚类算法、一完整链接(Complete-linkage;CL)聚类算法、一单一链接(Single-Linkage;SL)聚类算法及一华德法(Ward’s method)聚类算法其中之一。
此外,于其他实施例中,分类算法是一支持向量机(support vector machine;SVM)算法、一判定树(Decision Tree;DT)算法、一贝氏(Bayes)算法及一邻近(NearestNeighbors;NN)算法其中之一。
于一实施例中,该等程序操作序列数据中包含多个异常程序操作序列数据,以及各该异常程序操作序列数据与一恶意程序相关联。除了上述步骤,本实施例的异常行为侦测模型生成方法亦能执行在前述实施例中所阐述的所有操作并具有所有对应的功能。本领域技术人员可直接了解此实施例如何基于前述实施例执行此等操作及具有该等功能,故不赘述。
此外,前述本发明的异常行为侦测模型生成方法可藉由一电脑存储介质实现。电脑存储介质,存储有包含多个程序指令的一计算机程序,在所述计算机程序被加载并安装于一电子计算装置(例如:异常行为侦测模型生成装置1)之后,电子计算装置的处理器执行所述计算机程序所包含的该等程序指令,以执行本发明的异常行为侦测模型生成方法。电脑存储介质可为,例如:一只读存储器(read only memory;ROM)、一闪速存储器、一软盘、一硬盘、一光盘(compact disk;CD)、一U盘(USB disk)、一磁带、一可由网络存取的数据库或本发明本领域技术人员所知且具有相同功能的任何其他存储媒体。
综上所述,本发明是透过对多个程序操作序列数据中多个程序操作序列进行词嵌入运算,以产生多个词向量,并将该等词向量分群。于分群后得到各程序操作序列数据的特征向量,并根据该等特征向量,对分类算法进行训练,来生成异常行为侦测模型。据此,本发明的异常行为侦测模型可基于程序操作序列的词性分群结果,来获得程序操作序列数据的特征向量,故可有效地侦测抵御特征混淆的恶意软件或非正常的程序操作行为,且无需依赖预先决定的专家规则或静态特征,亦不受沙盒(Sandbox)环境设定的不同而有所影响。
上述的实施例仅用来例举本发明的实施态样,以及阐释本发明的技术特征,并非用来限制本发明的保护范畴。本领域的技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围,本发明的权利保护范围应以权利要求书为准。

Claims (20)

1.一种异常行为侦测模型生成装置,包含:
一存储器,用以存储多个程序操作序列数据及多个行为标签,各该程序操作序列数据记载多个程序操作序列,各该程序操作序列数据对应至多个该行为标签其中之一;以及
一处理器,电性连接至该存储器,并用以执行下列操作:
透过一词嵌入模型运算多个该程序操作序列数据的多个该程序操作序列,以产生多个词向量,各该词向量对应至多个该程序操作序列其中之一;
基于一聚类算法,将多个该词向量分群为多个词向量群组;
将各该程序操作序列数据的多个该程序操作序列分别与各该词向量群组所包含的多个该词向量中至少一者所对应的多个该程序操作序列中至少一者进行一比对,以产生各该程序操作序列数据的一特征向量,其中产生各该程序操作序列数据的该特征向量所进行的比对为基于各该程序操作序列数据中存在各该词向量群组所包含的多个该词向量中至少一者所对应的多个该程序操作序列中至少一者的数量来实现;
基于多个该特征向量及多个该行为标签,进行一分类算法的一监督式学习,以生成一分类器,该分类器是用以将多个该特征向量分类以对应至多个该行为标签;以及
基于多个该词向量群组及该分类器,生成一异常行为侦测模型。
2.如权利要求1所述的异常行为侦测模型生成装置,其特征在于,多个该程序操作序列是一动态程序操作序列及一静态程序操作序列其中之一。
3.如权利要求2所述的异常行为侦测模型生成装置,其特征在于,该动态程序操作序列为一应用程序编程接口序列。
4.如权利要求2所述的异常行为侦测模型生成装置,其特征在于,该动态程序操作序列为一系统呼叫序列。
5.如权利要求2所述的异常行为侦测模型生成装置,其特征在于,该静态程序操作序列为一运算码序列。
6.如权利要求2所述的异常行为侦测模型生成装置,其特征在于,该动态程序操作序列是透过一追踪程序撷取。
7.如权利要求1所述的异常行为侦测模型生成装置,其特征在于,该词嵌入模型是一词至向量模型及一独热编码模型其中之一。
8.如权利要求1所述的异常行为侦测模型生成装置,其特征在于,该聚类算法是一吸引子传播聚类算法、一谱聚类算法、一模糊平均数聚类算法、一反复自我组织分析技术算法聚类算法、一K平均值聚类算法、一完整链接聚类算法、一单一链接聚类算法及一华德法聚类算法其中之一。
9.如权利要求1所述的异常行为侦测模型生成装置,其特征在于,该分类算法是一支持向量机算法、一判定树算法、一贝氏算法及一邻近算法其中之一。
10.如权利要求1所述的异常行为侦测模型生成装置,其特征在于,多个该程序操作序列数据中包含多个异常程序操作序列数据,以及各该异常程序操作序列数据与一恶意程序相关联。
11.一种用于一异常行为侦测模型生成装置的异常行为侦测模型生成方法,该异常行为侦测模型生成装置包含一存储器及一处理器,该存储器存储多个程序操作序列数据及多个行为标签,各该程序操作序列数据记载多个程序操作序列,各该程序操作序列数据对应至多个该行为标签其中之一,该异常行为侦测模型生成方法由该处理器执行且包含下列步骤:
透过一词嵌入模型,运算多个该程序操作序列数据的多个该程序操作序列,以产生多个词向量,各该词向量对应至多个该程序操作序列其中之一;
基于一聚类算法,将多个该词向量分群为多个词向量群组;
将各该程序操作序列数据的多个该程序操作序列分别与各该词向量群组所包含的多个该词向量中至少一者所对应的多个该程序操作序列中至少一者进行一比对,以产生各该程序操作序列数据的一特征向量,其中产生各该程序操作序列数据的该特征向量所进行的比对为基于各该程序操作序列数据中存在各该词向量群组所包含的多个该词向量中至少一者所对应的多个该程序操作序列中至少一者的数量来实现;
基于多个该特征向量及多个该行为标签,进行一分类算法的一监督式学习,以生成一分类器,该分类器是用以将多个该特征向量分类以对应至多个该行为标签;以及
基于多个该词向量群组及该分类器,生成一异常行为侦测模型。
12.如权利要求11所述的异常行为侦测模型生成方法,其特征在于,多个该程序操作序列是一动态程序操作序列及一静态程序操作序列其中之一。
13.如权利要求12所述的异常行为侦测模型生成方法,其特征在于,该动态程序操作序列为一应用程序编程接口序列。
14.如权利要求12所述的异常行为侦测模型生成方法,其特征在于,该动态程序操作序列为一系统呼叫序列。
15.如权利要求12所述的异常行为侦测模型生成方法,其特征在于,该静态程序操作序列为一运算码序列。
16.如权利要求12所述的异常行为侦测模型生成方法,其特征在于,该动态程序操作序列是透过一追踪程序撷取。
17.如权利要求11所述的异常行为侦测模型生成方法,其特征在于,该词嵌入模型是一词至向量模型及一独热编码模型其中之一。
18.如权利要求11所述的异常行为侦测模型生成方法,其特征在于,该聚类算法是一吸引子传播聚类算法、一谱聚类算法、一模糊平均数聚类算法、一反复自我组织分析技术算法聚类算法、一K平均值聚类算法、一完整链接聚类算法、一单一链接聚类算法及一华德法聚类算法其中之一。
19.如权利要求11所述的异常行为侦测模型生成方法,其特征在于,该分类算法是一支持向量机算法、一判定树算法、一贝氏算法及一邻近算法其中之一。
20.如权利要求11所述的异常行为侦测模型生成方法,其特征在于,多个该程序操作序列数据中包含多个异常程序操作序列数据,以及各该异常程序操作序列数据与一恶意程序相关联。
CN201711320054.6A 2017-12-12 2017-12-12 异常行为侦测模型生成装置及其异常行为侦测模型生成方法 Active CN109918906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711320054.6A CN109918906B (zh) 2017-12-12 2017-12-12 异常行为侦测模型生成装置及其异常行为侦测模型生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711320054.6A CN109918906B (zh) 2017-12-12 2017-12-12 异常行为侦测模型生成装置及其异常行为侦测模型生成方法

Publications (2)

Publication Number Publication Date
CN109918906A CN109918906A (zh) 2019-06-21
CN109918906B true CN109918906B (zh) 2022-09-02

Family

ID=66957725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711320054.6A Active CN109918906B (zh) 2017-12-12 2017-12-12 异常行为侦测模型生成装置及其异常行为侦测模型生成方法

Country Status (1)

Country Link
CN (1) CN109918906B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110665233B (zh) * 2019-08-29 2021-07-16 腾讯科技(深圳)有限公司 游戏行为识别方法、装置、设备及介质
CN111597549A (zh) * 2020-04-17 2020-08-28 国网浙江省电力有限公司湖州供电公司 一种基于大数据的网络安全行为识别方法及系统
CN113360305A (zh) * 2021-05-13 2021-09-07 杭州明实科技有限公司 计算机设备及其异常操作检测方法、装置、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870754A (zh) * 2010-11-29 2014-06-18 北京奇虎科技有限公司 恶意程序识别及训练模型生成方法和装置
CN106778277A (zh) * 2017-01-13 2017-05-31 北京邮电大学 恶意程序检测方法及装置
CN106951780A (zh) * 2017-02-08 2017-07-14 中国科学院信息工程研究所 重打包恶意应用的静态检测方法和装置
CN107102861A (zh) * 2017-04-25 2017-08-29 中南大学 一种获取开源代码库中函数的向量的方法和系统
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8411935B2 (en) * 2007-07-11 2013-04-02 Behavioral Recognition Systems, Inc. Semantic representation module of a machine-learning engine in a video analysis system
US11126720B2 (en) * 2012-09-26 2021-09-21 Bluvector, Inc. System and method for automated machine-learning, zero-day malware detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870754A (zh) * 2010-11-29 2014-06-18 北京奇虎科技有限公司 恶意程序识别及训练模型生成方法和装置
CN106778277A (zh) * 2017-01-13 2017-05-31 北京邮电大学 恶意程序检测方法及装置
CN106951780A (zh) * 2017-02-08 2017-07-14 中国科学院信息工程研究所 重打包恶意应用的静态检测方法和装置
CN107102861A (zh) * 2017-04-25 2017-08-29 中南大学 一种获取开源代码库中函数的向量的方法和系统
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统

Also Published As

Publication number Publication date
CN109918906A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
US10586044B2 (en) Abnormal behavior detection model building apparatus and abnormal behavior detection model building method thereof
EP3499396A1 (en) Abnormal behavior detection model building apparatus and abnormal behavior detection model building method thereof
Hashemi et al. Visual malware detection using local malicious pattern
US11636380B2 (en) Method for protecting a machine learning model against extraction using an ensemble of a plurality of machine learning models
Baldwin et al. Leveraging support vector machine for opcode density based detection of crypto-ransomware
US10733385B2 (en) Behavior inference model building apparatus and behavior inference model building method thereof
Lu Malware detection with lstm using opcode language
US11586860B2 (en) Method for preventing the extraction of a machine learning model
CN109063055B (zh) 同源二进制文件检索方法和装置
CN109918906B (zh) 异常行为侦测模型生成装置及其异常行为侦测模型生成方法
US20160219068A1 (en) Method and apparatus for automatically identifying signature of malicious traffic using latent dirichlet allocation
US20210089957A1 (en) Method and machine learning system for detecting adversarial examples
Seneviratne et al. Self-supervised vision transformers for malware detection
US20200159925A1 (en) Automated malware analysis that automatically clusters sandbox reports of similar malware samples
KR101930293B1 (ko) 정적 분석과 동적 분석을 이용하여 변종 악성코드를 식별하는 장치 및 방법
CN115221516B (zh) 恶意应用程序识别方法及装置、存储介质、电子设备
Sayfullina et al. Efficient detection of zero-day android malware using normalized bernoulli naive bayes
EP3499429A1 (en) Behavior inference model building apparatus and method
Mpanti et al. A graph-based model for malicious software detection exploiting domination relations between system-call groups
TWI658372B (zh) 異常行為偵測模型生成裝置及其異常行為偵測模型生成方法
US11727109B2 (en) Identifying adversarial attacks with advanced subset scanning
CN110837638B (zh) 一种勒索软件的检测方法、装置、设备及存储介质
Alohali et al. Optimal Deep Learning Based Ransomware Detection and Classification in the Internet of Things Environment.
Atacak et al. Android malware detection using hybrid ANFIS architecture with low computational cost convolutional layers
Jere et al. Principal component properties of adversarial samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant