CN111079141B

CN111079141B - 恶意软件辨识装置及方法

Info

Publication number: CN111079141B
Application number: CN201811249190.5A
Authority: CN
Inventors: 徐暐钊; 柯盈圳; 陈俊良; 陈昱宏; 陈彦儒
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2018-10-19
Filing date: 2018-10-25
Publication date: 2022-05-27
Anticipated expiration: 2038-10-25
Also published as: CN111079141A; TW202016784A; US10984288B2; TWI674514B; US20200125896A1

Abstract

一种恶意软件辨识装置及方法。该恶意软件辨识装置储存一训练数据集，其包含多笔网络流量数据集。各该网络流量数据集对应至多个软件类别其中之一，该多个软件类别包含多个恶意软件类别。该恶意软件辨识装置测试出一恶意软件辨识模型对该多个恶意软件类别的一子集的多个辨识率偏低，判断该子集所对应的该多个网络流量数据集的一重叠程度高，合并该子集所对应的恶意软件类别以更新软件类别，整合该子集所对应的网络流量数据集以更新训练数据集，且以更新后的该训练数据集训练该恶意软件辨识模型。该训练后的恶意软件辨识模型被布署于真实世界。

Description

恶意软件辨识装置及方法

【技术领域】

本发明是关于一种恶意软件辨识装置及方法；具体而言，本发明是关于一种基于网络通信行为进行辨识且能渐进地更新恶意软件类别的恶意软件辨识装置及方法。

【背景技术】

基于网络通信行为(例如：网络流量)来辨识恶意软件的资安网通设备(例如：防火墙)为建构资安防线的第一线设备。这类资安网通设备需事先分析各种恶意软件对外的网络通信行为(例如：与远端服务器的沟通行为、网络流量)，并予以记录。之后，若资安网通设备检测出一软件有异常的网络通信行为(例如：连线至一黑名单所记载的互联网地址、进行大量的网络连线、具有一恶意软件数据库所记录的特定网络特征)，则认定该软件为恶意软件，并予以封锁。

这类资安网通设备无法取得软件的系统行为(例如：输入/输出行为、写入/读取动作、应用程序接口(Application Program Interface；API)呼叫)，因此仅能以软件的网络通信行为作为辨识软件为正常或恶意的依据。然而，网络通信行为的特征相似，且恶意软件的种类及数目会因变种、切分或重新包装而持续地增加，要正确地辨识软件为正常或恶意，甚至辨识出恶意软件的种类，极具难度。此外，若一软件以加密方式进行网络通信，这类资安网通设备会因无法取得其进阶的封包特征而无法辨识。

有鉴于此，如何基于网络通信行为辨识恶意软件的种类且适应日益增加的恶意软件的种类及数目，为本领域极需解决的课题。

【发明内容】

本发明的一个目的在于提供一恶意软件辨识装置。该恶意软件辨识装置包含一储存器及一处理器，且二者电性连接。该储存器储存一训练数据集与一测试数据集，其中，该训练数据集与该测试数据集各包含多笔网络流量数据集。各该网络流量数据集对应至多个软件类别其中之一，且该多个软件类别包含多个恶意软件类别。该处理器以该测试数据集测试出一恶意软件辨识模型对该多个恶意软件类别的一子集的多个辨识率低于一第一门槛值，判断该子集所对应的该多个网络流量数据集的一重叠程度大于一第二门槛值，基于该重叠程度大于该第二门槛值的判断结果，合并该子集所对应的该多个恶意软件类别以更新该多个软件类别，且借由整合该子集所对应的该多个网络流量数据集以更新该训练数据集。该处理器以更新后的该训练数据集训练该恶意软件辨识模型，且以训练后的该恶意软件辨识模型辨识一实际网络流量数据集以获得一实际辨识结果。

本发明的另一个目的在于提供一种恶意软件辨识方法，其是适用于一电子计算装置。该电子计算装置储存一训练数据集与一测试数据集，其中，该训练数据集与该测试数据集各包含多笔网络流量数据集。各该网络流量数据集对应至多个软件类别其中之一，其中，该多个软件类别包含多个恶意软件类别。该恶意软件识别方法包含下列步骤：(a)以该测试数据集测试出一恶意软件辨识模型对该多个恶意软件类别的一子集的多个辨识率低于一第一门槛值，(b)判断该子集所对应的该多个网络流量数据集的一重叠程度大于一第二门槛值，(c)基于该重叠程度大于该第二门槛值的判断结果，合并该子集所对应的该多个恶意软件类别以更新该多个软件类别，(d)基于该重叠程度大于该第二门槛值的判断结果，借由整合该子集所对应的该多个网络流量数据集以更新该训练数据集，(e)以一机器学习演算法及更新后的该训练数据集训练该恶意软件辨识模型，以及(f)以训练后的该恶意软件辨识模型辨识一实际网络流量数据集以获得一实际辨识结果。

概要而言，本发明所提供的恶意软件辨识技术(包含装置及方法)利用一训练数据集训练出能辨识一正常软件类别及多个恶意软件类别的一恶意软件辨识模型。在训练阶段，本发明所提供的恶意软件辨识技术会基于该恶意软件辨识模型对各该恶意软件类别的辨识率判断是否需要合并某些恶意软件类别以及整合某些网络流量数据集以重新训练该恶意软件辨识模型。通过前述的整并使不同恶意软件类别间的差异更为明显，故能使再次训练后的该恶意软件辨识模型对各软件类别的辨识率提高。将该恶意软件辨识模型布署于实际的网络环境后，本发明所提供的恶意软件辨识技术仍可基于一实际辨识结果更新该恶意软件辨识模型。

通过前述运作，本发明的恶意软件辨识技术提供一种渐进式地学习训练一恶意软件辨识模型的机制。针对辨识率较低的恶意软件类别，本发明的恶意软件辨识技术会进一步地分析，且判断是否需要进行前述的整并及重新训练，因此能够建立更具适应性的恶意软件辨识模型。针对无法分类的恶意软件类别，本发明的恶意软件辨识技术亦会进一步地分析，判断是否需要进行前述的整并、更新定义的恶意软件类别及重新训练，故能确保未知的恶意软件类别被立即地检测出来。实际部署恶意软件辨识模型后，本发明的恶意软件辨识技术仍会基于实际辨识结果适时地更新该恶意软件辨识模型。因此，当有变形或未知的恶意软件时，本发明的恶意软件辨识技术能够基于其网络流量数据集更新该恶意软件辨识模型，增加恶意软件辨识模型的弹性。此外，由于本发明的恶意软件辨识技术的运作是基于网络流量数据集，因此亦能辨识出采用加密技术的恶意软件类别。

由上述说明可知，在恶意软件的种类及数目不断增加的情况下，本发明所提供的恶意软件辨识技术仍能借由适时地更新恶意软件辨识模型而持续地辨识出各种恶意软件类别，即时地阻挡各种既有的或新增的恶意软件。

以下结合附图阐述本发明的详细技术及实施方式，俾使本领域技术人员能理解所请求保护的发明的技术特征。

【附图说明】

图1A描绘本发明的第一实施方式的恶意软件辨识装置1的架构示意图；

图1B描绘网络流量数据集的具体范例；

图2A描绘本发明的第二实施方式的恶意软件辨识方法的流程图；以及

图2B描绘本发明的某些实施方式的恶意软件辨识方法的部分流程图。

【符号说明】

1：恶意软件辨识装置

11：储存器

13：处理器

10：训练数据集

12：测试数据集

10a、……、10b：网络流量数据集

12a、……、12b：网络流量数据集

14：恶意软件辨识模型

16a、……、16b：流量行为相关报告

18a、18b、18c：网络流量数据集

S201～S227：步骤

【具体实施方式】

以下将通过实施方式来解释本发明所提供的恶意软件辨识装置及方法。然而，该多个实施方式并非用以限制本发明需在如该多个实施方式所述的任何环境、应用或方式方能实施。因此，关于以下实施方式的说明仅在于阐释本发明的目的，而非用以限制本发明的范围。应理解，在以下实施方式及附图中，与本发明非直接相关的元件已省略而未绘示，且附图中各元件的尺寸以及元件间的尺寸比例仅为便于绘示及说明，而非用以限制本发明的范围。

本发明的第一实施方式为一恶意软件辨识装置1，其架构描绘于图1A。恶意软件辨识装置1包含一储存器11及一处理器13，且二者电性连接。储存器11可为一存储器、一硬盘(Hard Disk Drive；HDD)、一通用串列总线(Universal Serial Bus；USB)盘、一光盘(Compact Disk；CD)或本领域技术人员所知的任何其他具有相同功能的非暂态储存媒体或装置。处理器13可为各种处理单元、中央处理单元(Central Processing Unit；CPU)、微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor；DSP)或本领域技术人员所知的任何其他具有相同功能的计算装置。

储存器11储存一训练数据集10与一测试数据集12，其中，训练数据集10包含多个网络流量数据集10a、……、10b，且测试数据集12包含多个网络流量数据集12a、……、12b。训练数据集10与测试数据集12所包含的网络流量数据集的数目可不相等。网络流量数据集10a、……、10b、12a、……、12b各自对应至多个软件类别(例如：100个软件类别)其中之一，且网络流量数据集10a、……、10b、12a、……、12b各自包含所对应的该软件类别的多笔网络流量数据。于本实施方式中，一网络流量数据集(亦即，前述网络流量数据集10a、……、10b、12a、……、12b中的任一个)所包含的多笔网络流量数据为能呈现网络通信行为的多个特征数据(例如：一来源网际网络地址、一目的地网际网络地址、一开始时间、一结束时间、一通信协定名称、一目标端口、一流量大小、一封包数目，但不以此为限)转换至多维数据空间后的数据。为便于理解，请参图1B所绘示的三个网络流量数据集18a、18b、18c，但该具体范例并非用以限制本发明的范围。

前述该多个软件类别多个恶意软件类别，甚至可再包含一正常软件类别。为便于后续说明，兹假设于一初始阶段(亦即，尚未训练一恶意软件辨识模型的阶段)共有100个软件类别，其中，1个为正常软件类别(例如：第一个软件类别)，而其余99个为恶意软件类别(例如：第二个至第一百个软件类别)。应理解，前述软件类别的数目以及正常/恶意软件类别的编号仅为举例而已，并非用以限制本发明的范围。于本实施方式中，于初始阶段，各该恶意软件类别仅包含一特定恶意软件，且不同恶意软件类别是包含不同特定恶意软件。于其他实施方式中，于初始阶段，各该恶意软件类别可包含不只一个特定恶意软件，但同一恶意软件类别中的该多个特定恶意软件的网络通信行为必须相近(例如：同一恶意软件类别中的该多个特定恶意软件的网络流量数据集的重叠程度大于一预设门槛值)。此外，于本实施方式中，为使后续的训练及测试结果较佳，训练数据集10所包含的网络流量数据集10a、……、10b涵盖所有的该多个软件类别，且测试数据集12所包含的网络流量数据集12a、……、12b涵盖所有的该多个软件类别。

于本实施方式中，处理器13利用训练数据集10训练出一恶意软件辨识模型14，利用测试数据集12测试恶意软件辨识模型14，再视测试结果决定是否再次训练恶意软件辨识模型14。

具体而言，处理器13利用训练数据集10与一机器学习演算法训练出用于辨识前述该多个软件类别(例如：100个软件类别)的恶意软件辨识模型14。本领域技术人员皆应了解不同的机器学习演算法对应至不同的机器学习模型。处理器13以训练数据集10所包含的网络流量数据集10a、……、10b训练所采用的机器学习演算法所对应的机器学习模型，并因此训练出恶意软件辨识模型14。举例而言，机器学习模型可为一类神经网络(neuralnetwork)模型、一卷积神经网络(convolutional neural network)模型、一罗吉斯回归模型(logistic regression)、一多类别决策森林(multiclass decision forest)模型，但不以此为限。本领域技术人员应熟知机器学习演算法的运作方式，故应能理解处理器13如何以训练数据集10与机器学习演算法训练出恶意软件辨识模型14，故不赘言。

接着，处理器13以测试数据集12所包含的网络流量数据集12a、……、12b测试出恶意软件辨识模型14对各该软件类别(包含前述1个正常软件类别及99个恶意软件类别)的一第一辨识率。若处理器13测试出该多个恶意软件类别的该多个第一辨识率皆大于一第一门槛值，代表恶意软件辨识模型14通过测试，该多个软件类别为适当的区分方式，因此可将恶意软件辨识模型14布署于一实际的网络环境使用。

若处理器13以测试数据集12测试出恶意软件辨识模型14对该多个恶意软件类别的一子集的第一辨识率(例如：99个恶意软件类别中的第17个软件类别的第一辨识率及第23个软件类别的第一辨识率)低于该第一门槛值，则处理器13会分析该子集所包含的该多个恶意软件类别所对应的该多个网络流量数据集以决定该如何重新训练恶意软件辨识模型14。

具体而言，处理器13判断该子集所包含的该多个恶意软件类别所对应的该多个网络流量数据集的一重叠程度是否大于一第二门槛值，此第二门槛值可与前述预设门槛值相同。若该子集所包含的该多个恶意软件类别所对应的该多个网络流量数据集的该重叠程度大于该第二门槛值，代表该子集所包含的该多个恶意软件类别的网络通信行为类似，应将他们视为同一个恶意软件类别。因此，若该子集所包含的该多个恶意软件类别所对应的该多个网络流量数据集的该重叠程度大于该第二门槛值，处理器13借由合并(combine)该子集所对应的该多个恶意软件类别以更新该多个软件类别(亦即，将该子集所对应的该多个恶意软件类别视为同一个恶意软件类别)，且借由整合(integrate)该子集所对应的该多个网络流量数据集以更新训练数据集10。

于本发明的不同实施方式中，恶意软件辨识装置1可采用以下不同方式来整合该子集所包含的该多个恶意软件类别所对应的该多个网络流量数据集以更新训练数据集10。为便于说明，兹假设该子集包含一第一恶意软件类别与一第二恶意软件类别(例如：99个恶意软件类别中的第17个与第23个恶意软件类别)。

于某些实施方式中，当处理器13需整合该子集所包含的该多个恶意软件类别所对应的该多个网络流量数据集以更新训练数据集10时，处理器13借由取该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集的一联集以整合该子集所对应的该多个网络流量数据集。为便于理解，兹以图1B所示的网络流量数据集18a、18c为例说明。兹假设网络流量数据集18a为前述第一恶意软件类别所对应的网络流量数据集，且假设网络流量数据集18c为前述第二恶意软件类别所对应的网络流量数据集。处理器13借由取该第一恶意软件类别所对应的网络流量数据集18a与该第二恶意软件类别所对应的网络流量数据集18c的联集以整合该子集所对应的该多个网络流量数据集。

于某些实施方式中，当处理器13需整合该子集所包含的该多个恶意软件类别所对应的该多个网络流量数据集以更新训练数据集10时，处理器13保留该第一恶意软件类别所对应的该多个网络流量数据集，且舍弃该第二恶意软件类别所对应的该多个网络流量数据集(或，保留该第二恶意软件类别所对应的该多个网络流量数据集，且舍弃该第一恶意软件类别所对应的该多个网络流量数据集)。为便于理解，兹以图1B所示的网络流量数据集18a、18b为例说明。兹假设网络流量数据集18a为前述第一恶意软件类别所对应的网络流量数据集，且假设网络流量数据集18b为前述第二恶意软件类别所对应的网络流量数据集。处理器13判断该第一恶意软件类别所对应的网络流量数据集18a的覆盖范围大于该第二恶意软件类别所对应的网络流量数据集18b的覆盖范围，因此处理器13保留该第一恶意软件类别所对应的网络流量数据集18a，且舍弃该第二恶意软件类别所对应的网络流量数据集18b。

于某些实施方式中，处理器13则可借由设置二道门槛值来决定要采用上述哪一种方式整合该子集所对应的该多个网络流量数据集以更新训练数据集10。具体而言，处理器13设置一上门槛值及一下门槛值，其中，该上门槛值高于该下门槛值。若处理器13判断该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集的该重叠程度介于该上门槛值及该下门槛值之间，则取该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集的一联集以整合该子集所对应的该多个网络流量数据集。若处理器13判断该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集的该重叠程度高于该上门槛值，则保留该第一恶意软件类别所对应的该多个网络流量数据集，且舍弃该第二恶意软件类别所对应的该多个网络流量数据集(或者，保留该第二恶意软件类别所对应的该多个网络流量数据集，且舍弃该第一恶意软件类别所对应的该多个网络流量数据集)。

上述说明是以一个子集且该子集包含二个恶意软件类别(亦即，前述该第一恶意软件类别与该第二恶意软件类别)为例。依据前述说明，本领域技术人员应能理解当一子集包含多于二个恶意软件类别时，处理器13如何判断该多个恶意软件类别的网络流量数据集的重叠程度以及如何整合该子集所包含的该多个恶意软件类别所对应的该多个网络流量数据集以更新训练数据集10，兹不赘言。此外，依据前述说明，本领域技术人员应能理解当有多个子集各自的第一辨识率低于该第一门槛值时，处理器13会对各该子集一一分析，判断是否需要更新该多个软件类别及更新训练数据集10，兹不赘言。

在更新训练数据集10与更新该多个软件类别(例如：合并第17个与第23个恶意软件类别为同一个恶意软件类别，因此该多个软件类别由100个更新为99个)后，处理器13以更新后的训练数据集10及前述机器学习演算法再次训练恶意软件辨识模型14。

于某些实施方式中，恶意软件辨识装置1便视此一再次训练后的恶意软件辨识模型14通过测试，更新后的该多个软件类别为适当的区分方式，因此可将此一再次训练后的恶意软件辨识模型14布署于一实际的网络环境使用。

于某些实施方式中，处理器13会再以测试数据集12测试此一再次训练后的恶意软件辨识模型14对更新后的各该软件类别的辨识率。若测试出某些软件类别的辨识率低于该第一门槛值，处理器13再判断是否需要再次合并某些恶意软件类别以及整合某些网络流量数据集以重新训练恶意软件辨识模型14。于这些实施方式中，处理器13会重复前述运作，直到训练出来的恶意软件辨识模型14对所有的软件类别的辨识率皆高于该第一门槛值，才会视该恶意软件辨识模型14通过测试，该多个软件类别为适当的区分方式，可布署于一实际的网络环境使用。

恶意软件辨识模型14通过测试且布署于实际的网络环境后，处理器13便利用恶意软件辨识模型14辨识一实际网络流量数据集(未绘示)以获得一实际辨识结果(未绘示)。该实际辨识结果为该实际网络流量数据集对应至哪一个软件类别。若该实际辨识结果为一特定恶意软件类别(亦即，该多个软件类别中的某一个恶意软件类别)，处理器13会封锁该实际网络流量数据集所对应的一应用程序。

于某些实施方式中，恶意软件辨识装置1还可依据该实际辨识结果判断是否要更新恶意软件辨识模型14。于这些实施方式中，若该实际辨识结果为一特定恶意软件类别(亦即，该多个软件类别中的某一个恶意软件类别)，处理器13会根据恶意软件辨识模型14辨识出该特定恶意软件类别的一第二辨识率进一步地判断。

具体而言，处理器13则可借由设置一第三门槛值及一第四门槛值来进行判断，其中，该第四门槛值高于该第三门槛值。若处理器13判断该第二辨识率高于该第四门槛值，代表目前的恶意软件辨识模型14能正确地辨识且目前的该多个软件类别为适当的区分方式，因此不需更新恶意软件辨识模型14。若处理器13判断该第二辨识率介于该第三门槛值及该第四门槛值之间，代表该实际网络流量数据集可能来自于一变种的恶意软件类别，但该变种的恶意软件类别与原先已存在的某一恶意软件类别属于同一家族，因此处理器13可采用前述任一方式整合该特定恶意软件类别所对应的该多个网络流量数据集与该实际网络流量数据集以更新训练数据集10，且以更新后的训练数据集10再次训练恶意软件辨识模型14。若处理器13判断该第二辨识率低于该第三门槛值，代表该实际网络流量数据集可能来自于一新恶意软件类别，因此处理器13借由增加该新恶意软件类别以更新该多个软件类别且以该实际网络流量数据集训练恶意软件辨识模型14中对应至该新恶意软件类别的一子辨识模型。

于某些实施方式中，恶意软件辨识装置1还可提供流量行为相关报告。于该多个实施方式中，储存器11还储存多笔流量行为相关报告16a、……、16b，且流量行为相关报告16a、……、16b各对应至该多个恶意软件类别其中之一。处理器13在训练恶意软件辨识模型14的过程，会视需要而合并某些流量行为相关报告。具体而言，若处理器13判断出需合并某一子集所对应的该多个恶意软件类别，则亦会合并该子集所包含的该多个恶意软件类别所对应的该多个流量行为相关报告。此外，在恶意软件辨识模型14通过测试且布署于实际的网络环境后，若恶意软件辨识模型14辨识一实际网络流量数据的实际辨识结果为一特定恶意软件类别，则处理器13会根据该特定恶意软件类别从储存器11所储存的流量行为相关报告16a、……、16b中撷取一实际流量行为相关报告。使用者便能根据实际流量行为相关报告采取因应的措施。

由上述说明可知，恶意软件辨识装置1会利用训练数据集10训练出能辨识正常软件类别及多个恶意软件类别的恶意软件辨识模型14。在训练阶段，恶意软件辨识装置1会基于恶意软件辨识模型14对各该恶意软件类别的辨识率判断是否需要合并某些恶意软件类别以及整合某些网络流量数据集(亦即，将某些网络通信行为类似的恶意软件类别合并为同一恶意软件类别，且整合其所对应的网络流量数据集)以重新训练恶意软件辨识模型14。前述的整并使不同恶意软件类别间的差异更为明显，故能提高再次训练后的恶意软件辨识模型14对各软件类别的辨识率。恶意软件辨识模型14通过测试且布署于实际的网络环境后，恶意软件辨识装置1仍可基于实际辨识结果更新恶意软件辨识模型14。通过前述运作，在恶意软件的种类及数目不断增加的情况下，恶意软件辨识装置1仍能借由适时地更新恶意软件辨识模型14而持续地辨识出各种恶意软件类别，即时地阻挡各种既有的或新增的恶意软件。

本发明的第二实施方式为一恶意软件辨识方法，其流程图描绘于图2A。恶意软件辨识方法适用于一电子计算装置(亦即，可由该电子计算装置执行，例如：第一实施方式中的恶意软件辨识装置1)。该电子计算装置储存一训练数据集与一测试数据集，其中，该训练数据集与该测试数据集各包含多笔网络流量数据集。各该网络流量数据集对应至多个软件类别其中之一，其中，该多个软件类别包含一正常软件类别及多个恶意软件类别。于一初始阶段(亦即，尚未训练一恶意软件辨识模型的阶段)，各该恶意软件类别仅包含一特定恶意软件，且不同恶意软件类别是包含不同特定恶意软件。

于步骤S201，由该电子计算装置以该训练数据集与一机器学习演算法训练出一恶意软件辨识模型。于步骤S203，由该电子计算装置判断以该测试数据集是否测试出该恶意软件辨识模型对该多个恶意软件类别的一子集的多个第一辨识率低于一第一门槛值。若步骤S203的判断结果为否，则表示该恶意软件辨识模型通过测试，可结束此一训练流程。

若步骤S203的判断结果为是，则执行步骤S205，由该电子计算装置判断该子集所对应的该多个网络流量数据集的一重叠程度是否大于一第二门槛值。若步骤S205的判断结果为否，代表没有需要整合的网络流量数据集，可结束此一训练流程。若步骤S205的判断结果为是，则执行步骤S207，由该电子计算装置借由合并该子集所对应的该多个恶意软件类别以更新该多个软件类别。于步骤S209，由该电子计算装置借由整合该子集所对应的该多个网络流量数据集以更新该训练数据集。需说明者，本发明未限制步骤S207及步骤S209的执行顺序。换言之，步骤S207可早于或晚于步骤S209执行，或者步骤S207及步骤S209可同时执行。

于某些实施方式中，该子集包含一第一恶意软件类别与一第二恶意软件类别。步骤S205判断该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集的重叠程度大于该第二门槛值。步骤S209借由保留该第一恶意软件类别所对应的该多个网络流量数据集以及舍弃该第二恶意软件类别所对应的该多个网络流量数据集来该更新该训练数据集。于某些实施方式中，步骤S209取该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集的一联集以整合该子集所对应的该多个网络流量数据集。

之后，于步骤S211，由该电子计算装置以更新后的该训练数据集再次训练该恶意软件辨识模型。于某些实施方式中，恶意软件辨识方法便视步骤S211再次训练后的恶意软件辨识模型通过测试，而步骤S207更新后的该多个软件类别为适当的区分方式，因此可将此一再次训练后的恶意软件辨识模型布署于一实际的网络环境使用。

于某些实施方式中，恶意软件辨识方法会再次以测试数据集测试此一再次训练后的恶意软件辨识模型对更新后的各该软件类别的辨识率。若测试出某些软件类别的辨识率低于该第一门槛值，恶意软件辨识方法再判断是否需要再次合并某些恶意软件类别以及整合某些网络流量数据集以重新训练恶意软件辨识模型。于这些实施方式中，恶意软件辨识方法会重复前述步骤，直到训练出来的恶意软件辨识模型对所有的软件类别的辨识率皆高于该第一门槛值，才会视该恶意软件辨识模型通过测试，该多个软件类别为适当的区分方式，可布署于一实际的网络环境使用。

于某些实施方式中，恶意软件辨识方法还可包含图2B所示的流程。于步骤S213，由该电子计算装置以通过测试的恶意软件辨识模型(例如：步骤S211所获得的该恶意软件辨识模型)辨识一实际网络流量数据集，并因此获得一实际辨识结果。

于某些实施方式中，恶意软件辨识方法还会包含步骤S215至步骤S227以基于实际辨识结果更新恶意软件辨识模型。

于步骤S215，由该电子计算装置判断该实际辨识结果是否为一特定恶意软件类别(亦即，该多个软件类别中的某一个恶意软件类别)。若步骤S215的判断结果为否，代表辨识的结果为正常软件类别，因此恶意软件辨识方法便可结束此一流程。若步骤S215的判断结果为是，则执行步骤S217，由该电子计算装置封锁该实际网络流量数据集所对应的一应用程序。

于某些实施方式中，若步骤S215判断该实际辨识结果为一特定恶意软件类别(亦即，该多个软件类别中的某一个恶意软件类别)，恶意软件辨识方法还会执行步骤S219，由该电子计算装置根据恶意软件辨识模型辨识出该特定恶意软件类别的一第二辨识率进一步地判断。具体而言，恶意软件辨识方法利用一第三门槛值及一第四门槛值，其中，该第四门槛值高于该第三门槛值。

若恶意软件辨识方法判断该第二辨识率高于该第四门槛值，代表目前的恶意软件分类为正确的分类方式，因此恶意软件辨识方法便可结束此一流程。若恶意软件辨识方法判断该第二辨识率介于一第三门槛值及一第四门槛值之间，则执行步骤S221及步骤S223，再结束此一流程。于步骤S221，由该电子计算装置整合该特定恶意软件类别所对应的该多个网络流量数据集与该实际网络流量数据集以更新该训练数据集。于步骤S223，由该电子计算装置以更新后的该训练数据集再次训练该恶意软件辨识模型。若恶意软件辨识方法判断该第二辨识率低于该第三门槛值，则执行步骤S225及步骤S227，再结束此一流程。于步骤S225，由该电子计算装置借由增加一新恶意软件类别以更新该多个软件类别。于步骤S227，由该电子计算装置以该实际网络流量数据集训练该恶意软件辨识模型中对应至该新恶意软件类别的一子辨识模型。

于某些实施方式中，恶意软件辨识方法还可提供流量行为相关报告。于这些实施方式中，该电子计算装置还储存多笔流量行为相关报告，且各该流量行为相关报告对应至该多个恶意软件类别其中之一。于这些实施方式中，恶意软件辨识方法在训练恶意软件辨识模型的过程，会视需要而合并某些流量行为相关报告。具体而言，若步骤S207合并了某一子集所对应的该多个恶意软件类别，则恶意软件辨识方法会执行另一步骤以合并该子集所对应的该多个恶意软件类别所对应的该多个流量行为相关报告。

另外，于这些实施方式中，在恶意软件辨识模型通过测试且布署于实际的网络环境后，若步骤S213的实际辨识结果为一特定恶意软件类别，则恶意软件辨识方法会再执行一步骤以根据该特定恶意软件类别从该多个流量行为相关报告中撷取一实际流量行为相关报告。

除了上述步骤，第二实施方式能执行第一实施方式所描述的恶意软件辨识装置1的所有运作及步骤，具有同样的功能，且达到同样的技术效果。本领域技术人员可直接了解第二实施方式如何基于上述第一实施方式以执行此等运作及步骤，具有同样的功能，并达到同样的技术效果，故不赘述。

需说明者，于本发明专利说明书及申请专利范围中，某些用语(包含：门槛值、恶意软件类别、辨识率)前被冠以「第一」、「第二」、或「第三」或「第四」，该多个「第一」、「第二」、「第三」及「第四」仅用来区隔该多个用语。

综上所述，本发明所提供的恶意软件辨识技术(至少包含装置及方法)利用一训练数据集训练出能辨识正常软件类别及多个恶意软件类别的恶意软件辨识模型。不论在训练阶段或实际使用阶段，本发明所提供的恶意软件辨识技术会在恶意软件辨识模型的某些辨识率偏低时，判断是否需要合并某些恶意软件类别以及整合某些网络流量数据集以重新训练恶意软件辨识模型。通过整并使不同恶意软件类别间的差异更为明显，故能提高再次训练后的恶意软件辨识模型对各软件类别的辨识率。

在恶意软件的种类及数目不断增加的情况下，本发明所提供的恶意软件辨识技术能借由适时地更新恶意软件辨识模型而持续地辨识出各种恶意软件类别，即时地阻挡各种既有的或新增的恶意软件。

上述实施方式仅为例示性说明本发明的部分实施态样，以及阐释本发明的技术特征，而非用来限制本发明的保护范畴及范围。任何熟悉此技艺的人士可轻易完成的改变或均等性的安排均属于本发明所主张的范围，本发明的权利保护范围应以申请专利范围为准。

Claims

1.一种恶意软件辨识装置，其特征在于，包含：

一储存器，储存一训练数据集与一测试数据集，其中，该训练数据集与该测试数据集各包含多个网络流量数据集，各该网络流量数据集对应至多个软件类别其中之一，该多个软件类别包含多个恶意软件类别；以及

一处理器，电性连接至该储存器，以该测试数据集测试出一恶意软件辨识模型对该多个恶意软件类别的一子集的多个第一辨识率低于一第一门槛值，判断该子集所对应的该多个网络流量数据集的一重叠程度大于一第二门槛值，且基于该重叠程度大于该第二门槛值的判断结果，合并该子集所对应的该多个恶意软件类别以更新该多个软件类别，借由整合该子集所对应的该多个网络流量数据集以更新该训练数据集，且以更新后的该训练数据集训练该恶意软件辨识模型；

其中，该处理器还以训练后的该恶意软件辨识模型辨识一实际网络流量数据集以获得一实际辨识结果。

2.如权利要求1所述的恶意软件辨识装置，其特征在于，该子集包含一第一恶意软件类别与一第二恶意软件类别，该处理器判断该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集的该重叠程度大于该第二门槛值，该处理器借由以下运作整合该子集所对应的该多个网络流量数据集：保留该第一恶意软件类别所对应的该多个网络流量数据集，以及舍弃该第二恶意软件类别所对应的该多个网络流量数据集。

3.如权利要求1所述的恶意软件辨识装置，其特征在于，该子集包含一第一恶意软件类别与一第二恶意软件类别，该处理器判断该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集的该重叠程度大于该第二门槛值，且该处理器借由取该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集的一联集以整合该子集所对应的该多个网络流量数据集。

4.如权利要求1所述的恶意软件辨识装置，其特征在于，该实际辨识结果包含一特定恶意软件类别及一第二辨识率，该特定恶意软件类别为该多个恶意软件类别其中之一，该第二辨识率介于一第三门槛值及一第四门槛值之间，该处理器还借由整合该特定恶意软件类别所对应的该多个网络流量数据集与该实际网络流量数据集以更新该训练数据集，且以更新后的该训练数据集训练该恶意软件辨识模型。

5.如权利要求1所述的恶意软件辨识装置，其特征在于，该实际辨识结果包含一特定恶意软件类别及一第二辨识率，该特定恶意软件类别为该多个恶意软件类别其中之一，该第二辨识率低于一第三门槛值，该处理器还借由增加一新恶意软件类别以更新该多个软件类别，且以该实际网络流量数据集训练该恶意软件辨识模型中对应至该新恶意软件类别的一子辨识模型。

6.如权利要求1所述的恶意软件辨识装置，其特征在于，该储存器还储存各该恶意软件类别所对应的一流量行为相关报告。

7.如权利要求6所述的恶意软件辨识装置，其特征在于，该实际辨识结果包含一特定恶意软件类别，该特定恶意软件类别为该多个恶意软件类别其中之一，该处理器还根据该特定恶意软件类别从该多个流量行为相关报告中撷取一实际流量行为相关报告。

8.如权利要求6所述的恶意软件辨识装置，其特征在于，该处理器还合并该子集所对应的该多个恶意软件类别所对应的该多个流量行为相关报告。

9.如权利要求1所述的恶意软件辨识装置，其特征在于，该实际辨识结果包含一特定恶意软件类别，该处理器还封锁该实际网络流量数据集所对应的一应用程序。

10.如权利要求1所述的恶意软件辨识装置，其特征在于，该多个软件类别还包含一正常软件类别。

11.一种恶意软件辨识方法，其特征在于，适用于一电子计算装置，该电子计算装置储存一训练数据集与一测试数据集，该训练数据集与该测试数据集各包含多个网络流量数据集，各该网络流量数据集对应至多个软件类别其中之一，该多个软件类别包含多个恶意软件类别，该恶意软件辨识方法包含下列步骤：

以该测试数据集测试出一恶意软件辨识模型对该多个恶意软件类别的一子集的多个第一辨识率低于一第一门槛值；

判断该子集所对应的该多个网络流量数据集的一重叠程度大于一第二门槛值；

基于该重叠程度大于该第二门槛值的判断结果，合并该子集所对应的该多个恶意软件类别以更新该多个软件类别；

借由整合该子集所对应的该多个网络流量数据集以更新该训练数据集；

以一机器学习演算法及更新后的该训练数据集训练该恶意软件辨识模型；以及

以训练后的该恶意软件辨识模型辨识一实际网络流量数据集以获得一实际辨识结果。

12.如权利要求11所述的恶意软件辨识方法，其特征在于，该子集包含一第一恶意软件类别与一第二恶意软件类别，该重叠程度介于该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集之间，其中，借由整合该子集所对应的该多个网络流量数据集以更新该训练数据集的该步骤包含下列步骤：

保留该第一恶意软件类别所对应的该多个网络流量数据集；以及

舍弃该第二恶意软件类别所对应的该多个网络流量数据集。

13.如权利要求11所述的恶意软件辨识方法，其特征在于，该子集包含一第一恶意软件类别与一第二恶意软件类别，该重叠程度介于该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集之间，其中，借由整合该子集所对应的该多个网络流量数据集以更新该训练数据集的该步骤包含下列步骤：

取该第一恶意软件类别所对应的该多个网络流量数据集与该第二恶意软件类别所对应的该多个网络流量数据集的一联集以整合该子集所对应的该多个网络流量数据集。

14.如权利要求11所述的恶意软件辨识方法，其特征在于，该实际辨识结果包含一特定恶意软件类别及一第二辨识率，该特定恶意软件类别为该多个恶意软件类别其中之一，该第二辨识率介于一第三门槛值及一第四门槛值之间，该恶意软件辨识方法还包括下列步骤：

借由整合该特定恶意软件类别所对应的该多个网络流量数据集与该实际网络流量数据集以更新该训练数据集；以及

以更新后的该训练数据集再次训练该恶意软件辨识模型。

15.如权利要求11所述的恶意软件辨识方法，其特征在于，该实际辨识结果包含一特定恶意软件类别及一第二辨识率，该特定恶意软件类别为该多个恶意软件类别其中之一，该第二辨识率低于一第三门槛值，该恶意软件辨识方法还包括下列步骤：

借由增加一新恶意软件类别以更新该多个软件类别；以及

以该实际网络流量数据集训练该恶意软件辨识模型中对应至该新恶意软件类别的一子辨识模型。

16.如权利要求11所述的恶意软件辨识方法，其特征在于，该电子计算装置还储存各该恶意软件类别所对应的一流量行为相关报告，该实际辨识结果包含一特定恶意软件类别，该特定恶意软件类别为该多个恶意软件类别其中之一，该恶意软件辨识方法还包括下列步骤：

根据该特定恶意软件类别从该多个流量行为相关报告中撷取一实际流量行为相关报告。

17.如权利要求11所述的恶意软件辨识方法，其特征在于，该电子计算装置还储存各该恶意软件类别所对应的一流量行为相关报告，该恶意软件辨识方法还包含下列步骤：

合并该子集所对应的该多个恶意软件类别所对应的该多个流量行为相关报告。

18.如权利要求11所述的恶意软件辨识方法，其特征在于，该实际辨识结果包含一特定恶意软件类别，该恶意软件辨识方法还包括下列步骤：

封锁该实际网络流量数据集所对应的一应用程序。

19.如权利要求11所述的恶意软件辨识方法，其特征在于，该多个软件类别还包含一正常软件类别。