CN114416462A

CN114416462A - 一种机器行为识别方法及装置、电子设备、存储介质

Info

Publication number: CN114416462A
Application number: CN202111460866.7A
Authority: CN
Inventors: 张黎; 钱伟杰; 程树华; 汤庆仕; 陈广辉; 刘维炜
Original assignee: Flash It Co ltd
Current assignee: Flash It Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-04-29

Abstract

本申请提供一种机器行为识别方法及装置、电子设备、存储介质，该方法包括：获取待预测数据；计算待预测数据中每个客户端地址的稀有度值，并判断待预测数据每个客户端地址的稀有度值是否小于指定阈值；若存在至少一个目标地址的稀有度值小于指定阈值，计算目标地址的总异常分值；若目标地址的总异常分值大于比较阈值，确定目标地址对应的行为数据为机器行为。本申请可以有效的提高对异常行为识别的实时性和准确性。

Description

一种机器行为识别方法及装置、电子设备、存储介质

技术领域

本申请涉及信息安全技术领域，特别涉及一种机器行为识别方法及装置、电子设备、存储介质。

背景技术

在当前信息化时代，数据资产安全是企业非常重视的方向。其中，在区分机器请求行为识别方面，总是存在着或多或少的技术难点，导致面对大批量的异常脚本访问时，在海量的主机数据中寻找异常行为线索十分困难。而且现有的机器行为识别方法主要存在以下缺陷：行为识别具有滞后性，不能有效的对当前的机器行为数据进行及时识别，同时对机器请求行为识别的处理逻辑较为复杂。

发明内容

本申请实施例提供了一种机器行为识别方法及装置、电子设备、存储介质，用于提高对异常行为识别的实时性和准确性。

本申请实施例提供了一种机器行为识别方法，包括：

获取待预测数据；

计算所述待预测数据中每个客户端地址的稀有度值，并判断待预测数据每个客户端地址的稀有度值是否小于指定阈值；

若存在至少一个目标地址的稀有度值小于指定阈值，计算所述目标地址的总异常分值；

若所述目标地址的总异常分值大于比较阈值，确定所述目标地址对应的行为数据为机器行为。

在一实施例中，所述计算所述待预测数据中每个客户端地址的稀有度值，并判断待预测数据每个客户端地址的稀有度值是否小于指定阈值，包括：

针对每个客户端地址，根据所述待预测数据中所述客户端地址对应的请求行为的发生时间，计算每天出现的请求行为的次数；

根据每天出现的请求行为与当前时间的差值，得到每天出现的请求行为的权重；

将每天出现的请求行为的次数与权重进行加权计算，得到所述客户端地址对应的稀有度值。

在一实施例中，所述若存在至少一个目标地址的稀有度值小于指定阈值，计算所述目标地址的总异常分值，包括：

分别计算所述目标地址对应的区间异常分值、特征异常分值和模型异常分值；

根据所述区间异常分值、特征异常分值和模型异常分值，得到所述目标地址的总异常分值。

在一实施例中，计算所述区间异常分值，包括：

根据机器行为对应的多个特征维度以及每个特征维度对应的异常区间，判断所述目标地址对应的行为数据处于所述异常区间内的特征数量；

根据所述特征数量以及所述多个特征维度的总数量，得到所述区间异常分值。

在一实施例中，在所述根据机器行为对应的多个特征维度以及每个特征维度对应的异常区间之前，所述方法还包括：

获取历史数据；

对比所述历史数据中的机器行为数据和正常行为数据，确定存在差异的特征维度以及异常区间。

在一实施例中，计算所述特征异常分值，包括：

通过统计所述目标地址对应的不同维度的请求数据，计算所述目标地址对应的不同维度的风险值；

根据所述目标地址对应的不同维度的风险值，计算得到所述特征异常分值。

在一实施例中，计算所述模型异常分值，包括：

将所述目标地址对应的行为数据，分别输入已训练的KNN模型和逻辑回归模型，获得所述KNN模型输出的第一预测结果和所述逻辑回归模型输出的第二预测结果；

根据所述第一预测结果和第二预测结果，得到所述模型异常分值。

本申请实施例还提供了一种机器行为识别装置，包括：

数据获取模块，用于获取待预测数据；

数据判断模块，用于计算所述待预测数据中每个客户端地址的稀有度值，并判断待预测数据每个客户端地址的稀有度值是否小于指定阈值；

数据处理模块，用于若存在至少一个目标地址的稀有度值小于指定阈值，计算所述目标地址的总异常分值；

机器行为确定模块，用于若所述目标地址的总异常分值大于比较阈值，确定所述目标地址对应的行为数据为机器行为。

本申请实施例还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述机器行为识别方法。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述机器行为识别方法。

本申请上述实施例提供的技术方案，通过获取待预测数据，计算待预测数据中每个客户端地址的稀有度值，并判断待预测数据每个客户端地址的稀有度值是否小于指定阈值，若存在至少一个目标地址的稀有度值小于指定阈值，进而计算目标地址的总异常分值，若目标地址的总异常分值大于比较阈值，则确定目标地址对应的行为数据为机器行为，进而可以有效的提高对异常行为识别的实时性和准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的机器行为识别方法的应用场景示意图；

图2为本申请一实施例提供的电子设备的结构示意图；

图3是本申请一实施例提供的机器行为识别方法的流程示意图；

图4是本申请一实施例提供的机器行为识别方法的流程示意图；

图5为本申请一实施例示出的机器行为识别装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请中进行机器行为的识别时，首先服务端获取待预测数据；然后计算待预测数据中每个客户端地址的稀有度值，并判断待预测数据每个客户端地址的稀有度值是否小于指定阈值；接着若存在至少一个目标地址的稀有度值小于指定阈值，则计算目标地址的总异常分值；最后若目标地址的总异常分值大于比较阈值，则确定目标地址对应的行为数据为机器行为，若目标地址的总异常分值小于比较阈值，则确定目标地址对应的行为数据为正常行为。

图1为本申请一实施例提供的机器行为识别方法的应用场景示意图。如图1所示，该应用场景可以包括客户端10及服务端20。客户端10可以是智能手机、平板电脑、笔记本电脑或台式电脑等，服务端20可以为台式电脑、服务器、服务器集群或云计算中心等。客户端10及服务端20通过有线或无线网络连接。客户端10用于向服务端20发送机器行为识别请求，服务端20根据客户端10发送的机器行为识别请求执行下述机器行为识别方法。

图2为本申请一实施例提供的电子设备的结构示意图。该电子设备可以用于执行本申请实施例提供的机器行为识别方法。如图2所示，该电子设备200包括：一个或多个处理器202，一个或多个存储处理器可执行指令的存储器204，其中，所述处理器202被配置为执行本申请下述实施例提供的机器行为识别方法。

所述处理器202可以是网关，也可以为智能终端，或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对所述电子设备200中的其它组件的数据进行处理，还可以控制所述电子设备200中的其它组件以执行期望的功能。

所述存储器204可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器202可以运行所述程序指令，以实现下文所述的机器行为识别方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

在一实施例中，图2所示电子设备200还可以包括输入装置206、输出装置208以及数据采集装置210，这些组件通过总线系统212和/或其它形式的连接机构(未示出)互连。应当注意，图2所示的电子设备200的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述输入装置206可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置208可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置210可以采集对象的图像，并且将所采集的图像存储在所述存储器204中以供其它组件使用。示例性地，该数据采集装置210可以为摄像头。

在一实施例中，用于实现本申请实施例的机器行为识别方法的示例电子设备中的各器件可以集成设置，也可以分散设置，诸如将处理器202、存储器204、输入装置206和输出装置208集成设置于一体，而将数据采集装置210分离设置。

在一实施例中，用于实现本申请实施例的机器行为识别方法的示例电子设备可以被实现为诸如智能手机、平板电脑、智能手表、车载设备等智能终端。

图3为本申请一实施例提供的机器行为识别方法的流程示意图。如图3所示，该方法可以包括以下步骤S301-S304。

步骤S301：获取待预测数据。

客户端发起机器行为识别请求，服务端根据机器行为识别请求进而获取待预测数据，例如七天内的日志数据，并将待预测数据存储在指定位置，便于后续进行识别。

步骤S302：计算待预测数据中每个客户端地址的稀有度值，并判断待预测数据每个客户端地址的稀有度值是否小于指定阈值。

服务端根据待预测数据，计算待预测数据中每个客户端地址的稀有度值rarScore，并设置一个指定阈值H，其中，指定阈值H可自定义设置，假设为0.5，并判断待预测数据每个客户端地址的稀有度值rarScore是否小于指定阈值H，若大于指定阈值H，则目标地址对应的行为数据为正常行为，结束判断；若小于指定阈值H，则继续执行步骤S303-S304。

步骤S303：若存在至少一个目标地址的稀有度值小于指定阈值，计算目标地址的总异常分值。

若存在至少一个目标地址的稀有度值rarScore小于指定阈值H，则对待预测数据进行数据预处理分析，分别计算待预测数据目标地址的区间异常分值q、特征异常分值p以及模型异常分值u，将三个异常分值进行加权汇总计算，得到目标地址的总异常分值T。

步骤S304：若目标地址的总异常分值大于比较阈值，确定目标地址对应的行为数据为机器行为。

设置一个比较阈值R，其中，指定阈值R可自定义设置，假设为0.8。若目标地址的总异常分值T大于比较阈值R，则确定目标地址对应的行为数据为机器行为，否则为正常行为，结束判断。

图4为本申请一实施例提供的机器行为识别方法的流程示意图。如图4所示，该方法可以包括以下步骤S401-S410。

步骤S401：获取待预测数据。详细参见上述实施例中对步骤S301的描述。

步骤S402：针对每个客户端地址，根据所述待预测数据中所述客户端地址对应的请求行为的发生时间，计算每天出现的请求行为的次数。

服务端针对待预测数据的每个客户端地址，根据待预测数据中客户端地址对应的请求行为的发生时间，计算每天出现的请求行为的次数aN，其中，N代表天数，a1、a2...aN代表这N天内每天出现的请求行为的次数。

步骤S403：根据每天出现的请求行为与当前时间的差值，得到每天出现的请求行为的权重。

根据每天出现的请求行为的发生时间距离当前时间的差值设置权重大小，对每个客户端地址根据时间间隔不同，赋予不同的权重，则每天出现的请求行为的权重为g1,g2...gN，其中，gN＝1/时间间隔，这样设置可以依据不同时间段出现的请求次数，对目标数据识别的结果权重不同。

步骤S404：将每天出现的请求行为的次数与权重进行加权计算，得到所述客户端地址对应的稀有度值。

将每天出现的请求行为的次数a1、a2...aN与权重g1,g2...gN进行加权计算，其中，请求行为的加权总值a＝a1*g1+a2*g2+...+aN*gN，根据请求行为的加权总值来计算N天的稀有度值rarScore，N天的稀有度值rarScore为请求行为的加权总值a与N天的比值，即rarScore＝a/N，即得到客户端地址对应的稀有度值。

步骤S405：判断待预测数据每个客户端地址的稀有度值是否小于指定阈值。

根据步骤S404计算得到的待预测数据中每个客户端地址的稀有度值rarScore，将其与指定阈值H进行比较，若存在至少一个目标地址的稀有度值rarScore小于指定阈值H，则执行步骤S406，进行下一步判断；否则执行步骤S410，直接确定目标地址对应的行为数据为正常行为，结束判断。

步骤S406：分别计算所述目标地址对应的区间异常分值、特征异常分值和模型异常分值。

若存在至少一个目标地址的稀有度值rarScore小于指定阈值H，则分别计算目标地址对应的区间异常分值q、特征异常分值p和模型异常分值u。

于一实施例中，计算区间异常分值，包括：

根据机器行为对应的多个特征维度以及每个特征维度对应的异常区间，判断目标地址对应的行为数据处于异常区间内的特征数量；

根据特征数量以及多个特征维度的总数量，得到区间异常分值。

统计历史数据，将历史机器行为数据和历史正常行为数据进行对比分析，并筛选重要字段，建立属于每个特征的异常区间。也就是说，选取历史数据进行数据异常区间分析，进行部分特征预筛选，选择类别区分明显的特征，建立异常样本的数据特征区间，目标数据可根据这些主要的差异特征进行机器行为的预识别，即首次就可以根据异常特征的比例进行目标数据的机器行为判断。例如，历史数据拥有t1、t2...tN个特征维度，其中t1、t2...tk的机器行为数据和正常行为数据的特征差异度明显，则利用这k个的特征进行样本数据的判断，假设待预测数据落在这t1、t2...tk个特征的异常区间上有m个特征，则得到待预测数据目标地址的区间异常分值q为其落在异常区间内的特征数量m与其多个特征维度的总数量k的比值，即q＝m/k。

举例来说，假设一组日志数据拥有5个特征，经过数据分析可以判断出正常行为和机器行为，在其中3个特征的不同区间内区分较为明显，则后续选择待预测数据的3个特征，分析其3个特征的值是否存在于异常区间，若有2个特征的值均在其对应的异常区间内，则可得到此次的识别结果的区间异常分值q为2/3。

于一实施例中，在根据机器行为对应的多个特征维度以及每个特征维度对应的异常区间之前，本申请实施例提供的方法还包括：

获取历史数据；

对比历史数据中的机器行为数据和正常行为数据，确定存在差异的特征维度以及异常区间。

具体的如上一实施例所述，此处不作赘述。

于一实施例中，计算特征异常分值，包括：

通过统计目标地址对应的不同维度的请求数据，计算目标地址对应的不同维度的风险值；

根据目标地址对应的不同维度的风险值，计算得到特征异常分值。

目标地址对应的不同维度的请求数据包括：待预测数据的单个客户端地址的总请求次数mac_count、请求时间间隔方差mac_dt、请求不同ip数量ip_count、请求不同端口数量port_count、服务端不同端口访问数量serport_count、以及待预测数据的所有客户端地址的总请求次数mac_sum、总请求不同ip数量ip_sum、总请求不同端口数量port_sum，总服务端不同端口访问数量serport_sum。

通过统计上述目标地址对应的不同维度的请求数据，计算目标地址对应的不同维度的风险值，其中，目标地址对应的不同维度的风险值，包括：方差风险分值varScore、总请求量风险分值eveScore、请求不同ip风险分值ipNumScore、请求不同端口风险分值portNumScor，服务端不同端口风险分值serPortNumScore。

举例来说，假设待预测数据的一个客户端地址按照时间顺序有A1、A2...Am个时间点，则时间间隔有m-1个，对m-1个时间间隔计算其方差，得到其请求时间间隔方差，从而计算其方差风险分值。其中，方差风险分值varScore＝mac_dt/(mac_dt+1)、总请求量风险分值eveScore＝mac_count/mac_sum、请求不同ip风险分值ipNumScore＝ip_count/ip_sum、请求不同端口风险分值portNumScor＝port_count/port_sum，服务端不同端口风险分值serPortNumScore＝serport_count/serport_sum。则根据上述目标地址对应的不同维度的风险值，计算可得到特征异常分值p，特征异常分值p的计算方式如下所述：

p＝k1*varScore+k2*eveScore+k3*ipNumScore+k4*portNumScore+k5*serPortNumScore，其中k1、k2...k5为各个分值的权重值，k1+k2+...+k5＝1，可以随机自适应更新去设置这5个权重值，提高模型识别的泛化性。

于一实施例中，计算模型异常分值，包括：

将目标地址对应的行为数据，分别输入已训练的KNN模型和逻辑回归模型，获得KNN模型输出的第一预测结果和逻辑回归模型输出的第二预测结果；

根据第一预测结果和第二预测结果，得到模型异常分值。

先对历史数据进行KNN模型和逻辑回归模型融合训练，得到预测模型。再将待预测数据的目标地址对应的行为数据，分别输入到已训练的KNN模型和逻辑回归模型，获得KNN模型输出的第一预测结果g1和逻辑回归模型输出的第二预测结果g2。其中，第一预测结果g1代表利用KNN模型对待预测数据进行判别，识别为机器行为结果的概率预测值；第二预测结果g2为利用逻辑回归模型对待预测数据进行判别，识别为机器行为结果的概率预测值。最后根据第一预测结果g1和第二预测结果g2，以及两个模型对应的赋值权重w1、w2，其中，w1+w2＝1，w1、w2可以在执行模型前随机赋值，来提高模型识别的泛化性，进而得到模型异常分值u，u＝w1*g1+w2*g2。

步骤S407：根据所述区间异常分值、特征异常分值和模型异常分值，得到所述目标地址的总异常分值。

目标地址的总异常分值T包括区间异常分值q、特征异常分值p和模型异常分值u。根据步骤S406计算得到的区间异常分值q、特征异常分值p和模型异常分值u，进而计算得到目标地址的总异常分值T，T＝n1*p+n2*q+n3*u，其中，n1、n2、n3为各个分值的权重值，n1+n2+n3＝1，可以随机自适应更新去设置这3个权重值，提高模型识别的泛化性。

步骤S408：判断目标地址的总异常分值是否大于比较阈值。

步骤S409：确定所述目标地址对应的行为数据为机器行为。

步骤S410：确定所述目标地址对应的行为数据为正常行为。

根据步骤S407得到的目标地址的总异常分值T，将目标地址的总异常分值T与比较阈值R进行比较，若目标地址的总异常分值大于比较阈值，则执行步骤S409，确定目标地址对应的行为数据为机器行为，结束判断；否则，执行步骤S410，确定目标地址对应的行为数据为正常行为，结束判断。

下述为本申请装置实施例，可以用于执行本申请上述机器行为识别方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请机器行为识别方法实施例。

图5为本申请一实施例示出的机器行为识别装置的框图。如图5所示，该装置包括数据获取模块501，数据判断模块502，数据处理模块503，机器行为确定模块504。

数据获取模块501，用于获取待预测数据；

数据判断模块502，用于计算所述待预测数据中每个客户端地址的稀有度值，并判断待预测数据每个客户端地址的稀有度值是否小于指定阈值；

数据处理模块503，用于若存在至少一个目标地址的稀有度值小于指定阈值，计算所述目标地址的总异常分值；

机器行为确定模块504，用于若所述目标地址的总异常分值大于比较阈值，确定所述目标地址对应的行为数据为机器行为。

上述装置中各个模块的功能和作用的实现过程具体详见上述机器行为识别方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种机器行为识别方法，其特征在于，包括：

获取待预测数据；

2.根据权利要求1所述的方法，其特征在于，所述计算所述待预测数据中每个客户端地址的稀有度值，并判断待预测数据每个客户端地址的稀有度值是否小于指定阈值，包括：

3.根据权利要求1所述的方法，其特征在于，所述若存在至少一个目标地址的稀有度值小于指定阈值，计算所述目标地址的总异常分值，包括：

4.根据权利要求3所述的方法，其特征在于，计算所述区间异常分值，包括：

5.根据权利要求4所述的方法，其特征在于，在所述根据机器行为对应的多个特征维度以及每个特征维度对应的异常区间之前，所述方法还包括：

获取历史数据；

6.根据权利要求3所述的方法，其特征在于，计算所述特征异常分值，包括：

7.根据权利要求3所述的方法，其特征在于，计算所述模型异常分值，包括：

8.一种机器行为识别装置，其特征在于，包括：

数据获取模块，获取待预测数据；

数据判断模块，计算所述待预测数据中每个客户端地址的稀有度值，并判断待预测数据每个客户端地址的稀有度值是否小于指定阈值；

数据处理模块，若存在至少一个目标地址的稀有度值小于指定阈值，计算所述目标地址的总异常分值；

机器行为确定模块，若所述目标地址的总异常分值大于比较阈值，确定所述目标地址对应的行为数据为机器行为。

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的机器行为识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的一种机器行为识别方法。