CN109960626A

CN109960626A - 端口异常的识别方法、装置、设备及介质

Info

Publication number: CN109960626A
Application number: CN201711437221.5A
Authority: CN
Inventors: 王浩
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2019-07-02
Anticipated expiration: 2037-12-26
Also published as: CN109960626B

Abstract

本发明实施例公开了一种端口异常的识别方法、装置、设备及介质。基于端口在之前一个或多个时间周期中每个时间周期内发送数据的实际发送量，预测当前时间周期内所述端口发送数据的预测发送量；在当前时间周期内所述端口发送数据的实际发送量超过所述预测发送量预定阈值的情况下，判定所述端口异常。由此，可以根据端口之前时间周期内的发送量，对当前周期内端口的发送量进行预测，预测值可以作为判断端口在当前时间周期内是否异常的判断标准，在端口在当前实际周期内的实际发送量超过预测值一定程度时，可以判定该端口存在异常。如此可以准确地分析出端口是否存在被盗的可能性。

Description

端口异常的识别方法、装置、设备及介质

技术领域

本发明涉及数据业务技术领域，尤其涉及一种端口异常的识别方法、装置、设备及介质。

背景技术

现有的被盗端口的识别方案，多采用日发送量阀值监控的方法，即由管理员为每个端口配置日发送量阀值，当端口的日发送量超过阀值时，系统实时下发预警短信通知管理员，以便管理员排查端口是否被盗以及采取相关措施管理端口。

实际应用中大多采用如下两种策略为端口配置阈值：1、配置单位时间内发生量作为日发送量监控的阀值(例如：每5分钟100条)，后台应用程序接收页面配置自动更新规则；2、以当前向前追溯30天内的日最大峰值×系数作为今天日发送量监控的阀值，后台应用程序每天自动更新对应规则(例如：前30天的日最大峰值为8000，系数1.5，那么当天该端口日发送量阀值为8000×1.5＝12000)，如果发现端口被盗，该天的发送数据可以删除，策略将重新进行计算。

现有技术主要存在如下问题：

1)人工配置日发送量阀值，没有比较准确的数据作为参考；

2)根据30天的峰值×系数的算法作为端口被盗风险的监控策略，系数配置难度较大，且准确度不高，而当误报的端口数量较多的时候，管理员一旦出现漏查的情况，将导致被盗端口持续发垃圾短信，后果严重。

综上所述，仍需一种能够较为精准地识别端口异常的方案。

发明内容

本发明实施例提供了一种能够较为精准地识别端口异常情况的识别方法、装置、计算设备以及存储介质，能够精准地识别端口异常。

第一方面，本发明实施例提供了一种端口异常的识别方法，方法包括：基于端口在之前一个或多个时间周期中每个时间周期内发送数据的实际发送量，预测当前时间周期内端口发送数据的预测发送量；在当前时间周期内端口发送数据的实际发送量超过预测发送量预定阈值的情况下，判定端口异常。

第二方面，本发明实施例提供了一种端口异常的识别装置，装置包括：预测模块，用于基于端口在之前一个或多个时间周期中每个时间周期内发送数据的实际发送量，预测当前时间周期内端口发送数据的预测发送量；判断模块，用于在当前时间周期内端口发送数据的实际发送量超过预测发送量预定阈值的情况下，判定端口异常。

本发明实施例提供了一种计算设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

本发明实施例提供的端口异常的识别方法、装置、设备及介质，通过分析端口之前多个时间周期内发送数据的实际发送量，可以对当前周期内端口的发送量进行预测，预测值可以作为判断端口在当前时间周期内是否异常的判断标准，在端口在当前实际周期内的实际发送量超过预测值一定程度时，可以判定该端口存在异常。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一实施例的端口异常的识别方法的示意性流程图。

图2示出了根据本发明一实施例的计算预测发送量的实现流程图。

图3示出了获取20天中每天实际的三个时段的日发送量数据样本的示意图。

图4示出了利用本发明的多元线性回归算法预测得出的实际值(即实际发送量)与预测值(即预测发送量)的对比情况。

图5示出了根据本发明一实施例的端口异常的识别装置的结构的示意性框图。

图6示出了根据本发明一实施例的计算设备的结构的示意性框图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

实施例一

图1是示出了根据本发明一实施例的端口异常的识别方法的示意性流程图。

参见图1，在步骤S110，基于端口在之前一个或多个时间周期中每个时间周期内发送数据的实际发送量，预测当前时间周期内端口发送数据的预测发送量。

本发明述及的时间周期可以是一天，也可以是数天(如可以是2天、3天、一个星期等等)，优选地为一天。当前时间周期是指当前时刻端口所处的时间周期，时间周期为一天时，当前时间周期即为当前日。

也就是说可以基于端口在之前(优选地是当前日之前连续的)一个或多个数日中每日发送数据的实际发送量(也可称为日发送量)，对端口在当前日的发送量进行预测，以得到当前日的预测发送量。

根据端口之前多个时间周期内的实际发送量，可以采取多种算法预测当前时间周期内端口的预测发送量。作为示例，可以采取态势分析的方法计算预测发送量。

目前业界最广泛被使用的4种态势分析算法分别为，多元线性回归算法、神经网络算法、三次指数平滑算法以及自回归积分滑动平均模型(ARIMA模型)。

发明人在研发过程中对上述四种分析算法均做了论证，结果对比显示，多元线性回归算法的准确率最高和速率最快，更适用于端口发送量未来趋势的判断，以下是论证结果。

测试服务器配置：2core8核机器，主频2.4GHz，内存32G。

测试数据：现网10万端口，90天数据。

1.1现网运行准确率

表1现网运行准确率

算法	准确率
		多元线性回归	96.63％
神经网络	96.08％
		三次指数平滑	94.96％
ARIMA	95.54％

1.2现网运行速率

表2现网单线程运行速率

算法	用时	CPU占用	内存占用
				多元线性回归	225分钟	6％	660M
神经网络	675分钟	6％	690M
				三次指数平滑	450分钟	6％	690M
ARIMA	4500分钟	6％	750M

表3现网10线程运行速率

算法	用时	CPU占用	内存占用
				多元线性回归	24分钟	60％	6.6G
神经网络	69分钟	60％	6.9G
				三次指数平滑	45分钟	60％	6.9G
ARIMA	4500分钟	60％	7.5G

可见，在对端口当前时间周期内的数据发送量进行预测时，可以优选地使用多元线性回归算法，并且还可以通过浮动修正的方式对日发送量策略进行自适应调整，得到一个上浮度(即文述及的上浮量)，预测值+上浮度可以作为端口当前时间周期内发送数据的数据量的阈值，超过该阈值即可认为端口存在异常。

关于利用多元线性回归算法确定预测发送量的具体实现过程将在下文详细说明，此处暂不赘述。

在步骤S120，在当前时间周期内端口发送数据的实际发送量超过预测发送量预定阈值的情况下，判定端口异常。

预测发送量可以作为当前时间周期内端口是否存在异常的评价标准，当前时间周期内端口发送数据的实际发送量超过预测发送量预定阈值的情况下，判定端口异常。

本发明述及的预定阈值可以视为允许实际发送量超过预测发送量的上浮度(即本文述及的上浮量)。预测发送量+上浮度可以作为当前时间周期内的发送量阈值，在当前时间周期内的实际发送量超过该发送量阈值时，可以认定该端口当前存在异常，需要管理员进行复检，以判断该端口异常是否由端口被盗引发的。

作为本发明的一个示例，可以基于端口在之前一个或多个时间周期中每个时间周期内发送数据的实际发送量，确定当前周期内端口发送数据的上浮量。例如，可以统计多个时间周期内最小实际发送量和最大实际发送量之间的差值，作为上浮量。再例如，也可以将多个时间周期内实际发送量的标准差作为上浮量。当然还可以有多种其它统计方式。

优选地，上浮量可以是所述之前一个或多个时间周期中最大的实际发送量与预测发送量的差值的绝对值。

以时间周期为一日，之前一个或多个时间周期为20日的时间周期为例，假设实际发送量与预测发送量之间的差值为d，若d不超过20天内每天实际日发送量与预测发送量差值的最大值，则认为该端口的日发送量未有异常，判定该端口无被盗风险；反之，则认为该端口的日发送量有异常，判定有被盗风险。其中，d＝|预测发送值–实际发送量，日发送量阀值＝预测发送量+Max(d1,d2,…dn)。

例如，设前20天的日发送量实际值与预测值之间的差值分别为：85,78,112,47,56,67,92,88,46,23,12,39,50,21,56,77,100,63,69,43。其中最大值为112即浮动修正(即上浮量)，则，若第21日的实际值(即实际发送量)大于日发送量阀值，则认为该端口存在被盗风险，若小于日发送量阀值，则认为该端口日发送量未有异常，不存在被盗风险。

此外，为了防止被盗端口的数据样本对模型的训练(即预测发送量的计算)造成干扰，我们还设计了剔除无用数据的方法。即将某个端口判定为有被盗嫌疑(即存在异常)时，如前述，可以及时下发短信通知管理员，待管理员回复后，一旦该端口被管理员确定为被盗，则将该端口的日发送量数据从算法的训练集中剔除。经实测，此操作有效的避免了由于端口被盗对算法训练造成的干扰，可将预测值与实际值之间的平均相对误差提高0.5个百分点左右。

也就是说，在判定端口存在异常，并且经管理员查验后发现该端口确实被盗的情况下，可以丢弃当前时间周期内端口的实际发送量。

综上，本发明可以根据端口的历史数据进行建模，得出未来数据的预测值和上浮度，用端口的预测值加上上浮度作为端口当前时间周期的发送量的阀值。并且可以自动按照不同端口构建不同模型，为每个端口生成新一时间周期的监控策略，从而得到更实际的预测数据，实现自动化管理。这样既能更准确的分析出端口是否存在被盗的可能性，又能更有效的管理端口。数据越多，估算准确率越高，例如可以以一天作为时间周期，可以基于3个月以上的数据估算端口在未来一天的预测值和上浮度。

实施例二

在本实施例中将详细描述基于多元分析算法计算预测发送量的过程。

图2是示出了根据本发明一实施例的计算预测发送量的过程的示意图。

参见图2，在步骤S210，利用多元线性回归算法构造线性回归方程

其中，y_i(θ)表示第i个时间周期内的预测发送量，i＝1，2…m，θ_j为回归系数，表示第i个时间周期内第j个时间段中单位时间的发送量，j＝1，2…n，x_j表示第j个时间段的时长，θ₀为随机误差n≥1，m≥1。

在步骤S220，构造用于表征所述预测发送量的误差的损失函数，其中，y_i为实际发送量。

损失函数J(θ)表征的意义为，估计值与实际值之间差的平方和。损失函数J(θ)的值越小，表明算法的效果越佳。其中，θ为待求解的参数向量，θ＝{θ₀，θ₁，θ₂…θ_n}。

在步骤S230，以使损失函数尽可能减小为目标，求解线性回归方程中的参数向量θ。

根据损失函数最小原则，可以利用随机梯度下降算法，将损失函数最小化。最小化过程如下。

即得到最小化公式，

通过对上式求取驻点，可以得到待求解参数向量θ的解析式(即求解公式)，θ＝(X^TX)^-1X^TY，其中，X的每一行对应一个时间周期，共有m个时间周期，X的每一列对应时间周期内的一个时间段，共有n个时间段。

在求取得到参数向量θ后，就可以将已知的参数向量θ代入线性回归方程计算当前时间周期内端口的预测发送量。如可以代入式子计算得到当前时间周期内的预测发送量，也可以代入计算预测发送量。

综上，利用上面的算法可以不断对数据进行训练，以实现对日发送量的预测。下面以时间周期为一日为例，就上述计算过程做进一步描述。

由于日发送量多集中于每天的某几个时段，每个时段总的发送量与每个时段每分钟的发送量成线性正比例关系，且日发送总量为此几个时段发送量的线性组合，故可使用多元线性回归算法对日发送量的进行预测，可做到对日发送量配置策略进行及时的自适应调整，即根据前一段时间的日发送量数据样本，利用多元线性回归算法，对样本不断训练，可自适应的调整当前日发送量策略。即依据前一段时期的实际日发送量数据，对当前日的日发送量策略进行自适应调整，克服了一直使用不变的策略发送量，导致无法准确识别端口被盗的缺点，从而达到分析端口被盗风险管理的目的。

进一步来说，由于每个端口的日发送量截然不同，端口发送时段均只集中于每天的几个时间段，且结合大多数被盗端口发送量均集中在半夜时段的特性。故可以设置每天的三个时段为特征(即每日分为三个时段)。其中两个时段作为普通端口的发送时段特征，另外一个作为被盗端口的发送时段特征，若端口未被盗，则这个时段内的发送量几乎为零，也就不会影响该端口整体的日发送量。

每个时段每分钟发送的消息量作为待训练参数，即预测日发送量值的参数，θ＝(θ₁，θ₂，θ₃)^T，其中，θ₁为时段1每分钟的发送量，θ₂为时段2每分钟的发送量，θ₃为时段3每分钟的发送量。

利用上述算法，基于样本数据，可以训练每个时段每分钟的发送量，从而根据多元线性回归数学模型预测出日发送量。

例如，可以将端口的三个发送时段分别设置为，第一时段08:00-10:00、第二时段13:00-15:00、第三时段23:00-01:00。可以取前20日的日发送量样本数据利用上述算法对模型进行训练以得到待求解参数向量θ。

图3是示出了获取20天中每天实际的三个时段的日发送量数据样本的示意图。

算法执行流程如下。

步骤一、

根据数据样本，生成样本矩阵X，其中，X的每一行为一个数据样本，即每天的三个时段的发送量，每一列为一个维度，即20天中，每天的固定时段的发送量，生成的X矩阵如下

其中，第一行的数据为(2200，4610，0)，第二行的数据为(3657,2859,0)，……第十行的数据为(3096,5388,3106)，……；可以看出，每行的数据就是我们设置的每天三个固定时段的发送量。

步骤二、

根据步骤一中生成的矩阵X，计算出X的转置矩阵乘以X矩阵的逆矩阵，即：(X^TX)^-1。

步骤三、

将前20天的实际日发送量写成向量Y，即Y＝(y₁，y₂，...y₂₀)，其中y1,y2,……为前20天每天的日发送量实际值。然后通过上述参数向量的求解公式，可以求得待求解参数向量θ。即，求出预测的第21天的每个时段每分钟的发送量。

基于数据样本，利用多元线性回归模型计算可以得出，在设置的这三个时间段中，每个时段内每分钟的发送量分别为40条、35条、0条，也就是：08:00-10:00(时段1)每分钟发送40条，14:00-16:00(时段2)每分钟发送35条，23:00-01:00(时段3)每分钟发送0条。

则日发送量可以被预测为，日发送量＝40×120+35×120＝8640条，若实际的日发送量与此预测值之间的差值超过浮动修正纠正算法计算出的差值(即上浮量)，则将该端口判定为有被盗嫌疑端口，及时下发短信至管理员进行复检。

图4是示出了利用本发明的多元线性回归算法预测得出的实际值(即实际发送量)与预测值(即预测发送量)的对比情况。

由图4可以看出，利用多元线性回归算法进行日发送量预测，与实际值之间的相对误差均控制在5％以内，误差较小，表明该算法可以自动的根据前一段时间实际的日发送量值，对下一天的策略发送量进行自动更新，且预测准确度较高。

综上，本文阐述的算法对有被盗嫌疑的端口具有更好的敏锐性，原因在于此算法是根据历史的发送量作为数据样本对策略发送量进行计算的，这样，每天的策略发送量均会有所变化，预测值也不相同，完全不需要人工调整策略发送量，避免了原有策略的问题，更准确的预测未来端口的发送态势。

实施例三

本实施例提供了一种端口异常的识别装置。

如图5所示，识别装置500可以包括预测模块510和判断模块520。

预测模块510用于基于端口在之前一个或多个时间周期中每个时间周期内发送数据的实际发送量，预测当前时间周期内端口发送数据的预测发送量。

判断模块520用于在当前时间周期内端口发送数据的实际发送量超过预测发送量预定阈值的情况下，判定端口异常。

如图5所示，识别装置500还可以可选地包括上浮量确定模块530。

上浮量确定模块530可以基于端口在之前一个或多个时间周期中每个时间周期内发送数据的实际发送量，确定当前周期内所述端口发送数据的上浮量，上浮量即为预定阈值。

作为本发明的一个示例，上浮量可以是所述之前一个或多个时间周期中最大的实际发送量与预测发送量的差值的绝对值。

作为本发明的一个示例，预测模块510可以使用多元线性回归算法、神经网络算法、三次指数平滑算法以及预测自回归积分滑动平均算法中的任一种，预测当前时间周期内所述端口发送数据的预测发送量。

优选地，每个时间周期可以分为一个或多个时间段，预测模块510可以利用多元线性回归算法构造线性回归方程

其中，y_i(θ)为第i个时间周期内的预测发送量，i＝1，2…m，θ₁、θ₂…θ_i…θ_n为回归系数，表示不同时间段中单位时间的发送量，x_i表示时间段i的时长，θ₀为随机误差。

预测模块510还可以构造用于表征所述预测发送量的误差的损失函数，其中，y_i为实际发送量。

预测模块510通过以使损失函数尽可能减小为目标，可以求解线性回归方程中的θ₀、θ₁、θ₂…θ_i…θ_n。

例如，可以利用随机梯度下降算法，将损失函数最小化为通过对上式求取驻点，可以得到参数向量θ的求解公式，θ＝(X^TX)^-1X^TY，其中，X的每一行对应一个时间周期，共有m个时间周期，X的每一列对应时间周期内的一个时间段，共有n个时间段，θ＝{θ₀、θ₁、θ₂…θ_i…θ_n}。

优选地，时间周期为一日，并且/或者每个时间周期分为三个时间段，包括第一时间段08:00-10:00、第二时间段14:00-16:00以及第三时间段23:00-01:00，并且/或者单位时间为一分钟。

如图5所示，识别装置500还可以可选地包括通知模块540和剔除模块550。

在判断模块520判定端口异常的情况下，可以由通知模块540通知管理员进行处理。并且，在管理员确认端口异常是被盗导致的情况下，可以由剔除模块550丢弃当前时间周期内端口的实际发送量。

综上，本发明通过提出用态势分析的方法，来预测端口未来的发送量和上浮度，对于分析端口是否存在被盗风险具有至关重要的意义。

通过采用多元线性回归算法，通过建立模型，根据端口历史的发送时段和发送量，来预测出端口新一天的发送量，再通过纠错修正，自动生成监控策略，代替人工管理策略，可以自动实现为每个端口每天更新一个策略。

与第三条中最接近的现有技术相比，本发明至少存在以下有益效果。

1.现有的技术只能人为通过对端口的了解和估计，来配置和调整策略，没有具体的数据作为参考，策略不具有可靠性，本提案通过态势分析的方式，根据端口的历史发送量和发送时段，通过建模，预测出端口未来的发送量，再通过纠错，计算出预测值和实际值的最大浮动值，进而生成监控策略，其较人为配置的策略，具有准确性和权威性。

2.现有的技术，监控策略完全依赖于人工配置，不具有时效性，本提案能够让系统自动每天为每个端口生成最新的监控策略，实现自动化管理策略，从时效性和使用性上，有了很大的提高和发展。

3.现有的技术，由于端口量庞大，人工管理，本提案能够实现端口日发送量阀值的智能化管理，极大地减轻了管理员的压力和工作负荷，便于管理员更好的使用和管理端口。

4.现有的技术，会经常出现误报的情况，并且误报率比较高，本提案通过态势分析的方法来预测和计算端口发送量，并且每个端口每天一个策略，极大地降低了误报率，对于被盗端口的识别，对于分析端口被盗风险具有突破性的进步和意义。

另外，结合图1、图2描述的本发明实施例的端口异常的识别方法可以由计算设备来实现。图6示出了本发明实施例提供的计算设备的硬件结构示意图。

计算设备可以包括处理器401以及存储有计算机程序指令的存储器402。

具体地，上述处理器401可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在数据处理装置的内部或外部。在特定实施例中，存储器402是非易失性固态存储器。在特定实施例中，存储器402包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器401通过读取并执行存储器402中存储的计算机程序指令，可以实现上述实施例中的任意一种识别方法。

在一个示例中，计算设备还可包括通信接口403和总线410。其中，如图6所示，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。

通信接口403，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线410包括硬件、软件或两者，将计算设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的端口异常的识别方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种端口异常的识别方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种端口异常的识别方法，其特征在于，所述方法包括：

基于端口在之前一个或多个时间周期中每个时间周期内发送数据的实际发送量，预测当前时间周期内所述端口发送数据的预测发送量；

在当前时间周期内所述端口发送数据的实际发送量超过所述预测发送量预定阈值的情况下，判定所述端口异常。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于端口在之前一个或多个时间周期中每个时间周期内发送数据的实际发送量，确定所述当前周期内所述端口发送数据的上浮量，所述上浮量即为所述预定阈值。

3.根据权利要求2所述的方法，其特征在于，

所述上浮量是所述之前一个或多个时间周期中最大的实际发送量与所述预测发送量的差值的绝对值。

4.根据权利要求1所述的方法，其特征在于，

使用多元线性回归算法、神经网络算法、三次指数平滑算法以及预测自回归积分滑动平均算法中的任一种，预测当前时间周期内所述端口发送数据的预测发送量。

5.根据权利要求1所述的方法，其特征在于，每个所述时间周期分为一个或多个时间段，所述预测当前时间周期内所述端口发送数据的预测发送量的步骤包括：

利用多元线性回归算法构造线性回归方程其中，y_i(θ)表示第i个时间周期内的预测发送量，i＝1，2…m，θ_j为回归系数，表示第i个时间周期内第j个时间段中单位时间的发送量，j＝1，2…n，x_j表示第j个时间段的时长，θ₀为随机误差；

构造用于表征所述预测发送量的误差的损失函数其中，y_i表示第i个时间周期内的实际发送量；

以使所述损失函数尽可能减小为目标，求解线性回归方程中的参数向量θ，θ＝{θ₀，θ₁，θ₂…θ_n}。

6.根据权利要求5所述的方法，其特征在于，以使所述损失函数尽可能减小为目标，求解θ的步骤包括：

利用随机梯度下降算法，将损失函数最小化为

对上式求取驻点，以得到参数向量θ的求解公式，θ=(X^TX)^-1X^TY，其中，X的每一行对应一个时间周期，共有m个时间周期，X的每一列对应时间周期内的一个时间段，共有n个时间段。

7.根据权利要求1所述的方法，其特征在于，还包括：

在判定所述端口异常的情况下，通知管理员进行处理；以及

在所述管理员确认所述端口异常是被盗导致的情况下，丢弃当前时间周期内所述端口的实际发送量。

8.一种端口异常的识别装置，其特征在于，所述装置包括：

预测模块，用于基于端口在之前一个或多个时间周期中每个时间周期内发送数据的实际发送量，预测当前时间周期内所述端口发送数据的预测发送量；

判断模块，用于在当前时间周期内所述端口发送数据的实际发送量超过所述预测发送量预定阈值的情况下，判定所述端口异常。

9.一种计算设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。