CN112579418A

CN112579418A - 识别访问日志的方法、装置、设备和计算机可读介质

Info

Publication number: CN112579418A
Application number: CN202011573201.2A
Authority: CN
Inventors: 满毅
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-30

Abstract

本发明公开了识别访问日志的方法、装置、设备和计算机可读介质，涉及计算机技术领域。该方法的一具体实施方式包括：接收日志样本数据，解析日志样本数据获知访问源标识；按照访问源标识，将日志样本数据划分为一个或多个分组；计算各个分组中日志样本数据的记录时间差序列，进而得到各个分组的变异程度，记录时间差值序列是基于分组中相邻日志样本数据的记录时间差得到的序列；根据分组的变异程度和预设变异阈值，识别分组中的日志样本数据是否属于机器访问日志；输出客户端展示视图，展示视图包括访问源标识和访问源标识的日志样本数据是否属于机器访问日志。该实施方式能够从数量庞大的网络访问日志中区分出不同的访问日志。

Description

识别访问日志的方法、装置、设备和计算机可读介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种识别访问日志的方法、装置、设备和计算机可读介质。

背景技术

近年来，随着通讯网络的迅猛发展和企业信息化建设的逐步深入，企业网络环境中的网络设备、安全设备、服务器系统日益增多，而通常上述IT设备会基于自身业务和安全等需求，记录相关的网络访问日志。

在信息安全技术中，基于安全需求分析网络访问日志，是发现威胁和抵御攻击的重要技术手段。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：难以从数量庞大的网络访问日志中区分出不同的访问日志。

发明内容

有鉴于此，本发明实施例提供一种识别访问日志的方法、装置、设备和计算机可读介质，能够从数量庞大的网络访问日志中区分出不同的访问日志。

为实现上述目的，根据本发明实施例的一个方面，提供了一种识别访问日志的方法，应用于服务器，包括：

接收日志样本数据，解析日志样本数据获知访问源标识；

按照所述访问源标识，将日志样本数据划分为一个或多个分组；

计算各个分组中日志样本数据的记录时间差序列，进而得到所述各个分组的变异程度，所述记录时间差值序列是基于所述分组中相邻日志样本数据的记录时间差得到的序列；

根据所述分组的变异程度和预设变异阈值，识别所述分组中的日志样本数据是否属于机器访问日志；

输出客户端展示视图，所述展示视图包括所述访问源标识和所述访问源标识的日志样本数据是否属于机器访问日志。

所述计算一个分组中日志样本数据的记录时间差序列，进而得到所述分组的变异程度，包括：

按照记录时间从早到晚的顺序，排列所述分组中日志样本数据；

根据排列后相邻日志样本数据的记录时间，计算得到所述记录时间差序列；

分析所述记录时间差序列的离散程度，得到所述分组的变异程度。

所述根据排列后相邻日志样本数据的记录时间，计算得到所述记录时间差序列之前，包括：

统一所述日志样本数据的记录时间的精度。

所述分析所述记录时间差序列的离散程度，得到所述分组的变异程度，包括：

分析所述记录时间差序列的统计参数；

基于所述记录时间差序列的统计参数，得到所述分组的变异程度。

所述识别所述分组中的日志样本数据是否属于机器访问日志之后，还包括：

再次计算所述分组中日志样本数据的记录时间差序列，以验证识别结果。

所述展示视图还包括以下一种或多种，所述访问源标识是否为机器访问源，所述访问源标识的分析时间范围和所述访问源标识的日志样本数据的数量。

所述访问源标识包括以下至少一种，源IP地址、源MAC地址、源端口、目的端口、网络协议和账户信息。

根据本发明实施例的第二方面，提供了一种识别访问日志的装置，应用于服务器，包括：

接收模块，用于接收日志样本数据，解析日志样本数据获知访问源标识；

划分模块，用于按照所述访问源标识，将日志样本数据划分为一个或多个分组；

计算模块，用于计算各个分组中日志样本数据的记录时间差序列，进而得到所述各个分组的变异程度，所述记录时间差值序列是基于所述分组中相邻日志样本数据的记录时间差得到的序列；

识别模块，用于根据所述分组的变异程度和预设变异阈值，识别所述分组中的日志样本数据是否属于机器访问日志；

展示模块，用于输出客户端展示视图，所述展示视图包括所述访问源标识和所述访问源标识的日志样本数据是否属于机器访问日志。

根据本发明实施例的第三方面，提供了一种识别访问日志的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述的方法。

上述发明中的一个实施例具有如下优点或有益效果：接收日志样本数据，解析日志样本数据获知访问源标识；按照所述访问源标识，将日志样本数据划分为一个或多个分组；计算各个分组中日志样本数据的记录时间差序列，进而得到所述各个分组的变异程度，所述记录时间差值序列是基于所述分组中相邻日志样本数据的记录时间差得到的序列；根据所述分组的变异程度和预设变异阈值，识别所述分组中的日志样本数据是否属于机器访问日志；输出客户端展示视图，所述展示视图包括所述访问源标识和所述访问源标识的日志样本数据是否属于机器访问日志。因此，能够从数量庞大的网络访问日志中区分机器访问日志和人为访问日志，并通过客户端展示视图输出识别结果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的识别访问日志的方法的主要流程的示意图；

图2是根据本发明实施例的得到分组的变异程度的流程示意图；

图3是根据本发明实施例的依据离散程度得到变异程度的流程示意图；

图4是根据本发明实施例的客户端展示视图；

图5是根据本发明实施例的另一个客户端展示视图；

图6是根据本发明实施例的识别访问日志的方法的应用流程的示意图；

图7是根据本发明实施例的识别访问日志的装置的主要结构的示意图；

图8是本发明实施例可以应用于其中的示例性系统架构图；

图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，网络访问日志量是非常庞大的，依靠人工分析，借助分析软件工具，利用一些常规化的分析方法和手段，如：分类、聚类和相似匹配等，难以从数量庞大的网络访问日志中区分出不同的访问日志。

网络访问日志中，可将网络访问日志按照访问源的类型划分为两类：机器访问日志和人工访问日志。如：系统间心跳访问、DoS攻击、网络爬虫访问、黄牛刷票机器人访问、系统周期性API调用等，都会产生机器访问日志。有数据表明，互联网网站中机器访问日志的占比达37.2％。

如何能够自动且有效的将网络访问日志中，机器访问日志与人工访问日志区分开，是网络访问日志分析中要解决的问题。解决这一类问题带来的业务价值在不同业务领域、业务场景可能是不同的，如：可以减少日志分析数据量，节省时间和机器成本；发现异常的网络访问，保护目标业务系统等。

将网络访问日志中，机器访问日志与人类访问日志区分开，一般的采用以下方式：一是使用日志数据可视化工具软件，二是依靠人工分析抽样数据。缺点是：低效、访问源过多时方法可能失效、结果可信度低和输出结果不稳定。

因此，难以从数量庞大的网络访问日志中区分出不同的访问日志，如：区别机器访问日志和人工访问日志。

为了解决难以从数量庞大的网络访问日志中区分出不同的访问日志，可以采用以下本发明实施例中的技术方案。

参见图1，图1是根据本发明实施例的识别访问日志的方法主要流程的示意图，通过分组中日志样本数据的变异程度，识别是否属于机器访问日志。如图1所示，具体包括以下步骤：

S101、接收日志样本数据，解析日志样本数据获知访问源标识。

在本发明实施例中，日志样本库中包括日志样本数据。每条日志样本数据中包括访问源标识。作为一个示例，访问源标识包括以下至少一种，源IP地址、源MAC地址、源端口、目的端口、网络协议和账户信息。

在识别访问日志的过程中，每条日志样本数据表示访问源对目标系统的一次访问，且目标系统是唯一的。日志样本数据包括访问源标识和记录时间，即日志样本数据是是对目标系统的访问日志记录。其中，记录时间是该日志样本数据的记录时间。

S102、按照访问源标识，将日志样本数据划分为一个或多个分组。

在本发明实施例中，可以按照时间和/或数量确定识别对象。也就是说，将一定时间范围内和/或数量的日志样本数据作为识别对象。

根据访问源对目标系统的访问情况，确定时间范围，一般情况下可选定，时间范围≥24小时。通常时间范围越大，识别结果越准确。其中，为了识别日志样本数据是否属于机器访问日志，设置时间范围≥24小时。这是因为，一般人工访问日志是有随时间变化的特征的，如：目标系统24小时访问量的变化曲线是与人类作息时间相关。

此外，还可以根据访问源对目标系统的访问情况，确定日志样本数据数量。一般情况下可选定，单个访问源的日志样本数据数量≥100条。通常日志样本数据数量越大，分析结果越准确。

在本发明的一个实施例中，按照访问源标识，将日志样本数据划分为一个或多个分组。这样，能够针对同一种访问源标识识别访问日志。可以理解的是，属于同一分组的日志样本数据的访问源标识相同。也就是说，将具有相同访问源标识的日志样本数据，划分为同一个分组，以得到一个或多个分组。

按照访问源标识，将日志样本数据划分为K个分组，则识别访问日志共涉及K个访问源。K是大于等于1的整数。

S103、计算各个分组中日志样本数据的记录时间差序列，进而得到各个分组的变异程度，记录时间差值序列是基于分组中相邻日志样本数据的记录时间差得到的序列。

在本发明实施例中，利用日志样本数据的记录时间识别访问日志。那么，对于日志样本数据的记录时间的精度需要统一。即，统一日志样本数据的记录时间的精度，并将记录时间统一转化为同精度的时间戳，如：精度为秒或毫秒。这是因为，如果两条日志样本数据的精度不同，则运算结果无意义。

参见图2，图2是根据本发明实施例的得到分组的变异程度的流程示意图，具体包括以下步骤：

S201、按照记录时间从早到晚的顺序，排列分组中日志样本数据。

在一个分组中包括多个日志样本数据，每个日志样本数据均有对应记录时间。记录时间是访问源访问目标系统的时间点。

通过分析日志样本数据的记录时间，可知数据源访问目标系统的时间间隔变化。具体来说，按照记录时间排列分组中日志样本数据。作为一个示例，按照记录时间从早到晚的顺序，排列分组中日志样本数据。作为另一个示例，按照记录时间从晚到早的顺序，排列分组中日志样本数据。可以将排列后的n个日志样本数据记为T_n，其中n是大于等于1且小于等于K的整数。

S202、根据排列后相邻日志样本数据的记录时间，计算得到记录时间差序列。

T_n中包括n个日志样本数据，访问源访问目标系统的时间间隔变化越大，则记录时间差越大；访问源访问目标系统的时间间隔变化越小，则记录时间差越小

为了获知访问源访问目标系统的时间间隔变化，需要计算T_n的记录时间差序列。具体来说，依次计算T_n中相邻两条日志样本数据的记录时间差值绝对值，利用差值绝对值生成记录时间差序列D_m(1≤m≤K-1)。

可以理解的是，记录时间差值序列是基于分组中相邻日志样本数据的记录时间差得到的序列。

S203、分析记录时间差序列的离散程度，得到分组的变异程度。

记录时间差序列中包括日志样本数据的记录时间差。在本发明实施例中，经多次实践发现，机器访问与人工访问比较而言，机器访问具有离散程度低的特点。相应地，人工访问相比于机器访问具有离散程度高的特点。

参见图3，图3是根据本发明实施例的依据离散程度得到变异程度的流程示意图，具体包括以下步骤：

S301、分析记录时间差序列的统计参数。

记录时间差序列是包括一组数据的序列，那么可以分析记录时间差序列的统计参数。以统计参数衡量记录时间差序列的离散程度。

具体来说，考察数值序列D_m整体的离散程度，计算数值序列D_m的样本方差。

参见公式1，根据公式1可以计算得到D_m的样本方差。

其中，

是样本均值。基于D_m的样本方差，进而得到D_m的样本标准差SD。其中，SD等于D_m的样本方差的平方根。

在本发明的实施例中，分析记录时间差序列的离散程度，得到记录时间差序列的样本均值和时间差序列的样本标准差。即，以记录时间差序列的样本均值和时间差序列的样本标准差，标识记录时间差序列的离散程度。

S302、基于记录时间差序列的统计参数，得到分组的变异程度。

统计参数能够标识记录时间差的离散程度，进而基于上述统计参数得到分组的变异程度。

作为一个示例，基于记录时间差序列的样本均值和样本标准差，得到分组的变异程度。

具体来说，以记录时间差序列的样本均值和时间差序列的样本标准差，计算得到分组的变异程度C.V。按照公式2计算得到分组的变异程度。

其中，

等于0，则T_n被认为是不可分析的。

在图2的实施例中，通过分析记录时间差序列的离散程度，得到分组的变异程度，为识别访问日志奠定了基础。

S104、根据分组的变异程度和预设变异阈值，识别分组中的日志样本数据是否属于机器访问日志。

分组的变异程度能够以记录时间差序列的统计参数获得。继而，根据分组的变异程度和预设变异阈值，识别分组中的日志样本数据是否属于机器访问日志。

其中，预设变异阈值是根据日志的业务属性确定的参数。具体来说，业务属性包括业务领域，是否对外网公开和网络及软件结构等。业务领域可以涉及保单检索、企业域控制和网络数据库等。

在本发明的实施例中，针对于日志样本库，可以预设日志样本库的变异阈值，以提高识别的准确性。也就是说，在将日志样本数据划分为多个分组的情况下，以预设变异阈值识别该分组中的日志样本数据是否属于机器访问日志。

在本发明的一个实施例中，若分组的变异程度小于等于预设变异阈值，则识别分组中的日志样本数据属于机器访问日志。作为一个示例，在保单检索的实际应用场景中，预设变异阈值等于5.0。

在本发明的一个实施例中，考虑到基于分组的变异程度，还可以确定分组中的日志样本数据属于机器访问日志的可能性。那么，可以预设多个变异阈值，基于多个变异阈值获知分组中的日志样本数据属于机器访问日志的可能性。

作为一个示例，设置两个变异阈值，分别为第一变异阈值和第二变异阈值。第一变异阈值大于第二变异阈值。

在分组的变异程度小于第一变异阈值的情况下，可确定该分组中的日志样本数据疑似机器访问日志。在分组的变异程度小于第二变异阈值的情况下，可确定该分组中的日志样本数据是机器访问日志。

作为一个示例，在保单检索的实际应用场景中，第一变异阈值等于10.0，第二变异阈值等于5.0。

在本发明的一个实施例中，不同的访问日志有不同的特点，因此采用本发明实施例识别访问日志，需要对一定周期内的识别结果进行验证，以保证技术方案的适用性和准确性。

即，首次识别分组中的日志样本数据后，还可以再次计算分组中日志样本数据的记录时间差序列，以验证识别结果。

如：对同类的日志样本数据，确定相同的访问源标识，选取不同的日志样本数据范围，可多次重复识别访问日志，以提高识别结果的可信度。此外，还可以采用人工抽样验证。

在本发明的一个实施例中，识别访问日志的结果不仅包括分组中的日志样本数据是否属于机器访问日志，还包括访问源标识、是否为机器访问源、日志样本数据所属时间段和日志样本数据数量。

其中，根据分组中的日志样本数据是否属于机器访问日志，进一步可知该分组的访问源是否为机器访问源。

可以理解的是，分组中的日志样本数据属于机器访问日志，则该分组的访问源为机器访问源；分组中的日志样本数据不属于机器访问日志，则该分组的访问源不是机器访问源。

S105、输出客户端展示视图，展示视图包括访问源标识和访问源标识的日志样本数据是否属于机器访问日志。

在识别出分组中的日志样本数据是否属于机器访问日志的情况下，为了方便用户获知识别结果，可以输出客户端展示图。作为一个示例，在显示器和/或移动终端显示客户端展示图。

参见图4，图4是根据本发明实施例的客户端展示视图。图4中，客户端展示图包括访问源标识：是，以及是否属于机器访问日志：是。

参见图5，图5是根据本发明实施例的另一个客户端展示视图。图5中不仅包括访问源标识和是否属于机器访问日志，还包括是否为机器访问源，分析时间范围和日志样本数据的数量。

其中，访问源标识：123；是否属于机器访问日志：是；是否属于机器访问源：是；分析时间范围：201803140000-201803140800；分析日志数量：100000。

也就是说，在本发明的一个实施例中，展示视图还包括以下一种或多种，访问源标识是否为机器访问源，访问源标识的分析时间范围和访问源标识的日志样本数据的数量。

可知，通过输出客户端展示视图，可以及时通知用户访问日志的识别结果，有助于用户据此做出进一步的处理。

在上述实施例中，接收日志样本数据，解析日志样本数据获知访问源标识；按照访问源标识，将日志样本数据划分为一个或多个分组；计算各个分组中日志样本数据的记录时间差序列，进而得到各个分组的变异程度，记录时间差值序列是基于分组中相邻日志样本数据的记录时间差得到的序列；根据分组的变异程度和预设变异阈值，识别分组中的日志样本数据是否属于机器访问日志；输出客户端展示视图，所述展示视图包括所述访问源标识和所述访问源标识的日志样本数据是否属于机器访问日志。进而，能够从数量庞大的网络访问日志中区分机器访问日志和人为访问日志，并通过客户端展示视图输出识别结果。

参见图6，图6是根据本发明实施例的识别访问日志的方法的应用流程的示意图，具体包括以下步骤：

S601、规范化处理日志数据。

域认证在企业IT管理中应用非常广泛，如：某个用户采用某个域帐号，登录访问某台主机就会使用域认证。域控服务器会对域认证过程生成详细的日志记录。

一类计算机恶意病毒会尝试性爆破域认证账号密码，而这种渗透行为具有明显的“心跳”访问行为特征。域控制服务器日志中可以找到这样的日志样本。上述计算机恶意病毒的访问属于机器访问。

首先，需要规范化处理日志数据，如：统一日志样本数据的记录时间的精度。

S602、将日志样本数据划分为多个分组。

日志样本数据中记录有认证源IP地址和认证使用的域账号，可以将认证源IP地址或认证使用的域账户作为访问源标识，以将日志样本数据划分为多个分组。

S603、计算一个分组中日志样本数据的记录时间差序列。

按照本发明实施例中的方案，计算一个分组中日志样本数据的记录时间差序列。

S604、由记录时间差序列得到分组的变异程度。

进一步地，由记录时间差序列得到分组的变异程度。

S605、识别分组中的日志样本数据是否属于机器访问日志。

依据分组的变异程度，识别分组中的日志样本数据是否属于机器访问日志。

采用本发明实施例中的技术方案，可以有效的分析检测出，具有“心跳”访问行为特征的访问源，及时发现、定位有问题的IP地址对应计算机及域账号。

参见图7，图7是根据本发明实施例的识别访问日志的装置的主要结构的示意图，识别访问日志的装置可以实现识别访问日志的方法，如图7所示，识别访问日志的装置具体包括：

划分模块701，用于按照访问源标识，将日志样本数据划分为一个或多个分组；

计算模块702，用于计算各个分组中日志样本数据的记录时间差序列，进而得到所述各个分组的变异程度，所述记录时间差值序列是基于所述分组中相邻日志样本数据的记录时间差得到的序列；

识别模块703，用于根据所述分组的变异程度和预设变异阈值，识别所述分组中的日志样本数据是否属于机器访问日志。

在本发明的一个实施例中，计算模块702，具体用于按照记录时间从早到晚的顺序，排列所述分组中日志样本数据；

在本发明的一个实施例中，计算模块702，还用于统一所述日志样本数据的记录时间的精度。

在本发明的一个实施例中，计算模块702，具体用于分析所述记录时间差序列的统计参数；

在本发明的一个实施例中，计算模块702，还用于再次计算所述分组中日志样本数据的记录时间差序列，以验证识别结果。

在本发明的一个实施例中，划分模块701，具体用于将具有相同访问源标识的日志样本数据，划分为同一个分组，以得到所述一个或多个分组。

在本发明的一个实施例中，所述访问源标识包括以下至少一种，源IP地址、源MAC地址、源端口、目的端口、网络协议和账户信息。

图8示出了可以应用本发明实施例的识别访问日志的方法或识别访问日志的装置的示例性系统架构800。

如图8所示，系统架构800可以包括终端设备801、802、803，网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备801、802、803通过网络804与服务器805交互，以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器805可以是提供各种服务的服务器，例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的识别访问日志的方法一般由服务器805执行，相应地，识别访问日志的装置一般设置于服务器805中。

应该理解，图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图9，其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括划分模块、计算模块和识别模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，划分模块还可以被描述为“用于按照访问源标识，将日志样本数据划分为一个或多个分组”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

接收日志样本数据，解析日志样本数据获知访问源标识；

根据本发明实施例的技术方案，接收日志样本数据，解析日志样本数据获知访问源标识；按照访问源标识，将日志样本数据划分为一个或多个分组；计算各个分组中日志样本数据的记录时间差序列，进而得到所述各个分组的变异程度，所述记录时间差值序列是基于所述分组中相邻日志样本数据的记录时间差得到的序列；根据所述分组的变异程度和预设变异阈值，识别所述分组中的日志样本数据是否属于机器访问日志；输出客户端展示视图，所述展示视图包括所述访问源标识和所述访问源标识的日志样本数据是否属于机器访问日志。因此，能够从数量庞大的网络访问日志中区分机器访问日志和人为访问日志，并通过客户端展示视图输出识别结果。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种识别访问日志的方法，其特征在于，应用于服务器，包括：

接收日志样本数据，解析日志样本数据获知访问源标识；

2.根据权利要求1所述识别访问日志的方法，其特征在于，所述计算一个分组中日志样本数据的记录时间差序列，进而得到所述分组的变异程度，包括：

3.根据权利要求2所述识别访问日志的方法，其特征在于，所述根据排列后相邻日志样本数据的记录时间，计算得到所述记录时间差序列之前，包括：

统一所述日志样本数据的记录时间的精度。

4.根据权利要求2所述识别访问日志的方法，其特征在于，所述分析所述记录时间差序列的离散程度，得到所述分组的变异程度，包括：

分析所述记录时间差序列的统计参数；

5.根据权利要求1所述识别访问日志的方法，其特征在于，所述识别所述分组中的日志样本数据是否属于机器访问日志之后，还包括：

6.根据权利要求1所述识别访问日志的方法，其特征在于，所述展示视图还包括以下一种或多种，所述访问源标识是否为机器访问源，所述访问源标识的分析时间范围和所述访问源标识的日志样本数据的数量。

7.根据权利要求1或2所述识别访问日志的方法，其特征在于，所述访问源标识包括以下至少一种，源IP地址、源MAC地址、源端口、目的端口、网络协议和账户信息。

8.一种识别访问日志的装置，其特征在于，应用于服务器，包括：

9.一种识别访问日志的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。