CN110311930B

CN110311930B - 远控回连行为的识别方法、装置及电子设备

Info

Publication number: CN110311930B
Application number: CN201910709583.8A
Authority: CN
Inventors: 徐丽丽; 范渊; 王世晋; 黄进
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2021-09-28
Anticipated expiration: 2039-08-01
Also published as: CN110311930A

Abstract

本发明提供了一种远控回连行为的识别方法、装置及电子设备，涉及计算机技术领域，该方法包括：获取目标网络的域名系统的流量数据；流量数据包括目标网络所包含的客户端的第一域名和第一域名请求次数及服务端的第二域名和第二域名请求次数；基于流量数据筛选出可能存在远控回连行为的可疑客户端和可疑服务端；基于机器学习算法识别出可疑客户端和可疑服务端中包含的目标客户端(目标客户端为存在远控回连行为的客户端)和目标服务端(目标服务端为存在远控回连行为的服务端)。本发明提升了识别目标网络中远控回连行为的效率。

Description

远控回连行为的识别方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，尤其是涉及一种远控回连行为的识别方法、装置及电子设备。

背景技术

远控回连行为是指网络中的客户端感染木马、病毒后，服务端会远程控制客户端，使客户端执行相应的操作，例如传输数据资料给服务端等。随着网络资产信息的增多，对资产是否被远控回连的识别任务越来越繁重，传统的人工识别远控回连行为的方式效率低下。

发明内容

本发明实施例的目的在于提供一种远控回连行为的识别方法、装置及电子设备，该方法提升了识别目标网络中远控回连行为的效率。

第一方面，本发明实施例提供了一种远控回连行为的识别方法，包括：获取目标网络的域名系统的流量数据；所述流量数据包括所述目标网络所包含的客户端的第一域名和第一域名请求次数及服务端的第二域名和第二域名请求次数；基于所述流量数据筛选出可能存在所述远控回连行为的可疑客户端和可疑服务端；基于机器学习算法识别出所述可疑客户端和可疑服务端中包含的目标客户端和目标服务端；其中，所述目标客户端为存在所述远控回连行为的客户端，所述目标服务端为存在所述远控回连行为的服务端。

在可选的实施方式中，所述基于所述流量数据筛选出可能存在所述远控回连行为的可疑客户端和可疑服务端的步骤包括：基于所述第一域名请求次数和所述第二域名请求次数构建所述客户端和所述服务端的域名向量；通过相似度计算公式计算所述客户端与所述服务端两两之间所述域名向量的余弦相似度sim；其中，所述相似度计算公式为：sim＝a*b/|a||b|，a为所述客户端的域名向量，b为所述服务端的域名向量；从所述余弦相似度中筛选出满足预设阈值的第一余弦相似度，并将所述第一余弦相似度对应的客户端作为可疑客户端，将所述第一余弦相似度对应的服务端作为可疑服务端。

在可选的实施方式中，所述基于机器学习算法识别出所述可疑客户端和可疑服务端中包含的目标客户端和目标服务端的步骤包括：基于所述可疑客户端和所述可疑服务端构建网络图；基于机器学习算法确定所述网络图中存在所述远控回连行为的目标客户端和目标服务端。

在可选的实施方式中，所述基于所述可疑客户端和所述可疑服务端构建网络图的步骤包括：将所述可疑客户端和所述可疑服务端作为网络节点；根据所述第一域名和所述第一域名请求次数及所述第二域名和所述第二域名请求次数，将所述可疑客户端和所述可疑服务端之间的请求访问关系作为所述网络节点之间的网络线段，基于所述网络节点和所述网络线段获得网络图。

在可选的实施方式中，所述基于机器学习算法确定所述网络图中存在所述远控回连行为的目标客户端和目标服务端的步骤，包括：基于louvain算法将所述网络图中的所述可疑客户端和所述可疑服务端划分成相互不重叠的多个社区；基于图算法识别出存在请求访问关系且位于不同社区的可疑客户端和可疑服务器，将识别出的所述可疑客户端和所述可疑服务器确认为目标客户端和目标服务器。

第二方面，本发明实施例提供了一种远控回连行为的识别装置，包括：流量数据模块，用于获取目标网络的域名系统的流量数据；所述流量数据包括所述目标网络所包含的客户端的第一域名和第一域名请求次数及服务端的第二域名和第二域名请求次数；筛选模块，用于基于所述流量数据筛选出可能存在所述远控回连行为的可疑客户端和可疑服务端；识别模块，用于基于机器学习算法识别出所述可疑客户端和可疑服务端中包含的目标客户端和目标服务端；其中，所述目标客户端为存在所述远控回连行为的客户端，所述目标服务端为存在所述远控回连行为的服务端。

在可选的实施方式中，所述筛选模块，进一步用于基于所述第一域名请求次数和所述第二域名请求次数构建所述客户端和所述服务端的域名向量；通过相似度计算公式计算所述客户端与所述服务端两两之间所述域名向量的余弦相似度sim；其中，所述相似度计算公式为：sim＝a*b/|a||b|，a为所述客户端的域名向量，b为所述服务端的域名向量；从所述余弦相似度中筛选出满足预设阈值的第一余弦相似度，并将所述第一余弦相似度对应的客户端作为可疑客户端，将所述第一余弦相似度对应的服务端作为可疑服务端。

在可选的实施方式中，所述识别模块，进一步用于基于所述可疑客户端和所述可疑服务端构建网络图；基于机器学习算法确定所述网络图中存在所述远控回连行为的目标客户端和目标服务端。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如第一方面所述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读介质，其中，所述计算机可读介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现如第一方面所述的方法。

本发明实施例提供了一种远控回连行为的识别方法、装置及电子设备，该方法包括：获取目标网络的域名系统的流量数据；流量数据包括目标网络所包含的客户端的第一域名和第一域名请求次数及服务端的第二域名和第二域名请求次数；基于流量数据筛选出可能存在远控回连行为的可疑客户端和可疑服务端；基于机器学习算法识别出可疑客户端和可疑服务端中包含的目标客户端(目标客户端为存在远控回连行为的客户端)和目标服务端(目标服务端为存在远控回连行为的服务端)。该方法首先筛选出可能存在远控回连行为的可疑客户端和可疑服务端，缩小了从目标网络中识别远控回连行为的识别范围，再引入机器学习算法识别可疑客户端和可疑服务端中存在远控回连行为的目标客户端和目标服务器端，提升了识别目标网络中远控回连行为的效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种远控回连行为的识别方法流程图；

图2为本发明实施例提供的一种网络示意图；

图3为本发明实施例提供的一种远程回连行为的识别流程图；

图4为本发明实施例提供的一种远控回连行为的识别装置结构示意图；

图5为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

目前对检测资产是否被远控回连的检测任务越来越繁重，传统的人工识别远控回连行为的方式效率低下，因此，对于远控回连行为的识别效率还有待提高。基于此，本发明实施例提供了一种远控回连行为的识别方法、装置及电子设备，首先筛选出可能存在远控回连行为的可疑客户端和可疑服务端，缩小了从目标网络中识别远控回连行为的识别范围，再基于机器学习算法识别可疑客户端和可疑服务端中存在远控回连行为的目标客户端和目标服务器端，提升了识别目标网络中远控回连行为的效率。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种远控回连行为的识别方法进行详细介绍。

本发明实施例提供了一种远控回连行为的识别方法，该方法可以由目标网络中诸如控制器等主控设备执行，参见如图1所示的远控回连行为的识别方法流程图，该方法包括以下步骤：

S102：获取目标网络的域名系统的流量数据；流量数据包括目标网络所包含的客户端的第一域名和第一域名请求次数及服务端的第二域名和第二域名请求次数。

具体的，可以通过网络流量探针获取目标网络的域名系统(也可以称为域名请求系统)的流量数据，该目标网络可以是需要进行远控回连行为识别的网络，上述流量数据包括目标网络中每个客户端的第一域名和第一域名请求次数，以及每个服务端的第二域名和第二域名请求次数，上述服务端也可以称为服务器。其中，获取到的流量数据可以是通过获取客户端或服务端的IP请求的形式体现IP＝{(domain1,count1),(domain2,count2),(domain3,count3)...}，其中，流量数据中的domain1～domainN表示客户端请求的第一域名或服务端请求的第二域名，count1～countN表示客户端的第一域名请求次数或服务端第二域名请求次数。目标网络中可能是存在多个客户端和服务端，每个客户端和服务端的流量数据都包括域名及域名请求次数，第一域名及第一域名请求次数是对客户端的域名及域名次数的代指，第二域名及第二域名请求次数是对服务端的域名及域名次数的代指。

S104：基于流量数据筛选出可能存在远控回连行为的可疑客户端和可疑服务端。

由于远控回连行为是客户端感染木马等病毒后，会受到某个服务端的远程控制，客户端要给服务端回应，并根据服务端的控制执行相应的操作的行为，因此，可以通过客户端与服务器之间的异常请求关系筛选出可能存在远控回连行为的可疑客户端和可疑服务端。具体的，可以通过计算任意一个客户端和任意一个服务端之间的域名相似度，筛选得到域名相似度超出预设阈值的客户端和服务端，域名相似度超出预设阈值的客户端和服务端即为可能存在远控回连行为的可疑客户端和可疑服务端，域名相似度可以是采用计算余弦相似度的方式来计算。由于目标网络中存在众多的客户端和服务端，预先筛选出可能存在远控回连行为的可疑客户端和可疑服务端，可以缩小后续的识别远控回连行为的客户端和服务端的范围。

S106：基于机器学习算法识别出可疑客户端和可疑服务端中包含的目标客户端和目标服务端；其中，目标客户端为存在远控回连行为的客户端，目标服务端为存在远控回连行为的服务端。

利用机器学习算法识别出可疑客户端中存在远控回连行为的目标客户端，以及识别出可疑服务端中存在远控回连行为的目标服务端，该目标服务端也就是目标网络中对目标客户端存在远程异常控制的服务器。

本发明实施例提供的上述远控回连行为的识别方法，首先筛选出可能存在远控回连行为的可疑客户端和可疑服务端，缩小了从目标网络中识别远控回连行为的识别范围，再引入通常而言数据处理能力较强的机器学习算法识别可疑客户端和可疑服务端中存在远控回连行为的目标客户端和目标服务器端，提升了识别目标网络中远控回连行为的效率。

为了缩小目标网络中客户端和服务端可能存在远控回连行为的范围，本实施例提供了基于流量数据筛选出可能存在远控回连行为的可疑客户端和可疑服务端的具体实施方式，可参照如下步骤(1)～(3)：

步骤(1)：基于第一域名请求次数和第二域名请求次数构建客户端和服务端的域名向量。

基于客户端的第一域名次数构建客户端的域名向量，根据服务端的第二域名次数构建服务端的域名向量。由于从目标网络中获取到的客户端和服务端的流量数据的形式可以是IP＝{(domain1,count1),(domain2,count2),(domain3,count3)...}，若目标网络中的某一个客户端的流量数据是IP1＝{(domain11,count11),(domain12,count12),(domain13,count13)...(domain1 N,count1N)}，目标网络中的某一个服务端的流量数据是IP2＝{(domain21,count21),(domain22,count22),(domain23,count23)...(domain2N,count2N)}，其中n是IP1和IP2请求的并集数目,如果未请求该域名count＝0，根据上述客户端的第一域名请求次数，可以构建该客户端的域名向量a＝(count11,count12,....count1n)；根据上述服务端的第二域名请求次数，可以构建该服务端的域名向量b＝(count21,count22,....count2n)。

步骤(2)：通过相似度计算公式计算客户端与服务端两两之间域名向量的余弦相似度sim；其中，相似度计算公式为：sim＝a*b/|a||b|，a为客户端的域名向量，b为服务端的域名向量。

分别计算每个客户端的域名向量与服务端的域名向量之间的余弦相似度sim，直到每个客户端的域名向量均与每个服务端的域名向量完成余弦相似度计算。

步骤(3)：从余弦相似度中筛选出满足预设阈值的第一余弦相似度，并将第一余弦相似度对应的客户端作为可疑客户端，将第一余弦相似度对应的服务端作为可疑服务端。

将余弦相似度sim超过预设阈值的客户端和服务端分别作为可疑客户端和可疑服务端，余弦相似度sim的预设阈值，可以是0.5～1中的任意值。

为了提升识别远控回连行为的识别效率，本实施例提供了基于机器学习算法识别出可疑客户端和可疑服务端中包含的目标客户端和目标服务端的具体实施方式：

基于可疑客户端和可疑服务端构建网络图；基于机器学习算法确定所述网络图中存在远控回连行为的目标客户端和目标服务端。

在一种具体的实施方式中，本实施例提供了基于可疑客户端和可疑服务端构建网络图的具体实施方式：

将可疑客户端和可疑服务端作为网络节点。根据第一域名和第一域名请求次数及第二域名和第二域名请求次数，将可疑客户端和可疑服务端之间的请求访问关系作为网络节点之间的网络线段，基于网络节点和网络线段获得网络图。示例性的，参见如图2所示的网络图，将可疑服务端和可以客户端分别作为网络节点，如图2所示，用半径较小的节点表示客户端，用半径较大的节点表示服务端，图2中的每个节点上都标出了该节点的客户端或服务端的IP地址。若可疑客户端和可疑服务端之间存在网络请求关系，在可疑客户端作为的网络节点和可疑服务端作为的网络节点之间添加网络线段，以连接可疑客户端作为的网络节点和可疑服务端作为的网络节点，由上述得到的网络节点和网络线段构成了网络图。

在一种具体的实施方式中，本实施例提供了基于机器学习算法确定所述网络图中存在远控回连行为的目标客户端和目标服务端的具体实施方式：

基于louvain算法将网络图中的可疑客户端和可疑服务端划分成相互不重叠的多个社区。基于图算法识别出存在请求访问关系且位于不同社区的可疑客户端和可疑服务器，将识别出的可疑客户端和可疑服务器确认为目标客户端和目标服务器。louvain算法是一种基于多层次优化Modularity的算法，它的优点是快速、准确，被认为是性能最好的社区发现算法之一。利用louvain算法将网络图中具有紧密连接关系的网络节点划分为一个社区，如图2所示，louvain算法将网络图2中左下角的IP地址为198.54.117.200的服务端及其直接连接的客户端网络节点(例如IP地址为12.118.28.196的客户端网络节点)划分为第一社区，将IP地址为172.104.168.81、38.102.150.27、157.122.62.194、104.244.14.252、208.100.26.251和211.136.113.1的服务端及其直接连接的客户端网络节点划分为第二社区，将IP地址为103.224.212.222和199.59.242.150的服务端及其直接连接的客户端网络节点(例如IP地址为12.118.177.87的客户端网络节点)划分为第三社区，将IP地址为184.168.221.47的服务端及其直接连接的IP地址为12.118.180.244的客户端网络节点划分为第四社区，将IP地址为50.63.202.35的服务端及其直接连接的客户端网络节点划分为第五社区。基于图算法识别出存在请求访问关系且位于不同社区的可疑客户端和可疑服务器，如图2所示，IP地址为12.118.28.196的客户端网络节点属于第一社区，但是IP地址为12.118.28.196的客户端网络节点还与第三社区中的IP地址为103.224.212.222的服务端网络节点相连接，也就是第一社区中IP地址为12.118.28.196的客户端与第三社区中IP地址为103.224.212.222的服务端之间存在网络请求关系，正常的客户端与服务端之间的网络请求是都在同一个社区请求访问，如图2所示，IP地址为103.224.212.222的服务端同时操纵了两个社区(第一社区和第三社区)的客户端，图算法判断IP地址为103.224.212.222的服务端为远控服务器，即IP地址为103.224.212.222的服务端为存在远控回连行为的目标服务器，IP地址为12.118.28.196的客户端为存在远控回连行为的目标客户端，所以和IP地址为103.224.212.222的服务端关联的客户端都沦为被远控僵尸网络。IP地址为12.118.177.87的客户端网络节点属于第三社区，但是IP地址为12.118.177.87的客户端网络节点还与第五社区的IP地址为50.63.202.35的服务端网络节点连接，也就是第三社区中IP地址为12.118.177.87的客户端与第五社区中IP地址为50.63.202.35的服务端直接存在网络请求关系，图算法判断IP地址为50.63.202.35的服务端为远控服务器，即IP地址为50.63.202.35的服务端为存在远控回连行为的目标服务端，IP地址为12.118.177.87的客户端为存在远控回连行为的目标客户端。

在实际应用中，如图3所示的远程回连行为的识别流程图，首先提取目标网络中客户端(也可以称为客户端IP)和服务端(也可以称为服务端IP)的域名请求信息(也就是流量数据，包括域名和域名请求次数)，再根据域名请求信息计算客户端与服务端的域名向量之间的余弦相似度sim，判断计算得到的余弦相似度sim是否满足预设阈值(例如，图中示出的预设阈值为0.9)，如果是，通过提取客户端IP和服务端IP的流量数据构建网络图；如果否，则可能余弦相似度sim的预设阈值设定较大，可以重新调整预设阈值的大小，例如，可以将预设阈值调整为0.5<＝sim<＝0.9范围内的任意值，以便进行下一次识别远程回连行为的过程。根据louvain算法和图算法判断网络图中是否存在远控服务端(即存在远控回连行为的服务端)，如果存在，则结束识别过程。

本发明实施例提供的上述远控回连行为的识别方法，通过构建网络图，并利用图算法识别存在远控回连行为的客户端和服务端，实现了远控回连行为的识别技术的自动化，在提升远控回连行为的识别的效率的基础上，提升了远控回连行为的识别的准确率和稳定性。

对应于前述远控回连行为的识别方法，本发明实施例提供了一种远控回连行为的识别装置，参见如图4所示的一种远控回连行为的识别装置结构示意图，该装置包括：

流量数据模块41，用于获取目标网络的域名系统的流量数据；流量数据包括目标网络所包含的客户端的第一域名和第一域名请求次数及服务端的第二域名和第二域名请求次数。

筛选模块42，用于基于流量数据筛选出可能存在远控回连行为的可疑客户端和可疑服务端。

识别模块43，用于基于机器学习算法识别出可疑客户端和可疑服务端中包含的目标客户端和目标服务端；其中，目标客户端为存在远控回连行为的客户端，目标服务端为存在远控回连行为的服务端。

本发明实施例提供的上述远控回连行为的识别装置，首先筛选出可能存在远控回连行为的可疑客户端和可疑服务端，缩小了从目标网络中识别远控回连行为的识别范围，再引入通常而言数据处理能力较强的机器学习算法识别可疑客户端和可疑服务端中存在远控回连行为的目标客户端和目标服务器端，提升了识别目标网络中远控回连行为的效率。

在一种实施方式中，上述筛选模块42，进一步用于基于第一域名请求次数和第二域名请求次数构建客户端和服务端的域名向量；通过相似度计算公式计算客户端与服务端两两之间域名向量的余弦相似度sim；其中，相似度计算公式为：sim＝a*b/|a||b|，a为客户端的域名向量，b为服务端的域名向量；从余弦相似度中筛选出满足预设阈值的第一余弦相似度，并将第一余弦相似度对应的客户端作为可疑客户端，将第一余弦相似度对应的服务端作为可疑服务端。

在一种实施方式中，上述识别模块43，进一步用于基于可疑客户端和可疑服务端构建网络图；基于机器学习算法确定网络图中存在远控回连行为的目标客户端和目标服务端。

在一种实施方式中，上述识别模块43，进一步用于将可疑客户端和可疑服务端作为网络节点；根据第一域名和第一域名请求次数及第二域名和第二域名请求次数，将可疑客户端和可疑服务端之间的请求访问关系作为网络节点之间的网络线段，基于网络节点和网络线段获得网络图。

在一种实施方式中，上述识别模块43，进一步用于基于louvain算法将网络图中的可疑客户端和可疑服务端划分成相互不重叠的多个社区；基于图算法识别出存在请求访问关系且位于不同社区的可疑客户端和可疑服务器，将识别出的可疑客户端和可疑服务器确认为目标客户端和目标服务器。

本发明实施例提供的上述远控回连行为的识别装置，通过构建网络图，并利用图算法识别存在远控回连行为的客户端和服务端，实现了远控回连行为的识别技术的自动化，在提升远控回连行为的识别的效率的基础上，提升了远控回连行为的识别的准确率和稳定性。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供的一种电子设备，如图5所示的电子设备结构示意图，电子设备包括处理器51、存储器52，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例提供的远控回连行为的识别方法的步骤。

参见图5，电子设备还包括：总线54和通信接口53，处理器51、通信接口53和存储器52通过总线54连接。处理器51用于执行存储器52中存储的可执行模块，例如计算机程序。

其中，存储器52可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线54可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器52用于存储程序，所述处理器51在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器51中，或者由处理器51实现。

处理器51可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等。还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器52，处理器51读取存储器52中的信息，结合其硬件完成上述方法的步骤。

本发明实施例提供的一种计算机可读介质，其中，所述计算机可读介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现实施例所述的远控回连行为的识别方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种远控回连行为的识别方法，其特征在于，包括：

获取目标网络的域名系统的流量数据；所述流量数据包括所述目标网络所包含的客户端的第一域名和第一域名请求次数及服务端的第二域名和第二域名请求次数；

基于所述流量数据筛选出可能存在所述远控回连行为的可疑客户端和可疑服务端；

基于机器学习算法识别出所述可疑客户端和可疑服务端中包含的目标客户端和目标服务端；其中，所述目标客户端为存在所述远控回连行为的客户端，所述目标服务端为存在所述远控回连行为的服务端；

其中，所述基于所述流量数据筛选出可能存在所述远控回连行为的可疑客户端和可疑服务端的步骤，包括：

基于所述第一域名请求次数和所述第二域名请求次数构建所述客户端和所述服务端的域名向量；

通过相似度计算公式计算所述客户端与所述服务端两两之间所述域名向量的余弦相似度sim；其中，所述相似度计算公式为：sim＝a*b/|a||b|，a为所述客户端的域名向量，b为所述服务端的域名向量；

从所述余弦相似度中筛选出满足预设阈值的第一余弦相似度，并将所述第一余弦相似度对应的客户端作为可疑客户端，将所述第一余弦相似度对应的服务端作为可疑服务端；

其中，所述基于机器学习算法识别出所述可疑客户端和可疑服务端中包含的目标客户端和目标服务端的步骤，包括：

基于所述可疑客户端和所述可疑服务端构建网络图；

基于机器学习算法确定所述网络图中存在所述远控回连行为的目标客户端和目标服务端。

2.根据权利要求1所述的方法，其特征在于，所述基于所述可疑客户端和所述可疑服务端构建网络图的步骤，包括：

将所述可疑客户端和所述可疑服务端作为网络节点；

根据所述第一域名和所述第一域名请求次数及所述第二域名和所述第二域名请求次数，将所述可疑客户端和所述可疑服务端之间的请求访问关系作为所述网络节点之间的网络线段，基于所述网络节点和所述网络线段获得网络图。

3.根据权利要求2所述的方法，其特征在于，所述基于机器学习算法确定所述网络图中存在所述远控回连行为的目标客户端和目标服务端的步骤，包括：

基于louvain算法将所述网络图中的所述可疑客户端和所述可疑服务端划分成相互不重叠的多个社区；

基于图算法识别出存在请求访问关系且位于不同社区的可疑客户端和可疑服务器，将识别出的所述可疑客户端和所述可疑服务器确认为目标客户端和目标服务器。

4.一种远控回连行为的识别装置，其特征在于，包括：

流量数据模块，用于获取目标网络的域名系统的流量数据；所述流量数据包括所述目标网络所包含的客户端的第一域名和第一域名请求次数及服务端的第二域名和第二域名请求次数；

筛选模块，用于基于所述流量数据筛选出可能存在所述远控回连行为的可疑客户端和可疑服务端；

识别模块，用于基于机器学习算法识别出所述可疑客户端和可疑服务端中包含的目标客户端和目标服务端；其中，所述目标客户端为存在所述远控回连行为的客户端，所述目标服务端为存在所述远控回连行为的服务端；

其中，所述筛选模块，进一步用于基于所述第一域名请求次数和所述第二域名请求次数构建所述客户端和所述服务端的域名向量；通过相似度计算公式计算所述客户端与所述服务端两两之间所述域名向量的余弦相似度sim；其中，所述相似度计算公式为：sim＝a*b/|a||b|，a为所述客户端的域名向量，b为所述服务端的域名向量；从所述余弦相似度中筛选出满足预设阈值的第一余弦相似度，并将所述第一余弦相似度对应的客户端作为可疑客户端，将所述第一余弦相似度对应的服务端作为可疑服务端；

其中，所述识别模块，进一步用于基于所述可疑客户端和所述可疑服务端构建网络图；基于机器学习算法确定所述网络图中存在所述远控回连行为的目标客户端和目标服务端。

5.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至3任一项所述的方法的步骤。

6.一种计算机可读介质，其特征在于，所述计算机可读介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现权利要求1至3任一项所述的方法。