CN117118711A

CN117118711A - 违规用户的检测方法、装置、设备及存储介质

Info

Publication number: CN117118711A
Application number: CN202311099161.6A
Authority: CN
Inventors: 李晓燕; 胡元皓; 朱斌
Original assignee: Asiainfo Technologies (chengdu) Inc
Current assignee: Asiainfo Technologies (chengdu) Inc
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-24

Abstract

本申请公开了一种违规用户的检测方法、装置、设备及存储介质。该方法包括：根据预设流量阈值对多个单向网络数据包进行筛选，获得流量大小超过预设流量阈值的违规数据包，根据违规数据包确定疑似违规用户；获取疑似违规用户的上网数据，根据上网数据提取疑似违规用户的基础行为特征，根据多个基础行为特征中相关的特征确定疑似违规用户的衍生行为特征；根据疑似违规用户的单向网络数据包确定疑似违规用户的传输行为特征；传输行为特征用于表征用户终端基于传输层网络协议的网络行为；将疑似违规用户的基础行为特征、衍生行为特征以及传输行为特征输入违规用户检测模型，获得疑似违规用户的违规检测结果。从而提高了违规用户的检测结果的准确性。

Description

违规用户的检测方法、装置、设备及存储介质

技术领域

本公开一般涉及计算机技术领域，尤其涉及一种违规用户的检测方法、装置、设备及存储介质。

背景技术

目前，PCDN违规用户的检测方式一般会基于互联网流量数据，根据设定的阈值条件将互联网流量数据中IP流量存在异常的用户判定为违规用户。

但上述检测方法中的检测条件较为单一，在实际应用中容易导致违规用户的检测结果出现错判或遗漏。

因此，PCDN违规用户的检测结果仍存在准确性不高的问题。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种违规用户的检测方法、装置、设备及存储介质，能够避免由于单一的检测条件而产生的检测误差，提高违规用户的检测结果的准确性。

第一方面，提供了一种违规用户的检测方法，该方法包括：

根据预设流量阈值对多个单向网络数据包进行筛选，获得流量大小超过预设流量阈值的违规数据包，根据违规数据包确定疑似违规用户；

获取疑似违规用户的上网数据，根据上网数据提取疑似违规用户的基础行为特征，根据多个基础行为特征中相关的特征确定疑似违规用户的衍生行为特征；

根据疑似违规用户的单向网络数据包确定疑似违规用户的传输行为特征；传输行为特征用于表征用户终端基于传输层网络协议的网络行为；

将疑似违规用户的基础行为特征、衍生行为特征以及传输行为特征输入违规用户检测模型，获得疑似违规用户的违规检测结果。

第二方面，提供了一种违规用户的检测装置，该装置包括：

筛选单元，用于根据预设流量阈值对多个单向网络数据包进行筛选，获得流量大小超过预设流量阈值的违规数据包，根据违规数据包确定疑似违规用户；

第一确定单元，用于获取疑似违规用户的上网数据，根据上网数据提取疑似违规用户的基础行为特征，根据多个基础行为特征中相关的特征确定疑似违规用户的衍生行为特征；

第二确定单元，用于根据疑似违规用户的单向网络数据包确定疑似违规用户的传输行为特征；传输行为特征用于表征用户终端基于传输层网络协议的网络行为；

获取单元，用于将疑似违规用户的基础行为特征、衍生行为特征以及传输行为特征输入违规用户检测模型，获得疑似违规用户的违规检测结果。

第三方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现上述第一方面中任一项所述的方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述第一方面中任一项所述的方法。

第五方面，提供了一种计算机程序产品，计算机程序产品中包含指令，当指令被运行时，上述第一方面中任一项所述的方法被执行。

本申请实施例提供的违规用户的检测方法、装置、设备及存储介质，先根据预设流量阈值对单向网络数据包进行筛选，以初步确定出单向网络数据包流量异常的疑似违规用户；再基于疑似违规用户的单向网络包数据与上网数据形成用户网络行为特征(例如，基础行为特征、衍生行为特征以及传输行为特征)；最后利用违规用户检测模型确定疑似违规用户的违规结果。

相较于现有技术中仅根据IP流量判断用户是否违规的方式，本申请在考虑单向网络数据包流量的基础上，还结合了用户实际产生的上网数据，使检测违规用户时所使用的检测条件更加全面；其次，本申请所使用的用户网络行为特征能够从不同的维度对用户的上网数据进行分析，减少了检测过程中可能出现的数据误差，从而提高了违规用户检测的准确性；最后，本申请的用户网络行为特征是基于单向网络数据包(Netflow数据)产生的，这使得违规用户的检测过程不再依赖于互联网流量数据，拓宽了违规用户的检测方式的适用场景，提高了违规用户的检测效率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例的系统架构；

图2为本申请实施例的一种违规用户的检测方法的流程示意图；

图3为本申请实施例的疑似违规用户的确定方法的流程示意图；

图4为本申请实施例的违规用户检测模型的构建装置的方框示意图；

图5为本申请实施例的另一种违规用户的检测方法的流程示意图；

图6为本申请实施例的疑似违规用户的网络行为特征的构成示意图；

图7为本申请实施例的违规用户的检测装置的方框示意图；

图8为本申请实施例的计算机设备的结构框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

首先对本申请涉及的术语进行解释说明，具体如下：

(1)CDN(Content Delivery Network)：内容分发网络，可以通过在现有网络中增加一层新的网络架构的方式，将网站的内容发布至距离用户最近的网络边缘，从而使用户能够就近获取所需内容，提高了用户访问网站的响应速度；

(2)PCDN(P2P Content Delivery Network)：P2P内容分发网络，可以以P2P技术为基础，通过挖掘利用边缘网络的海量碎片化闲置资源，对低成本高品质的内容分发网络服务进行构建；

(3)PCDN违规业务：企业及个人用户租用大量宽带(含家庭带宽产品、商务带宽产品、商务专线产品)，并擅自改变产品的用途，将带宽的上行带宽(上传的速度)聚合为大带宽后提供CDN服务；

(4)Netflow：一种网络流量分析协议，用于在计算机网络中监视和分析数据流；

(5)AAA：在网络管理中，AAA是认证(Authentication)、授权(Authorization)和计费(Accounting)的缩写；是网络安全中进行访问控制的一种安全管理机制；能够提供认证、授权和计费三种安全服务。其中，认证服务具体是通过身份验证确认用户身份；授权服务具体是在认证之后确定用户可以访问哪些资源和执行哪些操作；计费服务具体是记录用户使用资源的情况，并生成相应的计费信息。

图1是本申请实施例的系统架构。参考图1，该系统可以包括远端服务器10、缓存服务器20以及终端设备30。其中，远端服务器10可以是宽带服务器；缓存服务器20可以是距离终端设备30较近的网络边缘服务器；终端设备30可以是网络用户的计算机设备。

具体实现中，远端服务器10为了向远距离的终端设备30提供带宽服务，可以将带宽服务内容发布至距离终端设备30较近的缓存服务器20，由缓存服务器20向终端设备30提供带宽服务，从而使终端设备30的用户能够就近获取所需内容，提高了终端设备30访问网站的响应速度。

而在实际应用中，存在个别企业或个人用户将缓存服务器20提供的带宽服务据聚合为大带宽，以产品的方式提供给其他用户，以使得其他用户能够不基于缓存服务器20提供的带宽服务获取自身所需的网站内容，这就构成了PCDN违规行为。

目前，在对PCDN违规用户进行检测时，可以根据互联网流量数据，将IP出入流量比值存在异常的活跃用户判定为具有违规行为的用户，并将用户信息保存至黑名单库；也可以根据互联网流量监控系统上报的IP流量日志和访问日志，结合话单日志确定出PCDN违规用户。

但此类检测方法都过度依赖互联网流量数据，这使得在无法获取到互联网流量数据的检测场景中，PCDN违规用户的检测工作无法正常进行；且检测方法中所使用的检测条件过于单一，在实际应用中容易导致违规用户的检测结果出现错判或遗漏。因此，PCDN违规用户的检测仍存在准确性不高的问题。

基于此，本申请提出了一种违规用户的检测方法、装置、设备及存储介质，能够避免由于单一的检测条件而产生的检测误差，提高违规用户的检测结果的准确性。

图2是本申请实施例提供的一种违规用户的检测方法的流程示意图。如图2所示，该方法包括以下步骤：

步骤201，根据预设流量阈值对多个单向网络数据包进行筛选，获得流量大小超过预设流量阈值的违规数据包，根据违规数据包确定疑似违规用户。

在本申请实施例中，可以先以数据流量作为基础过滤条件对业务数据包进行筛选，并根据存在异常的业务数据包确定出疑似违规的用户。根据基础过滤条件在所有用户中初步筛选出疑似违规用户，减少了后续需要进行用户网络行为的具体检测的用户数量，在一定程度上节省了违规用户的检测时间，提高了违规用户的检测效率。

示例性的，可以根据预设的流量阈值在多个单向网络数据包中筛选出超过预设流量阈值的数据包，并根据各数据包与用户的对应关系确定出数据包流量异常的疑似违规用户。

一种可能的实现方式中，在对用户进行初步筛选之前，可以对已经存在违规行为的用户网络数据进行分析，以形成违规用户检测过程中的基础过滤条件。

例如，根据违规用户的Netflow数据的分析结果，可以得出在违规用户的Netflow数据中，单向网络数据包的流量大小均大于10kb。因此，可以将10kb作为本申请实施例中的预设流量阈值。

一种可能的实现方式中，单向网络数据包可以是一个源主机与一个目的主机之间单方向传输的数据包；其中，源主机和目的主机可以根据各自的IP地址与端口号进行识别。

示例性的，一个源主机与一个目的主机之间的多个单向网络数据包可以构成一条Netflow数据。

图3是本申请实施例提供的疑似违规用户的确定方法的流程示意图。如图3所示，该方法包括：

步骤301，利用Nfcapd数据采集模块采集单向网络数据包。

示例性的，Nfcapd数据采集模块可以按照预设的采集频率进行数据包采集，并将数据包中所包含的具体数据转存为二进制文件。其中，Nfcapd数据采集模块可以安装在网络管理器、主机等终端设备上。

例如，Nfcapd数据采集模块可以以地市区域为单位，每五分钟对所有传输的单向数据包进行采集。

步骤302，利用Nfdump文件读取模块对Nfcapd数据采集模块采集到的单向网络数据包文件进行读取分析。

示例性的，Nfdump文件读取模块可以自行设置单向网络数据包读取的时间范围、TCP/UDP协议类型、源IP地址、目的IP地址等字段的值。

需要说明的是，当多个单向网络数据包的源IP地址、TCP/UDP协议类型、服务类型(TOS)、源端口号、目的IP地址以及目的端口号都相同时，可以判定多个单向网络数据包为同一Netflow的数据。

步骤303，根据Nfdump文件读取模块的读取分析结果确定疑似违规用户。

一种可能的实现方式中，当存在流量大小超过预设流量阈值的违规数据包时，可以根据Nfdump文件读取模块读取到的违规数据包的相关数据信息确定出疑似违规用户。

示例性的，可以从Nfdump文件读取模块中获取违规数据包的源IP地址与目的端口号，并将源IP地址与目的端口号相同的违规数据包进行统计，以确定出异常Netflow；再将异常Netflow的IP地址和端口信息与宽带用户的清单数据进行映射，从而确定出疑似违规用户。

需要说明的是，本申请实施例之所以可以通过预设流量阈值与数据包流量确定出疑似违规用户，是因为PCDN违规用户是将宽带服务的上行带宽聚合为大带宽再提供给其他用户，这就导致违规用户向外传输的数据包流量均大于预设流量阈值。

步骤202，获取疑似违规用户的上网数据，根据上网数据提取疑似违规用户的基础行为特征，根据多个基础行为特征中相关的特征确定疑似违规用户的衍生行为特征。

本申请实施例中，根据疑似违规用户实际产生的上网数据，从不同的维度对用户的网络行为特征进行获取，深入分析了用户实际的上网数据，使违规用户的检测结果更具说服力。

一种可能的实现方式中，疑似违规用户的上网数据可以包括宽带用户数据、客户关系管理数据等。示例性的，宽带用户数据可以包括AAA用户数据、AAA清单数据等；客户关系管理数据可以通过客户关系管理系统(Customer Relationship Management，简称CRM)进行获取，例如可以包括客户的基本信息、客户的购买历史以及客户的沟通记录等。

示例性的，上述基础行为特征可以从宽带用户数据中进行提取，具体用于表征用户终端在访问网络服务时网络的特征信息。

示例性的，上述衍生行为特征可以由相关的基础行为特征与客户关系管理数据结合生成，具体用于表征用户终端在访问网络服务时基于网络的特征信息所产生的属性特征信息。

示例性的，衍生行为特征与基础行为特征的相关关系可以是基础行为特征直接决定衍生行为特征的具体体现；也可以是基础行为特征对衍生行为特征的确定具有一定的影响程度。

步骤203，根据疑似违规用户的单向网络数据包确定疑似违规用户的传输行为特征；传输行为特征用于表征用户终端基于传输层网络协议的网络行为。

本申请实施例中，通过对疑似违规用户基于传输层网络协议的网络行为的确定，使违规用户检测过程中的参考数据不再局限于传统的互联网流量数据，从而扩大了检测过程中参考数据的覆盖范围。

一种可能的实现方式中，可以先确定出单向网络数据包中包含的传输层网络协议，再基于各传输层网络协议对单向网络数据包中的流量进行聚合，以生成传输行为特征。

示例性的，可以根据各传输层网络协议的端口对单向网络数据包中的流量进行聚合。

步骤204，将疑似违规用户的基础行为特征、衍生行为特征以及传输行为特征输入违规用户检测模型，获得疑似违规用户的违规检测结果。

本申请实施例中，一方面，利用违规用户检测模型对违规用户进行检测，避免了人工检测时产生的数据误差；另一方面，将用户上网过程中实际产生的行为特征作为模型输入，使检测结果更贴近用户产生的网络数据，从而提高了违规用户检测的准确性。

一种可能的实现方式中，图4是本申请实施例提供的违规用户检测模型的构建装置的方框示意图，如图4所示，该构建装置包括数据定义模块401、数据准备模块402、模型训练模块403以及模型监控模块404。

示例性的，可以在数据定义模块401将用户的基础行为特征、衍生行为特征以及传输行为特征作为违规用户检测模型的输入，将用户违规的检测结果作为违规用户检测模型的输出。

例如，用户违规的检测结果可以输出为0或1；当用户存在PCDN违规操作时，违规用户检测模型的输出结果为1；当用户不存在PCDN违规操作时，违规用户检测模型的输出结果为0。

示例性的，可以在数据准备模块402中根据用户实际产生的上网数据以及单向网络数据包生成用户网络行为特征，并将用户网络行为特征作为违规用户检测模型的模型特征数据。

示例性的，可以在模型训练模块403中利用已经存在违规行为的用户网络行为特征对违规用户检测模型进行训练。

需要说明的是，当存在缺失的用户行为特征时，可以将用户行为特征对应的特征类型输入违规用户检测模型中，以保证违规用户检测结果的准确性。

示例性的，可以利用模型监控模块404对模型的部署情况与运行情况进行实时监控。

本申请实施例提供的违规用户的检测方法中，相较于现有技术中仅根据IP流量判断用户是否违规的方式，本申请在考虑单向网络数据包流量的基础上，还结合了用户实际产生的上网数据，使检测违规用户时所使用的检测条件更加全面；其次，本申请所使用的用户网络行为特征能够从不同的维度对用户的上网数据进行分析，减少了检测过程中可能出现的数据误差，从而提高了违规用户检测的准确性；最后，本申请的用户网络行为特征是基于单向网络数据包(Netflow数据)产生的，这使得违规用户的检测过程不再依赖于互联网流量数据，拓宽了违规用户的检测方式的适用场景，提高了违规用户的检测效率。

在本申请的另一实施例中，还提供了基础行为特征的具体内容。示例性的，前文涉及的“基础行为特征”的具体内容包括以下至少一项：上行带宽信息、下行宽带信息、IP地址转化信息、宽带数据包类型、宽带使用时间、宽带上行流量、宽带下行流量。

一种可能的实现方式中，可以根据疑似违规用户的宽带用户数据获取疑似违规用户的基础行为特征。

示例性的，上行带宽信息可以用于表征用户在使用互联网时将数据从本地设备发送至远程服务器的能力，例如可以是用户在上传数据时的网络传输速率，其单位可以是千比特每秒(kbps)。

示例性的，下行带宽信息可以用于表征用户在使用互联网时从远程服务器端下载数据至本地设备的能力，例如可以是用户在下载数据时的网络传输速率，其单位可以是千比特每秒(Kbps)、兆比特每秒(Mbps)或千兆比特每秒(Gbps)。

需要说明的是，下行带宽的大小取决于用户所处网络的服务质量、用户所处的网络环境以及网络拥塞程度等因素。

示例性的，IP地址转化信息可以用于表征在网络中与网络地址转换(NetworkAddress Translation，简称NAT)相关的参数；具体可以包括网络地址服务器的IP地址(Network Address Server IP Address，简称Nasip)、源地址端口起始值(Natbeginport)以及网络地址转换结束端口(Natendport)。

具体地，网络地址服务器的IP地址可以用于指示网络中的NAT设备(例如，路由器)在转发内部网络数据包时的目标外部网络地址；源地址端口起始值和网络地址转换结束端口可以在内部网络中的主机与外部网络进行通信时，向NAT设备指示网络地址转换中的端口范围。

示例性的，宽带数据包类型可以包括数据包(Data Packet)、控制包(ControlPacket)、地址解析协议包(Address Resolution Protocol Packet，简称ARP包)、互联网控制消息协议包(Internet Control Message Protocol Packet，简称ICMP包)、动态主机配置协议包(Dynamic Host Configuration Protocol Packet，简称DHCP包)、域名服务器包(Domain Name System Packet，简称DNS包)、超文本传输协议包(Hypertext TransferProtocol Packet，简称HTTP包)、文件传输协议包(File Transfer Protocol Packet，简称FTP包)等。

具体地，数据包可以用于传输用户数据；控制包可以用于控制网络通信；ARP包可以用于将IP地址解析为MAC地址，以实现在局域网中的通信；ICMP包可以用于在IP网络中传输错误消息和控制信息；DHCP包可以用于自动分配IP地址和其他网络配置信息，以简化网络设备的配置过程；DNS包可以用于将域名解析为IP地址，以实现互联网上的网址访问；HTTP包可以用于在Web浏览器和Web服务器之间传输数据，以实现网页的请求和响应；FTP包可以用于在客户端和服务器之间传输文件，以实现文件的上传和下载。

示例性的，宽带使用时间可以用于表征宽带使用记录的起始时间。例如，宽带使用记录的开始时间可以为宽带数据中的清单开始时间小时；宽带使用记录的结束时间可以为宽带数据中的清单结束时间小时。

具体地，宽带数据中的清单开始时间小时/清单结束时间小时均属于一个时间戳。例如，当清单开始时间小时为数字12时，则表示宽带使用记录的起始时间为当天的下午12点。需要说明的是，宽带使用时间的统计可以用于分析用户的上网习惯或用户使用宽带的高峰时段。

示例性的，宽带上行流量可以用于表征用户在使用互联网时从本地设备发送至远程服务器的数据容量；宽带下行流量可以用于表征用户在使用互联网时从远程服务器端下载至本地设备的数据容量。

在本申请的另一实施例中，还提供了疑似违规用户的衍生行为特征的具体生成方式。示例性的，前文涉及的“根据多个基础行为特征中相关的特征确定疑似违规用户的衍生行为特征”的具体实现包括：根据衍生行为特征的属性，对衍生行为特征对应的相关特征进行运算处理，获得衍生行为特征。

一种可能的实现方式中，可以先根据衍生行为特征的属性确定出与其具有相关关系的一个或多个基础行为特征，再根据衍生行为特征的属性特征对一个或多个基础行为特征进行相应的运算处理以获得衍生行为特征。

具体地，衍生行为特征可以包括客户关系长度、客户上网信息以及宽带流量信息等。其中，客户上网信息可以包括客户上网的具体日期、客户的上线情况、客户的在线时长、客户的话单数量；宽带流量信息可以包括宽带的上下行流量比值、宽带在各时段的流量统计以及宽带在各时段的上下行流量比值。

示例性的，当衍生行为特征为客户关系长度时，首先可以分析客户关系长度的影响因素。例如，根据对历史客户及现存客户所产生的网络数据的分析结果，可以得出客户关系长度与用户实际的上/下行带宽速率呈正相关。因此，可以通过上/下行带宽信息与客户关系长度的函数关系获得实际的客户关系长度。

需要说明的是，之所以需要获得客户关系长度这一衍生行为特征，是因为在历史PCDN违规用户中，客户关系长度较长的客户违规情况较少，客户关系长度未满一年的客户违规率较高。

示例性的，当衍生行为特征为客户上网的具体日期时，可以先确定出对客户信息进行统计时的具体日期，再对该日期为当月的第几天以及该日期是否为工作日的情况进行确定。

示例性的，当衍生行为特征为客户的上线情况时，可以根据用户当天的宽带使用时间进行确定。例如，当用户当天的宽带使用时间时长不满24小时时，可以确定用户当天有下线情况。

示例性的，当衍生行为特征为客户的在线时长时，可以对客户的宽带使用时间以及客户的上线情况进行结合，以确定出客户的总在线时长以及分时段在线时长。例如，客户的分时段在线时长可以为用户的白天在线时长，具体为上午九点至下午六点的在线时长；也可以为用户的休息时间在线时长，具体为下午六点至晚上十一点的在线时长；也可以为用户的夜晚在线时长，具体为晚上十一点至次日早上六点的在线时长。

示例性的，当衍生行为特征为客户的话单数量时，首先可以确定出话单是用于记录用户实际上网活动的详细信息，具体地，话单可以包括用户的上网时间、宽带流量的使用情况、用户访问的网站等。也就是说，用户每一次的上网活动均会产生一条话单，话单的具体数量是根据用户的上网频率和使用量决定的。因此，可以根据宽带使用时间以及宽带上/下行流量的归纳分析结果确定出用户当天具体的话单数量以及当天的拨号次数。

示例性的，当衍生行为特征为宽带的上下行流量比值时，可以通过宽带上行流量与宽带下行流量的比值对上下行流量比值进行确定。

示例性的，当衍生行为特征为宽带在各时段的流量统计时，可以根据宽带上行流量与宽带下行流量进行确定。例如，各时段的流量统计可以包括：宽带的白天上/下行流量，具体为上午九点至下午六点的上/下行流量；宽带的休息时间上/下行流量，具体为下午六点至晚上十一点的上/下行流量；宽带的夜晚时间上/下行流量，具体为晚上十一点至次日早上六点的上/下行流量。

示例性的，当衍生行为特征为宽带在各时段的上下行流量比值时，可以根据各时段内宽带上行流量与宽带下行流量的比值进行确定。例如，各时段的上下行流量比值可以包括：宽带的白天上下行流量比值，具体为上午九点至下午六点的上下行流量比值；宽带的休息时间上下行流量比值，具体为下午六点至晚上十一点的上下行流量比值；宽带的夜晚时间上下行流量比值，具体为晚上十一点至次日早上六点的上下行流量比值。

在本申请的另一实施例中，还提供了疑似违规用户的传输行为特征的具体生成方式。示例性的，前文涉及的“单向网络数据包”包括传输层网络协议地址；前文所述的“根据疑似违规用户的单向网络数据包确定疑似违规用户的传输行为特征”的具体实现包括：按照不同的传输层网络协议地址对疑似违规用户的网络数据包流量进行聚合，获得疑似违规用户的溯源行为特征；基于孤立森林算法根据疑似违规用户的溯源行为特征确定单向网络数据包的异常概率特征；根据溯源行为特征和异常概率特征确定疑似违规用户的传输行为特征。

具体地，传输层网络协议地址可以是通信双方基于传输层进行数据交互所遵从的网络协议地址；其中，传输层可以是OSI分层、TCP/IP分层或五层协议。

示例性的，传输层网络协议地址可以包括传输控制协议(Transmission ControlProtocol，简称TCP)端口与用户数据报协议(User Datagram Protocol，简称UDP)端口。具体地，TCP网络协议用于将应用层传输的数据分割成适合网络传输的数据包，并在接收端重新进行组装；UDP网络协议用于对需要在计算机之间传输数据的网络应用提供支持。

一种可能的实现方式中，可以根据网络数据包流量的解析结果按照TCP端口/UDP端口对网络数据包流量进行聚合。其中，网络数据包流量为Netflow数据。需要说明的是，一条Netflow数据均属于同一个TCP端口的会话数据，但一个TCP端口可能包含多条Netflow数据。

示例性的，可以根据Netflow数据在对应TCP端口/UDP端口的具体访问情况确定出溯源行为特征。

一种可能的实现方式中，可以利用孤立森林算法根据溯源行为特征对单向网络数据包的异常概率进行确定。

需要说明的是，对于孤立森林中的每一个特征样本，均是以孤立森林中的任一随机二叉树的根节点为起点，每满足一个异常筛选条件时在二叉树上的分支数量加一。因此可以根据该特征样本在随机二叉树中的路径长度评估自身的异常程度，其中，路径长度是指特征样本由根节点至分支终点所包含的分支边数。

示例性的，特征样本的异常率可以通过下述公式进行计算：

其中，x为特征样本；n为特征样本数量；s(x，n)为异常率；E(h(x))为每一特征样本在孤立森林中所有二叉树上形成的平均路径长度，具体为特征样本在所有二叉树上的路径长度与二叉树数量的比值；c(n)为孤立森林中所有二叉树生成的平均路径长度的期望值，具体为所有平均路径长度的均值。

示例性的，为了将特征样本的异常率映射至[0，1]区间内，可以利用下述公式对所有异常率进行归一化处理。

在本申请的另一实施例中，还提供了溯源行为特征的具体内容。示例性的，前文涉及的“溯源行为特征”用于表征：传输层网络协议地址的访问次数、传输层网络协议地址的数据流量、传输层网络协议地址的传输速度。

一种可能的实现方式中，溯源行为特征可以用于表征在单位统计时间内疑似违规用户的单向网络数据包流量中与传输层网络协议地址相关的数据信息。其中，溯源行为特征的单位统计时间可以为一天内的24小时。

示例性的，传输层网络协议地址的访问次数可以包括基于TCP网络协议的同一TCP端口的访问次数、基于UDP网络协议的同一UDP端口的访问次数以及基于TCP/UDP网络协议的同一TCP/UDP端口的日最大访问次数。

例如，可以对每一天内各Netflow数据访问相应TCP端口的次数进行统计，以获得TCP日访问次数；可以对每一天内各Netflow数据访问相应UDP端口的次数进行统计，以获得UDP日访问次数；可以根据具体的TCP/UDP日访问次数获得TCP/UDP的日最大访问次数。

示例性的，传输层网络协议地址的数据流量可以包括基于TCP网络协议上传至服务器的数据量、基于UDP网络协议上传至服务器的数据量以及基于传输层网络协议(TCP网络协议以及UDP网络协议)在网络中传输的总数据量。

例如，可以对每一天内各Netflow数据经过相应TCP端口上传至服务器的数据量进行统计，以获得TCP日使用上行流量；可以对每一天内各Netflow数据经过相应UDP端口上传至服务器的数据量进行统计，以获得UDP日使用上行流量。

例如，可以对每一天内各Netflow数据经过相应TCP端口/UDP端口由服务器下载至终端设备的数据量分别进行统计，以获得TCP/UDP日使用下行流量；将上述TCP日使用上行流量、UDP日使用上行流量、TCP日使用下行流量以及UDP日使用下行流量进行加和处理，以获得基于传输层网络协议的日总流量。

需要说明的是，传输层网络协议地址的数据流量均是以吉字节(GB)为计量单位。

示例性的，传输层网络协议地址的传输速度可以包括单位时间内基于TCP网络协议的同一TCP端口的最大访问次数以及单位时间内基于UDP网络协议的同一UDP端口的最大访问次数。

例如，可以以TCP日访问次数为参考对象，对每一秒内各Netflow数据访问相应TCP端口的次数进行比较，以获得每秒内TCP日最大访问次数；可以以UDP日访问次数为参考对象，对每一秒内各Netflow数据访问相应UDP端口的次数进行比较，以获得每秒内UDP日最大访问次数。

在本申请的另一实施例中，还提供了违规用户检测模型的具体训练方式。示例性的，前文涉及的“违规用户检测模型”的具体训练过程包括：将历史违规用户的特征数据分别输入多个初始模型，获得每一初始模型输出的预测结果；多个初始模型的预测算法不同，历史违规用户的特征数据包括基础行为特征、衍生行为特征以及传输行为特征；针对每一初始模型，根据初始模型的预测结果、历史违规用户的标签以及初始模型的损失函数对初始模型进行迭代训练，获得多个子检测模型；对多个子检测模型进行融合获得违规用户检测模型。

一种可能的实现方式中，可以利用历史违规用户的特征数据构成模型的训练数据集，将训练数据集中的特征数据作为模型的输入分别输入由不同预测算法构成的多个初始模型中，以生成不同的违规预测结果。其中，多个初始模型均是基于预测树算法构成的。

一种可能的实现方式中，在获取到不同初始模型的违规预测结果之后，可以根据各初始模型的预测结果、训练数据集中历史违规用户的实际违规结果以及各初始模型的损失函数计算出各初始模型的具体损失值，并基于初始模型各自对应的损失值对各初始模型进行迭代训练，以获得多个子检测模型。

需要说明的是，由于各初始模型均是基于预测树算法构成的，各初始模型的损失函数均为最大似然函数。

示例性的，在上述迭代训练过程中，可以通过反复调整参数的方式优化各子检测模型，以减少由于模型训练过程中正负样本不平衡而导致过拟合的情况发生。

例如，可以通过调整学习率、调整迭代次数(num＿boost＿round)、调整正负样本的权重(class＿weight/scale＿pos＿weight)以及调整决策树的深度(max＿depth)等调整参数的方式，确定出更适用于各子检测模型的模型参数组合。

在本申请的另一实施例中，还提供了在违规用户检测模型的训练过程中各子检测模型的具体融合方式。示例性的，前文涉及的“对多个子检测模型进行融合获得违规用户检测模型”包括：根据多个子检测模型的检测结果的准确率，利用投票法确定多个子检测模型在违规用户检测模型的分配比值；根据分配比值对多个子检测模型进行融合以获得违规用户检测模型。

一种可能的实现方式中，可以利用投票分类器对各子检测模型的检测结果进行投票，以获得各子检测模型在违规用户检测模型的分配比值。

示例性的，当投票法为硬投票法时，投票分类器可以根据各子检测模型的检测结果对子检测模型直接进行投票，根据最终的具体票数确定各子检测模型的分配比值。

可选地，当投票法为软投票法时，投票分类器可以根据各子检测模型的检测结果按照预测结果的类别对子检测模型进行投票，并计算出各预测类别的平均概率，从而根据类别的平均概率确定各子检测模型的分配比值。

在本申请的另一实施例中，还提供了在违规用户检测模型的训练过程中多个初始模型与多个子检测模型的具体包含内容。示例性的，前文涉及的“多个初始模型”包括随机森林回归模型、梯度提升决策树模型以及极端梯度提升模型；“多个子检测模型”包括随机森林回归检测模型、梯度提升决策树检测模型以及极端梯度提升检测模型。

示例性的，当子检测模型包括随机森林回归检测模型、梯度提升决策树检测模型以及极端梯度提升检测模型时，利用投票法可以确定出随机森林回归检测模型、梯度提升决策树检测模型以及极端梯度提升检测模型的分配比值为1：2：4。

示例性的，基于上述随机森林回归检测模型、梯度提升决策树检测模型以及极端梯度提升检测模型的分配比值，将随机森林回归检测模型、梯度提升决策树检测模型以及极端梯度提升检测模型进行融合以形成违规用户检测模型。

示例性的，将训练数据集中的多组特征数据输入违规用户检测模型中，可以获得多个用户的违规检测结果；根据模型输出的违规检测结果与用户实际的违规情况的误差比较，可以确定出违规用户检测模型的最佳阈值为0.7。

在本申请的另一实施例中，还提供了另一种违规用户的检测方法，图5是本申请实施例提供的另一种违规用户的检测方法的流程示意图，如图5所示，该方法包括以下步骤：

步骤501，初步筛选出PCDN疑似违规用户。

一种可能的实现方式中，可以根据预设流量阈值对用户产生的单向网络数据包进行筛选，以确定出单向网络数据包流量超过预设流量阈值的疑似违规用户。

示例性的，可以利用Nfcapd数据采集模块按照预设的采集频率采集用户产生的单向网络数据包，并将数据包内包含的数据转存为二进制文件。

示例性的，可以利用Nfdump文件读取模块对采集到的单向数据包文件按照自行设置的读取时间范围、读取TCP/UDP协议类型、读取源IP地址或读取目的IP地址等字段的值进行读取分析。

示例性的，基于Nfdump文件读取模块的读取分析结果，当存在流量大小超过预设流量阈值的违规数据包时，可以获取违规数据包的源IP地址与目的端口号，并将源IP地址与目的端口号相同的违规数据包进行统计，以确定出异常Netflow；再将异常Netflow的IP地址和端口信息与宽带用户的清单数据进行映射，从而确定出疑似违规用户。

步骤502，根据PCDN疑似违规用户的上网数据与单向网络数据包确定PCDN疑似违规用户的网络行为特征。

一种可能的实现方式中，可以根据疑似违规用户的上网数据获得疑似违规用户的基础行为特征；根据疑似违规用户的基础行为特征获得疑似违规用户的衍生行为特征；根据疑似违规用户的单向网络数据包数据获得疑似违规用户的传输行为特征；最终由疑似违规用户的基础行为特征、衍生行为特征与传输行为特征构成疑似违规用户的网络行为特征；其中，上网数据为用户的上网数据信息；单向网络包数据可以构成Netflow数据。

示例性的，图6是本申请实施例提供的疑似违规用户的网络行为特征的构成示意图。如图6所示，可以按照TCP/UDP协议对疑似违规用户的Netflow数据进行聚合以获得溯源行为特征，再基于孤立森林算法根据溯源行为特征获得Netflow数据的异常概率特征，由溯源行为特征与异常概率特征构成疑似违规用户的传输行为特征。

示例性的，如图6所示，可以根据疑似违规用户的上网数据信息与客户关系管理数据获得疑似违规用户的基础行为特征；根据疑似违规用户的基础行为特征中相关的特征获得疑似违规用户的衍生行为特征；最终由疑似违规用户的传输行为特征、基础行为特征与衍生行为特征共同构成疑似违规用户的网络行为特征。

表1是本申请实施例的网络行为特征的示意表，如表1所示，溯源行为特征可以包括传输层网络协议地址的访问次数、传输层网络协议地址的数据流量、传输层网络协议地址的传输速度；异常概率特征可以为Netflow数据的异常概率；基础行为特征可以包括上行带宽信息、下行宽带信息、IP地址转化信息、宽带数据包类型、宽带使用时间、宽带上行流量、宽带下行流量；衍生行为特征可以包括客户关系长度、客户上网信息以及宽带流量信息。

表1网络行为特征示意表

序号	特征名称	特征类型	特征来源
				1	传输层网络协议地址的访问次数	溯源行为特征	Netflow
2	传输层网络协议地址的数据流量	溯源行为特征	Netflow
				3	传输层网络协议地址的传输速度	溯源行为特征	Netflow
4	Netflow数据异常概率	异常概率特征	Netflow
				5	上行带宽信息	基础行为特征	用户数据信息
6	下行带宽信息	基础行为特征	用户数据信息
				7	IP地址转化信息	基础行为特征	用户数据信息
8	宽带数据包类型	基础行为特征	用户数据信息
				9	宽带使用时间	基础行为特征	用户数据信息
10	宽带上行流量	基础行为特征	用户数据信息
				11	宽带下行流量	基础行为特征	用户数据信息
12	客户关系长度	衍生行为特征	用户数据信息
				13	客户上网信息	衍生行为特征	用户数据信息
14	宽带流量信息	衍生行为特征	用户数据信息

步骤503，将PCDN疑似违规用户的网络行为特征输入违规用户检测模型中，以获得疑似违规用户的违规检测结果。

一种可能的实现方式中，可以将疑似违规用户的基础行为特征、衍生行为特征以及传输行为特征作为违规用户检测模型的输入，则疑似违规用户的违规检测结果为违规用户检测模型的输出；其中，违规用户检测模型可以为随机森林回归检测模型、梯度提升决策树检测模型以及极端梯度提升检测模型的融合模型。

示例性的，当疑似违规用户存在PCDN违规操作时，违规用户检测模型的输出结果为1；当疑似违规用户不存在PCDN违规操作时，违规用户检测模型的输出结果为0。

前文所述的实施例中，介绍了另一种违规用户的检测方法。图7为本申请实施例的违规用户的检测装置的方框示意图，该装置可以部署于前文所述的计算机设备。参考图7，该装置包括筛选单元701、第一确定单元702、第二确定单元703以及获取单元704。

筛选单元701，用于根据预设流量阈值对多个单向网络数据包进行筛选，获得流量大小超过预设流量阈值的违规数据包，根据违规数据包确定疑似违规用户；

第一确定单元702，用于获取疑似违规用户的上网数据，根据上网数据提取疑似违规用户的基础行为特征，根据多个基础行为特征中相关的特征确定疑似违规用户的衍生行为特征；

第二确定单元703，用于根据疑似违规用户的单向网络数据包确定疑似违规用户的传输行为特征；传输行为特征用于表征用户终端基于传输层网络协议的网络行为；

获取单元704，用于将疑似违规用户的基础行为特征、衍生行为特征以及传输行为特征输入违规用户检测模型，获得疑似违规用户的违规检测结果。

在一种可能的实施例中，第一确定单元702中的基础行为特征包括以下至少一项：上行带宽信息、下行宽带信息、IP地址转化信息、宽带数据包类型、宽带使用时间、宽带上行流量、宽带下行流量。

在一种可能的实施例中，第一确定单元702还用于根据衍生行为特征的属性，对衍生行为特征对应的相关特征进行运算处理，获得衍生行为特征。

在一种可能的实施例中，筛选单元701中的单向网络数据包具体包括传输层网络协议地址；第二确定单元703还用于按照不同的传输层网络协议地址对疑似违规用户的网络数据包流量进行聚合，获得疑似违规用户的溯源行为特征；基于孤立森林算法根据疑似违规用户的溯源行为特征确定单向网络数据包的异常概率特征；根据溯源行为特征和异常概率特征确定疑似违规用户的传输行为特征。

在一种可能的实施例中，第二确定单元703中的溯源行为特征具体用于表征传输层网络协议地址的访问次数、传输层网络协议地址的数据流量、传输层网络协议地址的传输速度。

在一种可能的实施例中，获取单元704还用于将历史违规用户的特征数据分别输入多个初始模型，获得每一初始模型输出的预测结果；多个初始模型的预测算法不同，历史违规用户的特征数据包括基础行为特征、衍生行为特征以及传输行为特征；针对每一初始模型，根据初始模型的预测结果、历史违规用户的标签以及初始模型的损失函数对初始模型进行迭代训练，获得多个子检测模型；对多个子检测模型进行融合获得违规用户检测模型。

在一种可能的实施例中，获取单元704还用于根据多个子检测模型的检测结果的准确率，利用投票法确定多个子检测模型在违规用户检测模型的分配比值；根据分配比值对多个子检测模型进行融合以获得违规用户检测模型。

在一种可能的实施例中，获取单元704中的初始模型具体包括随机森林回归模型、梯度提升决策树模型以及极端梯度提升模型；多个子检测模型具体包括随机森林回归检测模型、梯度提升决策树检测模型以及极端梯度提升检测模型。

本申请实施例提供的违规用户的检测装置，相较于现有技术中仅根据IP流量判断用户是否违规的方式，本申请在考虑单向网络数据包流量的基础上，还结合了用户实际产生的上网数据，使检测违规用户时所使用的检测条件更加全面；其次，本申请所使用的用户网络行为特征能够从不同的维度对用户的上网数据进行分析，减少了检测过程中可能出现的数据误差，从而提高了违规用户检测的准确性；最后，本申请的用户网络行为特征是基于单向网络数据包(Netflow数据)产生的，这使得违规用户的检测过程不再依赖于互联网流量数据，拓宽了违规用户的检测方式的适用场景，提高了违规用户的检测效率。

在一个实施例中，提供了一种计算机设备。图8为本申请实施例提供的计算机设备的结构框图，参考图8。该计算设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据预设流量阈值对多个单向网络数据包进行筛选，获得流量大小超过预设流量阈值的违规数据包，根据违规数据包确定疑似违规用户；获取疑似违规用户的上网数据，根据上网数据提取疑似违规用户的基础行为特征，根据多个基础行为特征中相关的特征确定疑似违规用户的衍生行为特征；根据疑似违规用户的单向网络数据包确定疑似违规用户的传输行为特征；传输行为特征用于表征用户终端基于传输层网络协议的网络行为；将疑似违规用户的基础行为特征、衍生行为特征以及传输行为特征输入违规用户检测模型，获得疑似违规用户的违规检测结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read－OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种违规用户的检测方法，其特征在于，所述方法包括：

根据预设流量阈值对多个单向网络数据包进行筛选，获得流量大小超过所述预设流量阈值的违规数据包，根据所述违规数据包确定疑似违规用户；

获取所述疑似违规用户的上网数据，根据所述上网数据提取所述疑似违规用户的基础行为特征，根据多个所述基础行为特征中相关的特征确定所述疑似违规用户的衍生行为特征；

根据所述疑似违规用户的单向网络数据包确定所述疑似违规用户的传输行为特征；所述传输行为特征用于表征用户终端基于传输层网络协议的网络行为；

将所述疑似违规用户的基础行为特征、衍生行为特征以及传输行为特征输入违规用户检测模型，获得所述疑似违规用户的违规检测结果。

2.根据权利要求1所述的方法，其特征在于，所述基础行为特征包括以下至少一项：上行带宽信息、下行宽带信息、IP地址转化信息、宽带数据包类型、宽带使用时间、宽带上行流量、宽带下行流量。

3.根据权利要求1或2任一项所述的方法，其特征在于，所述根据多个所述基础行为特征中相关的特征确定所述疑似违规用户的衍生行为特征，包括：

根据所述衍生行为特征的属性，对所述衍生行为特征对应的相关特征进行运算处理，获得所述衍生行为特征。

4.根据权利要求1所述的方法，其特征在于，所述单向网络数据包中包括传输层网络协议地址；

所述根据所述疑似违规用户的单向网络数据包确定所述疑似违规用户的传输行为特征，包括：

按照不同的传输层网络协议地址对所述疑似违规用户的网络数据包流量进行聚合，获得所述疑似违规用户的溯源行为特征；

基于孤立森林算法根据所述疑似违规用户的溯源行为特征确定所述单向网络数据包的异常概率特征；

根据所述溯源行为特征和所述异常概率特征确定所述疑似违规用户的传输行为特征。

5.根据权利要求4所述的方法，其特征在于，所述溯源行为特征包括：

所述溯源行为特征用于表征传输层网络协议地址的访问次数、传输层网络协议地址的数据流量、传输层网络协议地址的传输速度。

6.根据权利要求1所述的方法，其特征在于，所述违规用户检测模型的训练过程包括：

将历史违规用户的特征数据分别输入多个初始模型，获得每一所述初始模型输出的预测结果；所述多个初始模型的预测算法不同，所述历史违规用户的特征数据包括基础行为特征、衍生行为特征以及传输行为特征；

针对每一所述初始模型，根据所述初始模型的预测结果、所述历史违规用户的标签以及所述初始模型的损失函数对所述初始模型进行迭代训练，获得多个子检测模型；

对所述多个子检测模型进行融合获得所述违规用户检测模型。

7.根据权利要求6所述的方法，其特征在于，所述对所述多个子检测模型进行融合获得所述违规用户检测模型包括：

根据所述多个子检测模型的检测结果的准确率，利用投票法确定所述多个子检测模型在所述违规用户检测模型的分配比值；

根据所述分配比值对所述多个子检测模型进行融合以获得所述违规用户检测模型。

8.根据权利要求6或7任一项所述的方法，其特征在于，所述多个初始模型包括随机森林回归模型、梯度提升决策树模型以及极端梯度提升模型；所述多个子检测模型包括随机森林回归检测模型、梯度提升决策树检测模型以及极端梯度提升检测模型。

9.一种违规用户的检测装置，其特征在于，所述装置包括：

筛选单元，用于根据预设流量阈值对多个单向网络数据包进行筛选，获得流量大小超过所述预设流量阈值的违规数据包，根据所述违规数据包确定疑似违规用户；

第一确定单元，用于获取所述疑似违规用户的上网数据，根据所述上网数据提取所述疑似违规用户的基础行为特征，根据多个所述基础行为特征中相关的特征确定所述疑似违规用户的衍生行为特征；

第二确定单元，用于根据所述疑似违规用户的单向网络数据包确定所述疑似违规用户的传输行为特征；所述传输行为特征用于表征用户终端基于传输层网络协议的网络行为；

获取单元，用于将所述疑似违规用户的基础行为特征、衍生行为特征以及传输行为特征输入违规用户检测模型，获得所述疑似违规用户的违规检测结果。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令被运行时，使得如权利要求1至8任一项所述方法被执行。