CN116708356B

CN116708356B - Ip特征库生成方法

Info

Publication number: CN116708356B
Application number: CN202310962790.0A
Authority: CN
Inventors: 陈立; 王东泉; 张俊安; 路皓天
Original assignee: Suzhou Maxnet Network Safety Technology Co ltd
Current assignee: Suzhou Maxnet Network Safety Technology Co ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-11-14
Anticipated expiration: 2043-08-02
Also published as: CN116708356A

Abstract

本发明揭示了IP特征库生成方法，先根据原始数据处理得到初步特征关联库；然后，根据初步特征关联库得到强关联特征库和弱关联特征库；随后，以所述弱关联特征库和强关联特征库的每对关联特征的两个特征作为两节点进行图构建，并生成每个节点对应的子图；接着，对各节点对应子图进行去重并识别；最后，将弱关联特征库和强关联特征库中的dst_ip汇总后，根据确定的dst_ip及其对应的应用来对汇总后的dst_ip进行筛选以得到IP特征库。本发明基于数据统计的原则及图分类的方法，使得人工难以进行特征提取的dst_ip进行应用标签建立，提高了局域网内的应用识别能力。

Description

IP特征库生成方法

技术领域

本发明涉及网络技术领域，尤其是IP特征库生成方法。

背景技术

随着互联网的快速发展，互联网的应用发生了翻天覆地的变化，从最初的网页浏览、Email、FTP下载，到现在的P2P应用、游戏、视频、移动互联，丰富多彩的应用成为互联网的主流。

在局域网中，基于应用识别来进行局域网监管是至关重要的。

当前的应用识别技术主要是通过域名进行识别，在识别域名时可以通过识别dst_ip实际访问的域名server_name来实现，或将dns域名解析后，对相应的dst_ip进行识别来实现。

但在应用产生的流量中存在大量dst_ip无对应的server_name以及不通过dns（域名系统）域名请求进行dst_ip访问，而是直接访问某dst_ip的情况。

这就造成人工提取dst_ip时，难以辨别这些dst_ip归属何种应用，进而导致人工提取与应用相关的dst_ip存在较大难度。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提供一种IP特征库生成方法。

本发明的目的通过以下技术方案来实现：

IP特征库生成方法，包括如下步骤：

S1，对采集的原始数据进行预处理、特征组合及筛选以得到初步特征关联库；

S2，根据初步特征关联库得到强关联特征库和弱关联特征库；

S3，以所述弱关联特征库和强关联特征库的每对关联特征的两个特征作为两节点进行图构建，并生成每个节点对应的子图；

S4，对各节点对应子图进行去重并识别；

S5，将弱关联特征库和强关联特征库中的dst_ip汇总后，根据S4确定的dst_ip及其对应的应用来对汇总后的dst_ip进行筛选以得到IP特征库。

优选的，所述S1包括如下步骤：

S11，对原始数据进行清洗过滤；

S12, 对清洗过滤后的数据按时间分割成多个时间段的数据；

S13，将同一设备下产生的数据中的特征两两组合得到一组特征组合；

S14，确定每个所述特征组合对应的命中次数，所述命中次数是所述特征组合的两个特征出现在同一时间段的次数；

S15，根据S14的结果确定与每个特征Cn相关的两个相关特征，将每个特征Cn及其相关特征的数据存储得到初步特征关联库。

优选的，在所述S14之后，S15之前，将低于动态筛选条件的命中次数对应的特征组合的数据过滤掉，所述动态筛选条件是所有所述命中次数的平均数、中位数或分位数中的至少一个。

优选的，所述S15中，两个相关特征与所述特征Cn构成的两个特征组合对应的命中次数是包括所述特征Cn的所有特征组合对应的命中次数中最大的两个。

优选的，所述S15中，两个相关特征中，一者与所述特征Cn构成的特征组合对应的命中次数大于所有命中次数的中位数，另一者与所述特征Cn构成的特征组合对应的命中次数大于所有命中次数的四分位数。

优选的，所述S2包括如下步骤：

S21，根据初步特征关联库的数据确定附加特征；

S22，根据附加特征对初步特征关联库的数据进行过滤；

S23，根据所述附加特征将经过S22的初步特征关联库的数据划分为弱关联特征库和强关联特征库。

优选的，所述S21中，所述附加特征包括:

relation_prio，其表示一对关联特征是否为server_name与其对应的dst_ip，若是，则relation_prio为1，若否，则relation_prio为00；

node_count，其表示该对关联特征中的预定特征出现在不同设备的个数；

node_relation_count，其表示该对关联特征出现在不同设备的个数；

hit_rate=node_relation_count/node_count。

优选的，所述S22中，将node_relation_count小于5的每对关联特征的数据清除和/或将hit_rate小于整体hit_rate标准差的每对关联特征的数据清除。

优选的，所述S23中，将relation_prio为0的每对关联特征标记为弱关联特征并存入到弱关联特征库；将relation_prio为1的每对关联特征标记为强关联特征并存入到强关联特征库。

优选的，所述S4中，根据如下原则对去重后的每个子图进行识别：

当子图中的特征全为server_name时，丢弃该子图；

当子图中的特征有server_name和dst_ip时，通过域名识别确定server_name对应的应用，若其中全部server_name识别出的应用为同一款，则将对应的dst_ip归入该应用；反之，丢弃该子图；

当子图中的特征全为dst_ip时，将每个子图按序号进行标记。

优选的，所述S5中，将强关联特征库和弱关联特征库的所有dst_ip进行汇总形成IP特征库；

根据S4中确定的dst_ip及其对应的应用来对汇总后的dst_ip进行筛选；

若同一dst_ip识别出的应用相同，则将该dst_ip保留在IP特征库中并将该dst_ip对应的应用的特征字段存储在IP特征库中；

若同一dst_ip识别出的应用不同，则根据以下原则进行筛选：

若所述同一dst_ip均属于强关联特征库或均属于弱关联特征库，则丢弃IP特征库中的所述dst_ip；

若所述同一dst_ip中的部分属于强关联特征库，部分属于弱关联特征库，则将属于强关联特征库的所述dst_ip保留在IP特征库中并将所述dst_ip对应的应用的特征字段存储在IP特征库中，删除IP特征库中属于弱关联特征库的所述dst_ip。

本发明技术方案的优点主要体现在：

本发明的IP特征库生成方法是基于用户访问应用的行为，根据数据统计的原则及图分类的方法将dst_ip识别为某个应用，能够将无对应server_name以及不通过dns域名请求进行dst_ip访问的dst_ip识别到一个具体应用，使得人工难以进行特征提取的dst_ip也能够进行应用标签建立，提高了局域网内的应用识别能力，大大提高了识别率。

本发明通过对数据进行多次筛选，能够有效地去除活跃度较低的数据，从而提高数据的可信度，有利于提高最终生成的IP特征库的数据精度。

本发明的方法可调整数据筛选参数，识别逻辑灵活。

附图说明

图1是本发明的流程示意图；

图2是本发明的S1步骤的流程示意图；

图3是本发明的S2步骤的流程示意图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

在方案的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

下面结合附图对本发明揭示的IP特征库生成方法进行阐述，本方法主要是利用ClickHouse数据库、python中的图数据结构以及已有的应用特征库对域名特征进行匹配识别来实现。

如附图1所示，所述IP特征库生成方法包括如下步骤：

S1，利用ClickHouse对采集的原始数据进行预处理、特征组合及筛选以得到初步关联特征；

S4，对各节点对应子图进行去重并识别；

所述S1中，利用ClickHouse按天分区存储从局域网中采集的所述原始数据。所述原始数据包括但不限于以下特征：time、src_ip、src_mac、dst_ip、dst_port、server_name及dns_domain。其中time表示用户访问某应用产生的一条数据流的建立时间，src_ip表示源dst_ip，src_mac表示源mac，dst_ip表示目的ip，dst_port表示目的端口，server_name表示目的ip实际访问的域名，dns_domain表示目的ip请求的dns域名。

如附图2所示，所述S1具体包括通过ClickHouse对采集的原始数据进行如下处理：

S11，对原始数据进行清洗过滤；

S12, 对清洗过滤后的数据按时间分割成多个时间段的数据；

所述S11具体包括如下步骤:

S111，对原始数据中的重复值、异常值及空值进行剔除；

S112，过滤目的ip为内网ip、组播ip 、dns_server的ip的数据；

S113，过滤src_mac行数低于1w的数据以及dst_ip出现在不同mac中数量较少的数据。

所述S12中，在对原始数据进行清洗过滤之前或之后，根据特征time按秒将原始数据分割成多个时间段，每个时间段的数据对应的时间序列标签的格式样例为：day_18+hour_23+min_50+period_18，其中day表示天、hour表示小时、min表示分组、period表示秒。

所述S13中，所述设备可以根据src_mac及src_ip来确定，同一个设备下产生的数据即处于相同src_mac下的数据。一个特征组合是所述数据中一个设备的上述原始数据中的多个特征中的任意两个组合得到。

所述S14中，假设在一个设备M中，特征A出现在时间段1、2、3，特征B出现在时间段1、3，且特征A与特征B是一个特征组合，则特征A与特征B同时出现在时间段1和3中，则在设备M产生的数据中，特征组合AB出现在同一时间段的次数为2次，对应的命中次数即为2。

所述15中，假设有如下特征组合及对应的命中次数：

特征组合AB对应的命中次数为2次；

特征组合AC对应的命中次数为5次；

特征组合AD对应的命中次数为4次；

特征组合AE对应的命中次数为7次。

则与特征A（特征Cn）相关的两个相关特征为特征E和特征C，因为，特征E和特征C与特征A构成的两个特征组合的命中次数（7次和5次）是包含特征A的所有特征组合对应的命中次数中最大的两个。

为确保最终得到的特征可信度较高，在大数据量的前提下，将特征组合对应的命中次数较低的数据进行过滤，避免后续的数据不准确。在所述S14之后，S15之前，将低于动态筛选条件的命中次数对应的特征组合的数据过滤掉，所述动态筛选条件是所有所述命中次数的平均数、中位数或分位数中的至少一个。当然，所述动态筛选条件的可根据实际情况进行修改。

假设在1天的数据量前提下，一组特征组合对应的命中次数如下：

特征组合AB对应的命中次数为100次；

特征组合AC对应的命中次数为100次；

特征组合AD对应的命中次数为90次；

特征组合AE对应的命中次数为20次；

特征组合BC对应的命中次数为22次；

特征组合BD对应的命中次数为10次；

特征组合BE对应的命中次数为2次；

则所有命中次数为：2、10、20、22、90、100、100。

因此，所述动态筛选条件是根据上述的7个命中次数来确定。

如果以中位数作为动态筛选条件，可以看到:当前的中位数为22，低于22的命中次数则表示一天中这些特征组合出现的次数较少，说明该特征组合对应的特征不是活跃的特征，对后续数据的可信度会造成影响，因此将这些特征组合的数据筛除。

进一步，两个相关特征中，一者与所述特征Cn构成的特征组合对应的命中次数大于所有命中次数的中位数，且另一者与所述特征Cn构成的特征组合对应的命中次数大于所有命中次数的四分位数。若无法满足以上条件，则删除两个所述相关特征对应特征组合的数据。这是因为，当对应的特征组合的命中次数过小时，会造成数据的可信度变低，容易影响生成结果的准确性。

最后生成的初步特征关联库中理论上应至少存在server_name与dst_ip两种特征，其中server_name可以用于后续的应用识别，dst_ip用于构建所述ip特征库。

如附图3所示，所述S2包括如下步骤：

S21，根据初步特征关联库的数据确定附加特征；

S22，根据附加特征对初步特征关联库的数据进行过滤；

所述S21中，将初步特征关联库中的特征两两组合得到若干对关联特征，每对关联特征的两个特征记作node_1和node_2。

所述附加特征用于筛选出更加可信的关联特征，所述附加特征包括：relation_prio、node_count、node_relation_count、hit_rate。

其中：relation_prio表示node_1与node_2是否为server_name与其对应的dst_ip，若是，则relation_prio为1，若否，则relation_prio为0。

node_count表示node_1或node_2出现在不同设备的个数，即node_1或node_2出现在不同src_mac中的个数，例如，node_1在设备M1、M2、M3、M4中均出现，则node_1出现在不同设备的个数为4。

node_relation_count表示该对关联特征出现在不同设备的个数，例如该对关联特征在设备M1、M2中均同时出现，则该对关联特征出现在不同设备的个数为2。

hit_rate=node_relation_count/node_count。

S22中，将初步特征关联库中，node_relation_count小于5的每对关联特征的数据删除和/或将hit_rate低于整体hit_rate标准差的每对关联特征的数据清除。所述整体hit_rate标准差是根据所有的hit_rate计算得到，例如，有一组hit_rate依次为：0.2，0.3，0.4，0.7，0.4，则根据该组hit_rate计算得到整体hit_rate标准差。这样能够有效避免不活跃数据对后续数据的可信度造成影响。

所述S23是根据附加特征中的relation_prio将经过S22过滤后的初步特征关联库的数据区分为弱关联特征库和强关联特征库；即将初步特征关联库的数据中，将relation_prio为0的每对关联特征标记为弱关联特征并存储到弱关联特征库，将relation_prio为1的每对关联特征标记为强关联特征并存入到强关联特征库。

S3，将所述弱关联特征库和强关联特征库的数据从ClickHouse导出，利用Python中的图数据结构将每组关联特征的两个特征作为两个节点进行图构建，最终构建出一张包含强关联特征库和弱关联特征库的所有数据的节点图。再根据深度优先搜索原则对每个节点与之关联的数据进行搜集以生成每个节点对应的子图，通常，每个节点中会包含大量的dst_ip和server_name。例如：将多个dst_ip分别记作D1、D2、D3；将多个server_name分别记作S1、S2、S3；利用“-”表示两个特征之间存在关联，例如D1-D2,S1-D1,D2-S3；则与D1节点关联的数据为：D2,S1,S3。通过Python形成各节点对应的子图的具体技术为已知技术，此处不作赘述。

S4中，由于所述S3中得到的子图数量较多且会存在多个子图相同的情况，因此，需要对各节点对应的子图进行去重，即对多张相同的子图，只保留一张子图即可，这样能够提高识别的效率。

在完成子图去重后，根据如下原则对去重后的每个子图进行识别：

当子图中的特征全为server_name时，丢弃该子图；

当子图中的特征有server_name和dst_ip时，通过域名识别确定server_name对应的应用，若其中的全部server_name识别出的应用为同一款，则将对应的dst_ip归入该应用；反之，丢弃该子图；

当子图中的特征全为dst_ip时，将每个子图按序号进行标记以便后续进行研究。

S5的具体步骤如下：

将强关联特征库和弱关联特征库的所有dst_ip进行汇总形成IP特征库；IP特征库的每个dst_ip会带有一个其属于强关联特征库或弱关联特征库的标签。

根据S4的识别结果来确定IP特征库中每个dst_ip对应的应用并据此对IP特征库中的dst_ip进行筛选，具体的：

若同一dst_ip识别出的应用不同，则根据以下原则进行筛选：

若所述同一dst_ip均属于强关联特征库或均属于弱关联特征库，则丢弃IP特征库中相应的dst_ip；

若所述同一dst_ip中的部分属于强关联特征库，部分属于弱关联特征库，则将属于强关联特征库的dst_ip保留在IP特征库中并将该dst_ip对应的应用的特征字段存储在IP特征库中，删除IP特征库中属于弱关联特征库的dst_ip。

例如：有同一个dst_ip出现在S4中的两个不同的子图中，而该dst_ip在该两个子图中识别出的应用分别为X与Y，则同一dst_ip识别为了应用X与应用Y这两种应用。若这两个dst_ip都属于强关联特征库或都属于弱关联特征库，则认为其识别结果存在问题，需要将该两个dst_ip从所述IP特征库中删除。反之，若一个dst_ip属于强关联特征库且其对应的应用为X，另一个dst_ip属于弱关联特征库且其对应的应用为Y，则保留IP特征库中属于强关联特征库的所述dst_ip及将该dst_ip对应的应用X的特征字段存入IP特征库，同时删除IP特征库中属于弱关联特征库中的所述dst_ip。

所述IP特征库生成方法还包括S6,通过生成的IP特征库对待识别数据进行识别，并据此来进行识别率的验证。所述待识别数据都会携带dst_ip，将IP特征库中的dst_ip与待识别的dst_ip进行匹配，匹配中则识别成功，具体的识别过程为已知技术，此处不作赘述。根据一批待识别的数据进行识别后，识别成功的数据则为识别量，识别率则用识别量除以待识别数据总量计算得到。当识别率较低时，可以调整动态筛选条件、相关特征与特征Cn的特征组合对应的命中次数的筛选条件以及S22中的过滤条件后，重新生成IP特征库。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.IP特征库生成方法，其特征在于，包括如下步骤：

S4，对各节点对应子图进行去重并识别；

S5，将弱关联特征库和强关联特征库中的dst_ip汇总后，根据S4中确定的dst_ip及其对应的应用来对汇总后的dst_ip进行筛选以得到IP特征库；

所述S1包括如下步骤：

S11，对原始数据进行清洗过滤；

S12, 对清洗过滤后的数据按时间分割成多个时间段的数据；

S15，根据S14的结果确定与每个特征Cn相关的两个相关特征，将每个特征Cn及其相关特征的数据存储得到初步特征关联库；

所述S4中，根据如下原则对去重后的每个子图进行识别：

当子图中的特征全为server_name时，丢弃该子图；

当子图中的特征全为dst_ip时，将每个子图按序号进行标记以待后续研究。

2.根据权利要求1所述的IP特征库生成方法，其特征在于，在所述S14之后，S15之前，将低于动态筛选条件的命中次数对应的特征组合的数据过滤掉，所述动态筛选条件是所有所述命中次数的平均数、中位数或分位数中的至少一个。

3.根据权利要求1所述的IP特征库生成方法，其特征在于：所述S15中，两个相关特征与所述特征Cn构成的两个特征组合对应的命中次数是包括所述特征Cn的所有特征组合对应的命中次数中最大的两个。

4.根据权利要求1所述的IP特征库生成方法，其特征在于：所述S15中，两个相关特征中，一者与所述特征Cn构成的特征组合对应的命中次数大于所有命中次数的中位数，另一者与所述特征Cn构成的特征组合对应的命中次数大于所有命中次数的四分位数。

5.根据权利要求1所述的IP特征库生成方法，其特征在于，所述S2包括如下步骤：

S21，根据初步特征关联库的数据确定附加特征；

S22，根据附加特征对初步特征关联库的数据进行过滤；

6.根据权利要求5所述的IP特征库生成方法，其特征在于，所述S21中，所述附加特征包括:

relation_prio，其表示一对关联特征是否为server_name与其对应的dst_ip，若是，则relation_prio为1，若否，则relation_prio为0；

hit_rate=node_relation_count/node_count。

7.根据权利要求6所述的IP特征库生成方法，其特征在于，所述S22中，将node_relation_count小于5的每对关联特征的数据清除和/或将hit_rate小于整体hit_rate标准差的每对关联特征的数据清除。

8.根据权利要求6所述的IP特征库生成方法，其特征在于，所述S23中，将relation_prio为0的每对关联特征标记为弱关联特征并存入到弱关联特征库；将relation_prio为1的每对关联特征标记为强关联特征并存入到强关联特征库。

9.根据权利要求1-8任一所述的IP特征库生成方法，其特征在于，所述S5中，将强关联特征库和弱关联特征库的所有dst_ip进行汇总形成IP特征库；

若同一dst_ip识别出的应用不同，则根据以下原则进行筛选：