CN111159493A

CN111159493A - 一种基于特征权重的网络数据相似度计算方法与系统

Info

Publication number: CN111159493A
Application number: CN201911357469.XA
Authority: CN
Inventors: 刘才铭; 张雁
Original assignee: Leshan Normal University
Current assignee: Leshan Normal University
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-15
Anticipated expiration: 2039-12-25
Also published as: CN111159493B

Abstract

本发明公开了一种基于特征权重的网络数据相似度计算方法与系统，规范网络数据及其相似度计算参数；网络数据数值化转换；计算网络特征数据相似度；计算网络数据总体相似度；网络数据相似等级转换。本发明通过权重量化地衡量不同网络特征数据之间的相对重要性，将异构的网络特征数据转化为数值化的十进制形式，通过数学方法计算两个网络数据的相同特征数据之间的相似度值，再综合网络特征的权重计算两个网络数据之间的相似度值，并将数值化的相似度转换为相似等级，提高了网络数据相似度计算方法的科学性，对于提高网络数据分析的精确性具有重要的意义，可用于网络数据模式识别、网络数据特征分析等领域。

Description

一种基于特征权重的网络数据相似度计算方法与系统

技术领域

本发明涉及网络数据分析技术领域，更具体的说是涉及一种基于特征权重的网络数据相似度计算方法与系统。

背景技术

目前，网络数据的相似度计算方法是网络数据分析领域的关键技术，其计算的相似度值可以用于量化网络数据之间的相似性，为识别特定的网络数据提供科学依据。网络数据相似度计算的准确性关系到网络数据模式判断的合理性，提高网络数据相似度计算方法的科学性，对于提高网络数据分析的精确性具有重要的意义。

但是，传统的网络数据特征相似度计算方法没有考虑网络数据特征的异构性，而网络数据特征存在二进制值、字符、IP地址组等形式，这种特征数据的异构性给网络数据相似度的量化计算带来了难度。传统的网络数据相似度计算方法多采用字符匹配方式，忽视了异构网络特征数据之间的权重，没有考虑每个网络特征不同的重要性，导致计算的准确度受到较大影响。

因此，如何提供一种基于特征权重的网络数据相似度计算方法与系统是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于特征权重的网络数据相似度计算方法与系统，该方法能够提高网络数据相似度计算方法的科学性，对于提高网络数据分析的精确性具有重要的意义。

为了实现上述目的，本发明采用如下技术方案：

一种基于特征权重的网络数据相似度计算方法，所述方法包括以下步骤：

S1、构建网络数据参数：构建网络数据特征值和网络数据特征的权重向量；

S2、网络数据数值化转换：将所述网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量，构建数值化的网络数据集；

S3、计算网络特征数据相似度：构建网络特征数据的相似度向量的数据结构，根据所述网络数据特征的数值化向量，计算网络特征数据的相似度值，将这些相似度值赋给网络特征数据的相似度向量的相应字段；

S4、计算网络数据总体相似度：根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量，计算两个网络数据特征的数值化向量之间的总体相似度；

S5、网络数据相似等级转换：构建网络特征数据相似等级与相似度之间的对应关系，将所述网络特征数据的相似度值转换为相似等级。

优选的，所述步骤S1的具体过程如下：

S11、构建网络数据特征值：从网络数据包中获取网络数据特征，构建网络数据集；

S111、获取网络数据特征：捕获网络数据包，构建每个网络数据包的网络数据特征向量DF_i＝{<f₁,f₂,f₃,…,f_m>}，其中，i(i为自然数)表示第i个数据包，f_j(1≤j≤m)表示第j个网络特征，该网络特征不限于网络数据包头的字段，还包括从数据包内容中抽取的任意特征，m(m为自然数)表示网络数据包的特征数量；

S112、构建网络数据集：将获取的所有网络数据特征组合为网络数据集D＝{DF₁,DF₂,DF₃,…,DF_n}，其中，DF_i(1≤i≤n)表示第i个网络数据包的网络数据征向量，n(n为自然数)表示网络数据包的数量；

S12、构建网络数据特征的权重向量：构建网络数据特征的权重向量，获取网络数据特征的权重值。

S121、构建网络数据特征的权重向量：构建网络数据特征的权重向量W＝{<w₁,w₂,w₃,…,w_m>}，

其中，w_j(1≤j≤m)表示第j个网络特征的权重，且0≤w_j≤1，m(m为自然数)表示网络数据包的特征数量；

S122、获取网络数据特征的权重值：根据网络数据包中各个特征的重要性，为权重变量W的每个字段(即w₁,w₂,w₃,…,w_m)赋值。

优选的，所述步骤S2的具体过程如下：

S21、定义网络数据特征的数值化形式：构建网络数据特征的数值化向量的数据结构DD_i＝<db₁,db₂,…,db_p,dc₁,dc₂,…,dc_q,dsIP₁,dsIP₂,dsIP₃,dsIP₄,ddIP₁,ddIP₂,ddIP₃,ddIP₄>，其中，db表示二进制数值化形式的网络特征的十进制数值，p(p为自然数)表示二进制数值化形式的网络特征的数量，dc表示字符形式的网络特征的十进制数值，q(q为自然数)表示字符形式的网络特征的数量，dsIP₁,dsIP₂,dsIP₃,dsIP₄分别表示源IP地址的4组分段数字的十进制数值，ddIP₁,ddIP₂,ddIP₃,ddIP₄分别表示目的IP地址的4组分段数字的十进制数值；

S22、二进制数值化形式的网络特征的数值化转换：对于网络数据特征向量DF_i＝<f₁,f₂,f₃,…,f_m>中的二进制数值化形式的网络特征，例如：端口号、生存时间、包头长度、总长度、协议类型等，将其二进制数值转换为十进制数值，并分别赋值给db₁,db₂,…,db_p；

S23、字符形式的网络特征的数值化转换：对于网络数据特征向量DF_i＝<f₁,f₂,f₃,…,f_m>中的字符形式的网络特征，例如：网络数据包内容的数据特征，按照文字编码标准将其二进制数值转换为十进制数值，并分别赋值给dc₁,dc₂,…,dc_q；

S24、源IP地址的网络特征的数值化转换：将源IP地址的4组分段数字分别转换为十进制数值；

S241、获取源IP地址的4组分段数字；

S242、将源IP地址的4组分段数字分别转换为十进制数值，并分别赋值给dsIP₁,dsIP₂,dsIP₃,dsIP₄；

S25、目的IP地址的网络特征的数值化转换：将目的IP地址的4组分段数字分别转换为十进制数值；

S251、获取目的IP地址的4组分段数字；

S252、将目的IP地址的4组分段数字分别转换为十进制数值，并分别赋值给ddIP₁,ddIP₂,ddIP₃,ddIP₄；

S26、给数值化向量赋值：将所有网络特征的十进制数值赋值给所述网络数据特征的数值化向量的相应字段；

S27、构建数值化的网络数据集：将计算出的所有网络数据特征的数值化向量组合为数值化的网络数据集D′＝{DD₁,DD₂,DD₃,…,DD_n}，其中，DF_i(1≤i≤n)表示第i个网络数据特征的数值化向量，n(n为自然数)表示网络数据特征的数值化向量的数量。

优选的，所述步骤S3的具体过程如下：

S31、构建网络特征数据的相似度向量：对于两个网络数据特征的数值化向量dd_x和dd_y(1≤x,y≤n)，且dd_x,dd_y∈D′，符号∈意为包含于，构建网络特征数据的相似度向量S_xy＝{<sb₁,sb₂,…,sb_p,sc₁,sc₂,…,sc_q,ssIP,sdIP>}，其中，sb_j(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值，sc_k(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值，ssIP表示源IP地址的相似度值，sdIP表示目的IP地址的相似度值；

S32、计算二进制数值化形式的网络特征数据的相似度：利用如下公式计算二进制数值化形式的网络特征数据的相似度值sb_j：

其中，1≤j≤p，该公式意为两个网络数据特征的数值化向量dd_x和dd_y的二进制数值化形式的网络特征数据的差的绝对值除以其和；

S33、计算字符形式的网络特征数据的相似度：利用如下公式计算字符形式的网络特征数据的相似度值sc_k：

其中，1≤k≤q，该公式意为两个网络数据特征的数值化向量dd_x和dd_y的字符形式的网络特征数据的差的绝对值除以其和；

S34、计算源IP地址的网络特征数据的相似度：利用如下公式计算源IP地址的网络特征数据的相似度值：

其中，dsIP_r表示两个网络数据特征的数值化向量dd_x和dd_y的源IP地址的4组分段数字的十进制数值；

S35、计算目的IP地址的网络特征数据的相似度：利用如下公式计算源IP地址的网络特征数据的相似度值：

其中，ddIP_r表示两个网络数据特征的数值化向量dd_x和dd_y的目的IP地址的4组分段数字的十进制数值；

S36、给相似度向量赋值：将计算出的所有网络特征数据的相似度赋值给网络特征数据的相似度向量。

优选的，所述步骤S4的具体过程如下：

S41、读取S12步骤中网络数据特征的权重向量W；

S42、读取S3步骤中构建的网络特征数据的相似度向量S_xy；

S43、根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量，计算两个网络数据特征的数值化向量dd_x和dd_y之间的总体相似度：构建总体相似度SV_xy，以此作为两个网络数据的相似度值，其中，x,y表示两个网络数据特征的数值化向量dd_x和dd_y，且0≤SV_xy≤1，利用如下公式计算两个网络数据特征的数值化向量dd_x和dd_y之间的总体相似度：

其中，w_j表示二进制数值化形式的网络特征的权重，w_k表示字符形式的网络特征的权重，w_sIP表示源IP地址网络特征的权重，w_dIP表示目的IP地址网络特征的权重，sb_j(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值，sc_k(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值，ssIP表示源IP地址的相似度值，sdIP表示目的IP地址的相似度值。

优选的，所述步骤S5的具体过程如下：

S51、构建两个网络数据之间的相似等级：构建两个网络数据之间的相似等级向量L＝<相同,高度相似,较高相似,中等相似,较低相似,低相似,不相似>；

S52、构建网络数据相似等级与相似度之间的对应关系：对于网络数据相似度值0≤SV_xy≤1，构建其与相似等级之间的对应关系如下：0—相同、(0,0.1]—高度相似、(0.1,0.4]—较高相似、(0.4,0.6]—中等相似、(0.6,0.8]—较低相似、(0.8,0.9)—低相似、1—不相似；

S53、映射网络数据相似等级：根据S52步骤中构建的对应关系，确定两个网络数据的相似度值SV_xy对应的相似等级。

优选的，所述网络数据及其相似度计算参数的规范模块中构建的网络特征，包括但不限于网络数据包头的字段和从网络数据包内容中抽取的特征。

一种基于特征权重的网络数据相似度计算系统，包括网络数据及其相似度计算参数的规范模块、与所述网络数据及其相似度计算参数的规范模块依次连接的网络数据数值化转换模块、网络特征数据相似度计算模块、网络数据总体相似度计算模块和网络数据相似等级转换模块；

其中，所述网络数据及其相似度计算参数的规范模块用于提供数据变量；

所述网络数据数值化转换模块，用于将网络数据的特征值转换为十进制数值；

所述网络特征数据相似度计算模块，计算每个网络数据特征的十进制相似度数值；

所述网络数据总体相似度计算模块与所述网络数据及其相似度计算参数的规范模块连接，用于计算网络数据总体相似度的十进制数值；

所述网络数据相似等级转换模块，用于规范网络数据相似的等级，并将相似度数值转换为相似等级。

优选的，所述网络数据及其相似度计算参数的规范模块通过构建网络数据特征值和网络数据特征的权重向量来提供数据变量。

优选的，所述网络数据总体相似度计算模块根据网络数据特征值和网络数据特征的权重来计算网络数据总体相似度。

所述网络数据及其相似度计算参数的规范模块中构建的网络特征，不限于网络数据包头的字段，还包括从网络数据包内容中抽取的任意特征；构建的网络数据特征的权重对应于每个网络数据特征，对于所有参与计算的网络数据都相同。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于特征权重的网络数据相似度计算方法与系统，该方法通过权重量化地衡量不同网络特征数据之间的相对重要性，将异构的网络特征数据转化为数值化的十进制形式，通过数学方法计算两个网络数据的相同特征数据之间的相似度值，再综合网络特征的权重计算两个网络数据之间的相似度值，并将数值化的相似度转换为相似等级，提高了网络数据相似度计算方法的科学性，对于提高网络数据分析的精确性具有重要的意义，可用于网络数据模式识别、网络数据特征分析等领域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的工作原理图。

图2附图为本发明提供的规范网络数据及其相似度计算参数的流程图。

图3附图为本发明提供的网络数据数值化转换的流程图。

图4附图为本发明提供的计算网络特征数据相似度的流程图。

图5附图为本发明提供的计算网络数据总体相似度的流程图。

图6附图为本发明提供的网络数据相似等级转换的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于特征权重的网络数据相似度计算方法，方法包括以下步骤：

S2、网络数据数值化转换：将网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量，构建数值化的网络数据集；

S3、计算网络特征数据相似度：构建网络特征数据的相似度向量的数据结构，根据所述网络数据特征的数值化向量，计算网络特征数据的相似度值，并将这些相似度值赋给网络特征数据的相似度向量的相应字段；

S4、计算网络数据总体相似度：根据网络数据特征的权重向量和网络特征数据的相似度向量，计算两个网络数据特征的数值化向量之间的总体相似度；

S5、网络数据相似等级转换：构建网络特征数据相似等级与相似度之间的对应关系，将网络特征数据的相似度值转换为相似等级。

为了进一步优化上述技术方案，步骤S1的具体过程如下：

S12、构建网络数据特征的权重向量：构建网络数据特征的权重向量，获取网络数据特征的权重值；

为了进一步优化上述技术方案，步骤S2的具体过程如下：

S241、获取源IP地址的4组分段数字；

S251、获取目的IP地址的4组分段数字；

S26、给数值化向量赋值：将所有网络特征的十进制数值赋值给网络数据特征的数值化向量的相应字段；

为了进一步优化上述技术方案，步骤S3的具体过程如下：

为了进一步优化上述技术方案，步骤S4的具体过程如下：

S41、读取S12步骤中网络数据特征的权重向量W；

S42、读取S3步骤中构建的网络特征数据的相似度向量S_xy；

S43、根据网络数据特征的权重向量和网络特征数据的相似度向量，计算两个网络数据特征的数值化向量dd_x和dd_y之间的总体相似度：构建总体相似度SV_xy，以此作为两个网络数据的相似度值，其中，x,y表示两个网络数据特征的数值化向量dd_x和dd_y，且0≤SV_xy≤1，利用如下公式计算两个网络数据特征的数值化向量dd_x和dd_y之间的总体相似度：

为了进一步优化上述技术方案，步骤S5的具体过程如下：

为了进一步优化上述技术方案，网络数据及其相似度计算参数的规范模块中构建的网络特征，包括但不限于网络数据包头的字段和从网络数据包内容中抽取的特征。

一种基于特征权重的网络数据相似度计算系统，包括网络数据及其相似度计算参数的规范模块1、与网络数据及其相似度计算参数的规范模块1依次连接的网络数据数值化转换模块2、网络特征数据相似度计算模块3、网络数据总体相似度计算模块4和网络数据相似等级转换模块5；

其中，网络数据及其相似度计算参数的规范模块1用于提供数据变量；

网络数据数值化转换模块2，用于将网络数据的特征值转换为十进制数值；

网络特征数据相似度计算模块3，计算每个网络数据特征的十进制相似度数值；

网络数据总体相似度计算模块4与网络数据及其相似度计算参数的规范模块1连接，用于计算网络数据总体相似度的十进制数值；

网络数据相似等级转换模块5，用于规范网络数据相似的等级，并将相似度数值转换为相似等级。

为了进一步优化上述技术方案，网络数据及其相似度计算参数的规范模块1通过构建网络数据特征值和网络数据特征的权重向量来提供数据变量。

为了进一步优化上述技术方案，网络数据总体相似度计算模块4根据网络数据特征值和网络数据特征的权重来计算网络数据总体相似度。

本发明公开提供了一种基于特征权重的网络数据相似度计算方法与系统，该方法通过构建网络数据特征值和网络特征的权重，权重量化地衡量不同网络特征数据之间的相对重要性，将异构的网络特征数据转化为数值化的十进制形式，通过数学方法计算两个网络数据的相同特征数据之间的相似度值，再综合网络特征的权重计算两个网络数据之间的相似度值，并将数值化的相似度转换为相似等级，提高了网络数据相似度计算方法的科学性，对于提高网络数据分析的精确性具有重要的意义，可用于网络数据模式识别、网络数据特征分析等领域。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于特征权重的网络数据相似度计算方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法，其特征在于，所述步骤S1的具体过程如下：

S11、构建网络数据特征值；

S12、构建网络数据特征的权重向量。

3.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法，其特征在于，所述步骤S2的具体过程如下：

S21、定义网络数据特征的数值化形式：构建网络数据特征的数值化向量的数据结构；

S22、二进制数值化形式的网络特征的数值化转换：将网络数据特征向量中的二进制数值化形式的网络特征的二进制数值转换为十进制数值；

S23、字符形式的网络特征的数值化转换：将网络数据特征向量中的字符形式的网络特征的二进制数值转换为十进制数值；

S27、构建数值化的网络数据集：将所有所述网络数据特征的数值化向量组合为数值化的网络数据集。

4.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法，其特征在于，所述步骤S3的具体过程如下：

S31、构建网络特征数据的相似度向量：对于两个网络数据特征的数值化向量dd_x和dd_y，构建网络特征数据的相似度向量；

S32、计算二进制数值化形式的网络特征数据的相似度；

S33、计算字符形式的网络特征数据的相似度；

S34、计算源IP地址的网络特征数据的相似度；

S35、计算目的IP地址的网络特征数据的相似度；

S36、将计算出的所有网络特征数据的相似度赋值给网络特征数据的相似度向量。

5.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法，其特征在于，所述步骤S4的具体过程如下：

S41、读取S12步骤中网络数据特征的权重向量；

S42、读取S3步骤中构建的网络特征数据的相似度向量；

S43、根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量，计算两个网络数据特征的数值化向量dd_x和dd_y之间的总体相似度。

6.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法，其特征在于，所述步骤S5的具体过程如下：

S51、构建两个网络数据之间的相似等级；

S52、构建网络数据相似等级与相似度之间的对应关系；

S53、根据S52步骤中构建的对应关系，确定两个网络数据的相似度值对应的相似等级。

7.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法，其特征在于，所述网络数据及其相似度计算参数的规范模块中构建的网络特征，包括但不限于网络数据包头的字段和从网络数据包内容中抽取的特征。

8.一种基于特征权重的网络数据相似度计算系统，其特征在于，包括网络数据及其相似度计算参数的规范模块(1)、与所述网络数据及其相似度计算参数的规范模块(1)依次连接的网络数据数值化转换模块(2)、网络特征数据相似度计算模块(3)、网络数据总体相似度计算模块(4)和网络数据相似等级转换模块(5)；

其中，所述网络数据及其相似度计算参数的规范模块(1)用于提供数据变量；

所述网络数据数值化转换模块(2)，用于将网络数据的特征值转换为十进制数值；

所述网络特征数据相似度计算模块(3)，计算每个网络数据特征的十进制相似度数值；

所述网络数据总体相似度计算模块(4)与所述网络数据及其相似度计算参数的规范模块(1)连接，用于计算网络数据总体相似度的十进制数值；

所述网络数据相似等级转换模块(5)，用于规范网络数据相似的等级，并将相似度数值转换为相似等级。

9.根据权利要求8所述的一种基于特征权重的网络数据相似度计算系统，其特征在于，所述网络数据及其相似度计算参数的规范模块(1)通过构建网络数据特征值和网络数据特征的权重向量来提供数据变量。

10.根据权利要求9所述的一种基于特征权重的网络数据相似度计算系统，其特征在于，所述网络数据总体相似度计算模块(4)根据网络数据特征值和网络数据特征的权重来计算网络数据总体相似度。