CN111159493A - 一种基于特征权重的网络数据相似度计算方法与系统 - Google Patents
一种基于特征权重的网络数据相似度计算方法与系统 Download PDFInfo
- Publication number
- CN111159493A CN111159493A CN201911357469.XA CN201911357469A CN111159493A CN 111159493 A CN111159493 A CN 111159493A CN 201911357469 A CN201911357469 A CN 201911357469A CN 111159493 A CN111159493 A CN 111159493A
- Authority
- CN
- China
- Prior art keywords
- network
- similarity
- network data
- data
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于特征权重的网络数据相似度计算方法与系统,规范网络数据及其相似度计算参数;网络数据数值化转换;计算网络特征数据相似度;计算网络数据总体相似度;网络数据相似等级转换。本发明通过权重量化地衡量不同网络特征数据之间的相对重要性,将异构的网络特征数据转化为数值化的十进制形式,通过数学方法计算两个网络数据的相同特征数据之间的相似度值,再综合网络特征的权重计算两个网络数据之间的相似度值,并将数值化的相似度转换为相似等级,提高了网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义,可用于网络数据模式识别、网络数据特征分析等领域。
Description
技术领域
本发明涉及网络数据分析技术领域,更具体的说是涉及一种基于特征权重的网络数据相似度计算方法与系统。
背景技术
目前,网络数据的相似度计算方法是网络数据分析领域的关键技术,其计算的相似度值可以用于量化网络数据之间的相似性,为识别特定的网络数据提供科学依据。网络数据相似度计算的准确性关系到网络数据模式判断的合理性,提高网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义。
但是,传统的网络数据特征相似度计算方法没有考虑网络数据特征的异构性,而网络数据特征存在二进制值、字符、IP地址组等形式,这种特征数据的异构性给网络数据相似度的量化计算带来了难度。传统的网络数据相似度计算方法多采用字符匹配方式,忽视了异构网络特征数据之间的权重,没有考虑每个网络特征不同的重要性,导致计算的准确度受到较大影响。
因此,如何提供一种基于特征权重的网络数据相似度计算方法与系统是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于特征权重的网络数据相似度计算方法与系统,该方法能够提高网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义。
为了实现上述目的,本发明采用如下技术方案:
一种基于特征权重的网络数据相似度计算方法,所述方法包括以下步骤:
S1、构建网络数据参数:构建网络数据特征值和网络数据特征的权重向量;
S2、网络数据数值化转换:将所述网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量,构建数值化的网络数据集;
S3、计算网络特征数据相似度:构建网络特征数据的相似度向量的数据结构,根据所述网络数据特征的数值化向量,计算网络特征数据的相似度值,将这些相似度值赋给网络特征数据的相似度向量的相应字段;
S4、计算网络数据总体相似度:根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量之间的总体相似度;
S5、网络数据相似等级转换:构建网络特征数据相似等级与相似度之间的对应关系,将所述网络特征数据的相似度值转换为相似等级。
优选的,所述步骤S1的具体过程如下:
S11、构建网络数据特征值:从网络数据包中获取网络数据特征,构建网络数据集;
S111、获取网络数据特征:捕获网络数据包,构建每个网络数据包的网络数据特征向量DFi={<f1,f2,f3,…,fm>},其中,i(i为自然数)表示第i个数据包,fj(1≤j≤m)表示第j个网络特征,该网络特征不限于网络数据包头的字段,还包括从数据包内容中抽取的任意特征,m(m为自然数)表示网络数据包的特征数量;
S112、构建网络数据集:将获取的所有网络数据特征组合为网络数据集D={DF1,DF2,DF3,…,DFn},其中,DFi(1≤i≤n)表示第i个网络数据包的网络数据征向量,n(n为自然数)表示网络数据包的数量;
S12、构建网络数据特征的权重向量:构建网络数据特征的权重向量,获取网络数据特征的权重值。
S121、构建网络数据特征的权重向量:构建网络数据特征的权重向量W={<w1,w2,w3,…,wm>},
其中,wj(1≤j≤m)表示第j个网络特征的权重,且0≤wj≤1,m(m为自然数)表示网络数据包的特征数量;
S122、获取网络数据特征的权重值:根据网络数据包中各个特征的重要性,为权重变量W的每个字段(即w1,w2,w3,…,wm)赋值。
优选的,所述步骤S2的具体过程如下:
S21、定义网络数据特征的数值化形式:构建网络数据特征的数值化向量的数据结构DDi=<db1,db2,…,dbp,dc1,dc2,…,dcq,dsIP1,dsIP2,dsIP3,dsIP4,ddIP1,ddIP2,ddIP3,ddIP4>,其中,db表示二进制数值化形式的网络特征的十进制数值,p(p为自然数)表示二进制数值化形式的网络特征的数量,dc表示字符形式的网络特征的十进制数值,q(q为自然数)表示字符形式的网络特征的数量,dsIP1,dsIP2,dsIP3,dsIP4分别表示源IP地址的4组分段数字的十进制数值,ddIP1,ddIP2,ddIP3,ddIP4分别表示目的IP地址的4组分段数字的十进制数值;
S22、二进制数值化形式的网络特征的数值化转换:对于网络数据特征向量DFi=<f1,f2,f3,…,fm>中的二进制数值化形式的网络特征,例如:端口号、生存时间、包头长度、总长度、协议类型等,将其二进制数值转换为十进制数值,并分别赋值给db1,db2,…,dbp;
S23、字符形式的网络特征的数值化转换:对于网络数据特征向量DFi=<f1,f2,f3,…,fm>中的字符形式的网络特征,例如:网络数据包内容的数据特征,按照文字编码标准将其二进制数值转换为十进制数值,并分别赋值给dc1,dc2,…,dcq;
S24、源IP地址的网络特征的数值化转换:将源IP地址的4组分段数字分别转换为十进制数值;
S241、获取源IP地址的4组分段数字;
S242、将源IP地址的4组分段数字分别转换为十进制数值,并分别赋值给dsIP1,dsIP2,dsIP3,dsIP4;
S25、目的IP地址的网络特征的数值化转换:将目的IP地址的4组分段数字分别转换为十进制数值;
S251、获取目的IP地址的4组分段数字;
S252、将目的IP地址的4组分段数字分别转换为十进制数值,并分别赋值给ddIP1,ddIP2,ddIP3,ddIP4;
S26、给数值化向量赋值:将所有网络特征的十进制数值赋值给所述网络数据特征的数值化向量的相应字段;
S27、构建数值化的网络数据集:将计算出的所有网络数据特征的数值化向量组合为数值化的网络数据集D′={DD1,DD2,DD3,…,DDn},其中,DFi(1≤i≤n)表示第i个网络数据特征的数值化向量,n(n为自然数)表示网络数据特征的数值化向量的数量。
优选的,所述步骤S3的具体过程如下:
S31、构建网络特征数据的相似度向量:对于两个网络数据特征的数值化向量ddx和ddy(1≤x,y≤n),且ddx,ddy∈D′,符号∈意为包含于,构建网络特征数据的相似度向量Sxy={<sb1,sb2,…,sbp,sc1,sc2,…,scq,ssIP,sdIP>},其中,sbj(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值,sck(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值,ssIP表示源IP地址的相似度值,sdIP表示目的IP地址的相似度值;
S32、计算二进制数值化形式的网络特征数据的相似度:利用如下公式计算二进制数值化形式的网络特征数据的相似度值sbj:
其中,1≤j≤p,该公式意为两个网络数据特征的数值化向量ddx和ddy的二进制数值化形式的网络特征数据的差的绝对值除以其和;
S33、计算字符形式的网络特征数据的相似度:利用如下公式计算字符形式的网络特征数据的相似度值sck:
其中,1≤k≤q,该公式意为两个网络数据特征的数值化向量ddx和ddy的字符形式的网络特征数据的差的绝对值除以其和;
S34、计算源IP地址的网络特征数据的相似度:利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,dsIPr表示两个网络数据特征的数值化向量ddx和ddy的源IP地址的4组分段数字的十进制数值;
S35、计算目的IP地址的网络特征数据的相似度:利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,ddIPr表示两个网络数据特征的数值化向量ddx和ddy的目的IP地址的4组分段数字的十进制数值;
S36、给相似度向量赋值:将计算出的所有网络特征数据的相似度赋值给网络特征数据的相似度向量。
优选的,所述步骤S4的具体过程如下:
S41、读取S12步骤中网络数据特征的权重向量W;
S42、读取S3步骤中构建的网络特征数据的相似度向量Sxy;
S43、根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量ddx和ddy之间的总体相似度:构建总体相似度SVxy,以此作为两个网络数据的相似度值,其中,x,y表示两个网络数据特征的数值化向量ddx和ddy,且0≤SVxy≤1,利用如下公式计算两个网络数据特征的数值化向量ddx和ddy之间的总体相似度:
其中,wj表示二进制数值化形式的网络特征的权重,wk表示字符形式的网络特征的权重,wsIP表示源IP地址网络特征的权重,wdIP表示目的IP地址网络特征的权重,sbj(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值,sck(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值,ssIP表示源IP地址的相似度值,sdIP表示目的IP地址的相似度值。
优选的,所述步骤S5的具体过程如下:
S51、构建两个网络数据之间的相似等级:构建两个网络数据之间的相似等级向量L=<相同,高度相似,较高相似,中等相似,较低相似,低相似,不相似>;
S52、构建网络数据相似等级与相似度之间的对应关系:对于网络数据相似度值0≤SVxy≤1,构建其与相似等级之间的对应关系如下:0—相同、(0,0.1]—高度相似、(0.1,0.4]—较高相似、(0.4,0.6]—中等相似、(0.6,0.8]—较低相似、(0.8,0.9)—低相似、1—不相似;
S53、映射网络数据相似等级:根据S52步骤中构建的对应关系,确定两个网络数据的相似度值SVxy对应的相似等级。
优选的,所述网络数据及其相似度计算参数的规范模块中构建的网络特征,包括但不限于网络数据包头的字段和从网络数据包内容中抽取的特征。
一种基于特征权重的网络数据相似度计算系统,包括网络数据及其相似度计算参数的规范模块、与所述网络数据及其相似度计算参数的规范模块依次连接的网络数据数值化转换模块、网络特征数据相似度计算模块、网络数据总体相似度计算模块和网络数据相似等级转换模块;
其中,所述网络数据及其相似度计算参数的规范模块用于提供数据变量;
所述网络数据数值化转换模块,用于将网络数据的特征值转换为十进制数值;
所述网络特征数据相似度计算模块,计算每个网络数据特征的十进制相似度数值;
所述网络数据总体相似度计算模块与所述网络数据及其相似度计算参数的规范模块连接,用于计算网络数据总体相似度的十进制数值;
所述网络数据相似等级转换模块,用于规范网络数据相似的等级,并将相似度数值转换为相似等级。
优选的,所述网络数据及其相似度计算参数的规范模块通过构建网络数据特征值和网络数据特征的权重向量来提供数据变量。
优选的,所述网络数据总体相似度计算模块根据网络数据特征值和网络数据特征的权重来计算网络数据总体相似度。
所述网络数据及其相似度计算参数的规范模块中构建的网络特征,不限于网络数据包头的字段,还包括从网络数据包内容中抽取的任意特征;构建的网络数据特征的权重对应于每个网络数据特征,对于所有参与计算的网络数据都相同。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于特征权重的网络数据相似度计算方法与系统,该方法通过权重量化地衡量不同网络特征数据之间的相对重要性,将异构的网络特征数据转化为数值化的十进制形式,通过数学方法计算两个网络数据的相同特征数据之间的相似度值,再综合网络特征的权重计算两个网络数据之间的相似度值,并将数值化的相似度转换为相似等级,提高了网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义,可用于网络数据模式识别、网络数据特征分析等领域。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的工作原理图。
图2附图为本发明提供的规范网络数据及其相似度计算参数的流程图。
图3附图为本发明提供的网络数据数值化转换的流程图。
图4附图为本发明提供的计算网络特征数据相似度的流程图。
图5附图为本发明提供的计算网络数据总体相似度的流程图。
图6附图为本发明提供的网络数据相似等级转换的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于特征权重的网络数据相似度计算方法,方法包括以下步骤:
S1、构建网络数据参数:构建网络数据特征值和网络数据特征的权重向量;
S2、网络数据数值化转换:将网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量,构建数值化的网络数据集;
S3、计算网络特征数据相似度:构建网络特征数据的相似度向量的数据结构,根据所述网络数据特征的数值化向量,计算网络特征数据的相似度值,并将这些相似度值赋给网络特征数据的相似度向量的相应字段;
S4、计算网络数据总体相似度:根据网络数据特征的权重向量和网络特征数据的相似度向量,计算两个网络数据特征的数值化向量之间的总体相似度;
S5、网络数据相似等级转换:构建网络特征数据相似等级与相似度之间的对应关系,将网络特征数据的相似度值转换为相似等级。
为了进一步优化上述技术方案,步骤S1的具体过程如下:
S11、构建网络数据特征值:从网络数据包中获取网络数据特征,构建网络数据集;
S111、获取网络数据特征:捕获网络数据包,构建每个网络数据包的网络数据特征向量DFi={<f1,f2,f3,…,fm>},其中,i(i为自然数)表示第i个数据包,fj(1≤j≤m)表示第j个网络特征,该网络特征不限于网络数据包头的字段,还包括从数据包内容中抽取的任意特征,m(m为自然数)表示网络数据包的特征数量;
S112、构建网络数据集:将获取的所有网络数据特征组合为网络数据集D={DF1,DF2,DF3,…,DFn},其中,DFi(1≤i≤n)表示第i个网络数据包的网络数据征向量,n(n为自然数)表示网络数据包的数量;
S12、构建网络数据特征的权重向量:构建网络数据特征的权重向量,获取网络数据特征的权重值;
S121、构建网络数据特征的权重向量:构建网络数据特征的权重向量W={<w1,w2,w3,…,wm>},
其中,wj(1≤j≤m)表示第j个网络特征的权重,且0≤wj≤1,m(m为自然数)表示网络数据包的特征数量;
S122、获取网络数据特征的权重值:根据网络数据包中各个特征的重要性,为权重变量W的每个字段(即w1,w2,w3,…,wm)赋值。
为了进一步优化上述技术方案,步骤S2的具体过程如下:
S21、定义网络数据特征的数值化形式:构建网络数据特征的数值化向量的数据结构DDi=<db1,db2,…,dbp,dc1,dc2,…,dcq,dsIP1,dsIP2,dsIP3,dsIP4,ddIP1,ddIP2,ddIP3,ddIP4>,其中,db表示二进制数值化形式的网络特征的十进制数值,p(p为自然数)表示二进制数值化形式的网络特征的数量,dc表示字符形式的网络特征的十进制数值,q(q为自然数)表示字符形式的网络特征的数量,dsIP1,dsIP2,dsIP3,dsIP4分别表示源IP地址的4组分段数字的十进制数值,ddIP1,ddIP2,ddIP3,ddIP4分别表示目的IP地址的4组分段数字的十进制数值;
S22、二进制数值化形式的网络特征的数值化转换:对于网络数据特征向量DFi=<f1,f2,f3,…,fm>中的二进制数值化形式的网络特征,例如:端口号、生存时间、包头长度、总长度、协议类型等,将其二进制数值转换为十进制数值,并分别赋值给db1,db2,…,dbp;
S23、字符形式的网络特征的数值化转换:对于网络数据特征向量DFi=<f1,f2,f3,…,fm>中的字符形式的网络特征,例如:网络数据包内容的数据特征,按照文字编码标准将其二进制数值转换为十进制数值,并分别赋值给dc1,dc2,…,dcq;
S24、源IP地址的网络特征的数值化转换:将源IP地址的4组分段数字分别转换为十进制数值;
S241、获取源IP地址的4组分段数字;
S242、将源IP地址的4组分段数字分别转换为十进制数值,并分别赋值给dsIP1,dsIP2,dsIP3,dsIP4;
S25、目的IP地址的网络特征的数值化转换:将目的IP地址的4组分段数字分别转换为十进制数值;
S251、获取目的IP地址的4组分段数字;
S252、将目的IP地址的4组分段数字分别转换为十进制数值,并分别赋值给ddIP1,ddIP2,ddIP3,ddIP4;
S26、给数值化向量赋值:将所有网络特征的十进制数值赋值给网络数据特征的数值化向量的相应字段;
S27、构建数值化的网络数据集:将计算出的所有网络数据特征的数值化向量组合为数值化的网络数据集D′={DD1,DD2,DD3,…,DDn},其中,DFi(1≤i≤n)表示第i个网络数据特征的数值化向量,n(n为自然数)表示网络数据特征的数值化向量的数量。
为了进一步优化上述技术方案,步骤S3的具体过程如下:
S31、构建网络特征数据的相似度向量:对于两个网络数据特征的数值化向量ddx和ddy(1≤x,y≤n),且ddx,ddy∈D′,符号∈意为包含于,构建网络特征数据的相似度向量Sxy={<sb1,sb2,…,sbp,sc1,sc2,…,scq,ssIP,sdIP>},其中,sbj(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值,sck(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值,ssIP表示源IP地址的相似度值,sdIP表示目的IP地址的相似度值;
S32、计算二进制数值化形式的网络特征数据的相似度:利用如下公式计算二进制数值化形式的网络特征数据的相似度值sbj:
其中,1≤j≤p,该公式意为两个网络数据特征的数值化向量ddx和ddy的二进制数值化形式的网络特征数据的差的绝对值除以其和;
S33、计算字符形式的网络特征数据的相似度:利用如下公式计算字符形式的网络特征数据的相似度值sck:
其中,1≤k≤q,该公式意为两个网络数据特征的数值化向量ddx和ddy的字符形式的网络特征数据的差的绝对值除以其和;
S34、计算源IP地址的网络特征数据的相似度:利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,dsIPr表示两个网络数据特征的数值化向量ddx和ddy的源IP地址的4组分段数字的十进制数值;
S35、计算目的IP地址的网络特征数据的相似度:利用如下公式计算源IP地址的网络特征数据的相似度值:
其中,ddIPr表示两个网络数据特征的数值化向量ddx和ddy的目的IP地址的4组分段数字的十进制数值;
S36、给相似度向量赋值:将计算出的所有网络特征数据的相似度赋值给网络特征数据的相似度向量。
为了进一步优化上述技术方案,步骤S4的具体过程如下:
S41、读取S12步骤中网络数据特征的权重向量W;
S42、读取S3步骤中构建的网络特征数据的相似度向量Sxy;
S43、根据网络数据特征的权重向量和网络特征数据的相似度向量,计算两个网络数据特征的数值化向量ddx和ddy之间的总体相似度:构建总体相似度SVxy,以此作为两个网络数据的相似度值,其中,x,y表示两个网络数据特征的数值化向量ddx和ddy,且0≤SVxy≤1,利用如下公式计算两个网络数据特征的数值化向量ddx和ddy之间的总体相似度:
其中,wj表示二进制数值化形式的网络特征的权重,wk表示字符形式的网络特征的权重,wsIP表示源IP地址网络特征的权重,wdIP表示目的IP地址网络特征的权重,sbj(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值,sck(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值,ssIP表示源IP地址的相似度值,sdIP表示目的IP地址的相似度值。
为了进一步优化上述技术方案,步骤S5的具体过程如下:
S51、构建两个网络数据之间的相似等级:构建两个网络数据之间的相似等级向量L=<相同,高度相似,较高相似,中等相似,较低相似,低相似,不相似>;
S52、构建网络数据相似等级与相似度之间的对应关系:对于网络数据相似度值0≤SVxy≤1,构建其与相似等级之间的对应关系如下:0—相同、(0,0.1]—高度相似、(0.1,0.4]—较高相似、(0.4,0.6]—中等相似、(0.6,0.8]—较低相似、(0.8,0.9)—低相似、1—不相似;
S53、映射网络数据相似等级:根据S52步骤中构建的对应关系,确定两个网络数据的相似度值SVxy对应的相似等级。
为了进一步优化上述技术方案,网络数据及其相似度计算参数的规范模块中构建的网络特征,包括但不限于网络数据包头的字段和从网络数据包内容中抽取的特征。
一种基于特征权重的网络数据相似度计算系统,包括网络数据及其相似度计算参数的规范模块1、与网络数据及其相似度计算参数的规范模块1依次连接的网络数据数值化转换模块2、网络特征数据相似度计算模块3、网络数据总体相似度计算模块4和网络数据相似等级转换模块5;
其中,网络数据及其相似度计算参数的规范模块1用于提供数据变量;
网络数据数值化转换模块2,用于将网络数据的特征值转换为十进制数值;
网络特征数据相似度计算模块3,计算每个网络数据特征的十进制相似度数值;
网络数据总体相似度计算模块4与网络数据及其相似度计算参数的规范模块1连接,用于计算网络数据总体相似度的十进制数值;
网络数据相似等级转换模块5,用于规范网络数据相似的等级,并将相似度数值转换为相似等级。
为了进一步优化上述技术方案,网络数据及其相似度计算参数的规范模块1通过构建网络数据特征值和网络数据特征的权重向量来提供数据变量。
为了进一步优化上述技术方案,网络数据总体相似度计算模块4根据网络数据特征值和网络数据特征的权重来计算网络数据总体相似度。
本发明公开提供了一种基于特征权重的网络数据相似度计算方法与系统,该方法通过构建网络数据特征值和网络特征的权重,权重量化地衡量不同网络特征数据之间的相对重要性,将异构的网络特征数据转化为数值化的十进制形式,通过数学方法计算两个网络数据的相同特征数据之间的相似度值,再综合网络特征的权重计算两个网络数据之间的相似度值,并将数值化的相似度转换为相似等级,提高了网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义,可用于网络数据模式识别、网络数据特征分析等领域。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于特征权重的网络数据相似度计算方法,其特征在于,所述方法包括以下步骤:
S1、构建网络数据参数:构建网络数据特征值和网络数据特征的权重向量;
S2、网络数据数值化转换:将所述网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量,构建数值化的网络数据集;
S3、计算网络特征数据相似度:构建网络特征数据的相似度向量的数据结构,根据所述网络数据特征的数值化向量,计算网络特征数据的相似度值,并将这些相似度值赋给网络特征数据的相似度向量的相应字段;
S4、计算网络数据总体相似度:根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量之间的总体相似度;
S5、网络数据相似等级转换:构建网络特征数据相似等级与相似度之间的对应关系,将所述网络特征数据的相似度值转换为相似等级。
2.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S1的具体过程如下:
S11、构建网络数据特征值;
S12、构建网络数据特征的权重向量。
3.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S2的具体过程如下:
S21、定义网络数据特征的数值化形式:构建网络数据特征的数值化向量的数据结构;
S22、二进制数值化形式的网络特征的数值化转换:将网络数据特征向量中的二进制数值化形式的网络特征的二进制数值转换为十进制数值;
S23、字符形式的网络特征的数值化转换:将网络数据特征向量中的字符形式的网络特征的二进制数值转换为十进制数值;
S24、源IP地址的网络特征的数值化转换:将源IP地址的4组分段数字分别转换为十进制数值;
S25、目的IP地址的网络特征的数值化转换:将目的IP地址的4组分段数字分别转换为十进制数值;
S26、给数值化向量赋值:将所有网络特征的十进制数值赋值给所述网络数据特征的数值化向量的相应字段;
S27、构建数值化的网络数据集:将所有所述网络数据特征的数值化向量组合为数值化的网络数据集。
4.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S3的具体过程如下:
S31、构建网络特征数据的相似度向量:对于两个网络数据特征的数值化向量ddx和ddy,构建网络特征数据的相似度向量;
S32、计算二进制数值化形式的网络特征数据的相似度;
S33、计算字符形式的网络特征数据的相似度;
S34、计算源IP地址的网络特征数据的相似度;
S35、计算目的IP地址的网络特征数据的相似度;
S36、将计算出的所有网络特征数据的相似度赋值给网络特征数据的相似度向量。
5.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S4的具体过程如下:
S41、读取S12步骤中网络数据特征的权重向量;
S42、读取S3步骤中构建的网络特征数据的相似度向量;
S43、根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量ddx和ddy之间的总体相似度。
6.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S5的具体过程如下:
S51、构建两个网络数据之间的相似等级;
S52、构建网络数据相似等级与相似度之间的对应关系;
S53、根据S52步骤中构建的对应关系,确定两个网络数据的相似度值对应的相似等级。
7.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述网络数据及其相似度计算参数的规范模块中构建的网络特征,包括但不限于网络数据包头的字段和从网络数据包内容中抽取的特征。
8.一种基于特征权重的网络数据相似度计算系统,其特征在于,包括网络数据及其相似度计算参数的规范模块(1)、与所述网络数据及其相似度计算参数的规范模块(1)依次连接的网络数据数值化转换模块(2)、网络特征数据相似度计算模块(3)、网络数据总体相似度计算模块(4)和网络数据相似等级转换模块(5);
其中,所述网络数据及其相似度计算参数的规范模块(1)用于提供数据变量;
所述网络数据数值化转换模块(2),用于将网络数据的特征值转换为十进制数值;
所述网络特征数据相似度计算模块(3),计算每个网络数据特征的十进制相似度数值;
所述网络数据总体相似度计算模块(4)与所述网络数据及其相似度计算参数的规范模块(1)连接,用于计算网络数据总体相似度的十进制数值;
所述网络数据相似等级转换模块(5),用于规范网络数据相似的等级,并将相似度数值转换为相似等级。
9.根据权利要求8所述的一种基于特征权重的网络数据相似度计算系统,其特征在于,所述网络数据及其相似度计算参数的规范模块(1)通过构建网络数据特征值和网络数据特征的权重向量来提供数据变量。
10.根据权利要求9所述的一种基于特征权重的网络数据相似度计算系统,其特征在于,所述网络数据总体相似度计算模块(4)根据网络数据特征值和网络数据特征的权重来计算网络数据总体相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911357469.XA CN111159493B (zh) | 2019-12-25 | 2019-12-25 | 一种基于特征权重的网络数据相似度计算方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911357469.XA CN111159493B (zh) | 2019-12-25 | 2019-12-25 | 一种基于特征权重的网络数据相似度计算方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159493A true CN111159493A (zh) | 2020-05-15 |
CN111159493B CN111159493B (zh) | 2023-07-18 |
Family
ID=70558007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911357469.XA Active CN111159493B (zh) | 2019-12-25 | 2019-12-25 | 一种基于特征权重的网络数据相似度计算方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159493B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226583A (zh) * | 2013-04-08 | 2013-07-31 | 北京奇虎科技有限公司 | 一种广告插件识别的方法和装置 |
CN106250545A (zh) * | 2016-08-10 | 2016-12-21 | Tcl集团股份有限公司 | 一种基于用户搜索内容的多媒体推荐方法及系统 |
CN106960182A (zh) * | 2017-03-02 | 2017-07-18 | 云南大学 | 一种基于多特征集成的行人再识别方法 |
CN109815475A (zh) * | 2017-11-22 | 2019-05-28 | 阿里巴巴集团控股有限公司 | 文本匹配方法、装置、计算设备及系统 |
WO2019128355A1 (zh) * | 2017-12-29 | 2019-07-04 | 北京京东尚科信息技术有限公司 | 确定精确地理位置的方法和装置 |
CN110019193A (zh) * | 2017-09-25 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 相似帐号识别方法、装置、设备、系统及可读介质 |
CN110334904A (zh) * | 2019-05-30 | 2019-10-15 | 北京理工大学 | 基于LightGBM的关键信息基础设施类型单位归属判定方法 |
-
2019
- 2019-12-25 CN CN201911357469.XA patent/CN111159493B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226583A (zh) * | 2013-04-08 | 2013-07-31 | 北京奇虎科技有限公司 | 一种广告插件识别的方法和装置 |
CN106250545A (zh) * | 2016-08-10 | 2016-12-21 | Tcl集团股份有限公司 | 一种基于用户搜索内容的多媒体推荐方法及系统 |
CN106960182A (zh) * | 2017-03-02 | 2017-07-18 | 云南大学 | 一种基于多特征集成的行人再识别方法 |
CN110019193A (zh) * | 2017-09-25 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 相似帐号识别方法、装置、设备、系统及可读介质 |
CN109815475A (zh) * | 2017-11-22 | 2019-05-28 | 阿里巴巴集团控股有限公司 | 文本匹配方法、装置、计算设备及系统 |
WO2019128355A1 (zh) * | 2017-12-29 | 2019-07-04 | 北京京东尚科信息技术有限公司 | 确定精确地理位置的方法和装置 |
CN110334904A (zh) * | 2019-05-30 | 2019-10-15 | 北京理工大学 | 基于LightGBM的关键信息基础设施类型单位归属判定方法 |
Non-Patent Citations (1)
Title |
---|
徐瑛, 《中国优秀硕士学位论文全文数据库》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111159493B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111784204A (zh) | 一种基于用户用电行为画像的优质用户挖掘方法及系统 | |
CN106953854B (zh) | 一种基于svm机器学习的暗网流量识别模型的建立方法 | |
CN102904755B (zh) | 一种移动互联网业务用户体验质量测量方法和装置 | |
CN111555988A (zh) | 一种基于大数据的网络资产测绘发现方法及装置 | |
CN110365603A (zh) | 一种基于5g网络能力开放的自适应网络流量分类方法 | |
CN111159493A (zh) | 一种基于特征权重的网络数据相似度计算方法与系统 | |
CN108459997A (zh) | 基于深度学习和神经网络的高偏态数据价值概率预测方法 | |
CN117454289A (zh) | 一种低压配电台区相户关系识别方法及存储介质 | |
CN112612968A (zh) | 一种基于长期收益的动态社交网络中的链接推荐方法 | |
CN115754199B (zh) | 基于隶属度函数和主成分分析的水质检测方法 | |
CN107590975B (zh) | 基于光纤、智能涂层和压电传感器的告警系统的实现方法 | |
CN116401586A (zh) | 一种全场景业务智能感知与精准分类的方法 | |
Storato et al. | Improving metagenomic classification using discriminative k-mers from sequencing data | |
CN107423222B (zh) | 一种确定测试覆盖率的方法及设备 | |
CN113726809B (zh) | 基于流量数据的物联网设备识别方法 | |
CN102098346A (zh) | 一种在未知流量中识别p2p流媒体流量的方法 | |
CN113506266B (zh) | 舌头腻苔的检测方法、装置、设备及存储介质 | |
CN112182320B (zh) | 聚类数据处理方法、装置、计算机设备及存储介质 | |
CN103780461B (zh) | 综合考虑主客观权重的Web业务服务质量QoS的测量方法 | |
CN107462180B (zh) | 基于光纤光栅和智能涂层传感器的告警系统的实现方法 | |
KR100738550B1 (ko) | 유전자 알고리즘을 응용한 네트워크 침입 감지 시스템 및그 방법 | |
CN109064043A (zh) | 评估方法、装置、计算设备及存储介质 | |
Khudoyarova et al. | Using Machine Learning to Analyze Network Traffic Anomalies | |
JP2004206167A (ja) | 事例予測装置および事例予測方法 | |
CN117171446B (zh) | 一种基于大数据分析的技术交易推荐方法及推荐系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |