CN114710451A - 基于扩展哈希和knn的区块链应用流量识别方法及系统 - Google Patents

基于扩展哈希和knn的区块链应用流量识别方法及系统 Download PDF

Info

Publication number
CN114710451A
CN114710451A CN202210367603.XA CN202210367603A CN114710451A CN 114710451 A CN114710451 A CN 114710451A CN 202210367603 A CN202210367603 A CN 202210367603A CN 114710451 A CN114710451 A CN 114710451A
Authority
CN
China
Prior art keywords
flow
data
knn
hash value
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210367603.XA
Other languages
English (en)
Other versions
CN114710451B (zh
Inventor
吴波
陈翔
王玺钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210367603.XA priority Critical patent/CN114710451B/zh
Publication of CN114710451A publication Critical patent/CN114710451A/zh
Application granted granted Critical
Publication of CN114710451B publication Critical patent/CN114710451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于扩展哈希和KNN的区块链应用流量识别方法及系统,该方法包括:获取数据集流量样本进行特征提取处理和数据转换处理,得到数据集ASCII码;根据数据集ASCII码,构建满二叉树;通过满二叉树对数据集ASCII码进行转换处理,得到数据集扩展哈希值;根据数据集扩展哈希值对预训练的KNN分类模型进行训练,得到KNN分类模型;基于KNN分类对待测流量数据样本进行分类识别,得到流量分类识别结果。通过使用本发明能够在保证区块链应用流量数据识别准确率的同时提高流量数据的识别效率。本发明作为基于扩展哈希和KNN的区块链应用流量识别方法及系统,可广泛应用于区块链技术领域。

Description

基于扩展哈希和KNN的区块链应用流量识别方法及系统
技术领域
本发明涉及区块链技术领域,尤其涉及基于扩展哈希和KNN的区块链应用流量识别方法及系统。
背景技术
区块链技术作为一种新兴技术,其核心是去中心化,同时具有匿名化、数据不可篡改、集体维护等特点,具有广阔的发展前景,尤其是有助于解决当前各领域面临的信息安全、效率较低、成本高昂等问题;随着区块链技术的发展,其在各行各业中有了越来越广泛的部署,推出了越来越丰富的区块链应用产品。但是由于区块链技术具有匿名化和去中心化的特点,其容易成为不法活动的交易平台,因此,需要对现网流量中的区块链应用进行分类识别,正确区分合法区块链应用和非法区块链应用,以加强对区块链应用市场的监管;传统的流量识别技术主要运用于中心化对等网络以及去中心化P2P网络的流量识别,具体有基于支持向量机的流量识别方法、基于贝叶斯算法的流量识别方法和基于K临近算法的流量识别方法,但是基于支持向量机的流量识别方法并不适用与具有较多种类的区块链流量识别,基于贝叶斯算法的流量识别方法在处理特征关联性比较强的数据时会产生较大误差,而基于K临近算法的流量识别方法虽然在分类识别场景下具有较强的识别能力,但对于内存要求较高,识别较慢。
发明内容
为了解决上述技术问题,本发明的目的是提供基于扩展哈希和KNN的区块链应用流量识别方法及系统,能够在保证区块链应用流量数据识别准确率的同时提高流量数据的识别效率。
本发明所采用的第一技术方案是:基于扩展哈希和KNN的区块链应用流量识别方法,包括以下步骤:
获取数据集流量样本进行特征提取处理和数据转换处理,得到数据集ASCII码;
根据数据集ASCII码,构建满二叉树;
通过满二叉树对数据集ASCII码进行转换处理,得到数据集扩展哈希值;
根据数据集扩展哈希值对初步的KNN分类模型进行训练,得到训练完成的KNN分类模型;
基于训练完成的KNN分类模型对待测流量数据样本进行分类识别,得到流量分类识别结果。
进一步,所述获取数据集流量样本进行特征提取处理和数据转换处理,得到数据集ASCII码这一步骤,其具体包括:
采集流量数据,选取数据长度大于预设长度的流量数据,得到数据集流量样本;
选取一定数量的数据集流量样本进行赋予标签处理,以赋予标签的流量样本作为训练集流量样本,以未赋予标签的流量样本作为测试集流量样本;
对训练集流量样本和测试集流量样本进行特征提取处理,得到训练集数据特征和测试集数据特征;
对训练集数据特征和测试集数据特征进行统一进制和相加处理,得到训练集ASCII码和测试集ASCII码。
进一步,所述根据数据集ASCII码,构建满二叉树这一步骤,其具体包括:
设定满二叉树的高度和满二叉树的循环层;
合并训练集ASCII码作为循环层的节点;
对循环层的节点进行取平均值处理,得到节点的根植;
将节点的根植与训练集ASCII码进行判断,并根据判断结果构建下一循环层的节点;
根据循环条件,对循环层的层数和循环层的节点进行判断,得到判断结果;
判断结果满足循环条件,循环取平均值步骤和构建节点步骤,直至判断结果不满足循环条件,输出满二叉树。
进一步,所述将节点的根植与训练集ASCII码进行判断,并根据判断结果构建下一循环层的节点这一步骤,其具体包括:
判断到循环层的节点内的训练集ASCII码大于节点的根植,构建循环层的节点的左树枝;
判断到循环层的节点内的训练集ASCII码小于或等于节点的根植,构建循环层的节点的右树枝;
组合循环层节点的左树枝和循环层节点的右树枝,构建下一循环层的节点。
进一步,所述通过满二叉树对数据集ASCII码进行转换处理,得到数据集扩展哈希值这一步骤,其具体包括:
根据测试集数据特征选取对应特征的满二叉树;
根据满二叉树的高度,设定扩展哈希值的位宽;
对下一循环层的节点左树枝内的训练集ASCII码取平均计算,构建下一节点的根植;
根据节点的根植,对训练集ASCII码和测试集ASCII码进行判断与循环处理,得到训练集扩展哈希值和测试集扩展哈希值。
进一步,所述根据节点的根植,对训练集ASCII码和测试集ASCII码进行判断与循环处理,得到训练集扩展哈希值和测试集扩展哈希值这一步骤,其具体包括:
根据节点的根植,分别对训练集ASCII码和测试集ASCII码进行判断;
判断到ASCII码大于对应层节点的根植,设置扩展哈希值的第i位宽为“1”;
判断到ASCII码小于或等于对应层节点的根植,设置扩展哈希值的第i位宽为“0”;
每完成一次判断步骤,令i=i+1;
判断到i小于满二叉树的高度时,循环对ASCII码的判断步骤;
判断到i等于满二叉树的高度时,终止ASCII码的判断步骤,输出训练集扩展哈希值和测试集扩展哈希值。
进一步,所述根据数据集扩展哈希值对初步的KNN分类模型进行训练,得到训练完成的KNN分类模型这一步骤,其具体包括:
将训练集数据特征作为KNN分类模型维度,不同训练集流量样本作为KNN分类模型维度的坐标点,训练集扩展哈希值作为KNN分类模型维度的坐标值,构建初步的KNN分类模型;
对初步的KNN分类模型维度的坐标点个数进行开方计算与取整处理,得到K值;
根据训练集扩展哈希值构建流量样本点;
通过异或运算计算流量样本点与初步的KNN分类模型维度的坐标点之间的距离,得到距离值;
根据距离值与流量样本标签,选取距离值最小时且出现最高频率的流量样本标签对应的流量样本点,作为识别结果;
将对比结果与实际流量属性标签进行判断识别,并计算识别准确率;
选取识别准确率最高时的K值作为训练结果,得到训练完成的KNN分类模型。
进一步,还包括测试步骤,其具体包括:
对测试集扩展哈希值进行赋予标签处理,得到带标签的扩展哈希值并作为测试集流量样本点;
将测试集流量样本点输入训练完成的KNN分类模型进行测试,得到测试结果。
本发明所采用的第二技术方案是:基于扩展哈希和KNN的区块链应用流量识别系统,包括:
获取模块,用于获取数据集流量样本进行特征提取处理和数据转换处理,得到数据集ASCII码;
构建模块,用于根据数据集ASCII码,构建满二叉树;
转换模块,用于通过满二叉树对数据集ASCII码进行转换处理,得到数据集扩展哈希值;
训练模块,用于根据数据集扩展哈希值对初步的KNN分类模型进行训练,得到训练完成的KNN分类模型;
识别模块,基于训练完成的KNN分类模型对待测流量数据样本进行分类识别,得到流量分类识别结果。
本发明方法及系统的有益效果是:本发明通过采集用户使用区块链应用的流量数据并构建流量数据的ASCII码值,可以对区块链应用流量进行有效的识别,再根据流量数据的ASCII码值进行转换构建数据的二进制扩展哈希值,可以降低数据的空间大小并保留大部分的流量数据特征信息,通过构建KNN分类模型进行流量数据的识别,可以在保证最终的识别准确率的同时提高流量数据识别的效率。
附图说明
图1是本发明基于扩展哈希和KNN的区块链应用流量识别方法的步骤流程图;
图2是本发明基于扩展哈希和KNN的区块链应用流量识别系统的结构框图;
图3是本发明通过ASCII码值构建满二叉树的结构示意图;
图4是本发明通过KNN分类模型进行流量识别的结果示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明提供了基于扩展哈希和KNN的区块链应用流量识别方法,该方法包括以下步骤:
S1、获取数据集流量样本进行特征提取处理和数据转换处理,得到数据集ASCII码;
S11、采集流量数据,选取数据长度大于预设长度的流量数据,得到数据集流量样本;
S12、选取一定数量的数据集流量样本进行赋予标签处理,以赋予标签的流量样本作为训练集流量样本,以未赋予标签的流量样本作为测试集流量样本;
具体地,选取AaveProtocol、Livepper、Opensea、Pegaxy等9种Dapp作为待分类的区块链应用,以9种区块链应用流量和非区块链应用普通流量共10种类型作为分类标准,进行分类识别,分别单独使用9中Dapp中的一种,收集使用过程中产生的流量数据和不使用Dapp正常访问网络,收集使用过程中产生的流量数据,去除流量数据中长度小于1000的数据,剩余的流量样本为数据集流量样本,在10种数据集流量样本中,每种随机选取20条,共200条流量样本,标记其属于哪一个Dapp的流量作为其流量属性标签,作为训练集流量样本,其余数据集流量样本作为测试集流量样本,进行后续识别测试。
S13、对训练集流量样本和测试集流量样本进行特征提取处理,得到训练集数据特征和测试集数据特征;
具体地,对于训练集流量样本和测试集流量样本中每一条流量样本,分别提取其物理层、数据链路层、网络层以及传输层中包含的特征信息,最终提取源端口、目的端口、源IP、目的IP、源Mac、目的Mac等18项流量特征信息,保留训练集流量样本属性标签。
S14、对训练集数据特征和测试集数据特征进行统一进制和相加处理,得到训练集ASCII码和测试集ASCII码。
具体地,对于训练集流量样本和测试集流量样本中每一条流量样本提取的18项流量特征信息,将其转换为ASCII码值,对于每一条流量的每一项流量特征信息,按照ASCII码值将其从字符转换为十进制ASCII码值并对十进制ASCII码值进行相加,获得训练集ASCII码和测试集ASCII码。
S2、根据数据集ASCII码,构建满二叉树;
S21、设定满二叉树的高度和满二叉树的循环层;
S22、合并训练集ASCII码作为循环层的节点;
S23、对循环层的节点进行取平均值处理,得到节点的根植;
S24、将节点的根植与训练集ASCII码进行判断,并根据判断结果构建下一循环层的节点;
具体地,设定满二叉树高度h=4,对于每一项流量特征,设定初始循环层n=1,初始节点为200条训练集流量该项特征的ASCII码组成的集合,对于第n层中的每一个节点,计算该节点包含ASCII码的平均值,作为该节点的根值root。
S231、判断到循环层的节点内的训练集ASCII码大于节点的根植,构建循环层的节点的左树枝;
S232、判断到循环层的节点内的训练集ASCII码小于或等于节点的根植,构建循环层的节点的右树枝;
S233、组合循环层节点的左树枝和循环层节点的右树枝,构建下一循环层的节点。
具体地,对于第n层中的每一个节点,该节点包含的ASCII码大于其根值的组成该节点的左树枝lchild,小于等于其根值的组成该节点右树枝rchild,第n层所有节点的左右树枝组成第n+1层的所有节点。
S25、根据循环条件,对循环层的层数和循环层的节点进行判断,得到判断结果;
S26、判断结果满足循环条件,循环取平均值步骤和构建节点步骤,直至判断结果不满足循环条件,输出满二叉树。
具体地,参照图3,当满足循环条件时,重复执行S232、S233步骤,所述循环条件为:层数n小于满二叉树高度4和第n层所有节点的lchild和rchild无空集,循环结束后,由所有节点根值组成该流量特征的满二叉树,最终得到与流量特征一一对应的18颗满二叉树。
S3、通过满二叉树对数据集ASCII码进行转换处理,得到数据集扩展哈希值;
S31、根据测试集数据特征选取对应特征的满二叉树;
S32、根据满二叉树的高度,设定扩展哈希值的位宽;
S33、对下一循环层的节点左树枝内的训练集ASCII码取平均计算,构建下一节点的根植;
具体地,通过S2步骤构建的18颗满二叉树,将训练集及测试集的流量样本的18项流量特征的ASCII码转换为二进制拓展哈希值,对于训练集和测试集中的每一条流量样本,选择对应的满二叉树,将18项特征的ASCII码转换为二进制拓展哈希值,对18项流量特征中的每一项,选择与该项特征对应的满二叉树,二进制哈希码的位宽为该满二叉树高度,设i=1;选择该二叉树第一层节点的根值root为判断基准。
S34、根据节点的根植,对训练集ASCII码和测试集ASCII码进行判断与循环处理,得到训练集扩展哈希值和测试集扩展哈希值。
S341、根据节点的根植,分别对训练集ASCII码和测试集ASCII码进行判断;
S342、判断到ASCII码大于对应层节点的根植,设置扩展哈希值的第i位宽为“1”;
S343、判断到ASCII码小于或等于对应层节点的根植,设置扩展哈希值的第i位宽为“0”;
S344、每完成一次判断步骤,令i=i+1;
S345、判断到i小于满二叉树的高度时,循环对ASCII码的判断步骤;
S346、判断到i等于满二叉树的高度时,终止ASCII码的判断步骤,输出训练集扩展哈希值和测试集扩展哈希值。
具体地,当ASCII码值大于节点的根植时,二进制拓展哈希码的第i位置1,该节点左树枝lchild为新节点,新节点的根值为新节点的根植;当ASCII码值小于节点的根植时,二进制拓展哈希码的第i位置0,该节点左树枝rchild为新节点的根植,当i小于满二叉树高度时,i=i+1,再次执行S341的判断步骤,最终获得位宽为i的二进制训练集扩展哈希值和二进制测试集扩展哈希值。
S4、根据数据集扩展哈希值对初步的KNN分类模型进行训练,得到训练完成的KNN分类模型。
S41、将训练集数据特征作为KNN分类模型维度,不同训练集流量样本作为KNN分类模型维度的坐标点,训练集扩展哈希值作为KNN分类模型维度的坐标值,构建初步的KNN分类模型;
具体地,对于训练集中的每一个流量样本,构建KNN分类模型,其18个流量特征作为KNN分类模型的18个维度,每一个特征的二进制拓展哈希值为该维度的坐标值,每一个流量样本看作是KNN分类模型中的一个坐标点,流量属性标签则为该点的分类类型,得到200个带流量属性标签的18维坐标点。
S42、对初步的KNN分类模型维度的坐标点个数进行开方计算与取整处理,得到K值;
S43、根据训练集扩展哈希值构建流量样本点。
S44、通过异或运算计算流量样本点与KNN分类模型维度的坐标点之间的距离,得到距离值;
S45、根据距离值与流量样本标签,选取距离值最小时且出现最高频率的流量样本标签对应的流量样本点,作为识别结果;
S46、将对比结果与实际流量属性标签进行判断识别,并计算识别准确率;
S47、选取识别准确率最高时的K值作为训练结果,得到训练完成的KNN分类模型。
具体地,参照图4,所述实际流量属性标签是根据收集数据时,收集的是哪种区块链应用流量得到的,即实际流量标签就是流量所属的区块链应用,分别计算测试集流量样本点与KNN分类模型中所有点之间的距离,距离使用汉明距离,具体计算方法包括对流量样本点与KNN分类模型点的每一维度进行异或运算,统计所有异或运算结果中1的个数,即为两点之间的汉明距离,按照距离的大小对KNN分类模型200个坐标点排序选取距离最小的K个点,K个点中进行准确率的计算,计算过程如下,KNN分类模型的算法是根据与待识别目标点最近的K个点所属类型来判断目标点的类型。K个点中,哪种类型的点最多,则将该点判断为该类型,因此,需要从小到大先选取一个K值,再将训练集中的每一条流量样本作为待识别的目标流量,计算与它最近的K个训练集流量,这K个训练集流量中哪种类型的流量最多,则判断目标流量为该类型。记录当前K取值下,判断类型与实际类型相同的流量数量为m,训练集流量总数设为M,则当前K取值下,流量识别准确率为m/M。根据不同K取值下的识别准确率,选择准确率最高时K的取值作为KNN模型K的最优取值,出现频率最高的流量属性标签作为该流量样本的预测分类,重复S44至S45步骤,每次K增值1,K的上限为训练集样本数量的开方,选取准确率最高时的K,作为该种区块链应用流量识别的K取值,对K的平均值向下取整,作为KNN分类模型的最终K值,统计得到最终K的取值为5。
S47、对测试集扩展哈希值进行赋予标签处理,得到带标签的扩展哈希值并作为测试集流量样本点;
S48、将测试集流量样本点输入训练完成的KNN分类模型进行测试,得到测试结果。
具体地,利用训练完成的KNN分类模型,对测试集拓展哈希值进行分类识别,测试其识别能力,根据计算结果选取测试集流量样本的标签出现最高频率的测试集流量样本点作为流量分类的识别结果,针对于9种区块链应用和非区块链应用流量,本发明提出的方法实现了对实例中10种类型流量的分类识别,且识别准确率不低于80%,具有较强的识别能力。
S5、基于训练完成的KNN分类模型对待测流量数据样本进行分类识别,得到流量分类识别结果。
参照图2,基于扩展哈希和KNN的区块链应用流量识别系统,包括:
获取模块,用于获取数据集流量样本进行特征提取处理和数据转换处理,得到数据集ASCII码;
构建模块,用于根据数据集ASCII码,构建满二叉树;
转换模块,用于通过满二叉树对数据集ASCII码进行转换处理,得到数据集扩展哈希值;
训练模块,用于根据数据集扩展哈希值对预训练的KNN分类模型进行训练,得到KNN分类模型;
识别模块,基于KNN分类对待测流量数据样本进行分类识别,得到流量分类识别结果。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.基于扩展哈希和KNN的区块链应用流量识别方法,其特征在于,包括以下步骤:
获取数据集流量样本进行特征提取处理和数据转换处理,得到数据集ASCII码;
根据数据集ASCII码,构建满二叉树;
通过满二叉树对数据集ASCII码进行转换处理,得到数据集扩展哈希值;
根据数据集扩展哈希值对初步的KNN分类模型进行训练,得到训练完成的KNN分类模型;
基于训练完成的KNN分类模型对待测流量数据样本进行分类识别,得到流量分类识别结果。
2.根据权利要求1所述基于扩展哈希和KNN的区块链应用流量识别方法,其特征在于,所述获取数据集流量样本进行特征提取处理和数据转换处理,得到数据集ASCII码这一步骤,其具体包括:
采集流量数据,选取数据长度大于预设长度的流量数据,得到数据集流量样本;
选取一定数量的数据集流量样本进行赋予标签处理,以赋予标签的流量样本作为训练集流量样本,以未赋予标签的流量样本作为测试集流量样本;
对训练集流量样本和测试集流量样本进行特征提取处理,得到训练集数据特征和测试集数据特征;
对训练集数据特征和测试集数据特征进行统一进制和相加处理,得到训练集ASCII码和测试集ASCII码。
3.根据权利要求2所述基于扩展哈希和KNN的区块链应用流量识别方法,其特征在于,所述根据数据集ASCII码,构建满二叉树这一步骤,其具体包括:
设定满二叉树的高度和满二叉树的循环层;
合并训练集ASCII码作为循环层的节点;
对循环层的节点进行取平均值处理,得到节点的根植;
将节点的根植与训练集ASCII码进行判断,并根据判断结果构建下一循环层的节点;
根据循环条件,对循环层的层数和循环层的节点进行判断,得到判断结果;
判断结果满足循环条件,循环取平均值步骤和构建节点步骤,直至判断结果不满足循环条件,输出满二叉树。
4.根据权利要求3所述基于扩展哈希和KNN的区块链应用流量识别方法,其特征在于,所述将节点的根植与训练集ASCII码进行判断,并根据判断结果构建下一循环层的节点这一步骤,其具体包括:
判断到循环层的节点内的训练集ASCII码大于节点的根植,构建循环层的节点的左树枝;
判断到循环层的节点内的训练集ASCII码小于或等于节点的根植,构建循环层的节点的右树枝;
组合循环层节点的左树枝和循环层节点的右树枝,构建下一循环层的节点。
5.根据权利要求4所述基于扩展哈希和KNN的区块链应用流量识别方法,其特征在于,所述通过满二叉树对数据集ASCII码进行转换处理,得到数据集扩展哈希值这一步骤,其具体包括:
根据测试集数据特征选取对应特征的满二叉树;
根据满二叉树的高度,设定扩展哈希值的位宽;
对下一循环层的节点左树枝内的训练集ASCII码取平均计算,构建下一节点的根植;
根据节点的根植,对训练集ASCII码和测试集ASCII码进行判断与循环处理,得到训练集扩展哈希值和测试集扩展哈希值。
6.根据权利要求5所述基于扩展哈希和KNN的区块链应用流量识别方法,其特征在于,所述根据节点的根植,对训练集ASCII码和测试集ASCII码进行判断与循环处理,得到训练集扩展哈希值和测试集扩展哈希值这一步骤,其具体包括:
根据节点的根植,分别对训练集ASCII码和测试集ASCII码进行判断;
判断到ASCII码大于对应层节点的根植,设置扩展哈希值的第i位宽为“1”;
判断到ASCII码小于或等于对应层节点的根植,设置扩展哈希值的第i位宽为“0”;
每完成一次判断步骤,令i=i+1;
判断到i小于满二叉树的高度时,循环对ASCII码的判断步骤;
判断到i等于满二叉树的高度时,终止ASCII码的判断步骤,输出训练集扩展哈希值和测试集扩展哈希值。
7.根据权利要求6所述基于扩展哈希和KNN的区块链应用流量识别方法,其特征在于,所述根据数据集扩展哈希值对初步的KNN分类模型进行训练,得到训练完成的KNN分类模型这一步骤,其具体包括:
将训练集数据特征作为KNN分类模型维度,不同训练集流量样本作为KNN分类模型维度的坐标点,训练集扩展哈希值作为KNN分类模型维度的坐标值,构建初步的KNN分类模型;
对初步的KNN分类模型维度的坐标点个数进行开方计算与取整处理,得到K值;
根据训练集扩展哈希值构建流量样本点;
通过异或运算计算流量样本点与初步的KNN分类模型维度的坐标点之间的距离,得到距离值;
根据距离值与流量样本标签,选取距离值最小时且出现最高频率的流量样本标签对应的流量样本点,作为识别结果;
将对比结果与实际流量属性标签进行判断识别,并计算识别准确率;
选取识别准确率最高时的K值作为训练结果,得到训练完成的KNN分类模型。
8.根据权利要求7所述基于扩展哈希和KNN的区块链应用流量识别方法,其特征在于,还包括测试步骤:
对测试集扩展哈希值进行赋予标签处理,得到带标签的扩展哈希值并作为测试集流量样本点;
将测试集流量样本点输入训练完成的KNN分类模型进行测试,得到测试结果。
9.基于扩展哈希和KNN的区块链应用流量识别系统,其特征在于,包括以下模块:
获取模块,用于获取数据集流量样本进行特征提取处理和数据转换处理,得到数据集ASCII码;
构建模块,用于根据数据集ASCII码,构建满二叉树;
转换模块,用于通过满二叉树对数据集ASCII码进行转换处理,得到数据集扩展哈希值;
训练模块,用于根据数据集扩展哈希值对初步的KNN分类模型进行训练,得到训练完成的KNN分类模型;
识别模块,基于训练完成的KNN分类模型对待测流量数据样本进行分类识别,得到流量分类识别结果。
CN202210367603.XA 2022-04-08 2022-04-08 基于扩展哈希和knn的区块链应用流量识别方法及系统 Active CN114710451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210367603.XA CN114710451B (zh) 2022-04-08 2022-04-08 基于扩展哈希和knn的区块链应用流量识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210367603.XA CN114710451B (zh) 2022-04-08 2022-04-08 基于扩展哈希和knn的区块链应用流量识别方法及系统

Publications (2)

Publication Number Publication Date
CN114710451A true CN114710451A (zh) 2022-07-05
CN114710451B CN114710451B (zh) 2023-06-23

Family

ID=82172551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210367603.XA Active CN114710451B (zh) 2022-04-08 2022-04-08 基于扩展哈希和knn的区块链应用流量识别方法及系统

Country Status (1)

Country Link
CN (1) CN114710451B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515919A (zh) * 2016-01-20 2016-04-20 中国电子科技集团公司第五十四研究所 一种基于哈希压缩算法的网络流量监控方法
CN108206788A (zh) * 2016-12-16 2018-06-26 中国移动通信有限公司研究院 一种流量的业务识别方法及相关设备
CN109376797A (zh) * 2018-11-20 2019-02-22 大连理工大学 一种基于二进制编码器和多哈希表的网络流量分类方法
CN113849495A (zh) * 2020-06-27 2021-12-28 鹏城实验室 一种点云动态哈希划分方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515919A (zh) * 2016-01-20 2016-04-20 中国电子科技集团公司第五十四研究所 一种基于哈希压缩算法的网络流量监控方法
CN108206788A (zh) * 2016-12-16 2018-06-26 中国移动通信有限公司研究院 一种流量的业务识别方法及相关设备
CN109376797A (zh) * 2018-11-20 2019-02-22 大连理工大学 一种基于二进制编码器和多哈希表的网络流量分类方法
CN113849495A (zh) * 2020-06-27 2021-12-28 鹏城实验室 一种点云动态哈希划分方法及设备

Also Published As

Publication number Publication date
CN114710451B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN110636445B (zh) 基于wifi的室内定位方法、装置、设备及介质
CN114386538B (zh) 一种标记监测指标的kpi曲线的波段特征的方法
CN109376797B (zh) 一种基于二进制编码器和多哈希表的网络流量分类方法
CN103577783A (zh) 一种高效rfid自适应型防碰撞跟踪树算法
CN107943826A (zh) 一种适用于多类字段的高速数据流分类装置及方法
CN110009045A (zh) 物联网终端的识别方法和装置
CN116108384A (zh) 一种神经网络架构搜索方法、装置、电子设备及存储介质
CN113283514B (zh) 一种基于深度学习的未知类别分类方法、装置及介质
CN104598898A (zh) 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法
CN103929499A (zh) 一种物联网异构标识识别方法和系统
CN114710451B (zh) 基于扩展哈希和knn的区块链应用流量识别方法及系统
CN108710912B (zh) 基于二分类机器学习的时序逻辑近似模型检测方法及系统
US7860712B2 (en) Method of storing data in a memory circuit for AHO-corasick type character recognition automaton and corresponding storage circuit
CN115757900A (zh) 应用人工智能模型的用户需求分析方法及系统
CN115936389A (zh) 一种基于大数据技术的评审专家与评审材料的匹配方法
AU2021106594A4 (en) Online anomaly detection method and system for streaming data
CN114143210A (zh) 一种基于深度学习的指挥控制网络关键节点识别方法
CN114298712A (zh) 一种加密货币异常交易检测方法及应用
CN112988797A (zh) 基于p-stable lsh的时空伴随查询方法
CN117762113B (zh) 基于集成模型的自动监控迭代调参方法及系统
CN111444254A (zh) 一种skl系统文件格式转换方法和系统
CN117997650B (zh) 一种基于人工智能的攻击检测系统
CN115913989B (zh) 一种云管理平台的资源保护方法
CN111953701B (zh) 基于多维特征融合和堆栈集成学习的异常流量检测方法
Dong et al. Compound record clustering algorithm for design pattern detection by decision tree learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant