CN116016364A - 一种流量识别方法、模型训练方法及相关装置 - Google Patents

一种流量识别方法、模型训练方法及相关装置 Download PDF

Info

Publication number
CN116016364A
CN116016364A CN202211725549.8A CN202211725549A CN116016364A CN 116016364 A CN116016364 A CN 116016364A CN 202211725549 A CN202211725549 A CN 202211725549A CN 116016364 A CN116016364 A CN 116016364A
Authority
CN
China
Prior art keywords
vpn
traffic
flow
vpn software
cloud server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211725549.8A
Other languages
English (en)
Inventor
罗嘉远
李志泫
许朝阳
白云鹏
陶磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202211725549.8A priority Critical patent/CN116016364A/zh
Publication of CN116016364A publication Critical patent/CN116016364A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例公开了一种流量识别方法、模型训练方法及相关装置,应用于部署在预选地区的流量管理系统,流量识别方法包括:将地理区域信息发送至云端服务器,以指示所述云端服务器根据所述地理区域信息下发与所述地理区域信息对应的虚拟专用网络VPN软件流量识别模型;接收所述云端服务器发送的所述VPN软件流量识别模型;基于所述VPN软件流量识别模型接收所述地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。

Description

一种流量识别方法、模型训练方法及相关装置
技术领域
本申请实施例涉及VPN领域,尤其涉及一种流量识别方法、模型训练方法及相关装置。
背景技术
虚拟专用网络(VPN,virtualprivatenetwork)被定义为通过一个公用网络(通常是因特网)建立一个临时的、安全的连接,是一条穿过混乱的公用网络的安全、稳定的隧道,是一种专用的数据通信网络的技术。为了对某一版本的VPN软件进行VPN流量的识别,现有的方案是通过利用一个固定的流量识别模型来进行识别。
然而,在不同地区的流量特征是有所差别的,现有方案中未考虑不同地区的流量特征的不同,故现有方案中的流量识别模型的对VPN流量的识别效果差,识别不准确,给用户带来较差的体验。
发明内容
本申请实施例提供了一种流量识别方法、模型训练方法及相关装置。
一种流量识别方法,应用于部署在预选地区的流量管理系统,所述方法包括:
将地理区域信息发送至云端服务器,以指示所述云端服务器根据所述地理区域信息下发与所述地理区域信息对应的虚拟专用网络VPN软件流量识别模型;
接收所述云端服务器发送的所述VPN软件流量识别模型;
基于所述VPN软件流量识别模型接收所述地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。
可选的,所述流量管理系统包括采集器,所述采集器中包括爬虫模块以及所述VPN软件,所述方法还包括应用于所述采集器的如下步骤:
根据接收到的VPN软件启动命令,启动所述VPN软件;
通过所述爬虫模块对网站进行访问,并对访问流量进行监听,生成监听流量;
通过所述VPN软件的进程名确定所述VPN软件的源端口号;
基于所述监听流量,根据所述源端口号识别出所述VPN软件产生的流量,并对所述VPN软件产生的流量打上VPN流量标签;
将所述VPN软件产生的流量上传至所述云端服务器,以使得通过所述云端服务器训练出适用于所述预选地区的VPN软件流量识别模型。
一种模型训练方法,包括:
基于云端服务器,获取多个预选地区分别所对应的虚拟专用网络VPN采集流量的流量特征;
基于所述流量特征进行训练得到所述多个预选地区分别所对应的VPN软件流量识别模型;
将所述VPN软件流量识别模型上传至所述云端服务器。
可选的,还包括:
针对每个预选地区的VPN软件流量识别模型:
基于所述云端服务器,获取新的当前VPN流量特征;
获取最新的当前VPN软件流量识别模型,所述当前VPN软件流量识别模型为上一模型训练周期训练得到的模型;
根据所述当前VPN流量特征对所述当前VPN软件流量识别模型进行检测,判断所述当前VPN软件流量识别模型是否失效;
若未失效,则间隔第一时长后,返回所述基于所述云端服务器,获取新的当前VPN流量特征的步骤继续执行;
若已失效,则基于所述当前VPN流量特征进行训练,更新所述当前VPN软件流量识别模型。
可选的,所述基于所述当前VPN流量特征进行训练,更新所述当前VPN软件流量识别模型,包括:
确定第二时长的时间窗口内的VPN流量特征,其中,所述时间窗口内包括所述当前VPN流量特征;
基于所述时间窗口内的VPN流量特征,更新所述当前VPN软件流量识别模型。
一种流量识别装置,应用于部署在预选地区的流量管理系统,所述装置包括:
发送单元,用于将地理区域信息发送至云端服务器,以指示所述云端服务器根据所述地理区域信息下发与所述地理区域信息对应的虚拟专用网络VPN软件流量识别模型;
接收单元,用于接收所述云端服务器发送的所述VPN软件流量识别模型;
识别单元,用于基于所述VPN软件流量识别模型接收所述地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。
一种模型训练装置,包括:
特征单元,用于基于云端服务器,获取多个预选地区分别所对应的虚拟专用网络VPN采集流量的流量特征;
训练单元,用于基于所述流量特征进行训练得到所述多个预选地区分别所对应的VPN软件流量识别模型;
上传单元,用于将所述VPN软件流量识别模型上传至所述云端服务器。
一种流量识别装置,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行前述的方法。
一种模型训练装置,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行前述的方法。
一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行前述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
将地理区域信息发送至云端服务器以接收云端服务器发送的VPN软件流量识别模型,接着基于VPN软件流量识别模型接收地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。预先在多个预选地区进行流量采集以训练得到多个对应地区的VPN软件流量识别模型,然后基于地理区域信息,让云端服务器发送对应地区的VPN软件流量识别模型,利用该模型即可实现VPN软件流量的识别。这样考虑到不同地区的流量特征不同的情况,分地区获取对应的模型,以达到识别效果好,流量识别准确的目的,给用户带来较好的体验。
附图说明
图1为本申请的流量识别方法一个实施例示意图;
图2为本申请的模型训练方法一个实施例示意图;
图3为本申请的总体架构图;
图4为本申请的采集器结构示意图;
图5为本申请的模型训练部分示意图;
图6为本申请的另一实施例示意图;
图7为本申请的模型更新一个实施例示意图;
图8为本申请的模型更新另一实施例示意图;
图9为本申请的流量识别方法另一实施例示意图;
图10为本申请的流量识别方法另一实施例示意图;
图11为本申请的模型训练方法另一实施例示意图;
图12为本申请的模型训练方法另一实施例示意图。
具体实施方式
本申请实施例提供了一种流量识别方法、模型训练方法及相关装置。
现有的方案中,利用一个固定的流量识别模型来对VPN流量进行识别。然而这使得VPN流量的识别效果差,识别不准确。为解决上述问题。本申请提供的流量识别方法、模型训练方法及相关装置能够直接或间接解决上述问题,以给用户带来较好体验。
下面对本申请的流量识别方法、模型训练方法及相关装置进行描述,请参阅图1,本申请的流量识别方法一个实施例,应用于部署在预选地区的流量管理系统,包括:
101、将地理区域信息发送至云端服务器,以指示云端服务器根据地理区域信息下发与地理区域信息对应的虚拟专用网络VPN软件流量识别模型;
将地理区域信息发送至云端服务器,以使得云端服务器能够发送与地理区域信息对应的VPN软件流量识别模型。具体的,预选地区可以有多个,每个地区的有各自对应的地理区域信息,将所需要的地区的地理区域信息发送至云端服务器,以指示云端服务器找到对应的预先训练好的VPN软件流量识别模型。
102、接收云端服务器发送的VPN软件流量识别模型;
接收云端服务器发送的VPN软件流量识别模型。具体的,云端服务器根据地理区域信息找到与该地理区域信息对应的模型后,将该VPN软件流量识别模型发送出去。这样即可获得所需要的地区的VPN软件流量识别模型。
103、基于VPN软件流量识别模型接收地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。
基于VPN软件流量识别模型接收地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。VPN软件流量识别模型与地理区域信息对应,为该地区特定的模型,使用该模型进行VPN流量识别,识别效果较好。
本申请实施例中,将地理区域信息发送至云端服务器以接收云端服务器发送的VPN软件流量识别模型,接着基于VPN软件流量识别模型接收地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。预先在多个预选地区进行流量采集以训练得到多个对应地区的VPN软件流量识别模型,然后基于地理区域信息,让云端服务器发送对应地区的VPN软件流量识别模型,利用该模型即可实现VPN软件流量的识别。这样考虑到不同地区的流量特征不同的情况,分地区获取对应的模型,以达到识别效果好,流量识别准确的目的,给用户带来较好的体验。
请参阅图2,本申请的模型训练方法一个实施例包括:
201、基于云端服务器,获取多个预选地区分别所对应的虚拟专用网络VPN采集流量的流量特征;
基于云端服务器,获取多个预选地区分别所对应的VPN采集流量的流量特征。具体的,可以从云端服务器下载最新的每个预选地区对应的VPN采集流量,再对这些VPN采集流量进行特征提取,得到对应的流量特征,将这些流量特征保存至数据库,并统计相关信息。或者,在采集过程中云端服务器接收的并不是VPN采集流量本身,而是先经过特征提取得到的流量特征,随后直接从云端服务器获取每个预选地区对应的流量特征。
202、基于流量特征进行训练得到多个预选地区分别所对应的VPN软件流量识别模型;
基于流量特征进行训练得到多个预选地区分别所对应的VPN软件流量识别模型。获取每个预选地区对应的流量特征,再依据流量特征各自训练出对应的VPN软件流量识别模型。具体的,使用第一个时间窗口内的流量特征来进行模型训练,以得到VPN软件流量识别模型。其中,时间窗口可根据需求来定义,具体此处不做限定。
203、将VPN软件流量识别模型上传至云端服务器。
得到VPN软件流量识别模型后,将该模型上传至云端服务器。也可以上传至网盘或者选定的服务器上,再进一步根据需求向不同的终端分发,具体此处不做限定。
本实施例中,基于云端服务器获取流量特征后,根据流量特征进行训练得到VPN软件流量识别模型,最后将多个预选地区对应的VPN软件流量识别模型上传至云端服务器。通过每个预选地区对应的流量特征进行训练,得到各自地区对应的VPN软件流量识别模型,能够考虑到不同地区的流量特征不同的情况,分地区训练对应的模型,以在后续的流量识别过程中达到识别效果好,流量识别准确的目的,给用户带来较好的体验。
下面对本申请的流量识别方法及模型训练方法进行具体描述。
请参阅图3,本申请的总体架构主要分为数据采集部分和模型训练部分。其中,流量管理系统中的采集器属于数据采集部分,在预选的多个预选地区分别设置采集器,当地的采集器会定期收集非VPN流量数据和VPN流量数据,并将采集的数据传输至模型训练部分。训练服务器数据模型训练部分,用于利用各地的流量训练出各地对应的最优的VPN软件流量识别模型。
请参阅图4,本申请的采集器又叫宿主机,包括主控单元、爬虫单元和上传单元,主控单元用于对另外两个单元进行控制,以及一些流量删除、计算机重启等基本操作。爬虫单元用于控制VPN软件的开启关闭和VPN协议切换,还有对网站的随机访问和流量监听等。上传单元主要用于将已经打上标签的流量数据进行上传。宿主机为部署在物理主机中的隔离组件(比如虚拟机或容器),每个宿主机可以部署一个或多个VPN软件。本实施例中,采集器以天为单位进行流量采集。
请参阅图5,本申请的模型训练部分包括数据下载、数据处理、失效检测和模型构建。具体的,采集器采集的流量会上传至网盘或云端服务器,从网盘或云端服务器获取流量后进行特征提取,再进行预处理,以进行模型的失效检测,若失效则进行比例采样以训练出符合条件的模型。
请参阅图6,本申请的另一实施例包括:
601、根据接收到的VPN软件启动命令,启动VPN软件;
根据接收到的VPN软件启动命令,启动VPN软件。具体的,流量管理系统中的采集器接收VPN软件启动命令,根据启动命令中的参数开启指定的VPN软件和VPN协议。可以根据VPN软件的绝对路径或相对路径来自动开启VPN软件,具体此处不做限定。对于VPN协议的修改,则需根据不同的VPN软件进行适配,面对协议配置文件为明文的VPN软件,可直接修改文件来修改协议,面对协议配置文件为密文的VPN软件,可以模拟键鼠操作来进行协议修改。另外,VPN软件启动后,会同时启动端口监听、流量监听和网站爬虫。
602、通过爬虫模块对网站进行访问,并对访问流量进行监听,生成监听流量;
爬虫模块启动后,通过爬虫模块对网站进行访问,并对访问流量进行监听,生成监听流量。其中,可利用工具(selenium+chromedriver)对各个网站进行随机访问,生成访问流量。同时对访问流量进行监听,以得到监听流量,监听流量以PCAP文件的形式存在。具体的,可利用VPN软件的协议的先验特征进行监听,得到监听流量,例如有些协议只有TCP的流,有些协议端口号为443,可将先验特征转化为柏克莱封包过滤器(BPF,berkeleypacketfilter)语句来进行监听,以得到更少的流量。
603、通过VPN软件的进程名确定VPN软件的源端口号;
通过VPN软件的进程名确定VPN软件的源端口号。具体的,先通过VPN软件的进程名找到对应的进程识别号(PID,processidentification),再利用进程识别号查找进程申请的源端口号,可基于预设的轮询时间段记录端口的开启时间戳和关闭时间戳,其中,轮询时间段可有多段,每一段可相同可不相同,例如设为每秒轮询模式。最终可得到包括源端口号和与该源端口号对应的时间戳列表的JSON格式文件。
604、基于监听流量,根据源端口号识别出VPN软件产生的流量,并对VPN软件产生的流量打上VPN流量标签;
基于监听流量,根据源端口号识别出VPN软件产生的流量,并对VPN软件产生的流量打上VPN流量标签。具体的,根据源端口号及对应的时间戳数据对监听流量进行过滤,过滤得到以PCAP格式文件存在的VPN软件产生的流量,并对该流量打上对应的VPN流量标签。其中,标签分一级标签和二级标签,一级标签用于指明流量是否为VPN流量,二级流量用于表示流量的其他属性,如对应的VPN软件名、日期或地点等。
605、将VPN软件产生的流量上传至云端服务器,以使得通过云端服务器训练出适用于预选地区的VPN软件流量识别模型;
将VPN软件产生的流量上传至云端服务器,以使得通过云端服务器训练出适用于预选地区的VPN软件流量识别模型。具体的,可利用共享文件夹上传到云端服务器,以给后续的模型训练提供前提条件。
606、基于云端服务器,获取多个预选地区分别所对应的虚拟专用网络VPN采集流量的流量特征;
基于云端服务器,获取多个预选地区分别所对应的VPN采集流量的流量特征。具体的,可以从云端服务器下载最新的每个预选地区对应的VPN采集流量,再对这些VPN采集流量进行特征提取,得到对应的流量特征,将这些流量特征保存至数据库,并统计相关信息。或者,在采集过程中云端服务器接收的并不是VPN采集流量本身,而是先经过特征提取得到的流量特征,随后直接从云端服务器获取每个预选地区对应的流量特征。
607、基于流量特征进行训练得到多个预选地区分别所对应的VPN软件流量识别模型;
基于流量特征进行训练得到多个预选地区分别所对应的VPN软件流量识别模型。获取每个预选地区对应的流量特征,再依据流量特征各自训练出对应的VPN软件流量识别模型。具体的,使用第一个时间窗口内的流量特征来进行模型训练,以得到VPN软件流量识别模型。其中,时间窗口可根据需求来定义,具体此处不做限定。
608、将VPN软件流量识别模型上传至云端服务器;
得到VPN软件流量识别模型后,将该模型上传至云端服务器。也可以上传至网盘或者选定的服务器上,再进一步根据需求向不同的终端分发,具体此处不做限定。
609、基于新的当前VPN流量特征以决定是否更新当前的VPN软件流量识别模型;
基于新的当前VPN流量特征以决定是否更新当前的VPN软件流量识别模型。进一步的,基于云端服务器,获取新的当前VPN流量特征。获取最新的当前VPN软件流量识别模型,其中,当前VPN软件流量识别模型为上一模型训练周期训练得到的模型。接着根据当前VPN流量特征对当前VPN软件流量识别模型进行检测,判断当前VPN软件流量识别模型是否失效,若未失效,则不对当前VPN软件流量识别模型进行处理,间隔第一时长重新获取新的当前VPN流量特征;若已失效,则确定第二时长的时间窗口内的VPN流量特征,其中,时间窗口内包括当前VPN流量特征,再基于时间窗口内的VPN流量特征,更新当前VPN软件流量识别模型。
具体的,下载好新的当前VPN流量特征后,利用当前VPN流量特征对本地保存的最新的当前的VPN软件流量识别模型进行失效检测。根据预设的各项评价指标判断模型是否失效,如误报率是否高于90%等,若未失效,则继续使用该模型,若失效,则标记模型为失效,并将识别结果保存至日志。接着检查检测日志中是否有标记为失效的模型,并检查是否存在流量特征已满足时间窗口的日期数但对应模型未训练的情况,将所需要训练的模型添加到训练列表中。针对每一个需要训练的模型,根据对应的时间窗口、流量特征和相关信息,对需求范围内不同日期的流量特征按预设比例进行采样。采样后构建数据集,在预设的参数范围内利用数据集对模型进行训练。,并将各项参数信息进行保存。对训练完成的VPN软件流量识别模型进行评判,若各项指标过差,如检出率小于95%等,则调整训练的参数范围和不同日期的流数比例,重新安排该模型的训练,直至训练完成。训练完成后,将VPN软件流量识别模型上传至云端服务器。
下面提供两种VPN软件流量识别模型更新的具体方式。
1.请参阅图7,t表示一个时间窗口及对应范围的流量特征,d表示一天的流量特征。先利用第一个时间窗口t1的流量特征训练出第一个模型model1。在①②③中,model1是最新的当前的模型。在①中,最新流量特征为d1,利用d1对model1进行检测,model1对d1的检出率和误报率大于预设阈值,则model1仍是最新模型。在②中,最新流量特征为d2,利用d2对model1进行检测,model1对d2的检出率和误报率仍大于预设阈值,则model1仍是最新模型。在③中,di为最新的流量特征,利用di对model1进行检测,model1对di的检出率和误报率小于预设阈值,则model1从④开始不是最新模型。接着,在④中,滑动时间窗口,使用包括di在内的最新的时间窗口t2来训练得到最新模型model2。在⑤中,最新流量特征为新的d1,最新模型为model2,重复以上过程,此处不再赘述。
2.请参阅图8,t表示一个时间窗口及对应范围的流量特征,trainingperiod表示一个训练周期。先利用第一个时间窗口t1的流量特征训练出第一个模型model1。接着,隔一个训练周期,时间窗口便自动滑动以覆盖最新的流量特征,形成第二个时间窗口t2,利用t2内的流量特征进行训练得到model2,接着再隔一个训练周期形成第三个时间窗口t3,训练得到model3,接着是t4和model4,依次类推,此处不再赘述。
610、将地理区域信息发送至云端服务器,以指示云端服务器根据地理区域信息下发与地理区域信息对应的虚拟专用网络VPN软件流量识别模型;
将地理区域信息发送至云端服务器,以使得云端服务器能够发送与地理区域信息对应的VPN软件流量识别模型。具体的,预选地区可以有多个,每个地区的有各自对应的地理区域信息,将所需要的地区的地理区域信息发送至云端服务器,以指示云端服务器找到对应的预先训练好的VPN软件流量识别模型。
611、接收云端服务器发送的VPN软件流量识别模型;
接收云端服务器发送的VPN软件流量识别模型。具体的,云端服务器根据地理区域信息找到与该地理区域信息对应的模型后,将该VPN软件流量识别模型发送出去。这样即可获得所需要的地区的VPN软件流量识别模型。
612、基于VPN软件流量识别模型接收地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。
基于VPN软件流量识别模型接收地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。VPN软件流量识别模型与地理区域信息对应,为该地区特定的模型,使用该模型进行VPN流量识别,识别效果较好。
本实施例中,分地理区域分别训练各自区域的模型后,将地理区域信息发送至云端服务器以接收云端服务器发送的VPN软件流量识别模型,接着基于VPN软件流量识别模型接收地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。预先在多个预选地区进行流量采集以训练得到多个对应地区的VPN软件流量识别模型,然后基于地理区域信息,让云端服务器发送对应地区的VPN软件流量识别模型,利用该模型即可实现VPN软件流量的识别。这样考虑到不同地区的流量特征不同的情况,分地区获取对应的模型,以达到识别效果好,流量识别准确的目的,给用户带来较好的体验。
下面对本申请的流量识别装置和模型训练装置进行描述。请参阅图9,本申请的流量识别装置一个实施例,应用于部署在预选地区的流量管理系统,装置包括:
发送单元901,用于将地理区域信息发送至云端服务器,以指示所述云端服务器根据所述地理区域信息下发与所述地理区域信息对应的虚拟专用网络VPN软件流量识别模型;
接收单元902,用于接收所述云端服务器发送的所述VPN软件流量识别模型;
识别单元903,用于基于所述VPN软件流量识别模型接收所述地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。
本申请实施例中,发送单元901将地理区域信息发送至云端服务器以使得接收单元902接收云端服务器发送的VPN软件流量识别模型,接着识别单元903基于VPN软件流量识别模型接收地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。预先在多个预选地区进行流量采集以训练得到多个对应地区的VPN软件流量识别模型,然后基于地理区域信息,让云端服务器发送对应地区的VPN软件流量识别模型,利用该模型即可实现VPN软件流量的识别。这样考虑到不同地区的流量特征不同的情况,分地区获取对应的模型,以达到识别效果好,流量识别准确的目的,给用户带来较好的体验。
本实施例流量识别装置中各单元所执行的功能以及流程与前述图1、图3、图4和图6中流量识别装置所执行的功能和流程类似,此处不再赘述。
图10是本申请实施例提供的一种流量识别装置结构示意图,该流量识别装置1000可以包括一个或一个以上中央处理器(centralprocessingunits,CPU)1001和存储器1005,该存储器1005中存储有一个或一个以上的应用程序或数据。
其中,存储器1005可以是易失性存储或持久存储。存储在存储器1005的程序可以包括一个或一个以上模块,每个模块可以包括对流量识别装置中的一系列指令操作。更进一步地,中央处理器1001可以设置为与存储器1005通信,在流量识别装置1000上执行存储器1005中的一系列指令操作。
流量识别装置1000还可以包括一个或一个以上电源1002,一个或一个以上有线或无线网络接口1003,一个或一个以上输入输出接口1004,和/或,一个或一个以上操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器1001可以执行前述图1、图3、图4和图6所示实施例中流量识别装置所执行的操作,具体此处不再赘述。
请参阅图11,本申请的模型训练装置一个实施例包括:
特征单元1101,用于基于云端服务器,获取多个预选地区分别所对应的虚拟专用网络VPN采集流量的流量特征;
训练单元1102,用于基于所述流量特征进行训练得到所述多个预选地区分别所对应的VPN软件流量识别模型;
上传单元1103,用于将所述VPN软件流量识别模型上传至所述云端服务器。
本实施例中,特征单元1101基于云端服务器获取流量特征后,训练单元1102根据流量特征进行训练得到VPN软件流量识别模型,最后上传单元1103将多个预选地区对应的VPN软件流量识别模型上传至云端服务器。通过每个预选地区对应的流量特征进行训练,得到各自地区对应的VPN软件流量识别模型,能够考虑到不同地区的流量特征不同的情况,分地区训练对应的模型,以在后续的流量识别过程中达到识别效果好,流量识别准确的目的,给用户带来较好的体验。
本实施例模型训练装置中各单元所执行的功能以及流程与前述图2、图3、图5、图6、图7和图8中模型训练装置所执行的功能和流程类似,此处不再赘述。
图12是本申请实施例提供的一种模型训练装置结构示意图,该模型训练装置1200可以包括一个或一个以上中央处理器(centralprocessingunits,CPU)1201和存储器1205,该存储器1205中存储有一个或一个以上的应用程序或数据。
其中,存储器1205可以是易失性存储或持久存储。存储在存储器1205的程序可以包括一个或一个以上模块,每个模块可以包括对模型训练装置中的一系列指令操作。更进一步地,中央处理器1201可以设置为与存储器1205通信,在模型训练装置1200上执行存储器1205中的一系列指令操作。
模型训练装置1200还可以包括一个或一个以上电源1202,一个或一个以上有线或无线网络接口1203,一个或一个以上输入输出接口1204,和/或,一个或一个以上操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器1201可以执行前述图2、图3、图5、图6、图7和图8所示实施例中模型训练装置所执行的操作,具体此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令以使得计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,randomaccessmemory)、磁碟或者光盘等各种可存储代码的介质。

Claims (10)

1.一种流量识别方法,其特征在于,应用于部署在预选地区的流量管理系统,所述方法包括:
将地理区域信息发送至云端服务器,以指示所述云端服务器根据所述地理区域信息下发与所述地理区域信息对应的虚拟专用网络VPN软件流量识别模型;
接收所述云端服务器发送的所述VPN软件流量识别模型;
基于所述VPN软件流量识别模型接收所述地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。
2.根据权利要求1所述的流量识别方法,其特征在于,所述流量管理系统包括采集器,所述采集器中包括爬虫模块以及所述VPN软件,所述方法还包括应用于所述采集器的如下步骤:
根据接收到的VPN软件启动命令,启动所述VPN软件;
通过所述爬虫模块对网站进行访问,并对访问流量进行监听,生成监听流量;
通过所述VPN软件的进程名确定所述VPN软件的源端口号;
基于所述监听流量,根据所述源端口号识别出所述VPN软件产生的流量,并对所述VPN软件产生的流量打上VPN流量标签;
将所述VPN软件产生的流量上传至所述云端服务器,以使得通过所述云端服务器训练出适用于所述预选地区的VPN软件流量识别模型。
3.一种模型训练方法,其特征在于,包括:
基于云端服务器,获取多个预选地区分别所对应的虚拟专用网络VPN采集流量的流量特征;
基于所述流量特征进行训练得到所述多个预选地区分别所对应的VPN软件流量识别模型;
将所述VPN软件流量识别模型上传至所述云端服务器。
4.根据权利要求3所述的模型训练方法,其特征在于,还包括:
针对每个预选地区的VPN软件流量识别模型:
基于所述云端服务器,获取新的当前VPN流量特征;
获取最新的当前VPN软件流量识别模型,所述当前VPN软件流量识别模型为上一模型训练周期训练得到的模型;
根据所述当前VPN流量特征对所述当前VPN软件流量识别模型进行检测,判断所述当前VPN软件流量识别模型是否失效;
若未失效,则间隔第一时长后,返回所述基于所述云端服务器,获取新的当前VPN流量特征的步骤继续执行;
若已失效,则基于所述当前VPN流量特征进行训练,更新所述当前VPN软件流量识别模型。
5.根据权利要求4所述的模型训练方法,其特征在于,所述基于所述当前VPN流量特征进行训练,更新所述当前VPN软件流量识别模型,包括:
确定第二时长的时间窗口内的VPN流量特征,其中,所述时间窗口内包括所述当前VPN流量特征;
基于所述时间窗口内的VPN流量特征,更新所述当前VPN软件流量识别模型。
6.一种流量识别装置,其特征在于,应用于部署在预选地区的流量管理系统,所述装置包括:
发送单元,用于将地理区域信息发送至云端服务器,以指示所述云端服务器根据所述地理区域信息下发与所述地理区域信息对应的虚拟专用网络VPN软件流量识别模型;
接收单元,用于接收所述云端服务器发送的所述VPN软件流量识别模型;
识别单元,用于基于所述VPN软件流量识别模型接收所述地理区域信息对应的地区的流量,以识别出VPN软件发送的流量。
7.一种模型训练装置,其特征在于,包括:
特征单元,用于基于云端服务器,获取多个预选地区分别所对应的虚拟专用网络VPN采集流量的流量特征;
训练单元,用于基于所述流量特征进行训练得到所述多个预选地区分别所对应的VPN软件流量识别模型;
上传单元,用于将所述VPN软件流量识别模型上传至所述云端服务器。
8.一种流量识别装置,其特征在于,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至2任一项所述的方法。
9.一种模型训练装置,其特征在于,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求3至5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至5任一项所述的方法。
CN202211725549.8A 2022-12-30 2022-12-30 一种流量识别方法、模型训练方法及相关装置 Pending CN116016364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211725549.8A CN116016364A (zh) 2022-12-30 2022-12-30 一种流量识别方法、模型训练方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211725549.8A CN116016364A (zh) 2022-12-30 2022-12-30 一种流量识别方法、模型训练方法及相关装置

Publications (1)

Publication Number Publication Date
CN116016364A true CN116016364A (zh) 2023-04-25

Family

ID=86027941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211725549.8A Pending CN116016364A (zh) 2022-12-30 2022-12-30 一种流量识别方法、模型训练方法及相关装置

Country Status (1)

Country Link
CN (1) CN116016364A (zh)

Similar Documents

Publication Publication Date Title
US20240012707A1 (en) Log analysis in vector space
CN111935172B (zh) 基于网络拓扑的网络异常行为检测方法、计算机装置及计算机可读存储介质
WO2017066359A1 (en) Determining direction of network sessions
CN108900374B (zh) 一种应用于dpi设备的数据处理方法和装置
CN109361573A (zh) 流量日志分析方法、系统及计算机可读存储介质
CN103490937A (zh) 监控数据过滤方法及装置
CN107645480B (zh) 数据监控方法及系统、装置
CN111222547B (zh) 一种面向移动应用的流量特征提取方法及系统
CN113572757B (zh) 服务器访问风险监测方法及装置
CN111869178A (zh) 近实时ip用户映射的方法和系统
CN110932918A (zh) 日志数据采集方法、装置及存储介质
CN109144837B (zh) 一种支持精准服务推送的用户行为模式识别方法
CN113589729A (zh) 一种智慧楼宇自控方法及装置
CN113381907A (zh) 日志采集方法及装置、电子设备、存储介质
CN112448963A (zh) 分析自动攻击工业资产的方法、装置、设备及存储介质
CN116016364A (zh) 一种流量识别方法、模型训练方法及相关装置
US11928013B2 (en) Image analysis of data logs
CN109492655B (zh) 一种特征提取方法、装置及终端
CN116032850A (zh) 一种流量识别方法及相关装置
CN106209505A (zh) 一种应用识别装置及方法、防火墙、服务器
CN109525586B (zh) 基于url的安全策略配置方法和装置
Lin et al. Netdetector: an anomaly detection platform for networked systems
CN107592214B (zh) 一种识别互联网应用系统登录用户名的方法
CN115086136B (zh) 基于简单网络管理协议的数据采集与处理方法及装置
CN113727330B (zh) 一种基于td-lte移动通信系统的用户信息处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination