CN116738369A - 一种流量数据的分类方法、装置、设备及存储介质 - Google Patents
一种流量数据的分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116738369A CN116738369A CN202310764671.4A CN202310764671A CN116738369A CN 116738369 A CN116738369 A CN 116738369A CN 202310764671 A CN202310764671 A CN 202310764671A CN 116738369 A CN116738369 A CN 116738369A
- Authority
- CN
- China
- Prior art keywords
- data
- network
- classification
- preset
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000010801 machine learning Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 239000000523 sample Substances 0.000 claims description 20
- 230000006854 communication Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 15
- 230000002159 abnormal effect Effects 0.000 claims description 14
- 239000004973 liquid crystal related substance Substances 0.000 claims description 7
- 238000001514 detection method Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000009193 crawling Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 101001094649 Homo sapiens Popeye domain-containing protein 3 Proteins 0.000 description 1
- 101000608234 Homo sapiens Pyrin domain-containing protein 5 Proteins 0.000 description 1
- 101000578693 Homo sapiens Target of rapamycin complex subunit LST8 Proteins 0.000 description 1
- 102100027802 Target of rapamycin complex subunit LST8 Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000013503 de-identification Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2111—Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
Abstract
本发明涉及计算机技术领域,公开了一种流量数据的分类方法、装置、设备及存储介质。该方法包括:获取网络流量和对应的访问日志,并根据预设数据维度获取数据维度特征;根据访问日志对应的网络访问信息,获取网络数据,并在检测到网络数据为加密数据时,基于预设机器学习算法获取网络数据匹配的业务特征;对网络数据进行内容智能解析,以获取内容特征;根据数据维度特征、业务特征和内容特征,以及预设分类分级规则集,获取网络流量对应的流量分类。本实施例的技术方案,根据访问日志对应的网络访问信息采集网络数据,并根据访问日志对应的数据维度特征和网络数据对应的业务特征和内容特征确定流量分类,可以提升流量数据的分类准确度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种流量数据的分类方法、装置、设备及存储介质。
背景技术
数据安全对于保障国家安全、保护企业商业秘密和保护个人合法权益至关重要,而针对网络数据的分级分类,是实现数据有效管理和利用,以及保障数据安全的基础。
目前,现有的网络流量分类方法,通常采用预训练的机器学习模型对采集的网络流量进行处理,以获取对应的流量分类分级;然而,在现有技术中,需要预先采集大量的数据样本对机器学习模型进行训练,导致花费的时间成本较高;其次,仅基于当前采集的网络流量自身确定流量分类,易导致分类的准确度较低,出现分类误判的情况。
发明内容
本发明提供了一种流量数据的分类方法、装置、设备及存储介质,可以降低网络流量分类的时间成本,可以提升流量数据的分类准确度,避免分类误判的情况。
根据本发明的一方面,提供了一种流量数据的分类方法,包括:
通过预部署的流量采集探针,获取网络流量,并获取所述网络流量对应的访问日志;
根据预设数据维度对所述访问日志进行划分,以获取至少一个日志数据集,以及各所述日志数据集对应的数据维度特征;
根据所述访问日志对应的网络访问信息,获取所述访问日志对应的网络数据,并在检测到所述网络数据为加密数据时,基于预设机器学习算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征;
对所述网络数据进行内容智能解析,以获取所述网络数据匹配的内容特征;
根据各所述日志数据集对应的数据维度特征和所述访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,获取所述网络流量对应的流量分类。
根据本发明的另一方面,提供了一种流量数据的分类装置,包括:
访问日志获取模块,用于通过预部署的流量采集探针,获取网络流量,并获取所述网络流量对应的访问日志;
数据维度特征获取模块,用于根据预设数据维度对所述访问日志进行划分,以获取至少一个日志数据集,以及各所述日志数据集对应的数据维度特征;
业务特征获取模块,用于根据所述访问日志对应的网络访问信息,获取所述访问日志对应的网络数据,并在检测到所述网络数据为加密数据时,基于预设机器学习算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征;
内容特征获取模块,用于对所述网络数据进行内容智能解析,以获取所述网络数据匹配的内容特征;
流量分类获取模块,用于根据各所述日志数据集对应的数据维度特征和所述访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,获取所述网络流量对应的流量分类。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的流量数据的分类方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的流量数据的分类方法。
本发明实施例的技术方案,首先,通过预部署的流量采集探针,获取网络流量,并获取网络流量对应的访问日志;然后,根据预设数据维度对访问日志进行划分,以获取多个日志数据集,以及各日志数据集对应的数据维度特征;其次,根据访问日志对应的网络访问信息,获取访问日志对应的网络数据,并在检测到网络数据为加密数据时,基于预设机器学习算法对网络数据进行业务特征提取,以获取网络数据匹配的业务特征;进一步的,对网络数据进行内容智能解析,以获取网络数据匹配的内容特征;最后,根据各日志数据集对应的数据维度特征和访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,获取网络流量对应的流量分类;通过根据访问日志对应的网络访问信息采集网络数据,并根据访问日志对应的数据维度特征和网络数据对应的业务特征和内容特征确定流量分类,可以降低网络流量分类的时间成本,可以提升流量数据的分类准确度,避免分类误判的情况。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是根据本发明实施例一提供的一种流量数据的分类方法的流程图;
图1B是根据本发明实施例一提供的基于APK静态检测加动态检测相结合实现业务特征提取的流程示意图;
图1C是根据本发明实施例一提供的静态检测加动态检测示意图;
图1D是根据本发明实施例一提供的采用预设字段内容提取方式实现业务特征提取的流程示意图;
图1E是根据本发明实施例一提供的自动化运营报告示意图;
图1F是根据本发明实施例一提供的敏感APP协议识别的流程示意图;
图1G是根据本发明实施例一提供的基于协议行为识别模型实现敏感APP数据流识别的流程示意图;
图1H是根据本发明实施例一提供的另一种流量数据的分类方法的流程图;
图2是根据本发明实施例二提供的一种流量数据的分类装置的结构示意图;
图3是实现本发明实施例的流量数据的分类方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1A为本发明实施例一提供了一种流量数据的分类方法的流程图,本实施例可适用于对互联网数据中心流量进行分级分类的情况,该方法可以由流量数据的分类装置来执行,该流量数据的分类装置可以采用硬件和/或软件的形式实现,典型的,该流量数据的分类装置可配置于电子设备中,例如,计算机设备或者服务器等。如图1A所示,该方法包括:
S110、通过预部署的流量采集探针,获取网络流量,并获取所述网络流量对应的访问日志。
在本实施例中,可以在互联网数据中心(Internet Data Center,IDC)出口部署流量采集探针,以获取IDC流量作为网络流量;然后,可以通过预设的流量解析引擎,例如,Persues引擎等,基于网络流量对应的通信协议对该网络流量进行解码,以获取其对应的访问日志。
典型的,可以基于HTTP(HyperText Transfer Protocol,超文本传输协议)、POP3(Post Office Protocol version 3,第三代电子邮局传输协议)、SMTP(Simple MailTransfer Protocol,简单邮件传输协议)等多种通用应用层协议、VPN(Virtual PrivateNetwork,虚拟专用网络)协议、工业互联网协议、车联网协议等100余种不同协议对网络流量进行解析。
其中,访问日志,用于记录用户的网络访问信息,例如,可以包括用户身份信息(用户姓名、身份证号等)、源IP地址、源端口号、目的IP地址、目的端口号和统一资源定位符(Uniform Resource Locator,URL)地址等内容。
需要说明的是,在进行网络流量采集和分析之前,需要预先经过用户的授权同意,在成功获取用户的授权同意后,可以通过预部署的流量采集探针进行网络流量采集。
S120、根据预设数据维度对所述访问日志进行划分,以获取至少一个日志数据集,以及各所述日志数据集对应的数据维度特征。
其中,预设数据维度可以包括应用程序编程(Application ProgrammingInterface,API)接口、系统名称和/或企业名称。在本实施例中,针对访问日志,可以通过API接口、系统名称或者企业名称等维度进行聚类汇总,以形成日志数据集,同时可以针对每个日志数据集对应的数据维度,提取每个日志数据集对应的特征值,以作为数据维度特征;例如,日志数据集对应的API接口地址和接口标识等。
在一个具体的例子中,可以基于IP地址和端口号,对访问日志进行聚合,即将具有相同IP地址和端口号的访问日志形成一个数据集,以获取系统清单和系统API清单;同时,可以将IP地址和端口号,作为相应清单对应的数据维度特征。
S130、根据所述访问日志对应的网络访问信息,获取所述访问日志对应的网络数据,并在检测到所述网络数据为加密数据时,基于预设机器学习算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征。
在一个具体的例子中,可以根据网络访问信息中的IP地址、端口号和URL地址进行应用数据或者网站数据爬取,以获取访问日志对应的网络数据,例如,网页标题、用户信息、网页内容等。
可选的,可以基于全国APP(Application,应用程序)注册数量、应用商店数量、APP监控情况等形成城市的APP画像,并通过主动探测引擎或者AI分析引擎,识别网络环境里各类APP资产;进一步的,可以实现开发者名称、开发者办公地、开发者注册地等多维度的关联分析,并可以确定APP的地理位置。其次,在进行应用数据爬取时,可以配置爬取应用商店范围、爬取频率等信息。
需要说明的是,为加强数据安全和保护数据隐私,对网络数据进行加密正变得越发普遍。因此,在获取到网络数据之后,可以先对网络数据进行是否加密的判断,若确定不是加密数据,则可以直接采用规则匹配的方式,提取加密数据对应的业务特征;而若为加密数据,则可以基于预设的机器学习算法,例如,指纹算法、卷积神经网络算法等,提取得到网络数据匹配的业务特征。
其中,业务特征,可以包括企业域名、业务域名、业务画像、应用程序名称、是否是敏感应用程序等。
S140、对所述网络数据进行内容智能解析,以获取所述网络数据匹配的内容特征。
在本实施例中,在获取到网络数据之后,还可以进一步针对网络数据进行内容特征提取;具体的,可以通过预训练的随机性偏差模型(Divergence From Randomness,DFR),或者基于差异的独立性模型(Divergence From Independence,DFI)对网络数据中的cookie或者URL等内容进行智能解析,以提取得到网络数据匹配的内容特征。
其中,内容特征,可以包括直播、视频、音乐、图片、小说、商品等内容数据和相关介绍,以及用户信息,例如账号名、浏览记录、会员信息、用户使用时长、使用流量等信息。
S150、根据各所述日志数据集对应的数据维度特征和所述访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,获取所述网络流量对应的流量分类。
其中,预设分类分级规则集,可以是预建立的数据分类分级规则库,可以包括个人信息分类规则、通信业数据分类规则、工业互联网分类规则、车联网分类规则、即时通信分类规则、基础电信企业分类规则和重要数据分类规则中的至少一项。
在本实施例中,基于各行业的数据特点,可以预先构建各流量分类对应的分类规则,从而组合形成分类分级规则集;其中,各分类规则,可以是流量分类、数据维度特征、业务特征和内容特征之间的映射关系。在一个具体的例子中,在获取到当前网络流量对应的数据维度特征、业务特征和内容特征之后,可以通过查找预设分类分级规则集中各分类规则,以获取当前网络流量对应的流量分类。其中,流量分类,可以是网络流量所属的行业,例如,通信业数据、工业互联网、车联网等。
典型的,个人信息分类可以包括姓名、手机号、身份证、邮箱或者银行卡号等,车联网分类可以包括车牌号、车架号、车辆型号或者位置信息等,工业互联网分类可以包括工业设备、工业APP、工业图纸、工业文件等,重要数据分类可以包括云服务、电子商务、金融、征信、气象、医疗卫生等,数据异常行为分类可以包括数据跨境传输、数据明文传输、API接口未授权等。例如,当检测到内容特征中一项数据的长度等于身份证号长度,且符合身份证号规则,则可以确定当前网络流量属于个人信息分类。
可选的,在本实施例中,当确定网络流量对应的流量分类为数据异常行为时,还可以生成网络流量对应的数据异常告警,并将数据异常告警发送至指定用户。其中,数据异常告警,可以包括网络流量和异常类型,例如,数据跨境传输、数据明文传输等。
本发明实施例的技术方案,首先,通过预部署的流量采集探针,获取网络流量,并获取网络流量对应的访问日志;然后,根据预设数据维度对访问日志进行划分,以获取多个日志数据集,以及各日志数据集对应的数据维度特征;其次,根据访问日志对应的网络访问信息,获取访问日志对应的网络数据,并在检测到网络数据为加密数据时,基于预设机器学习算法对网络数据进行业务特征提取,以获取网络数据匹配的业务特征;进一步的,对网络数据进行内容智能解析,以获取网络数据匹配的内容特征;最后,根据各日志数据集对应的数据维度特征和访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,获取网络流量对应的流量分类;通过根据访问日志对应的网络访问信息采集网络数据,并根据访问日志对应的数据维度特征和网络数据对应的业务特征和内容特征确定流量分类,可以降低网络流量分类的时间成本,可以提升流量数据的分类准确度,避免分类误判的情况。
在本实施例的一个可选的实施方式中,在根据所述访问日志对应的网络访问信息,获取所述访问日志对应的网络数据之后,还可以包括:
若检测到所述网络数据为非加密数据,则基于预设规则识别算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征。
在一个具体的例子中,当网络数据为非加密数据时,可以采用预设字段内容提取,或者安卓安装包(Android application package,APK)静态检测加动态检测相结合等方式进行业务特征提取,以获取网络数据匹配的业务特征。其中,业务特征可以包括HASH、签名、包名、类名、域名、服务器等全维度特征。
具体的,基于APK静态检测加动态检测相结合的业务特征提取流程可以如图1B所示。其中,可以利用静态或者动态引擎直接对APK进行定时检测,并可以根据检测结果生成自动化报告。典型的,自动化报告可以包括权限列表、第三方SDK、潜在API调用、联网行为、API调用和文件操作等内容。同时,还可以先对APK进行反编译以获取源码,并采用人工方式对源码进行检测,以判断是否非法采集用户隐私。最后,可以基于人工检测结果和自动化报告,生成最终的输出报告。
其中,静态检测加动态检测可以如图1C所示。在本实施例中,可以采用敏感权限、敏感API函数调用序列、文件名字符串、So文件名称、文件大小以及文件权限特征等多种可以反映Android恶意程序行为的特征,判断APP是否属于敏感APP。具体的,可以通过随机森林算法和XGBOOST算法进行二分类判断,并可以通过卷积神经网络和K-means聚类进行多分类识别,以及通过异常检测发现未知类型的黑样本,多种算法的结果可以互相印证。识别结果经过验证后可加入样本集迭代训练,以实现模型的在线更新。
在一个具体的例子中,采用预设字段内容提取方式的业务特征提取流程可以如图1D所示。针对HTTPS数据,可以采用指令dynamic Net Content:“contacts”对contact进行搜索,并可以判断搜索结果中是否包含上传用户隐私;例如,软件A上传了用户的应用列表等信息,软件B上传了用户的通讯录信息。由此,可以实现HTTP识别。
在本实施例的另一个可选的实施方式中,在获取所述网络流量对应的流量分类之后,还可以包括:
根据所述流量分类对所述网络流量进行聚类处理,以获取至少一个聚类数据集;
根据各所述聚类数据集和预设报告模板,生成自动化运营报告。
在一个具体的例子中,可以将对应相同流量分类的网络流量添加到一个聚类数据集,以生成多个聚类数据集,每个聚类数据集对应一个流量分类。例如,聚类数据集可以包括API接口聚类、系统聚类或者企业聚类等。进一步的,可以获取预设报告模板中的各数据项,并可以基于各聚类数据集统计得到各数据项对应的数据值(例如,发现IP数量、应用系统数量和API接口数量,以及敏感数据数量、涉及应用系统数量和API接口数量等);然后,可以将各数据值填充至对应的数据项,以生成自动化运营报告。
例如,自动化运营报告可以如图1E所示。需要说明的是,针对不同的企业、用户或者场景需求,可以对报告模板进行个性化设置。
上述设置的好处在于,可以提供灵活的场景配置、多维度的聚类分析、个性化的报告模板能力,可以为企业提供有价值的输出。
在本实施例的另一个可选的实施方式中,基于预设机器学习算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征,可以包括:
对所述网络数据进行预设字段的内容提取,以获取预设字段对应的字段值,并通过预设指纹算法,提取得到所述网络数据对应的指纹特征;
根据所述预设字段对应的字段值和所述指纹特征,获取所述网络数据匹配的业务特征。
在本实施例中,可以通过DFI特征建模和DPI(Deep Packet Inspection,深度包检测)特征提取算法,在TLS协议的握手过程,提取到Client Hello与Server Hello字段中的关键性指向特征,以作为字段值。其中,Client Hello与Server Hello字段,可以包括SSLVersion、密码、扩展、Elliptic Curves、Elliptic Curve Point Formats等信息。通过Client Hello与Server Hello字段的字段值,可以获取数据流中的服务器名称和域名,并可以根据域名确定网络数据所属的企业。
其次,可以通过JA3、JA3S等预设的指纹算法,提取得到网络数据对应的指纹特征,并可以将预设字段对应的字段值和指纹特征进行拼接,以生成网络数据匹配的业务特征。通过在提取的服务器名称的基础上结合指纹特征,可以实现对网络数据所属企业和业务的识别。由此,可以实现对加密网络数据的HTTP识别。
需要说明的是,随着敏感APP协议的不断升级演进,为了对抗GFW的封锁,逐渐发展出了多种开源的加密敏感APP通信协议,此种协议的设计在通信过程中会尽量隐藏独有的识别特征,采用类似HTTPS的通信模式,使DPI设备很难从报文特征上把此类敏感APP协议与正常的HTTPS协议取分开。
在本实施例中,针对敏感APP协议的识别流程可以如图1F所示;具体的,通过对VPN协议进行监测,以获取到敏感APP使用者身份、时间、使用的协议类型、对端敏感APP服务器资源等重要信息,进而根据上述获取信息建立协议行为识别模型,并将经过评估后的协议行为识别模型进行下发部署,以实现对敏感APP数据流的识别。
其中,基于协议行为识别模型实现敏感APP数据流识别的流程可以如图1G所示。首先,提取得到各业务样本集对应的样本特征,例如,上下行字节数、包数,长度序列,字节分布概率等;然后,通过预设的机器学习算法基于提取的样本特征进行数据流识别,以确定对应的敏感APP。
在本实施例的另一个可选的实施方式中,本发明实施例的技术方案,还可以包括:
根据各所述日志数据集对应的数据维度特征和所述访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,若未获取所述网络流量对应的流量分类,则将所述网络流量作为异常流量;
获取所述异常流量对应的人工标注分类,并根据所述异常流量对应的人工标注分类,对所述预设分类分级规则集进行更新,并采用更新后的预设分类分级规则集替换所述预设分类分级规则集。
在一个具体的例子中,当存在基于预设分类分级规则集无法成功识别流量分类的异常流量时,可以基于该异常流量进行规制自学习,从而实现对分类分级规则集的更新。具体的,可以向用户发送人工标注提示,并获取异常流量对应的人工标注分类;然后,可以将异常流量对应的数据维度特征、业务特征和内容特征添加至该人工标注分类对应的规则中,以实现对预设分类分级规则集的更新,并可以将更新后的预设分类分级规则集作为新的预设分类分级规则集。
在本实施例的一个具体的实施方式中,流量数据的分类流程可以如图1H所示。首先,通过对采集的IDC流量进行解码,以获取访问日志和样本日志;然后,针对访问日志进行IP地址和端口聚合,以获取系统清单和系统API清单,以及各清单对应的数据维度特征;进一步的,根据各访问日志对应的网络访问信息,进行APP和网站内容批量爬取,以获取网络数据;例如,可以模拟用户点击操作,以获取APP不同层级页面的页面内容。
进一步的,当网络数据为非加密数据时,可以基于预设的规则识别方法进行HTTP识别和主流APP识别;而当网络数据为加密数据时,可以基于预设的机器学习算法进行敏感APP识别、HTTP识别或者小众APP识别。由此,可以获取IDC流量对应的业务特征。然后,可以基于DFI增强型模块和基于深度学习的DFR提取得到网络数据对应的内容特征。最后,可以根据数据维度特征、业务特征和内容特征,以及预设的分类分级规则集,获取IDC流量对应的流量分类。
其中,对于已识别分类的IDC流量,可以根据流量分类进行聚类处理,以获取API接口聚类、系统聚类和企业聚类,并可以根据各聚类,生成自动化运营报告。而对于未识别分类的IDC流量,则可以通过持续监测和规则自学习模块进行规制自学习,以更新分类分级规则集。
其次,针对获取的样本日志,可以进行样本还原,以获取全量数据;例如,对CAD、PDF等格式的样本日志进行内容提取,以获取实质内容;然后,可以基于预设分类分级规则集对全量数据进行识别,以获取IDC流量对应的流量分类。其中,样本日志,可以包括网络流量中的文件、链接等内容。
本发明实施例的技术方案,可以极大缩减流量分类时间和降低系统使用难度,可以从日志中完整的提取出存在敏感信息明文传输的系统,使结合数据跨境、个人信息去标识化不规范、重要数据明文传输、敏感数据批量访问、敏感数据高频访问等维度进行分析成为可能。其次,可以灵活适配多场景数据分类分级管理要求,更为主动的应答行业监管;而且,数据安全最终还是为监管单位和企业服务,有了明确的管理对象、明确的问题清单、可闭环的处置措施,可以通过灵活的场景配置、多维度的聚类分析和个性化的报告模板,为企业和监管部门提供有价值的输出建议,指导提升用户数据安全防护能力。
实施例二
图2为本发明实施例二提供的一种流量数据的分类装置的结构示意图。如图2所示,该装置包括:访问日志获取模块210、数据维度特征获取模块220、业务特征获取模块230、内容特征获取模块240和流量分类获取模块250;其中,
访问日志获取模块210,用于通过预部署的流量采集探针,获取网络流量,并获取所述网络流量对应的访问日志;
数据维度特征获取模块220,用于根据预设数据维度对所述访问日志进行划分,以获取至少一个日志数据集,以及各所述日志数据集对应的数据维度特征;
业务特征获取模块230,用于根据所述访问日志对应的网络访问信息,获取所述访问日志对应的网络数据,并在检测到所述网络数据为加密数据时,基于预设机器学习算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征;
内容特征获取模块240,用于对所述网络数据进行内容智能解析,以获取所述网络数据匹配的内容特征;
流量分类获取模块250,用于根据各所述日志数据集对应的数据维度特征和所述访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,获取所述网络流量对应的流量分类。
本发明实施例的技术方案,首先,通过预部署的流量采集探针,获取网络流量,并获取网络流量对应的访问日志;然后,根据预设数据维度对访问日志进行划分,以获取多个日志数据集,以及各日志数据集对应的数据维度特征;其次,根据访问日志对应的网络访问信息,获取访问日志对应的网络数据,并在检测到网络数据为加密数据时,基于预设机器学习算法对网络数据进行业务特征提取,以获取网络数据匹配的业务特征;进一步的,对网络数据进行内容智能解析,以获取网络数据匹配的内容特征;最后,根据各日志数据集对应的数据维度特征和访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,获取网络流量对应的流量分类;通过根据访问日志对应的网络访问信息采集网络数据,并根据访问日志对应的数据维度特征和网络数据对应的业务特征和内容特征确定流量分类,可以降低网络流量分类的时间成本,可以提升流量数据的分类准确度,避免分类误判的情况。
可选的,所述预设数据维度包括应用程序编程接口、系统名称和/或企业名称。
可选的,所述预设分类分级规则集包括个人信息分类规则、通信业数据分类规则、工业互联网分类规则、车联网分类规则、即时通信分类规则、基础电信企业分类规则和重要数据分类规则中的至少一项。
可选的,业务特征获取模块230,还用于若检测到所述网络数据为非加密数据,则基于预设规则识别算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征。
可选的,所述流量数据的分类装置,还包括:
聚类数据集获取模块,用于根据所述流量分类对所述网络流量进行聚类处理,以获取至少一个聚类数据集;
自动化运营报告生成模块,用于根据各所述聚类数据集和预设报告模板,生成自动化运营报告。
可选的,业务特征获取模块230,具体用于对所述网络数据进行预设字段的内容提取,以获取预设字段对应的字段值,并通过预设指纹算法,提取得到所述网络数据对应的指纹特征;
根据所述预设字段对应的字段值和所述指纹特征,获取所述网络数据匹配的业务特征。
可选的,所述流量数据的分类装置,还包括:
异常流量获取模块,用于根据各所述日志数据集对应的数据维度特征和所述访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,若未获取所述网络流量对应的流量分类,则将所述网络流量作为异常流量;
分类分级规则集更新模块,用于获取所述异常流量对应的人工标注分类,并根据所述异常流量对应的人工标注分类,对所述预设分类分级规则集进行更新,并采用更新后的预设分类分级规则集替换所述预设分类分级规则集。
本发明实施例所提供的流量数据的分类装置可执行本发明任意实施例所提供的流量数据的分类方法,具备执行方法相应的功能模块和有益效果。
需要说明的是,本实施例的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
实施例三
图3示出了可以用来实施本发明的实施例的电子设备30的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图3所示,电子设备30包括至少一个处理器31,以及与至少一个处理器31通信连接的存储器,如只读存储器(ROM)32、随机访问存储器(RAM)33等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器31可以根据存储在只读存储器(ROM)32中的计算机程序或者从存储单元38加载到随机访问存储器(RAM)33中的计算机程序,来执行各种适当的动作和处理。在RAM 33中,还可存储电子设备30操作所需的各种程序和数据。处理器31、ROM 32以及RAM 33通过总线34彼此相连。输入/输出(I/O)接口35也连接至总线34。
电子设备30中的多个部件连接至I/O接口35,包括:输入单元36,例如键盘、鼠标等;输出单元37,例如各种类型的显示器、扬声器等;存储单元38,例如磁盘、光盘等;以及通信单元39,例如网卡、调制解调器、无线通信收发机等。通信单元39允许电子设备30通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器31可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器31的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器31执行上文所描述的各个方法和处理,例如流量数据的分类方法。
在一些实施例中,流量数据的分类方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元38。在一些实施例中,计算机程序的部分或者全部可以经由ROM 32和/或通信单元39而被载入和/或安装到电子设备30上。当计算机程序加载到RAM 33并由处理器31执行时,可以执行上文描述的流量数据的分类方法的一个或多个步骤。备选地,在其他实施例中,处理器31可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行流量数据的分类方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种流量数据的分类方法,其特征在于,包括:
通过预部署的流量采集探针,获取网络流量,并获取所述网络流量对应的访问日志;
根据预设数据维度对所述访问日志进行划分,以获取至少一个日志数据集,以及各所述日志数据集对应的数据维度特征;
根据所述访问日志对应的网络访问信息,获取所述访问日志对应的网络数据,并在检测到所述网络数据为加密数据时,基于预设机器学习算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征;
对所述网络数据进行内容智能解析,以获取所述网络数据匹配的内容特征;
根据各所述日志数据集对应的数据维度特征和所述访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,获取所述网络流量对应的流量分类。
2.根据权利要求1所述的方法,其特征在于,所述预设数据维度包括应用程序编程接口、系统名称和/或企业名称。
3.根据权利要求1所述的方法,其特征在于,所述预设分类分级规则集包括个人信息分类规则、通信业数据分类规则、工业互联网分类规则、车联网分类规则、即时通信分类规则、基础电信企业分类规则和重要数据分类规则中的至少一项。
4.根据权利要求1所述的方法,其特征在于,在根据所述访问日志对应的网络访问信息,获取所述访问日志对应的网络数据之后,还包括:
若检测到所述网络数据为非加密数据,则基于预设规则识别算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征。
5.根据权利要求1所述的方法,其特征在于,在获取所述网络流量对应的流量分类之后,还包括:
根据所述流量分类对所述网络流量进行聚类处理,以获取至少一个聚类数据集;
根据各所述聚类数据集和预设报告模板,生成自动化运营报告。
6.根据权利要求1所述的方法,其特征在于,基于预设机器学习算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征,包括:
对所述网络数据进行预设字段的内容提取,以获取预设字段对应的字段值,并通过预设指纹算法,提取得到所述网络数据对应的指纹特征;
根据所述预设字段对应的字段值和所述指纹特征,获取所述网络数据匹配的业务特征。
7.根据权利要求1所述的方法,其特征在于,还包括:
根据各所述日志数据集对应的数据维度特征和所述访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,若未获取所述网络流量对应的流量分类,则将所述网络流量作为异常流量;
获取所述异常流量对应的人工标注分类,并根据所述异常流量对应的人工标注分类,对所述预设分类分级规则集进行更新,并采用更新后的预设分类分级规则集替换所述预设分类分级规则集。
8.一种流量数据的分类装置,其特征在于,包括:
访问日志获取模块,用于通过预部署的流量采集探针,获取网络流量,并获取所述网络流量对应的访问日志;
数据维度特征获取模块,用于根据预设数据维度对所述访问日志进行划分,以获取至少一个日志数据集,以及各所述日志数据集对应的数据维度特征;
业务特征获取模块,用于根据所述访问日志对应的网络访问信息,获取所述访问日志对应的网络数据,并在检测到所述网络数据为加密数据时,基于预设机器学习算法对所述网络数据进行业务特征提取,以获取所述网络数据匹配的业务特征;
内容特征获取模块,用于对所述网络数据进行内容智能解析,以获取所述网络数据匹配的内容特征;
流量分类获取模块,用于根据各所述日志数据集对应的数据维度特征和所述访问日志对应的网络数据匹配的业务特征和内容特征,以及预设分类分级规则集,获取所述网络流量对应的流量分类。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的流量数据的分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的流量数据的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310764671.4A CN116738369A (zh) | 2023-06-27 | 2023-06-27 | 一种流量数据的分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310764671.4A CN116738369A (zh) | 2023-06-27 | 2023-06-27 | 一种流量数据的分类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116738369A true CN116738369A (zh) | 2023-09-12 |
Family
ID=87907933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310764671.4A Pending CN116738369A (zh) | 2023-06-27 | 2023-06-27 | 一种流量数据的分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116738369A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421640A (zh) * | 2023-11-16 | 2024-01-19 | 国网江苏省电力有限公司信息通信分公司 | 一种api资产识别方法、装置、设备及存储介质 |
-
2023
- 2023-06-27 CN CN202310764671.4A patent/CN116738369A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421640A (zh) * | 2023-11-16 | 2024-01-19 | 国网江苏省电力有限公司信息通信分公司 | 一种api资产识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200389495A1 (en) | Secure policy-controlled processing and auditing on regulated data sets | |
US11750659B2 (en) | Cybersecurity profiling and rating using active and passive external reconnaissance | |
US11516248B2 (en) | Security system for detection and mitigation of malicious communications | |
US10218740B1 (en) | Fuzzy hash of behavioral results | |
US20200412767A1 (en) | Hybrid system for the protection and secure data transportation of convergent operational technology and informational technology networks | |
US10735458B1 (en) | Detection center to detect targeted malware | |
US10601848B1 (en) | Cyber-security system and method for weak indicator detection and correlation to generate strong indicators | |
US10721245B2 (en) | Method and device for automatically verifying security event | |
US11671448B2 (en) | Phishing detection using uniform resource locators | |
JP5990284B2 (ja) | キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法 | |
US10454967B1 (en) | Clustering computer security attacks by threat actor based on attack features | |
US20210360032A1 (en) | Cybersecurity risk analysis and anomaly detection using active and passive external reconnaissance | |
US20230362200A1 (en) | Dynamic cybersecurity scoring and operational risk reduction assessment | |
JP2015506642A (ja) | キャラクター・ストリングの周波数スペクトルを用いるスパム検出のシステムおよび方法 | |
US20220200959A1 (en) | Data collection system for effectively processing big data | |
CN111400357A (zh) | 一种识别异常登录的方法和装置 | |
RU2701040C1 (ru) | Способ и вычислительное устройство для информирования о вредоносных веб-ресурсах | |
CN109756467B (zh) | 一种钓鱼网站的识别方法及装置 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
Harbola et al. | Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set | |
US9332031B1 (en) | Categorizing accounts based on associated images | |
CN111125702A (zh) | 一种病毒识别方法及装置 | |
CN114363039A (zh) | 一种诈骗网站的识别方法、装置、设备及存储介质 | |
Njoku et al. | URL Based Phishing Website Detection Using Machine Learning. | |
CN117473511B (zh) | 边缘节点漏洞数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |