CN113313216A - 网络数据的主体抽取方法、装置、电子设备及存储介质 - Google Patents

网络数据的主体抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113313216A
CN113313216A CN202110874330.3A CN202110874330A CN113313216A CN 113313216 A CN113313216 A CN 113313216A CN 202110874330 A CN202110874330 A CN 202110874330A CN 113313216 A CN113313216 A CN 113313216A
Authority
CN
China
Prior art keywords
detected
network data
data stream
main
main body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110874330.3A
Other languages
English (en)
Other versions
CN113313216B (zh
Inventor
戚建淮
易宇宁
刘建辉
唐娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Y&D Electronics Information Co Ltd
Original Assignee
Shenzhen Y&D Electronics Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Y&D Electronics Information Co Ltd filed Critical Shenzhen Y&D Electronics Information Co Ltd
Priority to CN202110874330.3A priority Critical patent/CN113313216B/zh
Publication of CN113313216A publication Critical patent/CN113313216A/zh
Application granted granted Critical
Publication of CN113313216B publication Critical patent/CN113313216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络数据的主体抽取方法、装置、电子设备及存储介质,涉及计算机信息安全领域,其中网络数据的主体抽取方法包括:获取发往服务器的待检测网络数据流;对待检测网络数据流进行特征模板提取,得到待检测主体特征;根据选取条件从预设的主体特征库中提取出待验证网络数据的待验证主体特征;将待检测主体特征和待验证主体特征进行比对分析,若待检测主体特征与待验证主体特征相符合,则获取待检测网络数据流的主体报文数据;对主体报文数据进行分组处理,并抽取出待检测网络数据流的主体数据。上述网络数据的主体抽取方法,能够实现数据实体内容的准确比对与获取,提高效率,而且兼具准确性,可有效节约时间与资源。

Description

网络数据的主体抽取方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机信息安全领域,尤其是涉及一种网络数据的主体抽取方法、装置、电子设备及存储介质。
背景技术
随着互联网的不断发展,网络服务的种类也越来越丰富,伴随着信息化网络带来的方便快捷的同时,信息的安全问题成为企业发展面临的主要问题。
对网络数据中的主体进行分类抽取,是网络安全等级保护中研究的重要部分,而由于数据类型的多样性,在实际的研究工作中研究者常常难以对数据主体进行精准的类别鉴定。在传统的分类方式中,主要是靠人工进行主体的指定,通常是根据上线的设备功能特征来进行识别。但由于网络设备种类繁多,通过人工进行分类识别,费时费力,而且准确度差。目前采用自动主体抽取的方法较少,较为典型的方法是提取主体的功能特征,通过这些特征来识别主体的种类。但由于在复杂的网络环境中,不同主体间存在相似特征,同种类主体间也存在差异,这些都容易导致在网络中识抽取主体时的误判。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明实施例提出一种网络数据的主体抽取方法,能够将复杂网络环境中满足特征的数据包进行提取分析,可实现数据实体内容的准确比对与获取,提高效率,而且兼具准确性,可有效节约时间与资源。
本发明实施例还提出一种网络数据的主体抽取装置。
本发明实施例还提出一种电子设备。
本发明实施例还提出一种计算机可读存储介质。
根据本发明的第一方面实施例的网络数据的主体抽取方法,包括:
获取发往服务器的待检测网络数据流;
对所述待检测网络数据流进行特征模板提取,得到所述待检测网络数据流对应的待检测主体特征;
根据选取条件从预设的主体特征库中提取出待验证网络数据的待验证主体特征;
将所述待检测主体特征和所述待验证主体特征进行比对分析,若所述待检测主体特征与所述待验证主体特征相符合,则获取所述待检测网络数据流的主体报文数据;
对所述主体报文数据进行分组处理,并抽取出所述待检测网络数据流的主体数据。
根据本发明第一方面实施例的网络数据的主体抽取方法,至少具有如下有益效果:通过对待检测网络数据流进行特征模板提取,得到待检测主体特征,然后将待检测主体特征与预设的主体特征库中的待验证主体特征进行比对,判断待检测主体特征是否符合待验证主体特征,若符合则获取待检测网络数据流的主体报文数据,最后对主体报文数据进行分组处理,并抽取出待检测网络数据流的主体数据,能够将复杂网络环境中满足特征的数据包进行提取分析,可实现数据实体内容的准确比对与获取,提高效率,而且兼具准确性,可有效节约时间与资源。
根据本发明的一些实施例,所述方法还包括:若所述待检测主体特征与所述待验证主体特征不符合,则对所述待检测网络数据流进行放行处理。
根据本发明的一些实施例,在所述对所述待检测网络数据流进行放行处理之后,还包括:获取所述待检测网络数据流与所述主体特征库的关联关系;根据所述关联关系对所述待检测网络数据流和所述待检测主体特征进行检测,得到所述待检测网络数据流中的主体数据。
根据本发明的一些实施例,所述对所述主体报文数据进行分组处理,并抽取出所述待检测网络数据流的主体数据,包括:读取出所述待检测网络数据流的报文协议数据和业务报文数据;根据所述报文协议数据和所述业务报文数据对所述主体报文数据进行分组,得到多个类型数据;分别对多个所述类型数据构造正则表达式生成局部特征;根据预设顺序合并相同部分和所述局部特征,得到所述主体数据。
根据本发明的一些实施例,所述对所述待检测网络数据流进行特征模板提取,得到所述待检测网络数据流对应的待检测主体特征,包括:对所述待检测网络数据流进行特征模版提取,得到所述待检测网络数据流的待检测特征标签和待检测业务行为;根据所述待检测特征标签、所述待检测业务行为进行归类抽象,得到所述待检测主体特征。
根据本发明的一些实施例,所述根据所述待检测特征标签、所述待检测业务行为进行归类抽象,得到所述待检测主体特征,包括:根据所述待检测特征标签和所述待检测业务行为生成待检测特征链;根据所述待检测特征链得到所述待检测网络数据流的映射关系;根据所述映射关系提取出所述待检测主体特征。
根据本发明的一些实施例,还包括建立所述主体特征库,具体包括:获取样本网络数据流,对所述样本网络数据流进行特征模板提取,得到样本特征标签和样本业务行为;对所述样本网络数据流和所述样本特征标签使用正则表达式匹配,得到规则字符串;根据预设会话确认所述样本业务行为之间的业务顺序;根据所述规则字符串、所述业务顺序和所述样本网络数据流组成所述主体特征库。
根据本发明的第二方面实施例的网络数据的主体抽取装置,包括:
获取模块,用于获取发往服务器的待检测网络数据流;
第一提取模块,用于对所述待检测网络数据流进行特征模板提取,得到所述待检测网络数据流对应的待检测主体特征;
第二提取模块,用于根据选取条件从预设的主体特征库中提取出待验证网络数据的待验证主体特征;
比对模块,用于将所述待检测主体特征和所述待验证主体特征进行比对分析,若所述待检测主体特征与所述待验证主体特征相符合,则获取所述待检测网络数据流的主体报文数据;
抽取模块,用于对所述主体报文数据进行分组处理,并抽取出所述待检测网络数据流的主体数据。
根据本发明第二方面实施例的网络数据的主体抽取装置,至少具有如下有益效果:通过执行本发明第一方面实施例的网络数据的主体抽取方法,能够将复杂网络环境中满足特征的数据包进行提取分析,可实现数据实体内容的准确比对与获取,提高效率,而且兼具准确性,可有效节约时间与资源。
根据本发明第三方面实施例的电子设备,包括:至少一个处理器,以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述指令时实现第一方面所述的网络数据的主体抽取方法。
根据本发明第三方面实施例的电子设备,至少具有如下有益效果:通过执行本发明第一方面实施例的网络数据的主体抽取方法,能够将复杂网络环境中满足特征的数据包进行提取分析,可实现数据实体内容的准确比对与获取,提高效率,而且兼具准确性,可有效节约时间与资源。
根据本发明第四方面实施例的计算机可读存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面所述的网络数据的主体抽取方法。
根据本发明第四方面实施例的计算机可读存储介质,至少具有如下有益效果:通过执行本发明第一方面实施例的网络数据的主体抽取方法,能够将复杂网络环境中满足特征的数据包进行提取分析,可实现数据实体内容的准确比对与获取,提高效率,而且兼具准确性,可有效节约时间与资源。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的网络数据的主体抽取方法的流程示意图;
图2为本发明实施例的类脑计算平台的结构示意图;
图3为本发明实施例的网络数据的主体抽取装置的结构示意图;
图4为本发明实施例的电子设备的功能模块图。
附图标记:
获取模块300、第一提取模块310、第二提取模块320、比对模块330、抽取模块340、处理器400、存储器410、数据传输模块420、摄像头430、显示屏440。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
会话是一种面向连接的可靠通信方式
对网络数据中的主体进行分类抽取,是网络安全等级保护中研究的重要部分,而由于数据类型的多样性,在实际的研究工作中研究者常常难以对数据主体进行精准的类别鉴定。在传统的分类方式中,主要是靠人工进行主体的指定,通常是根据上线的设备功能特征来进行识别。但由于网络设备种类繁多,通过人工进行分类识别,费时费力,而且准确度差。目前采用自动主体抽取的方法较少,较为典型的方法是提取主体的功能特征,通过这些特征来识别主体的种类。但由于在复杂的网络环境中,不同主体间存在相似特征,同种类主体间也存在差异,这些都容易导致在网络中识抽取主体时的误判。
基于此,本发明实施例提出一种网络数据的主体抽取方法、装置、电子设备及存储介质,能够将复杂网络环境中满足特征的数据包进行提取分析,可实现数据实体内容的准确比对与获取,提高效率,而且兼具准确性,可有效节约时间与资源。
参照图1,根据本发明第一方面实施例的网络数据的主体抽取方法,包括:
步骤S100,获取发往服务器的待检测网络数据流。
其中,待检测网络数据流可以是需要检测的传输的网络数据报文。可选的,可以获取接入发往服务器的网络数据包,例如:客票业务的数据交互过程中,存在大量攻击者伪造的业务数据包及垃圾数据,如果此类数据全部交由业务服务器分析处理,势必会带来较大的负载与资源浪费。因此可以先行获取发往业务服务器的各个业务数据包,即得到待检测网络数据流。因此,通过在待检测网络数据流发送至服务器之前进行主体特征提取,将提取的主体特征进行比对分析,以提高服务端对待检测网络数据流的分析效率。
步骤S110,对待检测网络数据流进行特征模板提取,得到待检测网络数据流对应的待检测主体特征。
其中,待检测主体特征可以是待检测网络数据流的主体抽象特征。可选的,当新来一个数据包时,可以提取出所有的候选词,然后利用训练好的关键词提取分类器,对各个候选词进行分类,最终将特征标签为关键词的候选词作为关键词,即得到待检测网络数据流的关键信息,包括特征标签及业务行为。进而可以对待检测网络数据流的特征标签及业务行为生成特征链,并进行归类抽象,得到待检测网络数据流对应的抽象特征,即待检测主体特征。训练好的关键词提取分类器可以通过以下方式获得:对接入的网络数据报文进行关键词提取,将关键词抽取过程视为二分类问题,先提取出候选词,然后对于每个候选词划定特征标签,要么是关键词,要么不是关键词,然后训练关键词抽取分类器,并将得到特征标签加入主体特征库。可以将待检测网络数据流的特征标签加入上述主体特征库中。参照图2,可以通过图2所示的类脑计算平台计为特征标签的提取、建立主体特征库提供算力,由于业务系统的工作流程和流程状态数量和转换的复杂性,为了达到实时筛选和分析效果,并不干扰系统业务的进行,需要大算力平台的支撑。类脑计算机系统采用计算、存储、通信一体化的并行计算超立方体架构体系,具有超级的计算能力,同时兼具方便部署和安装的特色,可以为在复杂网络环境中捕获分析众多的网络数据包构建数据主体特征库提供大计算力。类脑计算机系统采用计算、存储、通信一体化的并行计算超立方体架构体系,借鉴人脑信息处理方式,仿真、模拟和学习借鉴人脑的神经系统结构和信息处理方式,并构建出具有学习能力的超低功耗型新型计算系统,为海量用户访问操作,状态机检测,数据流识别并判断提供强大算力,达到数据分析与抽取的目的。
步骤S120,根据选取条件从预设的主体特征库中提取出待验证网络数据的待验证主体特征。
可选的,选取条件可以根据需求预先设置;主体特征库可以是预先设置的存储有网络数据包的特征标签等关键信息的数据库;待验证网络数据可以是主体特征库中存储的网络数据报文;待验证主体特征可以是待检测网络数据流的抽象特征。可选的,可以通过确认不同特征标签之间的联系,将多个网络数据包及其特征标签组成主体特征库。为验证待检测网络数据流的抽象特征,可以从主体特征库中提取出预先存储的待验证网络数据,并提取出其对应的抽象特征,抽象特征可以包括但不限于:TCP协议,客票TDS协议,客票服务监听端口等,得到待验证主体特征与待检测主体特征进行比对分析。
步骤S130,将待检测主体特征和待验证主体特征进行比对分析,若待检测主体特征与待验证主体特征相符合,则获取待检测网络数据流的主体报文数据。
其中,主体报文数据可以包括待检测网络数据流的报文协议头部分与主体业务报文公共部分。可选的,为了对发往业务服务器的待检测网络数据流做第一轮筛选,以判断其是否为真实数据包,可以将待检测网络数据流的待检测主体特征与待验证主体特征进行比对,判断待检测主体特征是否满足特征,例如:设待验证主体特征为满足TCP协议、客票TDS协议、端口为客票服务监听端口等,则可以比对分析待检测主体特征是否满足TCP协议,是否为客票TDS协议,端口是否为客票服务监听端口等等。若指定数据包地址及端口,则去除指定地址及端口外的所有数据包,只保留指定地址及端口的数据包,对满足特征条件的待检测网络数据流进行放行,数据流正常发往目的服务器,即将符合待验证主体特征的待检测网络数据流交由客票系统继续分析处理,以提取主体信息和深度分析。
步骤S140,对主体报文数据进行分组处理,并抽取出待检测网络数据流的主体数据。
其中,主体数据可以包括待检测网络数据流的源地址和净载数据,净载数据即待检测网络数据流的数据内容。可选的,对满足特征的待检测网络数据流,可以根据图2所示的类脑计算算法平台对其进行关键信息定位、深度分析和主体抽取,以及指数级的数据包过滤功能(指数级过滤由类脑平台支撑完成)。具体的,可以读取待检测网络数据流的主体报文数据,包括报文协议头部分与主体业务报文公共部分,并对主体报文数据进行分组,划分出不同类型,不同类型分别构造正则表达式生成局部特征,再按顺序合并相同部分和局部特征,得到主体的报文特征,例如,主体的业务报文可能是:请求id|序列号|主体参数1|主体参数2....其中,请求id可以是待检测网络数据流的源地址,主体参数1、主体参数2等可以是净载数据,进而可以提取出相应的主体数据。在一些具体的实施例中,主体关系是相对于客体而言,主体与客体是由什么构成,又是如何发生联系的。通过大量的数据分析和特征分析,可以构建和把握主客体的关系。
上述网络数据的主体提取方法,通过对待检测网络数据流进行特征模板提取,得到待检测主体特征,然后将待检测主体特征与预设的主体特征库中的待验证主体特征进行比对,判断待检测主体特征是否符合待验证主体特征,若符合则获取待检测网络数据流的主体报文数据,最后对主体报文数据进行分组处理,并抽取出待检测网络数据流的主体数据,能够将复杂网络环境中满足特征的数据包进行提取分析,可实现数据实体内容的准确比对与获取,提高效率,而且兼具准确性,可有效节约时间与资源。
在本发明的一些实施例中,网络数据的主体抽取方法还包括:
若待检测主体特征与待验证主体特征不符合,则对待检测网络数据流进行放行处理。可选的,若待检测主体特征不符合待验证主体特征,例如待检测主体特征不满足TCP协议(如根据待检测主体特征判断待检测网络数据流为UDP的报文)、待检测主体特征不符合客票TDS协议、端口不是为客票服务监听端口等,即待检测网络数据流不符合特征要求,则可以对不符合待验证主体特征的待检测网络数据流进行放行处理,筛选出放行的业务数据包,可以对放行的业务数据包进行丢弃或拦截处理,避免后续分析时提取到不满足特征的数据包。具体的,如图2所示,特征比较存在多个节点,数据流到达入口时,先经过一级节点的比较筛选,满足条件后数据流到达下一级节点。每级节点都会对数据流的一些特征进行分析判断,比如是否满足TCP包特征,是否满足HTTP协议、TDS协议等特征,满足白名单特征的数据流放行,满足黑名单特征的数据流丢弃或拦截。
在本发明的一些实施例中,在对待检测网络数据流进行放行处理之后,还包括:
获取待检测网络数据流与主体特征库的关联关系。其中,关联关系可以是待检测网络数据流的特征链及主体特征库之间的关联关系。可选的,关联关系是指特征之间的关联,比如TCP数据包中SYN,ACK字段与数据发送的关联。在TCP协议中,为了确保数据能稳定发送,协议中使用数据包中的SYN,ACK两个字段来监控数据是否正确发送和接收。可以通过分析知识库中的客体特征,整理学习各个报文之间的关联关系。
根据关联关系对待检测网络数据流和待检测主体特征进行检测,得到待检测网络数据流中的主体数据。可选的,如图2所示,出口节点会对满足条件的数据做相应处理,满足白名单特征的数据流放行,满足黑名单特征的数据流丢弃或拦截,同时会对特征库以外的数据流(即放行的数据流)进行特征取样并加入特征库中。具体的,可以根据待检测网络数据流的特征链及主体特征库之间的关联关系,同步检测待检测网络数据流与数据流特征,提取待检测网络数据流中相应的主体内容,即得到主体数据。通过对不满足特征的待检测网络数据流进行放行处理,并根据待检测网络数据流与主体特征库之间的关联关系检测出待检测网络数据流对应的主体数据,可以将复杂网络环境中不满足特征的数据包进行另行处理,并对放行的数据包进行提取分析,得到主体数据,提高效率。
在本发明的一些实施例中,对主体报文数据进行分组处理,并抽取出待检测网络数据流的主体数据,包括:
读取出待检测网络数据流的报文协议数据和业务报文数据。其中,报文协议数据和业务报文数据可以是待检测网络数据流的报文协议头部分与业务报文公共部分,设主体报文数据中的主体业务报文公共部分的格式可以为:请求id|序列号|主体参数1|主体参数2……
根据报文协议数据和业务报文数据对主体报文数据进行分组,得到多个类型数据。其中,类型数据可以是对待检测网络数据流的主体报文数据进行分组后所得的不同类型的数据。可选的,待检测网络数据流的主体报文数据可以包括报文协议头部分与主体业务报文公共部分,主体报文数据中的主体业务报文公共部分的格式可以为:请求id|序列号|主体参数1|主体参数2……可以对上述主体报文数据按照需求进行分组,划分出不同类型的的数据,即得到多个类型数据。
分别对多个类型数据构造正则表达式生成局部特征。其中,正则表达式又称规则表达式,正则表达式用来于检索、替换符合某个模式(规则)的文本;局部特征可以是每个类型数据对应的特征。可选的,对于不同类型的类型数据,可以分别构造正则表达式生成局部特征,即生成每个类型数据对应的局部特征。
根据预设顺序合并相同部分和局部特征,得到主体数据。其中,预设顺序可以是预先设置的合并局部特征的顺序。可选的,预设顺序可以按照需求设置,可以按照预设顺序合并相同部分和局部特征,得到报文特征,从而提取出主体数据。通过将主体报文数据进行分组,得到多个类型数据,再分别对多个类型数据构造正则表达式生成局部特征,最后按照预设顺序合并相同部分和局部特征,得到主体数据,利用深度学习方法来对待检测网络数据流中的主体进行分类抽取,不但可以提高效率,而且兼具准确性,可有效节约时间与资源。
在本发明的一些实施例中,对待检测网络数据流进行特征模板提取,得到待检测网络数据流对应的待检测主体特征,包括:
对待检测网络数据流进行特征模板提取,得到待检测网络数据流的待检测特征标签和待检测业务行为。其中,待检测特征标签可以理解为不同业务之间的区分标志,待检测业务行为可以是待检测网络数据流的业务行为数据资料。可选的,对待检测网络数据流的主体信息进行定位,可以把待检测网络数据流按照协议类型、业务逻辑等进行区分,对不同类型的业务数据按照已知协议进行解析分类,经过分类提取获得待检测网络数据流的特征标签;设待检测业务行为的数据资料包括UV(访客率)、PV(访问率或浏览量)和广告转化率等等。
根据待检测特征标签、待检测业务行为进行归类抽象,得到待检测主体特征。可选的,根据得到待检测特征标签及待检测业务行为进行归类抽象处理,生成对应的特征链,特征链可以包括:待检测网络数据流-待检测特征标签-抽象特征,即可得到待检测主体特征,可以由图2所示的类脑计算平台为待检测网络数据流的特征提取提供算力支持。
在本发明的一些实施例中,根据待检测特征标签、待检测业务行为进行归类抽象,得到待检测主体特征,包括:
根据待检测特征标签和待检测业务行为生成待检测特征链。其中,待检测特征链可以包括:待检测网络数据流-待检测特征标签-抽象特征。可选的,可以根据待检测特征标签和待检测业务行为生成待检测网络数据流对应的待检测特征链,例如:设待检测网络数据流为数据包A,数据包A的待检测特征标签为α,待检测业务行为包括UV、PV和广告转化率等,则可以根据上述待检测网络数据流的待检测特征标签和待检测业务行为生成相应的特征链,得到待检测网络数据流的待检测特征链。
根据待检测特征链得到待检测网络数据流的映射关系。可选的,设待检测网络数据流为数据包A,其待检测特征标签为α,待检测特征链包括:数据包A-待检测特征标签α-抽象特征,则可以抽取出数据包A的两个映射关系,即数据包A-α-抽象特征。
根据映射关系提取出待检测主体特征。可选的,可以根据上述数据包A的两个映射关系,得到数据包A对应的抽象特征,即可以提取出待检测主体特征。可以由图2所示的类脑计算平台为待检测网络数据流的特征分析供算力支持。通过对待检测网络数据流进行特征提取,然后再对待检测网络数据流进行定位和归类抽象,得到待检测主体特征,非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征,实现了复杂网络环境中网络数据报文的主体提取。
在本发明的一席实施例中,网络数据的主体抽取方法还包括建立主体特征库,具体包括:
获取样本网络数据流,对样本网络数据流进行特征模板提取,得到样本特征标签和样本业务行为。其中,样本网络数据流可以是预先筛选的满足条件的数据流(即白名单上的数据流);样本特征标签和样本业务行为可以是对应于样本网络数据流的标签数据资料和业务行为数据资料。可选的,若预设条件为指定数据包地址及端口,则去除指定地址及端口外的所有数据包,只保留指定地址及端口的数据包,将满足指定地址及端口的数据包作为样本网络数据流。可以根据样本特征标签和样本业务行为生成样本网络数据流对应的样本特征链,以构建主体特征库。
对样本网络数据流和样本特征标签使用正则表达式匹配,得到规则字符串。其中,规则字符串可以用来表达对字符串的一种过滤逻辑。可选的,可以对请求的样本网络数据流进行特征模版提取,进而对提取结果使用正则表达式匹配,正则表达式是对样本网络数据流和样本特征标签操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成规则字符串,用于描述主体特征库的过滤逻辑。
根据预设会话确认样本业务行为之间的业务顺序。其中,预设会话可以是预先设置的一种面向连接的可靠通信方式。可选的,可以通过会话确认样本业务行为之间的先后顺序关系,即得到业务顺序,用于描述主体特征库中的数据排列情况。
根据规则字符串、业务顺序和样本网络数据流组成主体特征库。可选的,可以根据用于描述主体特征库的过滤逻辑的规则字符串、用于描述主体特征库中的数据排列情况的业务顺序,将样本网络数据流及其对应的样本特征标签和样本业务行为导入主体特征库中,构建主体特征库。可以通过图2所示的类脑计算平台为特征提取进行算力支持。通过样本网络数据流构建主体特征库,可实现数据实体内容的准确比对与获取,达到数据分析与抽取的目的。
参照图3,根据本发明第二方面实施例的网络数据的主体抽取装置,包括:
获取模块300,用于获取发往服务器的待检测网络数据流;
第一提取模块310,用于对待检测网络数据流进行特征模板提取,得到待检测网络数据流对应的待检测主体特征;
第二提取模块320,用于根据选取条件从预设的主体特征库中提取出待验证网络数据的待验证主体特征;
比对模块330,用于将待检测主体特征和待验证主体特征进行比对分析,若待检测主体特征与待验证主体特征相符合,则获取待检测网络数据流的主体报文数据;
抽取模块340,用于对主体报文数据进行分组处理,并抽取出待检测网络数据流的主体数据。
上述网络数据的主体抽取装置,通过执行本发明第一方面实施例的网络数据的主体抽取方法,能够将复杂网络环境中满足特征的数据包进行提取分析,可实现数据实体内容的准确比对与获取,提高效率,而且兼具准确性,可有效节约时间与资源。
参照图4,本发明第三方面实施例还提供了一种电子设备的功能模块图,包括:至少一个处理器400,以及与至少一个处理器400通信连接的存储器410;还可以包括数据传输模块420、摄像头430、显示屏440。
其中,处理器400通过调用存储器410中存储的计算机程序,用于执行第一方面实施例中的网络数据的主体抽取方法。
数据传输模块420通过与处理器400连接,用于实现数据传输模块420与处理器400之间的数据交互。
摄像头430可以包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(VirtualReality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头430还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
显示屏440可用于显示由用户输入的信息或提供给用户的信息。显示屏440可包括显示面板,可选的,可以采用液晶显示器(Liquid Crystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板。进一步的,触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器400以确定触摸事件的类型,随后处理器400根据触摸事件的类型在显示面板上提供相应的视觉输出。在某些实施例中,可以将触控面板与显示面板集成而实现输入和输出功能。
存储器作为一种非暂态存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本发明第一方面实施例中的网络数据的主体抽取方法。处理器通过运行存储在存储器中的非暂态软件程序以及指令,从而实现上述第一方面实施例中的网络数据的主体抽取方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述第一方面实施例中的网络数据的主体抽取方法。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述第一方面实施例中的网络数据的主体抽取方法所需的非暂态软件程序以及指令存储在存储器中,当被一个或者多个处理器执行时,执行上述第一方面实施例中的网络数据的主体抽取方法。
本发明第四方面实施例还提供了计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于:执行第一方面实施例中的网络数据的主体抽取方法。
在一些实施例中,该存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,被第三方面实施例的电子设备中的一个处理器执行,可使得上述一个或多个处理器执行上述第一方面实施例中的网络数据的主体抽取方法。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.网络数据的主体抽取方法,其特征在于,包括:
获取发往服务器的待检测网络数据流;
对所述待检测网络数据流进行特征模板提取,得到所述待检测网络数据流对应的待检测主体特征;
根据选取条件从预设的主体特征库中提取出待验证网络数据的待验证主体特征;
将所述待检测主体特征和所述待验证主体特征进行比对分析,若所述待检测主体特征与所述待验证主体特征相符合,则获取所述待检测网络数据流的主体报文数据;
对所述主体报文数据进行分组处理,并抽取出所述待检测网络数据流的主体数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述待检测主体特征与所述待验证主体特征不符合,则对所述待检测网络数据流进行放行处理。
3.根据权利要求2所述的方法,其特征在于,在所述对所述待检测网络数据流进行放行处理之后,还包括:
获取所述待检测网络数据流与所述主体特征库的关联关系;
根据所述关联关系对所述待检测网络数据流和所述待检测主体特征进行检测,得到所述待检测网络数据流中的主体数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述主体报文数据进行分组处理,并抽取出所述待检测网络数据流的主体数据,包括:
读取出所述待检测网络数据流的报文协议数据和业务报文数据;
根据所述报文协议数据和所述业务报文数据对所述主体报文数据进行分组,得到多个类型数据;
分别对多个所述类型数据构造正则表达式生成局部特征;
根据预设顺序合并相同部分和所述局部特征,得到所述主体数据。
5.根据权利要求1所述的方法,其特征在于,所述对所述待检测网络数据流进行特征模板提取,得到所述待检测网络数据流对应的待检测主体特征,包括:
对所述待检测网络数据流进行特征模版提取,得到所述待检测网络数据流的待检测特征标签和待检测业务行为;
根据所述待检测特征标签、所述待检测业务行为进行归类抽象,得到所述待检测主体特征。
6.根据权利要求5所述的方法,其特征在于,所述根据所述待检测特征标签、所述待检测业务行为进行归类抽象,得到所述待检测主体特征,包括:
根据所述待检测特征标签和所述待检测业务行为生成待检测特征链;
根据所述待检测特征链得到所述待检测网络数据流的映射关系;
根据所述映射关系提取出所述待检测主体特征。
7.根据权利要求1所述的方法,其特征在于,还包括建立所述主体特征库,具体包括:
获取样本网络数据流,对所述样本网络数据流进行特征模板提取,得到样本特征标签和样本业务行为;
对所述样本网络数据流和所述样本特征标签使用正则表达式匹配,得到规则字符串;
根据预设会话确认所述样本业务行为之间的业务顺序;
根据所述规则字符串、所述业务顺序和所述样本网络数据流组成所述主体特征库。
8.网络数据的主体抽取装置,其特征在于,包括:
获取模块,用于获取发往服务器的待检测网络数据流;
第一提取模块,用于对所述待检测网络数据流进行特征模板提取,得到所述待检测网络数据流对应的待检测主体特征;
第二提取模块,用于根据选取条件从预设的主体特征库中提取出待验证网络数据的待验证主体特征;
比对模块,用于将所述待检测主体特征和所述待验证主体特征进行比对分析,若所述待检测主体特征与所述待验证主体特征相符合,则获取所述待检测网络数据流的主体报文数据;
抽取模块,用于对所述主体报文数据进行分组处理,并抽取出所述待检测网络数据流的主体数据。
9.电子设备,其特征在于,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述指令时实现如权利要求1至7任一项所述的网络数据的主体抽取方法。
10.计算机可读存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的网络数据的主体抽取方法。
CN202110874330.3A 2021-07-30 2021-07-30 网络数据的主体抽取方法、装置、电子设备及存储介质 Active CN113313216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110874330.3A CN113313216B (zh) 2021-07-30 2021-07-30 网络数据的主体抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110874330.3A CN113313216B (zh) 2021-07-30 2021-07-30 网络数据的主体抽取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113313216A true CN113313216A (zh) 2021-08-27
CN113313216B CN113313216B (zh) 2021-11-30

Family

ID=77382388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110874330.3A Active CN113313216B (zh) 2021-07-30 2021-07-30 网络数据的主体抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113313216B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904020B1 (en) * 2000-11-01 2005-06-07 Agilent Technologies, Inc. System and method for monitoring communication networks using data stream characterization
US20070192863A1 (en) * 2005-07-01 2007-08-16 Harsh Kapoor Systems and methods for processing data flows
CN102394885A (zh) * 2011-11-09 2012-03-28 中国人民解放军信息工程大学 基于数据流的信息分类防护自动化核查方法
CN107483458A (zh) * 2017-08-29 2017-12-15 杭州迪普科技股份有限公司 网络攻击的识别方法及装置、计算机可读存储介质
CN107801073A (zh) * 2016-09-06 2018-03-13 努比亚技术有限公司 一种控制方法、装置和系统
CN107819646A (zh) * 2017-10-23 2018-03-20 国网冀北电力有限公司信息通信分公司 一种分布式传输的网络流量分类系统和方法
US10033602B1 (en) * 2015-09-29 2018-07-24 Amazon Technologies, Inc. Network health management using metrics from encapsulation protocol endpoints
US20180247062A1 (en) * 2017-02-28 2018-08-30 Blackberry Limited Label transition for mandatory access controls
US20190182287A1 (en) * 2017-12-08 2019-06-13 Duo Security, Inc. Systems and methods for intelligently configuring computer security
CN110022319A (zh) * 2019-04-03 2019-07-16 北京奇安信科技有限公司 攻击数据的安全隔离方法、装置、计算机设备及存储设备
CN111343135A (zh) * 2018-12-19 2020-06-26 中国移动通信集团湖南有限公司 一种网络安全态势检测方法
CN111478920A (zh) * 2020-04-27 2020-07-31 深信服科技股份有限公司 一种隐蔽信道通信检测方法、装置及设备
CN111988289A (zh) * 2020-08-04 2020-11-24 厦门理工学院 Epa工业控制网络安全测试系统及方法
CN112468370A (zh) * 2020-11-30 2021-03-09 北京锐驰信安技术有限公司 一种支持自定义规则的高速网络报文监测分析方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904020B1 (en) * 2000-11-01 2005-06-07 Agilent Technologies, Inc. System and method for monitoring communication networks using data stream characterization
US20070192863A1 (en) * 2005-07-01 2007-08-16 Harsh Kapoor Systems and methods for processing data flows
CN102394885A (zh) * 2011-11-09 2012-03-28 中国人民解放军信息工程大学 基于数据流的信息分类防护自动化核查方法
US10033602B1 (en) * 2015-09-29 2018-07-24 Amazon Technologies, Inc. Network health management using metrics from encapsulation protocol endpoints
CN107801073A (zh) * 2016-09-06 2018-03-13 努比亚技术有限公司 一种控制方法、装置和系统
US20180247062A1 (en) * 2017-02-28 2018-08-30 Blackberry Limited Label transition for mandatory access controls
CN107483458A (zh) * 2017-08-29 2017-12-15 杭州迪普科技股份有限公司 网络攻击的识别方法及装置、计算机可读存储介质
CN107819646A (zh) * 2017-10-23 2018-03-20 国网冀北电力有限公司信息通信分公司 一种分布式传输的网络流量分类系统和方法
US20190182287A1 (en) * 2017-12-08 2019-06-13 Duo Security, Inc. Systems and methods for intelligently configuring computer security
CN111343135A (zh) * 2018-12-19 2020-06-26 中国移动通信集团湖南有限公司 一种网络安全态势检测方法
CN110022319A (zh) * 2019-04-03 2019-07-16 北京奇安信科技有限公司 攻击数据的安全隔离方法、装置、计算机设备及存储设备
CN111478920A (zh) * 2020-04-27 2020-07-31 深信服科技股份有限公司 一种隐蔽信道通信检测方法、装置及设备
CN111988289A (zh) * 2020-08-04 2020-11-24 厦门理工学院 Epa工业控制网络安全测试系统及方法
CN112468370A (zh) * 2020-11-30 2021-03-09 北京锐驰信安技术有限公司 一种支持自定义规则的高速网络报文监测分析方法及系统

Also Published As

Publication number Publication date
CN113313216B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN109639481B (zh) 一种基于深度学习的网络流量分类方法、系统及电子设备
CN109960729B (zh) Http恶意流量的检测方法及系统
CN110808945B (zh) 一种基于元学习的小样本场景下网络入侵检测方法
CN111917740B (zh) 一种异常流量告警日志检测方法、装置、设备及介质
WO2022041406A1 (zh) 一种基于ocr和迁移学习的app违规监测方法
CN107819646A (zh) 一种分布式传输的网络流量分类系统和方法
CN111897962A (zh) 一种物联网资产标记方法及装置
CN108491866A (zh) 色情图片鉴定方法、电子装置及可读存储介质
CN112600793A (zh) 一种基于机器学习的物联网设备分类识别方法及系统
CN115600128A (zh) 一种半监督加密流量分类方法、装置及存储介质
CN114915575B (zh) 一种基于人工智能的网络流量检测装置
CN114708539A (zh) 图像类型识别方法及其装置、设备、介质、产品
Wang et al. An unknown protocol syntax analysis method based on convolutional neural network
CN110225009A (zh) 一种基于通信行为画像的代理使用者检测方法
CN113313216B (zh) 网络数据的主体抽取方法、装置、电子设备及存储介质
CN117765348A (zh) 目标检测模型的部署方法和目标检测方法及电子设备
CN113315792B (zh) 网络数据的客体抽取方法、装置、电子设备及存储介质
CN116248346A (zh) 面向智慧城市的cps网络安全态势感知建立方法和系统
CN109194756A (zh) 应用程序特征信息提取方法及装置
CN115018783A (zh) 一种视频水印检测方法和装置、电子设备和存储介质
Kumar et al. Machine learning based traffic classification using low level features and statistical analysis
CN112436969A (zh) 一种物联网设备管理方法、系统、设备及介质
US20240220610A1 (en) Security data processing device, security data processing method, and computer-readable storage medium for storing program for processing security data
CN113242240B (zh) 一种可检测多种类应用层DDoS攻击的方法和装置
Wang et al. WSNet: A Wrapper-Based Stacking Network for Multi-scenes Classification of DApps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant