CN105681211A - 基于信息萃取的流量记录方法和系统 - Google Patents

基于信息萃取的流量记录方法和系统 Download PDF

Info

Publication number
CN105681211A
CN105681211A CN201511015280.4A CN201511015280A CN105681211A CN 105681211 A CN105681211 A CN 105681211A CN 201511015280 A CN201511015280 A CN 201511015280A CN 105681211 A CN105681211 A CN 105681211A
Authority
CN
China
Prior art keywords
information
real
application protocol
time traffic
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511015280.4A
Other languages
English (en)
Other versions
CN105681211B (zh
Inventor
邱勇良
张栗伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Antiy Electronic Equipment Co Ltd
Original Assignee
Beijing Antiy Electronic Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Antiy Electronic Equipment Co Ltd filed Critical Beijing Antiy Electronic Equipment Co Ltd
Priority to CN201511015280.4A priority Critical patent/CN105681211B/zh
Publication of CN105681211A publication Critical patent/CN105681211A/zh
Application granted granted Critical
Publication of CN105681211B publication Critical patent/CN105681211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了基于信息萃取的流量记录方法和系统,首先构建信息萃取策略,根据不同的情况选择不同的构建方法,捕获实时流量,对实时流量以及TCP和UDP报文进行深度分析,获得所需要的流量信息,对流量信息进行威胁检测,根据检测结果和流量信息查询对应的信息萃取策略,选择合适的信息萃取策略,对实时流量进行信息萃取,保存萃取出的信息。通过本方法解决了传统记录流量方法中,由于流量的持续,导致存储压力过大的问题。

Description

基于信息萃取的流量记录方法和系统
技术领域
本发明涉及计算机网络安全领域,尤其涉及基于信息萃取的流量记录方法和系统。
背景技术
在反APT时代,从原始的流量中事后回溯是最有效的手段,但是要求保存的流量有比较长的时间跨度和信息的完整性的要求。在现有技术中,对历史流量的记录大致分为两个情况,一个就是全部采集存储,其缺陷就是,由于流量的持续,导致数据存储压力过大;另一种情况是采样存储,针对流量的报文或者流进行随机采样,其缺陷是若采样率比例大,则存储压力大,若采样比例小,则对实际事件的分析没有太多用处。
发明内容
针对上述技术问题,本发明提供了基于信息萃取的流量记录方法和系统,
该方法首先构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合,捕获实时流量,对实时流量进行深度分析并获取流量信息,对获取的流量信息进行威胁检测,根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略,基于信息萃取策略,对实时流量进行信息萃取,把萃取出的信息按照流或会话方式保存。
基于信息萃取的流量记录方法,包括:
构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获实时流量;
对实时流量进行深度分析并获取流量信息;
对获取的流量信息进行威胁检测;
根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
基于信息萃取策略,对实时流量进行信息萃取;
把萃取出的信息按照流或会话方式保存。
进一步的,所述信息萃取策略的建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
进一步的,所述对实时流量进行深度分析并获取流量信息,具体为:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
进一步的,所述对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
进一步的,信息萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
基于信息萃取的流量记录系统,包括:
构建模块,用于构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获模块,用于捕获实时流量;
分析模块,用于对实时流量进行深度分析并获取流量信息;
检测模块,用于对获取的流量信息进行威胁检测;
查询模块,用于根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
萃取模块,用于基于信息萃取策略,对实时流量进行信息萃取;
保存模块,用于把萃取出的信息按照流或会话方式保存。
进一步的,所述构建模块中的关系集合建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
进一步的,所述分析模块具体用于:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
进一步的,所述萃取模块中对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
进一步的,萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
本发明涉及基于信息萃取的流量记录方法,本方法中首先构建信息萃取策略,根据不同的情况选择不同的构建方法,捕获实时流量,对实时流量以及TCP和UDP报文进行深度分析,获得所需要的流量信息,对流量信息进行威胁检测,根据检测结果和流量信息查询对应的信息萃取策略,选择合适的信息萃取策略,对实时流量进行信息萃取,保存萃取出的信息。通过本发明克服了现有技术中,记录流量存储压力大的问题,进而通过本发明萃取流量中的有效信息,丢弃无关紧要的数据,合并相同的内容,能够保存时间跨度大的原始流量,以供后续的检测和审查。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于信息萃取的流量记录方法实施例流程图;
图2为本发明提供的基于信息萃取的流量记录系统实施例结构图。
具体实施方式
本发明给出了基于信息萃取的流量记录方法和系统,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:
本发明首先提供了基于信息萃取的流量记录方法,如图1所示,包括:
S101构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
所述信息萃取策略的建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整;
在发现疑似威胁或者确定威胁的情况下,保留流量的完整信息;
S102捕获实时流量;
S103对实时流量进行深度分析并获取流量信息;
所述对实时流量进行深度分析并获取流量信息,具体为:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容;
S104对获取的流量信息进行威胁检测;
S105根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
信息萃取策略包括:
策略(1):只记录流信息,包括:原始信息——五元组信息、应用协议类型、起始和结束时间,统计信息——上下行报文数和字节数统计,具体记录的信息可以扩展,例如在DHCP环境中,增加MAC地址信息;
策略(2):记录流信息、连接信息和应用协议信息;
连接信息包括:起始和结束时间、上下行报文数和字节数统计、其他信息的存储位置;
应用协议信息和对应的应用协议有关,例如:HTTP的host、uri、method、user-agent,邮件协议的收发件人、主题、附件文件名;
策略(3):记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;
策略(4):记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
S106基于信息萃取策略,对实时流量进行信息萃取;
所述对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件;
S107把萃取出的信息按照流或会话方式保存。
针对以上的信息萃取策略,提供一种具体的信息萃取步骤:
步骤(1):适用于所有策略,系统发现流开始建立,将流的五元组信息、流的起始时间保存到流信息结构中,同时基于五元组信息匹配可能的策略,如果为策略1,直接进入到步骤11;
步骤(2):适用于策略2、3、4,新的会话开始,系统将会话的起始时间保存到会话信息结构中;
步骤(3):适用于策略1、2、3、4,如果系统识别出流的应用协议类型,同步应用协议类型到流信息结构中,基于应用协议类型,调整可能适用的策略,如果为策略1,直接进入到步骤11;
步骤(4):适用于策略2、3、4,对报文进行应用协议解码,提取需要保存的应用协议信息,并保存在磁盘,保存的位置记录到会话信息结构中;基于解码的结果,调整可能适用的策略;
步骤(5):适用于策略3、4,如果当前报文包含应用协议头,则保存此报文到磁盘,并将位置信息保存到会话信息结构中;
步骤(6):适用于策略2、3、4,发现特定文件类型的文件传输或者特定的内容传输,则进行内容重组,并还原为文件;基于文件类型或者内容类型决定是否选用策略4;
步骤(7):适用于策略2、3、4,进行威胁检测,并反馈对应的检测结果,如果发现威胁,则使用策略4;
步骤(8):适用于策略4,发现会话中传输内容结束,则将还原的内容以文件的形式保存到磁盘,并将位置信息保存到会话信息结构中,如果发现重复的文件,只保存对应文件的位置信息,不保存当前还原的文件,可以对文件按照HASH值进行消重,例如按照文件的MD5进行消重;
步骤(9):适用于策略2、3、4,系统发现会话结束,更新会话信息结构中的结束时间、上下行报文数和字节数,并保存到磁盘中;
步骤(10):适用于策略2、3、4,如果系统发现新的会话开始,则进入到步骤2;
步骤(11):适用于所有策略,系统发现流关闭,更新流信息结构中的结束时间、上下行报文数和字节数,并保存到磁盘中。
本发明还提供了基于信息萃取的流量记录系统,如图2所示,包括:
构建模块201,用于构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获模块202,用于捕获实时流量;
分析模块203,用于对实时流量进行深度分析并获取流量信息;
检测模块204,用于对获取的流量信息进行威胁检测;
查询模块205,用于根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
萃取模块206,用于基于信息萃取策略,对实时流量进行信息萃取;
保存模块207,用于把萃取出的信息按照流或会话方式保存。
综上所述,本发明涉及基于信息萃取的流量记录方法,本方法中首先构建信息萃取策略,根据不同的情况选择不同的构建方法,捕获实时流量,对实时流量以及TCP和UDP报文进行深度分析,获得所需要的流量信息,对流量信息进行威胁检测,根据检测结果和流量信息查询对应的信息萃取策略,选择合适的信息萃取策略,对实时流量进行信息萃取,保存萃取出的信息。由于流量的持续,记录流量的存储压力过大,本发明克服了这些问题,通过萃取流量中的有效信息,丢弃无关紧要的数据,合并相同的内容,能够保存时间跨度大的原始流量,以供后续的检测和审查。
以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.基于信息萃取的流量记录方法,其特征在于,包括:
构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获实时流量;
对实时流量进行深度分析并获取流量信息;
对获取的流量信息进行威胁检测;
根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
基于信息萃取策略,对实时流量进行信息萃取;
把萃取出的信息按照流或会话方式保存。
2.如权利要求1所述的方法,其特征在于:所述信息萃取策略的建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
3.如权利要求1所述的方法,其特征在于:所述对实时流量进行深度分析并获取流量信息,具体为:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
4.如权利要求1所述的方法,其特征在于:所述对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
5.如权利要求1所述的方法,其特征在于:信息萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
6.基于信息萃取的流量记录系统,其特征在于,包括:
构建模块,用于构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获模块,用于捕获实时流量;
分析模块,用于对实时流量进行深度分析并获取流量信息;
检测模块,用于对获取的流量信息进行威胁检测;
查询模块,用于根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
萃取模块,用于基于信息萃取策略,对实时流量进行信息萃取;
保存模块,用于把萃取出的信息按照流或会话方式保存。
7.如权利要求6所述的系统,其特征在于:所述构建模块中的关系集合建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
8.如权利要求6所述的系统,其特征在于:所述分析模块具体用于:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
9.如权利要求6所述的系统,其特征在于:所述萃取模块中对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
10.如权利要求6所述的系统,其特征在于:萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
CN201511015280.4A 2015-12-31 2015-12-31 基于信息萃取的流量记录方法和系统 Active CN105681211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511015280.4A CN105681211B (zh) 2015-12-31 2015-12-31 基于信息萃取的流量记录方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511015280.4A CN105681211B (zh) 2015-12-31 2015-12-31 基于信息萃取的流量记录方法和系统

Publications (2)

Publication Number Publication Date
CN105681211A true CN105681211A (zh) 2016-06-15
CN105681211B CN105681211B (zh) 2020-07-28

Family

ID=56189720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511015280.4A Active CN105681211B (zh) 2015-12-31 2015-12-31 基于信息萃取的流量记录方法和系统

Country Status (1)

Country Link
CN (1) CN105681211B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254394A (zh) * 2016-09-29 2016-12-21 北京神州绿盟信息安全科技股份有限公司 一种攻击流量的记录方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093513A1 (en) * 2002-11-07 2004-05-13 Tippingpoint Technologies, Inc. Active network defense system and method
CN101562560A (zh) * 2008-04-18 2009-10-21 北京启明星辰信息技术股份有限公司 一种通用流量控制方法及系统
US20100212013A1 (en) * 2007-07-20 2010-08-19 Electronics And Telecommunications Research Instit Log-based traceback system and method using centroid decomposition technique
CN103749001B (zh) * 2010-06-09 2012-02-08 北京理工大学 内部网络安全监控系统的自身防护通用单元
CN102594625A (zh) * 2012-03-07 2012-07-18 北京启明星辰信息技术股份有限公司 一种apt智能检测分析平台中的白数据过滤方法及系统
US20130064095A1 (en) * 2011-09-08 2013-03-14 Earl Chew Traffic Item Impairment Emulation
CN103067192A (zh) * 2011-10-20 2013-04-24 北京天行网安信息技术有限责任公司 一种网络流量的分析系统及方法
CN103825888A (zh) * 2014-02-17 2014-05-28 北京奇虎科技有限公司 网络威胁处理方法及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093513A1 (en) * 2002-11-07 2004-05-13 Tippingpoint Technologies, Inc. Active network defense system and method
US20100212013A1 (en) * 2007-07-20 2010-08-19 Electronics And Telecommunications Research Instit Log-based traceback system and method using centroid decomposition technique
CN101562560A (zh) * 2008-04-18 2009-10-21 北京启明星辰信息技术股份有限公司 一种通用流量控制方法及系统
CN103749001B (zh) * 2010-06-09 2012-02-08 北京理工大学 内部网络安全监控系统的自身防护通用单元
US20130064095A1 (en) * 2011-09-08 2013-03-14 Earl Chew Traffic Item Impairment Emulation
CN103067192A (zh) * 2011-10-20 2013-04-24 北京天行网安信息技术有限责任公司 一种网络流量的分析系统及方法
CN102594625A (zh) * 2012-03-07 2012-07-18 北京启明星辰信息技术股份有限公司 一种apt智能检测分析平台中的白数据过滤方法及系统
CN103825888A (zh) * 2014-02-17 2014-05-28 北京奇虎科技有限公司 网络威胁处理方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱欣嘉: "利用网络回溯分析技术进行异常流量分析", 《网络安全技术与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254394A (zh) * 2016-09-29 2016-12-21 北京神州绿盟信息安全科技股份有限公司 一种攻击流量的记录方法和装置
CN106254394B (zh) * 2016-09-29 2019-07-02 北京神州绿盟信息安全科技股份有限公司 一种攻击流量的记录方法和装置

Also Published As

Publication number Publication date
CN105681211B (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
EP2556632B1 (en) Real-time adaptive processing of network data packets for analysis
US8902754B2 (en) Session-aware GTPv2 load balancing
US20090323536A1 (en) Method, device and system for network interception
US20170048155A1 (en) Protocol type identification method and apparatus
CN104320304A (zh) 一种易扩展的多方式融合的核心网用户流量应用识别方法
US10498618B2 (en) Attributing network address translation device processed traffic to individual hosts
US20110125749A1 (en) Method and Apparatus for Storing and Indexing High-Speed Network Traffic Data
CN105103496A (zh) 用于提取和保存用于分析网络通信的元数据的系统和方法
EP3595297A1 (en) Abnormality detection method, network video recorder (nvr) and video server
CN111222019B (zh) 特征提取的方法和装置
CN109451486B (zh) 基于探测请求帧的WiFi采集系统及WiFi终端探测方法
CN103780505A (zh) 业务处理方法和装置
CN107666486A (zh) 一种基于报文协议特征的网络数据流恢复方法及系统
US9602551B2 (en) Method for providing a law enforcement agency with sampled content of communications
CN111224894A (zh) 一种针对iOS设备的流量采集标记方法及系统
CN111464479B (zh) 终端设备用户身份的识别方法及系统
CN101742547A (zh) 一种基于标记的网络消息关联方法
CN108011870B (zh) 一种软件远程在线升级信息自动识别管理方法
CN105681211A (zh) 基于信息萃取的流量记录方法和系统
CN103068052A (zh) 资源动态配置方法、系统和Portal服务器
CN106789878B (zh) 一种面向大流量环境的文件还原系统以及方法
CN115190056B (zh) 一种可编排的流量协议识别与解析方法、装置及设备
CN102006290A (zh) Ip源地址追溯的方法
CN109639793A (zh) 一种集群nas系统监控方法、装置、设备及介质
CN107483507B (zh) 一种会话分析方法、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Beijing city Haidian District minzhuang Road No. 3, Tsinghua Science Park Building 1 Yuquan Huigu a

Applicant after: Beijing ahtech network Safe Technology Ltd

Address before: 100080 Zhongguancun Haidian District street, No. 14, layer, 1 1415-16

Applicant before: Beijing Antiy Electronic Installation Co., Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant