CN105681211B - 基于信息萃取的流量记录方法和系统 - Google Patents

基于信息萃取的流量记录方法和系统 Download PDF

Info

Publication number
CN105681211B
CN105681211B CN201511015280.4A CN201511015280A CN105681211B CN 105681211 B CN105681211 B CN 105681211B CN 201511015280 A CN201511015280 A CN 201511015280A CN 105681211 B CN105681211 B CN 105681211B
Authority
CN
China
Prior art keywords
information
flow
real
application protocol
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511015280.4A
Other languages
English (en)
Other versions
CN105681211A (zh
Inventor
邱勇良
张栗伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Antiy Network Technology Co Ltd
Original Assignee
Beijing Antiy Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Antiy Network Technology Co Ltd filed Critical Beijing Antiy Network Technology Co Ltd
Priority to CN201511015280.4A priority Critical patent/CN105681211B/zh
Publication of CN105681211A publication Critical patent/CN105681211A/zh
Application granted granted Critical
Publication of CN105681211B publication Critical patent/CN105681211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了基于信息萃取的流量记录方法和系统,首先构建信息萃取策略,根据不同的情况选择不同的构建方法,捕获实时流量,对实时流量以及TCP和UDP报文进行深度分析,获得所需要的流量信息,对流量信息进行威胁检测,根据检测结果和流量信息查询对应的信息萃取策略,选择合适的信息萃取策略,对实时流量进行信息萃取,保存萃取出的信息。通过本方法解决了传统记录流量方法中,由于流量的持续,导致存储压力过大的问题。

Description

基于信息萃取的流量记录方法和系统
技术领域
本发明涉及计算机网络安全领域,尤其涉及基于信息萃取的流量记录方法和系统。
背景技术
在反APT时代,从原始的流量中事后回溯是最有效的手段,但是要求保存的流量有比较长的时间跨度和信息的完整性的要求。在现有技术中,对历史流量的记录大致分为两个情况,一个就是全部采集存储,其缺陷就是,由于流量的持续,导致数据存储压力过大;另一种情况是采样存储,针对流量的报文或者流进行随机采样,其缺陷是若采样率比例大,则存储压力大,若采样比例小,则对实际事件的分析没有太多用处。
发明内容
针对上述技术问题,本发明提供了基于信息萃取的流量记录方法和系统,该方法首先构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合,捕获实时流量,对实时流量进行深度分析并获取流量信息,对获取的流量信息进行威胁检测,根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略,基于信息萃取策略,对实时流量进行信息萃取,把萃取出的信息按照流或会话方式保存。
基于信息萃取的流量记录方法,包括:
构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获实时流量;
对实时流量进行深度分析并获取流量信息;
对获取的流量信息进行威胁检测;
根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
基于信息萃取策略,对实时流量进行信息萃取;
把萃取出的信息按照流或会话方式保存;
信息萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
进一步的,所述信息萃取策略的建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
进一步的,所述对实时流量进行深度分析并获取流量信息,具体为:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
进一步的,所述对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
基于信息萃取的流量记录系统,包括:
构建模块,用于构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获模块,用于捕获实时流量;
分析模块,用于对实时流量进行深度分析并获取流量信息;
检测模块,用于对获取的流量信息进行威胁检测;
查询模块,用于根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
萃取模块,用于基于信息萃取策略,对实时流量进行信息萃取;
保存模块,用于把萃取出的信息按照流或会话方式保存;
信息萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
进一步的,所述构建模块中的关系集合建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
进一步的,所述分析模块具体用于:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
进一步的,所述萃取模块中对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
本发明涉及基于信息萃取的流量记录方法,本方法中首先构建信息萃取策略,根据不同的情况选择不同的构建方法,捕获实时流量,对实时流量以及TCP和UDP报文进行深度分析,获得所需要的流量信息,对流量信息进行威胁检测,根据检测结果和流量信息查询对应的信息萃取策略,选择合适的信息萃取策略,对实时流量进行信息萃取,保存萃取出的信息。通过本发明克服了现有技术中,记录流量存储压力大的问题,进而通过本发明萃取流量中的有效信息,丢弃无关紧要的数据,合并相同的内容,能够保存时间跨度大的原始流量,以供后续的检测和审查。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于信息萃取的流量记录方法实施例流程图;
图2为本发明提供的基于信息萃取的流量记录系统实施例结构图。
具体实施方式
本发明给出了基于信息萃取的流量记录方法和系统,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:
本发明首先提供了基于信息萃取的流量记录方法,如图1所示,包括:
S101构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
所述信息萃取策略的建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整;
在发现疑似威胁或者确定威胁的情况下,保留流量的完整信息;
S102捕获实时流量;
S103对实时流量进行深度分析并获取流量信息;
所述对实时流量进行深度分析并获取流量信息,具体为:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容;
S104对获取的流量信息进行威胁检测;
S105根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
信息萃取策略包括:
策略(1):只记录流信息,包括:原始信息——五元组信息、应用协议类型、起始和结束时间,统计信息——上下行报文数和字节数统计,具体记录的信息可以扩展,例如在DHCP环境中,增加MAC地址信息;
策略(2):记录流信息、连接信息和应用协议信息;
连接信息包括:起始和结束时间、上下行报文数和字节数统计、其他信息的存储位置;
应用协议信息和对应的应用协议有关,例如:HTTP的host、uri、method、user-agent,邮件协议的收发件人、主题、附件文件名;
策略(3):记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;
策略(4):记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
S106基于信息萃取策略,对实时流量进行信息萃取;
所述对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件;
S107把萃取出的信息按照流或会话方式保存。
针对以上的信息萃取策略,提供一种具体的信息萃取步骤:
步骤(1):适用于所有策略,系统发现流开始建立,将流的五元组信息、流的起始时间保存到流信息结构中,同时基于五元组信息匹配可能的策略,如果为策略1,直接进入到步骤11;
步骤(2):适用于策略2、3、4,新的会话开始,系统将会话的起始时间保存到会话信息结构中;
步骤(3):适用于策略1、2、3、4,如果系统识别出流的应用协议类型,同步应用协议类型到流信息结构中,基于应用协议类型,调整可能适用的策略,如果为策略1,直接进入到步骤11;
步骤(4):适用于策略2、3、4,对报文进行应用协议解码,提取需要保存的应用协议信息,并保存在磁盘,保存的位置记录到会话信息结构中;基于解码的结果,调整可能适用的策略;
步骤(5):适用于策略3、4,如果当前报文包含应用协议头,则保存此报文到磁盘,并将位置信息保存到会话信息结构中;
步骤(6):适用于策略2、3、4,发现特定文件类型的文件传输或者特定的内容传输,则进行内容重组,并还原为文件;基于文件类型或者内容类型决定是否选用策略4;
步骤(7):适用于策略2、3、4,进行威胁检测,并反馈对应的检测结果,如果发现威胁,则使用策略4;
步骤(8):适用于策略4,发现会话中传输内容结束,则将还原的内容以文件的形式保存到磁盘,并将位置信息保存到会话信息结构中,如果发现重复的文件,只保存对应文件的位置信息,不保存当前还原的文件,可以对文件按照HASH值进行消重,例如按照文件的MD5进行消重;
步骤(9):适用于策略2、3、4,系统发现会话结束,更新会话信息结构中的结束时间、上下行报文数和字节数,并保存到磁盘中;
步骤(10):适用于策略2、3、4,如果系统发现新的会话开始,则进入到步骤2;
步骤(11):适用于所有策略,系统发现流关闭,更新流信息结构中的结束时间、上下行报文数和字节数,并保存到磁盘中。
本发明还提供了基于信息萃取的流量记录系统,如图2所示,包括:
构建模块201,用于构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获模块202,用于捕获实时流量;
分析模块203,用于对实时流量进行深度分析并获取流量信息;
检测模块204,用于对获取的流量信息进行威胁检测;
查询模块205,用于根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
萃取模块206,用于基于信息萃取策略,对实时流量进行信息萃取;
保存模块207,用于把萃取出的信息按照流或会话方式保存。
综上所述,本发明涉及基于信息萃取的流量记录方法,本方法中首先构建信息萃取策略,根据不同的情况选择不同的构建方法,捕获实时流量,对实时流量以及TCP和UDP报文进行深度分析,获得所需要的流量信息,对流量信息进行威胁检测,根据检测结果和流量信息查询对应的信息萃取策略,选择合适的信息萃取策略,对实时流量进行信息萃取,保存萃取出的信息。由于流量的持续,记录流量的存储压力过大,本发明克服了这些问题,通过萃取流量中的有效信息,丢弃无关紧要的数据,合并相同的内容,能够保存时间跨度大的原始流量,以供后续的检测和审查。
以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.基于信息萃取的流量记录方法,其特征在于,包括:
构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获实时流量;
对实时流量进行深度分析并获取流量信息;
对获取的流量信息进行威胁检测;
根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
基于信息萃取策略,对实时流量进行信息萃取;
把萃取出的信息按照流或会话方式保存;
信息萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
2.如权利要求1所述的方法,其特征在于:所述信息萃取策略的建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
3.如权利要求1所述的方法,其特征在于:所述对实时流量进行深度分析并获取流量信息,具体为:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
4.如权利要求1所述的方法,其特征在于:所述对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
5.基于信息萃取的流量记录系统,其特征在于,包括:
构建模块,用于构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获模块,用于捕获实时流量;
分析模块,用于对实时流量进行深度分析并获取流量信息;
检测模块,用于对获取的流量信息进行威胁检测;
查询模块,用于根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
萃取模块,用于基于信息萃取策略,对实时流量进行信息萃取;
保存模块,用于把萃取出的信息按照流或会话方式保存;
萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
6.如权利要求5所述的系统,其特征在于:所述构建模块中的关系集合建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
7.如权利要求5所述的系统,其特征在于:所述分析模块具体用于:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
8.如权利要求5所述的系统,其特征在于:所述萃取模块中对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
CN201511015280.4A 2015-12-31 2015-12-31 基于信息萃取的流量记录方法和系统 Active CN105681211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511015280.4A CN105681211B (zh) 2015-12-31 2015-12-31 基于信息萃取的流量记录方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511015280.4A CN105681211B (zh) 2015-12-31 2015-12-31 基于信息萃取的流量记录方法和系统

Publications (2)

Publication Number Publication Date
CN105681211A CN105681211A (zh) 2016-06-15
CN105681211B true CN105681211B (zh) 2020-07-28

Family

ID=56189720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511015280.4A Active CN105681211B (zh) 2015-12-31 2015-12-31 基于信息萃取的流量记录方法和系统

Country Status (1)

Country Link
CN (1) CN105681211B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254394B (zh) * 2016-09-29 2019-07-02 北京神州绿盟信息安全科技股份有限公司 一种攻击流量的记录方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102594625A (zh) * 2012-03-07 2012-07-18 北京启明星辰信息技术股份有限公司 一种apt智能检测分析平台中的白数据过滤方法及系统
CN103067192A (zh) * 2011-10-20 2013-04-24 北京天行网安信息技术有限责任公司 一种网络流量的分析系统及方法
CN103825888A (zh) * 2014-02-17 2014-05-28 北京奇虎科技有限公司 网络威胁处理方法及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454499B2 (en) * 2002-11-07 2008-11-18 Tippingpoint Technologies, Inc. Active network defense system and method
KR100922582B1 (ko) * 2007-07-20 2009-10-21 한국전자통신연구원 중심점 분할 기법을 이용한 로그 기반의 역추적 시스템 및방법
CN101562560A (zh) * 2008-04-18 2009-10-21 北京启明星辰信息技术股份有限公司 一种通用流量控制方法及系统
US9065770B2 (en) * 2011-09-08 2015-06-23 Ixia Traffic item impairment emulation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067192A (zh) * 2011-10-20 2013-04-24 北京天行网安信息技术有限责任公司 一种网络流量的分析系统及方法
CN102594625A (zh) * 2012-03-07 2012-07-18 北京启明星辰信息技术股份有限公司 一种apt智能检测分析平台中的白数据过滤方法及系统
CN103825888A (zh) * 2014-02-17 2014-05-28 北京奇虎科技有限公司 网络威胁处理方法及设备

Also Published As

Publication number Publication date
CN105681211A (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
USRE49126E1 (en) Real-time adaptive processing of network data packets for analysis
US10652265B2 (en) Method and apparatus for network forensics compression and storage
CN106815112B (zh) 一种基于深度包检测的海量数据监控系统及方法
EP2434689B1 (en) Method and apparatus for detecting message
US20190075049A1 (en) Determining Direction of Network Sessions
CN102769549B (zh) 网络安全监控的方法和装置
KR101122210B1 (ko) 행동 시그너처에 기초해서 p2p 애플리케이션을 식별하기 위한 시스템 및 방법
US11683255B2 (en) Apparatus and method for capturing packets before and after network communication failure
CN109818970B (zh) 一种数据处理方法及装置
CN102045305B (zh) 一种多媒体资源传播的监测追踪方法和系统
CN103780610A (zh) 基于协议特征的网络数据恢复方法
CN107666486A (zh) 一种基于报文协议特征的网络数据流恢复方法及系统
CN112019449B (zh) 流量识别抓包方法和装置
CN102468987A (zh) 网络流特征向量提取方法
CN105490865A (zh) 一种实现流量分析的方法及装置
CN115499230A (zh) 网络攻击检测方法和装置、设备及存储介质
CN102271086B (zh) 发送报文的方法和装置
CN110691007A (zh) 一种精确测量quic连接丢包率的方法
CN105681211B (zh) 基于信息萃取的流量记录方法和系统
CN111224891B (zh) 一种基于动态学习三元组的流量应用识别系统及方法
CN102595467B (zh) 一种数据采集方法和设备
CN101494663B (zh) 基于对等网络的主动识别方法及设备
CN116233317A (zh) 面向网络流量的实时VoLTE语音还原、检测方法和装置
WO2017140076A1 (zh) 一种数据传输方法及装置
CN112399209B (zh) 一种视频业务识别处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
CB02 Change of applicant information

Address after: Beijing city Haidian District minzhuang Road No. 3, Tsinghua Science Park Building 1 Yuquan Huigu a

Applicant after: Beijing ahtech network Safe Technology Ltd

Address before: 100080 Zhongguancun Haidian District street, No. 14, layer, 1 1415-16

Applicant before: Beijing Antiy Electronic Installation Co., Ltd.

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant