CN105681211B - 基于信息萃取的流量记录方法和系统 - Google Patents
基于信息萃取的流量记录方法和系统 Download PDFInfo
- Publication number
- CN105681211B CN105681211B CN201511015280.4A CN201511015280A CN105681211B CN 105681211 B CN105681211 B CN 105681211B CN 201511015280 A CN201511015280 A CN 201511015280A CN 105681211 B CN105681211 B CN 105681211B
- Authority
- CN
- China
- Prior art keywords
- information
- flow
- real
- application protocol
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了基于信息萃取的流量记录方法和系统,首先构建信息萃取策略,根据不同的情况选择不同的构建方法,捕获实时流量,对实时流量以及TCP和UDP报文进行深度分析,获得所需要的流量信息,对流量信息进行威胁检测,根据检测结果和流量信息查询对应的信息萃取策略,选择合适的信息萃取策略,对实时流量进行信息萃取,保存萃取出的信息。通过本方法解决了传统记录流量方法中,由于流量的持续,导致存储压力过大的问题。
Description
技术领域
本发明涉及计算机网络安全领域,尤其涉及基于信息萃取的流量记录方法和系统。
背景技术
在反APT时代,从原始的流量中事后回溯是最有效的手段,但是要求保存的流量有比较长的时间跨度和信息的完整性的要求。在现有技术中,对历史流量的记录大致分为两个情况,一个就是全部采集存储,其缺陷就是,由于流量的持续,导致数据存储压力过大;另一种情况是采样存储,针对流量的报文或者流进行随机采样,其缺陷是若采样率比例大,则存储压力大,若采样比例小,则对实际事件的分析没有太多用处。
发明内容
针对上述技术问题,本发明提供了基于信息萃取的流量记录方法和系统,该方法首先构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合,捕获实时流量,对实时流量进行深度分析并获取流量信息,对获取的流量信息进行威胁检测,根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略,基于信息萃取策略,对实时流量进行信息萃取,把萃取出的信息按照流或会话方式保存。
基于信息萃取的流量记录方法,包括:
构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获实时流量;
对实时流量进行深度分析并获取流量信息;
对获取的流量信息进行威胁检测;
根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
基于信息萃取策略,对实时流量进行信息萃取;
把萃取出的信息按照流或会话方式保存;
信息萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
进一步的,所述信息萃取策略的建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
进一步的,所述对实时流量进行深度分析并获取流量信息,具体为:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
进一步的,所述对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
基于信息萃取的流量记录系统,包括:
构建模块,用于构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获模块,用于捕获实时流量;
分析模块,用于对实时流量进行深度分析并获取流量信息;
检测模块,用于对获取的流量信息进行威胁检测;
查询模块,用于根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
萃取模块,用于基于信息萃取策略,对实时流量进行信息萃取;
保存模块,用于把萃取出的信息按照流或会话方式保存;
信息萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
进一步的,所述构建模块中的关系集合建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
进一步的,所述分析模块具体用于:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
进一步的,所述萃取模块中对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
本发明涉及基于信息萃取的流量记录方法,本方法中首先构建信息萃取策略,根据不同的情况选择不同的构建方法,捕获实时流量,对实时流量以及TCP和UDP报文进行深度分析,获得所需要的流量信息,对流量信息进行威胁检测,根据检测结果和流量信息查询对应的信息萃取策略,选择合适的信息萃取策略,对实时流量进行信息萃取,保存萃取出的信息。通过本发明克服了现有技术中,记录流量存储压力大的问题,进而通过本发明萃取流量中的有效信息,丢弃无关紧要的数据,合并相同的内容,能够保存时间跨度大的原始流量,以供后续的检测和审查。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于信息萃取的流量记录方法实施例流程图;
图2为本发明提供的基于信息萃取的流量记录系统实施例结构图。
具体实施方式
本发明给出了基于信息萃取的流量记录方法和系统,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:
本发明首先提供了基于信息萃取的流量记录方法,如图1所示,包括:
S101构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
所述信息萃取策略的建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整;
在发现疑似威胁或者确定威胁的情况下,保留流量的完整信息;
S102捕获实时流量;
S103对实时流量进行深度分析并获取流量信息;
所述对实时流量进行深度分析并获取流量信息,具体为:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容;
S104对获取的流量信息进行威胁检测;
S105根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
信息萃取策略包括:
策略(1):只记录流信息,包括:原始信息——五元组信息、应用协议类型、起始和结束时间,统计信息——上下行报文数和字节数统计,具体记录的信息可以扩展,例如在DHCP环境中,增加MAC地址信息;
策略(2):记录流信息、连接信息和应用协议信息;
连接信息包括:起始和结束时间、上下行报文数和字节数统计、其他信息的存储位置;
应用协议信息和对应的应用协议有关,例如:HTTP的host、uri、method、user-agent,邮件协议的收发件人、主题、附件文件名;
策略(3):记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;
策略(4):记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
S106基于信息萃取策略,对实时流量进行信息萃取;
所述对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件;
S107把萃取出的信息按照流或会话方式保存。
针对以上的信息萃取策略,提供一种具体的信息萃取步骤:
步骤(1):适用于所有策略,系统发现流开始建立,将流的五元组信息、流的起始时间保存到流信息结构中,同时基于五元组信息匹配可能的策略,如果为策略1,直接进入到步骤11;
步骤(2):适用于策略2、3、4,新的会话开始,系统将会话的起始时间保存到会话信息结构中;
步骤(3):适用于策略1、2、3、4,如果系统识别出流的应用协议类型,同步应用协议类型到流信息结构中,基于应用协议类型,调整可能适用的策略,如果为策略1,直接进入到步骤11;
步骤(4):适用于策略2、3、4,对报文进行应用协议解码,提取需要保存的应用协议信息,并保存在磁盘,保存的位置记录到会话信息结构中;基于解码的结果,调整可能适用的策略;
步骤(5):适用于策略3、4,如果当前报文包含应用协议头,则保存此报文到磁盘,并将位置信息保存到会话信息结构中;
步骤(6):适用于策略2、3、4,发现特定文件类型的文件传输或者特定的内容传输,则进行内容重组,并还原为文件;基于文件类型或者内容类型决定是否选用策略4;
步骤(7):适用于策略2、3、4,进行威胁检测,并反馈对应的检测结果,如果发现威胁,则使用策略4;
步骤(8):适用于策略4,发现会话中传输内容结束,则将还原的内容以文件的形式保存到磁盘,并将位置信息保存到会话信息结构中,如果发现重复的文件,只保存对应文件的位置信息,不保存当前还原的文件,可以对文件按照HASH值进行消重,例如按照文件的MD5进行消重;
步骤(9):适用于策略2、3、4,系统发现会话结束,更新会话信息结构中的结束时间、上下行报文数和字节数,并保存到磁盘中;
步骤(10):适用于策略2、3、4,如果系统发现新的会话开始,则进入到步骤2;
步骤(11):适用于所有策略,系统发现流关闭,更新流信息结构中的结束时间、上下行报文数和字节数,并保存到磁盘中。
本发明还提供了基于信息萃取的流量记录系统,如图2所示,包括:
构建模块201,用于构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获模块202,用于捕获实时流量;
分析模块203,用于对实时流量进行深度分析并获取流量信息;
检测模块204,用于对获取的流量信息进行威胁检测;
查询模块205,用于根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
萃取模块206,用于基于信息萃取策略,对实时流量进行信息萃取;
保存模块207,用于把萃取出的信息按照流或会话方式保存。
综上所述,本发明涉及基于信息萃取的流量记录方法,本方法中首先构建信息萃取策略,根据不同的情况选择不同的构建方法,捕获实时流量,对实时流量以及TCP和UDP报文进行深度分析,获得所需要的流量信息,对流量信息进行威胁检测,根据检测结果和流量信息查询对应的信息萃取策略,选择合适的信息萃取策略,对实时流量进行信息萃取,保存萃取出的信息。由于流量的持续,记录流量的存储压力过大,本发明克服了这些问题,通过萃取流量中的有效信息,丢弃无关紧要的数据,合并相同的内容,能够保存时间跨度大的原始流量,以供后续的检测和审查。
以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.基于信息萃取的流量记录方法,其特征在于,包括:
构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获实时流量;
对实时流量进行深度分析并获取流量信息;
对获取的流量信息进行威胁检测;
根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
基于信息萃取策略,对实时流量进行信息萃取;
把萃取出的信息按照流或会话方式保存;
信息萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
2.如权利要求1所述的方法,其特征在于:所述信息萃取策略的建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
3.如权利要求1所述的方法,其特征在于:所述对实时流量进行深度分析并获取流量信息,具体为:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
4.如权利要求1所述的方法,其特征在于:所述对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
5.基于信息萃取的流量记录系统,其特征在于,包括:
构建模块,用于构建信息萃取策略,建立流量信息和需要萃取的信息之间的关系集合;
捕获模块,用于捕获实时流量;
分析模块,用于对实时流量进行深度分析并获取流量信息;
检测模块,用于对获取的流量信息进行威胁检测;
查询模块,用于根据获取的流量信息和威胁检测结果,查询对应的信息萃取策略;
萃取模块,用于基于信息萃取策略,对实时流量进行信息萃取;
保存模块,用于把萃取出的信息按照流或会话方式保存;
萃取策略包括:只记录流信息;记录流信息、连接信息和应用协议信息;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文;记录流信息、连接信息、应用协议信息或者带应用协议头的原始报文、传输中的文件/特定内容。
6.如权利要求5所述的系统,其特征在于:所述构建模块中的关系集合建立方法包括:(1)直接内置到系统中;(2)根据用户的实际需求进行定制;(3)根据威胁检测结果动态调整。
7.如权利要求5所述的系统,其特征在于:所述分析模块具体用于:针对实时流量以及TCP和UDP报文进行深度分析,识别出TCP和UDP报文所属的流和会话,识别出实时流量中的基本协议类型、应用协议类型、地址信息、应用协议信息以及传输的负载内容。
8.如权利要求5所述的系统,其特征在于:所述萃取模块中对实时流量进行信息萃取包括萃取流信息、会话信息、协议信息、原始报文、负载传输文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511015280.4A CN105681211B (zh) | 2015-12-31 | 2015-12-31 | 基于信息萃取的流量记录方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511015280.4A CN105681211B (zh) | 2015-12-31 | 2015-12-31 | 基于信息萃取的流量记录方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105681211A CN105681211A (zh) | 2016-06-15 |
CN105681211B true CN105681211B (zh) | 2020-07-28 |
Family
ID=56189720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511015280.4A Active CN105681211B (zh) | 2015-12-31 | 2015-12-31 | 基于信息萃取的流量记录方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105681211B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106254394B (zh) * | 2016-09-29 | 2019-07-02 | 北京神州绿盟信息安全科技股份有限公司 | 一种攻击流量的记录方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102594625A (zh) * | 2012-03-07 | 2012-07-18 | 北京启明星辰信息技术股份有限公司 | 一种apt智能检测分析平台中的白数据过滤方法及系统 |
CN103067192A (zh) * | 2011-10-20 | 2013-04-24 | 北京天行网安信息技术有限责任公司 | 一种网络流量的分析系统及方法 |
CN103825888A (zh) * | 2014-02-17 | 2014-05-28 | 北京奇虎科技有限公司 | 网络威胁处理方法及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7454499B2 (en) * | 2002-11-07 | 2008-11-18 | Tippingpoint Technologies, Inc. | Active network defense system and method |
KR100922582B1 (ko) * | 2007-07-20 | 2009-10-21 | 한국전자통신연구원 | 중심점 분할 기법을 이용한 로그 기반의 역추적 시스템 및방법 |
CN101562560A (zh) * | 2008-04-18 | 2009-10-21 | 北京启明星辰信息技术股份有限公司 | 一种通用流量控制方法及系统 |
US9065770B2 (en) * | 2011-09-08 | 2015-06-23 | Ixia | Traffic item impairment emulation |
-
2015
- 2015-12-31 CN CN201511015280.4A patent/CN105681211B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103067192A (zh) * | 2011-10-20 | 2013-04-24 | 北京天行网安信息技术有限责任公司 | 一种网络流量的分析系统及方法 |
CN102594625A (zh) * | 2012-03-07 | 2012-07-18 | 北京启明星辰信息技术股份有限公司 | 一种apt智能检测分析平台中的白数据过滤方法及系统 |
CN103825888A (zh) * | 2014-02-17 | 2014-05-28 | 北京奇虎科技有限公司 | 网络威胁处理方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105681211A (zh) | 2016-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
USRE49126E1 (en) | Real-time adaptive processing of network data packets for analysis | |
US10652265B2 (en) | Method and apparatus for network forensics compression and storage | |
CN106815112B (zh) | 一种基于深度包检测的海量数据监控系统及方法 | |
EP2434689B1 (en) | Method and apparatus for detecting message | |
US20190075049A1 (en) | Determining Direction of Network Sessions | |
CN102769549B (zh) | 网络安全监控的方法和装置 | |
KR101122210B1 (ko) | 행동 시그너처에 기초해서 p2p 애플리케이션을 식별하기 위한 시스템 및 방법 | |
US11683255B2 (en) | Apparatus and method for capturing packets before and after network communication failure | |
CN109818970B (zh) | 一种数据处理方法及装置 | |
CN102045305B (zh) | 一种多媒体资源传播的监测追踪方法和系统 | |
CN103780610A (zh) | 基于协议特征的网络数据恢复方法 | |
CN107666486A (zh) | 一种基于报文协议特征的网络数据流恢复方法及系统 | |
CN112019449B (zh) | 流量识别抓包方法和装置 | |
CN102468987A (zh) | 网络流特征向量提取方法 | |
CN105490865A (zh) | 一种实现流量分析的方法及装置 | |
CN115499230A (zh) | 网络攻击检测方法和装置、设备及存储介质 | |
CN102271086B (zh) | 发送报文的方法和装置 | |
CN110691007A (zh) | 一种精确测量quic连接丢包率的方法 | |
CN105681211B (zh) | 基于信息萃取的流量记录方法和系统 | |
CN111224891B (zh) | 一种基于动态学习三元组的流量应用识别系统及方法 | |
CN102595467B (zh) | 一种数据采集方法和设备 | |
CN101494663B (zh) | 基于对等网络的主动识别方法及设备 | |
CN116233317A (zh) | 面向网络流量的实时VoLTE语音还原、检测方法和装置 | |
WO2017140076A1 (zh) | 一种数据传输方法及装置 | |
CN112399209B (zh) | 一种视频业务识别处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information |
Address after: Beijing city Haidian District minzhuang Road No. 3, Tsinghua Science Park Building 1 Yuquan Huigu a Applicant after: Beijing ahtech network Safe Technology Ltd Address before: 100080 Zhongguancun Haidian District street, No. 14, layer, 1 1415-16 Applicant before: Beijing Antiy Electronic Installation Co., Ltd. |
|
CB02 | Change of applicant information | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |