CN113965408B - 一种http报文的提取方法、装置、介质及设备 - Google Patents

一种http报文的提取方法、装置、介质及设备 Download PDF

Info

Publication number
CN113965408B
CN113965408B CN202111318470.9A CN202111318470A CN113965408B CN 113965408 B CN113965408 B CN 113965408B CN 202111318470 A CN202111318470 A CN 202111318470A CN 113965408 B CN113965408 B CN 113965408B
Authority
CN
China
Prior art keywords
extraction
session
session data
type field
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111318470.9A
Other languages
English (en)
Other versions
CN113965408A (zh
Inventor
田慧萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202111318470.9A priority Critical patent/CN113965408B/zh
Publication of CN113965408A publication Critical patent/CN113965408A/zh
Priority to PCT/CN2022/095553 priority patent/WO2023082605A1/zh
Application granted granted Critical
Publication of CN113965408B publication Critical patent/CN113965408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请实施例公开了一种HTTP报文的提取方法、装置、介质及设备。其中,该方法包括:获取会话数据;所述会话数据包括请求报文;根据HTTP协议,对所述请求报文进行解析,得到解析结果;根据所述解析结果,生成会话类别字段;所述会话类别字段用于标识所述会话数据;若所述会话类别字段在预先获取的提取过滤表中,则不对所述会话数据进行提取;所述提取过滤表包括会话类别字段信息。本技术方案,可以提高HTTP报文提取的时效性,减少无用数据传播的资源损耗,降低有害数据的传播风险。

Description

一种HTTP报文的提取方法、装置、介质及设备
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种HTTP报文的提取方法、装置、介质及设备。
背景技术
随着互联网技术的迅速发展,不法分子利用网络进行诈骗、虚假宣传等行为层出不穷,网络安全性也越来越引发人们的关注。其中,不法分子的大部分数据是通过HTTP报文进行传输的,因此,从HTTP报文中提取关键信息进行识别具有较大价值。
目前,互联网领域主要通过对HTTP报文进行全文提取,来分析其中的有害信息和垃圾信息。为了最小化有害信息和垃圾信息的影响,互联网企业通常需要对全部HTTP报文进行提取处理。
由于网络中存在着海量的HTTP报文,现有技术方案使得提取和分析任务繁重,并且对于HTTP报文的处理速度难以应对网络信息的多变性。因此,需要提高提取HTTP报文的时效性,进而有效降低数据后续传播的风险和资源损耗。
发明内容
本申请实施例提供一种HTTP报文的提取方法、装置、介质及设备,可以通过提取过滤表,来对会话数据进行筛选,从而实现提高HTTP报文提取效率的目的。
第一方面,本申请实施例提供了一种HTTP报文的提取方法,所述方法包括:
获取会话数据;所述会话数据包括请求报文;
根据HTTP协议,对所述请求报文进行解析,得到解析结果;
根据所述解析结果,生成会话类别字段;所述会话类别字段用于标识所述会话数据;
若所述会话类别字段在预先获取的提取过滤表中,则不对所述会话数据进行提取;所述提取过滤表包括会话类别字段信息。
第二方面,本申请实施例提供了一种HTTP报文的提取装置,该装置包括:
会话数据获取模块,用于获取会话数据;所述会话数据包括请求报文;
解析结果生成模块,用于根据HTTP协议,对所述请求报文进行解析,得到解析结果;
会话类别字段生成模块,用于根据所述解析结果,生成会话类别字段;所述会话类别字段用于标识所述会话数据;
会话数据提取过滤模块,用于若所述会话类别字段在预先获取的提取过滤表中,则不对所述会话数据进行提取;所述提取过滤表包括会话类别字段信息。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的HTTP报文的提取方法。
第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的HTTP报文的提取方法。
本申请实施例所提供的技术方案,通过根据HTTP协议,对获取到的会话数据中的请求报文进行解析,得到解析结果。进而根据解析结果,生成会话类别字段。如果会话类别字段在预先获取的提取过滤表中,则不对会话数据进行提取。本技术方案通过提取过滤表,可以对待提取的会话数据进行筛选,可以提高HTTP报文提取的时效性,减少无用数据传播的资源损耗,降低有害数据的传播风险。
附图说明
图1是本申请实施例一提供的HTTP报文的提取方法的流程图;
图2为本发明实施例二中的HTTP报文的提取方法的流程图;
图3为本发明实施例三提供的一种HTTP报文的提取装置的结构示意图;
图4是本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本申请实施例一提供的HTTP报文的提取方法的流程图,本实施例可适用于HTTP报文的提取场景,该方法可以由本申请实施例所提供的HTTP报文的提取装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于电子设备中。
如图1所示,所述HTTP报文的提取方法包括:
S110,获取会话数据;所述会话数据包括请求报文。
本方案可以由HTTP报文的提取系统完成,所述HTTP报文的提取系统可以包括服务器、路由设备以及分流设备等。HTTP报文的提取系统可以利用分流设备在路由设备上进行数据分流,并对上行和下行流量进行镜像,以保证获取到的HTTP会话的完整性。可以理解的,所述会话数据可以包括请求报文,还可以包括响应报文。所述请求报文可以包括请求行、请求头部以及请求实体等部分。类似的,所述响应报文可以包括响应行、响应头部以及响应实体等部分。
S120,根据HTTP协议,对所述请求报文进行解析,得到解析结果。
获取到完整的会话数据之后,根据HTTP协议,服务器可以对会话数据中的请求报文进行解析。通过解析请求报文,服务器可以得到请求报文中的URI、Host、User-Agent、Referer、Cookie、Range、Content-Length以及Content-Type等各部分的具体信息。
S130,根据所述解析结果,生成会话类别字段;所述会话类别字段用于标识所述会话数据。
由于解析信息十分丰富,服务器可以根据筛选需要选择解析结果中的部分信息,利用关键信息来标记会话数据的类别。例如可以选择URI、HOST、User-Agent以及Content-Type作为关键信息来区分会话数据的类别。为了表示方便,服务器可以将选择的关键信息组合成会话类别字段,以便比较和读取。
S140,若所述会话类别字段在预先获取的提取过滤表中,则不对所述会话数据进行提取;所述提取过滤表包括会话类别字段信息。
在进行会话数据筛选之前,服务器可以预先获取提取过滤表。所述提取过滤表用于按照场景需求筛选会话数据。所述提取过滤表可以包括会话类别字段信息。利用会话数据对应的会话类别字段,在提取过滤表中查找是否有相同的会话类别信息,则认为所述会话类别字段在提取过滤表中。服务器也可以将所述会话类别字段在提取过滤表中与会话类别信息进行逐条匹配,并计算匹配度,当匹配度达到某一预设阈值时,则认为所述会话类别字段在提取过滤表中。
在一个优选的方案中,可选的,所述提取过滤表还包括记录时长信息;其中,所述会话类别字段信息与所述记录时长信息一一对应;
相应的,在获取到所述提取过滤表之后,所述方法还包括:
若所述会话类别字段在所述提取过滤表中,且,所述记录时长超过预设时长阈值,则对所述会话数据进行提取;
若所述会话类别字段不在所述提取过滤表中,或,所述记录时长不超过预设时长阈值,则不对所述会话数据进行提取。
由于网络信息的多变性,会话数据也会发生变化。这种情况下,会话类别字段就不能起到标记用于标识会话数据作用,需要重新判断会话数据是否需要进行过滤。因此,提取过滤表还可以包括记录时长信息,所述记录时长信息可以用于记录从会话类别字段添加到提取过滤表到当前时刻的存在时长。所述会话类别字段信息可以与所述记录时长信息一一对应。
如果所述会话类别字段在所述提取过滤表中,并且,所述记录时长超过预设时长阈值,则说明所述会话类别字段对应的会话数据已经在提取过滤表中存在一定时间,有可能发生变化,需要进行重新判定。因此,需要对所述会话数据进行提取。
如果所述会话类别字段不在所述提取过滤表中,或者,所述记录时长不超过预设时长阈值,则说明所述会话类别字段对应的会话数据在提取过滤表中存在的时长不足以发生变化,或者发生变化的可能低,因此不需要对所述会话数据进行提取。
本方案考虑了网络信息的多变性,可以周期性的判断在提取过滤表中的会话类别字段所对应的会话数据是否发生变化,以实现灵活的HTTP报文提取,保证了报文提取的可靠性和准确性。
本申请实施例所提供的技术方案,通过根据HTTP协议,对获取到的会话数据中的请求报文进行解析,得到解析结果。进而根据解析结果,生成会话类别字段。如果会话类别字段在预先获取的提取过滤表中,则不对会话数据进行提取。本技术方案通过提取过滤表,可以对待提取的会话数据进行筛选,可以提高HTTP报文提取的时效性,减少无用数据传播的资源损耗,降低有害数据的传播风险。
实施例二
图2为本发明实施例二中的HTTP报文的提取方法的流程图,本实施例以上述实施例为基础进行优化。如图2所示,本实施例的方法具体包括如下步骤:
S210,获取会话数据;所述会话数据包括请求报文。
S220,根据HTTP协议,对所述请求报文进行解析,得到解析结果。
S230,根据所述解析结果,生成会话类别字段;所述会话类别字段用于标识所述会话数据。
S240,若所述会话类别字段在预先获取的提取过滤表中,则不对所述会话数据进行提取;所述提取过滤表包括会话类别字段信息。
S250,若所述会话类别字段不在所述提取过滤表中,则基于高性能正则匹配引擎,对所述会话数据进行提取,并生成提取结果。
如果会话类别字段不在提取过滤表中,说明该会话类别字段对应的会话数据需要提取。此时,基于高性能正则匹配引擎,服务器可以对所述会话数据进行提取。所述高性能可以是服务器配置较高,可以实现高速提取,例如所述服务器可以使具备多核、大内存。所述正则可以使正则表达式,所述正则表达式可以是经过正则调优工具优化的表达式,可以尽量规避会导致大量回溯的通配字符,以防止性能下滑。在对会话数据进行提取之后,服务器可以生成提取结果。
S260,根据所述会话类别字段和所述提取结果,更新预设的提取结果记录表。
在生成提取结果之后,服务器可以根据会话类别字段和提取结果,更新提取结果记录表中的内容。所述提取结果记录表用于记录会话数据的提取结果,可以包括会话类别字段、提取时间、提取地址以及提取次数等内容。
S270,根据所述提取结果记录表,确定所述会话数据的提取能效。
服务器可以根据提取结果记录表,在提取结果记录表中选择需要的信息,确定会话数据的提取能效。例如可以根据提取时间判断会话数据提取的耗时,进而确定会话数据提取的资源耗费情况。
在一个可行的实施例中,可选的,所述提取结果记录表包括会话类别字段、提取次数以及提取成功次数;
相应的,所述根据所述提取结果记录表,确定所述会话数据的提取能效,包括:
根据所述提取次数和预设次数阈值的比较结果,确定是否计算所述会话数据的提取能效;
若是,则根据所述提取次数和所述提取成功次数,确定所述会话数据的提取能效。
由于在一定量的数据基础上,确定的提取能效更加稳定可靠,避免偶然事件的影响。服务器可以先根据提取次数是否达到了需要计算会话数据的提取能效的阈值;若达到了,则计算会话数据的提取能效;若没有达到,则不需要计算会话数据的提取能效。在计算会话数据的提取能效时,可以根据提取次数和提取成功次数,计算提取成功率,并将提取成功率作为会话数据的提取能效。具体的,所述提取能效的计算公式为:
Figure BDA0003344613510000081
本方案可以在一定提取次数的基础上计算会话数据的提取能效,保证了会话数据提取效能计算的可靠性,可以定量的对会话数据的提取能效进行统计,保证了提取能效评价的准确性。
S280,根据所述提取能效和预设能效评价标准,确定是否将所述会话类别字段更新到提取过滤表。
服务器可以预先制定能效的评价标准,根据会话数据的提取能效和能效评价标准,确定会话数据对应的会话类别字段是否需要更新到提取过滤表。
在本方案中,可选的,所述根据所述提取能效和预设能效评价标准,确定是否将所述会话类别字段更新到提取过滤表,包括:
若所述提取能效低于预设能效阈值,则将所述会话类别字段更新到提取过滤表。
如果提取能效低于预设能效阈值,则说明所述会话数据的提取成功率较低,是不需要提取的数据。因此,服务器可以将所述会话数据对应的会话类别字段更新到提取过滤表,在下一次匹配到该会话类别字段时,可以直接将所述会话数据过滤掉,从而节约了资源和能耗。
本方案利用会话数据的提取能效,来判断是否需要将会话类别字段更新到提取过滤表。该方案可以对会话数据的提取任务进行科学有效的筛选,灵活的应对网络信息的变化,提高了HTTP报文提取效率,节约了资源和能耗。
本申请实施例所提供的技术方案,通过根据HTTP协议,对获取到的会话数据中的请求报文进行解析,得到解析结果。进而根据解析结果,生成会话类别字段。如果会话类别字段在预先获取的提取过滤表中,则不对会话数据进行提取。如果会话类别字段不在提取过滤表中,则基于高性能正则匹配引擎,对会话数据进行提取,并生成提取结果。在提取之后,根据会话类别字段和提取结果,更新预设的提取结果记录表。根据提取结果记录表,确定会话数据的提取能效。根据提取能效和预设能效评价标准,确定是否将会话类别字段更新到提取过滤表。本技术方案通过提取过滤表,可以对待提取的会话数据进行筛选。通过计算提取效能来评价会话类别字段是否需要加入到提取过滤表中。该方案可以提高HTTP报文提取的时效性,减少无用数据传播的资源损耗,降低有害数据的传播风险。
实施例三
图3为本发明实施例三提供的一种HTTP报文的提取装置的结构示意图,该装置可执行本发明任意实施例所提供的HTTP报文的提取方法,具备执行方法相应的功能模块和有益效果。如图3所示,该装置可以包括:
会话数据获取模块310,用于获取会话数据;所述会话数据包括请求报文;
解析结果生成模块320,用于根据HTTP协议,对所述请求报文进行解析,得到解析结果;
会话类别字段生成模块330,用于根据所述解析结果,生成会话类别字段;所述会话类别字段用于标识所述会话数据;
会话数据提取过滤模块340,用于若所述会话类别字段在预先获取的提取过滤表中,则不对所述会话数据进行提取;所述提取过滤表包括会话类别字段信息。
在本方案中,可选的,所述装置还包括:
会话数据提取模块,用于若所述会话类别字段不在所述提取过滤表中,则基于高性能正则匹配引擎,对所述会话数据进行提取,并生成提取结果。
在一个可行的方案中,可选的,所述装置还包括:
提取结果记录表更新模块,用于根据所述会话类别字段和所述提取结果,更新预设的提取结果记录表;
提取能效确定模块,用于根据所述提取结果记录表,确定所述会话数据的提取能效;
提取过滤表更新模块,用于根据所述提取能效和预设能效评价标准,确定是否将所述会话类别字段更新到提取过滤表。
在上述方案的基础上,可选的,所述提取结果记录表包括会话类别字段、提取次数以及提取成功次数;
相应的,所述提取能效确定模块,具体用于:
根据所述提取次数和预设次数阈值的比较结果,确定是否计算所述会话数据的提取能效;
若是,则根据所述提取次数和所述提取成功次数,确定所述会话数据的提取能效。
在一个可行的实施例中,可选的,所述提取过滤表更新模块,具体用于:
若所述提取能效低于预设能效阈值,则将所述会话类别字段更新到提取过滤表。
在一个优选的方案中,可选的,所述提取过滤表还包括记录时长信息;其中,所述会话类别字段信息与所述记录时长信息一一对应;
相应的,所述会话数据提取过滤模块340,还用于:
若所述会话类别字段在所述提取过滤表中,且,所述记录时长超过预设时长阈值,则对所述会话数据进行提取;
若所述会话类别字段不在所述提取过滤表中,或,所述记录时长不超过预设时长阈值,则不对所述会话数据进行提取。
在本实施例中,可选的,所述提取能效的计算公式为:
Figure BDA0003344613510000121
上述产品可执行本申请实施例所提供的HTTP报文的提取方法,具备执行方法相应的功能模块和有益效果。
实施例四
本发明实施例四提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的HTTP报文的提取方法:
获取会话数据;所述会话数据包括请求报文;
根据HTTP协议,对所述请求报文进行解析,得到解析结果;
根据所述解析结果,生成会话类别字段;所述会话类别字段用于标识所述会话数据;
若所述会话类别字段在预先获取的提取过滤表中,则不对所述会话数据进行提取;所述提取过滤表包括会话类别字段信息。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
实施例五
本申请实施例五提供了一种电子设备。图4是本申请实施例五提供的一种电子设备的结构示意图。如图4所示,本实施例提供了一种电子设备400,其包括:一个或多个处理器420;存储装置410,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器420执行,使得所述一个或多个处理器420实现本申请实施例所提供的HTTP报文的提取方法,该方法包括:
获取会话数据;所述会话数据包括请求报文;
根据HTTP协议,对所述请求报文进行解析,得到解析结果;
根据所述解析结果,生成会话类别字段;所述会话类别字段用于标识所述会话数据;
若所述会话类别字段在预先获取的提取过滤表中,则不对所述会话数据进行提取;所述提取过滤表包括会话类别字段信息。
当然,本领域技术人员可以理解,处理器420还实现本申请任意实施例所提供的HTTP报文的提取方法的技术方案。
图4显示的电子设备400仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440;电子设备中处理器420的数量可以是一个或多个,图4中以一个处理器420为例;电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线450连接为例。
存储装置410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的HTTP报文的提取方法对应的程序指令。
存储装置410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等电子设备。
本申请实施例提供的电子设备,可以通过提取过滤表,实现对待提取的会话数据的筛选,进而提高了HTTP报文提取的时效性,减少了无用数据传播的资源损耗,降低了有害数据的传播风险。
上述实施例中提供的HTTP报文的提取装置、介质及电子设备可执行本申请任意实施例所提供的HTTP报文的提取方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的HTTP报文的提取方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种HTTP报文的提取方法,其特征在于,所述方法包括:
获取会话数据;所述会话数据包括请求报文;
根据HTTP协议,对所述请求报文进行解析,得到解析结果;
根据所述解析结果,生成会话类别字段;所述会话类别字段用于标识所述会话数据;
若所述会话类别字段在预先获取的提取过滤表中,则不对所述会话数据进行提取;所述提取过滤表包括会话类别字段信息;
在根据所述解析结果,生成会话类别字段之后,所述方法还包括:
若所述会话类别字段不在所述提取过滤表中,则基于高性能正则匹配引擎,对所述会话数据进行提取,并生成提取结果;
所述提取过滤表还包括记录时长信息;其中,所述会话类别字段信息与所述记录时长信息一一对应;
相应的,在获取到所述提取过滤表之后,所述方法还包括:
若所述会话类别字段在所述提取过滤表中,且,所述记录时长超过预设时长阈值,则对所述会话数据进行提取;
若所述会话类别字段在所述提取过滤表中,且,所述记录时长不超过预设时长阈值,则不对所述会话数据进行提取。
2.根据权利要求1所述的方法,其特征在于,在对所述会话数据进行提取,并生成提取结果之后,所述方法还包括:
根据所述会话类别字段和所述提取结果,更新预设的提取结果记录表;
根据所述提取结果记录表,确定所述会话数据的提取能效;
根据所述提取能效和预设能效评价标准,确定是否将所述会话类别字段更新到提取过滤表。
3.根据权利要求2所述的方法,其特征在于,所述提取结果记录表包括会话类别字段、提取次数以及提取成功次数;
相应的,所述根据所述提取结果记录表,确定所述会话数据的提取能效,包括:
根据所述提取次数和预设次数阈值的比较结果,确定是否计算所述会话数据的提取能效;
若是,则根据所述提取次数和所述提取成功次数,确定所述会话数据的提取能效。
4.根据权利要求2所述的方法,其特征在于,所述根据所述提取能效和预设能效评价标准,确定是否将所述会话类别字段更新到提取过滤表,包括:
若所述提取能效低于预设能效阈值,则将所述会话类别字段更新到提取过滤表。
5.根据权利要求3所述的方法,其特征在于,所述提取能效的计算公式为:
Figure FDA0003964367680000021
6.一种HTTP报文的提取装置,其特征在于,所述装置包括:
会话数据获取模块,用于获取会话数据;所述会话数据包括请求报文;
解析结果生成模块,用于根据HTTP协议,对所述请求报文进行解析,得到解析结果;
会话类别字段生成模块,用于根据所述解析结果,生成会话类别字段;所述会话类别字段用于标识所述会话数据;
会话数据提取过滤模块,用于若所述会话类别字段在预先获取的提取过滤表中,则不对所述会话数据进行提取;所述提取过滤表包括会话类别字段信息;
会话数据提取模块,用于若所述会话类别字段不在所述提取过滤表中,则基于高性能正则匹配引擎,对所述会话数据进行提取,并生成提取结果;
所述提取过滤表还包括记录时长信息;其中,所述会话类别字段信息与所述记录时长信息一一对应;
相应的,所述会话数据提取过滤模块,还用于:
若所述会话类别字段在所述提取过滤表中,且,所述记录时长超过预设时长阈值,则对所述会话数据进行提取;
若所述会话类别字段在所述提取过滤表中,且,所述记录时长不超过预设时长阈值,则不对所述会话数据进行提取。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的HTTP报文的提取方法。
8.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的HTTP报文的提取方法。
CN202111318470.9A 2021-11-09 2021-11-09 一种http报文的提取方法、装置、介质及设备 Active CN113965408B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111318470.9A CN113965408B (zh) 2021-11-09 2021-11-09 一种http报文的提取方法、装置、介质及设备
PCT/CN2022/095553 WO2023082605A1 (zh) 2021-11-09 2022-05-27 Http报文的提取方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111318470.9A CN113965408B (zh) 2021-11-09 2021-11-09 一种http报文的提取方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
CN113965408A CN113965408A (zh) 2022-01-21
CN113965408B true CN113965408B (zh) 2023-01-20

Family

ID=79469648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111318470.9A Active CN113965408B (zh) 2021-11-09 2021-11-09 一种http报文的提取方法、装置、介质及设备

Country Status (2)

Country Link
CN (1) CN113965408B (zh)
WO (1) WO2023082605A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113965408B (zh) * 2021-11-09 2023-01-20 北京锐安科技有限公司 一种http报文的提取方法、装置、介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653531A (zh) * 2014-11-12 2016-06-08 中兴通讯股份有限公司 数据提取方法及装置
US9419942B1 (en) * 2013-06-05 2016-08-16 Palo Alto Networks, Inc. Destination domain extraction for secure protocols
CN106789259A (zh) * 2016-12-26 2017-05-31 中国科学院信息工程研究所 一种LoRa核心网系统及实现方法
CN106850349A (zh) * 2017-02-08 2017-06-13 杭州迪普科技股份有限公司 一种特征信息的提取方法及装置
CN107124402A (zh) * 2017-04-12 2017-09-01 杭州迪普科技股份有限公司 一种报文过滤的方法和装置
CN112612670A (zh) * 2020-12-02 2021-04-06 北京东土军悦科技有限公司 一种会话信息统计方法、装置、交换设备及存储介质
CN112738110A (zh) * 2020-12-30 2021-04-30 绿盟科技集团股份有限公司 一种旁路阻断方法、装置、电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095665A (zh) * 2011-11-07 2013-05-08 中兴通讯股份有限公司 一种提升防火墙处理性能的方法和装置
JP2013211702A (ja) * 2012-03-30 2013-10-10 Lapis Semiconductor Co Ltd 通信装置及びフィルタリング方法
CN103401850A (zh) * 2013-07-19 2013-11-20 北京星网锐捷网络技术有限公司 一种报文过滤方法及装置
CN107026821B (zh) * 2016-02-01 2021-06-01 阿里巴巴集团控股有限公司 报文的处理方法及装置
US11838330B2 (en) * 2017-12-20 2023-12-05 King Fahd University Of Petroleum And Minerals Selective information extraction from network traffic traces both encrypted and non-encrypted
CN112511643A (zh) * 2020-12-07 2021-03-16 北京天融信网络安全技术有限公司 一种报文数据提取方法及装置
CN113965408B (zh) * 2021-11-09 2023-01-20 北京锐安科技有限公司 一种http报文的提取方法、装置、介质及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9419942B1 (en) * 2013-06-05 2016-08-16 Palo Alto Networks, Inc. Destination domain extraction for secure protocols
CN105653531A (zh) * 2014-11-12 2016-06-08 中兴通讯股份有限公司 数据提取方法及装置
CN106789259A (zh) * 2016-12-26 2017-05-31 中国科学院信息工程研究所 一种LoRa核心网系统及实现方法
CN106850349A (zh) * 2017-02-08 2017-06-13 杭州迪普科技股份有限公司 一种特征信息的提取方法及装置
CN107124402A (zh) * 2017-04-12 2017-09-01 杭州迪普科技股份有限公司 一种报文过滤的方法和装置
CN112612670A (zh) * 2020-12-02 2021-04-06 北京东土军悦科技有限公司 一种会话信息统计方法、装置、交换设备及存储介质
CN112738110A (zh) * 2020-12-30 2021-04-30 绿盟科技集团股份有限公司 一种旁路阻断方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于离散序列报文的协议格式特征自动提取算法;李阳等;《计算机应用》;20170410(第04期);全文 *

Also Published As

Publication number Publication date
WO2023082605A1 (zh) 2023-05-19
CN113965408A (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
CN113098870B (zh) 一种网络诈骗检测方法、装置、电子设备及存储介质
CN113923057B (zh) 卫星测运控平台的数据处理方法、装置、电子设备及介质
CN114157502B (zh) 一种终端识别方法、装置、电子设备及存储介质
CN107784205B (zh) 一种用户产品审核的方法、装置、服务器和存储介质
CN110798445B (zh) 公共网关接口测试方法、装置、计算机设备及存储介质
CN112162965A (zh) 一种日志数据处理的方法、装置、计算机设备及存储介质
CN111294849B (zh) 一种lte用户上网质差的判定方法及装置
CN111400378A (zh) 基于ElasticSearch的日志实时显示方法、装置、计算机设备和介质
CN110768875A (zh) 一种基于dns学习的应用识别方法及系统
CN113225339B (zh) 网络安全监测方法、装置、计算机设备及存储介质
CN113114707B (zh) 一种电力芯片以太网控制器规则过滤方法
CN108768835B (zh) 一种邮件解析方法、装置、服务器和存储介质
CN113965408B (zh) 一种http报文的提取方法、装置、介质及设备
CN112286815A (zh) 一种接口测试脚本的生成方法及其相关设备
CN110597706A (zh) 一种用于应用程序接口数据异常测试的方法和装置
CN110533456A (zh) 一种优惠券信息推送方法、系统及服务器
CN114491518A (zh) 一种越权访问的检测方法、装置、系统及介质
CN112084179A (zh) 一种数据处理的方法、装置、设备及存储介质
WO2020000742A1 (zh) 一种去重流量记录方法、装置、服务器及存储介质
WO2016037489A1 (zh) Rcs垃圾消息的监控方法、装置及系统
CN112887289A (zh) 一种网络数据处理方法、装置、计算机设备及存储介质
CN116633823A (zh) 异网宽带用户识别方法、装置、设备及存储介质
CN115361450B (zh) 请求信息处理方法、装置、电子设备、介质和程序产品
CN111245880B (zh) 基于行为轨迹重建的用户体验监控方法及装置
KR101375112B1 (ko) 웹 서비스 디지털콘텐츠 제공 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant