CN112511643A - 一种报文数据提取方法及装置 - Google Patents

一种报文数据提取方法及装置 Download PDF

Info

Publication number
CN112511643A
CN112511643A CN202011440501.3A CN202011440501A CN112511643A CN 112511643 A CN112511643 A CN 112511643A CN 202011440501 A CN202011440501 A CN 202011440501A CN 112511643 A CN112511643 A CN 112511643A
Authority
CN
China
Prior art keywords
data
script
message
extraction
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011440501.3A
Other languages
English (en)
Inventor
李昌达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202011440501.3A priority Critical patent/CN112511643A/zh
Publication of CN112511643A publication Critical patent/CN112511643A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供一种报文数据提取方法及装置,涉及数据处理技术领域,该报文数据提取方法包括:在进行报文数据提取时,先获取待处理报文和数据提取参数;然后再根据预设采集脚本和数据提取参数对待处理报文进行数据提取处理,得到目标提取数据;最后通过预设记录脚本和数据提取参数输出目标提取数据,能够快速对报文进行数据提取,不需要对报文内容识别,同时也不需要提取的数据进行格式转化,减少计算量,进而有利于提升数据提取效率。

Description

一种报文数据提取方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种报文数据提取方法及装置。
背景技术
目前,HTTP协议作为被广泛采用的应用层协议,且在这个大数据时代,获取HTTP协议的报文数据的手段就显得尤为重要。现有的报文数据提取方法,通常采用爬虫技术,通过第三方开源技术(如文字识别等)对待提取的HTTP报文数据进行识别,然后通过预设关键字对待提取的HTTP报文数据进行提取,所提取的数据内容格式局限为html格式。可见,现有的报文数据提取方法,在提取http报文内容前,需要进行识别,可能存在识别错误的情况,同时需要对提取的数据做格式转化,处理步骤繁琐,计算量大,进而导致数据提取效率低。
发明内容
本申请实施例的目的在于提供一种报文数据提取方法及装置,能够快速对报文进行数据提取,不需要对报文内容识别,同时也不需要提取的数据进行格式转化,减少计算量,进而有利于提升数据提取效率。
本申请实施例第一方面提供了一种报文数据提取方法,包括:
获取待处理报文和数据提取参数;
根据预设采集脚本和所述数据提取参数对所述待处理报文进行数据提取处理,得到目标提取数据;
通过预设记录脚本和所述数据提取参数输出所述目标提取数据。
在上述实现过程中,在进行报文数据提取时,先获取待处理报文和数据提取参数;然后再根据预设采集脚本和数据提取参数对待处理报文进行数据提取处理,得到目标提取数据;最后通过预设记录脚本和数据提取参数输出目标提取数据,能够快速对报文进行数据提取,不需要对报文内容识别,同时也不需要提取的数据进行格式转化,减少计算量,进而有利于提升数据提取效率。
进一步地,所述数据提取参数包括所述预设采集脚本对应的第一脚本参数以及所述预设记录脚本对应的第二脚本参数。
在上述实现过程中,在进行数据提取处理前,需要通过第一脚本参数对预设采集脚本进行定义配置,通过第二脚本参数对预设记录脚本进行定义配置,进而实现对任意数据的采集提取,有利于提升数据提取便利性。
进一步地,所述根据预设采集脚本和所述数据提取参数对所述待处理报文进行数据提取处理,得到目标提取数据,包括:
根据所述第一脚本参数和所述预设采集脚本,生成目标采集脚本;
通过所述目标采集脚本获取所述待处理报文中的统一资源标识和报文请求头数据;
根据所述统一资源标识和所述报文请求头数据判断是否需要对所述待处理报文进行数据提取;
如果是,通过所述目标采集脚本对所述待处理报文进行数据提取处理,得到目标提取数据。
在上述实现过程中,在进行数据提取时,先通过第一脚本参数对预设采集脚本进行定义配置,得到目标采集脚本,然后通过目标采集脚本判断是否需要对待处理报文进行数据提取,如果是,则对待处理报文进行数据提取处理,得到目标提取数据。
进一步地,所述方法还包括:
当判断出不需要对所述待处理报文进行数据提取时,对所述待处理报文进行解析处理,得到解析数据。
在上述实现过程中,在不需要进行数据提取时,则进行正常报文解析过程,适用性强,场景无限制。
进一步地,所述通过所述目标采集脚本对所述待处理报文进行数据提取处理,得到目标提取数据,包括:
通过所述目标采集脚本确定采集次数、采集位置以及数据记录标识;
通过所述目标采集脚本在所述待处理报文的所述采集位置处进行所述采集次数的数据采集处理,得到采集数据;
通过所述目标采集脚本将所述采集数据的标识确定为所述数据记录标识,得到目标提取数据。
在上述实现过程中,在进行数据提取时,定义好的目标采集脚本能够自动根据采集位置进行任意次数的数据采集处理,同时还能够将采集得到的采集数据采用自定义名称进行标识,灵活性高,不限制应用场景,进而有利于提升数据采集效率。
进一步地,所述通过预设记录脚本和所述数据提取参数输出所述目标提取数据,包括:
根据所述第二脚本参数和所述预设记录脚本,生成目标记录脚本;
通过所述目标记录脚本获取所述数据记录标识对应的所述目标提取数据;
通过所述目标记录脚本确定输出数据标识以及与所述输出数据标识对应的输出参数值;
根据所述输出参数值、所述输出数据标识以及所述目标记录脚本对所述目标提取数据进行输出。
在上述实现过程中,采集的目标提取数据存储于目标记录脚本中变量指向的存储位置处,当目标采集脚本完成对待处理报文的数据采集工作时,目标记录脚本能够将所有的目标提取数据进行数据,在输出的时候,还能够对目标提取数据进行自定义命名,标识性强,易于不同数据间的区分,进而提升了用户体验度。
本申请实施例第二方面提供了一种报文数据提取装置,所述报文数据提取装置包括:
获取模块,用于获取待处理报文和数据提取参数;
提取模块,用于根据预设采集脚本和所述数据提取参数对所述待处理报文进行数据提取处理,得到目标提取数据;
输出模块,用于通过预设记录脚本和所述数据提取参数输出所述目标提取数据。
在上述实现过程中,在进行报文数据提取时,获取模块先获取待处理报文和数据提取参数;然后提取模块再根据预设采集脚本和数据提取参数对待处理报文进行数据提取处理,得到目标提取数据;最后输出模块通过预设记录脚本和数据提取参数输出目标提取数据,能够快速对报文进行数据提取,不需要对报文内容识别,同时也不需要提取的数据进行格式转化,减少计算量,进而有利于提升数据提取效率。
进一步地,所述数据提取参数包括所述预设采集脚本对应的第一脚本参数以及所述预设记录脚本对应的第二脚本参数。
在上述实现过程中,在进行数据提取处理前,需要通过第一脚本参数对预设采集脚本进行定义配置,通过第二脚本参数对预设记录脚本进行定义配置,进而实现对任意数据的采集提取,有利于提升数据提取便利性。
本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的报文数据提取方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的报文数据提取方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一提供的一种报文数据提取方法的流程示意图;
图2为本申请实施例二提供的一种报文数据提取方法的流程示意图;
图3为本申请实施例三提供的一种报文数据提取装置的结构示意图;
图4为本申请实施例四提供的一种报文数据提取装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供了一种报文数据提取方法的流程示意图。该方法的应用于网络全栈解析的架构下,具体应用于对HTTP数据报文的解析和数据提取的场景中。其中,该报文数据提取方法包括:
S101、获取待处理报文和数据提取参数。
本申请实施例中,待处理报文具体可以为HTTP数据报文。HTTP(超文本传输协议)是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII码形式给出;而消息内容则具有一个类似MIME的格式。
本申请实施例中,该方法的执行主体可以为计算机、服务器、智能手机、平板电脑等智能设备,对此本实施例中不作任何限定。
本申请实施例中,数据提取参数可以为人工预先设置,也可以为根据数据提取需求自动设置等,对此本申请实施例不作限定。
S102、根据预设采集脚本和数据提取参数对待处理报文进行数据提取处理,得到目标提取数据。
本申请实施例中,预设采集脚本用于提取数据。
本申请实施例中,首先包括requests关键字,代表采集域的开始,类型为json数组,且元素必须是json对象。json对象中需包含load、hosts、uri、captures、index、pattern、name、records关键字。
本申请实施例中,其中,load为该对象所定义的采集加载开关,为真(true)则加载该对象采集,为假则不加载,该值默认为真。hosts及uri用于采集脚本与http数据报文的匹配标识,其值的类型为字符串或正则表达式;关键字captures,其值的类型为数组或对象,且该关键字支持任意层数的嵌套,但当其值类型为数组时,其下一层则必须为对象,但该对象中又可定义captures的值为数组;index为采集定位,指明包含所需采集数据的位置;pattern为正则表达式关键字,用于精准提取数据,其值为字符串,且由于是json语法,所以正则表达式需遵循元字符双重转换的规则;name的作用为以别名的方式存储其提取到的数据;records为记录域关键字,其值类型为数组,内容为记录集脚本中所定义的记录名,代表该采集对象内所有为提取数据所定义的别名都在该记录集中。
本申请实施例中,数据提取参数包括预设采集脚本对应的第一脚本参数,其中,第一脚本参数可以包括requests参数、load参数、hosts参数、uri参数、captures参数、index参数、pattern参数、name参数、records参数等中的一种或者多种,对此本申请实施例不作限定。
在步骤S102之后,还包括以下步骤:
S103、通过预设记录脚本和数据提取参数输出目标提取数据。
本申请实施例中,可以预先设置脚本文件,其中,该脚本文件包括预设采集脚本和预设记录脚本。其中预设采集脚本用于提取数据,预设记录脚本又称为记录集脚本,用于定义所要提取的数据。
本申请实施例中,预设记录脚本首先包括records关键字,代表记录集定义的开始,类型为json数组,且元素必须是json对象。json对象中需包含以字符串命名的记录名,记录名则是一个json对象,此时对象中包含load、fields、name、value等关键字。load为该记录名所定义的对象加载开关,为真(true)则加载该记录对象,为假(false)则不加载,该值默认为真;fields为记录中自定义变量名关键字,类型为数组,其值必须为对象;name为自定义变量名;value则是为name所赋值的别名,即name与value为映射关系。
本申请实施例中,数据提取参数还包括预设记录脚本对应的第二脚本参数,其中,第二脚本参数可以包括records参数、load参数、fields参数、name参数、value参数等等中的一种或者多种,对此本申请实施例不作限定。
作为一种可选的实施方式,可以根据业务分类同时使用多个预设采集脚本和预设记录脚本分别进行数据采集,然后将分开采集的数据分别按照预设标识进行压缩存储,具体地,预设标识可以为购物类、游戏类、新闻类、博弈类、社交类、位置类等等,对此本申请实施例不作限定。
本申请实施例中,预设采集脚本和预设记录脚本均可以为压缩文件形式的json脚本模板,在实际使用中只对json语法做检测,不限制key的类型与value的类型。
本申请实施例中,预设采集脚本和预设记录脚本分离,即采集脚本用以实现数据的提取,记录集脚本用以实现已采集数据的输出。
可见,实施本实施例所描述的报文数据提取方法,能够快速对报文进行数据提取,不需要对报文内容识别,同时也不需要提取的数据进行格式转化,减少计算量,进而有利于提升数据提取效率。
实施例2
请参看图2,图2为本申请实施例提供的一种报文数据提取方法的流程示意图。如图2所示,其中,该报文数据提取方法包括:
S201、获取待处理报文和数据提取参数。
本申请实施例中,数据提取参数包括预设采集脚本对应的第一脚本参数以及预设记录脚本对应的第二脚本参数。
本申请实施例中,在获取数据提取参数时,包括定义预设采集脚本和定义预设记录脚本。
本申请实施例中,定义预设采集脚本包括定义请求域、定义采集域和定义记录域。
本申请实施例中,其中,定义请求域,由关键字“requests”标识,其类型为数组;先定义请求域数组内的请求对象;然后定义请求对象中关键字“load”,代表该请求对象是否生效,其类型为布尔型;最后定义请求对象中关键字“uri”和“hosts”,分别为http报文的uri和host,其类型为字符串,且支持正则表达式;进一步的,当“load”为真且uri和hosts匹配成功后进入采集域。
本申请实施例中,其中,定义采集域,由关键字“captures”标识,其类型为数组或对象,除数组嵌套数组形式外支持任意形式任意层数的嵌套,以此特性支撑一次采集多次数据提取的高效性;进一步的,采集域内关键字“index”指定采集位置(欲提取数据的位置),其类型为字符串,值域有“uri”、“request_header”、“request_body”、“response_header”、“response_body”;进一步的,采集域内关键字“pattern”通过正则表达式进行数据提取,结合步骤8,达到http报文内任意位置的数据提取的目的;进一步的,定义采集对象,由关键字“captures”标识,其类型为数组或对象,意为对象内部采集,实现对“pattern”正则表达式处理后的数据进行存储;进一步的,采集对象内关键字“index”指定要存储正则表达式的第几匹配结果。进一步的,由关键字“name”指定存储位置。
本申请实施例中,其中,定义记录域,由关键字“records”标识,其类型为数组;进一步的,在记录域数组中指定记录名。
本申请实施例中,定义预设记录脚本,其定义参数(即第二脚本参数)由关键字“records”标识,其类型为数组,包含多个记录对象。具体地,定义记录对象,由字符串类型的自定义记录名标识;定义记录对象中关键字“load”,代表该记录对象是否生效,其类型为布尔型;进一步的,由数组类型关键字“fields”定义记录对象内的输出对象;进一步的,由字符串类型关键字“name”定义输出数据名称;进一步的,由字符串类型关键字“value”定义输出数据的值。
本申请实施例中,通过定义预设记录脚本得到第二脚本参数,能够为采集到的数据进行自定义名称存储,具体地,可以通过name与value的映射关系实现,进而提升了数据采集的便利性,优化了用户体验度。
本申请实施例中,通过嵌套正则表达式的方式,用于采集或记录参数的定义,灵活性好。
在步骤S201之后,还包括以下步骤:
S202、根据第一脚本参数和预设采集脚本,生成目标采集脚本。
本申请实施例中,数据提取参数包括预设采集脚本对应的第一脚本参数,其中,第一脚本参数可以包括requests参数、load参数、hosts参数、uri参数、captures参数、index参数、pattern参数、name参数、records参数等中的一种或者多种,对此本申请实施例不作限定。
本申请实施例中,根据第一脚本参数对预设采集脚本进行配置,得到目标采集脚本。
S203、通过目标采集脚本获取待处理报文中的统一资源标识和报文请求头数据。
本申请实施例中,可以通过目标采集脚本获取待处理报文中的uri(统一资源标识)和host(报文请求头数据),并自动将目标采集脚本中的uri参数和host参数进行更新。
本申请实施例中,统一资源标识符(Uniform Resource Identifier,URI)是一个用于标识某一互联网资源名称的字符串。该种标识允许用户对任何(包括本地和互联网)的资源通过特定的协议进行交互操作。
本申请实施例中,通过目标采集脚本能够对待处理报文(http协议报文)进行定位索引,即通过目标采集脚本中“index”关键字可定位http协议报文的uri、请求头、请求体、响应头、响应体。
S204、根据统一资源标识和报文请求头数据判断是否需要对待处理报文进行数据提取,如果是,执行步骤S206~步骤S209;如果否,执行步骤S205。
本申请实施例中,当待处理报文的uri和host匹配成功后,即确定需要对待处理报文进行数据提取,则目标采集脚本的采集域工作;采集的数据存储于目标记录脚本的变量中。
本申请实施例中,通过目标采集脚本中的hosts及uri关键字的值作为http协议报文匹配标识,通过判断两者是否匹配进行数据提取,进而对HTTP报文进行深度解析。
S205、对待处理报文进行解析处理,得到解析数据,并结束本流程。
本申请实施例中,当判断出不需要对待处理报文进行数据提取时,则对待处理报文进行正常解析处理,不对其进行数据提取处理。
在步骤S205之后,还包括以下步骤:
S206、通过目标采集脚本确定采集次数、采集位置以及数据记录标识。
S207、通过目标采集脚本在待处理报文的采集位置处进行采集次数的数据采集处理,得到采集数据。
本申请实施例中,可以通过目标采集脚本中captures参数确定采集次数,通过captures参数的任意多层嵌套的特点,实现自定义采集次数设置,进而提升数据采集的便利性。
在步骤S207之后,还包括以下步骤:
S208、通过目标采集脚本将采集数据的标识确定为数据记录标识,得到目标提取数据。
本申请实施例中,实施上述步骤S206~步骤S208,能够通过目标采集脚本对待处理报文进行数据提取处理,得到目标提取数据。
本申请实施例中,在实施上述步骤S206~步骤S208时,进行数据提取过程,实际上为报文解析并提取数据的过程。
本申请实施例中,实施上述步骤S202~步骤S208,能够根据预设采集脚本和数据提取参数对待处理报文进行数据提取处理,得到目标提取数据。
本申请实施例中,目标提取数据的输出形式为:每段数据以[start]...[end]为间隔,[start]和[end]之间为所采集的报文数据部分。
S209、通过预设记录脚本和数据提取参数输出目标提取数据。
作为一种可选的实施方式,通过预设记录脚本和数据提取参数输出目标提取数据,可以包括以下步骤:
根据第二脚本参数和预设记录脚本,生成目标记录脚本;
通过目标记录脚本获取数据记录标识对应的目标提取数据;
通过目标记录脚本确定输出数据标识以及与输出数据标识对应的输出参数值;
根据输出参数值、输出数据标识以及目标记录脚本对目标提取数据进行输出。
在上述实施方式中,第二脚本参数可以包括records参数、load参数、fields参数、name参数、value参数等等中的一种或者多种,对此本申请实施例不作限定。
在上述实施方式中,根据第二脚本参数对预设记录脚本进行配置,得到目标记录脚本。
本申请实施例中,通过预设采集脚本和预设记录脚本,能够实现实时对HTTP数据报文(即待处理报文)的完全解析并提取其任意数据,处理方法简单,使用场景不受限制,进而有利于提升数据提取效率。
可见,实施本实施例所描述的报文数据提取方法,能够快速对报文进行数据提取,不需要对报文内容识别,同时也不需要提取的数据进行格式转化,减少计算量,进而有利于提升数据提取效率。
实施例3
请参看图3,图3为本申请实施例提供的一种报文数据提取装置的结构示意图。如图3所示,该报文数据提取装置包括:
获取模块300,用于获取待处理报文和数据提取参数;
提取模块400,用于根据预设采集脚本和数据提取参数对待处理报文进行数据提取处理,得到目标提取数据;
输出模块500,用于通过预设记录脚本和数据提取参数输出目标提取数据。
本申请实施例中,对于报文数据提取装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的报文数据提取装置,能够快速对报文进行数据提取,不需要对报文内容识别,同时也不需要提取的数据进行格式转化,减少计算量,进而有利于提升数据提取效率。
实施例4
请一并参阅图4,图4是本申请实施例提供的一种报文数据提取装置的结构示意图。其中,图4所示的报文数据提取装置是由图3所示的报文数据提取装置进行优化得到的。如图4所示,提取模块400包括:
第一生成子模块410,用于根据第一脚本参数和预设采集脚本,生成目标采集脚本;
第一获取子模块420,用于通过目标采集脚本获取待处理报文中的统一资源标识和报文请求头数据;
判断子模块430,用于根据统一资源标识和报文请求头数据判断是否需要对待处理报文进行数据提取;
提取子模块440,用于当判断出需要对待处理报文进行数据提取时,通过目标采集脚本对待处理报文进行数据提取处理,得到目标提取数据。
本申请实施例中,数据提取参数包括预设采集脚本对应的第一脚本参数以及预设记录脚本对应的第二脚本参数。
作为一种可选的实施方式,提取模块400还包括:
解析子模块450,用于当判断出不需要对待处理报文进行数据提取时,对待处理报文进行解析处理,得到解析数据。
作为一种可选的实施方式,提取子模块440包括:
确定单元441,用于通过目标采集脚本确定采集次数、采集位置以及数据记录标识;
采集单元442,用于通过目标采集脚本在待处理报文的采集位置处进行采集次数的数据采集处理,得到采集数据;
确定单元441,还用于通过目标采集脚本将采集数据的标识确定为数据记录标识,得到目标提取数据。
作为一种可选的实施方式,输出模块500包括:
第二生成子模块510,用于根据第二脚本参数和预设记录脚本,生成目标记录脚本;
第二获取子模块520,用于通过目标记录脚本获取数据记录标识对应的目标提取数据;
参数确定子模块530,用于通过目标记录脚本确定输出数据标识以及与输出数据标识对应的输出参数值;
输出子模块540,用于根据输出参数值、输出数据标识以及目标记录脚本对目标提取数据进行输出。
本申请实施例中,对于报文数据提取装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的报文数据提取装置,能够快速对报文进行数据提取,不需要对报文内容识别,同时也不需要提取的数据进行格式转化,减少计算量,进而有利于提升数据提取效率。
本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1或实施例2中任一项报文数据提取方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例1或实施例2中任一项报文数据提取方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种报文数据提取方法,其特征在于,包括:
获取待处理报文和数据提取参数;
根据预设采集脚本和所述数据提取参数对所述待处理报文进行数据提取处理,得到目标提取数据;
通过预设记录脚本和所述数据提取参数输出所述目标提取数据。
2.根据权利要求1所述的报文数据提取方法,其特征在于,所述数据提取参数包括所述预设采集脚本对应的第一脚本参数以及所述预设记录脚本对应的第二脚本参数。
3.根据权利要求2所述的报文数据提取方法,其特征在于,所述根据预设采集脚本和所述数据提取参数对所述待处理报文进行数据提取处理,得到目标提取数据,包括:
根据所述第一脚本参数和所述预设采集脚本,生成目标采集脚本;
通过所述目标采集脚本获取所述待处理报文中的统一资源标识和报文请求头数据;
根据所述统一资源标识和所述报文请求头数据判断是否需要对所述待处理报文进行数据提取;
如果是,通过所述目标采集脚本对所述待处理报文进行数据提取处理,得到目标提取数据。
4.根据权利要求3所述的报文数据提取方法,其特征在于,所述方法还包括:
当判断出不需要对所述待处理报文进行数据提取时,对所述待处理报文进行解析处理,得到解析数据。
5.根据权利要求3所述的报文数据提取方法,其特征在于,所述通过所述目标采集脚本对所述待处理报文进行数据提取处理,得到目标提取数据,包括:
通过所述目标采集脚本确定采集次数、采集位置以及数据记录标识;
通过所述目标采集脚本在所述待处理报文的所述采集位置处进行所述采集次数的数据采集处理,得到采集数据;
通过所述目标采集脚本将所述采集数据的标识确定为所述数据记录标识,得到目标提取数据。
6.根据权利要求5所述的报文数据提取方法,其特征在于,所述通过预设记录脚本和所述数据提取参数输出所述目标提取数据,包括:
根据所述第二脚本参数和所述预设记录脚本,生成目标记录脚本;
通过所述目标记录脚本获取所述数据记录标识对应的所述目标提取数据;
通过所述目标记录脚本确定输出数据标识以及与所述输出数据标识对应的输出参数值;
根据所述输出参数值、所述输出数据标识以及所述目标记录脚本对所述目标提取数据进行输出。
7.一种报文数据提取装置,其特征在于,所述报文数据提取装置包括:
获取模块,用于获取待处理报文和数据提取参数;
提取模块,用于根据预设采集脚本和所述数据提取参数对所述待处理报文进行数据提取处理,得到目标提取数据;
输出模块,用于通过预设记录脚本和所述数据提取参数输出所述目标提取数据。
8.根据权利要求7所述的报文数据提取装置,其特征在于,所述数据提取参数包括所述预设采集脚本对应的第一脚本参数以及所述预设记录脚本对应的第二脚本参数。
9.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至6中任一项所述的报文数据提取方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至6任一项所述的报文数据提取方法。
CN202011440501.3A 2020-12-07 2020-12-07 一种报文数据提取方法及装置 Withdrawn CN112511643A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011440501.3A CN112511643A (zh) 2020-12-07 2020-12-07 一种报文数据提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011440501.3A CN112511643A (zh) 2020-12-07 2020-12-07 一种报文数据提取方法及装置

Publications (1)

Publication Number Publication Date
CN112511643A true CN112511643A (zh) 2021-03-16

Family

ID=74970810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011440501.3A Withdrawn CN112511643A (zh) 2020-12-07 2020-12-07 一种报文数据提取方法及装置

Country Status (1)

Country Link
CN (1) CN112511643A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082605A1 (zh) * 2021-11-09 2023-05-19 北京锐安科技有限公司 Http报文的提取方法、装置、介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653531A (zh) * 2014-11-12 2016-06-08 中兴通讯股份有限公司 数据提取方法及装置
CN109933712A (zh) * 2019-03-06 2019-06-25 北京思特奇信息技术股份有限公司 一种报文数据的提取方法及系统
WO2019237532A1 (zh) * 2018-06-14 2019-12-19 平安科技(深圳)有限公司 一种业务数据的监控方法、存储介质、终端设备及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653531A (zh) * 2014-11-12 2016-06-08 中兴通讯股份有限公司 数据提取方法及装置
WO2019237532A1 (zh) * 2018-06-14 2019-12-19 平安科技(深圳)有限公司 一种业务数据的监控方法、存储介质、终端设备及装置
CN109933712A (zh) * 2019-03-06 2019-06-25 北京思特奇信息技术股份有限公司 一种报文数据的提取方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082605A1 (zh) * 2021-11-09 2023-05-19 北京锐安科技有限公司 Http报文的提取方法、装置、介质及设备

Similar Documents

Publication Publication Date Title
CN110768875A (zh) 一种基于dns学习的应用识别方法及系统
JP2015508543A (ja) 店舗訪問データを処理すること
CN103313248A (zh) 一种识别垃圾信息的方法和装置
CN110377356B (zh) 任务处理方法、装置、系统及计算机可读存储介质
CN109698798B (zh) 一种应用的识别方法、装置、服务器和存储介质
CN106844553B (zh) 基于样本数据的数据探测和扩充方法及装置
CN114117160A (zh) 一种基于威胁情报的威胁分析图谱生成、应用方法及装置
CN111209325B (zh) 业务系统接口识别方法、装置及存储介质
CN112511643A (zh) 一种报文数据提取方法及装置
CN108011936B (zh) 用于推送信息的方法和装置
CN113778947A (zh) 一种kafka流处理平台的数据导入方法、装置及设备
CN111506761B (zh) 一种相似图片查询方法、装置、系统及存储介质
CN117493671A (zh) 信息处理方法、装置、电子设备及计算机存储介质
CN115801455B (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN112257757A (zh) 一种基于深度学习的恶意样本检测方法及系统
CN115357820B (zh) 一种基于记录回放的数字对象封装与实体访问方法及系统
CN107992538B (zh) 报文日志生成方法、装置、查询方法及信息处理系统
CN115002243B (zh) 一种数据处理方法及装置
CN111581487B (zh) 一种信息处理方法及装置
CN110858852B (zh) 一种注册域名的获取方法及装置
CN103796042B (zh) 资源信息推送方法及装置
CN112328977A (zh) 一种应用软件真伪检测方法、装置、设备及介质
CN112181816A (zh) 一种基于场景的接口测试方法、装置、计算机设备及介质
CN110543622A (zh) 文本相似度检测方法、装置、电子设备及可读存储介质
CN113783849B (zh) 一种敏感信息的检测方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210316

WW01 Invention patent application withdrawn after publication