CN113297847B - 一种http协议信息提取方法及装置 - Google Patents
一种http协议信息提取方法及装置 Download PDFInfo
- Publication number
- CN113297847B CN113297847B CN202010108818.0A CN202010108818A CN113297847B CN 113297847 B CN113297847 B CN 113297847B CN 202010108818 A CN202010108818 A CN 202010108818A CN 113297847 B CN113297847 B CN 113297847B
- Authority
- CN
- China
- Prior art keywords
- protocol information
- http protocol
- information
- extraction
- reference object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明涉及一种http协议信息提取方法及装置中,提取方法根据所获http协议信息中数据的实际情形,应用http协议信息所对应的HOST、PATH、以及由QUERY和信息内容数据所处理获得的Key‑Value,自动化生成相应有效信息的提取规则,所获提取规则符合相应协议信息的客观实际情形,克服了现有技术的不足,并且所设计方法在应用中,逻辑清楚、运算执行速度快;本发明所设计针对提取方法的装置,包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块,应用中充分调用所设计各模块之间的协同操作,能够有效提高http协议信息中有效信息的提取效率。
Description
技术领域
本发明涉及一种http协议信息提取方法及装置,属于数据分析技术领域。
背景技术
互联网的快速发展加快了大数据时代来临的脚步,尤其在数据量非常庞大的今天,数据协议种类快速增长,协议内容迅速更新,协议分析面临极大的挑战。面对当前大数据环境下种类纷繁复杂的http协议,目前采用的传统分析方法是针对每个网页链接,一个一个的分析,应用这样分析方法获取协议内容中有效信息时,效率低、速度慢。
发明内容
本发明所要解决的技术问题是提供一种http协议信息提取方法,采用全新逻辑设计,应用提取规则的自动生成,能够有效提高http协议信息中有效信息的提取效率。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种http协议信息提取方法,用于针对http协议信息中的有效信息实现自动化提取,包括如下步骤:
步骤A. 获取http协议信息,标注并训练命名实体识别模型,然后进入步骤B;
步骤B. 获取一条http协议信息,获取其中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value,然后进入步骤C;
步骤C. 获取该http协议信息所对应HOST与PATH的组合,构成参考对象,并判断是否存在该参考对象所对应的提取规则或过滤规则,是则进入步骤G;否则进入步骤D;
步骤D. 判断是否存在该参考对象所对应的协议信息累计集合,是则将该http协议信息加入该协议信息累计集合中,并进入步骤E;否则创建该参考对象所对应的协议信息累计集合,并将该http协议信息加入该协议信息累计集合中,并返回步骤B;
步骤E. 判断该参考对象所对应协议信息累计集合中http协议信息的数量是否达到预设累加数量阈值,是则进入步骤F;否则返回步骤B;
步骤F. 针对该参考对象所对应的协议信息累计集合,应用命名实体识别模型,根据所获其中各http协议信息中预设各指定项目的数据内容,判断该http协议信息所对应Key-Value中有效Key信息个数的总和是否不小于预设个数阈值,是则以该参考对象与该全部有效Key信息,组合构成该参考对象所对应的提取规则,并返回步骤B;否则定义该参考对象对应过滤规则,并返回步骤B;
步骤G. 若该参考对象对应提取规则,则根据该提取规则,提取该http协议信息所对应Key-Value中的有效Value信息,实现http协议信息中有效信息的提取;若该参考对象对应过滤规则,则将该http协议信息丢弃。
作为本发明的一种优选技术方案,所述步骤A包括如下步骤:
步骤A1. 获取预设数量的样本http协议信息,并分别针对各样本http协议信息,标注其中的预设各指定项目的数据内容,然后进入步骤A2;
步骤A2. 根据各样本http协议信息、以及样本http协议信息中预设各指定项目的数据内容,针对预设指定神经网络进行训练,获得命名实体识别模型,然后进入步骤B。
作为本发明的一种优选技术方案:所述步骤A1中,分别针对各样本http协议信息,使用自然语言处理技术中的命名实体识别算法,标注其中的预设各指定项目的数据内容。
作为本发明的一种优选技术方案:所述步骤A2中的预设指定神经网络为由tensorflow平台搭建biLSTM+crf的神经网络。
作为本发明的一种优选技术方案:所述预设各指定项目包括姓名、手机号、地址、公司名、学校名、IMSI、IMEI、MAC、银行卡、用户名、密码、昵称。
作为本发明的一种优选技术方案:所述步骤E中的预设累加数量阈值为20。
作为本发明的一种优选技术方案:所述步骤F中的预设个数阈值为2。
与上述相对应,本发明还要解决的技术问题是提供一种针对http协议信息提取方法的装置,基于所设计全新逻辑提取方法,充分调用所设计各模块之间的协同操作,能够有效提高http协议信息中有效信息的提取效率。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种针对http协议信息提取方法的装置,包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块;
其中,有效信息识别模块用于识别获取http协议信息中预设各指定项目的数据内容,即执行步骤A;
http协议信息预处理模块用于获取http协议信息中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value,即执行步骤B;
自动提取规则生成模块用于根据有效信息识别模块的处理结果,针对http协议信息预处理模块的处理结果进一步处理,获得相应提取规则或过滤规则,即执行步骤C至步骤F;
http协议信息自动提取模块用于根据提取规则或过滤规则,针对http协议信息预处理模块的处理结果进行有效信息的提取,即执行步骤G。
本发明所述一种http协议信息提取方法及装置,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计http协议信息提取方法及装置中,提取方法采用全新逻辑设计方法,根据所获http协议信息中数据的实际情形,应用http协议信息所对应的HOST、PATH、以及由QUERY和信息内容数据所处理获得的Key-Value,自动化生成相应有效信息的提取规则,所获提取规则符合相应协议信息的客观实际情形,克服了现有技术的不足,并且所设计方法在应用中,逻辑清楚、运算执行速度快;本发明所设计针对提取方法的装置,包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块,应用中充分调用所设计各模块之间的协同操作,能够有效提高http协议信息中有效信息的提取效率。
附图说明
图1是本发明设计应用实施例中预设各指定项目数据内容的标注结果示意图;
图2是本发明设计中应用http协议信息预处理模块的处理示意图;
图3是本发明设计中自动提取规则生成模块的应用流程示意图;
图4是本发明设计中http协议信息自动提取模块的应用流程示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明设计了一种http协议信息提取方法及装置,实际应用当中,所设计装置具体包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块。
应用中,有效信息识别模块用于识别获取http协议信息中预设各指定项目的数据内容。
http协议信息预处理模块用于获取http协议信息中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value。
自动提取规则生成模块用于根据有效信息识别模块的处理结果,针对http协议信息预处理模块的处理结果进一步处理,获得相应提取规则或过滤规则。
http协议信息自动提取模块用于根据提取规则或过滤规则,针对http协议信息预处理模块的处理结果进行有效信息的提取。
基于上述所设计的四个模块,执行本发明所设计的http协议信息提取方法,针对http协议信息中的有效信息实现自动化提取,实际应用当中,具体执行如下步骤A至步骤G。
步骤A.获取http协议信息,标注并训练命名实体识别模型,然后进入步骤B。
实际应用当中,上述步骤A中,应用有效信息识别模块具体执行如下步骤A1至步骤A2。
步骤A1. 获取预设数量的样本http协议信息,并分别针对各样本http协议信息,使用自然语言处理技术中的命名实体识别算法,标注其中的预设各指定项目的数据内容,如图1所示,然后进入步骤A2。
实际应用中,这里的预设各指定项目,具体设计包括姓名、手机号、地址、公司名、学校名、IMSI、IMEI、MAC、银行卡、用户名、密码、昵称等。
步骤A2. 根据各样本http协议信息、以及样本http协议信息中预设各指定项目的数据内容,针对由tensorflow平台搭建biLSTM+crf的神经网络进行训练,获得命名实体识别模型,然后进入步骤B。
步骤B. 如图2所示,应用http协议信息预处理模块获取该http协议信息中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value,然后进入步骤C。
上述步骤B在实际应用中,对于其中Key-Value格式数据的处理获得,如图2所示,即针对http协议信息中的QUERY、以及信息内容数据(COOKIE、POST_CONTENT)处理为Key-Value格式数据。
如此基于上述步骤B的执行,即可构成http协议信息所对应的{ HOST、PATH、Key-Value}三元组,后续基于http协议信息所对应的三元组,应用执行后续各步骤实际操作。
如图3所示,应用自动提取规则生成模块继续执行如下步骤C至步骤F。
步骤C. 应用自动提取规则生成模块获取该http协议信息所对应HOST与PATH的组合,构成参考对象,并判断是否存在该参考对象所对应的提取规则或过滤规则,是则进入步骤G;否则进入步骤D。
步骤D. 应用自动提取规则生成模块判断是否存在该参考对象所对应的协议信息累计集合,是则将该http协议信息加入该协议信息累计集合中,并进入步骤E;否则创建该参考对象所对应的协议信息累计集合,并将该http协议信息加入该协议信息累计集合中,并返回步骤B。
步骤E. 应用自动提取规则生成模块判断该参考对象所对应协议信息累计集合中http协议信息的数量是否达到预设累加数量阈值,是则进入步骤F;否则返回步骤B。
实际应用中,针对预设累加数量阈值,具体设计为20,即上述步骤E中,针对相应参考对象所对应协议信息累计集合中http协议信息的数量,由应用自动提取规则判断其是否达到20,是则进入步骤F;否则返回步骤B。
步骤F. 自动提取规则生成模块针对该参考对象所对应的协议信息累计集合,应用命名实体识别模型根据所获其中各http协议信息中预设各指定项目的数据内容,判断该各http协议信息所对应Key-Value中有效Key信息个数的总和是否不小于预设个数阈值,是则以该参考对象与该全部有效Key信息,组合构成该参考对象所对应的提取规则,并返回步骤B;否则定义该参考对象对应过滤规则,并返回步骤B。
实际应用中,针对预设个数阈值,具体设计为2,即上述步骤F中,针对相应各http协议信息所对应Key-Value中有效Key信息个数的总和,由自动提取规则生成模块判断其是否不小于2,是则以该参考对象与该全部有效Key信息,组合构成该参考对象所对应的提取规则,并返回步骤B;否则定义该参考对象对应过滤规则,并返回步骤B。
步骤G. 如图4所示,http协议信息自动提取模块针对该参考对象,若该参考对象对应提取规则,则根据该提取规则,提取该http协议信息所对应Key-Value中的有效Value信息,实现http协议信息中有效信息的提取;若该参考对象对应过滤规则,则将该http协议信息丢弃。
上述技术方案所设计http协议信息提取方法及装置中,提取方法采用全新逻辑设计方法,根据所获http协议信息中数据的实际情形,应用http协议信息所对应的HOST、PATH、以及由QUERY和信息内容数据所处理获得的Key-Value,自动化生成相应有效信息的提取规则,所获提取规则符合相应协议信息的客观实际情形,克服了现有技术的不足,并且所设计方法在应用中,逻辑清楚、运算执行速度快;本发明所设计针对提取方法的装置,包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块,应用中充分调用所设计各模块之间的协同操作,能够有效提高http协议信息中有效信息的提取效率。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (8)
1.一种http协议信息提取方法,用于针对http协议信息中的有效信息实现自动化提取,其特征在于,包括如下步骤:
步骤A. 获取http协议信息,标注并训练命名实体识别模型,然后进入步骤B;
步骤B. 获取一条http协议信息,获取其中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value,然后进入步骤C;
步骤C. 获取该http协议信息所对应HOST与PATH的组合,构成参考对象,并判断是否存在该参考对象所对应的提取规则或过滤规则,是则进入步骤G;否则进入步骤D;
步骤D. 判断是否存在该参考对象所对应的协议信息累计集合,是则将该http协议信息加入该协议信息累计集合中,并进入步骤E;否则创建该参考对象所对应的协议信息累计集合,并将该http协议信息加入该协议信息累计集合中,并返回步骤B;
步骤E. 判断该参考对象所对应协议信息累计集合中http协议信息的数量是否达到预设累加数量阈值,是则进入步骤F;否则返回步骤B;
步骤F. 针对该参考对象所对应的协议信息累计集合,应用命名实体识别模型,根据所获其中各http协议信息中预设各指定项目的数据内容,判断该http协议信息所对应Key-Value中有效Key信息个数的总和是否不小于预设个数阈值,是则以该参考对象与该全部有效Key信息,组合构成该参考对象所对应的提取规则,并返回步骤B;否则定义该参考对象对应过滤规则,并返回步骤B;
步骤G. 若该参考对象对应提取规则,则根据该提取规则,提取该http协议信息所对应Key-Value中的有效Value信息,实现http协议信息中有效信息的提取;若该参考对象对应过滤规则,则将该http协议信息丢弃。
2.根据权利要求1所述一种http协议信息提取方法,其特征在于,所述步骤A包括如下步骤:
步骤A1. 获取预设数量的样本http协议信息,并分别针对各样本http协议信息,标注其中的预设各指定项目的数据内容,然后进入步骤A2;
步骤A2. 根据各样本http协议信息、以及样本http协议信息中预设各指定项目的数据内容,针对预设指定神经网络进行训练,获得命名实体识别模型,然后进入步骤B。
3.根据权利要求2所述一种http协议信息提取方法,其特征在于:所述步骤A1中,分别针对各样本http协议信息,使用自然语言处理技术中的命名实体识别算法,标注其中的预设各指定项目的数据内容。
4.根据权利要求2所述一种http协议信息提取方法,其特征在于:所述步骤A2中的预设指定神经网络为由tensorflow平台搭建biLSTM+crf的神经网络。
5.根据权利要求1至4中任意一项所述一种http协议信息提取方法,其特征在于:所述预设各指定项目包括姓名、手机号、地址、公司名、学校名、IMSI、IMEI、MAC、银行卡、用户名、密码、昵称。
6.根据权利要求1至4中任意一项所述一种http协议信息提取方法,其特征在于:所述步骤E中的预设累加数量阈值为20。
7.根据权利要求1至4中任意一项所述一种http协议信息提取方法,其特征在于:所述步骤F中的预设个数阈值为2。
8.一种针对权利要求1至7中任意一项所述一种http协议信息提取方法的装置,其特征在于:包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块;
其中,有效信息识别模块用于识别获取http协议信息中预设各指定项目的数据内容,即执行步骤A;
http协议信息预处理模块用于获取http协议信息中的HOST、PATH、QUERY、以及信息内容数据,并将QUERY和信息内容数据处理为Key-Value格式数据,构成该http协议信息所对应的HOST、PATH、Key-Value,即执行步骤B;
自动提取规则生成模块用于根据有效信息识别模块的处理结果,针对http协议信息预处理模块的处理结果进一步处理,获得相应提取规则或过滤规则,即执行步骤C至步骤F;
http协议信息自动提取模块用于根据提取规则或过滤规则,针对http协议信息预处理模块的处理结果进行有效信息的提取,即执行步骤G。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010108818.0A CN113297847B (zh) | 2020-02-21 | 2020-02-21 | 一种http协议信息提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010108818.0A CN113297847B (zh) | 2020-02-21 | 2020-02-21 | 一种http协议信息提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297847A CN113297847A (zh) | 2021-08-24 |
CN113297847B true CN113297847B (zh) | 2023-09-05 |
Family
ID=77318563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010108818.0A Active CN113297847B (zh) | 2020-02-21 | 2020-02-21 | 一种http协议信息提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297847B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116032732A (zh) * | 2023-03-27 | 2023-04-28 | 北京全路通信信号研究设计院集团有限公司 | 一种铁路货运系统信息传输方法、系统、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095772A (zh) * | 2016-05-18 | 2016-11-09 | 厦门市美亚柏科信息股份有限公司 | 一种http协议信息提取的方法和装置 |
CN108055166A (zh) * | 2017-12-20 | 2018-05-18 | 中山大学 | 一种嵌套的应用层协议的状态机提取系统及其提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9081861B2 (en) * | 2008-07-21 | 2015-07-14 | Google Inc. | Uniform resource locator canonicalization |
-
2020
- 2020-02-21 CN CN202010108818.0A patent/CN113297847B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095772A (zh) * | 2016-05-18 | 2016-11-09 | 厦门市美亚柏科信息股份有限公司 | 一种http协议信息提取的方法和装置 |
CN108055166A (zh) * | 2017-12-20 | 2018-05-18 | 中山大学 | 一种嵌套的应用层协议的状态机提取系统及其提取方法 |
Non-Patent Citations (1)
Title |
---|
基于REST的空间信息服务互操作协议的研究;李波;丁仙峰;伊文英;张敏芳;;计算机科学(第S1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113297847A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018032937A1 (zh) | 一种文本信息分类方法及其装置 | |
CN110149266B (zh) | 垃圾邮件识别方法及装置 | |
CN109873810B (zh) | 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 | |
CN110909224B (zh) | 一种基于人工智能的敏感数据自动分类识别方法及系统 | |
CN112766255A (zh) | 一种光学文字识别方法、装置、设备及存储介质 | |
CN110119353B (zh) | 测试数据生成方法、装置以及控制器和介质 | |
CN111970400B (zh) | 骚扰电话识别方法及装置 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN113297847B (zh) | 一种http协议信息提取方法及装置 | |
CN111224998B (zh) | 一种基于极限学习机的僵尸网络识别方法 | |
CN115100717A (zh) | 特征提取模型的训练方法、卡通对象的识别方法及装置 | |
CN116107834A (zh) | 日志异常检测方法、装置、设备及存储介质 | |
CN111400617B (zh) | 基于主动学习的社交机器人检测数据集扩展方法及系统 | |
CN111949720B (zh) | 基于大数据和人工智能的数据分析方法及云端数据服务器 | |
CN116663019B (zh) | 一种源代码漏洞检测方法、装置和系统 | |
CN117573955A (zh) | 一种基于大语言能力的自动题解生成方法及装置 | |
CN111917665A (zh) | 一种终端应用数据流识别方法及系统 | |
CN115035463B (zh) | 行为识别方法、装置、设备和存储介质 | |
CN116070642A (zh) | 一种基于表情嵌入的文本情感分析方法及相关装置 | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
CN115169293A (zh) | 一种文本隐写分析方法、系统、装置及存储介质 | |
CN114722821A (zh) | 一种文本匹配方法、装置、存储介质及电子设备 | |
CN114281966A (zh) | 问题模板生成方法、问答方法、装置与电子设备 | |
CN112182575A (zh) | 基于lstm的攻击数据集恶意片段标注方法及系统 | |
CN112445939A (zh) | 一种社交网络群体发现系统、方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |