CN106095772A - 一种http协议信息提取的方法和装置 - Google Patents

一种http协议信息提取的方法和装置 Download PDF

Info

Publication number
CN106095772A
CN106095772A CN201610328706.XA CN201610328706A CN106095772A CN 106095772 A CN106095772 A CN 106095772A CN 201610328706 A CN201610328706 A CN 201610328706A CN 106095772 A CN106095772 A CN 106095772A
Authority
CN
China
Prior art keywords
host
data
url
label
extracting rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610328706.XA
Other languages
English (en)
Inventor
朱海勇
鄢小征
栾江霞
周成祖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201610328706.XA priority Critical patent/CN106095772A/zh
Publication of CN106095772A publication Critical patent/CN106095772A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Abstract

本发明公开了一种http协议信息提取的方法和装置,该方法包括载入用于http协议信息提取的提取规则,并存入内存;从待分析数据中获取一条数据中的host和url;判断获取到的host和url是否与提取规则相匹配;以及在获取到的host和url与提取规则相匹配时,根据提取规则进行http协议信息的提取。通过本发明,能够在大数据下对http协议进行快速、高效的分析和信息提取。

Description

一种http协议信息提取的方法和装置
技术领域
本发明涉及数据分析技术领域,具体而言,特别涉及一种http协议信息提取的方法和装置。
背景技术
随着互联网时代的快速发展,大数据时代也将到来。如今社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,企业越发需要有效的信息来确保其真实性及安全性。
在数据量非常宠大的今天,数据协议种类的快速上升以及协议内容的快速更新,协议分析的复杂性也不言而喻,http数据协议信息提取将面临极大的挑战。目前在大数据环境下,http协议种类繁多,关系复杂,目前采用的传统分析方法是针对每个网页链接,一个一个的进行分析,这样的分析方法在获取协议内容的有效信息时,速度慢、效率低。
针对现有技术中存在的上述问题,目前尚未提出有效的解决方法。
发明内容
本发明的主要目的在于提供一种http协议信息提取的方法和装置,以解决现有技术中http协议在获取协议内容的有效信息时,速度慢、效率低的技术的问题。
依据本发明的一个方面,提供了一种http协议信息提取的方法,该方法包括:载入用于http协议信息提取的提取规则,并存入内存;从待分析数据中获取一条数据中的host和url;判断获取到的host和url是否与提取规则相匹配;以及在获取到的host和url与提取规则相匹配时,根据提取规则进行http协议信息的提取。
进一步地,提取规则为xml配置文件,载入提取规则包括:采用SAXReader读入xml配置文件;遍历host标签,构造HostInfo实体对象;遍历host标签下的urlinfo标签,构造UrlInfo实体对象,并对协议小类代码和自定义类进行 有效性验证;遍历urlinfo标签下的getinfo标签,构造GetInfo实体对象,对pType、srcData属性和自定义类进行有效性验证;遍历getinfo标签下的todata标签,构造Todata实体对象,对keystring和自定义类进行有效性验证;以及统计各类标签个数。
进一步地,在载入提取规则后,存入内存包括:在内存中以HashMap方式将载入的提取规则保存在内存中,其中,HashMap方式中键为各标签的标签属性。
进一步地,判断获取到的host和url是否与提取规则相匹配包括:对host进行分级,逐级判断host的每一级信息是否存在于HashMap中;以及在host的任一级信息存在于HashMap中时,对url采用遍历及字符串匹配方法进行匹配。
进一步地,HostInfo实体对象的元素包括:host、hostid和desc;UrlInfo实体对象的元素包括:url、urlid、urltype、procode和dec;GetInfo实体对象的元素包括:pType和srcData;Todata实体对象的元素包括:name、keystring、ingdex和code。
进一步地,根据提取规则进行http协议信息的提取包括:提取内容来源;遍历匹配的提取规则中的GetInfo实体对象,根据提取规则中的GetInfo实体对象中的pType和srcData判断数据来源和处理方式来提取数据。
进一步地,从待分析数据中获取一条数据的host和url之前,该方法还包括:对从待分析数据中获取的一条数据进行有效性检查,在该条数据中不含http信息、host或url时,将该条数据忽略,其中,仅当该条数据中含有http信息、host和url时,才执行从该条数据中获取host和url的步骤。
依据本发明的另一个方面,提供了一种http协议信息提取的装置,该装置包括:规则加载器,用于载入用于http协议信息提取的提取规则,并存入内存;规则解析器,用于从待分析数据中获取一条数据中的host和url,判断获取到的host和url是否与提取规则相匹配,并在获取到的host和url与提取规则相匹配时,根据提取规则进行http协议信息的提取。
进一步地,提取规则为xml配置文件,规则加载器在执行载入提取规则的步骤时,具体执行以下步骤:采用SAXReader读入xml配置文件;遍历host 标签,构造HostInfo实体对象;遍历host标签下的urlinfo标签,构造UrlInfo实体对象,并对协议小类代码和自定义类进行有效性验证;遍历urlinfo标签下的getinfo标签,构造GetInfo实体对象,对pType、srcData属性和自定义类进行有效性验证;遍历getinfo标签下的todata标签,构造Todata实体对象,对keystring和自定义类进行有效性验证;以及统计各类标签个数。
进一步地,规则加载器在执行存入内存的步骤时,具体执行以下步骤:在内存中以HashMap方式将载入的提取规则保存在内存中,其中,HashMap方式中键为各标签的标签属性。
通过本发明,提供了一种http协议信息提取的方法,该方法首先载入用于http协议信息提取的提取规则,并存入内存,在需要从大数据中提取http协议信息时,从待分析数据中获取一条数据中的host和url,判断获取到的host和url是否与提取规则相匹配,如果获取到的host和url与提取规则相匹配,则根据匹配到的提取规则进行http协议信息的提取,提取后获取下一条数据继续进行信息的提取;如果获取到的host和url与提取规则不匹配,则直接获取下一条数据,解决了现有技术中http协议在获取协议内容的有效信息时,速度慢、效率低的技术的问题,达到了高效、简单地进行http协议信息提取的效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明第一实施例的http协议信息提取的方法的流程图;
图2是根据本发明第二实施例的http协议信息提取的方法的流程图;
图3是根据本发明第三实施例的http协议信息提取的装置的框图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步说明。需要指出的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
首先,本发明实施例一提供了一种http协议信息提取的方法,该方法主要描述提取http协议信息的过程,参见图1,该方法可以包括以下步骤:
步骤S102:载入用于http协议信息提取的提取规则,并存入内存。
在进行http协议信息提取时,先将提取规则载入并存储于内存中。该提取规则按照http协议的特点,包括多条规则,分别与不同情况的host和url相匹配。
步骤S104:从待分析数据中获取一条数据中的host和url。
待分析数据可以为大数据,在处理时,对待分析数据逐条进行http协议信息的提取。在该步骤中,针对每一条数据,获取数据中的host和url。
步骤S106:判断获取到的host和url是否与提取规则相匹配。
在获取到host和url之后,将其余内存中的提取规则逐条进行匹配。
步骤S108:在获取到的host和url与提取规则相匹配时,根据提取规则进行http协议信息的提取。
当匹配到一条提取规则时,根据匹配到的提取规则进行http协议信息的提取,提取后获取下一条数据继续进行信息的提取;如果获取到的host和url与内存中的提取规则均不匹配,则返回步骤S104,直接获取下一条数据进行处理。
采用该实施例,预置http协议信息的提取规则,在进行http协议信息的提取时,利用相匹配的提取规则进行提取。通过自动识别方法,在http协议快速更新变化的情况下,可以高效、简单的对http协议内容的有效信息进行快速配置提取。而且在当今大数据时代,更能发挥其处理水平。本申请实施例适用于在数据体量巨大、数据类型繁多、价值密度低、处理速度要求快的场景下。
实施例二
该实施例为在实施例一的基础上进一步优选的http协议信息提取的方法, 参见图2,该方法可以包括以下步骤:
步骤S202:载入用于http协议信息提取的提取规则。
优选地,提取规则写为xml配置文件的形式,在载入提取规则时,采用以下步骤:
采用SAXReader读入xml配置文件;遍历host标签,构造HostInfo实体对象;遍历host标签下的urlinfo标签,构造UrlInfo实体对象,并对协议小类代码和自定义类进行有效性验证;遍历urlinfo标签下的getinfo标签,构造GetInfo实体对象,对pType、srcData属性和自定义类进行有效性验证;遍历getinfo标签下的todata标签,构造Todata实体对象,对keystring和自定义类进行有效性验证;以及统计各类标签个数。
其中,HostInfo实体对象的元素包括:host、hostid和desc;UrlInfo实体对象的元素包括:url、urlid、urltype、procode和dec;GetInfo实体对象的元素包括:pType和srcData;Todata实体对象的元素包括:name、keystring、ingdex和code。
例如,一个xml配置文件为:
Xml配置文件样例如下:
<hostinfo host=”hg0088.com”hostid=”login_01”desc=”皇冠娱乐城”>
<urlinfo url=”/app/member/login.php”urlid=”1”urltype=”hg0088_login”procode=”login_01”desc=”登陆”actiontype=”action”actionvalue=”02”>
<getinfo pType=”PTCFG_CURLENCODE”srcData=”H_REQ_POSTDATA”>
<todata name=”un”keystring=”username”index=”01”code=”userName”/>
<todata name=”pw”keystring=”password”index=”02”code=”passWord”/>
</getinfo>
</urlinfo>
</hostinfo>
具体地,提取规则配置的元素说明如下表一至表六。
表一HostInfo实体对象的元素
备注:子元素为Urlinfo实体对象(允许多个),其中“必填”一栏中内容为“是”时,表示为对象必须包括的元素,为“否”时,可包括也可不包括,下列各表类似。
表二Urlinfo实体对象的元素
备注:子元素为GetInfo实体对象(允许多个)。
表三GetInfo实体对象的元素
备注:当pType为PTCFG_CLASS时,class为GetInfo实体对象的元素, 子元素为Todata实体对象。
表四pType取值说明表
表五srcData取值说明表
表六Todata实体对象的元素
步骤S204:在内存中以HashMap方式将载入的提取规则保存在内存中。
其中,HashMap方式中键为各标签的标签属性。例如,在内存中的数据组织方式为:Map<String,HostInfo>,该map的key为:每条规则对应的主机名,即:hostinfo标签的host属性。
步骤S206:从待分析数据中获取一条数据。
步骤S208:对该条数据进行有效性检查。
在该条数据中不含http信息、host或url时,也即无效时,将该条数据忽略,返回步骤S206,重新获取一条数据;在该条数据中还有http信息、host和url时,也即有效时,执行下述步骤S210。
步骤S210:获取该条数据中的host和url。
步骤S212:对host进行分级,逐级判断host的每一级信息是否存在于HashMap中。
例如,host=”mp3.baidu.com”,先判断第一级信息mp3.baidu.com是否存在于HashMap中,如果没有,再判断第二级信息baidu.com是否存在于 HashMap中,如果没有,再判断第三级信息com是否在HashMap中。只要有一级信息存在于HashMap中,则进入步骤S214进行url匹配。
步骤S214:在host的任一级信息存在于HashMap中时,对url采用遍历及字符串匹配方法进行匹配。
具体匹配时,可采用精确匹配方法和子串匹配方法。
其中,精确匹配方法是指:当数据中的host值与规则中缓存的host值精确对应时,则采用精确匹配的方式进行匹配。
子串匹配方法是指:如果数据中的host值与规则中缓存的host无法精确匹配时,则将数据中的host逐级分离,将分离出的子串在与规则中缓存的host进行匹配,以此类推,直至全部子串匹配完为止。
步骤S216:在内存中匹配到提取规则时,根据提取规则进行http协议信息的提取。
在匹配不到提取规则时,返回步骤S206,重新获取一条数据。
具体地,在进行信息提取时,提取内容来源,然后遍历匹配的提取规则中的GetInfo实体对象,根据提取规则中的GetInfo实体对象中的pType和srcData判断数据来源和处理方式来提取数据,具体说明如下表七和表八。
表七
表八
其中,Url方法是指:对返回的数据按照URL编码规则进行分解和解析,常用于POST数据或URL,源数据形如:username=123&password=666666&ef=js,则只需将username和password配置到tdata标签中的keystring健值中即可提取相应内容。todata形如:
<todata name=”un”keystring=”username”index=”01”code=”userName”/>
<todata name=”un”keystring=”password”index=”01”code=”passWord”/>
中间字符串方法是指:对数据取中间字符串。源数据形如:username=01;tracknick=123456;password=666666
todata必须包含|#|字样,todata形如:
<todata name=”nn”keystring=”tracknick=|#|;”index=”01”code=”userName”/>
类方法是指:对返回的数据,指定Java类进行处理,class属性配置类名。
Cookie方法是指:对返回的数据从cookie中获取内容进行处理。检索”Cookie:”找到行尾,截取子串加快处理速度。
表单方法是指:对返回的数据按照表单的形式进行处理,源数据形如:
------WebKitFormBoundaryVzclpgopw
Content-Disposition:form-data;name=”Txt_petname”
Admin
------WebKitFormBoundaryVzclpgopw
Content-Disposition:form-data;name=”Txt_password”
666666
todata形如:
<todata name=”nn”keystring=”Txt_petname”index=”01”code=”userName”/>
Json方法是指:对返回的数据进行json处理,源数据形如:
{“username”:”1111111”,password:”666666”}
todata形如:
<todata name=”nn”keystring=”username”index=”01”code=”userName”/>
Xml方法是指:对返回的数据进行XML处理,todata形如:
<todata name=”nn”keystring=”_BA_|#|message|#|from”index=”01”code=”userName”/>
http头部方法是指:对返回的数据按照http头的方式进行处理,todata形如:
<todata name=”imei”keystring=”Connection”index=”01”code=”IMEI”/>
以上是对本发明所提供的http协议信息提取的方法进行的描述。下面将对本发明提供的http协议信息提取的装置进行描述,需要说明的是,该装置可用于执行上述任意一种http协议信息提取的方法。
实施例三
与本发明实施例一提供的http协议信息提取的方法相对应,本发明实施例还提供了一种http协议信息提取的装置,参见图3,该装置可以包括规则加载器和规则解析器。
其中,规则加载器用于载入用于http协议信息提取的提取规则,并存入内存,具体过程如上文实施例二所述,此处不再赘述,为满足http协议内容的多样性及复杂性,还可以根据具体要求实现个性化提取接口,进而达到自定义个性化提取;规则解析器用于从待分析数据中获取一条数据中的host和 url,判断获取到的host和url是否与所述提取规则相匹配,并在所述获取到的host和url与所述提取规则相匹配时,根据所述提取规则进行http协议信息的提取。
具体地,该装置处理来自网页访问的数据,根据提取规则提取信息。如图3所示,海量数据进来后调用http信息提取的主入口。先进行数据有效性检查:若数据中不含http协议信息、不含host或不含url,则该条数据直接忽略。否则,采用如下的流程进行处理:
a)从海量数据中获取host和url
b)调用规则解析器的规则验证方法判断是否符合提取规则,若不符合则直接返回,继续下一条数据;若符合则调用规则解析器的规则解析方法进行信息提取。
c)若HTTP类型为get,则删除get的内容。
d)判断是否提取到数据,若未提取到数据则直接返回;若提取到有效数据将数据存入上下文。
其中,规则解析器的主要实现两个核心方法为规则验证、规则解析,用到的外部数据(缓存):规则缓存、字段代码和键名对应缓存。
关于规则验证,主要是判断传入的host和srcUrl是否与提取规则匹配。如果没有找到匹配的规则,则返回空;如果匹配,则返回对应规则的UrlInfo实体对象。
关于规则匹配方式,采用先匹配host,再匹配url的方式。host采用逐级剥离匹配的方式。只要有一级信息匹配,则进入url匹配。url采用遍历及字符串匹配方法,匹配支持精确匹配和子串匹配两种。
优选地,当host和url都不符合规则时,进入特殊根规则匹配。根规则,一般写在配置xml文件的第一条,约定其host为:host="ROOT_RULE_NO_HOST"。可以用于忽略主机名的,url模板匹配,主要用于网站模板,例如:所有url中包含app/member的链接。
关于规则解析,主要是根据规则提取信息,并将提取的信息回填到上下文中。具体提取规则见上文实施例二所述,此处不再赘述。
从以上各实施例的描述中,可以看出,本发明实施例实现了如下技术效 果:通过自动识别方法,在http协议快速更新变化的情况下,可以高效、简单的对http协议内容的有效信息进行快速提取。而且在当今大数据时代,更能发挥其处理水平。
需要说明的是,上述装置或系统实施例属于优选实施例,所涉及的单元和模块并不一定是本申请所必须的。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于本申请的装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种http协议信息提取的方法,其特征在于,包括:
载入用于http协议信息提取的提取规则,并存入内存;
从待分析数据中获取一条数据中的host和url;
判断获取到的host和url是否与所述提取规则相匹配;以及
在所述获取到的host和url与所述提取规则相匹配时,根据所述提取规则进行http协议信息的提取。
2.根据权利要求1所述的方法,其特征在于,所述提取规则为xml配置文件,载入所述提取规则包括:
采用SAXReader读入所述xml配置文件;
遍历host标签,构造HostInfo实体对象;
遍历host标签下的urlinfo标签,构造UrlInfo实体对象,并对协议小类代码和自定义类进行有效性验证;
遍历urlinfo标签下的getinfo标签,构造GetInfo实体对象,对pType、srcData属性和自定义类进行有效性验证;
遍历getinfo标签下的todata标签,构造Todata实体对象,对keystring和自定义类进行有效性验证;以及
统计各类标签个数。
3.根据权利要求2所述的方法,其特征在于,在载入所述提取规则后,存入内存包括:
在内存中以HashMap方式将载入的所述提取规则保存在内存中,其中,所述HashMap方式中键为各标签的标签属性。
4.根据权利要求3所述的方法,其特征在于,判断获取到的host和url是否与所述提取规则相匹配包括:
对host进行分级,逐级判断host的每一级信息是否存在于HashMap中;以及
在host的任一级信息存在于HashMap中时,对url采用遍历及字符串匹配方法进行匹配。
5.根据权利要求4所述的方法,其特征在于,
所述HostInfo实体对象的元素包括:host、hostid和desc;
所述UrlInfo实体对象的元素包括:url、urlid、urltype、procode和dec;
所述GetInfo实体对象的元素包括:pType和srcData;
所述Todata实体对象的元素包括:name、keystring、ingdex和code。
6.根据权利要求5所述的方法,其特征在于,根据所述提取规则进行http协议信息的提取包括:
提取内容来源;
遍历匹配的所述提取规则中的GetInfo实体对象,根据所述提取规则中的GetInfo实体对象中的pType和srcData判断数据来源和处理方式来提取数据。
7.根据权利要求1所述的方法,其特征在于,从待分析数据中获取一条数据的host和url之前,所述方法还包括:
对从待分析数据中获取的一条数据进行有效性检查,在该条数据中不含http信息、host或url时,将该条数据忽略,
其中,仅当该条数据中含有http信息、host和 url时,才执行从该条数据中获取host和url的步骤。
8.一种http协议信息提取的装置,其特征在于,包括:
规则加载器,用于载入用于http协议信息提取的提取规则,并存入内存;
规则解析器,用于从待分析数据中获取一条数据中的host和url,判断获取到的host和url是否与所述提取规则相匹配,并在所述获取到的host和url与所述提取规则相匹配时,根据所述提取规则进行http协议信息的提取。
9.根据权利要求8所述的装置,其特征在于,所述提取规则为xml配置文件,所述规则加载器在执行载入提取规则的步骤时,具体执行以下步骤:
采用SAXReader读入所述xml配置文件;
遍历host标签,构造HostInfo实体对象;
遍历host标签下的urlinfo标签,构造UrlInfo实体对象,并对协议小类代码和自定义类进行有效性验证;
遍历urlinfo标签下的getinfo标签,构造GetInfo实体对象,对pType、srcData属性和自定义类进行有效性验证;
遍历getinfo标签下的todata标签,构造Todata实体对象,对keystring和自定义类进行有效性验证;以及
统计各类标签个数。
10.根据权利要求9所述的装置,其特征在于,所述规则加载器在执行存入内存的步骤时,具体执行以下步骤:
在内存中以HashMap方式将载入的所述提取规则保存在内存中,其中,所述HashMap方式中键为各标签的标签属性。
CN201610328706.XA 2016-05-18 2016-05-18 一种http协议信息提取的方法和装置 Pending CN106095772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610328706.XA CN106095772A (zh) 2016-05-18 2016-05-18 一种http协议信息提取的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610328706.XA CN106095772A (zh) 2016-05-18 2016-05-18 一种http协议信息提取的方法和装置

Publications (1)

Publication Number Publication Date
CN106095772A true CN106095772A (zh) 2016-11-09

Family

ID=57230030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610328706.XA Pending CN106095772A (zh) 2016-05-18 2016-05-18 一种http协议信息提取的方法和装置

Country Status (1)

Country Link
CN (1) CN106095772A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404486A (zh) * 2017-08-04 2017-11-28 厦门市美亚柏科信息股份有限公司 解析Http数据的方法、装置、终端设备及存储介质
CN109857958A (zh) * 2019-02-13 2019-06-07 杭州孝道科技有限公司 一种http输入点查找的方法
WO2019134277A1 (zh) * 2018-01-02 2019-07-11 武汉斗鱼网络科技有限公司 数据过滤方法、装置、服务器及可读存储介质
CN113297847A (zh) * 2020-02-21 2021-08-24 南京烽火星空通信发展有限公司 一种http协议信息提取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144851A1 (en) * 2011-07-29 2013-06-06 International Business Machines Corporation Efficient data extraction by a remote application
CN104378441A (zh) * 2014-11-25 2015-02-25 小米科技有限责任公司 日程创建方法和装置
CN104598472A (zh) * 2013-10-31 2015-05-06 腾讯科技(深圳)有限公司 网页内容的提取方法、装置及系统
CN105141590A (zh) * 2015-08-06 2015-12-09 福建天晴数码有限公司 外挂样本提取的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144851A1 (en) * 2011-07-29 2013-06-06 International Business Machines Corporation Efficient data extraction by a remote application
CN104598472A (zh) * 2013-10-31 2015-05-06 腾讯科技(深圳)有限公司 网页内容的提取方法、装置及系统
CN104378441A (zh) * 2014-11-25 2015-02-25 小米科技有限责任公司 日程创建方法和装置
CN105141590A (zh) * 2015-08-06 2015-12-09 福建天晴数码有限公司 外挂样本提取的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王海潮: "基于网页结构的信息抽取关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404486A (zh) * 2017-08-04 2017-11-28 厦门市美亚柏科信息股份有限公司 解析Http数据的方法、装置、终端设备及存储介质
CN107404486B (zh) * 2017-08-04 2020-05-22 厦门市美亚柏科信息股份有限公司 解析Http数据的方法、装置、终端设备及存储介质
WO2019134277A1 (zh) * 2018-01-02 2019-07-11 武汉斗鱼网络科技有限公司 数据过滤方法、装置、服务器及可读存储介质
CN109857958A (zh) * 2019-02-13 2019-06-07 杭州孝道科技有限公司 一种http输入点查找的方法
CN113297847A (zh) * 2020-02-21 2021-08-24 南京烽火星空通信发展有限公司 一种http协议信息提取方法及装置
CN113297847B (zh) * 2020-02-21 2023-09-05 南京烽火星空通信发展有限公司 一种http协议信息提取方法及装置

Similar Documents

Publication Publication Date Title
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN110602052B (zh) 微服务处理方法及服务器
US20190065506A1 (en) Search method and apparatus based on artificial intelligence
CN102098331B (zh) 一种还原web类应用内容的方法及其系统
CN108090351B (zh) 用于处理请求消息的方法和装置
CN104765729B (zh) 一种跨平台微博社区账户匹配方法
CN104838413A (zh) 基于用户提交来调整内容递送
CN106095772A (zh) 一种http协议信息提取的方法和装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN105045847B (zh) 一种从文本信息中提取中文机构单位名称的方法
CN103106267A (zh) 基于微博的众包问答系统信息采集方法
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN103546446A (zh) 一种钓鱼网站的检测方法、装置和终端
CN107862039B (zh) 网页数据获取方法、系统和数据匹配推送方法
CN103136372A (zh) 网络可信性行为管理中url快速定位、分类和过滤方法
WO2018171572A1 (zh) 恶意网址识别方法、计算设备及存储介质
CN103491089A (zh) 一种基于http的数据还原中的转码方法及系统
CN112580331A (zh) 政策文本的知识图谱构建方法及系统
CN111586695A (zh) 短信识别方法及相关设备
CN113239256B (zh) 生成网站签名的方法、识别网站的方法及装置
CN114626061A (zh) 网页木马检测的方法、装置、电子设备及介质
CN107688594A (zh) 基于社交信息的风险事件的识别系统及方法
CN106020923A (zh) SELinux策略的编译方法及系统
Purohit et al. Crawling through web to extract the data from Social networking site-Twitter
CN115883111A (zh) 一种钓鱼网站识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161109

RJ01 Rejection of invention patent application after publication