CN106095772A - 一种http协议信息提取的方法和装置 - Google Patents
一种http协议信息提取的方法和装置 Download PDFInfo
- Publication number
- CN106095772A CN106095772A CN201610328706.XA CN201610328706A CN106095772A CN 106095772 A CN106095772 A CN 106095772A CN 201610328706 A CN201610328706 A CN 201610328706A CN 106095772 A CN106095772 A CN 106095772A
- Authority
- CN
- China
- Prior art keywords
- host
- data
- url
- label
- extracting rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
Abstract
本发明公开了一种http协议信息提取的方法和装置,该方法包括载入用于http协议信息提取的提取规则,并存入内存;从待分析数据中获取一条数据中的host和url;判断获取到的host和url是否与提取规则相匹配;以及在获取到的host和url与提取规则相匹配时,根据提取规则进行http协议信息的提取。通过本发明,能够在大数据下对http协议进行快速、高效的分析和信息提取。
Description
技术领域
本发明涉及数据分析技术领域,具体而言,特别涉及一种http协议信息提取的方法和装置。
背景技术
随着互联网时代的快速发展,大数据时代也将到来。如今社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,企业越发需要有效的信息来确保其真实性及安全性。
在数据量非常宠大的今天,数据协议种类的快速上升以及协议内容的快速更新,协议分析的复杂性也不言而喻,http数据协议信息提取将面临极大的挑战。目前在大数据环境下,http协议种类繁多,关系复杂,目前采用的传统分析方法是针对每个网页链接,一个一个的进行分析,这样的分析方法在获取协议内容的有效信息时,速度慢、效率低。
针对现有技术中存在的上述问题,目前尚未提出有效的解决方法。
发明内容
本发明的主要目的在于提供一种http协议信息提取的方法和装置,以解决现有技术中http协议在获取协议内容的有效信息时,速度慢、效率低的技术的问题。
依据本发明的一个方面,提供了一种http协议信息提取的方法,该方法包括:载入用于http协议信息提取的提取规则,并存入内存;从待分析数据中获取一条数据中的host和url;判断获取到的host和url是否与提取规则相匹配;以及在获取到的host和url与提取规则相匹配时,根据提取规则进行http协议信息的提取。
进一步地,提取规则为xml配置文件,载入提取规则包括:采用SAXReader读入xml配置文件;遍历host标签,构造HostInfo实体对象;遍历host标签下的urlinfo标签,构造UrlInfo实体对象,并对协议小类代码和自定义类进行 有效性验证;遍历urlinfo标签下的getinfo标签,构造GetInfo实体对象,对pType、srcData属性和自定义类进行有效性验证;遍历getinfo标签下的todata标签,构造Todata实体对象,对keystring和自定义类进行有效性验证;以及统计各类标签个数。
进一步地,在载入提取规则后,存入内存包括:在内存中以HashMap方式将载入的提取规则保存在内存中,其中,HashMap方式中键为各标签的标签属性。
进一步地,判断获取到的host和url是否与提取规则相匹配包括:对host进行分级,逐级判断host的每一级信息是否存在于HashMap中;以及在host的任一级信息存在于HashMap中时,对url采用遍历及字符串匹配方法进行匹配。
进一步地,HostInfo实体对象的元素包括:host、hostid和desc;UrlInfo实体对象的元素包括:url、urlid、urltype、procode和dec;GetInfo实体对象的元素包括:pType和srcData;Todata实体对象的元素包括:name、keystring、ingdex和code。
进一步地,根据提取规则进行http协议信息的提取包括:提取内容来源;遍历匹配的提取规则中的GetInfo实体对象,根据提取规则中的GetInfo实体对象中的pType和srcData判断数据来源和处理方式来提取数据。
进一步地,从待分析数据中获取一条数据的host和url之前,该方法还包括:对从待分析数据中获取的一条数据进行有效性检查,在该条数据中不含http信息、host或url时,将该条数据忽略,其中,仅当该条数据中含有http信息、host和url时,才执行从该条数据中获取host和url的步骤。
依据本发明的另一个方面,提供了一种http协议信息提取的装置,该装置包括:规则加载器,用于载入用于http协议信息提取的提取规则,并存入内存;规则解析器,用于从待分析数据中获取一条数据中的host和url,判断获取到的host和url是否与提取规则相匹配,并在获取到的host和url与提取规则相匹配时,根据提取规则进行http协议信息的提取。
进一步地,提取规则为xml配置文件,规则加载器在执行载入提取规则的步骤时,具体执行以下步骤:采用SAXReader读入xml配置文件;遍历host 标签,构造HostInfo实体对象;遍历host标签下的urlinfo标签,构造UrlInfo实体对象,并对协议小类代码和自定义类进行有效性验证;遍历urlinfo标签下的getinfo标签,构造GetInfo实体对象,对pType、srcData属性和自定义类进行有效性验证;遍历getinfo标签下的todata标签,构造Todata实体对象,对keystring和自定义类进行有效性验证;以及统计各类标签个数。
进一步地,规则加载器在执行存入内存的步骤时,具体执行以下步骤:在内存中以HashMap方式将载入的提取规则保存在内存中,其中,HashMap方式中键为各标签的标签属性。
通过本发明,提供了一种http协议信息提取的方法,该方法首先载入用于http协议信息提取的提取规则,并存入内存,在需要从大数据中提取http协议信息时,从待分析数据中获取一条数据中的host和url,判断获取到的host和url是否与提取规则相匹配,如果获取到的host和url与提取规则相匹配,则根据匹配到的提取规则进行http协议信息的提取,提取后获取下一条数据继续进行信息的提取;如果获取到的host和url与提取规则不匹配,则直接获取下一条数据,解决了现有技术中http协议在获取协议内容的有效信息时,速度慢、效率低的技术的问题,达到了高效、简单地进行http协议信息提取的效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明第一实施例的http协议信息提取的方法的流程图;
图2是根据本发明第二实施例的http协议信息提取的方法的流程图;
图3是根据本发明第三实施例的http协议信息提取的装置的框图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步说明。需要指出的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
首先,本发明实施例一提供了一种http协议信息提取的方法,该方法主要描述提取http协议信息的过程,参见图1,该方法可以包括以下步骤:
步骤S102:载入用于http协议信息提取的提取规则,并存入内存。
在进行http协议信息提取时,先将提取规则载入并存储于内存中。该提取规则按照http协议的特点,包括多条规则,分别与不同情况的host和url相匹配。
步骤S104:从待分析数据中获取一条数据中的host和url。
待分析数据可以为大数据,在处理时,对待分析数据逐条进行http协议信息的提取。在该步骤中,针对每一条数据,获取数据中的host和url。
步骤S106:判断获取到的host和url是否与提取规则相匹配。
在获取到host和url之后,将其余内存中的提取规则逐条进行匹配。
步骤S108:在获取到的host和url与提取规则相匹配时,根据提取规则进行http协议信息的提取。
当匹配到一条提取规则时,根据匹配到的提取规则进行http协议信息的提取,提取后获取下一条数据继续进行信息的提取;如果获取到的host和url与内存中的提取规则均不匹配,则返回步骤S104,直接获取下一条数据进行处理。
采用该实施例,预置http协议信息的提取规则,在进行http协议信息的提取时,利用相匹配的提取规则进行提取。通过自动识别方法,在http协议快速更新变化的情况下,可以高效、简单的对http协议内容的有效信息进行快速配置提取。而且在当今大数据时代,更能发挥其处理水平。本申请实施例适用于在数据体量巨大、数据类型繁多、价值密度低、处理速度要求快的场景下。
实施例二
该实施例为在实施例一的基础上进一步优选的http协议信息提取的方法, 参见图2,该方法可以包括以下步骤:
步骤S202:载入用于http协议信息提取的提取规则。
优选地,提取规则写为xml配置文件的形式,在载入提取规则时,采用以下步骤:
采用SAXReader读入xml配置文件;遍历host标签,构造HostInfo实体对象;遍历host标签下的urlinfo标签,构造UrlInfo实体对象,并对协议小类代码和自定义类进行有效性验证;遍历urlinfo标签下的getinfo标签,构造GetInfo实体对象,对pType、srcData属性和自定义类进行有效性验证;遍历getinfo标签下的todata标签,构造Todata实体对象,对keystring和自定义类进行有效性验证;以及统计各类标签个数。
其中,HostInfo实体对象的元素包括:host、hostid和desc;UrlInfo实体对象的元素包括:url、urlid、urltype、procode和dec;GetInfo实体对象的元素包括:pType和srcData;Todata实体对象的元素包括:name、keystring、ingdex和code。
例如,一个xml配置文件为:
Xml配置文件样例如下:
<hostinfo host=”hg0088.com”hostid=”login_01”desc=”皇冠娱乐城”>
<urlinfo url=”/app/member/login.php”urlid=”1”urltype=”hg0088_login”procode=”login_01”desc=”登陆”actiontype=”action”actionvalue=”02”>
<getinfo pType=”PTCFG_CURLENCODE”srcData=”H_REQ_POSTDATA”>
<todata name=”un”keystring=”username”index=”01”code=”userName”/>
<todata name=”pw”keystring=”password”index=”02”code=”passWord”/>
</getinfo>
</urlinfo>
</hostinfo>
具体地,提取规则配置的元素说明如下表一至表六。
表一HostInfo实体对象的元素
备注:子元素为Urlinfo实体对象(允许多个),其中“必填”一栏中内容为“是”时,表示为对象必须包括的元素,为“否”时,可包括也可不包括,下列各表类似。
表二Urlinfo实体对象的元素
备注:子元素为GetInfo实体对象(允许多个)。
表三GetInfo实体对象的元素
备注:当pType为PTCFG_CLASS时,class为GetInfo实体对象的元素, 子元素为Todata实体对象。
表四pType取值说明表
表五srcData取值说明表
表六Todata实体对象的元素
步骤S204:在内存中以HashMap方式将载入的提取规则保存在内存中。
其中,HashMap方式中键为各标签的标签属性。例如,在内存中的数据组织方式为:Map<String,HostInfo>,该map的key为:每条规则对应的主机名,即:hostinfo标签的host属性。
步骤S206:从待分析数据中获取一条数据。
步骤S208:对该条数据进行有效性检查。
在该条数据中不含http信息、host或url时,也即无效时,将该条数据忽略,返回步骤S206,重新获取一条数据;在该条数据中还有http信息、host和url时,也即有效时,执行下述步骤S210。
步骤S210:获取该条数据中的host和url。
步骤S212:对host进行分级,逐级判断host的每一级信息是否存在于HashMap中。
例如,host=”mp3.baidu.com”,先判断第一级信息mp3.baidu.com是否存在于HashMap中,如果没有,再判断第二级信息baidu.com是否存在于 HashMap中,如果没有,再判断第三级信息com是否在HashMap中。只要有一级信息存在于HashMap中,则进入步骤S214进行url匹配。
步骤S214:在host的任一级信息存在于HashMap中时,对url采用遍历及字符串匹配方法进行匹配。
具体匹配时,可采用精确匹配方法和子串匹配方法。
其中,精确匹配方法是指:当数据中的host值与规则中缓存的host值精确对应时,则采用精确匹配的方式进行匹配。
子串匹配方法是指:如果数据中的host值与规则中缓存的host无法精确匹配时,则将数据中的host逐级分离,将分离出的子串在与规则中缓存的host进行匹配,以此类推,直至全部子串匹配完为止。
步骤S216:在内存中匹配到提取规则时,根据提取规则进行http协议信息的提取。
在匹配不到提取规则时,返回步骤S206,重新获取一条数据。
具体地,在进行信息提取时,提取内容来源,然后遍历匹配的提取规则中的GetInfo实体对象,根据提取规则中的GetInfo实体对象中的pType和srcData判断数据来源和处理方式来提取数据,具体说明如下表七和表八。
表七
表八
其中,Url方法是指:对返回的数据按照URL编码规则进行分解和解析,常用于POST数据或URL,源数据形如:username=123&password=666666&ef=js,则只需将username和password配置到tdata标签中的keystring健值中即可提取相应内容。todata形如:
<todata name=”un”keystring=”username”index=”01”code=”userName”/>
<todata name=”un”keystring=”password”index=”01”code=”passWord”/>
中间字符串方法是指:对数据取中间字符串。源数据形如:username=01;tracknick=123456;password=666666
todata必须包含|#|字样,todata形如:
<todata name=”nn”keystring=”tracknick=|#|;”index=”01”code=”userName”/>
类方法是指:对返回的数据,指定Java类进行处理,class属性配置类名。
Cookie方法是指:对返回的数据从cookie中获取内容进行处理。检索”Cookie:”找到行尾,截取子串加快处理速度。
表单方法是指:对返回的数据按照表单的形式进行处理,源数据形如:
------WebKitFormBoundaryVzclpgopw
Content-Disposition:form-data;name=”Txt_petname”
Admin
------WebKitFormBoundaryVzclpgopw
Content-Disposition:form-data;name=”Txt_password”
666666
todata形如:
<todata name=”nn”keystring=”Txt_petname”index=”01”code=”userName”/>
Json方法是指:对返回的数据进行json处理,源数据形如:
{“username”:”1111111”,password:”666666”}
todata形如:
<todata name=”nn”keystring=”username”index=”01”code=”userName”/>
Xml方法是指:对返回的数据进行XML处理,todata形如:
<todata name=”nn”keystring=”_BA_|#|message|#|from”index=”01”code=”userName”/>
http头部方法是指:对返回的数据按照http头的方式进行处理,todata形如:
<todata name=”imei”keystring=”Connection”index=”01”code=”IMEI”/>
以上是对本发明所提供的http协议信息提取的方法进行的描述。下面将对本发明提供的http协议信息提取的装置进行描述,需要说明的是,该装置可用于执行上述任意一种http协议信息提取的方法。
实施例三
与本发明实施例一提供的http协议信息提取的方法相对应,本发明实施例还提供了一种http协议信息提取的装置,参见图3,该装置可以包括规则加载器和规则解析器。
其中,规则加载器用于载入用于http协议信息提取的提取规则,并存入内存,具体过程如上文实施例二所述,此处不再赘述,为满足http协议内容的多样性及复杂性,还可以根据具体要求实现个性化提取接口,进而达到自定义个性化提取;规则解析器用于从待分析数据中获取一条数据中的host和 url,判断获取到的host和url是否与所述提取规则相匹配,并在所述获取到的host和url与所述提取规则相匹配时,根据所述提取规则进行http协议信息的提取。
具体地,该装置处理来自网页访问的数据,根据提取规则提取信息。如图3所示,海量数据进来后调用http信息提取的主入口。先进行数据有效性检查:若数据中不含http协议信息、不含host或不含url,则该条数据直接忽略。否则,采用如下的流程进行处理:
a)从海量数据中获取host和url
b)调用规则解析器的规则验证方法判断是否符合提取规则,若不符合则直接返回,继续下一条数据;若符合则调用规则解析器的规则解析方法进行信息提取。
c)若HTTP类型为get,则删除get的内容。
d)判断是否提取到数据,若未提取到数据则直接返回;若提取到有效数据将数据存入上下文。
其中,规则解析器的主要实现两个核心方法为规则验证、规则解析,用到的外部数据(缓存):规则缓存、字段代码和键名对应缓存。
关于规则验证,主要是判断传入的host和srcUrl是否与提取规则匹配。如果没有找到匹配的规则,则返回空;如果匹配,则返回对应规则的UrlInfo实体对象。
关于规则匹配方式,采用先匹配host,再匹配url的方式。host采用逐级剥离匹配的方式。只要有一级信息匹配,则进入url匹配。url采用遍历及字符串匹配方法,匹配支持精确匹配和子串匹配两种。
优选地,当host和url都不符合规则时,进入特殊根规则匹配。根规则,一般写在配置xml文件的第一条,约定其host为:host="ROOT_RULE_NO_HOST"。可以用于忽略主机名的,url模板匹配,主要用于网站模板,例如:所有url中包含app/member的链接。
关于规则解析,主要是根据规则提取信息,并将提取的信息回填到上下文中。具体提取规则见上文实施例二所述,此处不再赘述。
从以上各实施例的描述中,可以看出,本发明实施例实现了如下技术效 果:通过自动识别方法,在http协议快速更新变化的情况下,可以高效、简单的对http协议内容的有效信息进行快速提取。而且在当今大数据时代,更能发挥其处理水平。
需要说明的是,上述装置或系统实施例属于优选实施例,所涉及的单元和模块并不一定是本申请所必须的。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于本申请的装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种http协议信息提取的方法,其特征在于,包括:
载入用于http协议信息提取的提取规则,并存入内存;
从待分析数据中获取一条数据中的host和url;
判断获取到的host和url是否与所述提取规则相匹配;以及
在所述获取到的host和url与所述提取规则相匹配时,根据所述提取规则进行http协议信息的提取。
2.根据权利要求1所述的方法,其特征在于,所述提取规则为xml配置文件,载入所述提取规则包括:
采用SAXReader读入所述xml配置文件;
遍历host标签,构造HostInfo实体对象;
遍历host标签下的urlinfo标签,构造UrlInfo实体对象,并对协议小类代码和自定义类进行有效性验证;
遍历urlinfo标签下的getinfo标签,构造GetInfo实体对象,对pType、srcData属性和自定义类进行有效性验证;
遍历getinfo标签下的todata标签,构造Todata实体对象,对keystring和自定义类进行有效性验证;以及
统计各类标签个数。
3.根据权利要求2所述的方法,其特征在于,在载入所述提取规则后,存入内存包括:
在内存中以HashMap方式将载入的所述提取规则保存在内存中,其中,所述HashMap方式中键为各标签的标签属性。
4.根据权利要求3所述的方法,其特征在于,判断获取到的host和url是否与所述提取规则相匹配包括:
对host进行分级,逐级判断host的每一级信息是否存在于HashMap中;以及
在host的任一级信息存在于HashMap中时,对url采用遍历及字符串匹配方法进行匹配。
5.根据权利要求4所述的方法,其特征在于,
所述HostInfo实体对象的元素包括:host、hostid和desc;
所述UrlInfo实体对象的元素包括:url、urlid、urltype、procode和dec;
所述GetInfo实体对象的元素包括:pType和srcData;
所述Todata实体对象的元素包括:name、keystring、ingdex和code。
6.根据权利要求5所述的方法,其特征在于,根据所述提取规则进行http协议信息的提取包括:
提取内容来源;
遍历匹配的所述提取规则中的GetInfo实体对象,根据所述提取规则中的GetInfo实体对象中的pType和srcData判断数据来源和处理方式来提取数据。
7.根据权利要求1所述的方法,其特征在于,从待分析数据中获取一条数据的host和url之前,所述方法还包括:
对从待分析数据中获取的一条数据进行有效性检查,在该条数据中不含http信息、host或url时,将该条数据忽略,
其中,仅当该条数据中含有http信息、host和 url时,才执行从该条数据中获取host和url的步骤。
8.一种http协议信息提取的装置,其特征在于,包括:
规则加载器,用于载入用于http协议信息提取的提取规则,并存入内存;
规则解析器,用于从待分析数据中获取一条数据中的host和url,判断获取到的host和url是否与所述提取规则相匹配,并在所述获取到的host和url与所述提取规则相匹配时,根据所述提取规则进行http协议信息的提取。
9.根据权利要求8所述的装置,其特征在于,所述提取规则为xml配置文件,所述规则加载器在执行载入提取规则的步骤时,具体执行以下步骤:
采用SAXReader读入所述xml配置文件;
遍历host标签,构造HostInfo实体对象;
遍历host标签下的urlinfo标签,构造UrlInfo实体对象,并对协议小类代码和自定义类进行有效性验证;
遍历urlinfo标签下的getinfo标签,构造GetInfo实体对象,对pType、srcData属性和自定义类进行有效性验证;
遍历getinfo标签下的todata标签,构造Todata实体对象,对keystring和自定义类进行有效性验证;以及
统计各类标签个数。
10.根据权利要求9所述的装置,其特征在于,所述规则加载器在执行存入内存的步骤时,具体执行以下步骤:
在内存中以HashMap方式将载入的所述提取规则保存在内存中,其中,所述HashMap方式中键为各标签的标签属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610328706.XA CN106095772A (zh) | 2016-05-18 | 2016-05-18 | 一种http协议信息提取的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610328706.XA CN106095772A (zh) | 2016-05-18 | 2016-05-18 | 一种http协议信息提取的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106095772A true CN106095772A (zh) | 2016-11-09 |
Family
ID=57230030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610328706.XA Pending CN106095772A (zh) | 2016-05-18 | 2016-05-18 | 一种http协议信息提取的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106095772A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107404486A (zh) * | 2017-08-04 | 2017-11-28 | 厦门市美亚柏科信息股份有限公司 | 解析Http数据的方法、装置、终端设备及存储介质 |
CN109857958A (zh) * | 2019-02-13 | 2019-06-07 | 杭州孝道科技有限公司 | 一种http输入点查找的方法 |
WO2019134277A1 (zh) * | 2018-01-02 | 2019-07-11 | 武汉斗鱼网络科技有限公司 | 数据过滤方法、装置、服务器及可读存储介质 |
CN113297847A (zh) * | 2020-02-21 | 2021-08-24 | 南京烽火星空通信发展有限公司 | 一种http协议信息提取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130144851A1 (en) * | 2011-07-29 | 2013-06-06 | International Business Machines Corporation | Efficient data extraction by a remote application |
CN104378441A (zh) * | 2014-11-25 | 2015-02-25 | 小米科技有限责任公司 | 日程创建方法和装置 |
CN104598472A (zh) * | 2013-10-31 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 网页内容的提取方法、装置及系统 |
CN105141590A (zh) * | 2015-08-06 | 2015-12-09 | 福建天晴数码有限公司 | 外挂样本提取的方法及系统 |
-
2016
- 2016-05-18 CN CN201610328706.XA patent/CN106095772A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130144851A1 (en) * | 2011-07-29 | 2013-06-06 | International Business Machines Corporation | Efficient data extraction by a remote application |
CN104598472A (zh) * | 2013-10-31 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 网页内容的提取方法、装置及系统 |
CN104378441A (zh) * | 2014-11-25 | 2015-02-25 | 小米科技有限责任公司 | 日程创建方法和装置 |
CN105141590A (zh) * | 2015-08-06 | 2015-12-09 | 福建天晴数码有限公司 | 外挂样本提取的方法及系统 |
Non-Patent Citations (1)
Title |
---|
王海潮: "基于网页结构的信息抽取关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107404486A (zh) * | 2017-08-04 | 2017-11-28 | 厦门市美亚柏科信息股份有限公司 | 解析Http数据的方法、装置、终端设备及存储介质 |
CN107404486B (zh) * | 2017-08-04 | 2020-05-22 | 厦门市美亚柏科信息股份有限公司 | 解析Http数据的方法、装置、终端设备及存储介质 |
WO2019134277A1 (zh) * | 2018-01-02 | 2019-07-11 | 武汉斗鱼网络科技有限公司 | 数据过滤方法、装置、服务器及可读存储介质 |
CN109857958A (zh) * | 2019-02-13 | 2019-06-07 | 杭州孝道科技有限公司 | 一种http输入点查找的方法 |
CN113297847A (zh) * | 2020-02-21 | 2021-08-24 | 南京烽火星空通信发展有限公司 | 一种http协议信息提取方法及装置 |
CN113297847B (zh) * | 2020-02-21 | 2023-09-05 | 南京烽火星空通信发展有限公司 | 一种http协议信息提取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106250513B (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN110602052B (zh) | 微服务处理方法及服务器 | |
US20190065506A1 (en) | Search method and apparatus based on artificial intelligence | |
CN102098331B (zh) | 一种还原web类应用内容的方法及其系统 | |
CN108090351B (zh) | 用于处理请求消息的方法和装置 | |
CN104765729B (zh) | 一种跨平台微博社区账户匹配方法 | |
CN104838413A (zh) | 基于用户提交来调整内容递送 | |
CN106095772A (zh) | 一种http协议信息提取的方法和装置 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN105045847B (zh) | 一种从文本信息中提取中文机构单位名称的方法 | |
CN103106267A (zh) | 基于微博的众包问答系统信息采集方法 | |
CN112989348B (zh) | 攻击检测方法、模型训练方法、装置、服务器及存储介质 | |
CN103546446A (zh) | 一种钓鱼网站的检测方法、装置和终端 | |
CN107862039B (zh) | 网页数据获取方法、系统和数据匹配推送方法 | |
CN103136372A (zh) | 网络可信性行为管理中url快速定位、分类和过滤方法 | |
WO2018171572A1 (zh) | 恶意网址识别方法、计算设备及存储介质 | |
CN103491089A (zh) | 一种基于http的数据还原中的转码方法及系统 | |
CN112580331A (zh) | 政策文本的知识图谱构建方法及系统 | |
CN111586695A (zh) | 短信识别方法及相关设备 | |
CN113239256B (zh) | 生成网站签名的方法、识别网站的方法及装置 | |
CN114626061A (zh) | 网页木马检测的方法、装置、电子设备及介质 | |
CN107688594A (zh) | 基于社交信息的风险事件的识别系统及方法 | |
CN106020923A (zh) | SELinux策略的编译方法及系统 | |
Purohit et al. | Crawling through web to extract the data from Social networking site-Twitter | |
CN115883111A (zh) | 一种钓鱼网站识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161109 |
|
RJ01 | Rejection of invention patent application after publication |