CN105631050A - 一种基于规则配置的url搜索关键词提取的方法及系统 - Google Patents
一种基于规则配置的url搜索关键词提取的方法及系统 Download PDFInfo
- Publication number
- CN105631050A CN105631050A CN201610111430.XA CN201610111430A CN105631050A CN 105631050 A CN105631050 A CN 105631050A CN 201610111430 A CN201610111430 A CN 201610111430A CN 105631050 A CN105631050 A CN 105631050A
- Authority
- CN
- China
- Prior art keywords
- url
- rule
- keyword
- search
- party
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于规则配置的URL搜索关键词提取的方法,包括生成规则:对需要支持的搜索引擎的搜索URL进行分析,提取搜索URL特征并生成规则;配置规则:配置上述步骤分析到的规则;URL过滤:接收第三方的URL数据并与配置的所述规则进行匹配来过滤收到的所有URL数据;关键词处理:当有第三方的URL命中所述规则,则提取该URL的搜索关键词。本发明可以通过配置规则来快速的实现对多种搜索引擎的搜索URL关键字进行提取,实现海量URL数据的快速处理,从而在信安系统或舆情系统中使用本发明可以提供强有力的支撑。
Description
技术领域
本发明属于互联网舆情分析及网络信息安全技术领域,涉及互联网搜索的URL进行搜索关键词提取的方法和系统,具体为一种基于规则配置的URL搜索词提取的方法及系统。
背景技术
随着互联网内容的快速增长,互联网搜索技术也快速发展,人们逐渐依靠通过互联网搜索结果作为获得信息的入口。通过对用户搜索关键词的获取分析,可以了解用户的搜索习惯及当前用户的关注热点。
目前,互联网上的搜索服务提供商很多,各家的搜索URL格式也不尽相同,缺少一种有效的通用系统来支持对常用的搜索URL进行关键词提取。
另外,一些搜索服务提供商对用户搜索关键词的获取仅限于本公司搜索服务的用户,无法对互联网用户URL的搜索关键词全面的获取。
有鉴于此,特提出本发明。
发明内容
本发明要解决的技术问题在于克服现有技术的不足,提供一种基于规则配置的URL搜索关键词提取的方法及系统,可以解决在进行URL中的搜索关键词解析过程中的普遍适用问题,通过添加解析规则,可以对多种搜索引擎产生的搜索URL进行关键词提取,为后续的分析过程提供数据。
为解决上述技术问题,本发明采用技术方案的基本构思是:
一种基于规则配置的URL搜索关键词提取的方法,包括
S1.生成规则:对需要进行配置支持的搜索引擎的搜索URL进行分析,提取搜索URL特征并生成规则;
S2.配置规则:配置分析到的规则;
S3.URL过滤:接收第三方的URL数据并与配置的所述规则进行匹配来过滤收到的所有URL数据;
S4.关键词处理:当有第三方的URL命中所述规则,则提取该URL的搜索关键词。
更进一步的,上述基于规则配置的URL搜索关键词提取的方法还包括
S5.关键词转码:将提取的搜索关键词进行转码处理。
更进一步的,上述基于规则配置的URL搜索关键词提取的方法中,所述生产规则包括如下步骤:
S11.根据系统的业务分析需要支持的搜索引擎,并且对每个搜索引擎的每种搜索形式进行分析,获取该搜索引擎的搜索URL中的域名、固定特征串、关键词特征串和关键词编码,生成该搜索引擎的规则集。
更进一步的,上述基于规则配置的URL搜索关键词提取的方法中,所述URL过滤包括:
S31.接收第三方的URL数据,并对第三方的URL数据进行规范化预处理;
S32.对接收到的每条第三方URL进行分析,分别依次对其域名、固定特征串、关键词特征串和关键词编码类型内容进行提取并与所述规则集进行匹配;
更进一步的,上述基于规则配置的URL搜索关键词提取的方法中,所述规范化预处理包括:过滤掉非http协议的URL,并去除URL中的“http://”字符串;
更进一步的,上述基于规则配置的URL搜索关键词提取的方法中,所述分别依次对其域名、固定特征串、关键词特征串和关键词编码类型内容进行提取并与所述规则集进行匹配包括:
S321.首先解析第三方URL中的域名,经规范化预处理后的第三方URL,提取其HOST域,如果提取成功则进行后续处理;
S322.对经步骤S321.提取的域名使用BloomFilter算法进行过滤,获取满足域名要求的规则ID集合,如果集合中有命中配置的所述规则集的ID则继续处理;
S323.对第三方URL的PATH部分进行固定特征串与配置的所述规则集进行匹配,获取满足固定特征串特征的规则ID集合,如果集合不为空,则跟S322步骤得到的满足域名要求的规则ID集合进行求交集操作,否则关键词提取失败;
S324.对固定特征串后面的PATH子串与配置的所述规则集进行匹配以继续进行关键词特征串匹配,获取满足关键词特征串特征的规则ID集合,如果集合不为空,则该规则ID集合跟S323.步骤得到的满足固定特征串特征的规则ID集合与满足域名要求的规则ID集合的交集进行求交集操作。
更进一步的,上述基于规则配置的URL搜索关键词提取的方法中,S4.关键词处理包括:定位PATH中的搜索关键词开始位置,提取过滤后的第三方URL的搜索关键词。
更进一步的,上述基于规则配置的URL搜索关键词提取的方法中,所述需要进行配置支持的搜索引擎为根据用户的业务需求而需要进行配置支持的搜索引擎。
一种基于规则配置的URL搜索关键词提取的系统,包括:
规则生成模块:用于对需要进行配置支持的搜索引擎的搜索URL进行分析,提取搜索URL特征生成规则;
规则配置模块:用于配置分析到的规则;
URL过滤模块:用于将本发明系统通过接口收到的所有第三方URL数据与配置的所述规则进行匹配来过滤收到的所有的URL;
关键词处理模块:当有第三方的URL命中所述规则,则提取该URL的搜索关键词。
更进一步的,上述基于规则配置的URL搜索关键词提取的系统,包括:
关键词转码模块:用于将提取的搜索关键词进行转码。
采用上述技术方案后,本发明与现有技术相比具有以下有益效果:
可以通过配置规则来快速的实现对多种搜索引擎的搜索URL关键字进行提取,并且在域名处理过程使用BloomFilter算法进行域名的快速匹配,实现海量URL数据的快速处理,从而在信安系统或舆情系统中使用本发明可以提供强有力的支撑。
附图说明
图1是本发明基于规则配置的URL搜索关键词提取的方法的流程图;
图2是本发明基于规则配置的URL搜索关键词提取的系统的工作流程图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步说明,以助于理解本发明的内容。
如图1所示,一种基于规则配置的URL搜索关键词提取的方法,包括
S1.生成规则:对根据用户的业务需求而要进行配置支持的搜索引擎的搜索URL进行分析,根据用户的搜索需求,例如选择Baidu、Google、Bing、Yahoo或指定网站等等的搜索URL进行配置支持,能满足广度多面采集的需求和定向深度精确采集需求;提取搜索URL特征并生成规则,所述规则包括域名、固定特征串、关键词特征串和关键词编码;
S2.配置规则:配置分析到的规则;
S3.URL过滤:接收第三方的URL数据并与配置的所述规则进行匹配来过滤收到的所有URL数据;
S4.关键词处理:当有第三方的URL命中所述规则,则提取该URL的搜索关键词,从而实现业务系统可以根据需要动态的增加或减少要支持的搜索引擎,并且当搜索引擎更改其搜索URL规则时,本发明方法中配置的规则也随之更改,继而快速实现对搜索引擎的搜索URL关键字进行提取以及域名匹配,实现海量URL数据的快速处理。
S5.关键词转码:将提取的搜索关键词进行转码处理。
本发明上述方法具体实施步骤如下:
生成规则:
S11.根据系统的业务分析需要进行配置支持的搜索引擎,并且对每个搜索引擎的每种搜索形式进行分析,获取该搜索引擎的搜索URL中的域名、固定特征串、关键词特征串和关键词编码(可以部分为空),生成该搜索引擎的规则集;
配置规则:
S2:将上述规则集生成配置文件;
在本发明所述的方法中,步骤S11.中所述的操作过程主要是针对业务系统的需求确定需要配置分析的搜索引擎URL,例如根据用户需求用百度搜索某关键词,得出搜索的URL地址,根据地址中域名、绝对路径、关键词参数、关键词编码参数、等等得出配置规则,根据配置规则生成配置文件;由于本发明只提供对URL的分析,因此无论搜索引擎使用HTTP协议还是HTTPS协议均可以支持。
URL过滤:
S31:本发明通过接口接收用户进行互联网访问的所有第三方URL数据;通过系统中提供的开发接口接收外部系统发送给系统的URL数据,并进行步骤:
S311:对该第三方URL数据进行规范化预处理,过滤掉非http协议的URL,并去除URL的协议头,去除URL中的“http://”等字符串。
S32:规范化预处理后,对接收到的每条第三方URL进行分析,分别依次对其域名、固定特征串、关键词特征串和关键词编码类型等内容进行提取并与上述规则集进行匹配;
该步骤中需逐层进行对第三方URL的解析,
S321.首先解析第三方URL中的域名,经规范化预处理后的URL,提取其HOST域,如果提取成功则进行后续处理,如果提取不成功则关键词提取失败;
S322.对经上述步骤提取的域名使用BloomFilter算法进行过滤,获取满足域名要求的规则ID集合;如果集合中有命中上述配置的规则集的ID则继续处理,否则关键词提取失败;对域名进行过滤,去除域名不在所配置的规则集内的第三方URL;
对第三方URL的PATH部分进行固定特征串和关键词特征串的匹配:
S323.对第三方URL的PATH部分中固定特征串与上述配置的规则集进行匹配,获取满足固定特征串特征的规则ID集合,如果该集合不为空,则跟S322.步骤得到的规则ID集合进行求交集操作,否则关键词提取失败;
S324..对固定特征串后面的PATH子串与配置的所述规则集进行匹配以继续进行关键词特征串匹配,获取满足关键词特征串特征的规则ID集合,如果集合不为空,则该规则ID集合跟S323.步骤得到的满足固定特征串特征的规则ID集合与满足域名要求的规则ID集合的交集进行求交集操作。
S4.关键词处理:
将匹配上所述规则集的第三方URL中的关键词进行提取;在URL过滤执行完成后如果有第三方URL能够命中某条规则,则该URL应该包含搜索关键词,进行关键词部分提取操作,获得用户搜索的搜索关键词;
具体的,定位命中规则的第三方URL的PATH中的搜索关键词开始位置,提取搜索关键词,之后还需对关键词进行转码,返回最终获取的搜索关键词串,本条URL处理结束;由于根据URL编码规范,中文会进行编码后传输,因此需要对提取到的关键词再根据规范进行解码,还原出原始的用户输入串。
本发明可以通过上述配置规则的方式来快速的实现对多种搜索引擎的搜索URL关键字进行提取,并且在域名处理过程使用BloomFilter算法进行域名的快速匹配,实现海量URL数据的快速处理,从而在信安系统或舆情系统中使用本发明可以提供强有力的支撑。本发明对第三方URL数据进行规范化预处理,依次进行多重过滤匹配,实现互联网信息的快速、精确的采集和整合。
如图2所示,一种实现上述方法的基于规则配置的URL搜索关键词提取的系统,包括
规则生成模块:用于对需要支持的搜索引擎的搜索URL进行分析,提取搜索URL特征生成规则;
规则配置模块:用于配置分析到的规则;
URL过滤模块:用于将本发明系统通过接口收到的所有第三方URL数据与配置的所述规则进行匹配来过滤收到的所有的URL;
关键词处理模块:当有第三方的URL命中所述规则,则提取该URL的搜索关键词。
关键词转码模块:用于将提取的搜索关键词进行转码。
该系统的具体工作方式为:
S1.1.本发明系统启动后进行内部初始化过程,规则生成模块对需要支持的搜索引擎的搜索URL进行分析,提取URL特征生成规则,分析到的规则包括域名、固定特征串、关键词特征串和关键词编码(可以部分为空);
根据上述规则生成配置文件,规则配置模块加载通过配置文件配置的不同搜索引擎的搜索URL规则,并构建内部相关数据结构;
S1.2.URL过滤模块将收到的所有第三方URL数据与配置的所述规则进行匹配来过滤收到的所有的URL,如果有命中规则的第三方URL,则进行后续处理流程;
具体的,S1.3.首先对筛选出的命中规则的第三方URL进行格式规范化,去除该URL的协议头,目前主流的搜索引擎都使用http协议或https协议,因此在该处理过程中也可以去除部分非这两种协议的URL;
S1.4.经规范化后的URL,提取其HOST域,如果提取成功则进行后续处理,如果提取不成功则关键词提取失败;
S1.5.对经上述步骤提取的域名使用BloomFilter算法进行过滤,获取满足域名要求的规则ID集合;如果集合中有命中上述配置的规则的ID则继续处理,否则关键词提取失败;
S1.6.对第三方URL的PATH部分中固定特征串与上述配置的规则进行匹配,获取满足固定特征串特征的规则ID集合,如果该集合不为空,则跟S1.5步骤得到的规则ID集进行求交集操作,否则关键词提取失败;
S1.7.对固定特征串后面的PATH子串与配置的所述规则集进行匹配以继续进行关键词特征串匹配,获取满足关键词特征串特征的规则ID集合,如果集合不为空,则该规则ID集合跟S1.3.4.步骤得到的满足固定特征串特征的规则ID集合与满足域名要求的规则ID集合的交集进行求交集操作;
S1.8.定位PATH中的搜索关键词开始位置,关键词提取模块提取过滤后的第三方URL的搜索关键词,并通过关键词转码模块对关键词进行转码,返回最终获取的搜索关键词串,本条URL处理结束;
该系统还包括:
判断模块:判断系统是否需要退出:
S1.9.判定不退出则继续进入下一条第三方URL的处理流程;判断退出,则系统关闭。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于规则配置的URL搜索关键词提取的方法,其特征在于包括
S1.生成规则:对需要进行配置支持的搜索引擎的搜索URL进行分析,提取搜索URL特征并生成规则;
S2.配置规则:配置分析到的规则;
S3.URL过滤:接收第三方的URL数据并与配置的所述规则进行匹配来过滤收到的所有URL数据;
S4.关键词处理:当有第三方的URL命中所述规则,则提取该URL的搜索关键词。
2.根据权利要求1所述的基于规则配置的URL搜索关键词提取的方法,其特征在于:还包括
S5.关键词转码:将提取的搜索关键词进行转码处理。
3.根据权利要求1所述的基于规则配置的URL搜索关键词提取的方法,其特征在于:所述生产规则包括如下步骤:
S11.根据系统的业务分析需要支持的搜索引擎,并且对每个搜索引擎的每种搜索形式进行分析,获取该搜索引擎的搜索URL中的域名、固定特征串、关键词特征串和关键词编码,生成该搜索引擎的规则集。
4.根据权利要求1所述的基于规则配置的URL搜索关键词提取的方法,其特征在于:所述URL过滤包括:
S31.接收第三方的URL数据,并对第三方的URL数据进行规范化预处理;
S32.对接收到的每条第三方URL进行分析,分别依次对其域名、固定特征串、关键词特征串和关键词编码类型内容进行提取并与所述规则集进行匹配。
5.根据权利要求4所述的基于规则配置的URL搜索关键词提取的方法,其特征在于:所述规范化预处理包括:过滤掉非http协议的URL,并去除URL中的“http://”字符串。
6.根据权利要求5所述的基于规则配置的URL搜索关键词提取的方法,其特征在于:所述分别依次对其域名、固定特征串、关键词特征串和关键词编码类型内容进行提取并与所述规则集进行匹配包括:
S321.首先解析第三方URL中的域名,经规范化预处理后的第三方URL,提取其HOST域,如果提取成功则进行后续处理;
S322.对经步骤S321.提取的域名使用BloomFilter算法进行过滤,获取满足域名要求的规则ID集合,如果集合中有命中配置的所述规则集的ID则继续处理;
S323.对第三方URL的PATH部分进行固定特征串与配置的所述规则集进行匹配,获取满足固定特征串特征的规则ID集合,如果集合不为空,则跟S322步骤得到的满足域名要求的规则ID集合进行求交集操作,否则关键词提取失败;
S324.对固定特征串后面的PATH子串与配置的所述规则集进行匹配以继续进行关键词特征串匹配,获取满足关键词特征串特征的规则ID集合,如果集合不为空,则该规则ID集合跟S323.步骤得到的满足固定特征串特征的规则ID集合与满足域名要求的规则ID集合的交集进行求交集操作。
7.根据权利要求6所述的基于规则配置的URL搜索关键词提取的方法,其特征在于:S4.关键词处理包括:定位PATH中的搜索关键词开始位置,提取过滤后的第三方URL的搜索关键词。
8.根据权利要求1-7任一项所述的基于规则配置的URL搜索关键词提取的方法,其特征在于:所述需要进行配置支持的搜索引擎为根据用户的业务需求而需要进行配置支持的搜索引擎。
9.一种基于规则配置的URL搜索关键词提取的系统,其特征在于包括:
规则生成模块:用于对需要进行配置支持的搜索引擎的搜索URL进行分析,提取搜索URL特征生成规则;
规则配置模块:用于配置分析到的规则;
URL过滤模块:用于将本发明系统通过接口收到的所有第三方URL数据与配置的所述规则进行匹配来过滤收到的所有的URL;
关键词处理模块:当有第三方的URL命中所述规则,则提取该URL的搜索关键词。
10.根据权利要求9所述的基于规则配置的URL搜索关键词提取的系统,其特征在于包括:
关键词转码模块:用于将提取的搜索关键词进行转码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610111430.XA CN105631050B (zh) | 2016-03-01 | 2016-03-01 | 一种基于规则配置的url搜索关键词提取的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610111430.XA CN105631050B (zh) | 2016-03-01 | 2016-03-01 | 一种基于规则配置的url搜索关键词提取的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105631050A true CN105631050A (zh) | 2016-06-01 |
CN105631050B CN105631050B (zh) | 2019-09-17 |
Family
ID=56045982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610111430.XA Active CN105631050B (zh) | 2016-03-01 | 2016-03-01 | 一种基于规则配置的url搜索关键词提取的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105631050B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021607A (zh) * | 2016-06-23 | 2016-10-12 | 乐视控股(北京)有限公司 | 静态托管网站的管理方法和管理系统 |
CN106385407A (zh) * | 2016-09-01 | 2017-02-08 | 北京神州绿盟信息安全科技股份有限公司 | 一种应用识别待分析数据包去噪声的方法和装置 |
CN106844647A (zh) * | 2017-01-22 | 2017-06-13 | 南方科技大学 | 一种搜索关键词获取的方法及装置 |
CN107404486A (zh) * | 2017-08-04 | 2017-11-28 | 厦门市美亚柏科信息股份有限公司 | 解析Http数据的方法、装置、终端设备及存储介质 |
CN107871021A (zh) * | 2017-12-18 | 2018-04-03 | 杭州迪普科技股份有限公司 | 一种获得网页搜索关键字的标识特征的方法及装置 |
CN108121727A (zh) * | 2016-11-28 | 2018-06-05 | 北京国双科技有限公司 | 一种着陆页url检查方法和装置 |
CN108401180A (zh) * | 2017-02-08 | 2018-08-14 | 南宁富桂精密工业有限公司 | 视频缓冲规则的生成系统及方法 |
CN109727050A (zh) * | 2017-10-31 | 2019-05-07 | 北京国双科技有限公司 | 一种获取广告监测分析数据的方法及系统 |
WO2019141043A1 (zh) * | 2018-01-16 | 2019-07-25 | 中兴通讯股份有限公司 | 提取浏览器搜索引擎的方法、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079066A (zh) * | 2007-06-29 | 2007-11-28 | 深圳市中科新业信息科技发展有限公司 | 一种网络审计中的数据分析系统及其方法 |
CN102664946A (zh) * | 2012-04-17 | 2012-09-12 | 网宿科技股份有限公司 | 通过监视用户数据搜索动作并推荐优质资源的方法和装置 |
CN102857572A (zh) * | 2012-09-14 | 2013-01-02 | 北京星网锐捷网络技术有限公司 | 一种http访问请求处理方法、装置及网关设备 |
US8386509B1 (en) * | 2006-06-30 | 2013-02-26 | Amazon Technologies, Inc. | Method and system for associating search keywords with interest spaces |
CN102999619A (zh) * | 2012-11-30 | 2013-03-27 | 北京奇虎科技有限公司 | 实现搜索的移动终端、服务器和方法 |
CN104035970A (zh) * | 2014-05-20 | 2014-09-10 | 北京奇虎科技有限公司 | 一种在浏览器中进行搜索的方法和装置 |
-
2016
- 2016-03-01 CN CN201610111430.XA patent/CN105631050B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8386509B1 (en) * | 2006-06-30 | 2013-02-26 | Amazon Technologies, Inc. | Method and system for associating search keywords with interest spaces |
CN101079066A (zh) * | 2007-06-29 | 2007-11-28 | 深圳市中科新业信息科技发展有限公司 | 一种网络审计中的数据分析系统及其方法 |
CN102664946A (zh) * | 2012-04-17 | 2012-09-12 | 网宿科技股份有限公司 | 通过监视用户数据搜索动作并推荐优质资源的方法和装置 |
CN102857572A (zh) * | 2012-09-14 | 2013-01-02 | 北京星网锐捷网络技术有限公司 | 一种http访问请求处理方法、装置及网关设备 |
CN102999619A (zh) * | 2012-11-30 | 2013-03-27 | 北京奇虎科技有限公司 | 实现搜索的移动终端、服务器和方法 |
CN104035970A (zh) * | 2014-05-20 | 2014-09-10 | 北京奇虎科技有限公司 | 一种在浏览器中进行搜索的方法和装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021607A (zh) * | 2016-06-23 | 2016-10-12 | 乐视控股(北京)有限公司 | 静态托管网站的管理方法和管理系统 |
CN106385407B (zh) * | 2016-09-01 | 2019-07-02 | 北京神州绿盟信息安全科技股份有限公司 | 一种应用识别待分析数据包去噪声的方法和装置 |
CN106385407A (zh) * | 2016-09-01 | 2017-02-08 | 北京神州绿盟信息安全科技股份有限公司 | 一种应用识别待分析数据包去噪声的方法和装置 |
CN108121727B (zh) * | 2016-11-28 | 2021-08-24 | 北京国双科技有限公司 | 一种着陆页url检查方法和装置 |
CN108121727A (zh) * | 2016-11-28 | 2018-06-05 | 北京国双科技有限公司 | 一种着陆页url检查方法和装置 |
CN106844647A (zh) * | 2017-01-22 | 2017-06-13 | 南方科技大学 | 一种搜索关键词获取的方法及装置 |
CN108401180A (zh) * | 2017-02-08 | 2018-08-14 | 南宁富桂精密工业有限公司 | 视频缓冲规则的生成系统及方法 |
CN107404486A (zh) * | 2017-08-04 | 2017-11-28 | 厦门市美亚柏科信息股份有限公司 | 解析Http数据的方法、装置、终端设备及存储介质 |
CN107404486B (zh) * | 2017-08-04 | 2020-05-22 | 厦门市美亚柏科信息股份有限公司 | 解析Http数据的方法、装置、终端设备及存储介质 |
CN109727050A (zh) * | 2017-10-31 | 2019-05-07 | 北京国双科技有限公司 | 一种获取广告监测分析数据的方法及系统 |
CN107871021B (zh) * | 2017-12-18 | 2021-04-27 | 杭州迪普科技股份有限公司 | 一种获得网页搜索关键字的标识特征的方法及装置 |
CN107871021A (zh) * | 2017-12-18 | 2018-04-03 | 杭州迪普科技股份有限公司 | 一种获得网页搜索关键字的标识特征的方法及装置 |
WO2019141043A1 (zh) * | 2018-01-16 | 2019-07-25 | 中兴通讯股份有限公司 | 提取浏览器搜索引擎的方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105631050B (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105631050A (zh) | 一种基于规则配置的url搜索关键词提取的方法及系统 | |
CN101035128B (zh) | 基于中文标点符号的三重网页文本内容识别及过滤方法 | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
US20160294862A1 (en) | Malicious website address prompt method and router | |
CN103873601B (zh) | 一种寻址类查询词的挖掘方法及系统 | |
CN101727464B (zh) | 获取别称匹配对的方法及装置 | |
CN102129479B (zh) | 一种基于概率潜在语义分析模型的万维网服务发现方法 | |
CN105677710A (zh) | 大数据的处理方法和系统 | |
CN103076892A (zh) | 一种用于提供输入字符串所对应的输入候选项的方法与设备 | |
US11763032B2 (en) | Method and system for preserving privacy in an HTTP communication between a client and a server | |
CN103116635B (zh) | 面向领域的暗网资源采集方法和系统 | |
CN102880647A (zh) | 一种机构别称的获取方法和装置 | |
CN101571860A (zh) | 动态网页生成方法和装置、提取结构化数据的方法和装置 | |
CN114915468B (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN105530251A (zh) | 识别钓鱼网站的方法及装置 | |
CN102184201B (zh) | 一种用于选取查询序列的推荐序列的设备和方法 | |
CN110245195B (zh) | 基于蜜罐系统的结构化查询语言注入检测方法及装置 | |
CN101916283B (zh) | 由动态网页上获取链接信息的方法及其服务器 | |
CN110336798B (zh) | 一种基于dpi的报文匹配过滤方法及其装置 | |
CN103076894A (zh) | 一种用于根据对象标识信息构建输入词条的方法与设备 | |
CN101895517A (zh) | 一种脚本语义提取方法和提取装置 | |
CN101673263A (zh) | 视频内容的搜索方法 | |
CN105095450A (zh) | 一种用于确定用户移动互联网访问兴趣点的方法 | |
US9336317B2 (en) | System and method for searching aliases associated with an entity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |