CN105631050A

CN105631050A - 一种基于规则配置的url搜索关键词提取的方法及系统

Info

Publication number: CN105631050A
Application number: CN201610111430.XA
Authority: CN
Inventors: 毕慧; 李超; 郭承青; 包秀国; 刘刚; 朱缓; 王�琦; 崔佳; 王鲁华
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-03-01
Filing date: 2016-03-01
Publication date: 2016-06-01
Anticipated expiration: 2036-03-01
Also published as: CN105631050B

Abstract

本发明公开了一种基于规则配置的URL搜索关键词提取的方法，包括生成规则：对需要支持的搜索引擎的搜索URL进行分析，提取搜索URL特征并生成规则；配置规则：配置上述步骤分析到的规则；URL过滤：接收第三方的URL数据并与配置的所述规则进行匹配来过滤收到的所有URL数据；关键词处理：当有第三方的URL命中所述规则，则提取该URL的搜索关键词。本发明可以通过配置规则来快速的实现对多种搜索引擎的搜索URL关键字进行提取，实现海量URL数据的快速处理，从而在信安系统或舆情系统中使用本发明可以提供强有力的支撑。

Description

一种基于规则配置的URL搜索关键词提取的方法及系统

技术领域

本发明属于互联网舆情分析及网络信息安全技术领域，涉及互联网搜索的URL进行搜索关键词提取的方法和系统，具体为一种基于规则配置的URL搜索词提取的方法及系统。

背景技术

随着互联网内容的快速增长，互联网搜索技术也快速发展，人们逐渐依靠通过互联网搜索结果作为获得信息的入口。通过对用户搜索关键词的获取分析，可以了解用户的搜索习惯及当前用户的关注热点。

目前，互联网上的搜索服务提供商很多，各家的搜索URL格式也不尽相同，缺少一种有效的通用系统来支持对常用的搜索URL进行关键词提取。

另外，一些搜索服务提供商对用户搜索关键词的获取仅限于本公司搜索服务的用户，无法对互联网用户URL的搜索关键词全面的获取。

有鉴于此，特提出本发明。

发明内容

本发明要解决的技术问题在于克服现有技术的不足，提供一种基于规则配置的URL搜索关键词提取的方法及系统，可以解决在进行URL中的搜索关键词解析过程中的普遍适用问题，通过添加解析规则，可以对多种搜索引擎产生的搜索URL进行关键词提取，为后续的分析过程提供数据。

为解决上述技术问题，本发明采用技术方案的基本构思是：

一种基于规则配置的URL搜索关键词提取的方法，包括

S1.生成规则：对需要进行配置支持的搜索引擎的搜索URL进行分析，提取搜索URL特征并生成规则；

S2.配置规则：配置分析到的规则；

S3.URL过滤：接收第三方的URL数据并与配置的所述规则进行匹配来过滤收到的所有URL数据；

S4.关键词处理：当有第三方的URL命中所述规则，则提取该URL的搜索关键词。

更进一步的，上述基于规则配置的URL搜索关键词提取的方法还包括

S5.关键词转码：将提取的搜索关键词进行转码处理。

更进一步的，上述基于规则配置的URL搜索关键词提取的方法中，所述生产规则包括如下步骤：

S11.根据系统的业务分析需要支持的搜索引擎，并且对每个搜索引擎的每种搜索形式进行分析，获取该搜索引擎的搜索URL中的域名、固定特征串、关键词特征串和关键词编码，生成该搜索引擎的规则集。

更进一步的，上述基于规则配置的URL搜索关键词提取的方法中，所述URL过滤包括：

S31.接收第三方的URL数据，并对第三方的URL数据进行规范化预处理；

S32.对接收到的每条第三方URL进行分析，分别依次对其域名、固定特征串、关键词特征串和关键词编码类型内容进行提取并与所述规则集进行匹配；

更进一步的，上述基于规则配置的URL搜索关键词提取的方法中，所述规范化预处理包括：过滤掉非http协议的URL，并去除URL中的“http：//”字符串；

更进一步的，上述基于规则配置的URL搜索关键词提取的方法中，所述分别依次对其域名、固定特征串、关键词特征串和关键词编码类型内容进行提取并与所述规则集进行匹配包括：

S321.首先解析第三方URL中的域名，经规范化预处理后的第三方URL，提取其HOST域，如果提取成功则进行后续处理；

S322.对经步骤S321.提取的域名使用BloomFilter算法进行过滤，获取满足域名要求的规则ID集合，如果集合中有命中配置的所述规则集的ID则继续处理；

S323.对第三方URL的PATH部分进行固定特征串与配置的所述规则集进行匹配，获取满足固定特征串特征的规则ID集合，如果集合不为空，则跟S322步骤得到的满足域名要求的规则ID集合进行求交集操作，否则关键词提取失败；

S324.对固定特征串后面的PATH子串与配置的所述规则集进行匹配以继续进行关键词特征串匹配，获取满足关键词特征串特征的规则ID集合，如果集合不为空，则该规则ID集合跟S323.步骤得到的满足固定特征串特征的规则ID集合与满足域名要求的规则ID集合的交集进行求交集操作。

更进一步的，上述基于规则配置的URL搜索关键词提取的方法中，S4.关键词处理包括：定位PATH中的搜索关键词开始位置，提取过滤后的第三方URL的搜索关键词。

更进一步的，上述基于规则配置的URL搜索关键词提取的方法中，所述需要进行配置支持的搜索引擎为根据用户的业务需求而需要进行配置支持的搜索引擎。

一种基于规则配置的URL搜索关键词提取的系统，包括：

规则生成模块：用于对需要进行配置支持的搜索引擎的搜索URL进行分析，提取搜索URL特征生成规则；

规则配置模块：用于配置分析到的规则；

URL过滤模块：用于将本发明系统通过接口收到的所有第三方URL数据与配置的所述规则进行匹配来过滤收到的所有的URL；

关键词处理模块：当有第三方的URL命中所述规则，则提取该URL的搜索关键词。

更进一步的，上述基于规则配置的URL搜索关键词提取的系统，包括：

关键词转码模块：用于将提取的搜索关键词进行转码。

采用上述技术方案后，本发明与现有技术相比具有以下有益效果：

可以通过配置规则来快速的实现对多种搜索引擎的搜索URL关键字进行提取，并且在域名处理过程使用BloomFilter算法进行域名的快速匹配，实现海量URL数据的快速处理，从而在信安系统或舆情系统中使用本发明可以提供强有力的支撑。

附图说明

图1是本发明基于规则配置的URL搜索关键词提取的方法的流程图；

图2是本发明基于规则配置的URL搜索关键词提取的系统的工作流程图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步说明，以助于理解本发明的内容。

如图1所示，一种基于规则配置的URL搜索关键词提取的方法，包括

S1.生成规则：对根据用户的业务需求而要进行配置支持的搜索引擎的搜索URL进行分析，根据用户的搜索需求，例如选择Baidu、Google、Bing、Yahoo或指定网站等等的搜索URL进行配置支持，能满足广度多面采集的需求和定向深度精确采集需求；提取搜索URL特征并生成规则，所述规则包括域名、固定特征串、关键词特征串和关键词编码；

S2.配置规则：配置分析到的规则；

S4.关键词处理：当有第三方的URL命中所述规则，则提取该URL的搜索关键词，从而实现业务系统可以根据需要动态的增加或减少要支持的搜索引擎，并且当搜索引擎更改其搜索URL规则时，本发明方法中配置的规则也随之更改，继而快速实现对搜索引擎的搜索URL关键字进行提取以及域名匹配，实现海量URL数据的快速处理。

S5.关键词转码：将提取的搜索关键词进行转码处理。

本发明上述方法具体实施步骤如下：

生成规则：

S11.根据系统的业务分析需要进行配置支持的搜索引擎，并且对每个搜索引擎的每种搜索形式进行分析，获取该搜索引擎的搜索URL中的域名、固定特征串、关键词特征串和关键词编码(可以部分为空)，生成该搜索引擎的规则集；

配置规则：

S2：将上述规则集生成配置文件；

在本发明所述的方法中，步骤S11.中所述的操作过程主要是针对业务系统的需求确定需要配置分析的搜索引擎URL，例如根据用户需求用百度搜索某关键词，得出搜索的URL地址，根据地址中域名、绝对路径、关键词参数、关键词编码参数、等等得出配置规则，根据配置规则生成配置文件；由于本发明只提供对URL的分析，因此无论搜索引擎使用HTTP协议还是HTTPS协议均可以支持。

URL过滤：

S31：本发明通过接口接收用户进行互联网访问的所有第三方URL数据；通过系统中提供的开发接口接收外部系统发送给系统的URL数据，并进行步骤：

S311：对该第三方URL数据进行规范化预处理，过滤掉非http协议的URL，并去除URL的协议头，去除URL中的“http：//”等字符串。

S32：规范化预处理后，对接收到的每条第三方URL进行分析，分别依次对其域名、固定特征串、关键词特征串和关键词编码类型等内容进行提取并与上述规则集进行匹配；

该步骤中需逐层进行对第三方URL的解析，

S321.首先解析第三方URL中的域名，经规范化预处理后的URL，提取其HOST域，如果提取成功则进行后续处理，如果提取不成功则关键词提取失败；

S322.对经上述步骤提取的域名使用BloomFilter算法进行过滤，获取满足域名要求的规则ID集合；如果集合中有命中上述配置的规则集的ID则继续处理，否则关键词提取失败；对域名进行过滤，去除域名不在所配置的规则集内的第三方URL；

对第三方URL的PATH部分进行固定特征串和关键词特征串的匹配：

S323.对第三方URL的PATH部分中固定特征串与上述配置的规则集进行匹配，获取满足固定特征串特征的规则ID集合，如果该集合不为空，则跟S322.步骤得到的规则ID集合进行求交集操作，否则关键词提取失败；

S324..对固定特征串后面的PATH子串与配置的所述规则集进行匹配以继续进行关键词特征串匹配，获取满足关键词特征串特征的规则ID集合，如果集合不为空，则该规则ID集合跟S323.步骤得到的满足固定特征串特征的规则ID集合与满足域名要求的规则ID集合的交集进行求交集操作。

S4.关键词处理：

将匹配上所述规则集的第三方URL中的关键词进行提取；在URL过滤执行完成后如果有第三方URL能够命中某条规则，则该URL应该包含搜索关键词，进行关键词部分提取操作，获得用户搜索的搜索关键词；

具体的，定位命中规则的第三方URL的PATH中的搜索关键词开始位置，提取搜索关键词，之后还需对关键词进行转码，返回最终获取的搜索关键词串，本条URL处理结束；由于根据URL编码规范，中文会进行编码后传输，因此需要对提取到的关键词再根据规范进行解码，还原出原始的用户输入串。

本发明可以通过上述配置规则的方式来快速的实现对多种搜索引擎的搜索URL关键字进行提取，并且在域名处理过程使用BloomFilter算法进行域名的快速匹配，实现海量URL数据的快速处理，从而在信安系统或舆情系统中使用本发明可以提供强有力的支撑。本发明对第三方URL数据进行规范化预处理，依次进行多重过滤匹配，实现互联网信息的快速、精确的采集和整合。

如图2所示，一种实现上述方法的基于规则配置的URL搜索关键词提取的系统，包括

规则生成模块：用于对需要支持的搜索引擎的搜索URL进行分析，提取搜索URL特征生成规则；

规则配置模块：用于配置分析到的规则；

关键词转码模块：用于将提取的搜索关键词进行转码。

该系统的具体工作方式为：

S1.1.本发明系统启动后进行内部初始化过程，规则生成模块对需要支持的搜索引擎的搜索URL进行分析，提取URL特征生成规则，分析到的规则包括域名、固定特征串、关键词特征串和关键词编码(可以部分为空)；

根据上述规则生成配置文件，规则配置模块加载通过配置文件配置的不同搜索引擎的搜索URL规则，并构建内部相关数据结构；

S1.2.URL过滤模块将收到的所有第三方URL数据与配置的所述规则进行匹配来过滤收到的所有的URL，如果有命中规则的第三方URL，则进行后续处理流程；

具体的，S1.3.首先对筛选出的命中规则的第三方URL进行格式规范化，去除该URL的协议头，目前主流的搜索引擎都使用http协议或https协议，因此在该处理过程中也可以去除部分非这两种协议的URL；

S1.4.经规范化后的URL，提取其HOST域，如果提取成功则进行后续处理，如果提取不成功则关键词提取失败；

S1.5.对经上述步骤提取的域名使用BloomFilter算法进行过滤，获取满足域名要求的规则ID集合；如果集合中有命中上述配置的规则的ID则继续处理，否则关键词提取失败；

S1.6.对第三方URL的PATH部分中固定特征串与上述配置的规则进行匹配，获取满足固定特征串特征的规则ID集合，如果该集合不为空，则跟S1.5步骤得到的规则ID集进行求交集操作，否则关键词提取失败；

S1.7.对固定特征串后面的PATH子串与配置的所述规则集进行匹配以继续进行关键词特征串匹配，获取满足关键词特征串特征的规则ID集合，如果集合不为空，则该规则ID集合跟S1.3.4.步骤得到的满足固定特征串特征的规则ID集合与满足域名要求的规则ID集合的交集进行求交集操作；

S1.8.定位PATH中的搜索关键词开始位置，关键词提取模块提取过滤后的第三方URL的搜索关键词，并通过关键词转码模块对关键词进行转码，返回最终获取的搜索关键词串，本条URL处理结束；

该系统还包括：

判断模块：判断系统是否需要退出：

S1.9.判定不退出则继续进入下一条第三方URL的处理流程；判断退出，则系统关闭。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于规则配置的URL搜索关键词提取的方法，其特征在于包括

S2.配置规则：配置分析到的规则；

2.根据权利要求1所述的基于规则配置的URL搜索关键词提取的方法，其特征在于：还包括

S5.关键词转码：将提取的搜索关键词进行转码处理。

3.根据权利要求1所述的基于规则配置的URL搜索关键词提取的方法，其特征在于：所述生产规则包括如下步骤：

4.根据权利要求1所述的基于规则配置的URL搜索关键词提取的方法，其特征在于：所述URL过滤包括：

S32.对接收到的每条第三方URL进行分析，分别依次对其域名、固定特征串、关键词特征串和关键词编码类型内容进行提取并与所述规则集进行匹配。

5.根据权利要求4所述的基于规则配置的URL搜索关键词提取的方法，其特征在于：所述规范化预处理包括：过滤掉非http协议的URL，并去除URL中的“http：//”字符串。

6.根据权利要求5所述的基于规则配置的URL搜索关键词提取的方法，其特征在于：所述分别依次对其域名、固定特征串、关键词特征串和关键词编码类型内容进行提取并与所述规则集进行匹配包括：

7.根据权利要求6所述的基于规则配置的URL搜索关键词提取的方法，其特征在于：S4.关键词处理包括：定位PATH中的搜索关键词开始位置，提取过滤后的第三方URL的搜索关键词。

8.根据权利要求1-7任一项所述的基于规则配置的URL搜索关键词提取的方法，其特征在于：所述需要进行配置支持的搜索引擎为根据用户的业务需求而需要进行配置支持的搜索引擎。

9.一种基于规则配置的URL搜索关键词提取的系统，其特征在于包括：

规则配置模块：用于配置分析到的规则；

10.根据权利要求9所述的基于规则配置的URL搜索关键词提取的系统，其特征在于包括：

关键词转码模块：用于将提取的搜索关键词进行转码。