CN111222031A

CN111222031A - 一种网站判别方法及系统

Info

Publication number: CN111222031A
Application number: CN201911155249.9A
Authority: CN
Inventors: 李虹颖
Original assignee: Chengdu Yinchao Technology Co ltd
Current assignee: Chengdu Yinchao Technology Co ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-06-02

Abstract

本发明公开了一种网站判别方法及系统，方法包括url地址获取步骤、文本内容获取步骤、网站类型划分步骤、特征向量生成步骤、网站特征标记步骤、类型识别模型训练步骤以及识别步骤，其中，类型识别模型训练步骤：根据随机森林RandomForestClassifier算法，使用随机阀值及网站特征标记步骤获得的训练样本，构建大量决策树组成的决策树“森林”，建立一个网站正常与否的类型识别模型；识别步骤：利用类型识别模型判断未知网站是否正常的状态值，根据状态值识别出未知网站为正常网站还是非正常网站。本发明提高了关键词查询的效率,便于找出需要的高品质网站，优化了搜索引擎的查询网站的性能，使得用户更加容易的找出满足其需求并且与关键词紧紧相关联的高质量网站。

Description

一种网站判别方法及系统

技术领域

本发明涉及一种网站判别方法及系统，通过关键词得到与之相关联的高质量网站，属于大数据技术领域。

背景技术

大数据中的数据采集，就是将各类网站上的数据进行所见即所得的方式收集。一般情况下，对于各种类型有哪些网站相关的数据资源的收集来源于人为的日常积累，以及更重要的来源是搜索引擎所得。但是搜索引擎得到的网站中会有不少恶意、广告类的网站，还会存在不少的失效过期网站，甚至所得到的部分网站内容与所搜索的关键词信息不匹配。这样给网站查询工作带来了很大的不便。

发明内容

本发明所要解决的技术问题在于克服现有搜索引擎查询网站结果存在的不足，提供一种网站判别方法及系统，该系统在常规的多种搜索引擎基础上进行改进，从而获取关键词相关的优质网站。

本发明的目的是通过以下技术方案来实现的：

一种网站判别方法，包括：

url地址获取步骤：以关键词为主，在多种搜索引擎中，获取在搜索引擎中，通过关键词搜索所得到搜索结果的接口，利用request技术，模拟浏览器访问接口向服务器发送请求，服务器接收请求返回对应的响应内容，以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息；

文本内容获取步骤：利用网络爬虫技术，获取得到每个网站主页的html格式的文本内容；

网站类型划分步骤：将网站分为正常和非正常网站，提取每种类型的网站特征；

特征向量生成步骤：通过对网站文本内容的解析，并根据网站类型划分步骤中设定的网站特征，提取出所有网站相关网站特征情况数量，形成网站特征向量；

网站特征标记步骤：获取一定数量的正常网站和非正常网站的特征向量，并为每种类型网站标记相应的标签类型，网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本；

类型识别模型训练步骤：根据随机森林RandomForestClassifier算法，通过集成学习的思想，使用随机阀值及网站特征标记步骤获得的训练样本，构建大量决策树组成的决策树“森林”，训练网站特征标记步骤中的样本，建立一个网站正常与否的类型识别模型；

识别步骤：利用类型识别模型判断未知网站是否正常的状态值，根据状态值识别出未知网站为正常网站还是非正常网站。

作为优选方式，本发明还包括去重步骤：在获取到url地址之后，以网站域名为主，删除所有重复网站链接，重复网站数据保留一条记录信息即可。

作为优选方式，特征向量生成步骤中的所有网站指的是网站经过去重步骤后剩下的网站。

作为优选方式，非正常网站包括了广告、色情、恶意、无效、死亡五种类型的网站，其余类型的网站划分为正常网站。

作为优选方式，广告、色情、恶意类网站采用关键词作为网站特征；无效类型的网站采用静态网页、无二级链接网页或者包含app下载链接网页的情况作为网站特征；死亡类型的网站采用域名过期、无法访问、禁止访问、网站维护、服务器维护、网站改版或者Accessdenied的状态作为网站特征。

作为优选方式，网站特征标记步骤中，正常网站标记为1，非正常网站标记为2。

作为优选方式，网站特征标记步骤中，每种类型的网站至少选择10个。

作为优选方式，在获取了未知网站是否正常的状态值之后，还获取未知网站的判定指标，判定指标包括：PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息；根据判定指标判断网站的质量。

作为优选方式，未知网站的PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息均分别设置两个阈值来进行判断，两个阈值分别是第一阈值和第二阈值；每个判定指标如果低于其第一阈值判定为差，在第一阈值和第二阈值之间判定为良，高于第二阈值为优；

所有判定指标共计占比之和为100％；根据每个指标自定义的占比，计算所有指标优、良、差各个等级之和，网站的质量即为三个等级中和最大的一个等级。使用者自定义每个指标对于网站评判重要性的占比，以此来得出三个等级(优良差)分别的占比之和，通过比较各个等级(优良差)和的大小，将最大的等级和结果视为网站最终的质量。

一种网站判别系统：

url地址获取模块：以关键词为主，在多种搜索引擎中，获取在搜索引擎中，通过关键词搜索所得到搜索结果的接口，利用request技术，模拟浏览器访问接口向服务器发送请求，服务器接收请求返回对应的响应内容，以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息；

文本内容获取模块：利用网络爬虫技术，获取得到每个网站主页的html格式的文本内容；

网站类型划分模块：将网站分为正常和非正常网站，提取每种类型的网站特征；

特征向量生成模块：通过对网站文本内容的解析，并根据网站类型划分模块中设定的网站特征，提取出所有网站相关网站特征情况数量，形成网站特征向量；

网站特征标记模块：获取一定数量的正常网站和非正常网站的特征向量，并为每种类型网站标记相应的标签类型，网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本；

类型识别模型训练模块：根据随机森林RandomForestClassifier算法，通过集成学习的思想，使用随机阀值及网站特征标记模块获得的训练样本，构建大量决策树组成的决策树“森林”，训练网站特征标记模块中的样本，建立一个网站正常与否的类型识别模型；

识别模块：利用类型识别模型判断未知网站是否正常的状态值，根据状态值识别出未知网站为正常网站还是非正常网站。

本发明的有益效果是：本发明大大提高了通过关键词查询网站的效率,从中便利的找出需要的高品质网站，优化了搜索引擎的查询网站的性能，使得用户更加容易的找出满足其需求并且与关键词紧紧相关联的高质量网站。

附图说明

图1为正常网站和非正常网站划分实施例；

图2为网站标记情况实施例；

图3为得出优质网站的实施例。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

实施例一

一种网站判别方法，包括网站特征搜集与提取、网站类型识别、网站质量判别三个部分；具体包括：

url地址获取步骤：以关键词为主，在多种搜索引擎中，获取在搜索引擎中，通过关键词搜索所得到搜索结果的接口，利用Python的request技术，模拟浏览器访问接口向服务器发送请求，服务器接收请求返回对应的响应内容，以此来获取至少五个搜索引擎结果中与关键词相关联的全部网站链接url地址信息；

特征向量生成步骤：通过对网站文本内容的解析，并根据网站类型划分步骤中设定的网站特征，提取出所有网站相关网站特征情况数量，形成网站特征向量，如图2所示，每一条数据都是一个网站的特征向量。

网站特征标记步骤：获取一定数量的正常网站和非正常网站的特征向量，并为每种类型网站标记相应的标签类型，网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本；如图2所示，正常网站标记为1，非正常网站标记为2。

随机森林算法，是指将训练样本输入到每棵决策树中，对于每棵决策树来说，就是随机并且有放回的抽取部分训练样本，作为该树的训练集；这样每棵树的训练样本都不样，同时也有部分重复的训练集，否则如果都不同，结果会过于片面，准确率过低；最后的分类取决于多棵树占多数的分类结果。因此所有的决策树就组成了一个森林。

本发明将大众所使用的最频繁的十个搜索引擎和爬虫技术，根据以上所有步骤(即本发明的功能)得到的网站集合结果就是网站数据拓展，利用搜索引擎技术，获取网站链接，利用机器学习和算法技术，解析网站内容，筛选出优质或者正常网站。充分利用两种技术，可以直接通过关键词直观的显示出相关网站，并从中选出所需网站，进行数据收集。进一步地，设置显示模块，需要显示的相关网站按照顺序展现在显示模块上。

实施例二

本发明还包括去重步骤：在获取到url地址之后，以网站域名为主，删除所有重复网站链接，重复网站数据保留一条记录信息即可。

特征向量生成步骤中的所有网站指的是网站经过去重步骤后剩下的网站。

非正常网站包括了广告、色情、恶意、无效、死亡五种类型的网站，其余类型的网站划分为正常网站。

广告、色情、恶意类网站采用关键词作为网站特征；无效类型的网站采用静态网页、无二级链接网页或者包含app下载链接网页的情况作为网站特征；死亡类型的网站采用域名过期、无法访问、禁止访问、网站维护、服务器维护、网站改版或者Access denied的状态作为网站特征。比如广告类型的网站包括广告、宣传、评价、联盟等词汇中的至少一个，恶意或者色情类网站的关键词如图1所示。

网站特征标记步骤中，正常网站标记为1，非正常网站标记为2，如图2所示。

网站特征标记步骤中，每种类型的网站至少选择10个。

在检索过程中或者大数据采集的过程中，通常需要与关键词紧紧相连的网站内容，并且这些网站要相对于优质，比如说：网站数据量庞大；网站是否存在Robots协议；网站响应速度等。从而收集到良好的数据进行分析。因此，本发明在获取了未知网站是否正常的状态值之后，还获取未知网站的判定指标，判定指标包括：PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息；根据判定指标判断网站的质量。

未知网站的PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息均分别设置两个阈值来进行判断，两个阈值分别是第一阈值和第二阈值；每个判定指标如果低于其第一阈值判定为差，在第一阈值和第二阈值之间判定为良，高于第二阈值为优；

所有判定指标共计占比之和为100％；根据每个指标自定义的占比，计算所有指标优、良、差各个等级之和，网站的质量即为三个等级中和最大的一个等级。如图3所示，使用者自定义每个指标对于网站评判重要性的占比，以此来得出三个等级(优良差)分别的占比之和，通过比较各个等级(优良差)和的大小，将最大的等级和结果视为网站最终的质量。

实施例三

相应于方法实施例，本实施例提供了一种网站判别系统，具体如下：

url地址获取模块：以关键词为主，在多种搜索引擎中，获取在搜索引擎中，通过关键词搜索所得到搜索结果的接口，利用Python的request技术，模拟浏览器访问接口向服务器发送请求，服务器接收请求返回对应的响应内容，以此来获取至少十个搜索引擎结果中与关键词相关联的全部网站链接url地址信息；

特征向量生成模块：通过对网站文本内容的解析，并根据网站类型划分模块中设定的网站特征，提取出所有网站相关网站特征情况数量，形成网站特征向量；如图2所示，每一条数据都是一个网站的特征向量。

本发明还包括去重模块：在获取到url地址之后，以网站域名为主，删除所有重复网站链接，重复网站数据保留一条记录信息即可。

特征向量生成模块中的所有网站指的是网站经过去重模块后剩下的网站。

网站特征标记模块中，正常网站标记为1，非正常网站标记为2，如图2所示。

网站特征标记模块中，每种类型的网站至少选择10个。

在获取了未知网站是否正常的状态值之后，还获取未知网站的判定指标，判定指标包括：PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息；根据判定指标判断网站的质量。

由于本实施例所介绍的系统为实施本发明实施例中一种网站判别方法所采用的系统，故而本发明实施例中所介绍的方法，本领域所属技术人员能够了解本实施例的系统的具体实施方式以及各种变化形式，所以在此对于系统如何实现本发明实施例中的方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中的方法所采用的设备，都属于本发明的保护范围。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，应当指出的是，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网站判别方法，其特征在于，包括：

类型识别模型训练步骤：根据随机森林RandomForestClassifier算法，通过集成学习的思想，使用随机阀值及网站特征标记步骤获得的训练样本，构建大量决策树组成的决策树“森林”，建立一个网站正常与否的类型识别模型；

2.根据权利要求1所述的一种网站判别方法，其特征在于：它还包括去重步骤：在获取到url地址之后，以网站域名为主，删除所有重复网站链接，重复网站数据保留一条记录信息即可。

3.根据权利要求2所述的一种网站判别方法，其特征在于：特征向量生成步骤中的所有网站指的是网站经过去重步骤后剩下的网站。

4.根据权利要求1所述的一种网站判别方法，其特征在于：非正常网站包括了广告、色情、恶意、无效、死亡五种类型的网站，其余类型的网站划分为正常网站。

5.根据权利要求4所述的一种网站判别方法，其特征在于：广告、色情、恶意类网站采用关键词作为网站特征；无效类型的网站采用静态网页、无二级链接网页或者包含app下载链接网页的情况作为网站特征；死亡类型的网站采用域名过期、无法访问、禁止访问、网站维护、服务器维护、网站改版或者Access denied的状态作为网站特征。

6.根据权利要求1所述的一种网站判别方法，其特征在于：网站特征标记步骤中，正常网站标记为1，非正常网站标记为2。

7.根据权利要求1所述的一种网站判别方法，其特征在于：网站特征标记步骤中，每种类型的网站至少选择10个。

8.根据权利要求1所述的一种网站判别方法，其特征在于：在获取了未知网站是否正常的状态值之后，还获取未知网站的判定指标，判定指标包括：PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息；根据判定指标判断网站的质量。

9.根据权利要求8所述的一种网站判别方法，其特征在于：未知网站的PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息均分别设置两个阈值来进行判断，两个阈值分别是第一阈值和第二阈值；每个判定指标如果低于其第一阈值判定为差，在第一阈值和第二阈值之间判定为良，高于第二阈值为优；

所有判定指标共计占比之和为100％；根据每个指标自定义的占比，计算所有指标优、良、差各个等级之和，网站的质量即为三个等级中和最大的一个等级。

10.一种网站判别系统，其特征在于：

类型识别模型训练模块：根据随机森林RandomForestClassifier算法，通过集成学习的思想，使用随机阀值及网站特征标记模块获得的训练样本，构建大量决策树组成的决策树“森林”，建立一个网站正常与否的类型识别模型；