CN111222031A - 一种网站判别方法及系统 - Google Patents

一种网站判别方法及系统 Download PDF

Info

Publication number
CN111222031A
CN111222031A CN201911155249.9A CN201911155249A CN111222031A CN 111222031 A CN111222031 A CN 111222031A CN 201911155249 A CN201911155249 A CN 201911155249A CN 111222031 A CN111222031 A CN 111222031A
Authority
CN
China
Prior art keywords
website
type
websites
normal
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911155249.9A
Other languages
English (en)
Inventor
李虹颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Yinchao Technology Co ltd
Original Assignee
Chengdu Yinchao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Yinchao Technology Co ltd filed Critical Chengdu Yinchao Technology Co ltd
Priority to CN201911155249.9A priority Critical patent/CN111222031A/zh
Publication of CN111222031A publication Critical patent/CN111222031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网站判别方法及系统,方法包括url地址获取步骤、文本内容获取步骤、网站类型划分步骤、特征向量生成步骤、网站特征标记步骤、类型识别模型训练步骤以及识别步骤,其中,类型识别模型训练步骤:根据随机森林RandomForestClassifier算法,使用随机阀值及网站特征标记步骤获得的训练样本,构建大量决策树组成的决策树“森林”,建立一个网站正常与否的类型识别模型;识别步骤:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。本发明提高了关键词查询的效率,便于找出需要的高品质网站,优化了搜索引擎的查询网站的性能,使得用户更加容易的找出满足其需求并且与关键词紧紧相关联的高质量网站。

Description

一种网站判别方法及系统
技术领域
本发明涉及一种网站判别方法及系统,通过关键词得到与之相关联的高质量网站,属于大数据技术领域。
背景技术
大数据中的数据采集,就是将各类网站上的数据进行所见即所得的方式收集。一般情况下,对于各种类型有哪些网站相关的数据资源的收集来源于人为的日常积累,以及更重要的来源是搜索引擎所得。但是搜索引擎得到的网站中会有不少恶意、广告类的网站,还会存在不少的失效过期网站,甚至所得到的部分网站内容与所搜索的关键词信息不匹配。这样给网站查询工作带来了很大的不便。
发明内容
本发明所要解决的技术问题在于克服现有搜索引擎查询网站结果存在的不足,提供一种网站判别方法及系统,该系统在常规的多种搜索引擎基础上进行改进,从而获取关键词相关的优质网站。
本发明的目的是通过以下技术方案来实现的:
一种网站判别方法,包括:
url地址获取步骤:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息;
文本内容获取步骤:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;
网站类型划分步骤:将网站分为正常和非正常网站,提取每种类型的网站特征;
特征向量生成步骤:通过对网站文本内容的解析,并根据网站类型划分步骤中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量;
网站特征标记步骤:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本;
类型识别模型训练步骤:根据随机森林RandomForestClassifier算法,通过集成学习的思想,使用随机阀值及网站特征标记步骤获得的训练样本,构建大量决策树组成的决策树“森林”,训练网站特征标记步骤中的样本,建立一个网站正常与否的类型识别模型;
识别步骤:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。
作为优选方式,本发明还包括去重步骤:在获取到url地址之后,以网站域名为主,删除所有重复网站链接,重复网站数据保留一条记录信息即可。
作为优选方式,特征向量生成步骤中的所有网站指的是网站经过去重步骤后剩下的网站。
作为优选方式,非正常网站包括了广告、色情、恶意、无效、死亡五种类型的网站,其余类型的网站划分为正常网站。
作为优选方式,广告、色情、恶意类网站采用关键词作为网站特征;无效类型的网站采用静态网页、无二级链接网页或者包含app下载链接网页的情况作为网站特征;死亡类型的网站采用域名过期、无法访问、禁止访问、网站维护、服务器维护、网站改版或者Accessdenied的状态作为网站特征。
作为优选方式,网站特征标记步骤中,正常网站标记为1,非正常网站标记为2。
作为优选方式,网站特征标记步骤中,每种类型的网站至少选择10个。
作为优选方式,在获取了未知网站是否正常的状态值之后,还获取未知网站的判定指标,判定指标包括:PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息;根据判定指标判断网站的质量。
作为优选方式,未知网站的PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息均分别设置两个阈值来进行判断,两个阈值分别是第一阈值和第二阈值;每个判定指标如果低于其第一阈值判定为差,在第一阈值和第二阈值之间判定为良,高于第二阈值为优;
所有判定指标共计占比之和为100%;根据每个指标自定义的占比,计算所有指标优、良、差各个等级之和,网站的质量即为三个等级中和最大的一个等级。使用者自定义每个指标对于网站评判重要性的占比,以此来得出三个等级(优良差)分别的占比之和,通过比较各个等级(优良差)和的大小,将最大的等级和结果视为网站最终的质量。
一种网站判别系统:
url地址获取模块:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息;
文本内容获取模块:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;
网站类型划分模块:将网站分为正常和非正常网站,提取每种类型的网站特征;
特征向量生成模块:通过对网站文本内容的解析,并根据网站类型划分模块中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量;
网站特征标记模块:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本;
类型识别模型训练模块:根据随机森林RandomForestClassifier算法,通过集成学习的思想,使用随机阀值及网站特征标记模块获得的训练样本,构建大量决策树组成的决策树“森林”,训练网站特征标记模块中的样本,建立一个网站正常与否的类型识别模型;
识别模块:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。
本发明的有益效果是:本发明大大提高了通过关键词查询网站的效率,从中便利的找出需要的高品质网站,优化了搜索引擎的查询网站的性能,使得用户更加容易的找出满足其需求并且与关键词紧紧相关联的高质量网站。
附图说明
图1为正常网站和非正常网站划分实施例;
图2为网站标记情况实施例;
图3为得出优质网站的实施例。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
实施例一
一种网站判别方法,包括网站特征搜集与提取、网站类型识别、网站质量判别三个部分;具体包括:
url地址获取步骤:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用Python的request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取至少五个搜索引擎结果中与关键词相关联的全部网站链接url地址信息;
文本内容获取步骤:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;
网站类型划分步骤:将网站分为正常和非正常网站,提取每种类型的网站特征;
特征向量生成步骤:通过对网站文本内容的解析,并根据网站类型划分步骤中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量,如图2所示,每一条数据都是一个网站的特征向量。
网站特征标记步骤:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本;如图2所示,正常网站标记为1,非正常网站标记为2。
类型识别模型训练步骤:根据随机森林RandomForestClassifier算法,通过集成学习的思想,使用随机阀值及网站特征标记步骤获得的训练样本,构建大量决策树组成的决策树“森林”,训练网站特征标记步骤中的样本,建立一个网站正常与否的类型识别模型;
随机森林算法,是指将训练样本输入到每棵决策树中,对于每棵决策树来说,就是随机并且有放回的抽取部分训练样本,作为该树的训练集;这样每棵树的训练样本都不样,同时也有部分重复的训练集,否则如果都不同,结果会过于片面,准确率过低;最后的分类取决于多棵树占多数的分类结果。因此所有的决策树就组成了一个森林。
识别步骤:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。
本发明将大众所使用的最频繁的十个搜索引擎和爬虫技术,根据以上所有步骤(即本发明的功能)得到的网站集合结果就是网站数据拓展,利用搜索引擎技术,获取网站链接,利用机器学习和算法技术,解析网站内容,筛选出优质或者正常网站。充分利用两种技术,可以直接通过关键词直观的显示出相关网站,并从中选出所需网站,进行数据收集。进一步地,设置显示模块,需要显示的相关网站按照顺序展现在显示模块上。
实施例二
本发明还包括去重步骤:在获取到url地址之后,以网站域名为主,删除所有重复网站链接,重复网站数据保留一条记录信息即可。
特征向量生成步骤中的所有网站指的是网站经过去重步骤后剩下的网站。
非正常网站包括了广告、色情、恶意、无效、死亡五种类型的网站,其余类型的网站划分为正常网站。
广告、色情、恶意类网站采用关键词作为网站特征;无效类型的网站采用静态网页、无二级链接网页或者包含app下载链接网页的情况作为网站特征;死亡类型的网站采用域名过期、无法访问、禁止访问、网站维护、服务器维护、网站改版或者Access denied的状态作为网站特征。比如广告类型的网站包括广告、宣传、评价、联盟等词汇中的至少一个,恶意或者色情类网站的关键词如图1所示。
网站特征标记步骤中,正常网站标记为1,非正常网站标记为2,如图2所示。
网站特征标记步骤中,每种类型的网站至少选择10个。
在检索过程中或者大数据采集的过程中,通常需要与关键词紧紧相连的网站内容,并且这些网站要相对于优质,比如说:网站数据量庞大;网站是否存在Robots协议;网站响应速度等。从而收集到良好的数据进行分析。因此,本发明在获取了未知网站是否正常的状态值之后,还获取未知网站的判定指标,判定指标包括:PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息;根据判定指标判断网站的质量。
未知网站的PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息均分别设置两个阈值来进行判断,两个阈值分别是第一阈值和第二阈值;每个判定指标如果低于其第一阈值判定为差,在第一阈值和第二阈值之间判定为良,高于第二阈值为优;
所有判定指标共计占比之和为100%;根据每个指标自定义的占比,计算所有指标优、良、差各个等级之和,网站的质量即为三个等级中和最大的一个等级。如图3所示,使用者自定义每个指标对于网站评判重要性的占比,以此来得出三个等级(优良差)分别的占比之和,通过比较各个等级(优良差)和的大小,将最大的等级和结果视为网站最终的质量。
实施例三
相应于方法实施例,本实施例提供了一种网站判别系统,具体如下:
url地址获取模块:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用Python的request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取至少十个搜索引擎结果中与关键词相关联的全部网站链接url地址信息;
文本内容获取模块:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;
网站类型划分模块:将网站分为正常和非正常网站,提取每种类型的网站特征;
特征向量生成模块:通过对网站文本内容的解析,并根据网站类型划分模块中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量;如图2所示,每一条数据都是一个网站的特征向量。
网站特征标记模块:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本;
类型识别模型训练模块:根据随机森林RandomForestClassifier算法,通过集成学习的思想,使用随机阀值及网站特征标记模块获得的训练样本,构建大量决策树组成的决策树“森林”,训练网站特征标记模块中的样本,建立一个网站正常与否的类型识别模型;
随机森林算法,是指将训练样本输入到每棵决策树中,对于每棵决策树来说,就是随机并且有放回的抽取部分训练样本,作为该树的训练集;这样每棵树的训练样本都不样,同时也有部分重复的训练集,否则如果都不同,结果会过于片面,准确率过低;最后的分类取决于多棵树占多数的分类结果。因此所有的决策树就组成了一个森林。
识别模块:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。
本发明还包括去重模块:在获取到url地址之后,以网站域名为主,删除所有重复网站链接,重复网站数据保留一条记录信息即可。
特征向量生成模块中的所有网站指的是网站经过去重模块后剩下的网站。
非正常网站包括了广告、色情、恶意、无效、死亡五种类型的网站,其余类型的网站划分为正常网站。
广告、色情、恶意类网站采用关键词作为网站特征;无效类型的网站采用静态网页、无二级链接网页或者包含app下载链接网页的情况作为网站特征;死亡类型的网站采用域名过期、无法访问、禁止访问、网站维护、服务器维护、网站改版或者Access denied的状态作为网站特征。比如广告类型的网站包括广告、宣传、评价、联盟等词汇中的至少一个,恶意或者色情类网站的关键词如图1所示。
网站特征标记模块中,正常网站标记为1,非正常网站标记为2,如图2所示。
网站特征标记模块中,每种类型的网站至少选择10个。
在获取了未知网站是否正常的状态值之后,还获取未知网站的判定指标,判定指标包括:PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息;根据判定指标判断网站的质量。
未知网站的PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息均分别设置两个阈值来进行判断,两个阈值分别是第一阈值和第二阈值;每个判定指标如果低于其第一阈值判定为差,在第一阈值和第二阈值之间判定为良,高于第二阈值为优;
所有判定指标共计占比之和为100%;根据每个指标自定义的占比,计算所有指标优、良、差各个等级之和,网站的质量即为三个等级中和最大的一个等级。使用者自定义每个指标对于网站评判重要性的占比,以此来得出三个等级(优良差)分别的占比之和,通过比较各个等级(优良差)和的大小,将最大的等级和结果视为网站最终的质量。
由于本实施例所介绍的系统为实施本发明实施例中一种网站判别方法所采用的系统,故而本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的系统的具体实施方式以及各种变化形式,所以在此对于系统如何实现本发明实施例中的方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明的保护范围。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网站判别方法,其特征在于,包括:
url地址获取步骤:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息;
文本内容获取步骤:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;
网站类型划分步骤:将网站分为正常和非正常网站,提取每种类型的网站特征;
特征向量生成步骤:通过对网站文本内容的解析,并根据网站类型划分步骤中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量;
网站特征标记步骤:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本;
类型识别模型训练步骤:根据随机森林RandomForestClassifier算法,通过集成学习的思想,使用随机阀值及网站特征标记步骤获得的训练样本,构建大量决策树组成的决策树“森林”,建立一个网站正常与否的类型识别模型;
识别步骤:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。
2.根据权利要求1所述的一种网站判别方法,其特征在于:它还包括去重步骤:在获取到url地址之后,以网站域名为主,删除所有重复网站链接,重复网站数据保留一条记录信息即可。
3.根据权利要求2所述的一种网站判别方法,其特征在于:特征向量生成步骤中的所有网站指的是网站经过去重步骤后剩下的网站。
4.根据权利要求1所述的一种网站判别方法,其特征在于:非正常网站包括了广告、色情、恶意、无效、死亡五种类型的网站,其余类型的网站划分为正常网站。
5.根据权利要求4所述的一种网站判别方法,其特征在于:广告、色情、恶意类网站采用关键词作为网站特征;无效类型的网站采用静态网页、无二级链接网页或者包含app下载链接网页的情况作为网站特征;死亡类型的网站采用域名过期、无法访问、禁止访问、网站维护、服务器维护、网站改版或者Access denied的状态作为网站特征。
6.根据权利要求1所述的一种网站判别方法,其特征在于:网站特征标记步骤中,正常网站标记为1,非正常网站标记为2。
7.根据权利要求1所述的一种网站判别方法,其特征在于:网站特征标记步骤中,每种类型的网站至少选择10个。
8.根据权利要求1所述的一种网站判别方法,其特征在于:在获取了未知网站是否正常的状态值之后,还获取未知网站的判定指标,判定指标包括:PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息;根据判定指标判断网站的质量。
9.根据权利要求8所述的一种网站判别方法,其特征在于:未知网站的PV、UV、Robots协议、搜索引擎排名、网站加载速度、内容原创度指标信息均分别设置两个阈值来进行判断,两个阈值分别是第一阈值和第二阈值;每个判定指标如果低于其第一阈值判定为差,在第一阈值和第二阈值之间判定为良,高于第二阈值为优;
所有判定指标共计占比之和为100%;根据每个指标自定义的占比,计算所有指标优、良、差各个等级之和,网站的质量即为三个等级中和最大的一个等级。
10.一种网站判别系统,其特征在于:
url地址获取模块:以关键词为主,在多种搜索引擎中,获取在搜索引擎中,通过关键词搜索所得到搜索结果的接口,利用request技术,模拟浏览器访问接口向服务器发送请求,服务器接收请求返回对应的响应内容,以此来获取搜索引擎结果中与关键词相关联的全部网站链接url地址信息;
文本内容获取模块:利用网络爬虫技术,获取得到每个网站主页的html格式的文本内容;
网站类型划分模块:将网站分为正常和非正常网站,提取每种类型的网站特征;
特征向量生成模块:通过对网站文本内容的解析,并根据网站类型划分模块中设定的网站特征,提取出所有网站相关网站特征情况数量,形成网站特征向量;
网站特征标记模块:获取一定数量的正常网站和非正常网站的特征向量,并为每种类型网站标记相应的标签类型,网站类型与其相应的特征向量、标签类型作为类型识别模型的训练样本;
类型识别模型训练模块:根据随机森林RandomForestClassifier算法,通过集成学习的思想,使用随机阀值及网站特征标记模块获得的训练样本,构建大量决策树组成的决策树“森林”,建立一个网站正常与否的类型识别模型;
识别模块:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。
CN201911155249.9A 2019-11-22 2019-11-22 一种网站判别方法及系统 Pending CN111222031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911155249.9A CN111222031A (zh) 2019-11-22 2019-11-22 一种网站判别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911155249.9A CN111222031A (zh) 2019-11-22 2019-11-22 一种网站判别方法及系统

Publications (1)

Publication Number Publication Date
CN111222031A true CN111222031A (zh) 2020-06-02

Family

ID=70829898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911155249.9A Pending CN111222031A (zh) 2019-11-22 2019-11-22 一种网站判别方法及系统

Country Status (1)

Country Link
CN (1) CN111222031A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204695A (zh) * 2021-05-12 2021-08-03 北京百度网讯科技有限公司 网站识别方法和装置
CN113315766A (zh) * 2021-05-26 2021-08-27 中国信息通信研究院 一种基于强化学习的恶意网址识别方法、系统和介质
CN113806660A (zh) * 2021-09-17 2021-12-17 北京百度网讯科技有限公司 数据评估方法、训练方法、装置、电子设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066211A1 (en) * 2010-09-15 2012-03-15 Mitul Gandhi System And Method For Analyzing Search Engine Optimization Procedures
CN102855256A (zh) * 2011-06-29 2013-01-02 北京百度网讯科技有限公司 用于确定网站评价信息的方法、装置及设备
CN103324615A (zh) * 2012-03-19 2013-09-25 哈尔滨安天科技股份有限公司 基于搜索引擎优化的钓鱼网站探测方法及系统
CN105956472A (zh) * 2016-05-12 2016-09-21 宝利九章(北京)数据技术有限公司 识别网页中是否包含恶意内容的方法和系统
CN108134784A (zh) * 2017-12-19 2018-06-08 东软集团股份有限公司 网页分类方法及装置、存储介质及电子设备
CN109446424A (zh) * 2018-10-30 2019-03-08 长春理工大学 一种无效地址网页过滤方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066211A1 (en) * 2010-09-15 2012-03-15 Mitul Gandhi System And Method For Analyzing Search Engine Optimization Procedures
CN102855256A (zh) * 2011-06-29 2013-01-02 北京百度网讯科技有限公司 用于确定网站评价信息的方法、装置及设备
CN103324615A (zh) * 2012-03-19 2013-09-25 哈尔滨安天科技股份有限公司 基于搜索引擎优化的钓鱼网站探测方法及系统
CN105956472A (zh) * 2016-05-12 2016-09-21 宝利九章(北京)数据技术有限公司 识别网页中是否包含恶意内容的方法和系统
CN108134784A (zh) * 2017-12-19 2018-06-08 东软集团股份有限公司 网页分类方法及装置、存储介质及电子设备
CN109446424A (zh) * 2018-10-30 2019-03-08 长春理工大学 一种无效地址网页过滤方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
付鑫金: "大学网站综合评价研究——以山东省为例", 《中国优秀硕士学位论文全文数据库》 *
何禹德等: "基于决策树的钓鱼网站识别研究", 《通化师范学院学报》 *
方勇等: "基于LSTM与随机混合构架的钓鱼网站识别研究", 《工程科学与技术》 *
朱琪等: "基于改进随机森林算法的钓鱼网站检测方法研究", 《微电子学与计算机》 *
杜洋: "基于特征选择分类和双向LSTM神经网络的钓鱼网站检测", 《中国优秀硕士学位论文全文数据库》 *
陈远等: "基于主成分分析和随机森林的恶意网站评估与识别", 《数据分析与知识发现》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204695A (zh) * 2021-05-12 2021-08-03 北京百度网讯科技有限公司 网站识别方法和装置
CN113204695B (zh) * 2021-05-12 2023-09-26 北京百度网讯科技有限公司 网站识别方法和装置
CN113315766A (zh) * 2021-05-26 2021-08-27 中国信息通信研究院 一种基于强化学习的恶意网址识别方法、系统和介质
CN113806660A (zh) * 2021-09-17 2021-12-17 北京百度网讯科技有限公司 数据评估方法、训练方法、装置、电子设备以及存储介质
CN113806660B (zh) * 2021-09-17 2024-04-26 北京百度网讯科技有限公司 数据评估方法、训练方法、装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
US20080270376A1 (en) Web spam page classification using query-dependent data
CN111222031A (zh) 一种网站判别方法及系统
CN108256104A (zh) 基于多维特征的互联网网站综合分类方法
CN110602045B (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN105279277A (zh) 知识数据的处理方法和装置
CN101814083A (zh) 网页自动分类方法和系统
CN101908071A (zh) 一种提高搜索引擎搜索效率的方法及其系统
CN103544307B (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN101261629A (zh) 基于自动分类技术的特定信息搜索方法
CN112464666B (zh) 一种基于暗网数据的未知网络威胁自动发现方法
CN106649557B (zh) 一种缺陷报告与邮件列表语义关联挖掘方法
CN101630315B (zh) 一种快速检索方法及系统
CN102567494A (zh) 网站分类方法及装置
WO2014029318A1 (en) Method and apparatus for identifying webpage type
CN105117434A (zh) 一种网页分类方法和系统
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN117473512A (zh) 基于网络测绘的漏洞风险评估方法
CN112711716A (zh) 一种基于知识图谱的海洋产业新闻推送方法及系统
CN102929948B (zh) 列表页识别系统及方法
CN111597423A (zh) 一种文本分类模型可解释性方法的性能评价方法及装置
CN114238735B (zh) 一种互联网数据智能采集方法
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN100357942C (zh) 一种移动互联网智能信息搜索引擎的搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200602

RJ01 Rejection of invention patent application after publication