CN112347327A - 网站检测方法、装置、可读存储介质及计算机设备 - Google Patents
网站检测方法、装置、可读存储介质及计算机设备 Download PDFInfo
- Publication number
- CN112347327A CN112347327A CN202011138581.7A CN202011138581A CN112347327A CN 112347327 A CN112347327 A CN 112347327A CN 202011138581 A CN202011138581 A CN 202011138581A CN 112347327 A CN112347327 A CN 112347327A
- Authority
- CN
- China
- Prior art keywords
- website
- hit
- keyword
- detected
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 89
- 206010000117 Abnormal behaviour Diseases 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims description 14
- 241000239290 Araneae Species 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 208000001613 Gambling Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001568 sexual effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 239000003048 aphrodisiac agent Substances 0.000 description 1
- 230000002509 aphrodisiac effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种网站检测方法、装置、可读存储介质及计算机设备,所述网站检测方法包括:获取待检测网站的网页信息;对所述网页信息进行关键词文本匹配,以获取关键词命中结果;对所述网页信息进行异常行为特征检测,以获取异常行为命中结果;根据所述关键词命中结果和所述异常行为命中结果,确定所述待检测网站的检测结果,所述检测结果包括所述待检测网站的可信度级别。本发明能够解决现有技术工作量大,检测效率低的问题。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及网站检测方法、装置、可读存储介质及计算机设备。
背景技术
随着科技的发展,互联网已得到普及,内容丰富的互联网给人们的生活带来了便利。但当前的互联网环境中,也存在一些具有不良信息和行为的网站。对于企业和机构而言,其网站存在不良信息不仅会受到有关部门的制约,且会降低搜索引擎的搜索权重、影响用户浏览。
相关网络管理部门对这类不良网站有监察职责,需要及时发现不良网站,并对其进行关停或提出整改要求。现有技术中,主要采取人工检测的方式,但由于网站数量繁多,导致工作量大,检测效率低。
发明内容
为此,本发明的一个目的在于提出一种网站检测方法,以解决现有技术工作量大,检测效率低的问题。
本发明提供一种网站检测方法,包括:
获取待检测网站的网页信息;
对所述网页信息进行关键词文本匹配,以获取关键词命中结果;
对所述网页信息进行异常行为特征检测,以获取异常行为命中结果;
根据所述关键词命中结果和所述异常行为命中结果,确定所述待检测网站的检测结果,所述检测结果包括所述待检测网站的可信度级别。
根据本发明提供的网站检测方法,通过关键词文本匹配和异常行为特征检测分别对待检测网站进行检测,然后综合关键词命中结果和异常行为命中结果,能够自动获取待检测网站的检测结果,减轻了人工作业量,提升了检测效率,而且由于检测结果包括待检测网站的可信度级别,工作人员可以根据可信度级别的决定审核的优先级,有利于工作人员合理安排审核工作,进一步提升检测效率。
另外,根据本发明上述的网站检测方法,还可以具有如下附加的技术特征:
进一步地,获取待检测网站的网页信息的步骤具体包括:
获取所述待检测网站的网址;
通过网络爬虫获取所述网址的网页源码;
对所述网页源码进行转码,以获取所述待检测网站的网页信息。
进一步地,对所述网页信息进行关键词文本匹配,以获取关键词命中结果的步骤具体包括:
通过预存的关键词数据库对所述网页信息进行关键词文本匹配,以判断所述网页信息是否包含与所述关键词数据库匹配的关键词;
若所述网页信息包含与所述关键词数据库匹配的关键词,则对命中的关键词的属性信息进行记录,所述属性信息包括关键词的类型、级别、命中次数、命中位置。
进一步地,所述关键词的级别分为低级别、中级别和高级别;
判断所述网页信息是否包含与所述关键词数据库匹配的关键词的步骤之后,所述方法还包括:
若所述网页信息包含与所述关键词数据库匹配的关键词,且命中的关键词的数量至少为2个,则将级别最高的关键词作为最终的命中结果。
进一步地,判断所述网页信息是否包含与所述关键词数据库匹配的关键词的步骤之后,所述方法还包括:
若所述网页信息包含与所述关键词数据库匹配的关键词,则对命中的关键词的属性信息进行记录,并对命中的关键词进行分词过滤。
进一步地,对所述网页信息进行异常行为特征检测,以获取异常行为命中结果的步骤具体包括:
判断所述网页信息中是否存在恶意JS代码、标题逃逸、页面隐藏、泛目录链接、蜘蛛池中的至少一种异常行为特征;
若所述网页信息中存在恶意JS代码、标题逃逸、页面隐藏、泛目录链接、蜘蛛池中的至少一种异常行为特征,则判定所述异常行为命中结果为有异常行为;
若所述网页信息中不存在任何异常行为特征,则判定所述异常行为命中结果为无异常行为。
进一步地,所述关键词命中结果至少包括命中的关键词的级别和命中次数,所述关键词的级别分别低级别、中级别和高级别;
根据所述关键词命中结果和所述异常行为命中结果,确定所述待检测网站的检测结果的步骤具体包括:
若命中低级别关键词、且命中次数在第一预设范围内、且无异常行为,则判定所述待检测网站为低可信度不良网站;
若命中低级别关键词、且命中次数在所述第一预设范围内、且有异常行为,则判定所述待检测网站为中低可信度不良网站;
若命中中级别关键词、且命中次数在第二预设范围内、且无异常行为,则判定所述待检测网站为中可信度不良网站,所述第二预设范围大于所述第一预设范围;
若命中中级别关键词、且命中次数在所述第二预设范围内、且有异常行为,则判定所述待检测网站为中高可信度不良网站;
若命中高级别关键词、且命中次数在第三预设范围内,则判定所述待检测网站为高可信度不良网站,所述第三预设范围大于所述第二预设范围。
本发明的另一个目的在于提出一种网站检测装置,以解决现有技术工作量大,检测效率低的问题。
本发明提供一种网站检测装置,包括:
获取模块,用于获取待检测网站的网页信息;
第一检测模块,用于对所述网页信息进行关键词文本匹配,以获取关键词命中结果;
第二检测模块,用于对所述网页信息进行异常行为特征检测,以获取异常行为命中结果;
确定模块,用于根据所述关键词命中结果和所述异常行为命中结果,确定所述待检测网站的检测结果,所述检测结果包括所述待检测网站的可信度级别。
根据本发明提供的网站检测装置,通过关键词文本匹配和异常行为特征检测分别对待检测网站进行检测,然后综合关键词命中结果和异常行为命中结果,能够自动获取待检测网站的检测结果,减轻了人工作业量,提升了检测效率,而且由于检测结果包括待检测网站的可信度级别,工作人员可以根据可信度级别的决定审核的优先级,有利于工作人员合理安排审核工作,进一步提升检测效率。
另外,根据本发明上述的网站检测装置,还可以具有如下附加的技术特征:
进一步地,所述获取模块包括:
第一获取单元,用于获取所述待检测网站的网址;
第二获取单元,用于通过网络爬虫获取所述网址的网页源码;
转码单元,用于对所述网页源码进行转码,以获取所述待检测网站的网页信息。
进一步地,所述第一检测模块包括:
第一判断单元,用于通过预存的关键词数据库对所述网页信息进行关键词文本匹配,以判断所述网页信息是否包含与所述关键词数据库匹配的关键词;
记录单元,用于若所述网页信息包含与所述关键词数据库匹配的关键词,则对命中的关键词的属性信息进行记录,所述属性信息包括关键词的类型、级别、命中次数、命中位置。
进一步地,所述关键词的级别分为低级别、中级别和高级别;
所述第一检测模块还包括:
确定单元,用于若所述网页信息包含与所述关键词数据库匹配的关键词,且命中的关键词的数量至少为2个,则将级别最高的关键词作为最终的命中结果。
进一步地,所述第一检测模块还包括:
过滤单元,用于若所述网页信息包含与所述关键词数据库匹配的关键词,则对命中的关键词的属性信息进行记录,并对命中的关键词进行分词过滤。
进一步地,所述第二检测模块包括:
第二判断单元,用于判断所述网页信息中是否存在恶意JS代码、标题逃逸、页面隐藏、泛目录链接、蜘蛛池中的至少一种异常行为特征;
第一判定单元,用于若所述网页信息中存在恶意JS代码、标题逃逸、页面隐藏、泛目录链接、蜘蛛池中的至少一种异常行为特征,则判定所述异常行为命中结果为有异常行为;
第二判定单元,用于若所述网页信息中不存在任何异常行为特征,则判定所述异常行为命中结果为无异常行为。
进一步地,所述关键词命中结果至少包括命中的关键词的级别和命中次数,所述关键词的级别分别低级别、中级别和高级别;
所述确定模块包括:
第三判定单元,用于若命中低级别关键词、且命中次数在第一预设范围内、且无异常行为,则判定所述待检测网站为低可信度不良网站;
第四判定单元,用于若命中低级别关键词、且命中次数在所述第一预设范围内、且有异常行为,则判定所述待检测网站为中低可信度不良网站;
第五判定单元,用于若命中中级别关键词、且命中次数在第二预设范围内、且无异常行为,则判定所述待检测网站为中可信度不良网站,所述第二预设范围大于所述第一预设范围;
第六判定单元,用于若命中中级别关键词、且命中次数在所述第二预设范围内、且有异常行为,则判定所述待检测网站为中高可信度不良网站。
第七判定单元,用于若命中高级别关键词、且命中次数在第三预设范围内,则判定所述待检测网站为高可信度不良网站,所述第三预设范围大于所述第二预设范围。
本发明还提出一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述网站检测方法的步骤。
本发明还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述网站检测方法的步骤。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明第一实施例的网站检测方法的流程图;
图2是图1中步骤S101的具体流程图;
图3是图1中步骤S102的具体流程图;
图4是图1中步骤S103的具体流程图;
图5是根据本发明第二实施例的网站检测装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提出的网站检测方法,包括步骤S101~S104。
S101,获取待检测网站的网页信息。
其中,请参阅图2,步骤S101具体包括步骤S1011~S1013:
S1011,获取所述待检测网站的网址。
其中,工作人员可以提手动输入要检测的网站的网址、或者通过程序自动导入需要检测的网站的网址。
S1012,通过网络爬虫获取所述网址的网页源码。
其中,网络爬虫是指按照一定的规则,自动地抓取万维网信息的程序或者脚本,通过网络爬虫能够获取到待检测网站的网址对应的网页源码,也即源代码。
S1013,对所述网页源码进行转码,以获取所述待检测网站的网页信息。
其中,为了实现后续的分析,需要对网页源码进行转码,例如具体通过JS(即JavaScript)通过相应的编码格式进行转码,得到待检测网站的真实页面内容,作为该待检测网站的网页信息。
此外,在转码时,可以将待检测网站中的繁体字转化为简体字,方便后续关键词文本匹配。
S102,对所述网页信息进行关键词文本匹配,以获取关键词命中结果。
其中,请参阅图3,步骤S102具体包括步骤S1021~S1022:
S1021,通过预存的关键词数据库对所述网页信息进行关键词文本匹配,以判断所述网页信息是否包含与所述关键词数据库匹配的关键词。
其中,关键词数据库是预先存储在服务器中的,关键词数据库中的关键词例如包括:“X葡京”、“比赛押注”、“X京热”、“催情”、“助考”、“助孕”、“X葡京赌场”、“中文X码”、“出售发票”、“澳门X葡京赌场网址”、“免费色情XX在线观看”、“气枪仿真枪出售”等。工作人员可以根据实际情况对关键词数据库中的关键词进行新增、删除、修改等更新操作。
具体的,可以通过类型和级别对上述关键词进出区分,例如,区分如下表所示:
S1022,若所述网页信息包含与所述关键词数据库匹配的关键词,则对命中的关键词的属性信息进行记录,所述属性信息包括关键词的类型、级别、命中次数、命中位置。
其中,命中的关键词的属性信息中,通过关键词的类型可以基本确定待检测的网站属于何种类型的不良网站;关键词的级别主要用于确定网站的可信程度,例如高级别关键词“澳门X葡京赌场网址”,命中此关键词基本可以断定该网站是不良网站或被不良网站篡改了;低级别的关键词命中可信程度较低,需要结合根据关键词命中次数、是否异常行为等一起进行确认。此外,属性信息中的命中位置主要用于记录证据,如果是因为网站被篡改,可方便用户进行网站的恢复。
此外,作为一个具体示例,在步骤S1021,判断所述网页信息是否包含与所述关键词数据库匹配的关键词的步骤之后,所述方法还包括:
若所述网页信息包含与所述关键词数据库匹配的关键词,且命中的关键词的数量至少为2个,则将级别最高的关键词作为最终的命中结果。
例如,命中的关键词有“X京热”、“中文X码”、“免费色情XX在线观看”,则将级别最高的关键词“免费色情XX在线观看”作为最终的命中结果。
再例如,网页中包含文字“澳门X葡京赌场网址www.xxx.com”,而由于关键词数据库中有低级别关键词“X葡京”,中级别关键词“X葡京赌场”,高级别关键词:“澳门X葡京赌场网址”,对于这种情况,仅以命中包含程度最高的关键词“澳门X葡京赌场网址”为准。
此外,作为一个具体示例,在步骤S1021,判断所述网页信息是否包含与所述关键词数据库匹配的关键词的步骤之后,所述方法还包括:
若所述网页信息包含与所述关键词数据库匹配的关键词,则对命中的关键词的属性信息进行记录,并对命中的关键词进行分词过滤。
其中,对命中的关键词进行分词过滤的目的是避免错误命中,具体实施时,可以结合语义分析进行确定,提高准确性。例如,关键词数据库中存在色情类关键词“性交”,若待检测的网站中存在文字“女性交友”,则通过分词过滤可将“女性交友”识别为“女性”、“交友”两个词汇,使关键词“性交”不会被命中。
S103,对所述网页信息进行异常行为特征检测,以获取异常行为命中结果。
请参阅图4,步骤S103具体包括步骤S1031~S1033:
S1031,判断所述网页信息中是否存在恶意JS代码、标题逃逸、页面隐藏、泛目录链接、蜘蛛池中的至少一种异常行为特征。
其中,对网页信息中进行异常行为特征检测,主要是通过分析网站的源代码实现的。对于博彩、色情等违法网站,为了躲过监测和提高搜索引擎排名,网站中通过会存在上述异常行为特征。
具体的,对于恶意JS(JavaScript)代码,会使打开网站的时候就会自动跳转到它的网站。标题逃逸则是将网页源码通过unicode、ucs-2等编码将页面的标题加密,展示时解密展示出,这样里面有一些不良信息不易被发现。页面隐藏是通过字体颜色和定位等方式将页面中一些不良信息进行隐藏,在页面上无法看出,但是在使用搜索引擎进行搜索时会根据关键字搜到。泛目录链接则是机器生成大量的链接格式相同的页面,使爬虫一直进行爬取,用来提高搜索引擎排名。蜘蛛池则是通过利用大型平台权重来获得搜索引擎收录以及提升排名的异常行为。
S1032,若所述网页信息中存在恶意JS代码、标题逃逸、页面隐藏、泛目录链接、蜘蛛池中的至少一种异常行为特征,则判定所述异常行为命中结果为有异常行为。
S1033,若所述网页信息中不存在任何异常行为特征,则判定所述异常行为命中结果为无异常行为。
此外,需要说明的是,上述方法在具体实施时,步骤S102和S103可以不分先后顺序,即可以先执行S102,再执行S103;或者先执行S103,再执行S102;或者同时执行S102和S103。
S104,根据所述关键词命中结果和所述异常行为命中结果,确定所述待检测网站的检测结果,所述检测结果包括所述待检测网站的可信度级别。
其中,所述关键词命中结果至少包括命中的关键词的级别和命中次数,所述关键词的级别分别低级别、中级别和高级别;
因此,根据所述关键词命中结果和所述异常行为命中结果,具体有以下检测结果:
若命中低级别关键词、且命中次数在第一预设范围内、且无异常行为,则判定所述待检测网站为低可信度不良网站,第一预设范围例如是1~3次。
若命中低级别关键词、且命中次数在所述第一预设范围内、且有异常行为,则判定所述待检测网站为中低可信度不良网站。
若命中中级别关键词、且命中次数在第二预设范围内、且无异常行为,则判定所述待检测网站为中可信度不良网站,所述第二预设范围大于所述第一预设范围,第二预设范围例如是4~7次。
若命中中级别关键词、且命中次数在所述第二预设范围内、且有异常行为,则判定所述待检测网站为中高可信度不良网站。
若命中高级别关键词、且命中次数在第三预设范围内,不管是否有异常行为,则判定所述待检测网站为高可信度不良网站,所述第三预设范围大于所述第二预设范围,第三预设范围例如是大于等于8次。
通过上述分可信度等级的检测结果,使得工作人员可以根据可信度级别的决定审核的优先级,例如,同时存在2个高可信度不良网站和10个中低可信度不良网站,则可以优先处理这2个高可信度不良网站,从而及时对危害较大不良网站进行关停或提出整改要求。
综上,根据本实施例提供的网站检测方法,通过关键词文本匹配和异常行为特征检测分别对待检测网站进行检测,然后综合关键词命中结果和异常行为命中结果,能够自动获取待检测网站的检测结果,减轻了人工作业量,提升了检测效率,而且由于检测结果包括待检测网站的可信度级别,工作人员可以根据可信度级别的决定审核的优先级,有利于工作人员合理安排审核工作,进一步提升检测效率。
请参阅图5,本发明第二实施例提出的网站检测装置,所述装置包括:
获取模块10,用于获取待检测网站的网页信息;
第一检测模块20,用于对所述网页信息进行关键词文本匹配,以获取关键词命中结果;
第二检测模块30,用于对所述网页信息进行异常行为特征检测,以获取异常行为命中结果;
确定模块40,用于根据所述关键词命中结果和所述异常行为命中结果,确定所述待检测网站的检测结果,所述检测结果包括所述待检测网站的可信度级别。
本实施例中,所述获取模块10包括:
第一获取单元11,用于获取所述待检测网站的网址;
第二获取单元12,用于通过网络爬虫获取所述网址的网页源码;
转码单元13,用于对所述网页源码进行转码,以获取所述待检测网站的网页信息。
本实施例中,所述第一检测模块20包括:
第一判断单元21,用于通过预存的关键词数据库对所述网页信息进行关键词文本匹配,以判断所述网页信息是否包含与所述关键词数据库匹配的关键词;
记录单元22,用于若所述网页信息包含与所述关键词数据库匹配的关键词,则对命中的关键词的属性信息进行记录,所述属性信息包括关键词的类型、级别、命中次数、命中位置。
本实施例中,所述关键词的级别分为低级别、中级别和高级别;
所述第一检测模块20还包括:
确定单元23,用于若所述网页信息包含与所述关键词数据库匹配的关键词,且命中的关键词的数量至少为2个,则将级别最高的关键词作为最终的命中结果。
本实施例中,所述第一检测模块20还包括:
过滤单元24,用于若所述网页信息包含与所述关键词数据库匹配的关键词,则对命中的关键词的属性信息进行记录,并对命中的关键词进行分词过滤。
本实施例中,所述第二检测模块30包括:
第二判断单元31,用于判断所述网页信息中是否存在恶意JS代码、标题逃逸、页面隐藏、泛目录链接、蜘蛛池中的至少一种异常行为特征;
第一判定单元32,用于若所述网页信息中存在恶意JS代码、标题逃逸、页面隐藏、泛目录链接、蜘蛛池中的至少一种异常行为特征,则判定所述异常行为命中结果为有异常行为;
第二判定单元33,用于若所述网页信息中不存在任何异常行为特征,则判定所述异常行为命中结果为无异常行为。
本实施例中,所述关键词命中结果至少包括命中的关键词的级别和命中次数,所述关键词的级别分别低级别、中级别和高级别;
所述确定模块40包括:
第三判定单元41,用于若命中低级别关键词、且命中次数在第一预设范围内、且无异常行为,则判定所述待检测网站为低可信度不良网站;
第四判定单元42,用于若命中低级别关键词、且命中次数在所述第一预设范围内、且有异常行为,则判定所述待检测网站为中低可信度不良网站;
第五判定单元43,用于若命中中级别关键词、且命中次数在第二预设范围内、且无异常行为,则判定所述待检测网站为中可信度不良网站,所述第二预设范围大于所述第一预设范围;
第六判定单元44,用于若命中中级别关键词、且命中次数在所述第二预设范围内、且有异常行为,则判定所述待检测网站为中高可信度不良网站。
第七判定单元45,用于若命中高级别关键词、且命中次数在第三预设范围内,则判定所述待检测网站为高可信度不良网站,所述第三预设范围大于所述第二预设范围。
根据本实施例提供的网站检测装置,通过关键词文本匹配和异常行为特征检测分别对待检测网站进行检测,然后综合关键词命中结果和异常行为命中结果,能够自动获取待检测网站的检测结果,减轻了人工作业量,提升了检测效率,而且由于检测结果包括待检测网站的可信度级别,工作人员可以根据可信度级别的决定审核的优先级,有利于工作人员合理安排审核工作,进一步提升检测效率。
此外,本发明的实施例还提出一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一实施例中网站检测方法的步骤。
此外,本发明的实施例还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一实施例中网站检测方法的步骤。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种网站检测方法,其特征在于,包括:
获取待检测网站的网页信息;
对所述网页信息进行关键词文本匹配,以获取关键词命中结果;
对所述网页信息进行异常行为特征检测,以获取异常行为命中结果;
根据所述关键词命中结果和所述异常行为命中结果,确定所述待检测网站的检测结果,所述检测结果包括所述待检测网站的可信度级别。
2.根据权利要求1所述的网站检测方法,其特征在于,获取待检测网站的网页信息的步骤具体包括:
获取所述待检测网站的网址;
通过网络爬虫获取所述网址的网页源码;
对所述网页源码进行转码,以获取所述待检测网站的网页信息。
3.根据权利要求1所述的网站检测方法,其特征在于,对所述网页信息进行关键词文本匹配,以获取关键词命中结果的步骤具体包括:
通过预存的关键词数据库对所述网页信息进行关键词文本匹配,以判断所述网页信息是否包含与所述关键词数据库匹配的关键词;
若所述网页信息包含与所述关键词数据库匹配的关键词,则对命中的关键词的属性信息进行记录,所述属性信息包括关键词的类型、级别、命中次数、命中位置。
4.根据权利要求3所述的网站检测方法,其特征在于,所述关键词的级别分为低级别、中级别和高级别;
判断所述网页信息是否包含与所述关键词数据库匹配的关键词的步骤之后,所述方法还包括:
若所述网页信息包含与所述关键词数据库匹配的关键词,且命中的关键词的数量至少为2个,则将级别最高的关键词作为最终的命中结果。
5.根据权利要求3所述的网站检测方法,其特征在于,判断所述网页信息是否包含与所述关键词数据库匹配的关键词的步骤之后,所述方法还包括:
若所述网页信息包含与所述关键词数据库匹配的关键词,则对命中的关键词的属性信息进行记录,并对命中的关键词进行分词过滤。
6.根据权利要求3所述的网站检测方法,其特征在于,对所述网页信息进行异常行为特征检测,以获取异常行为命中结果的步骤具体包括:
判断所述网页信息中是否存在恶意JS代码、标题逃逸、页面隐藏、泛目录链接、蜘蛛池中的至少一种异常行为特征;
若所述网页信息中存在恶意JS代码、标题逃逸、页面隐藏、泛目录链接、蜘蛛池中的至少一种异常行为特征,则判定所述异常行为命中结果为有异常行为;
若所述网页信息中不存在任何异常行为特征,则判定所述异常行为命中结果为无异常行为。
7.根据权利要求6所述的网站检测方法,其特征在于,所述关键词命中结果至少包括命中的关键词的级别和命中次数,所述关键词的级别分别低级别、中级别和高级别;
根据所述关键词命中结果和所述异常行为命中结果,确定所述待检测网站的检测结果的步骤具体包括:
若命中低级别关键词、且命中次数在第一预设范围内、且无异常行为,则判定所述待检测网站为低可信度不良网站;
若命中低级别关键词、且命中次数在所述第一预设范围内、且有异常行为,则判定所述待检测网站为中低可信度不良网站;
若命中中级别关键词、且命中次数在第二预设范围内、且无异常行为,则判定所述待检测网站为中可信度不良网站,所述第二预设范围大于所述第一预设范围;
若命中中级别关键词、且命中次数在所述第二预设范围内、且有异常行为,则判定所述待检测网站为中高可信度不良网站;
若命中高级别关键词、且命中次数在第三预设范围内,则判定所述待检测网站为高可信度不良网站,所述第三预设范围大于所述第二预设范围。
8.一种网站检测装置,其特征在于,包括:
获取模块,用于获取待检测网站的网页信息;
第一检测模块,用于对所述网页信息进行关键词文本匹配,以获取关键词命中结果;
第二检测模块,用于对所述网页信息进行异常行为特征检测,以获取异常行为命中结果;
确定模块,用于根据所述关键词命中结果和所述异常行为命中结果,确定所述待检测网站的检测结果,所述检测结果包括所述待检测网站的可信度级别。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一项所述的方法。
10.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011138581.7A CN112347327B (zh) | 2020-10-22 | 2020-10-22 | 网站检测方法、装置、可读存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011138581.7A CN112347327B (zh) | 2020-10-22 | 2020-10-22 | 网站检测方法、装置、可读存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347327A true CN112347327A (zh) | 2021-02-09 |
CN112347327B CN112347327B (zh) | 2024-03-19 |
Family
ID=74359694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011138581.7A Active CN112347327B (zh) | 2020-10-22 | 2020-10-22 | 网站检测方法、装置、可读存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347327B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597400A (zh) * | 2021-03-04 | 2021-04-02 | 中南大学 | 一种人群的特定倾向性感知方法和系统 |
CN113139111A (zh) * | 2021-04-23 | 2021-07-20 | 北京锐安科技有限公司 | 一种页面状态检测方法、装置、设备和介质 |
CN113297525A (zh) * | 2021-06-17 | 2021-08-24 | 恒安嘉新(北京)科技股份公司 | 网页分类方法、装置、电子设备、及存储介质 |
CN113407802A (zh) * | 2021-06-10 | 2021-09-17 | 杭州安恒信息技术股份有限公司 | 蜘蛛池网站的识别方法、装置、电子装置和存储介质 |
CN113505323A (zh) * | 2021-05-26 | 2021-10-15 | 杭州安恒信息技术股份有限公司 | 提供翻墙服务网站的识别方法、装置、设备及存储介质 |
CN113742625A (zh) * | 2021-09-07 | 2021-12-03 | 北京百度网讯科技有限公司 | 页面数据处理方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294950A (zh) * | 2012-11-29 | 2013-09-11 | 北京安天电子设备有限公司 | 一种基于反向追踪的高威窃密恶意代码检测方法及系统 |
US20150324478A1 (en) * | 2012-06-18 | 2015-11-12 | Beijing Qihoo Technology Company Limited | Detection method and scanning engine of web pages |
CN107786537A (zh) * | 2017-09-19 | 2018-03-09 | 杭州安恒信息技术有限公司 | 一种基于互联网交叉搜索的孤页植入攻击检测方法 |
CN110309402A (zh) * | 2018-02-27 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 检测网站的方法和系统 |
-
2020
- 2020-10-22 CN CN202011138581.7A patent/CN112347327B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150324478A1 (en) * | 2012-06-18 | 2015-11-12 | Beijing Qihoo Technology Company Limited | Detection method and scanning engine of web pages |
CN103294950A (zh) * | 2012-11-29 | 2013-09-11 | 北京安天电子设备有限公司 | 一种基于反向追踪的高威窃密恶意代码检测方法及系统 |
CN107786537A (zh) * | 2017-09-19 | 2018-03-09 | 杭州安恒信息技术有限公司 | 一种基于互联网交叉搜索的孤页植入攻击检测方法 |
CN110309402A (zh) * | 2018-02-27 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 检测网站的方法和系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597400A (zh) * | 2021-03-04 | 2021-04-02 | 中南大学 | 一种人群的特定倾向性感知方法和系统 |
CN113139111A (zh) * | 2021-04-23 | 2021-07-20 | 北京锐安科技有限公司 | 一种页面状态检测方法、装置、设备和介质 |
CN113505323A (zh) * | 2021-05-26 | 2021-10-15 | 杭州安恒信息技术股份有限公司 | 提供翻墙服务网站的识别方法、装置、设备及存储介质 |
CN113505323B (zh) * | 2021-05-26 | 2024-01-30 | 杭州安恒信息技术股份有限公司 | 提供翻墙服务网站的识别方法、装置、设备及存储介质 |
CN113407802A (zh) * | 2021-06-10 | 2021-09-17 | 杭州安恒信息技术股份有限公司 | 蜘蛛池网站的识别方法、装置、电子装置和存储介质 |
CN113297525A (zh) * | 2021-06-17 | 2021-08-24 | 恒安嘉新(北京)科技股份公司 | 网页分类方法、装置、电子设备、及存储介质 |
CN113297525B (zh) * | 2021-06-17 | 2023-12-12 | 恒安嘉新(北京)科技股份公司 | 网页分类方法、装置、电子设备、及存储介质 |
CN113742625A (zh) * | 2021-09-07 | 2021-12-03 | 北京百度网讯科技有限公司 | 页面数据处理方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112347327B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347327B (zh) | 网站检测方法、装置、可读存储介质及计算机设备 | |
US9614862B2 (en) | System and method for webpage analysis | |
US11089052B2 (en) | Systems and methods for direct in-browser markup of elements in internet content | |
US8250651B2 (en) | Identifying attributes of aggregated data | |
US8458207B2 (en) | Using anchor text to provide context | |
US8510795B1 (en) | Video-based CAPTCHA | |
US10380197B2 (en) | Network searching method and network searching system | |
US8630972B2 (en) | Providing context for web articles | |
US8302197B2 (en) | Identifying data associated with security issue attributes | |
US10210211B2 (en) | Code searching and ranking | |
US9852217B2 (en) | Searching and ranking of code in videos | |
CN109558513B (zh) | 一种内容推荐方法、装置、终端及存储介质 | |
US8316006B2 (en) | Creating an ontology using an online encyclopedia and tag cloud | |
CN109104421B (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
US20120246561A1 (en) | Systems and methods for extended content harvesting for contextualizing | |
KR100485321B1 (ko) | 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템 | |
CN113544689A (zh) | 为文档的来源观点生成并提供附加内容 | |
CN110309667B (zh) | 一种网站暗链检测方法和装置 | |
CN115150261B (zh) | 告警分析的方法、装置、电子设备及存储介质 | |
CN112328936A (zh) | 一种网站识别方法、装置、设备及计算机可读存储介质 | |
US20130091415A1 (en) | Systems and methods for invisible area detection and contextualization | |
US20150269268A1 (en) | Search server and search method | |
CN113742785A (zh) | 一种网页分类方法、装置、电子设备及存储介质 | |
CN111382383A (zh) | 网页内容敏感类型确定方法、装置、介质和计算机设备 | |
CN110825976B (zh) | 网站页面的检测方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |