CN102523130A - 不良网页检测方法及装置 - Google Patents

不良网页检测方法及装置 Download PDF

Info

Publication number
CN102523130A
CN102523130A CN2011104017205A CN201110401720A CN102523130A CN 102523130 A CN102523130 A CN 102523130A CN 2011104017205 A CN2011104017205 A CN 2011104017205A CN 201110401720 A CN201110401720 A CN 201110401720A CN 102523130 A CN102523130 A CN 102523130A
Authority
CN
China
Prior art keywords
bad
webpage
doubtful
bad webpage
websites
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104017205A
Other languages
English (en)
Other versions
CN102523130B (zh
Inventor
王利明
耿光刚
洪博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201110401720.5A priority Critical patent/CN102523130B/zh
Publication of CN102523130A publication Critical patent/CN102523130A/zh
Application granted granted Critical
Publication of CN102523130B publication Critical patent/CN102523130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种不良网页检测方法及装置,该不良网页检测方法包括:根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表;对疑似不良网页进行解析,生成解析结果;当根据解析结果识别出疑似不良网页中存在恶意跳转,则将疑似不良网页对应的原始地址从不良网址列表中删除。本发明提供的不良网页检测方法及装置,由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。

Description

不良网页检测方法及装置
技术领域
本发明涉及网络安全技术,尤其涉及一种不良网页检测方法及装置。
背景技术
互联网技术的突飞猛进推动了信息社会的不断发展,互联网已经成为社会活动必不可少的一部分。但是,互联网也成为了色情等不良信息传播的媒介,严重影响网民、特别是青少年对互联网的正常应用,阻碍互联网健康有序的发展。
对色情网站等不良网站的检测,关键词过滤是一种简单、易于实现,且容易进行分布式处理的互联网色情信息检测技术,被广泛应用。但纯粹依赖关键词进行不良网站的检测会造成对众多网站的误检,检测效果不佳。
发明内容
本发明提供一种不良网页检测方法及装置,以提高对不良网页的检测效果。
本发明第一个方面提供一种不良网页检测方法,包括:
根据不良关键词获取所述不良关键词对应的疑似不良网页,获取所述疑似不良网页对应的原始地址,生成包含有所述原始地址的不良网址列表;
对所述疑似不良网页进行解析,生成解析结果;
当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
本发明另一个方面提供一种不良网页检测装置,其特征在于,包括:
不良网址列表生成模块,用于根据不良关键词获取所述不良关键词对应的疑似不良网页,获取所述疑似不良网页对应的原始地址,生成包含有所述原始地址的不良网址列表;
解析模块,用于对所述疑似不良网页进行解析,生成解析结果;
第一删除模块,用于当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
由上述技术方案可知,本发明第一个方面提供的不良网页检测方法,根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表,对疑似不良网页进行解析,若疑似不良网页中存在恶意跳转,则将疑似不良网页对应的原始地址从不良网址列表中删除。由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。
本发明另一个方面提供的不良网页检测装置,不良网址列表生成模块根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表,解析模块对疑似不良网页进行解析,若疑似不良网页中存在恶意跳转,则第一删除模块将疑似不良网页对应的原始地址从不良网址列表中删除。由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。
附图说明
图1为本发明实施例一提供的不良网页检测方法流程图;
图2为本发明实施例二提供的不良网页检测方法流程图;
图3为本发明实施例三提供的不良网页检测装置结构示意图;
图4为本发明实施例四提供的不良网页检测装置结构示意图。
具体实施方式
实施例一
图1为本发明实施例一提供的不良网页检测方法流程图。如图1所示,本实施例提供的不良网页检测方法具体可以应用于对不良网站的检测,不良网站具体可以包括色情、赌博、暴力以及反动等网站。可以通过不良网页检测装置来执行,该不良网页检测装置具体可以通过软和/或硬件的方式来实现。
本实施例提供的不良网页检测方法具体包括:
步骤10、根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表;
具体地,不良关键词可以包括涉黄词汇等不良信息,可以通过搜索引擎对不良关键词进行搜索,以获取不良关键词对应的疑似不良网页,即疑似不良网页中包含有该不良关键词。不良关键词可以根据具体的检测需要来设置。疑似不良网页对应的原始地址即为通过搜索引擎被不良关键词进行搜索时,搜索到的网页所显示的地址,但是该疑似不良网页在加载过程中可能会发生跳转。该跳转可以是JavaScript跳转,Meta跳转和统一资源定位符(Uniform/Universal Resource Locator,简称URL)跳转,则跳转到的地址即为目标地址。将搜索到的疑似不良网页对应的原始地址记录形成不良网址列表。
步骤20、对疑似不良网页进行解析,生成解析结果;
具体地,可以对疑似不良网页的源代码和动态脚本等进行解析,动态脚本通常为JavaScript脚本。JavaScript脚本既包含网页内的JavaScript脚本,也包含嵌入的外部JavaScript脚本。
步骤30、当根据解析结果识别出疑似不良网页中存在恶意跳转时,将疑似不良网页对应的原始地址从不良网址列表中删除。
具体地,若疑似不良网页中存在JavaScript跳转,即该跳转行为是通过JavaScript行为实现的,则该跳转为网页跳转作弊,即恶意跳转。通常网页跳转作弊行为的网站不是色情、赌博等网站,可以将存在恶意跳转的疑似不良网页对应的原始地址从不良网址列表中删除。
本实施例提供的不良网页检测方法,根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表,对疑似不良网页进行解析,若疑似不良网页中存在恶意跳转,则将疑似不良网页对应的原始地址从不良网址列表中删除。由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。
实施例二
图2为本发明实施例二提供的不良网页检测方法流程图。如图2所示,本实施例提供的不良网页检测方法在实施例一的基础上,进一步地,步骤20,对疑似不良网页进行解析,生成解析结果之后,还可以包括如下步骤:
步骤40、当根据解析结果识别出疑似不良网页中存在隐藏作弊时,将疑似不良网页对应的原始地址从不良网址列表中删除。
具体地,疑似不良网页中存在被隐藏的、人的眼睛无法直接看到的文字,即为隐藏作弊。通常存在隐藏作弊行为的网站都不是色情、赌博等网站。对疑似不良网页进行解析,若该疑似不良网页中存在隐藏作弊,则将该疑似不良网页的原始地址从不良网址列表中删除。通过对存在隐藏作弊的网页的检测,可以进一步提高对不良网页检测的准确性。
进一步地,步骤20,对疑似不良网页进行解析,生成解析结果之后,还可以包括如下步骤:
步骤50、当根据解析结果识别出疑似不良网页中存在的预设共现词的数量超过预设阈值时,将疑似不良网页对应的原始地址从不良网址列表中删除。
疑似不良网页是基于一系列不良关键词过滤所得,这样导致了相当数量的正规成人网站、美容类网站和医疗类网站等进入该疑似数据集,本实施例进行共现词分析,共现词可以包括“价格”、“热线”、“电话”、“促销”、“医院”、“公司”、“整形”、“销售”、“专家”等,若疑似不良网页中包含的上述共现词的数量超过预设阈值,则可以认为该网页不是不良网页,则将该网页对应的原始地址从不良网址列表中删除。通过共现词对疑似不良网页进行进一步地的过滤,可以进一步提高对不良网页检测的准确性。
在本实施例中,步骤30,当根据解析结果识别出疑似不良网页中存在恶意跳转时,将疑似不良网页对应的原始地址从不良网址列表中删除,具体可以包括如下步骤:
当根据解析结果识别出在允许动态脚本执行状态下疑似不良网页的目标地址对应的域名与在禁止动态脚本执行状态下疑似不良网页的目标地址对应的域名不同时,将疑似不良网页对应的原始地址从不良网址列表中删除。
具体地,对JavaScript脚本进行解析,可以通过匹配以下字符串:“window.location.href”、“window.navigate”、“self.location”和“top.location”,解析出重新定位的URL,即目标地址。进一步将URL映射到域名,例如URL为http://sports.sina.com.cn/basket2010/,该URL对应的域名为sina.com.cn。在实际网页解析过程中,可以通过如下代码对恶意跳转进行检测:
Figure BDA0000116612450000051
其中,domainName、destDomain(EnableJS)和destDomain(DisableJS)分别表示原始地址对应的原始域名、允许动态脚本执行状态下的目标地址对应的域名和禁止动态执行状态下的目标地址对应的域名。当destDomain(EnableJS)与destDomain(DisableJS)不同时,说明存在恶意跳转。
在本实施例中,步骤40中的识别出疑似不良网页中存在隐藏作弊具体可以包括下述至少一种:
当识别到疑似不良网页的可视范围外存在不良关键词时,确定识别出疑似不良网页中存在隐藏作弊;
当识别到疑似不良网页的快速滚动内容中存在不良关键词时,确定识别出疑似不良网页中存在隐藏作弊;
当识别到疑似不良网页对应的级联样式表隐藏内容中存在不良关键词时,确定识别出疑似不良网页中存在隐藏作弊;
当识别到疑似不良网页中的不良关键词的颜色与疑似不良网页的背景颜色相同时,确定识别出疑似不良网页中存在隐藏作弊。
其中,对疑似不良网页的可视范围外存在不良关键词的检测,可以对不良关键词对应的超文本标记语言(Hypertext Markup Language,简称HTML)标签进行分析,若top或left等属性的值为负数,则说明该疑似不良网页的可视范围外存在不良关键词。
对疑似不良网页的快速滚动内容中存在不良关键词的检测,首先解析网页中有无存在用于指示文字滚动的关键字Marquee,若存在该关键字且该关键字对应的文字内容中存在不良关键词,则对根据延时时间进行判断,若延时时间很短,以致肉眼无法看清文字,则可以判定该疑似不良网页存在包含有不良关键词的快速滚动内容。
对疑似不良网页对应的级联样式表(Cascading Style Sheet,简称CSS)隐藏内容中存在不良关键词的检测,具体可以根据<div style=″display:none″>或<div style=″visibility:hidden″>等来进行检测。
对疑似不良网页中的不良关键词的颜色与疑似不良网页的背景颜色相同的检测,由于网页颜色的决定因素众多,包括HTML、CSS和JavaScript等,可以分别对上述因素进行检测。也可以只对HTML Tag进行判断,对color元素(包括bgcolor、font color等)进行匹配,以不良关键词的颜色与网页背景是否相同,而对隐藏作弊进行检测,实现简单。
实施例三
图3为本发明实施例三提供的不良网页检测装置结构示意图。如图3所示,本实施例提供的不良网页检测装置具体可以实现本发明任意实施例提供的不良网页检测方法的各个步骤,此不再赘述。
本实施例提供的不良网页检测装置具体包括不良网址列表生成模块11、解析模块12和第一删除模块13。不良网址列表生成模块11用于根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表。解析模块12用于对疑似不良网页进行解析,生成解析结果。第一删除模块13用于当根据解析结果识别出疑似不良网页中存在恶意跳转时,将疑似不良网页对应的原始地址从不良网址列表中删除。
本实施例提供的不良网页检测装置,不良网址列表生成模块11根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表,解析模块12对疑似不良网页进行解析,若疑似不良网页中存在恶意跳转,则第一删除模块13将疑似不良网页对应的原始地址从不良网址列表中删除。由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。
实施例四
图4为本发明实施例四提供的不良网页检测装置结构示意图。如图4所示,在本实施例中,不良网页检测装置具体还可以包括第二删除模块14,第二删除模块14用于当根据解析结果识别出疑似不良网页中存在隐藏作弊时,将疑似不良网页对应的原始地址从不良网址列表中删除。通过第二删除模块14的设置,对存在隐藏作弊的网页的检测,可以进一步提高对不良网页检测的准确性。
进一步地,在本实施例中,该不良网页检测装置还可以包括第三删除模块15。第三删除模块15用于当根据解析结果识别出疑似不良网页中存在的预设共现词的数量超过预设阈值时,将疑似不良网页对应的原始地址从不良网址列表中删除。通过第三删除模块的设置15,可以通过共现词对疑似不良网页进行进一步地的过滤,可以进一步提高对不良网页检测的准确性。
在本实施例中,第一删除模块13还可以用于当根据解析结果识别出在允许动态脚本执行状态下疑似不良网页的目标地址对应的域名与在禁止动态脚本执行状态下疑似不良网页的目标地址对应的域名不同时,将疑似不良网页对应的原始地址从不良网址列表中删除。通过将允许动态脚本执行状态下疑似不良网页的目标地址对应的域名与在禁止动态脚本执行状态下疑似不良网页的目标地址对应的域名进行比较,可以便捷地检测出恶意跳转,提高检测效率。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种不良网页检测方法,其特征在于,包括:
根据不良关键词获取所述不良关键词对应的疑似不良网页,获取所述疑似不良网页对应的原始地址,生成包含有所述原始地址的不良网址列表;
对所述疑似不良网页进行解析,生成解析结果;
当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
2.根据权利要求1所述的不良网页检测方法,其特征在于,对所述疑似不良网页进行解析,生成解析结果之后,还包括:
当根据所述解析结果识别出所述疑似不良网页中存在隐藏作弊时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
3.根据权利要求1或2所述的不良网页检测方法,其特征在于,对所述疑似不良网页进行解析,生成解析结果之后,还包括:
当根据所述解析结果识别出所述疑似不良网页中存在的预设共现词的数量超过预设阈值时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
4.根据权利要求3所述的不良网页检测方法,其特征在于,当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除,包括:
当根据所述解析结果识别出在允许动态脚本执行状态下所述疑似不良网页的目标地址对应的域名与在禁止动态脚本执行状态下所述疑似不良网页的目标地址对应的域名不同时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
5.根据权利要求2所述的不良网页检测方法,其特征在于,识别出所述疑似不良网页中存在隐藏作弊包括下述至少一种:
当识别到所述疑似不良网页的可视范围外存在所述不良关键词时,确定识别出所述疑似不良网页中存在隐藏作弊;
当识别到所述疑似不良网页的快速滚动内容中存在所述不良关键词时,确定识别出所述疑似不良网页中存在隐藏作弊;
当识别到所述疑似不良网页对应的级联样式表隐藏内容中存在所述不良关键词时,确定识别出所述疑似不良网页中存在隐藏作弊;
当识别到所述疑似不良网页中的所述不良关键词的颜色与所述疑似不良网页的背景颜色相同时,确定识别出所述疑似不良网页中存在隐藏作弊。
6.一种不良网页检测装置,其特征在于,包括:
不良网址列表生成模块,用于根据不良关键词获取所述不良关键词对应的疑似不良网页,获取所述疑似不良网页对应的原始地址,生成包含有所述原始地址的不良网址列表;
解析模块,用于对所述疑似不良网页进行解析,生成解析结果;
第一删除模块,用于当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
7.根据权利要求6所述的不良网页检测装置,其特征在于,还包括:
第二删除模块,用于当根据所述解析结果识别出所述疑似不良网页中存在隐藏作弊时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
8.根据权利要求6或7所述的不良网页检测装置,其特征在于,还包括:
第三删除模块,用于当根据所述解析结果识别出所述疑似不良网页中存在的预设共现词的数量超过预设阈值时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
9.根据权利要求8所述的不良网页检测装置,其特征在于:所述第一删除模块还用于当根据所述解析结果识别出在允许动态脚本执行状态下所述疑似不良网页的目标地址对应的域名与在禁止动态脚本执行状态下所述疑似不良网页的目标地址对应的域名不同时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
CN201110401720.5A 2011-12-06 2011-12-06 不良网页检测方法及装置 Active CN102523130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110401720.5A CN102523130B (zh) 2011-12-06 2011-12-06 不良网页检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110401720.5A CN102523130B (zh) 2011-12-06 2011-12-06 不良网页检测方法及装置

Publications (2)

Publication Number Publication Date
CN102523130A true CN102523130A (zh) 2012-06-27
CN102523130B CN102523130B (zh) 2015-02-04

Family

ID=46293929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110401720.5A Active CN102523130B (zh) 2011-12-06 2011-12-06 不良网页检测方法及装置

Country Status (1)

Country Link
CN (1) CN102523130B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020123A (zh) * 2012-11-16 2013-04-03 中国科学技术大学 一种搜索不良视频网站的方法
CN103761482A (zh) * 2014-01-23 2014-04-30 珠海市君天电子科技有限公司 一种病毒程序检测的方法及病毒程序检测装置
CN103809940A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种判断div+css结构的方法
CN104978523A (zh) * 2014-11-06 2015-10-14 哈尔滨安天科技股份有限公司 一种基于网络热词识别的恶意样本捕获方法及系统
CN105376217A (zh) * 2015-10-15 2016-03-02 中国互联网络信息中心 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN106815200A (zh) * 2015-11-30 2017-06-09 任子行网络技术股份有限公司 基于关键词的不良文本检测方法及装置
CN111104579A (zh) * 2019-12-31 2020-05-05 北京神州绿盟信息安全科技股份有限公司 一种公网资产的识别方法、装置及存储介质
CN111600772A (zh) * 2020-04-30 2020-08-28 北京金山云网络技术有限公司 网络分发内容检测处理装置、方法、系统及电子设备
CN111754338A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种套路贷网站团伙识别方法及系统
CN113791837A (zh) * 2021-08-12 2021-12-14 百度在线网络技术(北京)有限公司 页面处理方法、装置、设备和存储介质
CN114218516A (zh) * 2021-12-27 2022-03-22 北京百度网讯科技有限公司 网页处理方法、装置、电子设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005043848A1 (en) * 2003-11-03 2005-05-12 Immertec Co., Ltd. Udp packet communication method and system for private ip terminals
CN101777053A (zh) * 2009-01-08 2010-07-14 北京搜狗科技发展有限公司 一种识别作弊网页的方法及系统
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005043848A1 (en) * 2003-11-03 2005-05-12 Immertec Co., Ltd. Udp packet communication method and system for private ip terminals
CN101777053A (zh) * 2009-01-08 2010-07-14 北京搜狗科技发展有限公司 一种识别作弊网页的方法及系统
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103809940A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种判断div+css结构的方法
CN103020123A (zh) * 2012-11-16 2013-04-03 中国科学技术大学 一种搜索不良视频网站的方法
CN103020123B (zh) * 2012-11-16 2016-08-24 中国科学技术大学 一种搜索不良视频网站的方法
CN103761482A (zh) * 2014-01-23 2014-04-30 珠海市君天电子科技有限公司 一种病毒程序检测的方法及病毒程序检测装置
CN104978523A (zh) * 2014-11-06 2015-10-14 哈尔滨安天科技股份有限公司 一种基于网络热词识别的恶意样本捕获方法及系统
CN105376217A (zh) * 2015-10-15 2016-03-02 中国互联网络信息中心 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN105376217B (zh) * 2015-10-15 2019-01-04 中国互联网络信息中心 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN106815200A (zh) * 2015-11-30 2017-06-09 任子行网络技术股份有限公司 基于关键词的不良文本检测方法及装置
CN111104579A (zh) * 2019-12-31 2020-05-05 北京神州绿盟信息安全科技股份有限公司 一种公网资产的识别方法、装置及存储介质
CN111600772A (zh) * 2020-04-30 2020-08-28 北京金山云网络技术有限公司 网络分发内容检测处理装置、方法、系统及电子设备
CN111754338A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种套路贷网站团伙识别方法及系统
CN111754338B (zh) * 2020-06-30 2024-02-23 上海观安信息技术股份有限公司 一种套路贷网站团伙识别方法及系统
CN113791837A (zh) * 2021-08-12 2021-12-14 百度在线网络技术(北京)有限公司 页面处理方法、装置、设备和存储介质
CN113791837B (zh) * 2021-08-12 2023-08-11 百度在线网络技术(北京)有限公司 页面处理方法、装置、设备和存储介质
CN114218516A (zh) * 2021-12-27 2022-03-22 北京百度网讯科技有限公司 网页处理方法、装置、电子设备以及存储介质
CN114218516B (zh) * 2021-12-27 2023-03-10 北京百度网讯科技有限公司 网页处理方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN102523130B (zh) 2015-02-04

Similar Documents

Publication Publication Date Title
CN102523130B (zh) 不良网页检测方法及装置
US11163849B2 (en) Identification of content in an electronic document
Hanson et al. Progress on website accessibility?
US8458207B2 (en) Using anchor text to provide context
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US9514113B1 (en) Methods for automatic footnote generation
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
Gentile et al. Unsupervised wrapper induction using linked data
CN102436563A (zh) 一种检测页面篡改的方法及装置
CN102750390A (zh) 新闻网页要素自动提取方法
Thamviset et al. Information extraction for deep web using repetitive subject pattern
Chen et al. Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors
CN110532784A (zh) 一种暗链检测方法、装置、设备及计算机可读存储介质
CN112579937A (zh) 一种字符的高亮显示方法及装置
CN114357335A (zh) 信息获取方法、介质、装置和计算设备
CN103729354B (zh) 网页信息处理方法及装置
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置
CN113742785A (zh) 一种网页分类方法、装置、电子设备及存储介质
CN111177518A (zh) 网页净化方法、系统及计算机可读存储介质
CN108228609B (zh) 信息过滤方法和装置
CN104636420A (zh) 用于呈现超链接数据的系统和方法
US20080033953A1 (en) Method to search transactional web pages
JP2011175486A (ja) 名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法
CN113221031B (zh) 一种自动识别网站目录页的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210305

Address after: 100190 room 506, building 2, courtyard 4, South 4th Street, Zhongguancun, Haidian District, Beijing

Patentee after: CHINA INTERNET NETWORK INFORMATION CENTER

Address before: 100190 No. four, four South Street, Haidian District, Beijing, Zhongguancun

Patentee before: Computer Network Information Center, Chinese Academy of Sciences

TR01 Transfer of patent right