CN102663093A - 不良网站检测方法及设备 - Google Patents

不良网站检测方法及设备 Download PDF

Info

Publication number
CN102663093A
CN102663093A CN2012101040596A CN201210104059A CN102663093A CN 102663093 A CN102663093 A CN 102663093A CN 2012101040596 A CN2012101040596 A CN 2012101040596A CN 201210104059 A CN201210104059 A CN 201210104059A CN 102663093 A CN102663093 A CN 102663093A
Authority
CN
China
Prior art keywords
webpage
bad
bad webpage
detected
characteristic speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101040596A
Other languages
English (en)
Other versions
CN102663093B (zh
Inventor
洪博
耿光刚
王利明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201210104059.6A priority Critical patent/CN102663093B/zh
Publication of CN102663093A publication Critical patent/CN102663093A/zh
Application granted granted Critical
Publication of CN102663093B publication Critical patent/CN102663093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种不良网页检测方法及设备。该方法包括:对待检测网页进行分词处理,获取所述待检测网页的分词数据;根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词;根据与所述待检测网页的不良网页特征词对应的不良网页概率值,获取所述待检测网页的不良网页判定概率;若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页。本发明提供的不良网页检测方法及设备,能够实现快速、有效的不良网页检测。

Description

不良网站检测方法及设备
技术领域
本发明涉及信息处理技术,尤其涉及一种不良网站检测方法及设备,属于网络安全技术领域。
背景技术
随着网络技术的逐渐发展,网页已成为人们获取各类信息的重要途径。然而大量色情网站的出现,不仅影响了网络环境,更时刻威胁网民特别是青少年网民的身心健康,所以如何能够快速、准确的对色情网站进行检测已成为色情网站检测领域的一个重要课题。
现有色情网页检测技术主要采取网页URL黑名单过滤技术和网页页面内容检测技术。网页URL黑名单过滤技术主要是根据色情网页URL中可能出现的敏感特征词和已获知的色情网页URL建立黑名单,并根据黑名单对网络监测、用户举报等方式提供的可疑色情网页的URL进行检测。网页页面内容检测主要是针对网页内面内容,如文本、图片、音频、视频等进行全面检测。
在实际应用中,网页URL黑名单过滤技术因需要预先建立黑名单,所以对于新产生的色情词汇、色情网页的检测有一定的滞后性,而网页页面内容检测技术,由于对图片、音频、视频的识别技术本身还不成熟,所以总体检测误差较大,并且由于处理元素较多,导致计算量大,检测效率较低。因此,基于目前的色情网页检测技术,无法实现快速、准确的色情网页检测。
发明内容
针对现有技术中的缺陷,本发明提供一种不良网页检测方法及设备,用以实现快速、准确的不良网页检测。
根据本发明的一方面,提供一种不良网页检测方法,包括:
对待检测网页进行分词处理,获取所述待检测网页的分词数据;
根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词;
根据与所述待检测网页的不良网页特征词对应的不良网页概率值,获取所述待检测网页的不良网页判定概率;
若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页。
进一步地,在上述不良网页检测方法中,所述根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词的步骤之前,还包括:
获取不良网页特征词列表,所述不良网页特征词列表包括所述预先获取的不良网页特征词,以及分别与各预先获取的不良网页特征词对应的不良网页概率值;
相应地,所述根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词的步骤具体包括:
将所述分词数据与预先获取的不良网页特征词列表进行匹配,获取所述分词数据包括的不良网页特征词。
进一步地,在上述不良网页检测方法中,所述获取不良网页特征词列表的步骤具体包括:
获取不良网页样本集和正常网页样本集;
对所述正常网页样本集中各正常网页样本进行分词处理,获取各正常网页样本的分词数据,对所述各正常网页样本的分词数据进行词频-反文档频率统计,并根据所述词频-反文档频率的统计值获取预定数量的不良网页特征词;
对所述不良网页样本集中各不良网页样本进行分词处理,获取各不良网页样本的分词数据;
获取所述预定数量的不良网页特征词中,各不良网页特征词在所述正常网页样本的分词数据中出现的第一概率,以及在所述不良网页样本的分词数据中出现的第二概率,并根据所述第一概率和所述第二概率获取各不良网页特征词对应的不良网页概率值;
根据所述预定数量的不良网页特征词和与各不良网页特征词对应的所述不良网页概率值,生成所述不良网页特征词列表。
进一步地,在上述不良网页检测方法中,所述若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页的步骤具体包括:
若所述不良网页判定概率大于第一预定阈值,获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值;
若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页。
进一步地,在上述不良网页检测方法中,所述若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页具体包括:
若所述比值大于第二预定阈值,获取所述待检测网页的网页级别;
若所述网页级别不大于第三预定阈值,则判定所述待检测网页为不良网页。
根据本发明的另一方面,提供一种不良网页检测设备,包括:
第一处理模块,用于对待检测网页进行分词处理,获取所述待检测网页的分词数据;
第二处理模块,用于根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词;
第三处理模块,用于根据与所述待检测网页的不良网页特征词对应的不良网页概率值,获取所述待检测网页的不良网页判定概率;
第四处理模块,用于若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页。
进一步地,在上述不良网页检测设备中,还包括:
第五处理模块,用于获取不良网页特征词列表,所述不良网页特征词列表包括所述预先获取的不良网页特征词,以及分别与各预先获取的不良网页特征词对应的不良网页概率值;
相应地,所述第二处理模块还用于将所述分词数据与预先获取的不良网页特征词列表进行匹配,获取所述分词数据包括的不良网页特征词。
进一步地,在上述不良网页检测设备中,所述第五处理模块包括:
第一处理单元,用于获取不良网页样本集和正常网页样本集;
第二处理单元,用于对所述正常网页样本集中各正常网页样本进行分词处理,获取各正常网页样本的分词数据,对所述各正常网页样本的分词数据进行词频-反文档频率统计,并根据所述词频-反文档频率的统计值获取预定数量的不良网页特征词;
第三处理单元,用于对所述不良网页样本集中各不良网页样本进行分词处理,获取各不良网页样本的分词数据;
第四处理单元,用于获取所述预定数量的不良网页特征词中,各不良网页特征词在所述正常网页样本的分词数据中出现的第一概率,以及在所述不良网页样本的分词数据中出现的第二概率,并根据所述第一概率和所述第二概率获取各不良网页特征词对应的不良网页概率值;
第五处理单元,用于根据所述预定数量的不良网页特征词和与各不良网页特征词对应的所述不良网页概率值,生成所述不良网页特征词列表。
进一步地,在上述不良网页检测设备中,所述第四处理模块还用于若所述不良网页判定概率大于第一预定阈值,获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值;若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页。
进一步地,在上述不良网页检测设备中,所述第四处理模块还用于若所述比值大于第二预定阈值,获取所述待检测网页的网页级别;若所述网页级别不大于第三预定阈值,则判定所述待检测网页为不良网页。
根据本发明提供的不良网页检测方法及设备,一方面,通过将待检测网页的文本内容与能够充分表征不良网页的不良网页特征词进行对照,来判定待检测网页是否为不良网页,使得检测结果准确可靠;另一方面,在检测过程中,无需对待检测网页中的图片、音视频文件等进行处理,实现方便、计算简单,因此,实现了快速、准确的不良网页检测。
附图说明
图1为本发明实施例不良网页检测方法的流程示意图。
图2为本发明实施例不良网页检测设备的结构示意图。
具体实施方式
本发明实施例提供的不良网页检测方法具体可以应用于对不良网站的检测,不良网站具体可以包括色情、赌博、暴力以及反动等网站。可以通过不良网页检测装置来执行,该不良网页检测装置具体可以通过软和/或硬件的方式来实现。
图1为本发明实施例不良网页检测方法的流程示意图。如图1所示,该不良网页检测方法包括以下步骤:
步骤S101,对待检测网页进行分词处理,获取所述待检测网页的分词数据;
具体地,可以采用常用的任意分词技术对待检测网页进行分词处理,例如正向最大匹配法、反向最大匹配法和最短路径分词法等。而且,还可以根据预设条件,选择性地对待检测网页的主题名称、内容摘要或网页的全部文本进行分词处理,获取分词数据。所获取的分词数据例如为m个(m为大于等于2的任意自然数),形成为一个分词数据集合{C1,C2,C3,......,Cm},其中C1,C2,C3,......,Cm均为分词数据。
步骤S102,根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词;
具体地,预先获取的不良网页特征词例如通过对已知的不良网站和正常网站进行统计获得,预先获取的不良网页特征词的数量例如为n个(其中n为大于等于2的任意自然数),表示为t1,t2,t3,......tn。将通过步骤S101得到的若干个分词数据与预先获取的不良网页特征词进行比对,检测出这些分词数据中哪些分词数据为不良网页特征词,从而获知待检测网页所包括的不良网页特征词。若检测获知待检测网页中不存在不良网页特征词,则可判定待检测网页为正常网页。若检测获知待检测网页的分词数据集合中有h个分词数据与预先获取的不良网页特征词相匹配,例如将这h个数据分别记为T1,T2,T3,......Th,其中h为小于等于m、且小于等于n的自然数,执行步骤S103。
步骤S103,根据与所述待检测网页的不良网页特征词对应的不良网页概率值,获取所述待检测网页的不良网页判定概率;
具体地,通过步骤S102获取的待检测网页的不良网页特征词T1,T2,T3,......Th属于预先获取的不良网页特征词t1,t2,t3,......tn中的一部分或全部,从预先获取的分别与t1,t2,t3,......tn相对应的不良网页概率值中查找分别与T1,T2,T3,......Th对应的不良网页概率值,记为P(A|Ti),用于表示在网页中出现不良特征词Ti时,该网页为不良网页的概率。针对待检测网页的h个不良网页特征词T1,T2,T3,......Th,分别获取h个不良网页概率值P(A|T1),P(A|T2),......,P(A|Th),例如记为P1,P2,P3,......,Ph。例如按照下述公式,计算同时存在不良网页特征词T1,T2,T3,......Th时,待检测网页中为不良网页的概率,即不良网页判定概率P(A|T1,T2,T3,......Th):
P(A|T1,T2,T3,......Th)=(P1×P2×......Ph)/[P1×P2×......Ph+(1-P1)×(1-P2)×......(1-Ph)]。
步骤S104,若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页。
其中,第一预定阈值大于等于0且小于等于1,具体数值可根据需要或经验设定。
根据上述实施例的不良网页检测方法,预先获取有不良网页特征词和对应的不良网页概率值,在对待检测网页进行检测时,通过对待检测网页的内容进行分词处理,并通过将得到的分词数据与预先获取的不良网页特征词相比较,获知待检测网页中是否存在、以及存在哪些不良网页特征词,并根据与这些不良网页特征词对应的不良网页概率值计算待检测网页的不良网页判定概率,从而根据待检测网页的不良网页判定概率完成不良网页检测。通过采用上述不良网页检测方法,一方面,通过将待检测网页的文本内容与能够充分表征不良网页的特征词进行对照,来判定待检测网页是否为不良网页,使得检测结果准确可靠;另一方面,在检测过程中,无需对待检测网页中的图片、音视频文件等进行处理,实现方便、计算简单,因此,上述实施例的不良网页检测方法实现了快速、准确的不良网页检测。
进一步地,在上述实施例的不良网页检测方法中,所述根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词的步骤之前,还包括:
获取不良网页特征词列表,所述不良网页特征词列表包括所述预先获取的不良网页特征词,以及分别与各预先获取的不良网页特征词对应的不良网页概率值;
相应地,所述根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词的步骤具体包括:
将所述分词数据与预先获取的不良网页特征词列表进行匹配,获取所述分词数据包括的不良网页特征词。
进一步地,在上述实施例的不良网页检测方法中,所述获取不良网页特征词列表的步骤具体包括:
获取不良网页样本集和正常网页样本集;
对所述正常网页样本集中各正常网页样本进行分词处理,获取各正常网页样本的分词数据,对所述各正常网页样本的分词数据进行词频-反文档频率统计,并根据所述词频-反文档频率的统计值获取预定数量的不良网页特征词;
对所述不良网页样本集中各不良网页样本进行分词处理,获取各不良网页样本的分词数据;
获取所述预定数量的不良网页特征词中,各不良网页特征词在所述正常网页样本的分词数据中出现的第一概率,以及在所述不良网页样本的分词数据中出现的第二概率,并根据所述第一概率和所述第二概率获取各不良网页特征词对应的不良网页概率值;
根据所述预定数量的不良网页特征词和与各不良网页特征词对应的所述不良网页概率值,生成所述不良网页特征词列表。
具体地,上述获取不良网页特征词列表的过程例如为生成贝叶斯分类器的训练过程,可离线实现。其中,生成贝叶斯分类器的训练过程例如包括对不良网页样本集和正常网页样本集进行统计学习,形成贝叶斯分类模型以及确定第一预定阈值。具体说明如下:
首先,对正常网页样本集中的所有样本分别进行分词处理,并且在处理的同时去掉杂讯,比如:HTML标签、脚本代码、停用词等等。对分词处理后获得的所有独立词组(即分词数据)都进行词频-反文档频率(TermFrequency-Inverse Document Frequency,TF-IDF)统计,然后将TF-IDF值从大到小排序的前N位的独立词组作为贝叶斯分类统计所用的特征词列表,相当于一个N维向量空间。这N个独立词组即作为不良网页特征词。
对不良网页样本集中的所有样本也进行分词处理。对正常网页样本集的分词数据和不良网页样本集的分词数据进行贝叶斯分类统计学习,其中向量空间为上述形成的N维向量空间,每一维向量为一个不良网页特征词。
计算每个不良网页特征词的贝叶斯概率值,作为该不良网页特征词在N维向量空间的特征值,从而将生成的N维特征值作为贝叶斯分类器。具体统计训练过程的算法描述如下:
步骤S201,通过两个哈希表来表示特征词列表构成的N维向量空间,其中一个哈希表对应正常网页样本集(记为hashtable_good);另一个哈希表对应不良网页样本集(记为hashtable_bad)。
步骤S202,上述两个哈希表中每项存储的是不良网页特征词及与该不良网页特征词在对应的样本集中出现的概率。具体地,统计各不良网页特征词在正常网页样本集/不良网页样本集中的词频(以下简称为不良网页特征词的词频),从而计算每个不良网页特征词在对应的样本集中出现的概率P=(该不良网页特征词的词频)/(对应的哈希表中所有不良网页特征词的词频的总和)。因此,将hashtable_good表,不良网页特征词ti在正常样本集中出现的概率,即第一概率记为P1(ti),将hashtable_bad表,不良网页特征词ti在不良样本集中出现的概率,即第二概率记为P2(ti)。
步骤S203,根据P1(ti)和P2(ti)计算当待检测网页中出现不良网页特征词ti时,该网页为不良网页的概率,即该不良网页特征词的不良网页概率值。具体地,例如以A事件表示网页为不良网页,则在假设不良网页与正常网页各自出现的先验概率相等的情况下,P(A|ti)=P2(ti)/[(P1(ti)+P2(ti)]。此外,也可根据需要假设不良网页与正常网页各自出现的先验概率不相等,则可按照常用的贝叶斯概率算法计算P(A|ti)。
步骤S204,通过上述步骤S203计算得出分别对应N个不良网页特征词的不良网页概率值,将N个不良网页特征词与不良网页概率值之间的映射关系保存在一个新建的哈希表中,该哈希表即为不良网页特征词列表,记为(hastable_probability)。
至此,整个离线流程中,针对正常网页样本集和不良网页样本集的训练过程结束。根据将哈希表hashtable_probability作为贝叶斯分类器,就可以估计新到的待检测网页为不良网页的可能性,即待检测网页的不良网页判定概率。
根据上述实施例的不良网页检测方法,通过将贝叶斯分类算法应用于不良网页的检测,提供了较好的分类效果和快速的分类处理。
进一步地,还可根据对待检测网页的检测结果对正常网页样本集或不良网页样本集进行更新。
进一步地,在上述实施例的不良网页检测方法中,在根据离线生成的贝叶斯分类器对待检测网页进行分类后,还可进一步通过有效测度和/或网页级别对分类结果进行优化,具体说明如下。
所述若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页的步骤具体包括:
若所述不良网页判定概率大于第一预定阈值,获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值;
若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页。
具体地,统计待检测网页的各不良网页特征词在待检测网页中的出现次数,例如针对不良网页特征词T1,T2,T3,......Th,对应的出现次数分别为X1,X2,X3,......Xh;各不良网页特征词对应的字符长度分别为L1,L2,L3,......Lh,则待检测网页的不良网页特征词的总字符长度:
Length_match=X1×L1+X2×L2+......Xh×Lh。
此外还计算进行分词处理的待检测网页的文本长度,例如若仅对待检测网页的内容摘要进行分词处理,则计算待检测网页的内容摘要的字符长度;若对待检测网页的全部文本进行分词处理,则计算待检测网页的全部文本的字符长度,记为Length_all,若Length_match/Length_all大于第二预定阈值,则判定待检测网页为不良网页,否则,判定待检测网页为正常网页。其中,第二预定阈值需满足大小等于0且小于等于1,具体数值可根据需要和经验进行设定。
通过上述进一步判定,能够避免因正常网页中偶而出现不良网页特征词而将正常网页误判为不良网页,进一步提高了不良网页检测准确性。
进一步地,所述若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页具体包括:
若所述比值大于第二预定阈值,获取所述待检测网页的网页级别;
若所述网页级别不大于第三预定阈值,则判定所述待检测网页为不良网页。
其中,网页级别(Page Rank,PR)算法是现有技术中用于对互联网上网页的质量进行计算和评分的算法,该算法考虑了多方面的因素,包括页面链接、元数据、被引用率等等,然后对该网页计算后的评分结果就是网页级别,PR值。PR值范围为[0,1],如果值越高,则认为网页品质越好。统计结果表明,超过90%以上的不良网站的PR值是等于0的。因此,通过进一步检查网页PR值是否大于第三预定阈值(例如为0),可以过滤一些被误判为不良网页的正规网页,如正规的两性健康网页、成人用品网页等等。其中,第二预定阈值需满足大小等于0且小于等于1,具体数值可根据需要和经验进行设定。
图2为本发明实施例不良网页检测设备的结构示意图。如图2所示,该不良网页检测设备包括:
第一处理模块21,用于对待检测网页进行分词处理,获取所述待检测网页的分词数据;
第二处理模块22,用于根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词;
第三处理模块23,用于根据与所述待检测网页的不良网页特征词对应的不良网页概率值,获取所述待检测网页的不良网页判定概率;
第四处理模块24,用于若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页。
上述实施例的不良网页检测设备执行不良网页检测的具体流程与前述实施例的不良网页检测方法相同,故此处不再赘述。
根据上述实施例的不良网页检测设备,预先获取有不良网页特征词和对应的不良网页概率值,在对待检测网页进行检测时,通过对待检测网页的内容进行分词处理,并通过将得到的分词数据与预先获取的不良网页特征词相比较,获知待检测网页中是否存在、以及存在哪些不良网页特征词,并根据与这些不良网页特征词对应的不良网页概率值计算待检测网页的不良网页判定概率,从而根据待检测网页的不良网页判定概率完成不良网页检测。通过采用上述不良网页检测设备,一方面,通过将待检测网页的文本内容与能够充分表征不良网页的特征词进行对照,来判定待检测网页是否为不良网页,使得检测结果准确可靠;另一方面,在检测过程中,无需对待检测网页中的图片、音视频文件等进行处理,实现方便、计算简单,因此,上述实施例的不良网页检测设备实现了快速、准确的不良网页检测。
进一步地,在上述实施例的不良网页检测设备中,还包括:
第五处理模块,用于获取不良网页特征词列表,所述不良网页特征词列表包括所述预先获取的不良网页特征词,以及分别与各预先获取的不良网页特征词对应的不良网页概率值;
相应地,所述第二处理模块还用于将所述分词数据与预先获取的不良网页特征词列表进行匹配,获取所述分词数据包括的不良网页特征词。
进一步地,在上述实施例的不良网页检测设备中,所述第五处理模块包括:
第一处理单元,用于获取不良网页样本集和正常网页样本集;
第二处理单元,用于对所述正常网页样本集中各正常网页样本进行分词处理,获取各正常网页样本的分词数据,对所述各正常网页样本的分词数据进行词频-反文档频率统计,并根据所述词频-反文档频率的统计值获取预定数量的不良网页特征词;
第三处理单元,用于对所述不良网页样本集中各不良网页样本进行分词处理,获取各不良网页样本的分词数据;
第四处理单元,用于获取所述预定数量的不良网页特征词中,各不良网页特征词在所述正常网页样本的分词数据中出现的第一概率,以及在所述不良网页样本的分词数据中出现的第二概率,并根据所述第一概率和所述第二概率获取各不良网页特征词对应的不良网页概率值;
第五处理单元,用于根据所述预定数量的不良网页特征词和与各不良网页特征词对应的所述不良网页概率值,生成所述不良网页特征词列表。
进一步地,在上述实施例的不良网页检测设备中,所述第四处理模块还用于若所述不良网页判定概率大于第一预定阈值,获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值;若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页。
进一步地,在上述实施例的不良网页检测设备中,所述第四处理模块还用于若所述比值大于第二预定阈值,获取所述待检测网页的网页级别;若所述网页级别不大于第三预定阈值,则判定所述待检测网页为不良网页。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种不良网页检测方法,其特征在于,包括:
对待检测网页进行分词处理,获取所述待检测网页的分词数据;
根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词;
根据与所述待检测网页的不良网页特征词对应的不良网页概率值,获取所述待检测网页的不良网页判定概率;
若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页。
2.根据权利要求1所述不良网页检测方法,其特征在于,所述根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词的步骤之前,还包括:
获取不良网页特征词列表,所述不良网页特征词列表包括所述预先获取的不良网页特征词,以及分别与各预先获取的不良网页特征词对应的不良网页概率值;
相应地,所述根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词的步骤具体包括:
将所述分词数据与预先获取的不良网页特征词列表进行匹配,获取所述分词数据包括的不良网页特征词。
3.根据权利要求2所述不良网页检测方法,其特征在于,所述获取不良网页特征词列表的步骤具体包括:
获取不良网页样本集和正常网页样本集;
对所述正常网页样本集中各正常网页样本进行分词处理,获取各正常网页样本的分词数据,对所述各正常网页样本的分词数据进行词频-反文档频率统计,并根据所述词频-反文档频率的统计值获取预定数量的不良网页特征词;
对所述不良网页样本集中各不良网页样本进行分词处理,获取各不良网页样本的分词数据;
获取所述预定数量的不良网页特征词中,各不良网页特征词在所述正常网页样本的分词数据中出现的第一概率,以及在所述不良网页样本的分词数据中出现的第二概率,并根据所述第一概率和所述第二概率获取各不良网页特征词对应的不良网页概率值;
根据所述预定数量的不良网页特征词和与各不良网页特征词对应的所述不良网页概率值,生成所述不良网页特征词列表。
4.根据权利要求1-3任一所述不良网页检测方法,其特征在于,所述若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页的步骤具体包括:
若所述不良网页判定概率大于第一预定阈值,获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值;
若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页。
5.根据权利要求4所述不良网页检测方法,其特征在于,所述若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页具体包括:
若所述比值大于第二预定阈值,获取所述待检测网页的网页级别;
若所述网页级别不大于第三预定阈值,则判定所述待检测网页为不良网页。
6.一种不良网页检测设备,其特征在于,包括:
第一处理模块,用于对待检测网页进行分词处理,获取所述待检测网页的分词数据;
第二处理模块,用于根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词;
第三处理模块,用于根据与所述待检测网页的不良网页特征词对应的不良网页概率值,获取所述待检测网页的不良网页判定概率;
第四处理模块,用于若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页。
7.根据权利要求6所述的不良网页检测设备,其特征在于,还包括:
第五处理模块,用于获取不良网页特征词列表,所述不良网页特征词列表包括所述预先获取的不良网页特征词,以及分别与各预先获取的不良网页特征词对应的不良网页概率值;
相应地,所述第二处理模块还用于将所述分词数据与预先获取的不良网页特征词列表进行匹配,获取所述分词数据包括的不良网页特征词。
8.根据权利要求7所述的不良网页检测设备,其特征在于,所述第五处理模块包括:
第一处理单元,用于获取不良网页样本集和正常网页样本集;
第二处理单元,用于对所述正常网页样本集中各正常网页样本进行分词处理,获取各正常网页样本的分词数据,对所述各正常网页样本的分词数据进行词频-反文档频率统计,并根据所述词频-反文档频率的统计值获取预定数量的不良网页特征词;
第三处理单元,用于对所述不良网页样本集中各不良网页样本进行分词处理,获取各不良网页样本的分词数据;
第四处理单元,用于获取所述预定数量的不良网页特征词中,各不良网页特征词在所述正常网页样本的分词数据中出现的第一概率,以及在所述不良网页样本的分词数据中出现的第二概率,并根据所述第一概率和所述第二概率获取各不良网页特征词对应的不良网页概率值;
第五处理单元,用于根据所述预定数量的不良网页特征词和与各不良网页特征词对应的所述不良网页概率值,生成所述不良网页特征词列表。
9.根据权利要求6-8任一所述的不良网页检测设备,其特征在于,所述第四处理模块还用于若所述不良网页判定概率大于第一预定阈值,获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值;若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页。
10.根据权利要求9所述的不良网页检测设备,其特征在于,所述第四处理模块还用于若所述比值大于第二预定阈值,获取所述待检测网页的网页级别;若所述网页级别不大于第三预定阈值,则判定所述待检测网页为不良网页。
CN201210104059.6A 2012-04-10 2012-04-10 不良网站检测方法及设备 Active CN102663093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210104059.6A CN102663093B (zh) 2012-04-10 2012-04-10 不良网站检测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210104059.6A CN102663093B (zh) 2012-04-10 2012-04-10 不良网站检测方法及设备

Publications (2)

Publication Number Publication Date
CN102663093A true CN102663093A (zh) 2012-09-12
CN102663093B CN102663093B (zh) 2014-07-09

Family

ID=46772584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210104059.6A Active CN102663093B (zh) 2012-04-10 2012-04-10 不良网站检测方法及设备

Country Status (1)

Country Link
CN (1) CN102663093B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020123A (zh) * 2012-11-16 2013-04-03 中国科学技术大学 一种搜索不良视频网站的方法
CN103475642A (zh) * 2013-08-22 2013-12-25 北京奇虎科技有限公司 恶意论坛的识别方法及装置
CN103839037A (zh) * 2012-11-23 2014-06-04 华中科技大学 一种基于众核和gpu的网络视频流不良内容检测方法和系统
CN103841076A (zh) * 2012-11-20 2014-06-04 天讯天网(福建)网络科技有限公司 一种色情网页监控方法
WO2014194682A1 (en) * 2013-06-03 2014-12-11 Tencent Technology (Shenzhen) Company Limited Apparatuses and methods for preventing game cheating by plug-ins
CN104394158A (zh) * 2014-12-01 2015-03-04 浪潮电子信息产业股份有限公司 一种信息安全过滤方法
CN105357588A (zh) * 2015-11-03 2016-02-24 腾讯科技(深圳)有限公司 数据显示方法及终端
CN105468584A (zh) * 2015-12-31 2016-04-06 武汉鸿瑞达信息技术有限公司 文本中不良文字信息的过滤方法及过滤系统
WO2017028789A1 (zh) * 2015-08-17 2017-02-23 北京神州绿盟信息安全科技股份有限公司 网络攻击检测方法和设备
CN106484919A (zh) * 2016-11-15 2017-03-08 任子行网络技术股份有限公司 一种基于网页独立词的行业网站分类方法和系统
CN107016298A (zh) * 2017-03-27 2017-08-04 北京神州绿盟信息安全科技股份有限公司 一种网页篡改监测方法及装置
CN107103012A (zh) * 2016-01-28 2017-08-29 阿里巴巴集团控股有限公司 识别违禁网页的方法、装置及服务器
CN107480123A (zh) * 2017-06-28 2017-12-15 武汉斗鱼网络科技有限公司 一种垃圾弹幕的识别方法、装置及计算机设备
CN107679075A (zh) * 2017-08-25 2018-02-09 北京德塔精要信息技术有限公司 网络监控方法和设备
CN107729924A (zh) * 2017-09-25 2018-02-23 平安科技(深圳)有限公司 图片复审概率区间生成方法及图片复审判定方法
CN107992578A (zh) * 2017-12-06 2018-05-04 任明和 敏感视频源的数据库自动检测方法
CN108055190A (zh) * 2017-11-13 2018-05-18 阿里巴巴集团控股有限公司 赌博群组的识别方法和装置
CN108960952A (zh) * 2017-05-24 2018-12-07 阿里巴巴集团控股有限公司 一种违禁信息的检测方法及装置
CN109063117A (zh) * 2018-07-31 2018-12-21 中南大学 一种基于特征抽取的网络安全博客分类方法及系统
CN109640174A (zh) * 2019-01-28 2019-04-16 Oppo广东移动通信有限公司 视频处理方法及相关设备
CN111324831A (zh) * 2018-12-17 2020-06-23 中国移动通信集团北京有限公司 一种欺诈网站的检测方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761204A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机系统工程有限公司 在互联网上堵截色情图像与不良信息的系统
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101324888A (zh) * 2007-06-13 2008-12-17 北京恒金恒泰信息技术有限公司 基于ie的过滤色情软件插件
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN101795272A (zh) * 2010-01-22 2010-08-04 联想网御科技(北京)有限公司 非法网站过滤方法及装置
CN102170640A (zh) * 2011-06-01 2011-08-31 南通海韵信息技术服务有限公司 基于模式库的智能手机端不良内容网站鉴别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761204A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机系统工程有限公司 在互联网上堵截色情图像与不良信息的系统
CN101324888A (zh) * 2007-06-13 2008-12-17 北京恒金恒泰信息技术有限公司 基于ie的过滤色情软件插件
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN101795272A (zh) * 2010-01-22 2010-08-04 联想网御科技(北京)有限公司 非法网站过滤方法及装置
CN102170640A (zh) * 2011-06-01 2011-08-31 南通海韵信息技术服务有限公司 基于模式库的智能手机端不良内容网站鉴别方法

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020123B (zh) * 2012-11-16 2016-08-24 中国科学技术大学 一种搜索不良视频网站的方法
CN103020123A (zh) * 2012-11-16 2013-04-03 中国科学技术大学 一种搜索不良视频网站的方法
CN103841076A (zh) * 2012-11-20 2014-06-04 天讯天网(福建)网络科技有限公司 一种色情网页监控方法
CN103839037A (zh) * 2012-11-23 2014-06-04 华中科技大学 一种基于众核和gpu的网络视频流不良内容检测方法和系统
CN103839037B (zh) * 2012-11-23 2016-12-21 华中科技大学 一种基于众核和gpu的网络视频流不良内容检测方法和系统
CN104217156A (zh) * 2013-06-03 2014-12-17 腾讯科技(深圳)有限公司 防止游戏外挂的方法及装置
CN104217156B (zh) * 2013-06-03 2018-04-20 腾讯科技(深圳)有限公司 防止游戏外挂的方法及装置
WO2014194682A1 (en) * 2013-06-03 2014-12-11 Tencent Technology (Shenzhen) Company Limited Apparatuses and methods for preventing game cheating by plug-ins
CN103475642A (zh) * 2013-08-22 2013-12-25 北京奇虎科技有限公司 恶意论坛的识别方法及装置
CN104394158A (zh) * 2014-12-01 2015-03-04 浪潮电子信息产业股份有限公司 一种信息安全过滤方法
US10645105B2 (en) 2015-08-17 2020-05-05 NSFOCUS Information Technology Co., Ltd. Network attack detection method and device
WO2017028789A1 (zh) * 2015-08-17 2017-02-23 北京神州绿盟信息安全科技股份有限公司 网络攻击检测方法和设备
CN105357588A (zh) * 2015-11-03 2016-02-24 腾讯科技(深圳)有限公司 数据显示方法及终端
CN105468584A (zh) * 2015-12-31 2016-04-06 武汉鸿瑞达信息技术有限公司 文本中不良文字信息的过滤方法及过滤系统
CN107103012A (zh) * 2016-01-28 2017-08-29 阿里巴巴集团控股有限公司 识别违禁网页的方法、装置及服务器
CN106484919A (zh) * 2016-11-15 2017-03-08 任子行网络技术股份有限公司 一种基于网页独立词的行业网站分类方法和系统
CN107016298A (zh) * 2017-03-27 2017-08-04 北京神州绿盟信息安全科技股份有限公司 一种网页篡改监测方法及装置
CN107016298B (zh) * 2017-03-27 2020-07-10 北京神州绿盟信息安全科技股份有限公司 一种网页篡改监测方法及装置
CN108960952A (zh) * 2017-05-24 2018-12-07 阿里巴巴集团控股有限公司 一种违禁信息的检测方法及装置
CN107480123A (zh) * 2017-06-28 2017-12-15 武汉斗鱼网络科技有限公司 一种垃圾弹幕的识别方法、装置及计算机设备
CN107480123B (zh) * 2017-06-28 2020-10-16 武汉斗鱼网络科技有限公司 一种垃圾弹幕的识别方法、装置及计算机设备
WO2019001075A1 (zh) * 2017-06-28 2019-01-03 武汉斗鱼网络科技有限公司 一种垃圾弹幕的识别方法、装置及计算机设备
CN107679075A (zh) * 2017-08-25 2018-02-09 北京德塔精要信息技术有限公司 网络监控方法和设备
CN107679075B (zh) * 2017-08-25 2020-06-02 北京德塔精要信息技术有限公司 网络监控方法和设备
CN107729924B (zh) * 2017-09-25 2019-02-19 平安科技(深圳)有限公司 图片复审概率区间生成方法及图片复审判定方法
CN107729924A (zh) * 2017-09-25 2018-02-23 平安科技(深圳)有限公司 图片复审概率区间生成方法及图片复审判定方法
CN108055190A (zh) * 2017-11-13 2018-05-18 阿里巴巴集团控股有限公司 赌博群组的识别方法和装置
CN107992578B (zh) * 2017-12-06 2019-11-22 山西睿信智达传媒科技股份有限公司 敏感视频源的数据库自动检测方法
CN107992578A (zh) * 2017-12-06 2018-05-04 任明和 敏感视频源的数据库自动检测方法
CN109063117A (zh) * 2018-07-31 2018-12-21 中南大学 一种基于特征抽取的网络安全博客分类方法及系统
CN109063117B (zh) * 2018-07-31 2021-01-01 中南大学 一种基于特征抽取的网络安全博客分类方法及系统
CN111324831A (zh) * 2018-12-17 2020-06-23 中国移动通信集团北京有限公司 一种欺诈网站的检测方法及装置
CN109640174A (zh) * 2019-01-28 2019-04-16 Oppo广东移动通信有限公司 视频处理方法及相关设备

Also Published As

Publication number Publication date
CN102663093B (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
CN102663093B (zh) 不良网站检测方法及设备
CN110516067B (zh) 基于话题检测的舆情监控方法、系统及存储介质
CN111090776B (zh) 一种视频审核的方法、装置、审核服务器和存储介质
Go et al. Twitter sentiment analysis
CN110688526A (zh) 基于关键帧识别和音频文本化的短视频推荐方法及系统
US10452725B2 (en) Web page recognizing method and apparatus
CN110727880B (zh) 一种基于词库与词向量模型的敏感语料检测方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
KR20110115542A (ko) 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법
CN102096680A (zh) 信息有效性分析的方法和装置
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
Sun et al. Identifying and correcting mislabeled training instances
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
US9514223B1 (en) Synonym identification based on categorical contexts
CN103942191A (zh) 一种基于内容的恐怖文本识别方法
CN109614626A (zh) 基于万有引力模型的关键词自动抽取方法
Simm et al. Classification of short text comments by sentiment and actionability for voiceyourview
CN107544961A (zh) 一种社交媒体评论的情感分析方法、设备及其存储设备
Kanayama et al. Unsupervised lexicon induction for clause-level detection of evaluations
CN112711693B (zh) 一种基于多特征融合的诉讼线索挖掘方法及系统
CN106708950B (zh) 用于智能机器人自学习系统的数据处理方法及装置
CN107766419B (zh) 一种基于阈值去噪的TextRank文档摘要方法及装置
CN110287302B (zh) 一种国防科技领域开源信息置信度确定方法及系统
CN110110252B (zh) 一种视听节目识别方法、装置及存储介质
CN104408036A (zh) 关联话题的识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210305

Address after: 100190 room 506, building 2, courtyard 4, South 4th Street, Zhongguancun, Haidian District, Beijing

Patentee after: CHINA INTERNET NETWORK INFORMATION CENTER

Address before: 100190 No. four, four South Street, Haidian District, Beijing, Zhongguancun

Patentee before: Computer Network Information Center, Chinese Academy of Sciences