CN102663093A

CN102663093A - 不良网站检测方法及设备

Info

Publication number: CN102663093A
Application number: CN2012101040596A
Authority: CN
Inventors: 洪博; 耿光刚; 王利明
Original assignee: Computer Network Information Center of CAS
Current assignee: China Internet Network Information Center
Priority date: 2012-04-10
Filing date: 2012-04-10
Publication date: 2012-09-12
Anticipated expiration: 2032-04-10
Also published as: CN102663093B

Abstract

本发明提供一种不良网页检测方法及设备。该方法包括：对待检测网页进行分词处理，获取所述待检测网页的分词数据；根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词；根据与所述待检测网页的不良网页特征词对应的不良网页概率值，获取所述待检测网页的不良网页判定概率；若所述不良网页判定概率大于第一预定阈值，则判定所述待检测网页为不良网页。本发明提供的不良网页检测方法及设备，能够实现快速、有效的不良网页检测。

Description

不良网站检测方法及设备

技术领域

本发明涉及信息处理技术，尤其涉及一种不良网站检测方法及设备，属于网络安全技术领域。

背景技术

随着网络技术的逐渐发展，网页已成为人们获取各类信息的重要途径。然而大量色情网站的出现，不仅影响了网络环境，更时刻威胁网民特别是青少年网民的身心健康，所以如何能够快速、准确的对色情网站进行检测已成为色情网站检测领域的一个重要课题。

现有色情网页检测技术主要采取网页URL黑名单过滤技术和网页页面内容检测技术。网页URL黑名单过滤技术主要是根据色情网页URL中可能出现的敏感特征词和已获知的色情网页URL建立黑名单，并根据黑名单对网络监测、用户举报等方式提供的可疑色情网页的URL进行检测。网页页面内容检测主要是针对网页内面内容，如文本、图片、音频、视频等进行全面检测。

在实际应用中，网页URL黑名单过滤技术因需要预先建立黑名单，所以对于新产生的色情词汇、色情网页的检测有一定的滞后性，而网页页面内容检测技术，由于对图片、音频、视频的识别技术本身还不成熟，所以总体检测误差较大，并且由于处理元素较多，导致计算量大，检测效率较低。因此，基于目前的色情网页检测技术，无法实现快速、准确的色情网页检测。

发明内容

针对现有技术中的缺陷，本发明提供一种不良网页检测方法及设备，用以实现快速、准确的不良网页检测。

根据本发明的一方面，提供一种不良网页检测方法，包括：

对待检测网页进行分词处理，获取所述待检测网页的分词数据；

根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词；

根据与所述待检测网页的不良网页特征词对应的不良网页概率值，获取所述待检测网页的不良网页判定概率；

若所述不良网页判定概率大于第一预定阈值，则判定所述待检测网页为不良网页。

进一步地，在上述不良网页检测方法中，所述根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词的步骤之前，还包括：

获取不良网页特征词列表，所述不良网页特征词列表包括所述预先获取的不良网页特征词，以及分别与各预先获取的不良网页特征词对应的不良网页概率值；

相应地，所述根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词的步骤具体包括：

将所述分词数据与预先获取的不良网页特征词列表进行匹配，获取所述分词数据包括的不良网页特征词。

进一步地，在上述不良网页检测方法中，所述获取不良网页特征词列表的步骤具体包括：

获取不良网页样本集和正常网页样本集；

对所述正常网页样本集中各正常网页样本进行分词处理，获取各正常网页样本的分词数据，对所述各正常网页样本的分词数据进行词频-反文档频率统计，并根据所述词频-反文档频率的统计值获取预定数量的不良网页特征词；

对所述不良网页样本集中各不良网页样本进行分词处理，获取各不良网页样本的分词数据；

获取所述预定数量的不良网页特征词中，各不良网页特征词在所述正常网页样本的分词数据中出现的第一概率，以及在所述不良网页样本的分词数据中出现的第二概率，并根据所述第一概率和所述第二概率获取各不良网页特征词对应的不良网页概率值；

根据所述预定数量的不良网页特征词和与各不良网页特征词对应的所述不良网页概率值，生成所述不良网页特征词列表。

进一步地，在上述不良网页检测方法中，所述若所述不良网页判定概率大于第一预定阈值，则判定所述待检测网页为不良网页的步骤具体包括：

若所述不良网页判定概率大于第一预定阈值，获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值；

若所述比值大于第二预定阈值，则判定所述待检测网页为不良网页。

进一步地，在上述不良网页检测方法中，所述若所述比值大于第二预定阈值，则判定所述待检测网页为不良网页具体包括：

若所述比值大于第二预定阈值，获取所述待检测网页的网页级别；

若所述网页级别不大于第三预定阈值，则判定所述待检测网页为不良网页。

根据本发明的另一方面，提供一种不良网页检测设备，包括：

第一处理模块，用于对待检测网页进行分词处理，获取所述待检测网页的分词数据；

第二处理模块，用于根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词；

第三处理模块，用于根据与所述待检测网页的不良网页特征词对应的不良网页概率值，获取所述待检测网页的不良网页判定概率；

第四处理模块，用于若所述不良网页判定概率大于第一预定阈值，则判定所述待检测网页为不良网页。

进一步地，在上述不良网页检测设备中，还包括：

第五处理模块，用于获取不良网页特征词列表，所述不良网页特征词列表包括所述预先获取的不良网页特征词，以及分别与各预先获取的不良网页特征词对应的不良网页概率值；

相应地，所述第二处理模块还用于将所述分词数据与预先获取的不良网页特征词列表进行匹配，获取所述分词数据包括的不良网页特征词。

进一步地，在上述不良网页检测设备中，所述第五处理模块包括：

第一处理单元，用于获取不良网页样本集和正常网页样本集；

第二处理单元，用于对所述正常网页样本集中各正常网页样本进行分词处理，获取各正常网页样本的分词数据，对所述各正常网页样本的分词数据进行词频-反文档频率统计，并根据所述词频-反文档频率的统计值获取预定数量的不良网页特征词；

第三处理单元，用于对所述不良网页样本集中各不良网页样本进行分词处理，获取各不良网页样本的分词数据；

第四处理单元，用于获取所述预定数量的不良网页特征词中，各不良网页特征词在所述正常网页样本的分词数据中出现的第一概率，以及在所述不良网页样本的分词数据中出现的第二概率，并根据所述第一概率和所述第二概率获取各不良网页特征词对应的不良网页概率值；

第五处理单元，用于根据所述预定数量的不良网页特征词和与各不良网页特征词对应的所述不良网页概率值，生成所述不良网页特征词列表。

进一步地，在上述不良网页检测设备中，所述第四处理模块还用于若所述不良网页判定概率大于第一预定阈值，获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值；若所述比值大于第二预定阈值，则判定所述待检测网页为不良网页。

进一步地，在上述不良网页检测设备中，所述第四处理模块还用于若所述比值大于第二预定阈值，获取所述待检测网页的网页级别；若所述网页级别不大于第三预定阈值，则判定所述待检测网页为不良网页。

根据本发明提供的不良网页检测方法及设备，一方面，通过将待检测网页的文本内容与能够充分表征不良网页的不良网页特征词进行对照，来判定待检测网页是否为不良网页，使得检测结果准确可靠；另一方面，在检测过程中，无需对待检测网页中的图片、音视频文件等进行处理，实现方便、计算简单，因此，实现了快速、准确的不良网页检测。

附图说明

图1为本发明实施例不良网页检测方法的流程示意图。

图2为本发明实施例不良网页检测设备的结构示意图。

具体实施方式

本发明实施例提供的不良网页检测方法具体可以应用于对不良网站的检测，不良网站具体可以包括色情、赌博、暴力以及反动等网站。可以通过不良网页检测装置来执行，该不良网页检测装置具体可以通过软和/或硬件的方式来实现。

图1为本发明实施例不良网页检测方法的流程示意图。如图1所示，该不良网页检测方法包括以下步骤：

步骤S101，对待检测网页进行分词处理，获取所述待检测网页的分词数据；

具体地，可以采用常用的任意分词技术对待检测网页进行分词处理，例如正向最大匹配法、反向最大匹配法和最短路径分词法等。而且，还可以根据预设条件，选择性地对待检测网页的主题名称、内容摘要或网页的全部文本进行分词处理，获取分词数据。所获取的分词数据例如为m个(m为大于等于2的任意自然数)，形成为一个分词数据集合{C1，C2，C3，......，Cm}，其中C1，C2，C3，......，Cm均为分词数据。

步骤S102，根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词；

具体地，预先获取的不良网页特征词例如通过对已知的不良网站和正常网站进行统计获得，预先获取的不良网页特征词的数量例如为n个(其中n为大于等于2的任意自然数)，表示为t1，t2，t3，......tn。将通过步骤S101得到的若干个分词数据与预先获取的不良网页特征词进行比对，检测出这些分词数据中哪些分词数据为不良网页特征词，从而获知待检测网页所包括的不良网页特征词。若检测获知待检测网页中不存在不良网页特征词，则可判定待检测网页为正常网页。若检测获知待检测网页的分词数据集合中有h个分词数据与预先获取的不良网页特征词相匹配，例如将这h个数据分别记为T1，T2，T3，......Th，其中h为小于等于m、且小于等于n的自然数，执行步骤S103。

步骤S103，根据与所述待检测网页的不良网页特征词对应的不良网页概率值，获取所述待检测网页的不良网页判定概率；

具体地，通过步骤S102获取的待检测网页的不良网页特征词T1，T2，T3，......Th属于预先获取的不良网页特征词t1，t2，t3，......tn中的一部分或全部，从预先获取的分别与t1，t2，t3，......tn相对应的不良网页概率值中查找分别与T1，T2，T3，......Th对应的不良网页概率值，记为P(A|Ti)，用于表示在网页中出现不良特征词Ti时，该网页为不良网页的概率。针对待检测网页的h个不良网页特征词T1，T2，T3，......Th，分别获取h个不良网页概率值P(A|T1)，P(A|T2)，......，P(A|Th)，例如记为P1，P2，P3，......，Ph。例如按照下述公式，计算同时存在不良网页特征词T1，T2，T3，......Th时，待检测网页中为不良网页的概率，即不良网页判定概率P(A|T1，T2，T3，......Th)：

P(A|T1，T2，T3，......Th)＝(P1×P2×......Ph)/[P1×P2×......Ph+(1-P1)×(1-P2)×......(1-Ph)]。

步骤S104，若所述不良网页判定概率大于第一预定阈值，则判定所述待检测网页为不良网页。

其中，第一预定阈值大于等于0且小于等于1，具体数值可根据需要或经验设定。

根据上述实施例的不良网页检测方法，预先获取有不良网页特征词和对应的不良网页概率值，在对待检测网页进行检测时，通过对待检测网页的内容进行分词处理，并通过将得到的分词数据与预先获取的不良网页特征词相比较，获知待检测网页中是否存在、以及存在哪些不良网页特征词，并根据与这些不良网页特征词对应的不良网页概率值计算待检测网页的不良网页判定概率，从而根据待检测网页的不良网页判定概率完成不良网页检测。通过采用上述不良网页检测方法，一方面，通过将待检测网页的文本内容与能够充分表征不良网页的特征词进行对照，来判定待检测网页是否为不良网页，使得检测结果准确可靠；另一方面，在检测过程中，无需对待检测网页中的图片、音视频文件等进行处理，实现方便、计算简单，因此，上述实施例的不良网页检测方法实现了快速、准确的不良网页检测。

进一步地，在上述实施例的不良网页检测方法中，所述根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词的步骤之前，还包括：

进一步地，在上述实施例的不良网页检测方法中，所述获取不良网页特征词列表的步骤具体包括：

获取不良网页样本集和正常网页样本集；

具体地，上述获取不良网页特征词列表的过程例如为生成贝叶斯分类器的训练过程，可离线实现。其中，生成贝叶斯分类器的训练过程例如包括对不良网页样本集和正常网页样本集进行统计学习，形成贝叶斯分类模型以及确定第一预定阈值。具体说明如下：

首先，对正常网页样本集中的所有样本分别进行分词处理，并且在处理的同时去掉杂讯，比如：HTML标签、脚本代码、停用词等等。对分词处理后获得的所有独立词组(即分词数据)都进行词频-反文档频率(TermFrequency-Inverse Document Frequency，TF-IDF)统计，然后将TF-IDF值从大到小排序的前N位的独立词组作为贝叶斯分类统计所用的特征词列表，相当于一个N维向量空间。这N个独立词组即作为不良网页特征词。

对不良网页样本集中的所有样本也进行分词处理。对正常网页样本集的分词数据和不良网页样本集的分词数据进行贝叶斯分类统计学习，其中向量空间为上述形成的N维向量空间，每一维向量为一个不良网页特征词。

计算每个不良网页特征词的贝叶斯概率值，作为该不良网页特征词在N维向量空间的特征值，从而将生成的N维特征值作为贝叶斯分类器。具体统计训练过程的算法描述如下：

步骤S201，通过两个哈希表来表示特征词列表构成的N维向量空间，其中一个哈希表对应正常网页样本集(记为hashtable_good)；另一个哈希表对应不良网页样本集(记为hashtable_bad)。

步骤S202，上述两个哈希表中每项存储的是不良网页特征词及与该不良网页特征词在对应的样本集中出现的概率。具体地，统计各不良网页特征词在正常网页样本集/不良网页样本集中的词频(以下简称为不良网页特征词的词频)，从而计算每个不良网页特征词在对应的样本集中出现的概率P＝(该不良网页特征词的词频)/(对应的哈希表中所有不良网页特征词的词频的总和)。因此，将hashtable_good表，不良网页特征词ti在正常样本集中出现的概率，即第一概率记为P1(ti)，将hashtable_bad表，不良网页特征词ti在不良样本集中出现的概率，即第二概率记为P2(ti)。

步骤S203，根据P1(ti)和P2(ti)计算当待检测网页中出现不良网页特征词ti时，该网页为不良网页的概率，即该不良网页特征词的不良网页概率值。具体地，例如以A事件表示网页为不良网页，则在假设不良网页与正常网页各自出现的先验概率相等的情况下，P(A|ti)＝P2(ti)/[(P1(ti)+P2(ti)]。此外，也可根据需要假设不良网页与正常网页各自出现的先验概率不相等，则可按照常用的贝叶斯概率算法计算P(A|ti)。

步骤S204，通过上述步骤S203计算得出分别对应N个不良网页特征词的不良网页概率值，将N个不良网页特征词与不良网页概率值之间的映射关系保存在一个新建的哈希表中，该哈希表即为不良网页特征词列表，记为(hastable_probability)。

至此，整个离线流程中，针对正常网页样本集和不良网页样本集的训练过程结束。根据将哈希表hashtable_probability作为贝叶斯分类器，就可以估计新到的待检测网页为不良网页的可能性，即待检测网页的不良网页判定概率。

根据上述实施例的不良网页检测方法，通过将贝叶斯分类算法应用于不良网页的检测，提供了较好的分类效果和快速的分类处理。

进一步地，还可根据对待检测网页的检测结果对正常网页样本集或不良网页样本集进行更新。

进一步地，在上述实施例的不良网页检测方法中，在根据离线生成的贝叶斯分类器对待检测网页进行分类后，还可进一步通过有效测度和/或网页级别对分类结果进行优化，具体说明如下。

所述若所述不良网页判定概率大于第一预定阈值，则判定所述待检测网页为不良网页的步骤具体包括：

具体地，统计待检测网页的各不良网页特征词在待检测网页中的出现次数，例如针对不良网页特征词T1，T2，T3，......Th，对应的出现次数分别为X1，X2，X3，......Xh；各不良网页特征词对应的字符长度分别为L1，L2，L3，......Lh，则待检测网页的不良网页特征词的总字符长度：

Length_match＝X1×L1+X2×L2+......Xh×Lh。

此外还计算进行分词处理的待检测网页的文本长度，例如若仅对待检测网页的内容摘要进行分词处理，则计算待检测网页的内容摘要的字符长度；若对待检测网页的全部文本进行分词处理，则计算待检测网页的全部文本的字符长度，记为Length_all，若Length_match/Length_all大于第二预定阈值，则判定待检测网页为不良网页，否则，判定待检测网页为正常网页。其中，第二预定阈值需满足大小等于0且小于等于1，具体数值可根据需要和经验进行设定。

通过上述进一步判定，能够避免因正常网页中偶而出现不良网页特征词而将正常网页误判为不良网页，进一步提高了不良网页检测准确性。

进一步地，所述若所述比值大于第二预定阈值，则判定所述待检测网页为不良网页具体包括：

其中，网页级别(Page Rank，PR)算法是现有技术中用于对互联网上网页的质量进行计算和评分的算法，该算法考虑了多方面的因素，包括页面链接、元数据、被引用率等等，然后对该网页计算后的评分结果就是网页级别，PR值。PR值范围为[0，1]，如果值越高，则认为网页品质越好。统计结果表明，超过90％以上的不良网站的PR值是等于0的。因此，通过进一步检查网页PR值是否大于第三预定阈值(例如为0)，可以过滤一些被误判为不良网页的正规网页，如正规的两性健康网页、成人用品网页等等。其中，第二预定阈值需满足大小等于0且小于等于1，具体数值可根据需要和经验进行设定。

图2为本发明实施例不良网页检测设备的结构示意图。如图2所示，该不良网页检测设备包括：

第一处理模块21，用于对待检测网页进行分词处理，获取所述待检测网页的分词数据；

第二处理模块22，用于根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词；

第三处理模块23，用于根据与所述待检测网页的不良网页特征词对应的不良网页概率值，获取所述待检测网页的不良网页判定概率；

第四处理模块24，用于若所述不良网页判定概率大于第一预定阈值，则判定所述待检测网页为不良网页。

上述实施例的不良网页检测设备执行不良网页检测的具体流程与前述实施例的不良网页检测方法相同，故此处不再赘述。

根据上述实施例的不良网页检测设备，预先获取有不良网页特征词和对应的不良网页概率值，在对待检测网页进行检测时，通过对待检测网页的内容进行分词处理，并通过将得到的分词数据与预先获取的不良网页特征词相比较，获知待检测网页中是否存在、以及存在哪些不良网页特征词，并根据与这些不良网页特征词对应的不良网页概率值计算待检测网页的不良网页判定概率，从而根据待检测网页的不良网页判定概率完成不良网页检测。通过采用上述不良网页检测设备，一方面，通过将待检测网页的文本内容与能够充分表征不良网页的特征词进行对照，来判定待检测网页是否为不良网页，使得检测结果准确可靠；另一方面，在检测过程中，无需对待检测网页中的图片、音视频文件等进行处理，实现方便、计算简单，因此，上述实施例的不良网页检测设备实现了快速、准确的不良网页检测。

进一步地，在上述实施例的不良网页检测设备中，还包括：

进一步地，在上述实施例的不良网页检测设备中，所述第五处理模块包括：

进一步地，在上述实施例的不良网页检测设备中，所述第四处理模块还用于若所述不良网页判定概率大于第一预定阈值，获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值；若所述比值大于第二预定阈值，则判定所述待检测网页为不良网页。

进一步地，在上述实施例的不良网页检测设备中，所述第四处理模块还用于若所述比值大于第二预定阈值，获取所述待检测网页的网页级别；若所述网页级别不大于第三预定阈值，则判定所述待检测网页为不良网页。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种不良网页检测方法，其特征在于，包括：

2.根据权利要求1所述不良网页检测方法，其特征在于，所述根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词的步骤之前，还包括：

3.根据权利要求2所述不良网页检测方法，其特征在于，所述获取不良网页特征词列表的步骤具体包括：

获取不良网页样本集和正常网页样本集；

4.根据权利要求1-3任一所述不良网页检测方法，其特征在于，所述若所述不良网页判定概率大于第一预定阈值，则判定所述待检测网页为不良网页的步骤具体包括：

5.根据权利要求4所述不良网页检测方法，其特征在于，所述若所述比值大于第二预定阈值，则判定所述待检测网页为不良网页具体包括：

6.一种不良网页检测设备，其特征在于，包括：

7.根据权利要求6所述的不良网页检测设备，其特征在于，还包括：

8.根据权利要求7所述的不良网页检测设备，其特征在于，所述第五处理模块包括：

9.根据权利要求6-8任一所述的不良网页检测设备，其特征在于，所述第四处理模块还用于若所述不良网页判定概率大于第一预定阈值，获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值；若所述比值大于第二预定阈值，则判定所述待检测网页为不良网页。

10.根据权利要求9所述的不良网页检测设备，其特征在于，所述第四处理模块还用于若所述比值大于第二预定阈值，获取所述待检测网页的网页级别；若所述网页级别不大于第三预定阈值，则判定所述待检测网页为不良网页。