CN102004764A

CN102004764A - 互联网不良信息检测方法以及系统

Info

Publication number: CN102004764A
Application number: CN 201010536381
Authority: CN
Inventors: 毛伟; 李晓东; 杨卫平; 李洪涛; 耿光刚; 齐超; 张桓铭; 王国栋; 卢文哲
Original assignee: Knet Co ltd; Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2010-11-04
Filing date: 2010-11-04
Publication date: 2011-04-06

Abstract

本发明提供一种互联网不良信息检测方法以及系统。该方法包括：从预检测的网络信息中提取多模态特征，得到与所述多模态特征相对应的各模态特征子向量，包括：从预检测的网络信息中提取内容统计特征、文本相关特征和链接相关特征中的至少两项；对提取到的各模态特征子向量进行特征融合处理，得到多模态联合特征向量；根据多模态联合特征向量，采用机器学习算法进行不良信息检测，得到检测结果。本发明还提供了对应的系统。本发明提供的互联网不良信息检测方法以及系统，能够提高对互联网不良信息的检测性能，而且大大提高了检测系统的鲁棒性。

Description

互联网不良信息检测方法以及系统

技术领域

本发明涉及网络安全检测技术，尤其涉及一种互联网不良信息检测方法以及系统，属于网络安全领域。

背景技术

随着计算机及通信技术的高速发展，互联网的巨大影响和利润驱使很多别有用心的人借助互联网进行各种不良行为。IDC的统计曾显示，有30％-40％的Internet访问是与工作无关的，其中相当大的比例访问色情、暴力、反动等站点，Internet资源被严重浪费。近年来，互联网色情、钓鱼、暴力等不良信息的泛滥严重扰乱了互联网秩序，造成一系列不良影响，特别影响着广大青少年的身心健康。

互联网不良信息网站泛指色情网站、反动网站、暴力网站、病毒网站和作弊网站，其中作弊网站包括钓鱼、欺诈、搜索引擎垃圾等，色情、反动类网站多采用作弊技术。目前为止，高效的、全面的、成熟的有害信息识别与过滤技术仍然没有取得突破性进展。

1999年欧盟启动了安全网络行动计划，利用五年时间先后组织欧盟125个研究组织完成35项科研项目，这些研究项目以跨地域、文化、语言的网络有害信息过滤和评估方案为主要研究目标，希望在欧盟建立统一的网络有害信息过滤系统。近年来，国内模式识别国家重点实验室开展了敏感信息与行为监控实用化技术的研究与开发，主要是对图像视频进行内容理解，处于实验室阶段。

现有技术中利用单一模态对网络不良信息进行检测，方法包括：文本过滤、黑白名单过滤、IP过滤、图像内容理解等，另外也包括网页内容与图像融合的模式学习方法。虽然上述方法各自有其特点，且在不同方面的检测上各有所长，但也存在各自的缺点。

综上所述，现有技术中只是提取彼此不相关联的单一模态来对网络不良信息进行检测，存在着统计学习的方法特征提取不全等问题，因此，导致了检测性能低且检测系统的鲁棒性差。

发明内容

本发明的目的在于提供一种互联网不良信息检测方法以及系统，用以解决现有技术中采用统计学习方法导致的提取特征不全的问题，进而提高互联网不良信息检测的检测性能及检测系统的鲁棒性。

为了实现上述目的，本发明提供一种互联网不良信息检测方法，包括：

从预检测的网络信息中提取多模态特征，得到与所述多模态特征相对应的各模态特征子向量，提取的多模态特征包括内容统计特征、文本相关特征和链接相关特征中的至少两项；

对提取到的各模态特征子向量进行特征融合处理，得到多模态联合特征向量；

根据所述多模态联合特征向量，采用机器学习算法进行不良信息检测，得到检测结果。

本发明还提供了一种互联网不良信息检测系统，包括：

多模态特征提取模块，用于从预检测的网络信息中提取多模态特征，得到与所述多模态特征相对应的各模态特征子向量，提取的多模态特征包括内容统计特征、文本相关特征和链接相关特征中的至少两项；

特征融合模块，用于对提取到的各模态特征子向量进行特征融合处理，得到多模态联合特征向量；

检测模块，用于根据所述多模态联合特征向量，采用机器学习算法进行不良信息检测，得到检测结果。

本发明提供的多模态特征的互联网不良信息检测方法以及系统，充分挖掘多模态特征，建立统一检测策略以打击多种类型的互联网不良应用。从而，有效地克服了现有基于统计学习的方法稳定性不高、特征提取不全，及特征融合等问题。不仅可以更好的提高检测性能，而且大大提高了检测系统的鲁棒性。

附图说明

图1为本发明互联网不良信息检测方法实施例的流程示意图；

图2为本发明实施例中步骤100的具体流程示意图；

图3为本发明实施例中步骤200的具体流程示意图；

图4为本发明实施例中步骤300的具体流程示意图；

图5为本发明互联网不良信息检测系统实施例的结构示意图。

具体实施方式

下面结合附图和具体实施例进一步说明本发明实施例的技术方案。

图1为本发明互联网不良信息检测方法实施例的流程图，如图1所示，本发明多模态特征的互联网不良信息检测方法包括以下步骤：

步骤100、对预检测的网络信息进行多模态特征提取，即从预检测的网络信息中提取多模态特征，得到与上述多模态特征对应的各模态特征子向量；

其中，步骤100从预检测的网络信息中提取多模态特征，形成各模态特征子向量的步骤可具体包括网页抓取和预处理、网页内容分析、超链接图构建、提取内容统计特征、提取文本相关特征、提取链接相关特征。

图2为本发明实施例中步骤100的具体流程示意图。如图2所示，该方法包括如下步骤：

步骤101、网页抓取和预处理，对网页内容进行抓取和预处理后，当对网页内容进行分析时，执行步骤102，当对超链接图进行分析时，则执行步骤103，网页抓取和预处理技术是比较成熟的现有技术，可以通过网络爬虫技术实现，例如框架Heritrix和Nutch。

步骤102、网页内容分析，具体的是从多视角对网页信息进行分析，包括内容提取、锚文本提取、网页统计信息提取和复杂背景文字检测与识别。其中内容提取、锚文本提取方法有成熟的方法，例如利用CyberNeko技术的HTML解析器。网页统计信息的提取包括一系列网页相关的简单统计属性。复杂背景文字检测与识别作为独立研究近年来取得了长足发展，其检测与识别率完全满足进行内容分析的需要，本申请将充分利用该类文本信息。当分析的网页信息为统计信息时，执行步骤104，当分析的网页信息为其他信息时，则执行步骤105。

步骤103、构建超链接图，使用目前已经成熟的框架webgraph。

以下将详细叙述提取内容统计特征、提取文本相关特征及提取链接相关特征步骤：

步骤104、提取内容统计特征，该步骤提取的统计特征包括网页中单词的数量、网页的压缩率、可见文字的比例、锚文本的比例、标题中单词的个数、锚文本的平均长度、网页中词汇的平均长度、N元语法似然度特征等。我们采用以下方法将所有的网页统计特征向网站映射，H表示I个网页的网站，这I个网页可表示为P＝{p1，p2，…，p₁}，用p^h表示该网站的主页，p^m表示该网站拥有最大PageRank值的网页。f(p)表示前述8个统计特征，则网站H的特征向量f(H)为：

f(H)＝(f(p^h)，f(p^m)，E(f(p))，Var(f(p)))

其中，p∈P，E(f(p))表示该网站中所有网页相应特征的均值，Var(f(p))表示该网站所有网页相应特征的方差。这样得到32个内容统计特征。

步骤105、提取文本相关特征，其中，文本包含三部分信息，网页内容文本、锚文本和图片文字，该步骤的处理对象并不是以上三类文本的简单叠加后的对象，而是首先对网页内容文本进行长度归一化处理，在此基础上与锚文本和图片文本简单联合成为文本D，这样做是防止网页文本过长而掩盖锚文本和图片文字。进一步，将网站主页D^h和拥有最大PageRank值的网页Dm联合为D^h∪D^m，代表该网站，文本特征的提取在D^h∪D^m上展开。每个网站都被表示为

其中

表示词频，IDF(w_i)表示逆转的文档频率。使用信息增益算法对

进行计算，选择有效分类特征，最终形成文本相关特征。

步骤106、提取链接相关特征，考虑到互联网不良信息的提供以网站为载体，本发明链接相关特征的提取直接把网站作为链接节点。链接特征的提取从多个视角开展，基本度量包括出入度、PageRank、TrustRank、TruncatedPageRank(以上三种算法均为著名的链接分析算法)等。基于以上度量，分别计算其入邻居、出邻居、二级近邻的相应度量均值。最终形成链接相关特征，该特征对于通过超链接进行不良信息传播的应用尤为有效。

步骤200、对提取到的各模态特征子向量进行特征融合处理，获得多模态联合特征向量；

图3为本发明实施例中步骤200的具体流程示意图。如图3所示，步骤200包括特征联合处理和特征选择处理。考虑到内容统计特征、文本相关特征和链接相关特征的表示形式、语义各不相同，首先对这三类特征进行属性的归一化，归一化公式如下：

y＝(x-Min Value)/(Max Value-Min Value)

x，y分别为转换前、后的值，MaxValue和MinValue分别为所有样本(包括标号集和检测集)的该特征的最大值和最小值。

步骤201、特征联合处理，即在归一化处理后，将三类特征线性融合，如果内容统计特征有C维，文本相关特征有T维，链接相关特征有L维，线性特征融合就是将这三种特征线性进行叠加，形成融合向量，该特征向量的维数为C+T+L。考虑到融合向量的维数太高，为了加快分类器学习和检测效率，进行必要的特征选择处理。

步骤202、特征选择处理。特征选择即从高维的特征中根据特定的算法将某些对分类贡献不大的或没有贡献的维度剔除，保留有辨识力的维度的行为。本发明中特征选择算法可以选择现有的主成分分析、线性判别分析等。

经过步骤200的特征融合处理和步骤202特征选择处理操作，即将步骤200的C+T+L维的特征，进一步经步骤202进行降维，比如得到U维，在U维特征空间上，最终形成各模态特征联合特征向量，每个特征联合向量包含U个元素。接下来的步骤300的训练以及分类决策均在该联合特征向量上展开。

步骤300、根据多模态联合特征向量，采用现有的机器学习算法进行作弊检测(即不良信息检测)，得到检测结果，机器学习算法包括决策树、神经网络、支持向量机至少一项。

图4为本发明实施例中步骤300的具体流程示意图。如图4所示，步骤300的分类器学习和分类决策是基于步骤200形成的联合特征向量。具体包括：

步骤301、在联合特征向量上对训练集和检测集进行标示；

步骤302、在训练集上训练分类器，分类器的选择可以为任何现有模式分类器，如支持向量机(SVMs)、决策树、核方法、神经网络、学习矢量量化等；

步骤303、在分类器被训练结束后，使用训练好的模型对检测集中的站点样本进行分类，完成对互联网不良信息的检测，生成检测结果。

综上所述，本发明提供的互联网不良信息检测方法，通过对预检测的网络信息进行多模态特征提取，形成各模态特征子向量。之后，将各模态特征子向量进行特征融合处理，并获取多模态联合特征向量。最后，根据多模态联合特征向量，采用机器学习算法进行不良信息检测。上述方法，对多模态特征进行了充分的挖掘，建立了统一检测策略以打击多种类型的互联网不良应用，能够有效地克服了基于统计学习的方法特征提取不全等问题，不仅提高了检测性能，而且大大提高了检测系统的鲁棒性。

图5为本发明互联网不良信息检测系统实施例的结构示意图。如图5所示，该系统包括多模态特征提取模块501、特征融合模块502和检测模块503：其中，多模态特征提取模块501用于从预检测的网络信息中提取多模态特征，得到与所述多模态特征相对应的各模态特征子向量，提取的多模态特征包括内容统计特征、文本相关特征和链接相关特征中的至少两项；特征融合模块502用于对提取到的各模态特征子向量进行特征融合处理，得到多模态联合特征向量；检测模块503用于根据所述多模态联合特征向量，采用机器学习算法进行不良信息检测，得到检测结果。

上述多模态特征的互联网不良信息检测系统，通过对多模态特征进行提取并进行特征融合，建立了统一的检测策略，可以有效地克服现有技术中特征提取不全等问题，从而能更好的提高检测性能及检测系统的稳定性。

具体的，如图5所示，本发明上述实施例中的多模态特征提取模块501，可以包括第一提取单元504、第二提取单元505和第三提取单元506，其中，第一提取单元504用于提取内容统计特征；第二提取单元505用于提取文本相关特征；第三提取单元506用于提取链接相关特征。

综上所述，本发明提供的互联网不良信息检测方法，通过充分挖掘多模态特征，建立统一检测策略以打击多种类型的互联网不良应用，能够有效地克服基于统计学习的方法提取特征不全等问题。与现有技术相比，不仅可以更好的提高检测性能，而且大大提高了检测系统的鲁棒性。

虽然本发明以实施例揭示如上，但其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，可作任意改动或等同替换，故本发明的保护范围应当以本申请权利要求书所界定的范围为准。

Claims

1.一种互联网不良信息检测方法，其特征在于，包括：

2.根据权利要求1所述的互联网不良信息检测方法，其特征在于，提取内容统计特征包括：

提取文字长度、可见文本比例和压缩率。

3.根据权利要求1所述的互联网不良信息检测方法，其特征在于，提取文本相关特征包括：

根据信息增益方法对网页内容、锚文本和图片文字信息进行特征选择。

4.根据权利要求1所述的互联网不良信息检测方法，其特征在于，提取链接相关特征包括：

提取链接出入度信息、链接分析值相关信息和支持度相关信息。

5.根据权利要求1所述的互联网不良信息检测方法，其特征在于，所述对提取到的各模态特征子向量进行特征融合处理包括：

将从预检测的网络信息中提取的内容统计特征、文本相关特征和链接相关特征中的至少两项进行特征联合处理，得到融合向量；

对得到的融合向量进行特征选择处理，获得所述多模态联合特征向量。

6.根据权利要求1所述的互联网不良信息检测方法，其特征在于，所述机器学习算法包括：决策树、神经网络和支持向量机中至少一项。

7.一种互联网不良信息检测系统，其特征在于，包括：