CN107679401A

CN107679401A - 一种恶意网页识别方法和装置

Info

Publication number: CN107679401A
Application number: CN201710785699.0A
Authority: CN
Inventors: 练晓谦
Original assignee: Beijing Future Information Technology Co Ltd
Current assignee: Beijing Future Information Technology Co Ltd
Priority date: 2017-09-04
Filing date: 2017-09-04
Publication date: 2018-02-09

Abstract

本发明公开了一种恶意网页识别方法和装置；本方法为：1)对正常网页集、恶意网页集中每一网页数据进行分词处理，得到若干字符串；2)对于每一字符串，计算该字符串分别在该正常网页集中的出现概率、在该恶意网页集中的出现概率；3)将该待识别网页数据进行分词处理，得到N个字符串，对于该N个字符串中每一个字符串，计算该字符串使得该待识别网页被识别为恶意网页的概率；4)选取概率最高的若干概率，计算该待识别网页为恶意网页的联合概率；如果该联合概率大于事先设置好的阈值，则判断该待识别网页为恶意网页，否则判断为正常网页。

Description

一种恶意网页识别方法和装置

技术领域

本发明属于计算机软件技术领域，涉及一种恶意网页识别方法和装置。

背景技术

贝叶斯定理是统计学中非常重要的一个定理，以贝叶斯定理为基础的统计学派在统计学世界里占据着重要的地位。

条件概率，就是指在事件B发生的情况下，事件A发生的概率，用P(A|B)来表示。

公式中的P(A∩B)，指的是事件A和事件B同时发生的概率。

根据公式可以推导出：

P(A∩B)＝P(A|B)P(B)

P(A∩B)＝P(B|A)P(A)

所以：

P(A|B)P(B)＝P(B|A)P(A)

即得到条件概率的计算公式：

使用P(A′)表示为P(A)的互补事件，P(A′)+P(A)＝1，则：

P(B)＝P(B∩A)+P(B∩A′)

P(B)＝P(B|A)P(A)+P(B|A′)P(A′)

所以，条件概率的计算公式，可以推导为：

则得到了贝叶斯公式。

现有的恶意网页识别方法，是基于特征关键词的匹配。例如专利“恶意网页的识别方法以及识别装置”(申请号：201110345080.0)，是使用关键词匹配的技术来实现恶意网页的识别。不同的技术在特征关键词的提取方法和关键词匹配的处理方法上，有着不同的见解。但是都过于依赖特征关键词的完备性，存在一定的漏报率。

恶意网页的发布者会不停的创造出一些新词汇，用来规避已有关键词的检测技术，这样的话，该方法不可避免的存在一定的漏报率。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种恶意网页识别方法和装置。本发明使用概率统计学的思路，采用贝叶斯公式来进行计算概率，依据概率判断是否为恶意网页，从而绕过了因为规则库不完备而导致漏报的问题。

本发明的基于贝叶斯定理的恶意网页识别方法和装置，(恶意网页指的是淫秽色情、博彩赌球等类型的网页)，包括：前期统计和网页识别。

前期统计，指的是准备两组已经识别好的网页集：正常网页集和恶意网页集；针对这些网页中的数据进行分词处理，得到若干字符串；计算每个字符串分别在恶意网页和正常网页中的出现概率；如果一个字符串，只在正常网页集中出现过，没有在恶意网页集中出现过，则设定该字符串在恶意网页集中出现概率为某个固定值。

网页识别，指的是针对一个待识别的网页，将该网页中的数据进行分词处理，得到N个字符串；计算每一个字符串存在时该网页为恶意网页的概率(此处的计算方法，会使用到前期统计中得出的结果，即每个字符串在恶意网页和正常网页中的出现概率)，如果在该待识别网页的分词中出现一个新的分词(即该分词未出现在正常网页集和恶意网页集的分词结果中)，则设定存在该分词时该待识别网页为恶意网页的概率为设定值；挑选10个最高的概率，计算出联合概率；将联合概率与阈值进行比较，大于阈值则判断该网页为恶意网页，小于等于阈值则判断为正常网页。

该发明的流程为：

前期统计，如图1所示，其步骤包括：

步骤1：准备两组已经已经识别好的网页集：正常网页集和恶意网页集；

步骤2：针对这些网页中的数据进行分词处理，得到若干字符串；

步骤3：计算每个字符串在恶意网页和正常网页中的出现概率。

网页识别，如图2所示，其步骤包括：

步骤1：针对一个待识别的网页，将该网页中的数据进行分词处理，得到N个字符串；

步骤2：计算每一个字符串存在时该网页为恶意网页的概率(此处的计算方法，会使用到前期统计中得出的结果，即每个字符串在恶意网页和正常网页中的出现概率)；即该待识别网页中的每一字符串使得该待识别网页被识别为恶意网页的概率；

步骤3：挑选10个最高的概率，计算出联合概率；

步骤4：将联合概率与阈值进行比较，大于阈值则判断该网页为恶意网页，小于等于阈值则判断为正常网页。

本发明还提供了一种恶意网页识别装置，其特征在于，包括前期统计模块和网页识别模块；其中，

所述前期统计模块，用于对正常网页集中每一网页数据进行分词处理，得到若干字符串；对恶意网页集中每一网页数据进行分词处理，得到若干字符串；对得到的每一字符串，计算该字符串分别在该正常网页集中的出现概率、在该恶意网页集中的出现概率；

所述网页识别模块，用于针对一待识别网页，将该待识别网页中的数据进行分词处理，得到N个字符串，对于该N个字符串中每一个字符串，根据前期统计模块的统计结果计算该字符串使得该待识别网页被识别为恶意网页的概率，选取概率最高的若干概率，计算该待识别网页为恶意网页的联合概率；如果该联合概率大于事先设置好的阈值，则判断该待识别网页为恶意网页，否则判断为正常网页。

进一步的，基于贝叶斯公式计算该字符串使得该待识别网页被识别为恶意网页的概率。

进一步的，所述网页识别模块采用公式计算该字符串使得该待识别网页被识别为恶意网页的概率P(Y|W)；其中，P(W|Y)为该字符串在恶意网页集中的出现概率，P(W|N)为该字符串在正常网页集中的出现概率，P(Y)为该待识别网页为恶意网页的概率，P(N)为该待识别网页为正常网页的概率；如果该待识别网页的分词中出现了新的字符串，则设定该字符串使得该待识别网页被识别为恶意网页的概率为一设定值。

进一步的，所述网页识别模块选取概率最高的10个概率P₁、P₂、P₃、…、P₁₀，采用公式计算所述联合概率P。

本发明主要具有以下优点：

基于特征关键词匹配的恶意网页识别方法，存在关键词匹配方法被绕过而导致漏报的先天缺陷；本发明使用概率统计学的思路来解决这个问题，而不是通过完善关键词库的方法来解决；因此本发明大大降低了恶意网页识别的漏报率。

附图说明

图1为前期统计流程图；

图2为网页识别流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

(一)前期统计

(1)准备两组已经识别好的网页集

准备的网页集，恶意网页和正常网页分别不少于10000个。

(2)针对网页中的数据进行分词处理

一般的网页源代码，分为head和body这2个部分。

head部分

将网页源代码head部分中的网页标题title、网页内容概述description、网页关键词keywords等网页标签中有意义的内容提取出来，进行分词处理；而例如link、script、style等网页标签中的内容无实际意义，舍弃掉不做处理。

body部分

例如script、style等网页标签中的内容无实际意义，舍弃掉不做处理；其他网页内容提取出来，进行分词处理。

(3)计算每个字符串在恶意网页和正常网页中的出现概率

若有10000个恶意网页和10000个正常网页：

10000个恶意网页中，出现某字符串的网页数量为5000个；

10000个正常网页中，出现某字符串的网页数量为100个。

则：

该字符串在恶意网页集中的出现概率，为0.5。为方便理解，表示为：P(W|Y)；

该字符串在正常网页集中的出现概率，为0.01。为方便理解，表示为：P(W|N)。

(二)网页识别

(1)将网页中的数据进行分词处理，得到N个字符串。

(2)针对每个字符串，计算该字符串存在时网页为恶意网页的概率(此处的计算方法，会使用到前期统计中得出的结果，即每个字符串在恶意网页和正常网页中的出现概率)。

为方便理解，本发明这样表示：

P(Y|W)，表示一个字符串存在时该网页为恶意网页的概率；

P(W|Y)，表示一个字符串在恶意网页集中的出现概率；

P(W|N)，表示一个字符串在正常网页集中的出现概率；

P(Y)，表示一个网页为恶意网页的概率，为50％；

P(N)，表示一个网页为正常网页的概率，为50％。

贝叶斯公式为：

根据该公式，推导出：计算每一个字符串存在时该网页为恶意网页的概率，公式为：

本发明在“前期统计”中已经计算出P(W|Y)和P(W|N)的值，同时本发明也知道P(Y)和P(N)的值。因此，基于这个公式，就可以计算出P(Y|W)，即每一个字符串存在时该网页为恶意网页的概率。

(3)挑选10个最高的概率，计算联合概率

上一个步骤，计算出每个字符串存在时该网页为恶意网页的概率，得到N个概率；

本步骤，就是基于上一步的结果，从N个概率中，挑选出10个最高的概率，依据下面这个联合概率的计算公式，可以计算出联合概率。

(4)将联合概率与阈值进行比较判断

第三步计算出联合概率之后，和事先设置好的阈值进行比较。若大于阈值则判断该网页为恶意网页，小于等于阈值则判断为正常网页。

在实现过程中，本发明会针对判断结果进行抽样的人工验证，发现不准确的时候，会对阈值进行调整，以期将判断结果调整的越来越准确。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种恶意网页识别方法，其步骤包括：

1)选取一正常网页集和一恶意网页集；

2)对该正常网页集中每一网页数据进行分词处理，得到若干字符串；对该恶意网页集中每一网页数据进行分词处理，得到若干字符串；

3)对于步骤2)得到的每一字符串，计算该字符串分别在该正常网页集中的出现概率、在该恶意网页集中的出现概率；

4)针对一待识别网页，将该待识别网页中的数据进行分词处理，得到N个字符串，对于该N个字符串中每一个字符串，根据步骤3)的计算结果计算该字符串使得该待识别网页被识别为恶意网页的概率；

5)从步骤4)的结果中选取概率最高的若干概率，计算该待识别网页为恶意网页的联合概率；如果该联合概率大于事先设置好的阈值，则判断该待识别网页为恶意网页，否则判断为正常网页。

2.如权利要求1所述的方法，其特征在于，根据步骤3)的计算结果基于贝叶斯公式计算该字符串使得该待识别网页被识别为恶意网页的概率。

3.如权利要求2所述的方法，其特征在于，采用公式计算该字符串使得该待识别网页被识别为恶意网页的概率P(Y|W)；其中，P(W|Y)为该字符串在恶意网页集中的出现概率，P(W|N)为该字符串在正常网页集中的出现概率，P(Y)为该待识别网页为恶意网页的概率，P(N)为该待识别网页为正常网页的概率。

4.如权利要求1或2或3所述的方法，其特征在于，选取概率最高的10个概率P₁、P₂、P₃、…、P₁₀，采用公式计算所述联合概率P。

5.如权利要求1所述的方法，其特征在于，所述步骤4)中，如果该待识别网页的分词中出现了新的字符串，则设定该字符串使得该待识别网页被识别为恶意网页的概率为一设定值。

6.如权利要求1所述的方法，其特征在于，所述步骤2)、步骤4)中，对网页head部分中的网页标题title、网页内容概述description、网页关键词keywords进行分词处理。

7.一种恶意网页识别装置，其特征在于，包括前期统计模块和网页识别模块；其中，

8.如权利要求7所述的恶意网页识别装置，其特征在于，基于贝叶斯公式计算该字符串使得该待识别网页被识别为恶意网页的概率。

9.如权利要求8所述的恶意网页识别装置，其特征在于，所述网页识别模块采用公式计算该字符串使得该待识别网页被识别为恶意网页的概率P(Y|W)；其中，P(W|Y)为该字符串在恶意网页集中的出现概率，P(W|N)为该字符串在正常网页集中的出现概率，P(Y)为该待识别网页为恶意网页的概率，P(N)为该待识别网页为正常网页的概率；如果该待识别网页的分词中出现了新的字符串，则设定该字符串使得该待识别网页被识别为恶意网页的概率为一设定值。

10.如权利要求7或8或9所述的恶意网页识别装置，其特征在于，所述网页识别模块选取概率最高的10个概率P₁、P₂、P₃、…、P₁₀，采用公式计算所述联合概率P。