CN107679401A - 一种恶意网页识别方法和装置 - Google Patents

一种恶意网页识别方法和装置 Download PDF

Info

Publication number
CN107679401A
CN107679401A CN201710785699.0A CN201710785699A CN107679401A CN 107679401 A CN107679401 A CN 107679401A CN 201710785699 A CN201710785699 A CN 201710785699A CN 107679401 A CN107679401 A CN 107679401A
Authority
CN
China
Prior art keywords
webpage
probability
web pages
identified
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710785699.0A
Other languages
English (en)
Inventor
练晓谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Future Information Technology Co Ltd
Original Assignee
Beijing Future Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Future Information Technology Co Ltd filed Critical Beijing Future Information Technology Co Ltd
Priority to CN201710785699.0A priority Critical patent/CN107679401A/zh
Publication of CN107679401A publication Critical patent/CN107679401A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Virology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种恶意网页识别方法和装置;本方法为:1)对正常网页集、恶意网页集中每一网页数据进行分词处理,得到若干字符串;2)对于每一字符串,计算该字符串分别在该正常网页集中的出现概率、在该恶意网页集中的出现概率;3)将该待识别网页数据进行分词处理,得到N个字符串,对于该N个字符串中每一个字符串,计算该字符串使得该待识别网页被识别为恶意网页的概率;4)选取概率最高的若干概率,计算该待识别网页为恶意网页的联合概率;如果该联合概率大于事先设置好的阈值,则判断该待识别网页为恶意网页,否则判断为正常网页。

Description

一种恶意网页识别方法和装置
技术领域
本发明属于计算机软件技术领域,涉及一种恶意网页识别方法和装置。
背景技术
贝叶斯定理是统计学中非常重要的一个定理,以贝叶斯定理为基础的统计学派在统计学世界里占据着重要的地位。
条件概率,就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。
公式中的P(A∩B),指的是事件A和事件B同时发生的概率。
根据公式可以推导出:
P(A∩B)=P(A|B)P(B)
P(A∩B)=P(B|A)P(A)
所以:
P(A|B)P(B)=P(B|A)P(A)
即得到条件概率的计算公式:
使用P(A′)表示为P(A)的互补事件,P(A′)+P(A)=1,则:
P(B)=P(B∩A)+P(B∩A′)
P(B)=P(B|A)P(A)+P(B|A′)P(A′)
所以,条件概率的计算公式,可以推导为:
则得到了贝叶斯公式。
现有的恶意网页识别方法,是基于特征关键词的匹配。例如专利“恶意网页的识别方法以及识别装置”(申请号:201110345080.0),是使用关键词匹配的技术来实现恶意网页的识别。不同的技术在特征关键词的提取方法和关键词匹配的处理方法上,有着不同的见解。但是都过于依赖特征关键词的完备性,存在一定的漏报率。
恶意网页的发布者会不停的创造出一些新词汇,用来规避已有关键词的检测技术,这样的话,该方法不可避免的存在一定的漏报率。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种恶意网页识别方法和装置。本发明使用概率统计学的思路,采用贝叶斯公式来进行计算概率,依据概率判断是否为恶意网页,从而绕过了因为规则库不完备而导致漏报的问题。
本发明的基于贝叶斯定理的恶意网页识别方法和装置,(恶意网页指的是淫秽色情、博彩赌球等类型的网页),包括:前期统计和网页识别。
前期统计,指的是准备两组已经识别好的网页集:正常网页集和恶意网页集;针对这些网页中的数据进行分词处理,得到若干字符串;计算每个字符串分别在恶意网页和正常网页中的出现概率;如果一个字符串,只在正常网页集中出现过,没有在恶意网页集中出现过,则设定该字符串在恶意网页集中出现概率为某个固定值。
网页识别,指的是针对一个待识别的网页,将该网页中的数据进行分词处理,得到N个字符串;计算每一个字符串存在时该网页为恶意网页的概率(此处的计算方法,会使用到前期统计中得出的结果,即每个字符串在恶意网页和正常网页中的出现概率),如果在该待识别网页的分词中出现一个新的分词(即该分词未出现在正常网页集和恶意网页集的分词结果中),则设定存在该分词时该待识别网页为恶意网页的概率为设定值;挑选10个最高的概率,计算出联合概率;将联合概率与阈值进行比较,大于阈值则判断该网页为恶意网页,小于等于阈值则判断为正常网页。
该发明的流程为:
前期统计,如图1所示,其步骤包括:
步骤1:准备两组已经已经识别好的网页集:正常网页集和恶意网页集;
步骤2:针对这些网页中的数据进行分词处理,得到若干字符串;
步骤3:计算每个字符串在恶意网页和正常网页中的出现概率。
网页识别,如图2所示,其步骤包括:
步骤1:针对一个待识别的网页,将该网页中的数据进行分词处理,得到N个字符串;
步骤2:计算每一个字符串存在时该网页为恶意网页的概率(此处的计算方法,会使用到前期统计中得出的结果,即每个字符串在恶意网页和正常网页中的出现概率);即该待识别网页中的每一字符串使得该待识别网页被识别为恶意网页的概率;
步骤3:挑选10个最高的概率,计算出联合概率;
步骤4:将联合概率与阈值进行比较,大于阈值则判断该网页为恶意网页,小于等于阈值则判断为正常网页。
本发明还提供了一种恶意网页识别装置,其特征在于,包括前期统计模块和网页识别模块;其中,
所述前期统计模块,用于对正常网页集中每一网页数据进行分词处理,得到若干字符串;对恶意网页集中每一网页数据进行分词处理,得到若干字符串;对得到的每一字符串,计算该字符串分别在该正常网页集中的出现概率、在该恶意网页集中的出现概率;
所述网页识别模块,用于针对一待识别网页,将该待识别网页中的数据进行分词处理,得到N个字符串,对于该N个字符串中每一个字符串,根据前期统计模块的统计结果计算该字符串使得该待识别网页被识别为恶意网页的概率,选取概率最高的若干概率,计算该待识别网页为恶意网页的联合概率;如果该联合概率大于事先设置好的阈值,则判断该待识别网页为恶意网页,否则判断为正常网页。
进一步的,基于贝叶斯公式计算该字符串使得该待识别网页被识别为恶意网页的概率。
进一步的,所述网页识别模块采用公式计算该字符串使得该待识别网页被识别为恶意网页的概率P(Y|W);其中,P(W|Y)为该字符串在恶意网页集中的出现概率,P(W|N)为该字符串在正常网页集中的出现概率,P(Y)为该待识别网页为恶意网页的概率,P(N)为该待识别网页为正常网页的概率;如果该待识别网页的分词中出现了新的字符串,则设定该字符串使得该待识别网页被识别为恶意网页的概率为一设定值。
进一步的,所述网页识别模块选取概率最高的10个概率P1、P2、P3、…、P10,采用公式计算所述联合概率P。
本发明主要具有以下优点:
基于特征关键词匹配的恶意网页识别方法,存在关键词匹配方法被绕过而导致漏报的先天缺陷;本发明使用概率统计学的思路来解决这个问题,而不是通过完善关键词库的方法来解决;因此本发明大大降低了恶意网页识别的漏报率。
附图说明
图1为前期统计流程图;
图2为网页识别流程图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
(一)前期统计
(1)准备两组已经识别好的网页集
准备的网页集,恶意网页和正常网页分别不少于10000个。
(2)针对网页中的数据进行分词处理
一般的网页源代码,分为head和body这2个部分。
head部分
将网页源代码head部分中的网页标题title、网页内容概述description、网页关键词keywords等网页标签中有意义的内容提取出来,进行分词处理;而例如link、script、style等网页标签中的内容无实际意义,舍弃掉不做处理。
body部分
例如script、style等网页标签中的内容无实际意义,舍弃掉不做处理;其他网页内容提取出来,进行分词处理。
(3)计算每个字符串在恶意网页和正常网页中的出现概率
若有10000个恶意网页和10000个正常网页:
10000个恶意网页中,出现某字符串的网页数量为5000个;
10000个正常网页中,出现某字符串的网页数量为100个。
则:
该字符串在恶意网页集中的出现概率,为0.5。为方便理解,表示为:P(W|Y);
该字符串在正常网页集中的出现概率,为0.01。为方便理解,表示为:P(W|N)。
(二)网页识别
(1)将网页中的数据进行分词处理,得到N个字符串。
(2)针对每个字符串,计算该字符串存在时网页为恶意网页的概率(此处的计算方法,会使用到前期统计中得出的结果,即每个字符串在恶意网页和正常网页中的出现概率)。
为方便理解,本发明这样表示:
P(Y|W),表示一个字符串存在时该网页为恶意网页的概率;
P(W|Y),表示一个字符串在恶意网页集中的出现概率;
P(W|N),表示一个字符串在正常网页集中的出现概率;
P(Y),表示一个网页为恶意网页的概率,为50%;
P(N),表示一个网页为正常网页的概率,为50%。
贝叶斯公式为:
根据该公式,推导出:计算每一个字符串存在时该网页为恶意网页的概率,公式为:
本发明在“前期统计”中已经计算出P(W|Y)和P(W|N)的值,同时本发明也知道P(Y)和P(N)的值。因此,基于这个公式,就可以计算出P(Y|W),即每一个字符串存在时该网页为恶意网页的概率。
(3)挑选10个最高的概率,计算联合概率
上一个步骤,计算出每个字符串存在时该网页为恶意网页的概率,得到N个概率;
本步骤,就是基于上一步的结果,从N个概率中,挑选出10个最高的概率,依据下面这个联合概率的计算公式,可以计算出联合概率。
(4)将联合概率与阈值进行比较判断
第三步计算出联合概率之后,和事先设置好的阈值进行比较。若大于阈值则判断该网页为恶意网页,小于等于阈值则判断为正常网页。
在实现过程中,本发明会针对判断结果进行抽样的人工验证,发现不准确的时候,会对阈值进行调整,以期将判断结果调整的越来越准确。
以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种恶意网页识别方法,其步骤包括:
1)选取一正常网页集和一恶意网页集;
2)对该正常网页集中每一网页数据进行分词处理,得到若干字符串;对该恶意网页集中每一网页数据进行分词处理,得到若干字符串;
3)对于步骤2)得到的每一字符串,计算该字符串分别在该正常网页集中的出现概率、在该恶意网页集中的出现概率;
4)针对一待识别网页,将该待识别网页中的数据进行分词处理,得到N个字符串,对于该N个字符串中每一个字符串,根据步骤3)的计算结果计算该字符串使得该待识别网页被识别为恶意网页的概率;
5)从步骤4)的结果中选取概率最高的若干概率,计算该待识别网页为恶意网页的联合概率;如果该联合概率大于事先设置好的阈值,则判断该待识别网页为恶意网页,否则判断为正常网页。
2.如权利要求1所述的方法,其特征在于,根据步骤3)的计算结果基于贝叶斯公式计算该字符串使得该待识别网页被识别为恶意网页的概率。
3.如权利要求2所述的方法,其特征在于,采用公式计算该字符串使得该待识别网页被识别为恶意网页的概率P(Y|W);其中,P(W|Y)为该字符串在恶意网页集中的出现概率,P(W|N)为该字符串在正常网页集中的出现概率,P(Y)为该待识别网页为恶意网页的概率,P(N)为该待识别网页为正常网页的概率。
4.如权利要求1或2或3所述的方法,其特征在于,选取概率最高的10个概率P1、P2、P3、…、P10,采用公式计算所述联合概率P。
5.如权利要求1所述的方法,其特征在于,所述步骤4)中,如果该待识别网页的分词中出现了新的字符串,则设定该字符串使得该待识别网页被识别为恶意网页的概率为一设定值。
6.如权利要求1所述的方法,其特征在于,所述步骤2)、步骤4)中,对网页head部分中的网页标题title、网页内容概述description、网页关键词keywords进行分词处理。
7.一种恶意网页识别装置,其特征在于,包括前期统计模块和网页识别模块;其中,
所述前期统计模块,用于对正常网页集中每一网页数据进行分词处理,得到若干字符串;对恶意网页集中每一网页数据进行分词处理,得到若干字符串;对得到的每一字符串,计算该字符串分别在该正常网页集中的出现概率、在该恶意网页集中的出现概率;
所述网页识别模块,用于针对一待识别网页,将该待识别网页中的数据进行分词处理,得到N个字符串,对于该N个字符串中每一个字符串,根据前期统计模块的统计结果计算该字符串使得该待识别网页被识别为恶意网页的概率,选取概率最高的若干概率,计算该待识别网页为恶意网页的联合概率;如果该联合概率大于事先设置好的阈值,则判断该待识别网页为恶意网页,否则判断为正常网页。
8.如权利要求7所述的恶意网页识别装置,其特征在于,基于贝叶斯公式计算该字符串使得该待识别网页被识别为恶意网页的概率。
9.如权利要求8所述的恶意网页识别装置,其特征在于,所述网页识别模块采用公式计算该字符串使得该待识别网页被识别为恶意网页的概率P(Y|W);其中,P(W|Y)为该字符串在恶意网页集中的出现概率,P(W|N)为该字符串在正常网页集中的出现概率,P(Y)为该待识别网页为恶意网页的概率,P(N)为该待识别网页为正常网页的概率;如果该待识别网页的分词中出现了新的字符串,则设定该字符串使得该待识别网页被识别为恶意网页的概率为一设定值。
10.如权利要求7或8或9所述的恶意网页识别装置,其特征在于,所述网页识别模块选取概率最高的10个概率P1、P2、P3、…、P10,采用公式计算所述联合概率P。
CN201710785699.0A 2017-09-04 2017-09-04 一种恶意网页识别方法和装置 Pending CN107679401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710785699.0A CN107679401A (zh) 2017-09-04 2017-09-04 一种恶意网页识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710785699.0A CN107679401A (zh) 2017-09-04 2017-09-04 一种恶意网页识别方法和装置

Publications (1)

Publication Number Publication Date
CN107679401A true CN107679401A (zh) 2018-02-09

Family

ID=61136304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710785699.0A Pending CN107679401A (zh) 2017-09-04 2017-09-04 一种恶意网页识别方法和装置

Country Status (1)

Country Link
CN (1) CN107679401A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213918A (zh) * 2018-09-25 2019-01-15 杭州安恒信息技术股份有限公司 基于机器学习的网页暗链检测方法和装置
CN109241462A (zh) * 2018-08-13 2019-01-18 中国联合网络通信集团有限公司 网页黑词处理方法、装置、设备及存储介质
CN109344396A (zh) * 2018-08-31 2019-02-15 阿里巴巴集团控股有限公司 文本识别方法、装置、及计算机设备
CN109359274A (zh) * 2018-09-14 2019-02-19 阿里巴巴集团控股有限公司 一种对批量生成的字符串进行识别的方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324745A (zh) * 2013-07-04 2013-09-25 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统
CN105589845A (zh) * 2015-12-18 2016-05-18 北京奇虎科技有限公司 垃圾文本识别方法、装置及系统
CN105956472A (zh) * 2016-05-12 2016-09-21 宝利九章(北京)数据技术有限公司 识别网页中是否包含恶意内容的方法和系统
US20160352772A1 (en) * 2015-05-27 2016-12-01 Cisco Technology, Inc. Domain Classification And Routing Using Lexical and Semantic Processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324745A (zh) * 2013-07-04 2013-09-25 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统
US20160352772A1 (en) * 2015-05-27 2016-12-01 Cisco Technology, Inc. Domain Classification And Routing Using Lexical and Semantic Processing
CN105589845A (zh) * 2015-12-18 2016-05-18 北京奇虎科技有限公司 垃圾文本识别方法、装置及系统
CN105956472A (zh) * 2016-05-12 2016-09-21 宝利九章(北京)数据技术有限公司 识别网页中是否包含恶意内容的方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241462A (zh) * 2018-08-13 2019-01-18 中国联合网络通信集团有限公司 网页黑词处理方法、装置、设备及存储介质
CN109241462B (zh) * 2018-08-13 2021-12-14 中国联合网络通信集团有限公司 网页黑词处理方法、装置、设备及存储介质
CN109344396A (zh) * 2018-08-31 2019-02-15 阿里巴巴集团控股有限公司 文本识别方法、装置、及计算机设备
CN109359274A (zh) * 2018-09-14 2019-02-19 阿里巴巴集团控股有限公司 一种对批量生成的字符串进行识别的方法、装置及设备
CN109213918A (zh) * 2018-09-25 2019-01-15 杭州安恒信息技术股份有限公司 基于机器学习的网页暗链检测方法和装置

Similar Documents

Publication Publication Date Title
CN110909548B (zh) 中文命名实体识别方法、装置及计算机可读存储介质
CN107679401A (zh) 一种恶意网页识别方法和装置
Mori et al. Recognizing objects in adversarial clutter: Breaking a visual CAPTCHA
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN110334213B (zh) 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN103324745B (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
CN103729474B (zh) 用于识别论坛用户马甲账号的方法和系统
WO2016033907A1 (zh) 一种基于统计机器学习的互联网暗链检测方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN103258037A (zh) 一种针对多组合内容的商标识别检索方法
TW201214169A (en) Recognition of target words using designated characteristic values
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN102170447A (zh) 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN107181730A (zh) 一种仿冒网站监测识别方法及系统
CN105718552A (zh) 基于服装手绘草图的服装图像检索方法
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
Kumar et al. Multi-script robust reading competition in ICDAR 2013
Dong et al. An adult image detection algorithm based on Bag-of-Visual-Words and text information
US20160283582A1 (en) Device and method for detecting similar text, and application
CN110807183A (zh) 一种多维度特征体系的滑动验证码人机行为识别方法
CN112084308A (zh) 用于文本类型数据识别的方法、系统及存储介质
CN107644162A (zh) 一种Web攻击识别方法和装置
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209