CN102592067B - 一种网页识别方法、装置及系统 - Google Patents
一种网页识别方法、装置及系统 Download PDFInfo
- Publication number
- CN102592067B CN102592067B CN201110009183.XA CN201110009183A CN102592067B CN 102592067 B CN102592067 B CN 102592067B CN 201110009183 A CN201110009183 A CN 201110009183A CN 102592067 B CN102592067 B CN 102592067B
- Authority
- CN
- China
- Prior art keywords
- webpage
- information
- input
- swindle
- hyperlink
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明适用于计算机技术领域,提供了一种网页识别方法、装置及系统,所述方法包括下述步骤:获取输入网页的页面信息;在预设的时间内,通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息。本发明通过预先构建的分析器对页面信息进行分析,输出该网页是否为欺诈网页的信息,解决了由于现有技术采用网页匹配的方法来识别欺诈网页,导致欺诈网页的识别率低、识别效率不高的问题,提高了欺诈网页的识别率和识别效率,从而增强了网络的安全性。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种网页识别方法、装置及系统。
背景技术
随着互联网的价值不断增加,互联网安全问题已成为用户关注的重点,目前以钓鱼等欺诈网站为代表的信息盗取方法成为互联网安全产品防范的重点,然而,现有技术对欺诈网页主要通过采用恶意网页匹配的方法(如,通过人工输入恶意网页)来识别,例如使用余弦相似度、网页去重算法(如shingle算法)等恶意种子页面匹配,关键字匹配等,从而识别欺诈网页,现有技术对欺诈网页的识别技术存在以下问题:
(1)相似度匹配需要不断添加大量的种子网页,即恶意网页样品。随着种子库的增多,匹配计算极为耗时,更重要的是,种子网页的添加存在滞后性,难以应对欺诈网页的不断更新;
(2)关键词匹配准确率太低。常常会误杀一些包含类似词条的正常网页,比如新闻、小说等;
(3)用户举报以及人工录入更无法应对海量网页的变化需求。
由于现有技术的上述缺点,导致欺诈网页的识别率低、识别效率不高,降低了网络的安全性。
发明内容
本发明实施例的目的在于提供一种网页识别方法、装置及系统,旨在解决由于现有技术采用网页匹配的方法(如,通过人工输入恶意网页)来识别欺诈网页,导致欺诈网页的识别率较低的问题。
本发明实施例是这样实现的,一种网页识别方法,所述方法包括下述步骤:
获取输入网页的页面信息;
在预设的时间内,通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息,所述分析器为文本分类器或盗链分析器;
当所述分析器为文本分类器时,所述通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息的步骤具体为:
从页面信息中获取输入网页的特征词条,以及输入网页中超链接对应的链接网页的特征词条;
根据输入网页及其链接网页的特征词条,获取输入网页及其链接网页属于预设的欺诈网页类的概率;
当输入网页属于欺诈网页类的概率大于预设值时,输出输入网页为欺诈网页的信息;
当输入网页属于欺诈网页类的概率不大于预设值时,所述链接网页属于欺诈网页类的概率大于预设值时,输出输入网页为欺诈网页的信息;
当所述分析器为盗链分析器时,所述通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息的步骤具体为:
在预先收集的合法网页信息中检索输入网页的信息;
当未检索到输入网页的信息时,获取输入网页包含合法超链接的数目,计算所述合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目;
当输入网页包含合法超链接的数目、所述合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目超过各自的预设值时,输出该网页为盗链网页的信息。
本发明实施例的另一目的在于提供一种网页识别装置,所述装置包括:
页面信息获取单元,用于获取输入网页的页面信息;以及
信息输出单元,用于在预设的时间内,通过预先构建的分析器对所述页面信息获取单元中输入网页的页面信息进行分析,输出所述网页是否为欺诈网页的信息,所述分析器为文本分类器或盗链分析器;
当所述分析器为文本分类器时,所述信息输出单元包括:
特征词条获取单元,用于从输入网页页面信息中获取所述网页的特征词条,以及输入网页中超链接对应的链接网页的特征词条;
概率获取单元,用于根据所述特征词条获取单元获取的输入网页及其链接网页的特征词条,获取输入网页及其链接网页属于预设的欺诈网页类的概率;
第一信息输出子单元,用于当输入网页属于欺诈网页类的概率大于预设值时,输出所述输入网页为欺诈网页的信息;以及
第二信息输出子单元,用于当输入网页属于欺诈网页类的概率不大于预设值时,链接网页属于欺诈网页类的概率大于预设值时,输出输入网页为欺诈网页的信息;
当所述分析器为盗链分析器时,所述信息输出单元包括:
信息检索单元,用于在预先收集的合法网页信息中检索输入网页的信息;
盗链信息获取单元,用于当所述信息检索单元未检索到输入网页的信息时,获取输入网页包含合法超链接的数目,计算所述合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目;以及
第三信息输出子单元,用于当输入网页包含合法超链接的数量、所述合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目超过各自的预设值时,输出该网页为盗链网页的信息。
本发明实施例的另一目的在于提供一种包括上述网页识别装置的系统。
本发明实施例通过获取输入网页的页面信息,在预设的时间内,通过预先构建的分析器对页面信息进行分析,输出该网页是否为欺诈网页的信息,解决了由于现有技术采用网页匹配的方法来识别欺诈网页,导致欺诈网页的识别率低、识别效率不高的问题,提高了欺诈网页的识别率和识别效率,从而提高了网络的安全性。
附图说明
图1是本发明第一实施例提供的网页识别方法的实现流程图;
图2是本发明第二实施例提供的网页识别方法的实现流程图;
图3是本发明第三实施例提供的网页识别方法的实现流程图;
图4是本发明第四实施例提供的网页识别方法的实现流程图;
图5是本发明第五实施例提供的网页识别方法的输入网页实例;
图6是本发明第六实施例提供的网页识别装置的结构图;
图7是本发明第六实施例提供的网页识别装置的结构图;
图8是本发明第六实施例提供的网页识别装置的结构图;
图9是本发明第七实施例提供的网页识别方法的具体实例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过获取输入网页的页面信息,在预设的时间内,通过预先构建的分析器对页面信息进行分析,输出该网页是否为欺诈网页的信息,解决了由于现有技术采用网页匹配的方法来识别欺诈网页,导致欺诈网页的识别率低、识别效率不高的问题,提高了欺诈网页的识别率和识别效率,从而增强了网络的安全性。
本发明实施例提供了一种网页识别方法,所述方法包括下述步骤:
获取输入网页的页面信息;
在预设的时间内,通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息。
本发明实施例还提供了一种网页识别装置,所述装置包括:
页面信息获取单元,用于获取输入网页的页面信息;以及
信息输出单元,用于在预设的时间内,通过预先构建的分析器对所述页面信息获取单元中输入网页的页面信息进行分析,输出所述网页是否为欺诈网页的信息。
本发明实施例还提供了一种包括上述网页识别装置的系统。
本发明实施例通过获取输入网页的页面信息,在预设的时间内,通过预先构建的分析器对页面信息进行分析,输出该网页是否为欺诈网页的信息,解决了由于现有技术采用网页匹配的方法来识别欺诈网页,导致欺诈网页的识别率低、识别效率不高的问题,提高了欺诈网页的识别率和识别效率,从而增强了网络的安全性。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
盗链网页属于欺诈网页的一种,盗链是指网页提供者自己不提供服务的内容,通过技术手段选择性在自己的网站上向最终用户提供其它服务提供商的服务内容,骗取最终用户的浏览和点击率。大量钓鱼网页例如假冒的淘宝网、假冒的网上银行等通过盗链技术获取官方网页的CSS样式表、图像、flash等元素输出在具有仿冒正式站点的网页内,内容和官方页面极为相似,引诱用户上当,而在支付、提交等按钮内的超链接则跳至其设置的页面来骗取用户帐号、密码等用户隐私信息,盗链网页具有一定的针对性,主要针对常用的电子商务交易平台、网上支付网站、以及网上银行等可获取经济利益的站点页面。
图1示出了本发明第一实施例提供的网页识别方法的实现流程,详述如下:
在步骤S101中,获取输入网页的页面信息。
在本发明实施例中,该网页可以是客户端代理(如浏览器)发送网页请求后返回的网页页面,也可以是如搜索引擎类抓取的网页,通过相应的网页解析程序(Parser)对输入网页进行解析后,从而获取输入网页的页面信息。
在步骤S102中,在预设的时间内,通过预先构建的分析器对页面信息进行分析,输出网页是否为欺诈网页的信息。
在本发明实施例中,为了保证对持续输入网页的持续识别,应预先设置对该网页的分析时间,预设的时间应根据系统对欺诈网页识别的实时性要求进行设置,当对网页识别要求实时性高时,应设置较短的分析时间,否则可以设置较长的分析时间。
在本发明实施例中,根据步骤S102中对输入页面信息的分析结果,确定网页是否属于预设的欺诈网页类,例如,为假中奖、假机票、以及假药类欺诈网页,当网页属于预设的欺诈网页类时,则输出网页为欺诈网页的信息。
实施例二:
本发明实施例根据用户预先设置的欺诈网页类,计算输入网页属于欺诈网页类的概率,判断输入网页是否为欺诈网页,从而实现对欺诈网页的识别,有效提高了欺诈网页的识别率、以及网络的安全性。
图2示出了本发明第二实施例提供的网页识别方法的实现流程,详述如下:
在步骤S201中,获取输入网页的特征词条,以及输入网页中超链接对应的链接网页的特征词条。
在本发明实施例中,当客户端(如浏览器)请求访问网页,或通过网络爬虫程序(Crawler)抓取网页时,通过网页解析程序(Parser)对请求、抓取的网页进行解析,获取网页的页面信息并存储,例如:网页标题信息、网页中输入框前的文本信息、版权信息、网页包含的链接网页的超链接信息等信息,并从中提取网页的特征词条,特征词条反映了网页的种类特点,特征词条的提取可以使用词条出现的频率、位置等信息来获取,在此不用以限制本发明。在具体实施过程中,由于输入网页中超链接数目不同,因此,在获取超链接对应的链接网页时,无法实施对输入网页包含的所有链接网页进行分析,所以链接网页应满足一定的预置条件,例如,通过一定广告过滤器对广告链接进行过滤,设置需要分析的超链接对应网页的数目等。
在步骤S202中,获取输入网页及其链接网页属于预设的欺诈网页类的概率。
在本发明实施例中,若根据步骤S201中获取的表示网页d的特征词条为<t1,t2,...,tk,...,t|T|>,其中tk为第k条特征词条,|T|为输入网页d的特征词条总数,通过公式
计算网页d属于欺诈网页类cj的概率P(cj|d),其中,P(cj)为预先获取的cj类欺诈网页样本在所有网页样本中所占的比例,P(tk|cj)预先获取的cj类欺诈网页样本中包含特征词条tk的概率,N(tk,d)表示特征词条tk在输入网页d中出现的次数,|C|为欺诈网页类的类别数目,|C|=2,即当网页d属于欺诈网页类cj的概率大于预设值时,则判断网页d属于欺诈网页类cj,否则网页d不属于欺诈网页类cj。
在本发明实施例中,P(cj)和P(tk|cj)的获取是通过大量的样本训练获得的,其中P(cj)表示为cj类欺诈网页样本在所有网页样本中所占的比例,用Nc表示为cj类所包含的网页数目,N为所有类别的训练样本总数,则P(tk|cj)为特征词条tk在cj欺诈网页类中出现的频率,其中Tcj是特征词条tk在欺诈网页类cj的训练样本集合中出现的词频,Tci为欺诈网页类cj特征词条ti的词频,V为欺诈网页类cj特征词条集合,词频为特征词条在网页不同位置上出现次数之和。另外,由于可能存在数据稀疏性,为了防止零概率的出现,在具体的实施过程中,对P(tk|cj)进行拉普拉斯平滑化处理,则P(tk|cj)为:
其中,dj,i表示训练集合cj类中第i个网页,|T|表示训练样本中收集的特征词条总数,N(tk,dj,i)表示特征词条tk在网页dj,i中出现的次数,|D|为训练样本cj类欺诈网页的总数。根据P(tk|cj)的计算公式和给定的初始训练集合,分别获得预设的特征词条列表中每个特征词条属于欺诈网页类别的概率。
在步骤S203中,判断输入网页属于欺诈网页类的概率是否大于预设值,是则执行步骤S206,否则执行步骤S204。
在步骤S204中,判断输入网页包含的超链接对应的链接网页属于欺诈网页类的概率是否大于预设值,是则执行步骤S206,否则执行步骤S205。
在本发明实施例中,当输入网页属于欺诈网页类的概率大于预设值时,输出该输入网页为欺诈网页的信息,当输入网页属于欺诈网页类的概率不大于预设值时,其链接网页属于欺诈网页类的概率大于预设值时,输出该输入网页为欺诈网页的信息。在具体的实施过程中,两个预设值可以相同,也可以不同,当对系统的安全性要求较高时,可以将预设值设置较低,即当网页为欺诈网页的概率较低的情况下,输出网页为欺诈网页的信息的提示信息,当对系统的安全性要求较低时,可以及将预设值设置较高,从而只有在为欺诈网页的概率较高的情况下,才输出网页为欺诈网页的信息。在具体的实施过程中,可以根据用户输入的安全等级选择相应的预设值。
在步骤S205中,正常输出该输入网页的信息。
在本发明实施例中,当网页属于欺诈网页类的概率低于预设值时,正常输出该网页信息。
在步骤S206中,输出该输入网页为欺诈网页的信息。
在本发明实施例中,在接收到获取的网页页面信息前,需预先构建用来对页面信息进行分析的分析器,除了上述通过计算输入网页属于欺诈网页类的概率来识别欺诈网页的分析器外,还可以通过决策树、神经网络、以及支持向量机SVM等工具来构建相应的分类器。
在本发明实施例中,通过对大量欺诈网页类样本分析,获得欺诈网页在样本中发生的概率,以及特征词条在欺诈网页中出现的概率,继而根据输入网页页面信息中包含的特征词条,计算网页及其链接网页属于欺诈网页的概率,当该概率满足预设的欺诈网页判断条件时,输出相应的信息,提高了欺诈网页的识别率。
实施例三:
在本发明实施例中,盗链分析器用于分析判断网页是否为钓鱼网页等盗链网页类型的欺诈网页,由于盗链类欺诈网页有一定的针对性,可以根据预先收集的合法网页信息(白名单),判断输入网页与合法网页的相似度,从而确定网页是否为盗链网页。
在本发明实施例中,当分析器为盗链分析器时,通过对输入网页进行盗链分析,识别出钓鱼网页等盗链类型的欺诈网页,并通过对盗链网页的信息分析获取正确的合法网页信息(官方网页),向用户提供正确的合法网页信息。
图3示出了本发明第三实施例提供的网页识别方法的实现流程,详述如下:
在步骤S301中,在预先收集的合法网页信息中检索输入网页的信息。
由于盗链类欺诈网页具有一定的针对性,减少了合法网页的收集数量,例如,盗链网页主要针对于电子商务交易网页、网上银行网页等可获取用户交易信息、身份信息的网页,因此,在本发明实例中,可以预先收集一些合法网页的信息,例如,合法网页的域名、对应的统一资源定位符(Uniform ResourceLocator,URL)等可标识合法网页的信息。
在步骤S302中,检测在预先收集的合法网页信息中是否检索到输入网页,是则执行步骤S307,否则执行步骤S303。
在步骤S303中,获取输入网页包含合法超链接的数目,计算合法超链接的数目占输入网页中包含的超链接总数的比值,以及输入网页包含预先存储的关键词列表中关键词的数目。
在本发明实施中,从输入网页的页面信息中获取超链接的总数,并通过在收集的合法网页信息中检索输入网页包含的超链接,从而获得合法超链接的数目占输入网页中包含的超链接总数的比值,同时,通过关键词匹配,获得输入网页中包含的关键词在预先存储的关键词列表中的数目。在具体实施过程中,由于输入网页中包含的超链接数目不同,因此,在获取超链接对应的链接网页时,无法实施对输入网页包含的所有链接网页进行分析,所以链接网页应满足一定的预置条件,例如,通过一定广告过滤器对广告链接进行过滤,设置分析的超链接对应网页的数目等。
在步骤S304中,判断输入网页包含合法超链接的数目、合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目是否超过各自的预设值,是则执行步骤S305,否则执行步骤S307。
在本发明实施例中,关键词列表中存储了合法网页中包含的关键词,例如:网页标题、版权信息、网页中输入框前的文本关键词等,网页可包含的合法超链接的数目的预设置、合法超链接的数目占输入网页包含的超链接总数的比值的预设值、以及输入网页包含存储的关键词列表中关键词的数目的预设值可以通过对盗链网页样本中的关键词信息进行分析获得,例如,当合法超链接的数量>10、合法超链接数目/超链接总数>0.5、关键词与合法网页中包括的关键词相同的数目>=3时,则输出该网页为盗链网页,具体的数值应根据系统的安全要求进行设置,当系统安全要求高时,则将三个数值相应地设置为较小的数值,否则相反,在具体的实施过程中,可以设置相应的标志位供用户选择安全等级,从而通过安全等级与预设值之间的关系设置相应的关键词。
在步骤S305中,输出该网页为欺诈网页的信息。
在步骤S306中,根据获取的网页页面信息,获取输入网页的正确网页地址信息,输出包括获取的正确网页地址信息的提示信息。
在本发明实施例中,当确定该网页为盗链网页后,该网页对应的正确网页地址信息可以通过该网页中出现次数最多的正确网页的超链接信息来获取。例如从获取的页面信息中获取该网页中出现次数最多的正确网页的超链接信息,将该超链接信息作为正确网页的地址信息。
在步骤S307中,正常输出该网页的信息。
在本发明实施例中,在收集的合法网页信息中未检索到该输入网页,而其包含合法超链接的数目、合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目超过各自的预设值,则输出该网页欺诈网页的信息,并获取该欺诈网页的正确网页信息,向用户输出,从而提高了系统的安全性以及智能化程度,有效地保护了用户帐户信息。
实施例四:
在本发明实施例中,当分析器包括文本分类器和盗链分析器时,通过计算输入网页属于欺诈网页的概率,以及对输入网页进行盗链类欺诈分析,从而有效识别出欺诈网页。
图4示出了本发明第四实施例提供的网页识别方法的实现流程,详述如下:
在步骤S401中,获取输入网页的页面信息。
在步骤S402中,获取输入网页及其链接网页的特征词条。
在本发明实施例中,当客户端(如浏览器)请求访问网页,或通过网络爬虫程序(Crawler)抓取网页时,通过网页解析程序(Parser)对请求、抓取的网页进行解析,获取网页的页面信息并存储,例如:网页标题信息、网页中输入框前的文本信息、版权信息、网页包含的链接网页的超链接信息等信息,并从中提取网页的特征词条,特征词条的提取可以使用词条出现的频率、位置等信息来获取,在此不用以限制本发明。在具体实施过程中,由于输入网页中超链接数目不同,因此,在获取超链接对应的链接网页时,无法实施对输入网页包含的所有链接网页进行分析,所以链接网页应满足一定的预置条件,例如,通过一定广告过滤器对广告链接进行过滤,设置分析的超链接对应网页的数目等。
在步骤S403中,获取输入网页及其链接网页属于预设的欺诈网页类的概率。
在本发明实施例中,若根据步骤S402中获取的表示网页d的特征词条为<t1,t2,...,tk,...,t|T|>,其中tk为第k条特征词条,|T|为输入网页d的特征词条总数,通过公式
计算网页d属于欺诈网页类cj的概率P(cj|d),其中,P(cj)为预先获取的cj类欺诈网页样本在所有网页样本中所占的比例,P(tk|cj)预先获取的cj类欺诈网页样本中包含特征词条tk的概率,N(tk,d)表示特征词条tk在输入网页d中出现的次数,|C|为欺诈网页类的类别数目,|C|=2。即当网页d属于欺诈网页类cj的概率大于预设值时,则判断网页d属于欺诈网页类cj,否则网页d不属于欺诈网页类cj。
在本发明实施例中,P(cj)和P(tk|cj)的获取是通过大量的样本训练获得的,其中P(cj)表示为cj类欺诈网页样本在所有网页样本中所占的比例,用Nc表示为cj类所包含的网页数目,N为所有类别的训练样本总数,则P(tk|cj)为特征词条tk在cj欺诈网页类中出现的频率,其中Tcj是特征词条tk在欺诈网页类cj的训练样本集合中出现的词频,Tci为欺诈网页类cj特征词条ti的词频,V为欺诈网页类cj特征词条集合,词频为特征词条在网页不同位置上出现次数之和。另外,由于可能存在数据稀疏性,为了防止零概率的出现,在具体的实施过程,对P(tk|cj)进行拉普拉斯平滑化处理,则P(tk|cj)为:
其中,dj,i表示训练集合cj类中第i个网页,|T|表示训练样本中收集的特征词条总数,N(tk,dj,i)表示特征词条tk在网页dj,i中出现的次数,|D|为训练样本cj类欺诈网页的总数。根据P(tk|cj)的计算公式和给定的初始训练集合,分别获得预设的特征词条列表中每个特征词条属于欺诈网页类别的概率。
在步骤S404中,判断输入网页属于欺诈网页类的概率是否大于预设值,是则执行步骤S414,否则执行步骤S405。
在步骤S405中,判断输入网页的链接网页属于欺诈网页类的概率是否大于预设值,是则执行步骤S414,否则执行步骤S406。
在步骤S406中,正常输出该输入网页的信息。
在预设的时间内,通过盗链分析器对网页页面信息进行分析。
在本发明实施例中,盗链分析器对网页页面信息进行分析的分析时间可以与文本分类器的分类时间相同,也可以不同。
在步骤S407中,在预先收集的合法网页信息中检索输入网页的信息。
由于盗链类欺诈网页具有一定的针对性,减少了合法网页的收集数量,例如,盗链网页主要针对于电子商务交易网页、网上银行网页等可获取用户交易信息、身份信息的网页,因此,在本发明实例中,可以预先收集一些合法网页的信息,例如,合法网页的域名、对应的URL等可标识合法网页的信息。
在步骤S408中,检测在预先收集的合法网页信息中是否检索输入网页,是则执行步骤S404,否则执行步骤S409。
在步骤S409中,获取输入网页包含合法超链接的数目,计算合法超链接的数目占输入网页中包含的超链接总数的比值。
在步骤S410中,计算输入网页包含存储的关键词列表中关键词的数目。
在本发明实施中,从输入网页的页面信息中获取超链接的总数,并通过在收集的合法网页信息中检索输入网页包含的超链接,从而获得合法超链接的数目占输入网页中包含的超链接总数的比值,同时,通过关键词匹配,获得输入网页中包含的关键词在预先存储的关键词列表中的数目。
在步骤S411中,判断输入网页包含合法超链接的数目、合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目是否超过各自的预设值,是则执行步骤S412,否则执行步骤S404。
在本发明实施例中,关键词列表中存储了合法网页中包含的关键词,例如:网页标题、版权信息、网页中输入框前的文本关键词等,网页可包含的合法超链接的数目的预设置、合法超链接的数目占输入网页包含的超链接总数的比值的预设值、以及输入网页包含存储的关键词列表中关键词的数目的预设值可以通过对盗链网页样本中的关键词信息进行分析获得,例如,当合法超链接的数量>10、合法超链接数目/超链接总数>0.5、关键词与合法网页中包括的关键词相同的数目>=3,则输出该网页为盗链网页,具体的数值应根据系统的安全要求进行设置,当系统安全要求高时,则将三个数值相应地设置为较小的数值,否则相反,在具体的实施过程中,可以设置相应的标志位供用户选择安全等级,从而通过安全等级与预设值之间的关系设置相应的关键词。
在步骤S412中,根据获取的网页页面信息,获取输入网页的正确网页地址信息,输出包括获取的正确网页地址信息的提示信息。
在本发明实施例中,当确定该网页为盗链网页后,该网页对应的正确网页地址信息可以通过该网页中出现次数最多的正确网页的超链接信息来获取。例如从获取的页面信息中获取该网页中出现次数最多的正确网页的超链接信息,将该超链接信息作为正确网页的地址信息。
在步骤S413中,输出包括获取的正确网页地址信息的提示信息。
在步骤S414中,输出该网页为欺诈网页的信息。
实施例五:
在本发明实施例中,当输入网页为:http://caifutongveg.web239.51vip.sh.cn/cft.html时,如图5所示,通过在预先收集的合法网页信息中检索该网页,未检索到该网页的信息,进一步获取该网页包含的超链接的数目为70个(为了实现网页识别的实时性,此时限制最大可分析链接数为70个),在预先收集的合法网页信息中检索这些网页,获取其中包含的合法超链接的数目为66个,标题title和版权copyright中包含关键词“腾讯”的总数为3,分别为1和2,计算合法超链接的数目占输入网页中包含的超链接总数的比值为66/70=0.9429,因此,可以得出该见面中包含的合法超链接的数量>10、合法超链接数目/超链接总数>0.5、关键词与合法网页中包括的关键词相同的数目>=3,则可以得到该网页为盗链网页的信息,其中该网页中合法超链接中包含最多的超链接地址为www.tenpay.com,总共为61次,因此,该钓鱼网页对应的合法网页的地址为:https://www.tenpay.com。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例六:
图6示出了本发明第六实施例提供的网页识别装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该网页识别装置可以用于具有网页获取功能的系统,例如网页浏览器、搜索引擎等系统中,也可以作为独立的挂件集成到这些系统中,其中:
页面信息获取单元61获取输入网页的页面信息。
在本发明实施例中,该网页可以是客户端代理(如浏览器)发送网页请求后返回的网页页面,也可以是如搜索引擎类抓取的网页,通过相应的网页解析程序(Parser)对输入的网页进行解析后,从而获取输入网页的页面信息。
信息输出单元62在预设的时间内,通过预先构建的分析器对页面信息获取单元61中输入网页的页面信息进行分析,输出网页是否为欺诈网页的信息。
在本发明实施例中,在接收到获取的网页页面信息前,需预先构建用来对页面信息进行分析的分析器,分析器可以为文本分类器、盗链分析器、图片分类器等,可以设置一个或多个文本分类器对获取的页面信息进行分类,判断该网页是否属于用户预设的欺诈网页的类型中,从而达到对欺诈网页的识别。
在本发明实施例中,信息输出单元62中预先构建的分析器可以为文本分类器、盗链分析器,当分析器为文本分析时,信息输出单元62具体如图7所示,包括:
特征词条获取单元721,用于从输入网页页面信息中获取输入网页的特征词条,以及输入网页中超链接对应的链接网页的特征词条。
在本发明实施例中,当客户端(如浏览器)请求访问网页,或通过网络爬虫程序(Crawler)抓取网页时,通过网页解析程序(Parser)对请求、抓取的网页进行解析,获取网页的页面信息并存储,例如:网页标题信息、网页中输入框前的文本信息、版权信息、网页包含的链接网页的超链接信息等信息,并从中提取网页的特征词条,特征词条的提取可以使用词条出现的频率、位置等信息来获取,在此不用以限制本发明。在具体实施过程中,由于输入网页中超链接数目不同,因此,在获取超链接对应的链接网页时,无法实施对输入网页包含的所有链接网页进行分析,所以链接网页应满足一定的预置条件,例如,通过一定广告过滤器对广告链接进行过滤,设置分析的超链接对应网页的数目等。
概率获取单元722,用于根据特征词条获取单元721获取的输入网页及其链接网页的特征词条,获取输入网页及其链接网页属于预设的欺诈网页类的概率。
在本发明实施例中,若根据特征词条获取单元721中获取的表示网页d的特征词条为<t1,t2,...,tk,...,t|T|>,其中tk为第k条特征词条,|T|为输入网页d的特征词条总数,通过公式
计算网页d属于欺诈网页类cj的概率P(cj|d),其中,P(cj)为预先获取的cj类欺诈网页样本在所有网页样本中所占的比例,P(tk|cj)预先获取的cj类欺诈网页样本中包含特征词条tk的概率,N(tk,d)表示特征词条tk在输入网页d中出现的次数,|C|为欺诈网页类的类别数目,|C|=2。
在本发明实施例中,P(cj)和P(tk|cj)的获取是通过大量的样本训练获得的,其中P(cj)表示为cj类欺诈网页样本在所有网页样本中所占的比例,用Nc表示为cj类所包含的网页数目,N为所有类别的训练样本总数,则P(tk|cj)为特征词条tk在cj欺诈网页类中出现的频率,其中Tcj是特征词条tk在欺诈网页类cj的训练样本集合中出现的词频,Tci为欺诈网页类cj特征词条ti的词频,V为欺诈网页类cj特征词条集合,词频为特征词条在网页不同位置上出现次数之和。另外,由于可能存在数据稀疏性,为了防止零概率的出现,在具体的实施过程,对P(tk|cj)进行拉普拉斯平滑化处理,则P(tk|cj)为:
其中,dj,i表示训练集合cj类中第i个网页,|T|表示特征词条总数,N(tk,dj,i)表示特征词条tk在网页dj,i中出现的次数,|D|为训练样本cj类欺诈网页的总数。根据P(tk|cj)的计算公式和给定的初始训练集合,分别获得预设的特征词条列表中每个特征词条属于某欺诈网页类别的概率。
第一信息输出子单元723,用于当输入网页属于欺诈网页类的概率大于预设值时,输出输入网页为欺诈网页的信息。
第二信息输出子单元724,用于当输入网页属于欺诈网页类的概率不大于预设值时,链接网页属于欺诈网页类的概率大于预设值时,输出该输入网页为欺诈网页的信息。
当分析器为盗链分析器时,信息输出单元62具体如图8所示,包括:
信息检索单元821,用于在预先收集的合法网页信息中检索输入网页的信息。
由于盗链类欺诈网页具有一定的针对性,减少了合法网页的收集数量,例如,盗链网页主要针对于电子商务交易网页、网上银行网页等可获取用户交易信息、身份信息的网页,因此,在本发明实例中,可以预先收集一些合法网页的信息,例如,合法网页的域名、对应的URL等可标识合法网页的信息。
盗链信息获取单元822,用于当信息检索单元未检索到输入网页的信息时,根据存储的合法网页列表,获取输入网页包含合法超链接的数目,计算合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目。
第三信息输出子单元823,用于当输入网页包含合法超链接的数量、合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目超过各自的预设值时,输出该网页为盗链网页的信息。
地址信息输出单元824,用于当第三信息输出子单元输出输入网页为盗链网页的信息时,获取输入网页对应的正确网页的地址信息,输出正确网页的地址信息。
在本发明实施例中,当确定该网页为盗链网页后,该网页对应的正确网页地址信息可以通过该网页中出现次数最多的正确网页的超链接信息来获取。例如从获取的页面信息中获取该网页中出现次数最多的正确网页的超链接信息,将该超链接信息作为正确网页的地址信息。
实施例七:
图9示出了本发明第七实施例提供的网页识别方法的具体实例,为了便于说明,仅示出了与本发明实施例相关的部分。
超链接队列91存储了输入网页的超链接信息,异步网页爬虫(Crawler)92异步获取超链接对应的网页,网页解析器(Parser)93对获取的网页进行解析,获取该网页的页面信息,并将链接网页的超链接信息存储在数据库中94,文本分类器95根据页面信息对输入的网页进行分类,在具体的实施过程中,文本分类器95可以包括多个文本分类器,例如:文本分类器1、文本分类器2以及文本分类器3,每个文本分类器只能识别一种欺诈网页类型,盗链分析器96根据页面信息、数据库97中的合法超链接信息、以及数据库中98存储的关键词对输入的网页进行盗链分析,最后输出网页分析的结果信息。
本发明实施例通过获取输入网页的页面信息,通过计算输入网页属于欺诈网页的概率,以及对输入网页进行盗链类欺诈分析,判断该网页是否为欺诈网页的信息,当确定该网页为盗链网页类网页时,通过输入网页中出现次数最多的正确网页的超链接信息来获取该网页对应的正确网页地址信息,解决了欺诈网页的识别率低、识别效率不高的问题,提高了欺诈网页的识别率和识别效率,从而增强了网络的安全性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种网页识别方法,其特征在于,所述方法包括下述步骤:
获取输入网页的页面信息;
在预设的时间内,通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息,所述分析器为文本分类器或盗链分析器;
当所述分析器为文本分类器时,所述通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息的步骤具体为:
从页面信息中获取输入网页的特征词条,以及输入网页中超链接对应的链接网页的特征词条;
根据输入网页及其链接网页的特征词条,获取输入网页及其链接网页属于预设的欺诈网页类的概率;
当输入网页属于欺诈网页类的概率大于预设值时,输出输入网页为欺诈网页的信息;
当输入网页属于欺诈网页类的概率不大于预设值时,所述链接网页属于欺诈网页类的概率大于预设值时,输出输入网页为欺诈网页的信息;
当所述分析器为盗链分析器时,所述通过预先构建的分析器对所述页面信息进行分析,输出所述网页是否为欺诈网页的信息的步骤具体为:
在预先收集的合法网页信息中检索输入网页的信息;
当未检索到输入网页的信息时,获取输入网页包含合法超链接的数目,计算所述合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目;
当输入网页包含合法超链接的数目、所述合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目超过各自的预设值时,输出该网页为盗链网页的信息。
2.如权利要求1所述的方法,其特征在于,所述获取输入网页及其链接网页属于预设的欺诈网页类的概率的获取方式为:
根据表示网页d的特征词条<t1,t2,...,tk,...,t|T|>,其中tk为第k条特征词条,|T|为输入网页d的特征词条总数,通过公式
计算网页d属于欺诈网页类cj的概率P(cj|d),其中,P(cj)为预先获取的cj类欺诈网页样本在所有网页样本中所占的比例,P(tk|cj)为cj类欺诈网页样本中包含特征词条tk的概率,N(tk,d)表示特征词条tk在输入网页d中出现的次数,|C|为欺诈网页类的类别数目。
3.如权利要求1所述的方法,其特征在于,所述方法还包括下述步骤:
当输出该网页为盗链网页的信息时,获取输入网页对应的正确网页的地址信息,输出所述正确网页的地址信息。
4.一种网页识别装置,其特征在于,所述装置包括:
页面信息获取单元,用于获取输入网页的页面信息;以及
信息输出单元,用于在预设的时间内,通过预先构建的分析器对所述页面信息获取单元中输入网页的页面信息进行分析,输出所述网页是否为欺诈网页的信息,所述分析器为文本分类器或盗链分析器;
当所述分析器为文本分类器时,所述信息输出单元包括:
特征词条获取单元,用于从输入网页页面信息中获取所述网页的特征词条,以及输入网页中超链接对应的链接网页的特征词条;
概率获取单元,用于根据所述特征词条获取单元获取的输入网页及其链接网页的特征词条,获取输入网页及其链接网页属于预设的欺诈网页类的概率;
第一信息输出子单元,用于当输入网页属于欺诈网页类的概率大于预设值时,输出所述输入网页为欺诈网页的信息;以及
第二信息输出子单元,用于当输入网页属于欺诈网页类的概率不大于预设值时,链接网页属于欺诈网页类的概率大于预设值时,输出输入网页为欺诈网页的信息;
当所述分析器为盗链分析器时,所述信息输出单元包括:
信息检索单元,用于在预先收集的合法网页信息中检索输入网页的信息;
盗链信息获取单元,用于当所述信息检索单元未检索到输入网页的信息时,获取输入网页包含合法超链接的数目,计算所述合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目;以及
第三信息输出子单元,用于当输入网页包含合法超链接的数量、所述合法超链接的数目占输入网页包含的超链接总数的比值、以及输入网页包含存储的关键词列表中关键词的数目超过各自的预设值时,输出该网页为盗链网页的信息。
5.如权利要求4所述的装置,特征在于,所述装置还包括:
地址信息输出单元,用于当所述第三信息输出子单元输出输入网页为盗链网页的信息时,获取输入网页对应的正确网页的地址信息,输出所述正确网页的地址信息。
6.一种网页识别系统,其特征在于,所述系统包括权利要求4或5所述的网页识别装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110009183.XA CN102592067B (zh) | 2011-01-17 | 2011-01-17 | 一种网页识别方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110009183.XA CN102592067B (zh) | 2011-01-17 | 2011-01-17 | 一种网页识别方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102592067A CN102592067A (zh) | 2012-07-18 |
CN102592067B true CN102592067B (zh) | 2014-07-30 |
Family
ID=46480697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110009183.XA Active CN102592067B (zh) | 2011-01-17 | 2011-01-17 | 一种网页识别方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102592067B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810178A (zh) * | 2012-11-07 | 2014-05-21 | 江苏仕德伟网络科技股份有限公司 | 一种计算网页完整率的方法 |
CN103810177A (zh) * | 2012-11-07 | 2014-05-21 | 江苏仕德伟网络科技股份有限公司 | 一种准确获取网站访问者在网页上真实停留时间的方法 |
CN103927480A (zh) * | 2013-01-14 | 2014-07-16 | 腾讯科技(深圳)有限公司 | 一种恶意网页的识别方法、装置和系统 |
CN104035936B (zh) * | 2013-03-06 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种网页信息一致性的识别方法及装置 |
CN103279710B (zh) * | 2013-04-12 | 2016-04-13 | 深圳市易聆科信息技术有限公司 | Internet信息系统恶意代码的检测方法和系统 |
CN103425736B (zh) * | 2013-06-24 | 2016-02-17 | 腾讯科技(深圳)有限公司 | 一种网页信息识别方法、装置及系统 |
CN103617213B (zh) * | 2013-11-19 | 2017-04-19 | 北京奇虎科技有限公司 | 识别新闻网页属性特征的方法和系统 |
CN103593615B (zh) * | 2013-11-29 | 2016-08-31 | 北京奇虎科技有限公司 | 一种网页篡改的检测方法及装置 |
CN104811418B (zh) * | 2014-01-23 | 2019-04-12 | 腾讯科技(深圳)有限公司 | 病毒检测的方法及装置 |
CN103870563B (zh) * | 2014-03-07 | 2017-03-29 | 北京奇虎科技有限公司 | 确定给定文本的主题分布的方法和装置 |
CN104102697B (zh) * | 2014-06-27 | 2018-07-31 | 深信服网络科技(深圳)有限公司 | 管理web应用中外链的方法及装置 |
CN104102740A (zh) * | 2014-07-30 | 2014-10-15 | 精硕世纪科技(北京)有限公司 | 分布式信息获取系统及方法 |
CN104182687B (zh) * | 2014-08-01 | 2016-10-05 | 北京奇虎科技有限公司 | 移动终端输入窗口的安全检测方法和安全检测装置 |
CN104484380A (zh) * | 2014-12-09 | 2015-04-01 | 百度在线网络技术(北京)有限公司 | 个性化搜索方法及装置 |
CN105812231B (zh) * | 2014-12-29 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 聊天记录的快速识别方法及其装置 |
CN106033515B (zh) * | 2015-03-16 | 2018-08-31 | 阿里巴巴集团控股有限公司 | 欺诈事件的识别方法和装置 |
CN106326236A (zh) * | 2015-06-18 | 2017-01-11 | 天脉聚源(北京)科技有限公司 | 一种网页内容识别方法和系统 |
CN105653941A (zh) * | 2015-07-31 | 2016-06-08 | 哈尔滨安天科技股份有限公司 | 一种启发式检测钓鱼网站的方法及系统 |
CN106355095B (zh) * | 2016-11-23 | 2018-10-19 | 吉林大学 | 利用模糊理论对欺诈网页识别的方法 |
CN107153716B (zh) * | 2017-06-06 | 2021-01-01 | 百度在线网络技术(北京)有限公司 | 网页内容提取方法和装置 |
CN107545179B (zh) * | 2017-07-11 | 2020-06-19 | 宁波大学 | 一种垃圾网页识别方法 |
CN108683666B (zh) * | 2018-05-16 | 2021-04-16 | 新华三信息安全技术有限公司 | 一种网页识别方法及装置 |
CN115004181A (zh) * | 2020-06-17 | 2022-09-02 | 深圳市欢太数字科技有限公司 | 网页检测方法、装置、电子设备以及存储介质 |
CN112084506A (zh) * | 2020-09-09 | 2020-12-15 | 重庆广播电视大学重庆工商职业学院 | 用于云平台可信度评估的方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777053A (zh) * | 2009-01-08 | 2010-07-14 | 北京搜狗科技发展有限公司 | 一种识别作弊网页的方法及系统 |
CN101820366A (zh) * | 2010-01-27 | 2010-09-01 | 南京邮电大学 | 一种基于预取的钓鱼网页检测方法 |
CN101826105A (zh) * | 2010-04-02 | 2010-09-08 | 南京邮电大学 | 基于匈牙利匹配算法的钓鱼网页检测方法 |
-
2011
- 2011-01-17 CN CN201110009183.XA patent/CN102592067B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777053A (zh) * | 2009-01-08 | 2010-07-14 | 北京搜狗科技发展有限公司 | 一种识别作弊网页的方法及系统 |
CN101820366A (zh) * | 2010-01-27 | 2010-09-01 | 南京邮电大学 | 一种基于预取的钓鱼网页检测方法 |
CN101826105A (zh) * | 2010-04-02 | 2010-09-08 | 南京邮电大学 | 基于匈牙利匹配算法的钓鱼网页检测方法 |
Non-Patent Citations (2)
Title |
---|
姚罡等.网络钓鱼的防范与对策.《理论探讨》.2010, |
网络钓鱼的防范与对策;姚罡等;《理论探讨》;20100131;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN102592067A (zh) | 2012-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102592067B (zh) | 一种网页识别方法、装置及系统 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
CN104040557B (zh) | 在线诈骗检测动态评分集合系统和方法 | |
CN104077396B (zh) | 一种钓鱼网站检测方法及装置 | |
CN101820366B (zh) | 一种基于预取的钓鱼网页检测方法 | |
CN103843003B (zh) | 识别网络钓鱼网站的方法 | |
CN102446255B (zh) | 一种检测页面篡改的方法及装置 | |
CN106056407A (zh) | 基于用户行为分析的网银用户画像方法及设备 | |
CN110602045B (zh) | 一种基于特征融合和机器学习的恶意网页识别方法 | |
CN104899508A (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN108038173B (zh) | 一种网页分类方法、系统及一种网页分类设备 | |
CN110781308A (zh) | 一种基于大数据构建知识图谱的反欺诈系统 | |
CN104202291A (zh) | 基于多因素综合评定方法的反钓鱼方法 | |
CN106779278A (zh) | 资产信息的评价系统及其信息的处理方法和装置 | |
CN104063450A (zh) | 热点信息分析方法及设备 | |
CN113098887A (zh) | 一种基于网站联合特征的钓鱼网站检测方法 | |
CN110427628A (zh) | 基于神经网络算法的web资产分类检测方法及装置 | |
CN112532624B (zh) | 一种黑链检测方法、装置、电子设备及可读存储介质 | |
CN102663060A (zh) | 一种识别被篡改网页的方法及装置 | |
CN104036190A (zh) | 一种检测页面篡改的方法及装置 | |
CN107330705A (zh) | 一种根据多数据源防欺诈的方法和系统 | |
CN114692593A (zh) | 一种网络信息安全监测预警方法 | |
CN104036189A (zh) | 页面篡改检测方法及黑链数据库生成方法 | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN112464051A (zh) | 一种异常数据检测方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |