CN107294918B - 一种钓鱼网页检测方法及装置 - Google Patents
一种钓鱼网页检测方法及装置 Download PDFInfo
- Publication number
- CN107294918B CN107294918B CN201610201615.XA CN201610201615A CN107294918B CN 107294918 B CN107294918 B CN 107294918B CN 201610201615 A CN201610201615 A CN 201610201615A CN 107294918 B CN107294918 B CN 107294918B
- Authority
- CN
- China
- Prior art keywords
- webpage
- detected
- phishing
- event
- rendering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
Abstract
本申请提供了一种钓鱼网页检测方法及装置。所述方法包括:调用网页渲染程序访问待检测网页;在渲染所述待检测网页的过程中,向所述待检测网页发送用户操作事件;基于所述待检测网页的渲染结果进行钓鱼网页的检测。依据本申请实施例,使钓鱼网页在渲染环境下正常打开,避免因钓鱼网页采用正常网页的网页源文件而导致无法检测钓鱼网页的问题;进一步在渲染待检测网页的过程中,向待检测网页发送用户操作事件,从而模拟了一个和真人浏览网页时一样的环境,使钓鱼网页在监测到用户操作事件后会正常打开原页面,以进行进步的检测,避免因钓鱼网页检测到非真人访问网页时展示非钓鱼网页,导致无法检测钓鱼网页的问题,提升了网页检测的准确率。
Description
技术领域
本申请涉及网页处理领域,特别是涉及一种钓鱼网页检测方法,以及一种钓鱼网页检测装置。
背景技术
钓鱼网页主要是通过仿冒真实网站的URL地址或是页面内容,伪装成银行及电子商务等类型的网页,或是利用真实网页服务器程序上的漏洞,在网页中插入危险的网页代码,以此来骗取用户银行或信用卡账号、密码等私人资料。
常规的钓鱼网页检测方案在检测一个URL是否是钓鱼网页时,通过访问该URL获取返回的网页源文件,例如HTML(超文本标记语言)文件,并解析提取其中的文本或图片特征,进一步基于提取的文本或图片特征进行识别。
然而,这种常规的机器检测方法已经无法应对层出不穷的新型钓鱼网页,为绕过网页检测,新型钓鱼网页通常会判断当前是真人访问还是机器检测,若识别为机器检测,则反馈一个非钓鱼网页,造成检测引擎漏报。
具体而言,新型钓鱼网页的网页源文件中通常会配置正常网页的文本或图片特征,只有在根据发生浏览器渲染行为确定为真人访问后,才会渲染出钓鱼网页,从而使得非浏览器环境的检测无法获取到钓鱼网页的识别依据,无法检测到钓鱼网页。进一步,即使采用浏览器环境检测钓鱼网页,有些钓鱼网页还会在网页渲染时,检测当前环境是否存在鼠标移动事件、是否支持Flash,如果不是,则确定非真人访问网页,展示一个非钓鱼的网页,从而无法识别。
此外,还有基于浏览器的非机器检测方案,当用户在浏览器访问一个页面时,即时检测已经打开的页面是否是钓鱼网站,但这种方案只能检测用户正访问的URL,无法进行批量化检测。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的消息处理方法和装置。
为了解决上述问题,本申请公开了一种钓鱼网页检测方法,所述方法包括:
调用网页渲染程序访问待检测网页;
在渲染所述待检测网页的过程中,向所述待检测网页发送用户操作事件;
基于所述待检测网页的渲染结果进行钓鱼网页的检测。
优选地,所述网页渲染程序为真实浏览器或基于开源的渲染引擎编写的模拟浏览器,所述开源的渲染引擎包括Webkit渲染引擎或Gecko渲染引擎。
优选地,所述用户操作事件包括键盘事件时,所述向所述待检测网页发送用户操作事件包括:
基于预定义的键盘按键创建键盘事件,向所述待检测网页发送所述键盘事件。
优选地,所述用户操作事件包括鼠标事件时,所述向所述待检测网页发送用户操作事件包括:
以当前鼠标所处位置为起点生成鼠标移动路径,创建记录所述鼠标移动路径的鼠标移动事件,向所述待检测网页发送所述鼠标移动事件。
优选地,所述用户操作事件包括鼠标事件时,所述向所述待检测网页发送用户操作事件包括:
基于所述当前鼠标所处位置创建鼠标点击事件,向所述待检测网页发送所述鼠标点击事件。
优选地,所述网页渲染程序支持JavaScript和FLASH中至少一种。
优选地,所述基于渲染后的待检测网页进行钓鱼网站的检测包括:
提取所述待检测网页的图像特征;
基于获得的图像特征识别所述待检测网页是否为钓鱼网页。
优选地,所述渲染结果在所述网页渲染程序中进行展示,所述提取所述待检测网页的图像特征包括:
对在所述网页渲染程序中展示的待检测网页进行网页截图。
优选地,所述渲染结果在所述网页渲染程序中不做展示,所述提取所述待检测网页的图像特征包括:
将所述待检测网页的渲染结果转换为图像数据;
获取所述图像数据作为所述待检测网页的图像特征。
优选地,所述基于获得的图像特征识别所述待检测网页是否为钓鱼网页包括:
提取所述图像特征的局部不变特征;
结合提取的局部不变特征与预置的合法网页的局部不变特征,统计所述待检测网页与对应的合法网页的相似度;
若所述相似度低于预设值,则确定所述待检测网页为钓鱼网页。
本申请还提供了一种钓鱼网页检测装置,所述方法包括:
网页访问模块,用于调用网页渲染程序访问待检测网页;
事件发送模块,用于在渲染所述待检测网页的过程中,向所述待检测网页发送用户操作事件;
渲染网页检测模块,用于基于所述待检测网页的渲染结果进行钓鱼网页的检测。
优选地,所述网页渲染程序为真实浏览器或基于开源的渲染引擎编写的模拟浏览器,所述开源的渲染引擎包括Webkit渲染引擎或Gecko渲染引擎。
优选地,所述事件发送模块,具体用于当所述用户操作事件包括键盘事件时,基于预定义的键盘按键创建键盘事件,向所述待检测网页发送所述键盘事件。
优选地,所述事件发送模块,具体用于当所述用户操作事件包括鼠标事件时,以当前鼠标所处位置为起点生成鼠标移动路径,创建记录所述鼠标移动路径的鼠标移动事件,向所述待检测网页发送所述鼠标移动事件。
优选地,所述事件发送模块,具体用于基于所述当前鼠标所处位置创建鼠标点击事件,向所述待检测网页发送所述鼠标点击事件。
优选地,所述网页渲染程序支持JavaScript和FLASH中至少一种。
优选地,所述渲染网页检测模块包括:
特征提取子模块,用于提取所述待检测网页的图像特征;
特征识别子模块,用于基于获得的图像特征别所述待检测网页是否为钓鱼网页。
优选地,所述特征提取子模块,具体用于当所述渲染结果在所述网页渲染程序中进行展示时,对在所述网页渲染程序中展示的待检测网页进行网页截图。
优选地,所述特征提取子模块,具体用于当所述渲染结果在所述网页渲染程序中不做展示时,将所述待检测网页的渲染结果转换为图像数据;获取所述图像数据作为所述待检测网页的图像特征。
优选地,所述特征识别子模块包括:
局部特征提取子单元,用于提取所述图像特征的局部不变特征;
相似度计算子单元,用于结合提取的局部不变特征与预置的合法网页的局部不变特征,统计所述待检测网页与对应的合法网页的相似度;
相似度判断子单元,用于若所述相似度低于预设值,则确定所述待检测网页为钓鱼网页。
本申请实施例包括以下优点:
依据本申请实施例,调用网页渲染程序访问待检测网页,使钓鱼网页在渲染环境下正常打开,避免因钓鱼网页采用正常网页的网页源文件而导致无法检测钓鱼网页的问题;进一步在渲染待检测网页的过程中,向待检测网页发送用户操作事件,从而模拟了一个和真人浏览网页时一样的环境,使钓鱼网页在监测到用户操作事件后会正常打开原页面,以进行进步的检测,避免因钓鱼网页检测到非真人访问网页时展示非钓鱼网页,导致无法检测钓鱼网页的问题,提升了网页检测的准确率。
本申请实施例的网页渲染程序还可以支持JavaScript和FLASH中至少一种,以避免因钓鱼网页检测到不支持JavaScript或FLASH时展示非钓鱼网页,导致无法检测钓鱼网页的问题,在上述方案的基础上进一步提升了网页检测的准确率。
本申请实施例的网页浏览设备可以是基于开源的渲染引擎编写的模拟浏览器,相比于采用真实浏览器,仅需配置渲染页面的功能,可以减少对存储资源和处理资源的占用;并且,由于模拟浏览器在渲染后无需真正显示页面,节省了显示网页所需的硬件配置和资源消耗。
并且,本申请实施例不仅可以针对用户正访问的网页,还可以对大量待检测网页进行批量化检测。
附图说明
图1是本申请的一种钓鱼网页检测方法实施例1的步骤流程图;
图2是本申请的一种钓鱼网页检测方法实施例2的步骤流程图;
图3是本申请实施例的一个示例中钓鱼网页检测的示意图;
图4是本申请的一种钓鱼网页检测装置实施例1的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例1
参照图1,示出了本申请的一种钓鱼网页检测方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤101,调用网页渲染程序访问待检测网页。
本申请实施例调用网页渲染程序访问待检测网页,使钓鱼网页在渲染环境下正常打开,避免因钓鱼网页采用正常网页的网页源文件而导致无法检测钓鱼网页的问题。
网页渲染程序可以是任意可渲染网页的程序,例如浏览器或是其他可渲染网页的APP。
步骤102,在渲染所述待检测网页的过程中,向所述待检测网页发送用户操作事件。
网页渲染也叫网页排版,是指网页渲染程序获取网页的网页源文件,例如html(Hypertext Markup Language,超文本标记语言)文件,打开网页的过程即是浏览器渲染的过程,渲染的方式是根据CSS(Cascading Style Sheet,层叠样式表)来计算网页的显示方式然后输出到显示器或打印机。
在渲染网页的过程中,向待检测网页发送用户操作事件,用户操作事件是用户在浏览网页时通常都会有执行的行为。一般用户在访问网页的时候,都会有鼠标移动或点击的行为,在本申请实施例的网页检测过程中需要通过生成这些事件,用以模拟用户操作的环境,制造正常用户在浏览网页时的行为,这样可以让当前环境更接近真实的真人环境。
若该待检测网页为钓鱼网页,并且内置代码检测当前环境是否是真人操作,则进一步根据接收到的用户操作事件会判定为真人操作环境,则会正常打开钓鱼网页,避免因钓鱼网页检测到非真人访问网页时展示非钓鱼网页,导致无法检测钓鱼网页的问题,提升了网页检测的准确率。
其中,用户操作事件可以是鼠标事件、键盘事件或是真人环境下操作其他类型事件中至少一种。
步骤103,基于所述待检测网页的渲染结果进行钓鱼网页的检测。
在向渲染中的待检测网页发送用户操作事件后,进一步在待检测网页渲染完成之后,基于渲染结果进行钓鱼网页的检测。由此可见,本申请模拟了一个和真实用户浏览网页时一样的环境,让钓鱼网站以为是真实的人在访问,钓鱼网页能完整的展示出来,然后就可以根据网页中真正显示的文本,进行进一步的特征匹配。相比于背景技术存在钓鱼网页为避免机器检测配置包括正常特征的网页源文件,导致无法检测出钓鱼网页的问题。
综上所述,本申请通过采用网页渲染程序对待检测网页进行渲染,并在渲染过程中向网页发送用户操作事件,目的是让网页中不管是动态加载的图片,还是通过CSS渲染出来的样式,都能还原出网页真实布局,从而可以根据真实布局识别待检测网页是否为钓鱼网页。
并且,本申请实施例不仅可以针对用户正访问的网页,还可以对大量待检测网页进行批量化检测。
其中,对钓鱼网页进行检测的方式可以根据实际需求进行选择,例如基于网页中提取的文本特征或是图像特征进行识别,具体的识别方式可以根据实际需求选择,本申请对此并不做限制。
本申请实施例中,优选地,所述网页渲染程序为浏览器,具体可以是供用户浏览网页使用的真实浏览器,可以将实现本申请实施例的装置以插件或是菜单形式添加入真实浏览器。
本申请实施例的网页浏览设备也可以是基于开源的渲染引擎自行编写的模拟浏览器,模拟浏览器支持至少一种网页协议,例如HTTP协议,或是FTP协议等非HTTP协议,通过接收网页地址作为访问参数,访问网络获取对应的网页源文件,从而具备真实浏览器的网页访问功能。
供用户访问网页的真实浏览器一般都已经封装完成,除了可以渲染网页之外,还具备各种已定义的功能。而采用自行编写的模拟浏览器,仅需配置本申请渲染页面、向网页发送用户操作事件以及进行钓鱼网页检测的功能,无需真实浏览器具备的各种与本申请无关的功能,可以减少对存储资源和处理资源的占用。并且,真实浏览器供用户使用,在渲染网页得到渲染结果后,必然会在当前设备上展示给用户,而采用模拟浏览器在渲染后无需真正显示页面,可以在无桌面环境(例如linux环境)下运行,节省了显示网页所需的硬件配置和资源消耗。
常见的开源渲染引擎包括Webkit和Gecko等,基于源码做修改可以实现非常多的自定义功能。其中,Webkit可供调用的接口非常丰富,并且已采用多种编程语言对其进行封装,更方便基于Webkit实现本申请实施例的自定义功能。
本申请实施例中,在生成用户操作事件时,可以是预先编写的用户操作事件,也可以根据用户操作事件的基础描述格式,结合当前操作环境中的事件参数,生成对应当前操作环境的用户操作事件。
优选地,若用户操作事件包括键盘事件,向待检测网页发送用户操作事件时,事件参数可以是具体按下的键盘按键,可以基于预定义的键盘按键创建键盘事件。例如,预定义向页面发送按下Enter按键的事件,则可以通过将Enter按键的标识添加至该键盘事件的描述格式生成键盘事件,进一步将创建的键盘事件发送至待检测网页。
本申请实施例中,优选地,若用户操作事件包括鼠标事件,则向待检测网页发送用户操作事件时,由于鼠标的操作方式可以是点击、移动和其他鼠标操作中任意一种或多种,可以创建记录鼠标操作的鼠标操作事件。事件参数可以是当前鼠标所处位置,可以基于鼠标当前所处位置以及鼠标事件的描述格式创建鼠标事件,进一步将创建的鼠标操作事件发送至待检测网页。
例如,针对鼠标移动事件,可以以当前鼠标所处位置为起点生成鼠标移动路径,将该移动路径添加至鼠标移动事件的描述格式,创建记录鼠标移动路径的鼠标移动事件。其中,根据起点生成鼠标移动路径的方式可以根据实际需求任意设定,例如,以起点水平向右移动设定距离作为鼠标移动路径,鼠标移动事件可以记录该路径的起始坐标点或是移动轨迹。
又如,针对鼠标点击事件,可以针对基于当前鼠标所处位置创建鼠标点击事件,具体的,将该移动路径添加至鼠标点击事件的描述格式。其中,点击事件可以是一次点击,也可以是多次点击。
具体实现中,可以向待检测网页发送一种或多种用户操作事件,每个用户操作事件可以是记录单一操作,也可以是多种组合的操作。
本申请实施例中,优选地,所述网页渲染程序支持JavaScript和FLASH中至少一种。以避免因钓鱼网页检测到不支持JavaScript或FLASH时展示非钓鱼网页,导致无法检测钓鱼网页的问题,在上述方案的基础上进一步提升了网页检测的准确率。
综上上述几个优选方式,本申请实施例采用的模拟浏览器可以是一个支持至少HTTP协议和非HTTP协议,基于Webkit网页渲染引擎,同时支持正常浏览器Javascript、Flash等特性的定制化的模拟浏览器。该模拟浏览器针对常见的绕过检测引擎的方式,如判断是否支持Javascript、判断是否支持Flash、判断是否存在鼠标操作等用户操作事件,都能模拟出来,并且让钓鱼网站展示出来,从而可以识别出钓鱼网页。
实施例2
参照图2,示出了本申请的一种钓鱼网页检测方法实施例2的步骤流程图,具体可以包括如下步骤:
步骤201,调用网页渲染程序访问待检测网页。
步骤202,在渲染所述待检测网页的过程中,向所述待检测网页发送用户操作事件。
步骤203,提取所述待检测网页的图像特征。
步骤204,基于获得的图像特征识别所述待检测网页是否为钓鱼网页。
本实施例优选采用图像特征识别钓鱼网页。相应的,针对图像特征进行识别时,若基于待检测网页的渲染结果进行了展示,则提取图像特征的优选方式可以是,对渲染后的待检测网页进行网页截图;若并未基于待检测网页的渲染结果进行展示,例如在无桌面的环境下运行时,则提取图像特征的优选方式可以是,将待检测网页的渲染结果转换为图像数据;获取图像数据作为待检测网页的图像特征。
相应的,在基于获得的图像特征识别待检测网页是否为钓鱼网页时,具体可以按照如下步骤:
子步骤S11,提取所述图像特征的局部不变特征;
子步骤S12,结合提取的局部不变特征与预置的合法网页的局部不变特征,统计所述待检测网页与对应的合法网页的相似度;
子步骤S13,若所述相似度低于预设值,则确定所述待检测网页为钓鱼网页。
本申请实施例可以采用各种适用的方式基于图像正进行钓鱼网页的检测。优选地,可以采用SIFT(Scale-invariant feature transform,尺度不变特征变换)算法提取图像特征的局部不变特征,用于进一步钓鱼网页的检测。SIFT是一种电脑视觉的算法,用于描述图像中的局部性关键特征,具有尺度不变性。具体的提取过程可以包括:
1、尺度空间极值检测:搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对尺度和旋转不变的兴趣点。
2、关键点定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度,关键点的选择依据在其稳定程度。
3、方向确定:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向,所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变形。
4、关键点描述:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度。这些梯度被变换成局部不变特征,这种表示允许比较大的局部形状的变形和光照变化。
采用SIFT提取待检测网页的局部不变特征前,可以与预先收集合法网页也即是正常网页的局部不变特征,在提取待检测网页的局部不变特征后,将待检测网页的局部不变特征与预置的合法网页的局部不变特征进行匹配,若相似度未达到预设要求,例如,相似度小于预设值,则确定所述待检测网页为钓鱼网页。
若基于文本特征识别所述待检测网页,则所述基于渲染后的待检测网页进行钓鱼网站的检测可以包括:
子步骤S21,从渲染后的待检测网页提取文本特征;
子步骤S22,基于提取的文本特征与预置的合法网页的文本特征,统计所述待检测网页与对应的合法网页的相似度;
子步骤S23,若所述相似度低于预设值,则确定所述待检测网页为钓鱼网页。
具体文本特征的提取以及计算文本相似度可以选用任意适用的方式,本申请对此并不做限制。
需要说明的是,本申请实施例可以结合文本特征和图像特征一同进行钓鱼网页的识别,从而可以提高识别的准确率。具体的,可以先执行文本特征的提取和第一相似度计算,也可以先执行图像特征的提取和第二相似度计算,也可以同时执行,最后可以结合两个相似度共同判断,具体判定为钓鱼网页的条件可以根据实际需求设置。例如,两个相似度只要有一个低于对应设置的阈值,则即判定为钓鱼网页,两个相似度均有低于对应的阈值,则才判定为钓鱼网页,还可以是其他任意适用的判定方式。
依据本申请实施例,调用网页渲染程序访问待检测网页,使钓鱼网页在渲染环境下正常打开,避免因钓鱼网页采用正常网页的网页源文件而导致无法检测钓鱼网页的问题,进一步在渲染待检测网页的过程中,向待检测网页发送用户操作事件,从而模拟了一个和真人浏览网页时一样的环境,使钓鱼网页在监测到用户操作事件后会正常打开原页面,以进行进步的检测,避免因钓鱼网页检测到非真人访问网页时展示非钓鱼网页,导致无法检测钓鱼网页的问题,提升了网页检测的准确率。
本申请实施例的网页浏览设备可以是基于开源的渲染引擎编写的模拟浏览器,相比于采用真实浏览器,仅需配置渲染页面的功能,可以减少对存储资源和处理资源的占用;并且,由于模拟浏览器在渲染后无需真正显示页面,节省了显示网页所需的硬件配置和资源消耗。
并且,本申请实施例不仅可以针对用户正访问的网页,还可以对大量待检测网页进行批量化检测。
为使上述过程更为清晰,图3示出了本申请实施例的一个示例中钓鱼网页检测的示意图,具体可以包括如下步骤:
1、获取待检测网页的URL;
2、采用基于weblit的网页渲染引擎该待检测网页;
3、向网页发送鼠标键盘灯事件;
4、提取渲染后的网页文本,进一步进行文本特征匹配;
5、对渲染后的网页进行截图,进一步进行SIFT图像特征匹配;
6、根据上述文本特征匹配和SIFT图像特征匹配的结果确定该待检测网页是否为钓鱼网页。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
实施例3
参照图4,示出了本申请的一种钓鱼网页检测装置实施例的结构框图,具体可以包括如下模块:
网页访问模块301,用于调用网页渲染程序访问待检测网页;
事件发送模块302,用于在渲染所述待检测网页的过程中,向所述待检测网页发送用户操作事件;
渲染网页检测模块303,用于基于所述待检测网页的渲染结果进行钓鱼网页的检测。
本申请实施例中,优选地,所述网页渲染程序为真实浏览器或支持至少一种网络协议的模拟浏览器。
本申请实施例中,优选地,所述网页渲染程序为真实浏览器或基于开源的渲染引擎编写的模拟浏览器,所述开源的渲染引擎包括Webkit渲染引擎或Gecko渲染引擎。
本申请实施例中,优选地,所述事件发送模块,具体用于当所述用户操作事件包括键盘事件时,基于预定义的键盘按键创建键盘事件,向所述待检测网页发送所述键盘事件。
本申请实施例中,优选地,所述事件发送模块,具体用于当所述用户操作事件包括鼠标事件时,以当前鼠标所处位置为起点生成鼠标移动路径,创建记录所述鼠标移动路径的鼠标移动事件,向所述待检测网页发送所述鼠标移动事件。
本申请实施例中,优选地,所述事件发送模块,具体用于基于所述当前鼠标所处位置创建鼠标点击事件,向所述待检测网页发送所述鼠标点击事件。
本申请实施例中,优选地,所述网页渲染程序支持JavaScript和FLASH中至少一种。
本申请实施例中,优选地,所述渲染网页检测模块包括:
特征提取子模块,用于提取所述待检测网页的图像特征;
特征识别子模块,用于基于获得的图像特征别所述待检测网页是否为钓鱼网页。
本申请实施例中,优选地,所述特征提取子模块,具体用于当所述渲染结果在所述网页渲染程序中进行展示时,对在所述网页渲染程序中展示的待检测网页进行网页截图。
本申请实施例中,优选地,所述特征提取子模块,具体用于当所述渲染结果在所述网页渲染程序中不做展示时,将所述待检测网页的渲染结果转换为图像数据;获取所述图像数据作为所述待检测网页的图像特征。
本申请实施例中,优选地,所述特征识别子模块包括:
局部特征提取子单元,用于提取所述图像特征的局部不变特征;
相似度计算子单元,用于结合提取的局部不变特征与预置的合法网页的局部不变特征,统计所述待检测网页与对应的合法网页的相似度;
相似度判断子单元,用于若所述相似度低于预设值,则确定所述待检测网页为钓鱼网页。
依据本申请实施例,调用网页渲染程序访问待检测网页,使钓鱼网页在渲染环境下正常打开,避免因钓鱼网页采用正常网页的网页源文件而导致无法检测钓鱼网页的问题;进一步在渲染待检测网页的过程中,向待检测网页发送用户操作事件,从而模拟了一个和真人浏览网页时一样的环境,使钓鱼网页在监测到用户操作事件后会正常打开原页面,以进行进步的检测,避免因钓鱼网页检测到非真人访问网页时展示非钓鱼网页,导致无法检测钓鱼网页的问题,提升了网页检测的准确率。
本申请实施例的网页渲染程序还可以支持JavaScript和FLASH中至少一种,以避免因钓鱼网页检测到不支持JavaScript或FLASH时展示非钓鱼网页,导致无法检测钓鱼网页的问题,在上述方案的基础上进一步提升了网页检测的准确率。
本申请实施例的网页浏览设备可以是基于开源的渲染引擎编写的模拟浏览器,相比于采用真实浏览器,仅需配置渲染页面的功能,可以减少对存储资源和处理资源的占用;并且,由于模拟浏览器在渲染后无需真正显示页面,节省了显示网页所需的硬件配置和资源消耗。
并且,本申请实施例不仅可以针对用户正访问的网页,还可以对大量待检测网页进行批量化检测。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种钓鱼网页检测方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (20)
1.一种钓鱼网页检测方法,其特征在于,所述方法包括:
调用网页渲染程序访问待检测网页;
在渲染所述待检测网页的过程中,向所述待检测网页发送用户操作事件;
基于所述待检测网页的渲染结果进行钓鱼网页的检测;
其中,所述钓鱼网页中的网页源文件中配置有正常网页的数据;所述钓鱼网页在检测到非真人访问网页时展示所述正常网页。
2.根据权利要求1所述的方法,其特征在于,所述网页渲染程序为真实浏览器或基于开源的渲染引擎编写的模拟浏览器,所述开源的渲染引擎包括Webkit渲染引擎或Gecko渲染引擎。
3.根据权利要求1所述的方法,其特征在于,所述用户操作事件包括键盘事件时,所述向所述待检测网页发送用户操作事件包括:
基于预定义的键盘按键创建键盘事件,向所述待检测网页发送所述键盘事件。
4.根据权利要求1所述的方法,其特征在于,所述用户操作事件包括鼠标事件时,所述向所述待检测网页发送用户操作事件包括:
以当前鼠标所处位置为起点生成鼠标移动路径,创建记录所述鼠标移动路径的鼠标移动事件,向所述待检测网页发送所述鼠标移动事件。
5.根据权利要求1所述的方法,其特征在于,所述用户操作事件包括鼠标事件时,所述向所述待检测网页发送用户操作事件包括:
基于所述当前鼠标所处位置创建鼠标点击事件,向所述待检测网页发送所述鼠标点击事件。
6.根据权利要求1所述的方法,其特征在于,所述网页渲染程序支持JavaScript和FLASH中至少一种。
7.根据权利要求1所述的方法,其特征在于,所述基于渲染后的待检测网页进行钓鱼网站的检测包括:
提取所述待检测网页的图像特征;
基于获得的图像特征识别所述待检测网页是否为钓鱼网页。
8.根据权利要求7所述的方法,其特征在于,所述渲染结果在所述网页渲染程序中进行展示,所述提取所述待检测网页的图像特征包括:
对在所述网页渲染程序中展示的待检测网页进行网页截图。
9.根据权利要求7所述的方法,其特征在于,所述渲染结果在所述网页渲染程序中不做展示,所述提取所述待检测网页的图像特征包括:
将所述待检测网页的渲染结果转换为图像数据;
获取所述图像数据作为所述待检测网页的图像特征。
10.根据权利要求8或9所述的方法,其特征在于,所述基于获得的图像特征识别所述待检测网页是否为钓鱼网页包括:
提取所述图像特征的局部不变特征;
结合提取的局部不变特征与预置的合法网页的局部不变特征,统计所述待检测网页与对应的合法网页的相似度;
若所述相似度低于预设值,则确定所述待检测网页为钓鱼网页。
11.一种钓鱼网页检测装置,其特征在于,所述装置包括:
网页访问模块,用于调用网页渲染程序访问待检测网页;
事件发送模块,用于在渲染所述待检测网页的过程中,向所述待检测网页发送用户操作事件;
渲染网页检测模块,用于基于所述待检测网页的渲染结果进行钓鱼网页的检测;
其中,所述钓鱼网页中的网页源文件中配置有正常网页的数据;所述钓鱼网页在检测到非真人访问网页时展示所述正常网页。
12.根据权利要求11所述的装置,其特征在于,所述网页渲染程序为真实浏览器或基于开源的渲染引擎编写的模拟浏览器,所述开源的渲染引擎包括Webkit渲染引擎或Gecko渲染引擎。
13.根据权利要求11所述的装置,其特征在于,所述事件发送模块,具体用于当所述用户操作事件包括键盘事件时,基于预定义的键盘按键创建键盘事件,向所述待检测网页发送所述键盘事件。
14.根据权利要求11所述的装置,其特征在于,所述事件发送模块,具体用于当所述用户操作事件包括鼠标事件时,以当前鼠标所处位置为起点生成鼠标移动路径,创建记录所述鼠标移动路径的鼠标移动事件,向所述待检测网页发送所述鼠标移动事件。
15.根据权利要求11所述的装置,其特征在于,所述事件发送模块,具体用于当所述用户操作事件包括鼠标事件时,基于所述当前鼠标所处位置创建鼠标点击事件,向所述待检测网页发送所述鼠标点击事件。
16.根据权利要求11所述的装置,其特征在于,所述网页渲染程序支持JavaScript和FLASH中至少一种。
17.根据权利要求11所述的装置,其特征在于,所述渲染网页检测模块包括:
特征提取子模块,用于提取所述待检测网页的图像特征;
特征识别子模块,用于基于获得的图像特征别所述待检测网页是否为钓鱼网页。
18.根据权利要求17所述的装置,其特征在于,所述特征提取子模块,具体用于当所述渲染结果在所述网页渲染程序中进行展示时,对在所述网页渲染程序中展示的待检测网页进行网页截图。
19.根据权利要求17所述的装置,其特征在于,所述特征提取子模块,具体用于当所述渲染结果在所述网页渲染程序中不做展示时,将所述待检测网页的渲染结果转换为图像数据;获取所述图像数据作为所述待检测网页的图像特征。
20.根据权利要求18或19所述的装置,其特征在于,所述特征识别子模块包括:
局部特征提取子单元,用于提取所述图像特征的局部不变特征;
相似度计算子单元,用于结合提取的局部不变特征与预置的合法网页的局部不变特征,统计所述待检测网页与对应的合法网页的相似度;
相似度判断子单元,用于若所述相似度低于预设值,则确定所述待检测网页为钓鱼网页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610201615.XA CN107294918B (zh) | 2016-03-31 | 2016-03-31 | 一种钓鱼网页检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610201615.XA CN107294918B (zh) | 2016-03-31 | 2016-03-31 | 一种钓鱼网页检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107294918A CN107294918A (zh) | 2017-10-24 |
CN107294918B true CN107294918B (zh) | 2020-09-29 |
Family
ID=60086900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610201615.XA Active CN107294918B (zh) | 2016-03-31 | 2016-03-31 | 一种钓鱼网页检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107294918B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052523A (zh) * | 2017-11-03 | 2018-05-18 | 中国互联网络信息中心 | 基于卷积神经网络的赌博网站识别方法和系统 |
CN107992764B (zh) * | 2017-11-28 | 2021-07-23 | 国网河南省电力公司电力科学研究院 | 一种敏感网页识别与检测方法及装置 |
CN109800378A (zh) * | 2019-01-23 | 2019-05-24 | 北京字节跳动网络技术有限公司 | 基于自定义浏览器的内容处理方法、装置及电子设备 |
CN109992737A (zh) * | 2019-04-03 | 2019-07-09 | 北京字节跳动网络技术有限公司 | 第三方网页内容审核方法、装置及电子设备 |
CN115037537A (zh) * | 2022-06-06 | 2022-09-09 | 恒安嘉新(北京)科技股份公司 | 异常流量拦截、异常域名识别方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8291065B2 (en) * | 2004-12-02 | 2012-10-16 | Microsoft Corporation | Phishing detection, prevention, and notification |
CN105095751A (zh) * | 2014-05-07 | 2015-11-25 | 中兴软创科技股份有限公司 | 一种面向Android平台的钓鱼恶意应用检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080046738A1 (en) * | 2006-08-04 | 2008-02-21 | Yahoo! Inc. | Anti-phishing agent |
US20120036565A1 (en) * | 2010-04-05 | 2012-02-09 | Juan Gamez | Personal data protection suite |
CN103778365B (zh) * | 2012-10-18 | 2015-05-13 | 腾讯科技(深圳)有限公司 | 一种检测网页隐藏内容的方法,及设备 |
US9253207B2 (en) * | 2013-02-08 | 2016-02-02 | PhishMe, Inc. | Collaborative phishing attack detection |
CN104881608B (zh) * | 2015-05-21 | 2018-03-16 | 北京工业大学 | 一种基于模拟浏览器行为的xss漏洞检测方法 |
-
2016
- 2016-03-31 CN CN201610201615.XA patent/CN107294918B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8291065B2 (en) * | 2004-12-02 | 2012-10-16 | Microsoft Corporation | Phishing detection, prevention, and notification |
CN105095751A (zh) * | 2014-05-07 | 2015-11-25 | 中兴软创科技股份有限公司 | 一种面向Android平台的钓鱼恶意应用检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107294918A (zh) | 2017-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107294918B (zh) | 一种钓鱼网页检测方法及装置 | |
CN108595583B (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CA3018196C (en) | Visual regresssion testing tool | |
CN107729475B (zh) | 网页元素采集方法、装置、终端与计算机可读存储介质 | |
CN107908959B (zh) | 网站信息检测方法、装置、电子设备及存储介质 | |
CN110069683B (zh) | 一种基于浏览器爬取数据的方法及装置 | |
US10235712B1 (en) | Generating product image maps | |
US20190188729A1 (en) | System and method for detecting counterfeit product based on deep learning | |
CN109376291B (zh) | 一种基于网络爬虫的网站指纹信息扫描的方法及装置 | |
CN108566399B (zh) | 钓鱼网站识别方法及系统 | |
CN102902693A (zh) | 检测在网页上的重复模式 | |
RU2016139156A (ru) | Автоматизируемый интеллектуальный сбор и сверка данных | |
US20150227276A1 (en) | Method and system for providing an interactive user guide on a webpage | |
KR20170086497A (ko) | 신분 정보 검증을 위한 방법 및 장치 | |
CN112417338B (zh) | 一种页面适配方法、系统及设备 | |
CN110365776B (zh) | 图片批量下载方法、装置、电子设备及存储介质 | |
CN104899203B (zh) | 一种网页页面的生成方法、装置及终端设备 | |
US8751508B1 (en) | Contextual indexing of applications | |
CN110569429B (zh) | 一种内容选择模型的生成方法、装置和设备 | |
EP3446236A1 (en) | Method and system for providing additional information relating to primary information | |
CN115297042A (zh) | 检测不同网络下网页一致性的方法及相关设备 | |
WO2016178068A1 (en) | System and method for testing web pages | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN113742559A (zh) | 关键词检测方法和装置、电子设备、存储介质 | |
US20160350318A1 (en) | Method, system for classifying comment record and webpage management device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |