CN103442014A

CN103442014A - 一种自动检测疑似仿冒网站的方法及系统

Info

Publication number: CN103442014A
Application number: CN2013103954290A
Authority: CN
Inventors: 云晓春; 张永铮; 周宇; 肖军; 王一鹏; 李书豪
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2013-09-03
Filing date: 2013-09-03
Publication date: 2013-12-11

Abstract

本发明涉及一种自动检测疑似仿冒网站的方法，包括以下步骤：1：接收多个网站地址；2：将一个网站地址与白名单相匹配，判断是否匹配，如匹配，允许访问并添加白名单标记，跳转至步骤6；否则，继续；3：将网站地址与黑名单相匹配，判断是否匹配，如匹配，则禁止访问并添加黑名单标记，跳转至步骤6；否则，继续；4：将当前网页内容与所有白名单网站的专属标识进行匹配，计算相似度，得到最大相似度值；5：判断最大相似度值是否大于预设的阈值，如是，为疑似仿冒网站；否则，为非疑似仿冒网站；步骤6：判断是否存在未添加标记的网站地址，如有，进行步骤2；否则，结束。本发明可在用户利益受到侵害之前检测出疑似仿冒网站，降低用户损失。

Description

一种自动检测疑似仿冒网站的方法及系统

技术领域

本发明涉及一种自动检测疑似仿冒网站的方法及系统。

背景技术

仿冒网站，是网络在线欺骗活动的一种方式，主要用来窃取用户的私密信息，如信用卡账号密码、电子商务网站帐号密码等。仿冒网站的欺骗形式包括：

1.社交网络中利用社交群体散布仿冒网站信息；

2.即时通讯（IM）工具中利用在线交易或电子商务来引导用户进入不法仿冒网站；

3.邮件链接导入不法仿冒网站；

4.论坛或虚拟社区中张贴仿冒网站链接。

这些网站通常是对真实网站域名进行细微篡改，或其网页在视觉上与被仿冒网页具有高仿真度，进而骗取用户信任，获取用户信息，损害用户利益。

目前，业界通常有如下共识：

仿冒网站：指网站地址的名称或网页在视觉上非常类似于正规的商业网站，且意图在于损害用户利益的网站。

白名单：指待保护的正规网站列表，一般来说这类需要保护的网站地址，是网络交易或者电子商务中高频度出现的网站，比如淘宝、Ebay、京东等电子商务网站，工商银行、中国银行等银行交易系统，“中国好声音”、“中国最强音”等大众娱乐网页，这些都是仿冒者攻击的目标。

黑名单：指已验证的仿冒网站列表，这类列表中的网站都是通过用户投诉、网上举报或者人工筛查获得，并经过相关管理部门确认的仿冒网站，这类列表中的网站通常已经对用户利益造成了损害。

现有的仿冒网站检测识别技术通常都是基于黑名单和白名单机制。给定待检测网站地址，通过查询白名单或者黑名单来判断所述待检测网站地址是否在名单之列，来识别正规网站或仿冒网站。但是，现有的黑白名单检测识别技术仅仅可以识别出黑名单中已有的仿冒网站，如果某仿冒网站不在黑名单内，则无法识别。然而，网络的变化性很大，不法分子可以通过重新申请新的网站地址的方式继续行骗，而现有的识别技术需要在收到举报或者事发后才能更新黑名单的数据库，无法做到事前检测识别，风险警示。

发明内容

本发明所要解决的技术问题是，针对现有技术无法事先识别仿冒网站的现状，提供一种达到事前识别，降低访问仿冒网站概率的目的的自动检测疑似仿冒网站的方法。

本发明解决上述技术问题的技术方案如下：一种自动检测疑似仿冒网站的方法，具体包括以下步骤：

步骤1：接收到多个网站地址，并将多个网站地址排列成网站地址列表；

步骤2：按照列表顺序将网站地址列表中的一个网站地址与预设的白名单相匹配，判断是否匹配，如果匹配，允许用户访问该网站地址并对该网站地址添加白名单标记，跳转至步骤6；否则，继续步骤3；

步骤3：将当前网站地址与预设的黑名单相匹配，判断是否匹配，如果匹配，则禁止用户访问该网站地址并对该网站地址添加黑名单标记，跳转至步骤6；否则，继续步骤4；

步骤4：将当前网站地址对应的网页内容与所有白名单网站中内设的专属标识LOGO图片进行匹配，并计算相似度，得到最大相似度值；

步骤5：判断最大相似度值是否大于预设的阈值，如果是，则判定当前网站地址为疑似仿冒网站并对该网站地址添加疑似仿冒标记；否则，判定当前网站地址为非疑似仿冒网站添加非疑似仿冒标记；

步骤6：判断网站地址列表中是否存在未添加标记的网站地址，如果有，进行步骤2；否则，结束。

本发明的有益效果是：本发明所述一种自动检测疑似仿冒网站的方法，可以在用户个人利益受到侵害之前检测出疑似仿冒网站，降低用户损失。与已公开的相关技术相比，本发明采用基于局部特征点的目标网站LOGO图片与待检测网站整体图片的匹配方法，在保证能够检测出视觉相似的仿冒网站的前提下，有效检测出与仿冒目标网站有视觉差异的仿冒网站。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述步骤4具体包括以下步骤：

步骤4.1：获取所有白名单网站的专属标识LOGO图片；

步骤4.2：采集当前网站地址的URL统一资源定位符，并通过网络下载得到当前网站地址对应的网页整体图像；

步骤4.3：将当前网站地址对应的网页整体图像与所有白名单网站的专属标识LOGO图片依次进行对比，并计算相似度得到多个相似度值；

步骤4.4：将多个相似度值按从大到小进行排序，得到最大相似度值。

进一步，所述步骤4.3具体包括以下步骤：

步骤4.3.1：对当前网站地址对应的网页整体图像提取特征点，构成待测特征点集；

步骤4.3.2：对所有白名单网站的专属标识LOGO图片分别提取特征点，分别构成多个对应的白名单特征点集；

步骤4.3.3：对待测特征点集计算SURF（Speeded Up Robust Features）待测局部特征描述子；对多个白名单特征点集分别计算SURF（Speeded UpRobust Features）白名单局部特征描述子；

步骤4.3.4：利用近邻检测快速工具包（FLANN，Fast Library forApproximate Nearest Neighbors）对待测局部特征描述子与多个白名单局部特征描述子间的快速匹配；

步骤4.3.5：将多个匹配结果换算为数值，得到多个相似度值。

所述步骤5中的阈值获取包括以下步骤：

步骤a:根据国家互联网权威管理部门提供的黑名单中仿冒网站（URL）统一资源定位符的集合，利用网络下载获得黑名单对应的整体图像，得到黑名单图像合集；

步骤b：将白名单中的一个白名单网站的专属标识LOGO图片依次与黑名单图像集合中的图像进行相似度计算，得到多个相似度值；

步骤c：对多个相似度值取平均值得到相似度均值；

步骤d：判断是否白名单中所有的白名单网站都已进行相似度计算，如果是，进行步骤e；否则，跳转至步骤b；

步骤e：将所有白名单网站计算得到的相似度均值按数值大小排序，得到最小相似度均值为阈值。

本发明所要解决的技术问题是，针对现有技术无法事先识别仿冒网站的现状，提供一种达到事前识别，降低访问仿冒网站概率的目的的自动检测疑似仿冒网站的系统。

本发明解决上述技术问题的技术方案如下：一种自动检测疑似仿冒网站的系统，包括接收模块、白名单匹配模块、黑名单匹配模块、相似度计算模块和判断模块；

所述接收模块接收到多个网站地址，并将多个网站地址排列成网站地址列表；

所述白名单匹配模块按照列表顺序将网站地址列表中的一个网站地址与预设的白名单相匹配，判断是否匹配，如果匹配，允许用户访问该网站地址并对该网站地址添加白名单标记；否则，将当前网站地址发送到黑名单匹配模块；

所述黑名单匹配模块将当前网站地址与预设的黑名单相匹配，判断是否匹配，如果匹配，则禁止用户访问该网站地址并对该网站地址添加黑名单标记；否则，将当前网站地址发送到相似度计算模块；

所述相似度计算模块将当前网站地址对应的网页内容与所有白名单网站中内设的专属标识LOGO图片进行匹配，并计算相似度，得到最大相似度值；

所述判断模块判断最大相似度值是否大于预设的阈值，如果是，则判定当前网站地址为疑似仿冒网站并对该网站地址添加疑似仿冒标记；否则，判定当前网站地址为非疑似仿冒网站。

本发明的有益效果是：本发明所述一种自动检测疑似仿冒网站的系统，可以在用户个人利益受到侵害之前检测出疑似仿冒网站，降低用户损失。与已公开的相关技术相比，本发明采用基于局部特征点的目标网站LOGO图片与待检测网站整体图片的匹配方法，在保证能够检测出视觉相似的仿冒网站的前提下，有效检测出与仿冒目标网站有视觉差异的仿冒网站。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述相似度计算模块包括提取标识模块、采集图像模块、相似度比对模块和排序模块；

所述提取标识模块获取所有白名单网站的专属标识LOGO图片；

所述采集图像模块采集当前网站地址的URL统一资源定位符，并通过网络下载得到当前网站地址对应的网页整体图像；

所述相似度比对模块将当前网站地址对应的网页整体图像与所有白名单网站的专属标识LOGO图片依次进行对比，并计算相似度得到多个相似度值；

所述排序模块将多个相似度值按从大到小进行排序，得到最大相似度值。

进一步，所述相似度比对模块包括特征点提取模块、计算描述子模块、匹配模块和数值转换模块；

所述特征点提取模块对当前网站地址对应的网页整体图像提取特征点，构成待测特征点集；所述特征点提取模块对所有白名单网站的专属标识LOGO图片分别提取特征点，分别构成多个对应的白名单特征点集；

所述计算描述子模块对待测特征点集计算SURF（Speeded Up RobustFeatures）待测局部特征描述子；并对多个白名单特征点集分别计算SURF（Speeded Up Robust Features）白名单局部特征描述子；

所述匹配模块利用近邻检测快速工具包（FLANN，Fast Library forApproximate Nearest Neighbors）对待测局部特征描述子与多个白名单局部特征描述子间的快速匹配；

所述数值转换模块将多个匹配结果换算为数值，得到多个相似度值。

进一步，还包括阈值获取模块，所述阈值获取模块与判断模块相连接，并将计算得到的阈值发送到判断模块。

进一步，所述阈值获取模块包括黑名单图像获取模块、白黑对比模块、均值计算模块和均值排序模块；

所述黑名单图像获取模块根据国家互联网权威管理部门提供的黑名单中仿冒网站（URL）统一资源定位符的集合，利用网络下载获得黑名单对应的整体图像，得到黑名单图像合集；

所述白黑对比模块将白名单中的一个白名单网站的专属标识LOGO图片依次与黑名单图像集合中的图像进行相似度计算，得到多个相似度值；

所述均值计算模块对多个相似度值取平均值得到相似度均值；

所述均值排序模块将所有白名单网站计算得到的相似度均值按数值大小排序，得到最小相似度均值为阈值。

附图说明

图1为本发明具体实施例1所述的一种自动检测疑似仿冒网站的方法流程图；

图2为本发明具体实施例2所述的一种自动检测疑似仿冒网站的方法流程图；

图3为本发明具体实施例2所述的一种自动检测疑似仿冒网站的方法流程图；

图4为本发明具体实施例1、2、3所述的一种自动检测疑似仿冒网站的方法中阈值获取流程图；

图5为本发明具体实施例1所述的一种自动检测疑似仿冒网站的系统框图；

图6为本发明具体实施例2所述的一种自动检测疑似仿冒网站的系统框图；

图7为本发明具体实施例2所述的一种自动检测疑似仿冒网站的系统框图；

图8为本发明具体实施例4所述的一种自动检测疑似仿冒网站的系统中阈值获取模块结构框图；

图9为本发明具体实施例5所述的一种自动检测疑似仿冒网站的方法流程图；

图10为本发明具体实施例5所述的一种自动检测疑似仿冒网站的方法中与白名单对比流程图；

图11为本发明具体实施例5所述的一种自动检测疑似仿冒网站的方法中相似度计算流程图；

图12为本发明具体实施例5所述的一种自动检测疑似仿冒网站的方法中阈值获取流程图。

附图中，各标号所代表的部件列表如下：

1、接收模块，2、白名单匹配模块，3、黑名单匹配模块，4、相似度计算模块，5、判断模块，6、阈值获取模块，41、提取标识模块，42、采集图像模块，43、相似度比对模块，44、排序模块，431、特征点提取模块，432、计算描述子模块，433、匹配模块，434、数值转换模块，61、黑名单图像获取模块，62、白黑对比模块，63、均值计算模块，64、均值排序模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明具体实施例1所述的一种自动检测疑似仿冒网站的方法，具体包括以下步骤：

如图2所示，为本发明具体实施例2所述的一种自动检测疑似仿冒网站的方法，实施例2在实施例1的基础上进一步细化，所述步骤4具体包括以下步骤：

步骤4.1：获取所有白名单网站的专属标识LOGO图片；

如图3所示，为本发明具体实施例3所述的一种自动检测疑似仿冒网站的方法，实施例3在实施例2的基础上进一步细化，所述步骤4.3具体包括以下步骤：

如图4所示，为本发明具体实施例1、2或3中的阈值获取的具体方法，阈值获取包括以下步骤：

步骤c：对多个相似度值取平均值得到相似度均值；

如图5所示，为本发明具体实施例1所述的一种自动检测疑似仿冒网站的系统，包括接收模块1、白名单匹配模块2、黑名单匹配模块3、相似度计算模块4和判断模块5；

所述接收模块1接收到多个网站地址，并将多个网站地址排列成网站地址列表；

所述白名单匹配模块2按照列表顺序将网站地址列表中的一个网站地址与预设的白名单相匹配，判断是否匹配，如果匹配，允许用户访问该网站地址并对该网站地址添加白名单标记；否则，将当前网站地址发送到黑名单匹配模块；

所述黑名单匹配模块3将当前网站地址与预设的黑名单相匹配，判断是否匹配，如果匹配，则禁止用户访问该网站地址并对该网站地址添加黑名单标记；否则，将当前网站地址发送到相似度计算模块；

所述相似度计算模块4将当前网站地址对应的网页内容与所有白名单网站中内设的专属标识LOGO图片进行匹配，并计算相似度，得到最大相似度值；

所述判断模块5判断最大相似度值是否大于预设的阈值，如果是，则判定当前网站地址为疑似仿冒网站并对该网站地址添加疑似仿冒标记；否则，判定当前网站地址为非疑似仿冒网站。

如图6所示，为本发明具体实施例2所述的一种自动检测疑似仿冒网站的系统，实施例2在实施例1的基础上进一步细化，所述相似度计算模块4包括提取标识模块41、采集图像模块42、相似度比对模块43和排序模块44；

所述提取标识模块41获取所有白名单网站的专属标识LOGO图片；

所述采集图像模块42采集当前网站地址的URL统一资源定位符，并通过网络下载得到当前网站地址对应的网页整体图像；

所述相似度比对模块43将当前网站地址对应的网页整体图像与所有白名单网站的专属标识LOGO图片依次进行对比，并计算相似度得到多个相似度值；

所述排序模块44将多个相似度值按从大到小进行排序，得到最大相似度值。

如图7所示，为本发明具体实施例3所述的一种自动检测疑似仿冒网站的系统，实施例3在实施例2的基础上进一步细化，所述相似度比对模块43包括特征点提取模块431、计算描述子模块432、匹配模块433和数值转换模块434；

所述特征点提取模块431对当前网站地址对应的网页整体图像提取特征点，构成待测特征点集；所述特征点提取模块对所有白名单网站的专属标识LOGO图片分别提取特征点，分别构成多个对应的白名单特征点集；

所述计算描述子模块432对待测特征点集计算SURF（Speeded Up RobustFeatures）待测局部特征描述子；并对多个白名单特征点集分别计算SURF（Speeded Up Robust Features）白名单局部特征描述子；

所述匹配模块433利用近邻检测快速工具包（FLANN，Fast Library forApproximate Nearest Neighbors）对待测局部特征描述子与多个白名单局部特征描述子间的快速匹配；

所述数值转换模块434将多个匹配结果换算为数值，得到多个相似度值。

如图8所示，为本发明具体实施例4所述一种自动检测疑似仿冒网站的系统，实施例4是实施例1、2或3所述的自动检测疑似仿冒网站的系统还包括阈值获取模块6，所述阈值获取模块6与判断模块5相连接，并将计算得到的阈值发送到判断模块5。

所述阈值获取模块6包括黑名单图像获取模块61、白黑对比模块62、均值计算模块63和均值排序模块64；

所述黑名单图像获取模块61根据国家互联网权威管理部门提供的黑名单中仿冒网站（URL）统一资源定位符的集合，利用网络下载获得黑名单对应的整体图像，得到黑名单图像合集；

所述白黑对比模块62将白名单中的一个白名单网站的专属标识LOGO图片依次与黑名单图像集合中的图像进行相似度计算，得到多个相似度值；

所述均值计算模块63对多个相似度值取平均值得到相似度均值；

所述均值排序模块64将所有白名单网站计算得到的相似度均值按数值大小排序，得到最小相似度均值为阈值。

参见图9，其是根据本申请实施例的一种检测疑似仿冒网站的方法流程图，本申请实施例既可以在用户终端侧执行，也可以在网络侧执行。

下面应用实例具体说明各个步骤的操作：

步骤101，获取待检测的网站地址；

本步骤主要是获得能够唯一表征网页地址的形式，本专利中选择的是URL地址。

仿冒网站往往通过4种方式传播：通过社交网络（微博、人人等）、垃圾邮件、即时通信（如QQ、MSN、阿里旺旺等）软件和网络社区等发送给用户。通过对4中传播方式进行分析可获得待检测的网络地址。

步骤102，判断所述网站地址是否在白名单内；

即判断所述待检测的网站地址是否在预设的待保护网站列表（即白名单)中，若不存在，则所述获取的待检测网站地址不属于正规网站；

步骤103，判断所述网站地址是否在黑名单内；

即判断所述待检测的网站地址是否在预设的仿冒网站列表（即黑名单）中，若不存在，则所述获取的待识别网站地址不属于仿冒网站。

其中，步骤102、步骤103主要是对待检测的网站地址的分类识别的预处理过程，以减少算法的复杂度，且两个步骤是并列关系，即处理的先后顺序不影响分类结果。白名单的构造形式主要是为应用对象服务的，即应用对象为银行系统时，那么本专利中的白名单中可以加入工商银行官方网址“http://www.icbc.com.cn/icbc/”，中国银行官方网址“http://www.boc.cn/”等；应用对象为大众娱乐网站时，那么本专利中的白名单中可以加入中国好声音官方网站“http://www.zjstv.com/voice/”，中国最强音官方网站“http://www.hunantv.com/v/2013/zgzqy/”。黑名单的构造形式主要根据白名单中列出正规网站所对应的多个已知仿冒网站，通常这些仿冒网站是由网络用户举报并经相关管理部门确认后产生的。

步骤104，利用所述待检测的网址、白名单对应网站特有标志LOGO，和疑似仿冒网站规则进行相似度计算；若相似度大于某一阈值，则判定所述待识别网站地址为疑似仿冒网站。

下面首先对网站LOGO的选择形式和标准作出解释：

其中，白名单对应网站特有的标志LOGO指的是，本专利中应用对象特有的标志：如工商银行的标志为一个隐性的方孔圆币，那么所述LOGO的个数即为白名单中应用对象网络地址的数量。

其中，仿冒网站的仿冒特性中最重要的一点是网站页面的视觉性欺骗，即页面中的大部分内容与真实正规网页中的内容相似性很高，有的可以达到以假乱真的程度。但是，统计多个仿冒网站后可以发现，网站地址的拼写形式，以及网站页面中标题栏或LOGO的形式是影响用户对网站真实性判断的最主要的依据。因此，选用正规网站和仿冒网站中相关性最大的标志LOGO作为相似度判断的标准是合理的。

该步骤具体的算法流程见图10。

1）步骤201，从所获得的待检测网站地址中提取主机统一资源定位符URL信息；

2）步骤202，根据提取的URL信息，利用Internet网络下载得到对应网页的整体图像；

3）步骤203，利用白名单对应网站特有的标志LOGO，依次与待检测网站的整体图像进行相似度计算；

4）步骤204，对得到的相似度序列按从大到小排序后取最大值。若最大相似度大于等于某一给定阈值T，则判定所述待识别网站地址为疑似仿冒网站；若最大相似度小于某一给定阈值T，则判定所述待识别网站地址为非疑似仿冒网站。

对于所述步骤203中的相似度计算方法，本专利中选取的是SURF特征匹配法，这样的可以有效的解决因正规网页与仿冒网页中LOGO位置、大小不同而产生的算法失效的问题。

上述步骤203中具体的算法流程见图11。

1）步骤2031，从白名单对应网站特有的某个标志LOGO和待检测网站的整体图像中分别提取特征点；

2）步骤2032，对提取的特征点集计算SURF局部特征描述子；

3）步骤2033，利用Flann方法进行特征描述子间的快速匹配。

对于所述步骤104中的阈值T的计算方法，本专利中选取的是统计方法，即统计多个相关样本的最大相似度，计算其中的最大相似度序列的最小值作为阈值，这种最大最小方法在统计学中的应用合理，可以保证待测试的网站网址所得的相似度可以得到很好的分类效果。但是，统计学中的方法通常要求样本足够多，这样才能满足算法的精度。

上述步骤104中具体的算法流程见图12。

1）步骤401，判断白名单对应网站的标志LOGO集合是否为空；

2）步骤402，找到所述LOGO对应黑名单中仿冒网站URL集合，利用Internet网络批量下载得到网页对应的整体图像的集合S；

3）步骤403，利用所述标志依次与集合S中的图像进行相似度计算，对获取的相似度序列取平均值；

4）步骤404，对上述所得的平均相似度序列排序后，取最小值，则令相似度阈值T为该最小平均相似度。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动检测疑似仿冒网站的方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种自动检测疑似仿冒网站的方法，其特征在于，所述步骤4具体包括以下步骤：

步骤4.1：获取所有白名单网站的专属标识LOGO图片；

3.根据权利要求2所述的一种自动检测疑似仿冒网站的方法，其特征在于，所述步骤4.3具体包括以下步骤：

4.根据权利要求1至3任一项所述的一种自动检测疑似仿冒网站的系统，其特征在于，所述步骤5中的阈值获取包括以下步骤：

步骤c：对多个相似度值取平均值得到相似度均值；

5.一种自动检测疑似仿冒网站的系统，其特征在于，包括接收模块、白名单匹配模块、黑名单匹配模块、相似度计算模块和判断模块；

6.根据权利要求5所述的一种自动检测疑似仿冒网站的系统，其特征在于，所述相似度计算模块包括提取标识模块、采集图像模块、相似度比对模块和排序模块；

所述提取标识模块获取所有白名单网站的专属标识LOGO图片；

7.根据权利要求6所述的一种自动检测疑似仿冒网站的系统，其特征在于，所述相似度比对模块包括特征点提取模块、计算描述子模块、匹配模块和数值转换模块；

8.根据权利要求5-7任一项所述的一种自动检测疑似仿冒网站的系统，其特征在于，还包括阈值获取模块，所述阈值获取模块与判断模块相连接，并将计算得到的阈值发送到判断模块。

9.根据权利要求8所述的一种自动检测疑似仿冒网站的系统，其特征在于，所述阈值获取模块包括黑名单图像获取模块、白黑对比模块、均值计算模块和均值排序模块；