CN106503125A

CN106503125A - 一种数据源扩展方法及装置

Info

Publication number: CN106503125A
Application number: CN201610911941.XA
Authority: CN
Inventors: 李晓东; 李雪妮; 耿光刚; 陈勇
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2016-10-19
Filing date: 2016-10-19
Publication date: 2017-03-15
Anticipated expiration: 2036-10-19
Also published as: WO2018072363A1; CN106503125B

Abstract

本发明提供一种数据源扩展方法及装置，以全部已知的统一资源定位符数据为基础，得到统一资源定位符模板，并对统一资源定位符模板进行扩展，得到每个统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据，实现钓鱼网站的自行主动获取，有效降低钓鱼发现的滞后性与人工依赖的问题。并且通过上述方式可以扩大检测范围，降低利益损失，且可以将已知钓鱼网站的统一资源定位符数据作为基础进行扩展，从而提高已知的钓鱼网站的二次利用率。

Description

一种数据源扩展方法及装置

技术领域

本发明属于互联网安全检测技术领域，更具体的说，尤其涉及一种数据源扩展方法及装置。

背景技术

互联网作为现代生活的重要组成部分，已经广泛地被各种团体和组织用于在线贸易和服务等事宜，这也导致互联网更容易受到来自各方的安全攻击。比如网络钓鱼作为安全攻击的一种形式，通过模仿合法网站的页面内容创建钓鱼网站，并诱导用户访问钓鱼网站，以窃取用户的个人隐私信息，如用户名、银行账号和密码等。

随着互联网的快速发展，在利益的驱使下，从事网络钓鱼攻击的黑色产业链呈逐渐上升趋势，因此针对钓鱼网站的检测方法在电子商务和金融证券等企业的安全运营中起着越来越重要的地位。

目前针对钓鱼网站的检测方法主要集中在检测算法领域，即研究高效和准确的检测算法对网站进行检测，以从众多网站中查找到钓鱼网站。而在检测方法所针对的数据源(即可能的钓鱼网站)来说，数据源的发现都是依赖于广大网民的举报，在这种方式下，钓鱼网站的检测较为被动，不具备主动发现的能力，且对于已知的钓鱼网站的二次利用率较低。

发明内容

有鉴于此，本发明的目的在于提供一种数据源扩展方法及装置，用于提高已知的钓鱼网站的二次利用率，扩大检测范围，并有效降低钓鱼发现的滞后性与人工依赖的问题。技术方案如下：

本发明提供一种数据源扩展方法，所述方法包括：

获取全部已知的统一资源定位符数据，其中所述全部已知的统一资源定位符数据至少包括已知钓鱼网站的统一资源定位符数据；

对所述全部已知的统一资源定位符数据进行两两对比，得到多个统一资源定位符模板；

对每个所述统一资源定位符模板进行扩展，得到每个所述统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据。

优选地，在获取全部已知的统一资源定位符数据之后，在对所述全部已知的统一资源定位符数据进行两两对比之前，所述方法还包括：

获取每个统一资源定位符数据的二级域名，形成二级域名集合列表；

根据所述二级域名集合列表中的顶级域名进行分类，得到具有不同顶级域名的子二级域名集合列表；

对每个子二级域名集合列表中的统一资源定位符数据进行排序，以使相似度较高的统一资源定位符数据在排序中相邻。

优选地，所述对每个子二级域名集合列表中的统一资源定位符数据进行排序，以使相似度较高的统一资源定位符数据在排序中相邻，包括：

基于预设连字符，对每个子二级域名集合列表中的统一资源定位符数据进行分类，得到含有所述预设连字符的统一资源定位符数据和不含有所述预设连字符的统一资源定位符数据；

对含有所述预设连字符的统一资源定位符数据和不含有所述预设连字符的统一资源定位符数据依次按照长度和字母顺序进行排序。

优选地，所述对所述全部已知的统一资源定位符数据进行两两对比，得到多个统一资源定位符模板，包括：

当第i个统一资源定位符数据和第i+1个统一资源定位符数据的长度相同时，依次比较所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中的每个位置处的字符，i为自然数，且i＝1，2，……，m-1，m为统一资源定位符数据的总数；

当所述第j个位置处的字符相同时，记录下第j个位置处的字符，并继续比较下一个字符，j＝1,2，…..，n，n为第i个统一资源定位符数据中字符总数；

当所述第j个位置处的字符不同时，获取所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型；

当所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型为数字类型时，以第一预设替换符号替换所述第j个位置处的字符；

当所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型为字母类型时，以第二预设替换符号替换所述第j个位置处的字符；

当所述第i个统一资源定位符数据中第j个位置处的字符的类型和第i+1个统一资源定位符数据中第j个位置处的字符的类型不同时，以所述第i个URL数据中第j个位置处的字符的类型对应的预设替换符号来替换第j个位置处的字符；

当所述第i个统一资源定位符数据或第i+1个统一资源定位符数据中第j个位置处的字符为预设连字符时，以不是所述预设连字符的第j个位置处的字符的类型对应的预设替换符号来替换所述第j个位置处的字符；

对所有不同字符替换后的统一资源定位符数据为所述第i个统一资源定位符数据和第i+1个统一资源定位符数据对应的统一资源定位符模板。

优选地，所述对每个所述统一资源定位符模板进行扩展，得到每个所述统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据，包括：

对所述统一资源定位符模板进行次数统计，得到一有序的统一资源定位符模板列表；

保留所述统一资源定位符模板列表中符合预设条件的所述统一资源定位符模板；

对保留的所述统一资源定位符模板进行扩展，其中扩展过程包括：依次采用所述第一预设替换符号对应类型的全部字符依次替换所述统一资源定位符模板中的所述第一预设替换符号以及采用所述第二预设替换符号对应类型的全部字符依次替换所述统一资源定位符模板中的所述第二预设替换符号，得到每个所述统一资源定位符模板对应的扩展后的统一资源定位符数据；

将扩展后的统一资源定位符数据与全部已知的统一资源定位符数据进行去重处理，得到全部可视为钓鱼网站的统一资源定位符数据。

另一方面，本发明还提供一种数据源扩展装置，所述装置包括：

获取单元，用于获取全部已知的统一资源定位符数据，其中所述全部已知的统一资源定位符数据至少包括已知钓鱼网站的统一资源定位符数据；

对比单元，用于对所述全部已知的统一资源定位符数据进行两两对比，得到多个统一资源定位符模板；

扩展单元，用于对每个所述统一资源定位符模板进行扩展，得到每个所述统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据。

优选地，所述装置还包括：

列表形成单元，用于获取每个统一资源定位符数据的二级域名，形成二级域名集合列表；

分类单元，用于根据所述二级域名集合列表中的顶级域名进行分类，得到具有不同顶级域名的子二级域名集合列表；

排序单元，用于对每个子二级域名集合列表中的统一资源定位符数据进行排序，以使相似度较高的统一资源定位符数据在排序中相邻。

优选地，所述排序单元，包括：

分类子单元，用于基于预设连字符，对每个子二级域名集合列表中的统一资源定位符数据进行分类，得到含有所述预设连字符的统一资源定位符数据和不含有所述预设连字符的统一资源定位符数据；

排序子单元，用于对含有所述预设连字符的统一资源定位符数据和不含有所述预设连字符的统一资源定位符数据依次按照长度和字母顺序进行排序。

优选地，所述对比单元，包括：

比较子单元，用于当第i个统一资源定位符数据和第i+1个统一资源定位符数据的长度相同时，依次比较所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中的每个位置处的字符，i为自然数，且i＝1，2，……，m-1，m为统一资源定位符数据的总数；

记录子单元，用于当所述第j个位置处的字符相同时，记录下第j个位置处的字符，并触发所述比较子单元继续比较下一个字符，j＝1,2，…..，n，n为第i个统一资源定位符数据中字符总数；

获取子单元，用于当所述第j个位置处的字符不同时，获取所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型；

第一替换子单元，用于当所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型为数字类型时，以第一预设替换符号替换所述第j个位置处的字符；

第二替换子单元，用于当所述第i个统一资源定位符数据和第i+1个统一资源定位符数据中第j个位置处的字符的类型为字母类型时，以第二预设替换符号替换所述第j个位置处的字符；

第三替换子单元，用于当所述第i个统一资源定位符数据中第j个位置处的字符的类型和第i+1个统一资源定位符数据中第j个位置处的字符的类型不同时，以所述第i个URL数据中第j个位置处的字符的类型对应的预设替换符号来替换第j个位置处的字符；

第四替换子单元，用于当所述第i个统一资源定位符数据或第i+1个统一资源定位符数据中第j个位置处的字符为预设连字符时，以不是所述预设连字符的第j个位置处的字符的类型对应的预设替换符号来替换所述第j个位置处的字符；

配置子单元，用于对所有不同字符替换后的统一资源定位符数据为所述第i个统一资源定位符数据和第i+1个统一资源定位符数据对应的统一资源定位符模板。

优选地，所述扩展单元，包括：

统计子单元，用于对所述统一资源定位符模板进行次数统计，得到一有序的统一资源定位符模板列表；

保留子单元，用于保留所述统一资源定位符模板列表中符合预设条件的所述统一资源定位符模板；

扩展子单元，用于对保留的所述统一资源定位符模板进行扩展，其中扩展过程包括：依次采用所述第一预设替换符号对应类型的全部字符依次替换所述统一资源定位符模板中的所述第一预设替换符号以及采用所述第二预设替换符号对应类型的全部字符依次替换所述统一资源定位符模板中的所述第二预设替换符号，得到每个所述统一资源定位符模板对应的扩展后的统一资源定位符数据；

去重子单元，用于将扩展后的统一资源定位符数据与全部已知的统一资源定位符数据进行去重处理，得到全部可视为钓鱼网站的统一资源定位符数据。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

本发明提供的上述技术方案可以以全部已知的统一资源定位符数据为基础，得到统一资源定位符模板，并对统一资源定位符模板进行扩展，得到每个统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据，实现钓鱼网站的自行主动获取，有效降低钓鱼发现的滞后性与人工依赖的问题。并且通过上述方式可以扩大检测范围，降低利益损失，且可以将已知钓鱼网站的统一资源定位符数据作为基础进行扩展，从而提高已知的钓鱼网站的二次利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的数据源检测方法的一种流程图；

图2是图1所示数据源检测方法中得到URL模板的流程图；

图3是图1所示数据源检测方法中URL模板扩展的流程图；

图4是本发明实施例提供的数据源检测方法的另一种流程图；

图5是本发明实施例提供的得到URL模板的示意图；

图6是本发明实施例提供的数据源检测装置的一种结构示意图；

图7是图6所示数据源检测装置中对比单元的结构示意图；

图8是图6所示数据源检测装置中扩展单元的结构示意图；

图9是本发明实施例提供的数据源检测装置的另一种结构示意图。

具体实施方式

目前在浏览器中输入拼写错误的统一资源定位符(URL，Uniform ResourceLocato)数据是十分常见的，而网络犯罪分子往往会利用这一情况来误导用户请求转至钓鱼网站，这种现象被称为“误植域名”。对网络钓鱼来说，网络犯罪分子通常会注册与正规网站类似的域名，然后等待拼写错误的用户访问，或者利用URL的视觉相似性来诱导用户主动点击这种“高仿”URL链接。比如www.10086.cn为中国移动的官方网站，网络犯罪分子可能会使用www.1oo86.cn(用字母“o”代替数字“0”)或者使用www.l0086.cn(用字母“l”代替数字“1”)等钓鱼网站欺骗用户进行访问。而这些钓鱼网站的发现在目前仅能依赖于广大网民的举报，为此本发明实施例提供一种数据源扩展方法，以自行主动获取可视为钓鱼网站的URL数据，并提高已知钓鱼网站的URL数据的二次利用率。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的数据源扩展方法的一种流程图，用于自行主动获取可视为钓鱼网站的URL数据，并提高已知钓鱼网站的URL数据的二次利用率，具体可以包括以下步骤：

101：获取全部已知的URL数据，其中全部已知的URL数据至少包括已知钓鱼网站的URL数据。也就是说在本发明实施例中可以至少将已知钓鱼网站的URL数据作为基础进行数据扩展，从而提高已知钓鱼网站的URL数据的二次利用率，如以www.1oo86.cn为基础进行扩展。当然，在本发明实施例中还可以对其他已知合法网站的URL数据为基础进行扩展，如以www.360.com为基础进行扩展。

102：对全部已知的URL数据进行两两对比，得到多个URL模板。之所以对全部已知的URL数据进行两两比对是因为：多个URL数据可能对应一个URL模板，这样经过两两对比便于统计出某一个URL模板的出现次数，在后续以URL模板进行扩展时更加有针对性。

103：对每个URL模板进行扩展，得到每个URL模板对应的可视为钓鱼网站的URL数据。

下面结合附图，对本发明实施例中得到URL模板以及对每个URL模板进行扩展的过程进行详细说明。如图2所示，其示出了本发明实施例提供的得到URL模板的过程，可以包括以下步骤：

1021：当第i个URL数据和第i+1个URL数据的长度相同时，依次比较第i个URL数据和第i+1个URL数据中的每个位置处的字符，i为自然数，且i＝＝1，2，……，m-1，m为URL数据的总数。

以www.g2-bc.com为第i个URL数据和www.g-abb.com为第i+1个URL数据为例，经过长度比较可知，这两个URL数据的长度相同，则可以依次比较这两个URL数据中各个位置处的字符，若这两个URL数据的长度不同，则继续获取其他URL数据进行比较。

1022：当第j个位置处的字符相同时，记录下第j个位置处的字符，并继续比较下一个字符，j＝1,2，……，n，n为第i个URL数据中字符总数。比如，第1至第4位置处的字符相同，则记录下这四个位置处的字符，继续比较第5位置处的字符。

1023：当第j个位置处的字符不同时，获取第i个URL数据和第i+1个URL数据中第j个位置处的字符的类型。

1024：当第i个URL数据和第i+1个URL数据中第j个位置处的字符的类型为数字类型时，以第一预设替换符号替换第j个位置处的字符。

其中第一预设替换符号为预设用来替换URL数据中的对应字符的，当两个URL数据中第j个位置处的字符的类型均是数字类型，则会采用第一预设替换符号来替换，如第一预设替换符号可以为“#”，则会将第j个位置处的字符替换为“#”，当然第一预设替换符号还可以采用其他符号，具体可根据实际应用来确定。

1025：当第i个URL数据和第i+1个URL数据中第j个位置处的字符的类型为字母类型时，以第二预设替换符号替换第j个位置处的字符。

其中第二预设替换符号为预设用来替换URL数据中的对应字符的，当两个URL数据中第j个位置处的字符的类型均是字母类型，则会采用第二预设替换符号来替换，如第二预设替换符号可以为“@”，则会将第j个位置处的字符替换为“@”，当然第二预设替换符号还可以采用其他符号，具体可根据实际应用来确定。

1026：当第i个URL数据中第j个位置处的字符的类型和第i+1个URL数据中第j个位置处的字符的类型不同时，以第i个URL数据中第j个位置处的字符的类型对应的预设替换符号来替换第j个位置处的字符。

比如第i个URL数据中第j个位置处的字符的类型为数字类型，则以第一预设替换符号来替换第j个位置处的字符，若第i个URL数据中第j个位置处的字符的类型为字母类型，则以第二预设替换符号来替换第j个位置处的字符。

1027：当第i个URL数据或第i+1个URL数据中第j个位置处的字符为预设连字符时，以不是预设连字符的第j个位置处的字符的类型对应的预设替换符号来替换第j个位置处的字符。

比如上述www.g2-bc.com和www.g-abb.com这两个URL数据，其中第6个位置处的字符一个为数字2，一个为预设连字符-，则以数字对应的预设替换符号，即第一预设替换符号来替换第6个位置处的字符。而第7个位置处的字符一个为预设连字符-，一个为字母a，则以字母对应的预设替换符号，即第二预设替换符号来替换第7个位置处的符号。

1028：在经过上述步骤后完成所有不同字符的替换，则对所有不同字符替换后得到的URL数据为第i个URL数据和第i+1个URL数据对应的URL模板，比如上述www.g2-bc.com和www.g-abb.com这两个URL数据的URL模板为www.g#@b@.com。

而对每个URL模板进行扩展的过程如图3所示，可以包括以下步骤：

1031：对URL模板进行次数统计，得到一有序的URL模板列表。其中对URL模板进行次数统计，是为了统计每个URL模板出现的次数，进而将相同的URL模板合并，以减少URL模板的数量。

1032：保留URL模板列表中符合预设条件的URL模板。URL模板列表中各个URL模板在经过与预设条件比对后，会删除部分URL模板，然后将符合预设条件的URL模板保留以作为最终用于扩展的URL模板，进一步减少URL模板的数量。

在本发明实施例中预设条件可以根据实际应用来确定，比如限定URL模板中预设替换符号的数量以及URL模板出现的次数，以charvalue为预设的预设替换符号出现的最大次数，以numvalue为预设的URL模板出现的最大次数遍历有序的URL模板列表以通过以下条件控制模板数量：

URL模板中“@”、“#”的数量和不大于charvalue的值，那么保留该URL模板，否则删除；

URL模板的出现的次数不小于numvalue的值，那么保留该URL模板，否则删除。

1033：对保留的URL模板进行扩展，其中扩展过程包括：依次采用第一预设替换符号对应类型的全部字符依次替换URL中的第一预设替换符号以及采用第二预设替换符号对应类型的全部字符依次替换URL模板中的第二预设替换符号，得到每个URL模板对应的扩展后的URL数据。

以上述第一预设替换符号为“#”，第二预设替换符号为“@”为例进行说明，对于URL模板中的第一预设替换符号来说，依次用10个数字0～9去替换，而对于URL模板中的第二预设替换符号来说，依次用26个英文字母a～z去替换。在对URL模板中的各个预设替换符号进行替换后，则得到每个URL模板对应的多个URL数据。

之所以这样替换是因为URL模板中第一预设替换符号和第二预设替换符号是与字符的类型相对应的，而这一对应方式正好体现出各个钓鱼网站的URL数据易被篡改成何种类型的字符，即本发明实施例通过对各个钓鱼网站的URL数据进行统计得出易被篡改成何种类型的字符，使得得到的URL模板和扩展后的URL数据符合钓鱼网站的URL数据被篡改的方式，进而使得URL模板和扩展后的URL数据的针对性强，且可以通过较少的数据得到较为准确的URL数据，得到的各个扩展后的URL数据可以作为网络钓鱼检测的数据源，提高通用性。

1034：将扩展后的URL数据与全部已知的URL数据进行去重处理，得到全部可视为钓鱼网站的URL数据。

从上述技术方案可知，本发明实施例可以以全部已知的URL数据为基础，得到URL模板，并对URL模板进行扩展，得到每个URL模板对应的可视为钓鱼网站的URL数据，实现钓鱼网站的自行主动获取，有效降低钓鱼发现的滞后性与人工依赖的问题。并且通过上述方式可以扩大检测范围，降低利益损失，且可以将已知钓鱼网站的URL数据作为基础进行扩展，从而提高已知的钓鱼网站的二次利用率。

此外，本发明实施例提供的数据源检测方法还可以在获取到URL数据后，对URL数据进行排序，以将相似度较高的URL数据相邻，这样可以将相似度较高的URL数据集中，统计出合法URL数据被篡改成何种类型的字符的程度较高，以有针对性的进行URL数据的扩展。如图4所示，其示出了本发明实施例提供的数据源检测方法的另一种流程图，可以包括以下步骤：

401：获取全部已知的URL数据，其中全部已知的URL数据至少包括已知钓鱼网站的URL数据。也就是说在本发明实施例中可以至少将已知钓鱼网站的URL数据作为基础进行数据扩展，从而提高已知钓鱼网站的URL数据的二次利用率，如以www.1oo86.cn为基础进行扩展。当然，在本发明实施例中还可以对其他已知合法网站的URL数据为基础进行扩展，如以www.360.com为基础进行扩展。

402：获取每个URL数据的二级域名，形成二级域名集合列表，如“www.abc.com”的二级域名为“abc.com”，进而将每个URL的二级域名存储到一个列表中，形成二级域名集合列表。

403：根据二级域名集合列表中的顶级域名进行分类，得到具有不同顶级域名的子二级域名集合列表。如“www.abc.com”和“www.efg.com”的顶级域名TLD均为“.com”，则这两个URL数据都将存放在“.com”对应的子二级域名列表中。

404：对每个子二级域名集合列表中的URL数据进行排序，以使相似度较高的URL数据在排序中相邻。比如基于预设连字符，对每个子二级域名集合列表中的URL数据进行分类，得到含有预设连字符的URL数据和不含有预设连字符的URL数据，然后对含有预设连字符的URL数据和不含有预设连字符的URL数据依次按照长度和字母顺序进行排序，这样就可以将相似度较高的URL数据集中，统计出合法URL数据被篡改成何种类型的字符的程度较高，以有针对性的进行URL数据的扩展。

405：对全部已知的URL数据进行两两对比，得到多个URL模板。

406：对每个URL模板进行扩展，得到每个URL模板对应的可视为钓鱼网站的URL数据。

在本发明实施例中，步骤405和步骤406的执行过程与上述步骤102和步骤103的不同之处仅在于：基于子二级域名集合列表中的各个URL数据对应的二级域名得到URL模板，而替换方式和扩展方式均相同。如得到URL模板的过程是：

(1)对每个排序后的子二级域名列表，顺序读取子二级域名列表中的各个二级域名：

如果当前读取的是第一行，那么再顺序读取第二行，并将读取到的二级域名分别赋值给两个变量domain1、domain2；

如果当前读取的不是第一行，那么先将当前变量domain2赋值给变量domain1，再顺序读取下一行，将其赋值给变量domain2。

(2)如果两个变量domain1、domain2的长度相同(假设length＝n)，那么以从左向右的顺序，依次比较两个变量每个位置处的字符：

1)如果第i(i＝1,2,…,n)个位置处的字符相同，记录下该相同字符，并继续比较下一个字符；

2)如果第i(i＝1,2，…,n)个位置处的字符不相同，则按照下述方式进行：

a)如果两个字符的类型同为数字(0～9)类型，那么以第一预设替换符号“#”替换；

b)如果两个字符的类型同为英文字母(a～z)类型，那么以第二预设替换符号“@”替换；

c)如果两个字符的类型分别为数字(0～9)类型、英文字母(a～z)类型，那么以domain1第i个位处置的字符的类型进行代替，即domian1第i处为数字0～9，那么用“#”替换，domain1第i处为英文字母a～z，那么用“@”替换；

d)如果两个字符中有一个为连字符“-”，那么以另一个字符的类型进行代替。

3)重复上述步骤1)至步骤2)，生成一个URL模板。

(3)如果两个变量domain1、domain2的长度不同，跳转至步骤(1)执行。

(4)重复执行步骤(1)至步骤(3)直到子二级域名列表的结尾。

对于URL模板的扩展过程请参阅图3所示，对此本发明实施例不再阐述。

下面以预设连字符为“-”，第一预设替换符号为“#”，第二预设替换符号为“@”为例，对本发明实施例提供的数据源检测方法进行说明。假设全部已知的URL数据为已知钓鱼网站的URL数据，如表1所示。

表1已知钓鱼网站的URL数据

www.abc.com	www.a-c.com	mg.afgc.com	tg.agm.net	www.agbc.com
					m.acc.com	www.g2-bc.com	www.g-abb.com	wap.abc.net	www.1bc.com

上述表1中URL数据的得到二级域名集合列表为：abc.com、a-c.com、afgc.com、agm.net、agbc.com、acc.com、g2-bc.com、g-abb.com、abc.net、1bc.com

在基于顶级域名分类后，得到两个子二级域名列表，分别是：

.com列表：abc.com、acc.com、agbc.com、afgc.com、g-abb.com、a-c.com、g2-bc.com、1bc.com

.net列表：abc.net、agm.net

对上述两个子二级域名列表中的URL数据进行排序，排序结果如表2所示：

表2子二级域名列表的排序结果

.com排序结果	.net排序结果
		g2-bc.com	abc.net
g-abb.com	agm.net
		afgc.com
agbc.com
		1bc.com
abc.com
		acc.com
a-c.com

对于上述两个排序结果，以.com排序结果为例说明如何得到URL模板。

读取g2-bc.com和g-abb.com这两个URL数据，由于这两个URL数据的长度相同，所以从左向右依次比较每个位置处的字符，发现第2和第3这两个位置处存在预设连字符-，且不存在预设连字符-的URL数据在这两个位置处的字符的类型是数字类型和字母类型，则第2位置处的字符采用“#”替换，第3位置处的字符采用“@”替换，并且第5位置处的字符不同，且字符的类型均是字母类型，则用“@”替换，替换过程请参阅图5所示，得到的URL模板为g#@b@.com。

然后读取afgc.com和-abb.com并进行比较，由于这两个URL数据的长度不同，所以继续读取列表中剩余的URL数据，并得到对应的URL模板，具体的，获取agbc.com和afgc.com，将两个URL数据进行比较得到的URL模板为：a@@c.com。

读取1bc.com，并与agbc.com比较，由于长度不同，继续读取列表中的其他URL数据，获得abc.com，并与1bc.com比较，由于长度相同且1bc.com位置靠前，所以从左向右依次比较后得出URL模板为：#bc.com。

读取acc.com，并与abc.com比较，由于长度相同，所以从左向右依次比较后得出URL模板为：a@c.com。

读取a-c.com，并与acc.com比较，由于长度相同其acc.com位置靠前，所以从左向右依次比较后得出URL模板为：a@c.com。

最后根据各URL模板的出现次数进行排序，得到有序的URL模板列表：a@c.com(2次)、a@@c.com(1次)g#@b@.com(1次)、#bc.com(1次)。

以URL模板中出现#和@的次数不多于两次，且URL模板的出现次数不多于一次为预设条件，保留URL模板列表中符合此预设条件的URL模板为：a@c.com、a@@c.com、#bc.com。

对保留的以上三个URL模板进行扩展，以#bc.com为例，扩展后的URL数据包括：0bc.com、1bc.com、2bc.com、3bc.com、4bc.com、5bc.com、6bc.com、7bc.com、8bc.com、9bc.com。

最后，将以上扩展后的URL数据与已知钓鱼网站的URL数据1bc.com去重(1bc.com重复)，得到最终扩展的全部可视为钓鱼网站的URL数据：0bc.com、2bc.com、3bc.com、4bc.com、5bc.com、6bc.com、7bc.com、8bc.com、9bc.com。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

与上述方法实施例相对应，本发明实施例还提供一种数据源扩展装置，其结构示意图如图6所示，可以包括：获取单元11、对比单元12和扩展单元13。

获取单元11，用于获取全部已知的URL数据，其中全部已知的URL数据至少包括已知钓鱼网站的URL数据。也就是说在本发明实施例中可以至少将已知钓鱼网站的URL数据作为基础进行数据扩展，从而提高已知钓鱼网站的URL数据的二次利用率，如以www.1oo86.cn为基础进行扩展。当然，在本发明实施例中还可以对其他已知合法网站的URL数据为基础进行扩展，如以www.360.com为基础进行扩展。

对比单元12，用于对全部已知的URL数据进行两两对比，得到多个URL模板。之所以对全部已知的URL数据进行两两比对是因为：多个URL数据可能对应一个URL模板，这样经过两两对比便于统计出某一个URL模板的出现次数，在后续以URL模板进行扩展时更加有针对性。

在本发明实施例中，对比单元12可以采用图7所示结构得到多个URL模板，其中对比单元12可以包括：比较子单元121、记录子单元122、获取子单元123、第一替换子单元124、第二替换子单元125、第三替换子单元126、第四替换子单元127和配置子单元128。

比较子单元121，用于当第i个URL数据和第i+1个URL数据的长度相同时，依次比较第i个URL数据和第i+1个URL数据中的每个位置处的字符，i为自然数，且i＝1，2，……，m-1，m为URL数据的总数。

记录子单元122，用于当第j个位置处的字符相同时，记录下第j个位置处的字符，并触发比较子单元121继续比较下一个字符，j＝1,2，…..，n，n为第i个URL数据中字符总数。比如，第1至第4位置处的字符相同，则记录下这四个位置处的字符，继续比较第5位置处的字符。

获取子单元123，用于当第j个位置处的字符不同时，获取第i个URL数据和第i+1个URL数据中第j个位置处的字符的类型。

第一替换子单元124，用于当第i个URL数据和第i+1个URL数据中第j个位置处的字符的类型为数字类型时，以第一预设替换符号替换第j个位置处的字符。

第二替换子单元125，用于当第i个URL数据和第i+1个URL数据中第j个位置处的字符的类型为字母类型时，以第二预设替换符号替换第j个位置处的字符。

第三替换子单元126，用于当第i个URL数据中第j个位置处的字符的类型和第i+1个URL数据中第j个位置处的字符的类型不同时，以第i个URL数据中第j个位置处的字符的类型对应的预设替换符号来替换第j个位置处的字符。

第四替换子单元127，用于当第i个URL数据或第i+1个URL数据中第j个位置处的字符为预设连字符时，以不是预设连字符的第j个位置处的字符的类型对应的预设替换符号来替换第j个位置处的字符。

配置子单元128，用于对所有不同字符替换后的URL数据为第i个URL数据和第i+1个URL数据对应的URL模板，比如上述www.g2-bc.com和www.g-abb.com这两个URL数据的URL模板为www.g#@b@.com。

扩展单元13，用于对每个URL模板进行扩展，得到每个URL模板对应的可视为钓鱼网站的URL数据。在本发明实施例中，扩展单元13可以采用图8所示结构对每个URL模板进行扩展，其中扩展范元13包括：统计子单元131、保留子单元132、扩展子单元133和去重子单元134。

统计子单元131，用于对URL模板进行次数统计，得到一有序的URL模板列表。其中对URL模板进行次数统计，是为了统计每个URL模板出现的次数，进而将相同的URL模板合并，以减少URL模板的数量。

保留子单元132，用于保留URL模板列表中符合预设条件的URL模板。URL模板列表中各个URL模板在经过与预设条件比对后，会删除部分URL模板，然后将符合预设条件的URL模板保留以作为最终用于扩展的URL模板，进一步减少URL模板的数量。

扩展子单元133，用于对保留的URL模板进行扩展，其中扩展过程包括：依次采用第一预设替换符号对应类型的全部字符依次替换URL模板中的第一预设替换符号以及采用第二预设替换符号对应类型的全部字符依次替换URL模板中的第二预设替换符号，得到每个URL模板对应的扩展后的URL数据。

去重子单元134，用于将扩展后的URL数据与全部已知的URL数据进行去重处理，得到全部可视为钓鱼网站的URL数据。

此外，本发明实施例提供的数据源检测装置还可以在获取到URL数据后，对URL数据进行排序，以将相似度较高的URL数据相邻，这样可以将相似度较高的URL数据集中，统计出合法URL数据被篡改成何种类型的字符的程度较高，以有针对性的进行URL数据的扩展。如图9所示，其示出了本发明实施例提供的数据源检测装置的另一种结构示意图，在图6基础上，还可以包括：列表形成单元14、分类单元15和排序单元16。

列表形成单元14，用于获取每个URL数据的二级域名，形成二级域名集合列表，如“www.abc.com”的二级域名为“abc.com”，进而将每个URL的二级域名存储到一个列表中，形成二级域名集合列表。

分类单元15，用于根据二级域名集合列表中的顶级域名进行分类，得到具有不同顶级域名的子二级域名集合列表。如“www.abc.com”和“www.efg.com”的顶级域名TLD均为“.com”，则这两个URL数据都将存放在“.com”对应的子二级域名列表中。

排序单元16，用于对每个子二级域名集合列表中的URL数据进行排序，以使相似度较高的URL数据在排序中相邻。比如排序单元包括：分类子单元和排序子单元，其中分类子单元，用于基于预设连字符，对每个子二级域名集合列表中的URL数据进行分类，得到含有预设连字符的URL数据和不含有预设连字符的URL数据。排序子单元，用于对含有预设连字符的URL数据和不含有预设连字符的URL数据依次按照长度和字母顺序进行排序，这样就可以将相似度较高的URL数据集中，统计出合法URL数据被篡改成何种类型的字符的程度较高，以有针对性的进行URL数据的扩展。

而在图9所示数据源检测装置中对比单元12和扩展单元13的工作过程可以参阅上述方法实施例中的相关说明，本发明实施例不再阐述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据源扩展方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在获取全部已知的统一资源定位符数据之后，在对所述全部已知的统一资源定位符数据进行两两对比之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述对每个子二级域名集合列表中的统一资源定位符数据进行排序，以使相似度较高的统一资源定位符数据在排序中相邻，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述对所述全部已知的统一资源定位符数据进行两两对比，得到多个统一资源定位符模板，包括：

5.根据权利要求4所述的方法，其特征在于，所述对每个所述统一资源定位符模板进行扩展，得到每个所述统一资源定位符模板对应的可视为钓鱼网站的统一资源定位符数据，包括：

6.一种数据源扩展装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述排序单元，包括：

9.根据权利要求6或7所述的装置，其特征在于，所述对比单元，包括：

10.根据权利要求9所述的装置，其特征在于，所述扩展单元，包括：