发明内容
本发明的目的,就是克服现有技术的不足,提供一种主动发现恶意网页的利用搜索引擎对关键词相关URL的收集方法和装置,该方法和装置能快速,有效地利用搜索引擎把恶意网站查找出来,同时持续性利用关联的关键词查找更多恶意网站,提前识别恶意网站,避免用户在点击后才发现恶意网站的被动局面。
为了达到上述目的,采用如下技术方案:
一种利用搜索引擎对关键词相关URL的收集方法,其特征在于其包括以下步骤:
1)搜索关键词,获取与关键词对应的网页的URL;
2)判断所述获取的网页的URL是否为恶意URL或可信任URL,若是恶意URL,提取恶意URL的网页内容;若是可信任URL,提取可信任URL的网页内容;若不是恶意URL或可信任URL,结束;
3)判断任意恶意URL的网页内容之间是否具有相同的关键词,若具有,所述关键词为关联的关键词;
4)重复步骤1)—3)。
进一步地,所述步骤2)的判断方法包括:所述获取的网页的URL与黑名单数据库中的恶意URL以及白名单数据库中的可信任URL比较,若获取的网页的URL是黑名单数据库中的恶意URL,则获取的网页的URL为恶意URL;若获取的网页的URL是白名单数据库中的可信任URL,则为可信任URL;若获取的网页的URL不是黑名单数据库中的恶意URL或白名单数据库中的可信任URL,则为可疑URL,根据预设的判断规则判断可疑URL是否为恶意URL或可信任URL。
进一步地,根据预设的判断规则判断可疑URL为恶意URL,把恶意URL存储至黑名单数据库;可疑URL为可信任URL,把可信任URL存储至白名单数据库;可疑URL仍为可疑URL,结束。
进一步地,所述关联的关键词由一个关联的关键词构成或两个以上关联的关键词组合构成。
进一步地,所述步骤3)中,若任意恶意URL的网页内容之间具有相同的关键词,所述恶意URL拥有所述关键词的数量与所有恶意URL的数量之比大于30%,所述关键词为关联的关键词。
进一步地,若任意恶意URL的网页内容之间具有相同的关键词,且可信任URL的网页内容具有所述关键词,所述关键词所在的可信任URL的数量与所有可信任URL的数量之比小于50%,所述关键词所在的恶意URL的数量与所有恶意URL的数量之比大于30%,则所述关键词为关联的关键词。
一种利用搜索引擎对关键词相关URL的收集装置,包括搜索模块,用于搜索关键词,获取与关键词对应的网页的URL;判断提取模块,用于判断所述获取的网页的URL是否为恶意URL或可信任URL,若是恶意URL,则提取恶意URL的网页内容;若是可信任URL,提取可信任URL的网页内容;若不是恶意URL或可信任URL,结束;关键词判断模块,用于判断任意恶意URL的网页内容之间是否具有相同的关键词;若具有,所述关键词为关联的关键词。
进一步地,所述装置还包括一存储恶意URL的黑名单数据库,一存储可信任URL的白名单数据库。
进一步地,所述装置还包括一匹配模块,所述匹配模块把获得的网页的URL与黑名单数据库中的恶意URL以及白名单数据库中的可信任URL匹配;若获取的网页的URL是黑名单数据库中的恶意URL,则获取的网页的URL为恶意URL;若获取的网页的URL是白名单数据库中的可信任URL,则为可信任URL。
进一步地,所述关联的关键词由一个关联的关键词构成或一个以上关联的关键词组合构成。
与现有技术相比,本发明的有益效果在于:
本发明有效地利用搜索引擎把恶意网站查找出来,同时持续性利用关联的关键词查找更多恶意网站,提前识别恶意网站,避免用户在点击后才发现恶意网站的被动局面,减少用户的损失。另外,本发明设立的黑名单数据库和白名单数据库,可以减少判断量,提高整个装置的运行效率。通过对应列表中记录的用户搜索关键词,以及该关键词对应的网页的URL的对应关系信息,可以获得关联的关键词,进一步通过搜索,发现更大量的恶意网站,保护用户的系统安全。
具体实施方式
下面将结合附图以及具体实施方法来详细说明本发明,在本发明的示意性实施及说明用来解释本发明,但并不作为对本发明的限定。
实施例一:
本实施例公开了一种利用搜索引擎对关键词相关URL的收集方法,主要包括以下步骤:
1)搜索关键词,获取与关键词对应的网页的URL。
具体地,刚开始搜索的关键词为预设的关键词,预设的关键词可通过人工收集输入,收集的关键词一般为网络热词。恶意网站多数通过网络热词提高自身的点击率。例如:手机、充值卡、游戏或当前热门点击的关键词等等。通过输入这些网络热词,利用常用的搜索引擎,用户可以获得多个网页搜索结果。根据搜索结果的匹配度以及各个搜索引擎排名的因素,各个网页的URL的排名位置不一。用户一般在只看前十页的搜索结果。本实施例获取搜索结果的前100条URL。
2)判断所述获取的网页的URL是否为恶意URL或可信任URL,若是恶意URL,则提取恶意URL的网页内容;若是可信任URL,提取可信任URL的网页内容;若不是恶意URL或可信任URL,结束。
具体地,本实施例的判断方法包括:获取的网页的URL与黑名单数据库中的恶意URL以及白名单数据库中的可信任URL比较,若获取的网页的URL是黑名单数据库中的恶意URL,则获取的网页的URL为恶意URL;若获取的网页的URL是白名单数据库中的可信任URL,则为可信任URL;若获取的网页的URL与黑名单数据库中的恶意URL或白名单数据库中的可信任URL都不相同,则为可疑URL。可疑URL根据预设的判断规则,把网页的页面文件下载到虚拟机中,通过网站页面在虚拟机中的运行情况进行分析和检测判断是否为恶意URL或可信任URL。若从运行情况中检测该网页文件具有恶意行为,如盗号、强制运行插件、强制下载文件等等,则判断该网页的URL为恶意URL。把恶意URL存储至黑名单数据库中,并提取恶意URL的网页内容;把可信任URL存储至白名单数据库中,并提取可信任URL的网页内容。所述网页内容指文字内容。若无法区分获取的网页的URL为恶意URL或可信任URL,则结束。
3)判断任意恶意URL的网页内容之间是否具有相同的关键词;若具有,所述关键词为关联的关键词。
具体地说,如果步骤2)判断获取的网页的URL为恶意URL,并提取恶意URL的网页内容。从任意恶意URL的网页内容中找出相同的关键词,则该关键词为关联的关键词。举例说明,假设预设的种子关键词“充值”利用搜索引擎搜索出100个对应的URL,其中10个URL被判定为恶意URL。预设的种子关键词“充值”与100个对应的URL构成1比100的对应关系。“充值”这个关键词对应的100个URL中有10个被判定为恶意URL。在这10个恶意URL中,假设提取的内容中有4个恶意URL的内容中包括“1分钟到账”这个关键词,则这个关键词为关联的关键词。
作为优选,若任意恶意URL的网页内容之间具有相同的关键词,所述恶意URL拥有所述关键词的数量与所有恶意URL的数量之比大于30%,所述关键词为关联的关键词。举例说明,假设预设的种子关键词“充值”利用搜索引擎搜索出100个对应的URL,其中10个URL被判定为恶意URL。在这10个恶意URL中,假设提取的内容中有4个恶意URL的内容中包括“1分钟到账”这个关键词。“1分钟到账”这个关键词的恶意URL的数量为4,占恶意URL总数量10的40%,则“1分钟到账”这个关键词为关联的关键词。如果“1分钟到账”这个关键词所在的恶意URL的数量为2,占恶意URL总数量10的20%(低于30%),则“1分钟到账”这个关键词不是关联的关键词。
作为优选,若任意恶意URL的网页内容之间具有相同的关键词,且可信任URL的网页内容具有所述关键词,所述关键词所在的可信任URL的数量与所有可信任URL的数量之比小于50%,所述关键词所在的恶意URL的数量与所有恶意URL的数量之比大于30%,则所述关键词为关联的关键词。举例说明,假设预设的种子关键词“充值”利用搜索引擎搜索出100个对应的URL,其中10个URL被判定为恶意URL,50个URL被判定为可信任URL,40个URL为可疑URL。在这10个恶意URL中,假设提取的内容中有4个恶意URL的内容中包括“1分钟到账”这个关键词。“1分钟到账”这个关键词的恶意URL的数量为4,占恶意URL总数量10的40%(高于30%)。且“1分钟到账”这个关键词所在的可信任URL的数量为20,占可信任URL总数量50的40%(低于50%),则“1分钟到账”这个关键词是关联的关键词。如果“1分钟到账”这个关键词的恶意URL的数量为4,占恶意URL总数量10的40%(高于30%),且“1分钟到账”这个关键词所在的可信任URL的数量为40,占可信任URL总数量50的80%(高于50%),则“1分钟到账”这个关键词不是关联的关键词。只有同时满足提取的关键词所在的可信任URL的数量与所有可信任URL的数量之比小于50%,关键词所在的恶意URL的数量与所有恶意URL的数量之比大于30%,则所述关键词为关联的关键词。
本实施例从恶意URL中提取的关联的关键词不止一个,可以提取多个不同的关联的关键词。举例,除了上述“1分钟到账”,还包括“移动充值”、“联通充值”等。假设从关键词“充值”可以找到“1分钟到账”、“移动充值”、“联通充值”三个关联的关键词。分别使用搜索引擎搜索“1分钟到账”、“移动充值”、“联通充值”这三个关联的关键词,获得三组不同的关联的关键词与对应网页的URL的对应关系信息。作为优选,这三个可以关键词还可以以“移动充值+联通充值+5分钟到账”或“联通充值+5分钟到账”或“移动充值+5分钟到账”或“移动充值+联通充值”的形式组合构成新的关联的关键词。这种组合并不限于上述举例的限定。
若从恶意URL中无法找出关联的关键词,则结束。
4)重复步骤2)—3)。
把步骤3)利用搜索引擎搜索出来的三组不同的关联的关键词与对应网页的URL根据步骤2)判断对应网页的URL是否为恶意URL或可信任URL,提取网页的网页内容,尤其是文字内容。再通过步骤3)找出恶意URL的关联的关键词,最后再进入步骤4)。通过循环,可以快速,准确地发现不同的关联的关键词,从而更快、更准确地判断搜索获得的网页的URL为可信URL或可疑URL或恶意URL,保护用户的信息安全。
实施例二
本实施例包括一种利用搜索引擎对关键词相关URL的收集装置。该装置包括用于搜索关键词,获取与关键词对应的网页的URL的搜索模块1;用于判断所述获取的网页的URL为恶意URL或可信任URL或可疑URL并提取网页内容的判断提取模块2;用于判断任意恶意URL的网页内容之间是否具有相同的关键词,若具有,所述关键词为关联的关键词的关键词判断模块3。还包括用于存储预恶意URL的黑名单数据库4,存储有可信任URL的白名单数据库5,存储有关键词的关键词数据库6。
关键词数据库6中存储的关键词由人工收集输入或通过搜索所得。预设的关键词一般为网络热词。恶意网站多数通过网络热词提高自身的点击率。例如:手机、充值卡、游戏等等。通过输入这些网络热词,利用常见的搜索引擎,用户可以获得多个网页搜索结果。关键词数据库6中包含预设的关键词和关联的关键词。
搜索模块1把关键词数据库6中的预设的关键词利用常见的搜索引擎搜索,获得与预设的关键词或关联的关键词对应的网页的URL。
本装置还包括匹配模块7。通过搜索模块1搜索,匹配模块7把获得的网页的URL优先与黑名单数据库4中的恶意URL以及白名单数据库5中的可信任URL匹配;若获取的网页的URL是黑名单数据库4中的恶意URL,则获取的网页的URL为恶意URL;若获取的网页的URL是白名单数据库5中的可信任URL,则为可信任URL;若获取的网页的URL与黑名单数据库4中的恶意URL或白名单数据库5中的可信任URL都不相同,则为可疑URL。可疑URL再通过现有的虚拟机技术,通过预设的判断规则由判断提取模块2判断可疑URL为可信任URL或恶意URL,或仍为可疑URL。判断提取模块2从恶意URL和可信任URL中提取网页内容,尤其是文字内容。
判断提取模块2判断搜索模块1搜索出的网页的URL为恶意URL或可信任URL。判断提取模块2的判断依据主要根据现有的虚拟机技术。通过下载需要判断的URL的页面内容至虚拟机中运行,检测和判断该页面内容是否恶意URL或可信任URL。
关联的关键词判断模块3判断不同恶意URL的网页内容之间是否具有相同的关键词。若任意恶意URL的网页内容之间具有相同的关键词,且恶意URL拥有所述关键词的数量与所有恶意URL的数量之比大于30%,所述关键词为关联的关键词。具体的判断方法如实施例一的方法所述,在此不作赘述。找到关联的关键词后,把该关键词发送至关键词数据库6,由关键词数据库6存储。同时利用搜索模块1搜索该关联的关键词,获取与关联的关键词对应的网页的URL。判断提取模块2再判断所述获取的网页的URL是否为恶意URL或可信任URL。通过循环,快速查找相关联的恶意URL。
本实施例的装置通过预设的关键词找出关联的关键词,扩大了查找范围。此外,搜索模块1把预设的关键词、关联的关键词存储至关键词数据库6中。判断提取模块2把获得的网页的URL首先与黑名单数据库4中的恶意URL以及白名单数据库5中的可信任URL匹配。若搜索模块1获得的网页的URL与黑名单数据库4中的恶意URL或白名单数据库5中的可信任URL匹配,节省了判断提取模块2的工作,有利于提高效率。若搜索模块1获得的网页的URL与黑名单数据库4中的恶意URL或白名单数据库5中的可信任URL均不匹配,则判断提取模块2根据现有的技术的判断规则判断其为恶意URL或可信任URL或可疑URL,并把判断结果为恶意URL发送至黑名单数据库4,由黑名单数据库4存储该恶意URL;把判断结果为可信任URL发送至白名单数据库5中,由白名单数据库5存储该可信任URL。通过判断提取模块2的判断,黑名单数据库和白名单数据库均得到更新。
本实施例的关联的关键词由一个关联的关键词构成或两个以上关联的关键词组合构成。如实施例一步骤3)所述的关联的关键词组合模式。
以上对本发明实施例所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述,以上实施例的说明只适用于帮助理解本发明实施例的原理;同时,对于本领域的一般技术人员,依据本发明实施例,在具体实施方式以及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。