发明内容
有鉴于此,本发明实施例提供一种恶意网站的识别方法和装置,该方法通过确定待识别网站的URL地址和页面内容所分别对应的网站分类信息,进而比较两个网站分类信息的异同来判定待识别网站是否为恶意网站,能够在待识别网站的URL地址未被收录之前识别出恶意网站,提高了恶意网站的识别速度和识别率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种恶意网站的识别方法。
本发明实施例的一种恶意网站的识别方法,包括:提取待识别网站的URL地址和页面内容,根据所述URL地址查询URL分类库,获取相应的第一网站分类信息;其中,所述URL分类库存储URL地址样本与网站分类信息的映射关系,所述第一网站分类信息从所述网站分类信息中确定;根据设定的匹配策略,将所述页面内容与预先创建的内容识别模板进行匹配,确定与所述页面内容相匹配的内容识别模板对应的第二网站分类信息;比较所述第一网站分类信息与所述第二网站分类信息是否相同,当所述第一网站分类信息与所述第二网站分类信息不同时,判定所述待识别网站为恶意网站。
可选地,所述网站分类信息包括站点数据对应的站点分类,以及路径数据对应的路径分类;根据所述URL地址查询URL分类库,获取相应的第一网站分类信息,包括:根据所述URL地址的字段信息,查询与所述字段信息相匹配的站点数据,以及所述站点数据对应的站点分类;判断相匹配的站点数据在所述站点分类下是否存在与URL地址中的路径字段一致的路径数据,在所述站点数据中所述路径数据对应有路径分类,根据判断结果,将所述站点分类或者所述路径分类作为所述URL地址的第一网站分类信息。
可选地,所述字段信息包括主机名称、至少一级域名和域名对应的IP地址;根据所述URL地址的字段信息,查询与所述字段信息相匹配的站点数据,包括:从所述URL地址的当前字段信息开始,递归式查询与所述当前字段信息相匹配的站点数据,直至查询到与所述当前字段信息相匹配的站点数据;其中,所述当前字段信息的取值依次为所述主机名称、非顶级域名外的其他级域名、所述IP地址和顶级域名;在所述其他级域名包括多级域名时,则按照域名级别由低到高的顺序,将所述多级域名依次作为所述当前字段信息。
可选地,根据判断结果,将所述站点分类或者所述路径分类作为所述URL地址的第一网站分类信息,包括:如果相匹配的站点数据在站点分类下不存在与URL地址中的路径字段一致的路径数据,则将所述站点分类作为所述URL地址的第一网站分类信息;如果相匹配的站点数据在站点分类下存在与URL地址中的路径字段一致的路径数据,则将所述路径分类作为所述URL地址的第一网站分类信息。
可选地,所述第二网站分类信息包括网站类型,所述方法还包括:获取隶属于设定网站类型的网站样本的页面内容,从所述网站样本的页面内容中提取关键词;根据所述关键词以及对应的权重,创建相应网站类型的所述内容识别模板。
可选地,所述匹配策略包括:所述待识别网站的页面内容与所述内容识别模板的关键词相匹配;将所述页面内容与预先创建的内容识别模板进行匹配,包括:统计所述待识别网站的页面内容中所包含的当前内容识别模板的关键词,将统计出的关键词对应的权重求和,得到总权重;将所述总权重与设定权重阈值进行比较,当所述总权重大于等于所述权重阈值时,判定所述待识别网站的页面内容与所述当前内容识别模板相匹配。
可选地,所述方法还包括:从所述URL分类库中抽取多个URL地址样本,基于抽取的所述URL地址样本对机器学习模型进行训练,得到分类识别模型;将新URL地址样本输入所述分类识别模型,得到所述新URL地址样本的分类预测结果;将所述分类预测结果与设定预测阈值进行比较,根据比较结果,将所述新URL地址样本和对应的分类预测结果更新到所述URL分类库;其中,所述分类预测结果即所述网站分类信息。
可选地,基于抽取的URL地址样本对机器学习模型进行训练,得到分类识别模型,包括:根据抽取的所述URL地址样本对应的网站分类信息,对所述URL地址样本标记类别标签;抽取所述URL地址样本对应的网站样本的页面内容,对所述网站样本的页面内容进行分词,通过词与词向量的映射关系,将分词结果转换为词向量;将所述URL地址样本对应的词向量划分为训练集和测试集,将所述训练集输入所述机器学习模型进行训练,得到初始分类识别模型;将所述测试集输入所述初始分类识别模型,得到所述测试集的分类预测结果,将所述测试集的分类预测结果与相应的类别标签进行比对,得到模型评估数据;根据所述模型评估数据调整所述初始分类识别模型,得到最终的分类识别模型。
可选地,抽取所述URL地址样本对应的网站样本的页面内容,包括:从所述URL地址样本对应的网站样本的头部信息中提取头部关键词、隶属指定标签的内容字段和正文内容;拼接所述头部关键词、所述指定标签的内容字段和所述正文内容,得到所述网站样本的页面内容。
为实现上述目的,根据本发明实施例的另一方面,提供了一种恶意网站的识别装置。
本发明实施例的一种恶意网站的识别装置,包括:提取查询模块,用于提取待识别网站的URL地址和页面内容,根据所述URL地址查询URL分类库,获取相应的第一网站分类信息;其中,所述URL分类库存储URL地址样本与网站分类信息的映射关系,所述第一网站分类信息从所述网站分类信息中确定;模板匹配模块,用于根据设定的匹配策略,将所述页面内容与预先创建的内容识别模板进行匹配,确定与所述页面内容相匹配的内容识别模板对应的第二网站分类信息;网站识别模块,用于比较所述第一网站分类信息与所述第二网站分类信息是否相同,当所述第一网站分类信息与所述第二网站分类信息不同时,判定所述待识别网站为恶意网站。
可选地,所述网站分类信息包括站点数据对应的站点分类,以及路径数据对应的路径分类;所述提取查询模块,还用于根据所述URL地址的字段信息,查询与所述字段信息相匹配的站点数据,以及所述站点数据对应的站点分类;判断相匹配的站点数据在所述站点分类下是否存在与URL地址中的路径字段一致的路径数据,在所述站点数据中所述路径数据对应有路径分类,根据判断结果,将所述站点分类或者所述路径分类作为所述URL地址的第一网站分类信息。
可选地,所述字段信息包括主机名称、至少一级域名和域名对应的IP地址;所述提取查询模块,还用于从所述URL地址的当前字段信息开始,递归式查询与所述当前字段信息相匹配的站点数据,直至查询到与所述当前字段信息相匹配的站点数据;其中,所述当前字段信息的取值依次为所述主机名称、非顶级域名外的其他级域名、所述IP地址和顶级域名;在所述其他级域名包括多级域名时,则按照域名级别由低到高的顺序,将所述多级域名依次作为所述当前字段信息。
可选地,所述提取查询模块,还用于如果相匹配的站点数据在站点分类下不存在与URL地址中的路径字段一致的路径数据,则将所述站点分类作为所述URL地址的第一网站分类信息;如果相匹配的站点数据在站点分类下存在与URL地址中的路径字段一致的路径数据,则将所述路径分类作为所述URL地址的第一网站分类信息。
可选地,所述第二网站分类信息包括网站类型,所述装置还包括:模板创建模块,用于获取隶属于设定网站类型的网站样本的页面内容,从所述网站样本的页面内容中提取关键词;根据所述关键词以及对应的权重,创建相应网站类型的所述内容识别模板。
可选地,所述匹配策略包括:所述待识别网站的页面内容与所述内容识别模板的关键词相匹配;所述模板匹配模块,还用于统计所述待识别网站的页面内容中所包含的当前内容识别模板的关键词,将统计出的关键词对应的权重求和,得到总权重;将所述总权重与设定权重阈值进行比较,当所述总权重大于等于所述权重阈值时,判定所述待识别网站的页面内容与所述当前内容识别模板相匹配。
可选地,所述装置还包括:模型训练模块,用于从所述URL分类库中抽取多个URL地址样本,基于抽取的所述URL地址样本对机器学习模型进行训练,得到分类识别模型;将新URL地址样本输入所述分类识别模型,得到所述新URL地址样本的分类预测结果;将所述分类预测结果与设定预测阈值进行比较,根据比较结果,将所述新URL地址样本和对应的分类预测结果更新到所述URL分类库;其中,所述分类预测结果即所述网站分类信息。
可选地,所述模型训练模块,还用于根据抽取的所述URL地址样本对应的网站分类信息,对所述URL地址样本标记类别标签;抽取所述URL地址样本对应的网站样本的页面内容,对所述网站样本的页面内容进行分词,通过词与词向量的映射关系,将分词结果转换为词向量;将所述URL地址样本对应的词向量划分为训练集和测试集,将所述训练集输入所述机器学习模型进行训练,得到初始分类识别模型;将所述测试集输入所述初始分类识别模型,得到所述测试集的分类预测结果,将所述测试集的分类预测结果与相应的类别标签进行比对,得到模型评估数据;根据所述模型评估数据调整所述初始分类识别模型,得到最终的分类识别模型。
可选地,所述模型训练模块,还用于从所述URL地址样本对应的网站样本的头部信息中提取头部关键词、隶属指定标签的内容字段和正文内容;拼接所述头部关键词、所述指定标签的内容字段和所述正文内容,得到所述网站样本的页面内容。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种恶意网站的识别方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种恶意网站的识别方法。
上述发明中的一个实施例具有如下优点或有益效果:
通过确定待识别网站的URL地址和页面内容所分别对应的网站分类信息,进而比较两个网站分类信息的异同来判定待识别网站是否为恶意网站,能够在待识别网站的URL地址未被收录之前识别出恶意网站,提高了恶意网站的识别速度和识别率;
基于URL地址中的字段信息匹配站点数据,进而根据站点数据中是否包含与URL地址中的路径字段一致的路径数据来确定网站分类信息,提高了分类匹配的准确性;通过递归查询方式确定待识别网站的URL地址对应的网站分类信息,进一步提高了分类匹配的准确性;通过从页面内容中提取重要性高的词汇作为关键词,进而创建内容识别模板,保证匹配出的内容识别模板与待识别网站的页面内容相契合;
通过统计待识别网站的页面内容所包含关键词的权重,确定相匹配的内容识别模板,保证分类匹配的准确性;利用机器学习算法对新URL地址样本进行动态分类,并更新URL分类库,在保证分类效果的前提下,扩大了URL分类库所包含的数据,提高了后续查询效果;
使用URL分类库的已有数据和机器学习模型训练分类识别模型,无需人工处理,且保证了模型的分类效果;从网站样本的网页数据中抽取指定信息构成页面内容,保证用于训练分类识别模型的页面内容是所需的数据。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如背景技术所述,现有技术一般基于恶链数据库来判断某个网站是否为恶意网站,但是该方式无法识别尚未被收录到恶链数据库中的恶意网站。比如如下场景:攻击者使用拥有全新域名的新注册网站或新控制的肉鸡网站,模拟真实的网银登录页面或邮箱登录页面,试图获取被攻击者的登录信息。其中,肉鸡网站是指被黑客安装了攻击软件的网站。上述攻击具有以下特点:网站的域名信息尚未被收录到恶链数据库,网站页面高度模仿网银登录页面或邮箱登录页面,域名切换频繁(比如1-2天内会切换域名)。
当被攻击者点击这些网站中的链接时,会被重定向到假冒的登录页面,该登录页面要求被攻击者输入自己的凭证信息。一旦被攻击者输入了自己的凭证信息,攻击者就可以获得这些凭证信息并非法将其贩卖获利。由于这些网站尚未被收录到恶链数据库,导致传统的基于恶链数据库查询的方式对此类攻击无能为力。
检测上述恶意攻击的关键在于如何分辨假冒的网站,本发明实施例通过提取网站的URL和页面内容,分析比对URL的分类属性和页面内容的分类,进而判断该网站是否为假冒网站,具体实现如下。
图1是根据本发明实施例的恶意网站的识别方法的主要步骤的示意图。如图1所示,本发明实施例的恶意网站的识别方法,主要包括如下步骤:
步骤S101:提取待识别网站的URL地址和页面内容,根据所述URL地址查询URL分类库,获取相应的第一网站分类信息。预先将网站样本的URL地址(后续称为URL地址样本)对应的网站分类信息存储到URL分类库。其中,网站分类信息用于指示网站样本的网站类型。
当接收到对待识别网站的识别请求后,提取待识别网站的URL地址和页面内容,之后访问URL分类库,从URL分类库中查询与待识别网站的URL地址相匹配的数据记录,并将该数据记录对应的网站分类信息中的站点分类或者路径分类作为第一网站分类信息。
步骤S102:根据设定的匹配策略,将所述页面内容与预先创建的内容识别模板进行匹配,确定与所述页面内容相匹配的内容识别模板对应的第二网站分类信息。预先为不同网站类型分别创建对应的内容识别模板。比如为银行类网站创建银行类的内容识别模板,为邮箱类网站创建邮箱类的内容识别模板。其中,一个内容识别模板中包括某个网站类型对应的关键词和关键词的权重。
匹配策略中设置有待识别网站的页面内容与内容识别模板的匹配规则。该步骤首先按照匹配策略,将待识别网站的页面内容与当前内容识别模板的关键词进行匹配;之后根据该页面内容所包含的关键词以及对应的权重,计算出所包含关键词对应的总权重;之后将该总权重与设定的权重阈值比较,如果总权重大于等于权重阈值,则说明该页面内容与当前内容识别模板相匹配;最后确定当前内容识别模板对应的网站类型,该网站类型即为第二网站分类信息。
步骤S103:比较所述第一网站分类信息与所述第二网站分类信息是否相同,当所述第一网站分类信息与所述第二网站分类信息不同时,判定所述待识别网站为恶意网站。比较通过URL地址查询出的第一网站分类信息与通过页面内容匹配出的第二网站分类信息是否相同,如果两者不相同,说明待识别网站为恶意网站;如果两者相同,说明待识别网站为正常网站,至此实现了恶意网站的识别。
本实施例通过确定待识别网站的URL地址和页面内容所分别对应的网站分类信息,进而比较两个网站分类信息的异同来判定待识别网站是否为恶意网站,能够在待识别网站的URL地址未被恶链数据库收录之前识别出恶意网站,提高了恶意网站的识别速度和识别率。
图2是根据本发明实施例的恶意网站的识别方法的主要流程示意图。如图2所示,本发明实施例的恶意网站的识别方法,主要包括如下步骤:
步骤S201:根据网站样本的网站类型和页面内容,创建与网站类型对应的内容识别模板。该步骤中需获取隶属于设定网站类型的网站样本的页面内容,从网站样本的页面内容中提取关键词;之后根据提取的关键词以及对应的权重,创建相应网站类型的内容识别模板。在一优选的实施例中,可以利用DLP(Data Loss Prevention,数据防泄漏)的内容识别引擎建立内容识别模板。
以设定网站类型为银行类网站和邮箱类网站为例,利用爬虫技术获取相应网站类型的网站样本中的页面内容。之后从网站样本的页面内容所包含的词汇中提取出重要性高的词汇作为关键词,并在关键词提取过程中计算其权重,提取出的关键词和对应的权重即构成该网站类型的内容识别模板。
实施例中,关键词的提取可以利用词频-逆文档频率(Term Frequency-InverseDocument Frequency,IF-IDF)、文档频率(Document Frequency,DF)等方法实现。以IF-IDF为例,具体提取过程可以为:对网站样本的页面内容进行分词,得到分词结果;计算分词结果中的词汇在该页面内容的出现次数(即词频TF),以及各词汇的逆文档频率(IDF);将词汇的词频和对应的逆文档频率相乘即可得到词汇的分值(即IF-IDF值)。分值越高,说明该词汇对页面内容的重要性越高。
在计算出分词结果中每个词汇的分值后,可以设定一个阈值,将分值大于等于阈值的词语作为关键词。还可以将全部词汇的分值按照从大到小的顺序排序,将前K个(K为整数)分值对应的词汇作为关键词。在一优选的实施例中,可以对去除停用词(比如“的”、“是”等没有意义的词)的词汇计算分值。另外,上述提取过程中计算出的逆文档频率即关键词的权重。
以银行类网站的内容识别模板为例,该模板包含了与银行相关的关键词库以及各关键词对应的权重。例如:
账户服务,3
存款,2
贷款,2
信用卡,2
投资理财,2
个人网上银行登录,3
企业网上银行登录,3
…
实施例中,内容识别模板可以是包含上述内容的文本文件或者二进制文件。其中,文本文件可以使用文本编辑器生成,生成文本文件后可利用工具将其转换成的二进制文件。
步骤S202:当接收到对待识别网站的识别请求时,提取待识别网站的URL地址和页面内容。当用户通过其客户端访问待识别网站时,触发客户端向服务端发送识别请求。服务端根据识别请求,提取待识别网站的URL地址和页面内容。
步骤S203:根据待识别网站的URL地址查询URL分类库,得到相应的第一网站分类信息。URL分类库中存储有URL地址样本与对应的网站分类信息的映射关系。由于一个网站可能有上万个页面,有些页面可能是博客文章,有些页面可能是招聘页面,而博客文章应该分类为博客网站,招聘页面应该分类为招聘网站。
为了提高分类匹配的准确性,实施例中,将网站分类信息划分为两部分,一部分为站点数据对应的站点分类,另一部分为路径数据对应的路径分类。站点分类和路径分类代表不同的网站类型,比如站点分类为博客网站,路径分类为招聘网站。
URL分类库中的一个映射关系为一条数据记录(即站点数据)。实施例中,URL分类库中存储的站点数据的格式可以如下:
其中,hostname为主机名称;revision为版本信息;path为路径;siteCat表示某个站点数据的整体分类,即站点分类;fileCats表示该站点数据下某个特定URL的分类,即路径分类。files字段包含的信息即文件数据。需要注意的是,上述JSON(Java Script ObjectNotation)格式的站点数据仅为示例。本发明并不限定站点数据的存储格式。
服务端向URL分类库发送查询请求,该查询请求中包括待识别网站的URL地址以及该URL地址的主机名称对应的IP地址。URL分类库接收到查询请求后,根据URL地址的字段信息,查询与该字段信息相匹配的站点数据以及对应的站点分类;之后判断该站点数据在站点分类下是否存在与URL地址中的路径字段一致的路径数据,并根据判断结果,选择站点分类或者路径分类返回至服务端。URL数据库返回的分类即URL地址对应的第一网站分类信息。
实施例中,字段信息包括主机名称(hostname)、至少一级域名(domain)和域名对应的IP地址。为了提高查询匹配的准确性,在查询与字段信息相匹配的站点数据时,可以从当前字段信息开始,递归式查询与当前字段信息相匹配的站点数据,直至查询到与当前字段信息相匹配的站点数据。需要注意的是,当前字段信息的取值依次为主机名称、非顶级域名外的其他级域名、IP地址和顶级域名。在其他级域名包括多级域名时,则按照域名级别由低到高的顺序,将多级域名依次作为当前字段信息。该步骤的具体过程见后续关于图3的描述。
步骤S204:根据设定的匹配策略,将待识别网站的页面内容与内容识别模板进行匹配,确定与页面内容相匹配的内容识别模板的第二网站分类信息。实施例中,匹配策略包括:待识别网站的页面内容与内容识别模板的关键词相匹配。根据该匹配策略的具体匹配过程如下:
统计待识别网站的页面内容中所包含的当前内容识别模板的关键词,将统计出的关键词对应的权重求和,得到总权重;之后将总权重与设定权重阈值进行比较,当总权重大于等于权重阈值时,认为待识别网站的页面内容与当前内容识别模板相匹配;当总权重小于权重阈值时,认为待识别网站的页面内容与当前内容识别模板不匹配。其中,权重阈值可自定义设置,比如设置为40。下面举例说明。
假设当前内容识别模板为步骤S201的银行类网站的内容识别模板,权重阈值为10,待识别网站的页面内容中包含该内容识别模板中的关键词为:{账户服务、存款、贷款、信用卡、个人网上银行登录},则将这些关键词对应的权重求和,得到的总权重为3+2+2+2+3=12。由于该总权重大于权重阈值,则说明待识别网站的页面内容与该内容识别模板相匹配。
由于内容识别模板与网站类型存在对应关系,故在为待识别网站的页面内容匹配出内容识别模板后,根据内容识别模板与网站类型的对应关系,即可确定该匹配出的内容识别模板的网站类型,该网站类型即为第二网站分类信息。仍旧结合上例,当前内容识别模板为银行类网站,故第二网站分类信息即银行类网站。
在可选的实施例中,匹配策略还可以包括下述任意一个或者多个:传输通道选择网络通道中的SMTP(Simple Mail Transfer Protocol,一种电子邮件传输的协议),并针对入向邮件进行识别;识别范围覆盖所有来源/目标;对命中的恶意网站执行保护动作,并记录相关事件和证据文件。此处的保护动作可以是阻断命中的恶意网站,将网页内容拷贝到配置的位置,以便作为证据文件。
可以理解的是,本实施并不限定步骤S203和步骤S204的执行顺序,可以先执行步骤S204后,再执行步骤S203。
步骤S205:比较第一网站分类信息与第二网站分类信息是否相同,如果两者相同,则执行步骤S206;如果两者不同,则执行步骤S207。若第一网站分类信息与第二网站分类信息均为银行类网站,则说明两者相同;若第一网站分类信息为邮件类网站,第二网站分类信息为银行类网站,则说明两者不同。
步骤S206:返回待识别网站为正常网站的识别结果,结束本流程。该识别结果可以以提示框、警告框等的形式展示在客户端,也可以通过短信、邮件等形式发送至客户端。
步骤S207:返回待识别网站为恶意网站的识别结果,结束本流程。该识别结果同样可以以提示框、警告框等的形式展示在客户端,也可以通过短信、邮件等形式发送至客户端,用以提醒用户。
本实施例由于将网站分类信息分为站点数据对应的站点分类,以及路径数据对应的路径分类这两部分内容,能够提高分类匹配的准确性。而且通过递归查询的方式确定网站分类信息,保证能够准确匹配相应的分类。
图3是本发明实施例的获取第一网站分类信息的实现流程示意图。如图3所示,本发明实施例的获取第一网站分类信息的实现流程(即步骤S203),主要包括以下步骤:
步骤S301:根据URL地址的主机名称,查询URL分类库中是否存在相匹配的站点数据,如果不存在与主机名称相匹配的站点数据,则执行步骤S302;否则,执行步骤S307。URL的一般语法格式:protocol://hostname[:port]/path/[;parameters][?query]#fragment。其中,protocol为协议,hostname为主机名称,port为端口,path为路径,parameters为参数,query为查询,fragment为信息片断,带方括号[]的为可选项。
由于站点数据中包含hostname,故可以使用URL地址的hostname,查询站点数据中是否存在与该hostname相同的部分。如果至少一个站点数据中存在与该hostname相同的部分(以URL地址为https://www.example.com/p/bfeec2e1399为例,此处即站点数据中包括www.example.com),则说明存在相匹配的站点数据;如果所有站点数据中均不存在与该hostname相同的部分,则说明不存在相匹配的站点数据。
在一优选的实施例中,由于域名不区分大小写,故可以使用toLowerCase()方法将URL地址统一转换成小写后再进行查询匹配。
步骤S302:根据URL地址的当前级域名,查询URL分类库中是否存在相匹配的站点数据,如果不存在与当前级域名相匹配的站点数据,则执行步骤S303;否则,执行步骤S307。
域名(domain)具有层级结构,常见的域名层级结构如下:主机名称.次级域名.顶级域名.根域名。顶级域名又叫一级域名,次级域名又叫二级域名,主机名称又叫三级域名,一般情况下,N级域名即N-1级域名前追加一级。常见的顶级域名比如.com、.cn、.com.cn、.net等。
实施例中,当前级域名的初始值为主机名称的上一级域名。仍旧以上述URL地址为例,当前级域名的初始值为example.com,该域名的上一级域名即.com,为顶级域名。
该步骤即判断站点数据中是否存在与URL地址的当前级域名相同的部分,如果至少一个站点数据中存在与当前级域名相同的部分(即站点数据中包括example.com),则说明存在相匹配的站点数据;如果所有站点数据中均不存在与当前级域名相同的部分,则说明不存在相匹配的站点数据。
步骤S303:判断当前级域名的上一级域名是否为顶级域名,如果不是顶级域名,则执行步骤S304;如果是顶级域名,则执行步骤S305。
步骤S304:将上一级域名作为当前级域名,执行步骤S302。
步骤S305:根据URL地址对应的IP地址,查询URL分类库中是否存在相匹配的站点数据,如果不存在与IP地址相匹配的站点数据,则执行步骤S306;否则,执行步骤S307。
域名经解析后即可得到IP地址,比如域名www.example.com,对应的IP地址为208.80.152.2。该步骤中需要判断每个站点数据的IP地址与URL地址对应的IP地址是否相同,如果有相同的IP地址,则认为存在相匹配的站点数据;如果没有相同的IP地址,则认为不存在相匹配的站点数据。
步骤S306:根据URL地址的顶级域名,查询URL分类库中是否存在相匹配的站点数据,如果存在与顶级域名相匹配的站点数据,则执行步骤S307;否则,执行步骤S312。
该步骤即判断站点数据中是否存在与URL地址的顶级域名相同的部分,如果至少一个站点数据中存在与顶级域名相同的部分(即站点数据中包括.com),则说明存在相匹配的站点数据;如果所有站点数据中均不存在与顶级域名相同的部分,则说明不存在相匹配的站点数据。
步骤S307:查询匹配出的站点数据对应的站点分类。此处需从匹配出的站点数据中,找出与URL地址所使用协议相同的站点数据,再查询这些站点数据对应的站点分类。
仍旧以上述URL地址为例,该步骤首先需从匹配出的站点数据中,找出使用https协议的站点数据,再查询这些站点数据对应的站点分类。
步骤S308:判断相匹配的站点数据中是否包含路径数据,如果包含路径数据,则执行步骤S309;否则,执行步骤S311。该步骤用于判断与URL地址所使用协议相同,且相匹配的站点数据中是否包含路径数据。
步骤S309:根据URL地址的路径字段,查询是否存在相匹配的路径数据,如果存在相匹配的路径数据,则执行步骤S310;否则,执行步骤S311。
该步骤判断步骤S308得到的路径数据中的路径字段,与URL地址的路径字段是否相同,如果至少一个路径数据的路径字段与URL地址的路径字段相同(即路径数据的路径字段也为p/bfeec2e1399),则说明存在相匹配的路径数据;如果所有路径数据的路径字段与URL地址的路径字段均不相同,则说明不存在相匹配的路径数据。
步骤S310:返回路径数据对应的路径分类作为第一网站分类信息,结束本流程。
步骤S311:返回站点数据对应的站点分类作为第一网站分类信息,结束本流程。
步骤S312:返回用于指示未分类的提示信息,结束本流程。
在一优选的实施例中,在查询返回时,除返回站点分类或者路径分类外,还可以返回完整的站点数据,以便缓存。
由前面描述可知,本发明实施例的URL分类库中存储有URL地址样本与网站分类信息的映射关系。可以理解的是,这些映射关系可以来自于不同数据源,比如来自于各安全厂商的数据、人工运维数据、机器学习的数据等,并且可以存储在ElasticSearch(简称ES)中的不同索引中。URL分类库可以整合这些不同数据源的数据,并利用优先级来实现逻辑层面的分层存储。
对于查询使用别名(即ES索引别名)机制,可以查询出多条记录,此时可以根据配置文件配置的优先级,选择优先级高的分类作为第一网站分类信息。
图4是本发明实施例的更新URL分类库的主要流程示意图。如图4所示,本发明实施例的更新URL分类库的实现流程,包括以下步骤:
步骤S401:从URL分类库中抽取多个URL地址样本,基于抽取的URL地址样本对机器学习模型进行训练,得到分类识别模型。由于URL地址样本分布不均衡,实施例中,可以按比例抽取不同类别的数据进行混洗,之后按照指定数据格式生成对应的样本文件,便于后续进行模型训练。此处的类别即网站分类信息。分类识别模型的训练过程见后续关于图5的描述。
在抽取URL地址样本时,可以以数量最少的类别为基准设定抽取比例,并且数量最少和数量最多的URL地址样本的比例不超过1:10。具体抽取比例的设定可以经过多次试验调优后得出。实施例中,数据格式可以是TFRecord格式,该格式是一种二进制文件,整个文件由文件长度信息、长度校验码、数据、数据校验码组成。
步骤S402:将新URL地址样本输入分类识别模型,得到新URL地址样本的分类预测结果。训练好分类识别模型后,即可用于预测新URL地址样本。分类预测结果是一个大于0小于等于1的浮点数。
步骤S403:判断分类预测结果是否大于等于设定预测阈值,如果分类预测结果大于等于预测阈值,则执行步骤S404;否则,执行步骤S405。
步骤S404:将新URL地址样本和对应的分类预测结果更新到URL分类库,结束本流程。其中,分类预测结果即网站分类信息。如果分类预测结果大于等于预测阈值,则认为分类预测结果准确,可以直接更新到URL分类库。
步骤S405:审核分类预测结果,审核通过后,将新URL地址样本和对应的分类预测结果更新到URL分类库,结束本流程。如果分类预测结果小于预测阈值,则分类预测结果可能出错,需要进一步审核修正后再更新到URL分类库。此处的审核可以由人工实现,也可以计算机程序实现。
可以理解的是,本实施例的URL分类库的更新过程可以在恶意网站的识别方法的任意步骤执行。该实施例由于能够结合机器学习算法动态增加URL分类库中的已有数据,在保证分类效果的前提下,能够提高后续查询效果。
图5是本发明实施例的训练分类识别模型的主要流程示意图。如图5所示,本发明实施例的训练分类识别模型(即步骤S401中基于URL地址样本对机器学习模型进行训练)的实现流程,包括以下步骤:
步骤S501:根据抽取的URL地址样本对应的网站分类信息,对URL地址样本标记类别标签。比如某个URL地址样本的站点分类为博客网站,路径分类为招聘网站,则该URL地址样本的类别标签为博客网站和招聘网站。
步骤S502:抽取URL地址样本对应的网站样本的页面内容,对网站样本的页面内容进行分词,通过词与词向量的映射关系,将分词结果转换为词向量。从URL地址样本对应的网站样本中抽取出需要的内容,按照指定数据格式(比如TFRecord格式)生成对应的页面内容,该实现过程见后续关于图6的描述。
抽取出页面内容后,需要对页面内容进行语言识别工作,进而基于语言识别结果进行分词。具体地,如果语言识别结果为英文,则使用空格作为分割符进行分词,如果遇到标点符号,则将标点符号作为单独的词;如果语言识别结果为中文,则基于预创建的字典进行分词,如果遇到标点符号,则将标点符号作为单独的词。
得到页面内容的分词结果之后,需要通过词与词向量的映射关系(实施例中为映射表)将分词结果转换为词向量。在转换过程中,对于映射表中不存在的词,则用0向量代替;对于词数量低于特定阈值的样本,则通过补充0向量填充;对于词数量高于特定阈值的样本,则仅截取等于阈值数量的部分用于后续训练。
其中,词与词向量的映射表基于word2vec训练得到,主要流程包括语料库获取及模型训练。本实施例中,语料库主要为比较权威的开源中英文语料库,如各种新闻资料、百科词条等。得到语料库后,需要将语料库的文本进行分词操作,完成分词后将文本作为输入,训练模型得到相应词向量。
步骤S503:将URL地址样本对应的词向量划分为训练集和测试集,将训练集输入机器学习模型进行训练,得到初始分类识别模型。通过步骤S502完成特征抽取工作之后,该步骤即可将向量化后的URL地址样本划分为训练集和测试集,之后将训练集输入机器学习模型进行训练。其中,训练集和测试集的划分比例可以设置为8:2,7:3等,具体数值可以根据实验结果进行调整得到优化比例。
步骤S504:将测试集输入初始分类识别模型,得到测试集的分类预测结果,将测试集的分类预测结果与相应的类别标签进行比对,得到模型评估数据。模型训练好后,可以将测试集输入初始分类识别模型得到分类预测结果,将该分类预测结果与测试集的类别标签进行比对,得到模型评估数据。其中,模型评估数据可以是预测准确率。
步骤S505:根据模型评估数据调整初始分类识别模型,得到最终的分类识别模型。如果模型评估数据未达到设定标准,则可以调整初始分类识别模型的超参后,再进行训练。重复上述训练、模型评估、超参调整过程,直至获得理想的分类识别模型作为最终的分类识别模型。
该步骤中,超参可以是优化器(RMSProp、Adam或Momentum)、学习率、深度学习模型类型(LSTM或GRU)。实施例中,可以使用不同的超参组合在较小的训练集上训练并进行交叉验证,对比分类识别效果后选择最优的超参组合。其中,RMSProp的全称为Root MeanSquare Prop;Adam的全称为Adaptive Moment Estimation;LSTM的全称为Long Short-Term Memory,是长短期记忆网络;GRU的全称为Gated Recurrent Unit,是门控循环单元网络。
上述步骤中使用当前URL分类库的已有数据和机器学习模型训练出分类识别模型,无需人工处理,实现了离线培训,且保证了模型的分类效果。
图6是本发明实施例的抽取网站样本的页面内容的实现流程示意图。如图6所示,本发明实施例的抽取网站样本的页面内容(即步骤S502中抽取URL地址样本对应的网站样本的页面内容)的实现流程,可以包括以下步骤:
步骤S601:从URL地址样本对应的网站样本的头部信息中提取头部关键词、隶属指定标签的内容字段和正文内容。实施例中,基于设定的搜索引擎优化规则(SEO)从网站样本的头部信息中提取头部关键词,去除无用的头部标签信息,提取超链接等指定标签中的内容字段,去除HTML(Hyper Text Markup Language,超文本标记语言)正文中的各种HTML标签、JavaScript脚本、CSS样式表(Cascading Style Sheets,层叠样式表),得到正文内容。
步骤S602:拼接头部关键词、指定标签的内容字段和正文内容,得到网站样本的页面内容。拼接头部关键词、指定标签中的内容字段和上述正文内容得到最终的页面内容。上述处理过程,通过从网页数据中过滤无用数据,保留所需数据,保证分类识别模型的训练效果。
图7是根据本发明实施例的恶意网站的识别装置的主要模块的示意图。如图7所示,本发明实施例的恶意网站的识别装置700,主要包括:
提取查询模块701,用于提取待识别网站的URL地址和页面内容,根据所述URL地址查询URL分类库,获取相应的第一网站分类信息。预先将URL地址样本对应的网站分类信息存储到URL分类库。其中,网站分类信息用于指示网站样本的网站类型。
当接收到对待识别网站的识别请求后,提取待识别网站的URL地址和页面内容,之后访问URL分类库,从URL分类库中查询与待识别网站的URL地址相匹配的数据记录,并将该数据记录对应的网站分类信息中的站点分类或者路径分类作为第一网站分类信息。
模板匹配模块702,用于根据设定的匹配策略,将所述页面内容与预先创建的内容识别模板进行匹配,确定与所述页面内容相匹配的内容识别模板对应的第二网站分类信息。预先为不同网站类型分别创建对应的内容识别模板。比如为银行类网站创建银行类的内容识别模板,为邮箱类网站创建邮箱类的内容识别模板。其中,一个内容识别模板中包括某个网站类型对应的关键词和关键词的权重。
匹配策略中设置有待识别网站的页面内容与内容识别模板的匹配规则。该步骤首先按照匹配策略,将待识别网站的页面内容与当前内容识别模板的关键词进行匹配;之后根据该页面内容所包含的关键词以及对应的权重,计算出所包含关键词对应的总权重;之后将该总权重与设定的权重阈值比较,如果总权重大于等于权重阈值,则说明该页面内容与当前内容识别模板相匹配;最后确定当前内容识别模板对应的网站类型,该网站类型即为第二网站分类信息。
网站识别模块703,用于比较所述第一网站分类信息与所述第二网站分类信息是否相同,当所述第一网站分类信息与所述第二网站分类信息不同时,判定所述待识别网站为恶意网站。比较通过URL地址查询出的第一网站分类信息与通过页面内容匹配出的第二网站分类信息是否相同,如果两者不相同,说明待识别网站为恶意网站;如果两者相同,说明待识别网站为正常网站,至此实现了恶意网站的识别。
另外,本发明实施例的恶意网站的识别装置700还可以包括:模板创建模块和模型训练模块(图7中未示出)。其中,模板创建模块,用于获取隶属于设定网站类型的网站样本的页面内容,从所述网站样本的页面内容中提取关键词;以及根据所述关键词以及对应的权重,创建相应网站类型的所述内容识别模板。
模型训练模块,用于从所述URL分类库中抽取多个URL地址样本,基于抽取的所述URL地址样本对机器学习模型进行训练,得到分类识别模型;将新URL地址样本输入所述分类识别模型,得到所述新URL地址样本的分类预测结果;以及将所述分类预测结果与设定预测阈值进行比较,根据比较结果,将所述新URL地址样本和对应的分类预测结果更新到所述URL分类库;其中,所述分类预测结果即所述网站分类信息。
图8是本发明实施例的恶意网站的识别装置中各模块的信息交互流程图。如图8所示,本发明实施例的识别装置包括:提取查询模块701、模板匹配模块702和网站识别模块703,各模块所实现的功能如前所述,此处仅描述各模块的输入输出。
其中,提取查询模块701的输入为来自外部的针对待识别网站的识别请求;输出有两个,一个是输出到模板匹配模块702的待识别网站的页面内容,另一个是输出到网站识别模块703的第一网站分类信息。
模板匹配模块702的输入是待识别网站的页面内容,输出是第二网站分类信息。网站识别模块703的输入是第一网站分类信息和第二网站分类信息,输出是待识别网站的识别结果。
图9是本发明实施例的恶意网站的识别装置中提取查询模块的内部结构示意图。如图9所示,本发明实施例的提取查询模块701包括:在线查询模块901、URL分类库902和模型训练模块903。
其中,在线查询模块901,可部署在网关设备上,用于接收对待识别网站的识别请求,提取待识别网站的URL地址和页面内容,之后访问URL分类库902,以从URL分类库中递归查询出与待识别网站的URL地址相匹配的数据记录,并将该数据记录对应的网站分类信息中的站点分类或者路径分类作为第一网站分类信息。
URL分类库902,用于整合管理多个数据源,这些数据源即不同来源的URL地址样本的网站分类信息。模型训练模块903实现的功能如前所述,此处不再赘述。
从以上描述可以看出,通过确定待识别网站的URL地址和页面内容所分别对应的网站分类信息,进而比较两个网站分类信息的异同来判定待识别网站是否为恶意网站,能够在待识别网站的URL地址未被收录之前识别出恶意网站,提高了恶意网站的识别速度和识别率。
图10示出了可以应用本发明实施例的恶意网站的识别方法或恶意网站的识别装置的示例性系统架构1000。
如图10所示,系统架构1000可以包括终端设备1001、1002、1003,网络1004和服务器1005。网络1004用以在终端设备1001、1002、1003和服务器1005之间提供通信链路的介质。网络1004可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备1001、1002、1003通过网络1004与服务器1005交互,以接收或发送消息等。终端设备1001、1002、1003可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器1005可以是提供各种服务的服务器,例如对用户利用终端设备1001、1002、1003发送的识别请求进行处理的后台管理服务器。后台管理服务器可以提取待识别网站的URL地址和页面内容,查询URL地址对应的第一网站分类信息,确定页面内容对应的第二网站分类信息,比较第一网站分类信息和第二网站分类信息,并将处理结果(例如恶意网站的识别结果)反馈给终端设备。
需要说明的是,本申请实施例所提供的恶意网站的识别方法一般由服务器1005执行,相应地,恶意网站的识别装置一般设置于服务器1005中。
应该理解,图10中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。
本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种恶意网站的识别方法。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种恶意网站的识别方法。
下面参考图11,其示出了适用于来实现本发明实施例的电子设备的计算机系统1100的结构示意图。图11示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,计算机系统1100包括中央处理单元(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中,还存储有计算机系统1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本发明公开的实施例,上文主要步骤图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括提取查询模块、模板匹配模块和网站识别模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,提取查询模块还可以被描述为“提取待识别网站的URL地址和页面内容,根据所述URL地址查询URL分类库,获取相应的第一网站分类信息的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:提取待识别网站的URL地址和页面内容,根据所述URL地址查询URL分类库,获取相应的第一网站分类信息;其中,所述URL分类库存储URL地址样本与网站分类信息的映射关系,所述第一网站分类信息从所述网站分类信息中确定;根据设定的匹配策略,将所述页面内容与预先创建的内容识别模板进行匹配,确定与所述页面内容相匹配的内容识别模板对应的第二网站分类信息;比较所述第一网站分类信息与所述第二网站分类信息是否相同,当所述第一网站分类信息与所述第二网站分类信息不同时,判定所述待识别网站为恶意网站。
根据本发明实施例的技术方案,通过确定待识别网站的URL地址和页面内容所分别对应的网站分类信息,进而比较两个网站分类信息的异同来判定待识别网站是否为恶意网站,能够在待识别网站未被收录之前识别出恶意网站,提高了恶意网站的识别速度和识别率。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。