CN113079123A - 一种恶意网站的检测方法、装置及电子设备 - Google Patents
一种恶意网站的检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113079123A CN113079123A CN202010004165.1A CN202010004165A CN113079123A CN 113079123 A CN113079123 A CN 113079123A CN 202010004165 A CN202010004165 A CN 202010004165A CN 113079123 A CN113079123 A CN 113079123A
- Authority
- CN
- China
- Prior art keywords
- website
- malicious
- target
- behavior feature
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Abstract
本发明实施例公开了一种恶意网站的检测方法、装置及电子设备,所述方法包括:根据待检测的目标网站的域名注册信息,确定所述目标网站的行为特征信息,将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,其中,所述恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到,基于所述异常概率,确定所述目标网站是否为恶意网站。通过本方法,可以通过目标网站的行为特征信息和预先训练的恶意网站识别模型,确定目标网站的异常概率,在通过异常概率,确定目标网站是否为恶意网站,提高了恶意网站的检测效率以及检测准确性。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种恶意网站的检测方法、装置及电子设备。
背景技术
随着移动通信技术的不断发展,越来越多的恶意网站频繁出现在移动网络上,对人们的生活和工作造成了较大的干扰,因此,恶意网站的检测成为人们关注的焦点。
目前,可以基于人工收集的统一资源定位符(Uniform Resource Locator,URL)的黑名单,对网站的URL进行匹配检测,以判断网站是否为恶意网站。例如,当用户访问某一网页后,可以获取该网页的完整网络地址(即该网页的URL),然后将该URL与收集的ULR黑名单进行匹配,如果匹配成功,则可以确定用户访问的该网页对应的网站为恶意网站。
但是,通过上述对网站的URL进行匹配检测,判断网站是否为恶意网站的方式,存在以下问题:由于需要人工收集URL的黑名单,所以存在较高的人力成本,且随着恶意网站的数量越来越大,恶意网站的URL的变换频率越来较快,人工收集URL黑名单的复杂程度也会越来越高,这就导致恶意网站的检测效率低,检测准确性差。
发明内容
本发明实施例的目的是提供一种恶意网站的检测方法、装置及电子设备,以解决现有技术中对网站是否为恶意网站进行检测时,存在的检测效率较低、检测准确性较差的问题。
为解决上述技术问题,本发明实施例是这样实现的:
第一方面,本发明实施例提供的一种恶意网站的检测方法,所述方法包括:
根据待检测的目标网站的域名注册信息,确定所述目标网站的行为特征信息;
将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,其中,所述恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到;
基于所述异常概率,确定所述目标网站是否为恶意网站。
可选地,所述将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率之前,还包括:
获取所述恶意网站和非恶意网站的历史行为特征信息;
分别对所述恶意网站的历史行为特征信息和所述非恶意网站的历史行为特征信息进行向量化处理,得到所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量;
基于所述K近邻算法以及所述朴素贝叶斯算法,对所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量进行处理,得到目标恶意网站集合和目标非恶意网站集合;
基于所述目标恶意网站集合和目标非恶意网站集合,确定所述预先训练的恶意网站识别模型。
可选地,所述基于所述K近邻算法以及所述朴素贝叶斯算法,对所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量进行处理,得到目标恶意网站集合和目标非恶意网站集合,包括:
基于预设距离算法,获取每两个所述恶意网站的行为特征向量之间的第一距离信息,以及每两个所述非恶意网站的行为特征向量之间的第二距离信息;
基于所述第一距离信息,确定与所述恶意网站的行为特征向量对应第一中心点,以及基于所述第二距离信息,确定与所述非恶意网站的行为特征向量对应的第二中心点;
基于预设k值和所述第一中心点,确定恶意网站集合,基于所述预设k值和所述第二中心点,确定非恶意网站集合;
基于所述朴素贝叶斯算法,获取所述恶意网站集合内每个所述恶意网站的行为特征向量的异样概率,以及所述非恶意网站集合内每个所述非恶意网站的行为特征向量的异样概率;
基于所述恶意网站集合内每个所述恶意网站的行为特征向量的异样概率,对所述恶意网站集合内的恶意网站的行为特征向量进行筛选处理,得到所述目标恶意网站集合;
基于所述非恶意网站集合内每个所述非恶意网站的行为特征向量的异样概率,对所述非恶意网站集合内的非恶意网站的行为特征向量进行筛选处理,得到所述目标非恶意网站集合。
可选地,所述根据待检测的目标网站的域名注册信息,确定所述目标网站的行为特征信息之前,还包括:
获取网站的域名注册信息;
基于预设过滤规则和所述网站的域名注册信息,确定所述待检测的目标网站。
可选地,所述将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,包括:
对所述目标网站的行为特征信息进行向量化处理,得到所述目标网站的行为特征向量;
将所述目标网站的行为特征向量,输入所述预先训练的恶意网站识别模型中,得到所述目标网站的异常概率。
可选地,所述对所述目标网站的行为特征信息进行向量化处理,得到所述目标网站的行为特征向量,包括:
获取所述目标网站的行为特征信息中包含的注册组织信息的文本长度;
基于预设命名规范度确定规则,确定所述目标网站的行为特征信息中包含的联系邮箱信息的命名规范度;
基于所述注册组织信息和所述联系邮箱信息,确定所述目标网站的注册信息关联度;
基于所述文本长度、所述命名规范度以及所述注册信息关联度,确定所述目标网站的行为特征向量。
可选地,所述将所述目标网站的行为特征向量,输入所述预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,包括:
获取所述目标网站的行为特征向量与所述目标恶意网站集合之间的第一距离,以及所述目标网站的行为特征向量与所述目标非恶意网站集合之间的第二距离;
基于所述第一距离和所述第二距离,确定所述目标网站的异常概率。
第二方面,本发明实施例提供了一种恶意网站的检测装置,所述装置包括:
信息确定模块,用于根据待检测的目标网站的域名注册信息,确定所述目标网站的行为特征信息;
概率确定模块,用于将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,其中,所述恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到;
恶意网站确定模块,用于基于所述异常概率,确定所述目标网站是否为恶意网站。
可选地,所述装置还包括:
第一获取模块,用于获取所述恶意网站和非恶意网站的历史行为特征信息;
信息处理模块,用于分别对所述恶意网站的历史行为特征信息和所述非恶意网站的历史行为特征信息进行向量化处理,得到所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量;
模型训练模块,用于基于所述K近邻算法以及所述朴素贝叶斯算法,对所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量进行处理,得到目标恶意网站集合和目标非恶意网站集合;
模型确定模块,用于基于所述目标恶意网站集合和目标非恶意网站集合,确定所述预先训练的恶意网站识别模型。
可选地,所述模型训练模块,包括:
距离获取单元,用于基于预设距离算法,获取每两个所述恶意网站的行为特征向量之间的第一距离信息,以及每两个所述非恶意网站的行为特征向量之间的第二距离信息;
中心点确定单元,用于基于所述第一距离信息,确定与所述恶意网站的行为特征向量对应第一中心点,以及基于所述第二距离信息,确定与所述非恶意网站的行为特征向量对应的第二中心点;
第一集合确定单元,用于基于预设k值和所述第一中心点,确定恶意网站集合,基于所述预设k值和所述第二中心点,确定非恶意网站集合;
异样概率确定单元,用于基于所述朴素贝叶斯算法,获取所述恶意网站集合内每个所述恶意网站的行为特征向量的异样概率,以及所述非恶意网站集合内每个所述非恶意网站的行为特征向量的异样概率;
第二集合确定单元,用于基于所述恶意网站集合内每个所述恶意网站的行为特征向量的异样概率,对所述恶意网站集合内的恶意网站的行为特征向量进行筛选处理,得到所述目标恶意网站集合;
第三集合确定单元,用于基于所述非恶意网站集合内每个所述非恶意网站的行为特征向量的异样概率,对所述非恶意网站集合内的非恶意网站的行为特征向量进行筛选处理,得到所述目标非恶意网站集合。
可选地,所述装置,还包括:
第二获取模块,用于获取网站的域名注册信息;
网站确定模块,用于基于预设过滤规则和所述网站的域名注册信息,确定所述待检测的目标网站。
可选地,所述概率确定模块,包括:
信息处理单元,用于对所述目标网站的行为特征信息进行向量化处理,得到所述目标网站的行为特征向量;
概率确定单元,用于将所述目标网站的行为特征向量,输入所述预先训练的恶意网站识别模型中,得到所述目标网站的异常概率。
可选地,所述信息处理单元,用于:
获取所述目标网站的行为特征信息中包含的注册组织信息的文本长度;
基于预设命名规范度确定规则,确定所述目标网站的行为特征信息中包含的联系邮箱信息的命名规范度;
基于所述注册组织信息和所述联系邮箱信息,确定所述目标网站的注册信息关联度;
基于所述文本长度、所述命名规范度以及所述注册信息关联度,确定所述目标网站的行为特征向量。
可选地,所述概率确定单元,用于:
获取所述目标网站的行为特征向量与所述目标恶意网站集合之间的第一距离,以及所述目标网站的行为特征向量与所述目标非恶意网站集合之间的第二距离;
基于所述第一距离和所述第二距离,确定所述目标网站的异常概率。
第三方面,本发明实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述实施例提供的恶意网站的检测方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述实施例提供的恶意网站的检测方法的步骤。
由以上本发明实施例提供的技术方案可见,本发明实施例通过根据待检测的目标网站的域名注册信息,确定目标网站的行为特征信息,将目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到目标网站的异常概率,其中,恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到,基于异常概率,确定目标网站是否为恶意网站。这样,可以通过目标网站的行为特征信息和预先训练的恶意网站识别模型,确定目标网站的异常概率,在基于目标网站的异常概率,确定目标网站是否为恶意网站,而不需要通过人工收集URL黑名单的方式,对目标网站的URL进行匹配检测,降低人工成本的同时,提高恶意网站的检测效率以及检测准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一种恶意网站的检测方法的流程示意图;
图2为本发明一种预先训练的恶意网站识别模型的示意图;
图3为本发明另一种恶意网站的检测方法的流程示意图;
图4为本发明一种基于预设k值确定非恶意网站集合的示意图;
图5为本发明一种目标网站的异常概率获取方法的示意图;
图6为本发明一种恶意网站的检测装置的结构示意图;
图7为本发明一种电子设备的结构示意图。
具体实施方式
本发明实施例提供一种恶意网站的检测方法、装置及电子设备。
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都应当属于本发明保护的范围。
实施例一
如图1所示,本发明实施例提供一种恶意网站的检测方法,该方法的执行主体可以为服务器,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S102中,根据待检测的目标网站的域名注册信息,确定目标网站的行为特征信息。
其中,目标网站可以是任意待检测的网站,域名注册信息可以是通过域名查询协议(即WHOIS)获取到的目标网站的域名注册信息。
在实施中,随着移动通信技术的不断发展,越来越多的恶意网站频繁出现在移动网络上,对人们的生活和工作造成了较大的干扰,因此,恶意网站的检测成为人们关注的焦点。目前,可以基于人工收集的统一资源定位符(Uniform Resource Locator,URL)的黑名单,对网站的URL进行匹配检测,以判断网站是否为恶意网站。例如,当用户访问某一网页后,可以获取该网页的完整网络地址(即URL),然后将该URL与收集的ULR黑名单进行匹配,如果匹配成功,则可以确定用户访问的该网页对应的网站为恶意网站。
但是,通过上述对网站的URL进行匹配检测,判断网站是否为恶意网站的方式,存在以下问题:由于需要人工收集URL的黑名单,所以存在较高的人力成本,且随着恶意网站的数量越来越大,恶意网站的URL的变换频率越来较快,人工收集URL黑名单的复杂程度也会越来越高,这就导致恶意网站的检测效率低,检测准确性差。
此外,还可以通过对已知恶意网站内包含的网页的内容(如网页内包含的图片、页面关键词等)进行特征挖掘,然后基于挖掘出的恶意网站的网页特征,对待检测的网站所包含的网页进行检测,以判断该网站是否为恶意网站。
但是,上述恶意网站的检测方法,需要获取待检测网站内包含的网页的内容,由于恶意网站的访问成功率较低,所以可能存在无法获取待检测网站内包含网页的内容的问题,导致恶意网站的检测准确性较差,为此,本发明实施例提供另一种实现方案,具体可以包括以下内容:
可以基于域名查询协议,获取待检测的目标网站的域名注册信息,获取的目标网站的域名注册信息可以包括目标网站的注册组织信息、联系邮箱信息、DNS解释器(或可称为DNS解析器等)信息、注册时间、有效期等。
在获取了目标网站的域名注册信息后,可以选取域名注册信息中的一项或多项,作为目标网站的行为特征信息。例如,可以将域名注册信息中的注册组织信息和有效期作为目标网站的行为特征信息。
上述目标网站的行为特征信息是一种可选地、可实现的确定方法,在实际应用场景中,可以有多种不同的行为特征信息的确定方法,可以根据实际应用场景的不同,选取不同的行为特征信息的确定方法,例如,可以选取域名注册信息中的注册组织信息、联系邮箱信息以及注册时间信息,作为目标网站的行为特征信息,本发明实施例对此不做具体限定。
在S104中,将目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到目标网站的异常概率。
其中,恶意网站识别模型可以为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到,其中,恶意网站可以是由用户举报信息确定的网站,非恶意网站可以是预设存储的政府网站、学校网站等网站,恶意网站(或非恶意网站)的历史行为特征信息可以是基于恶意网站(或非恶意网站)的域名注册信息确定的行为特征信息。
在实施中,以目标网站的行为特征信息包括DNS解释器信息和有效期为例,基于DNS解释器信息,可以获取目标网站的DNS解释器的数量,然后将目标网站的DNS解释器的数量和有效期,输入到预先训练的恶意网站识别模型中,可以得到目标网站的异常概率。
例如,如图2所示,图2为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息(包括DNS解释器数量和有效期)进行训练得到的恶意网站识别模型。其中,该预先训练的恶意网站识别模型可以包括区域1和区域2,区域1可以为基于朴素贝叶斯算法和K近邻算法,对恶意网站的历史行为特征信息进行训练后,得到的数据点所形成的区域,区域2可以为基于朴素贝叶斯算法和K近邻算法,对非恶意网站的历史行为特征信息进行训练后,得到的数据点所形成的区域。
可以基于目标网站的DNS解释器数量和有效期,确定目标网站的行为特征信息对应的数据点,在预先训练的恶意网站识别模型中的位置信息,然后基于该位置信息,确定目标网站的异常概率。例如,如果目标网站的行为特征信息对应的数据点位于区域1内,则目标网站的异常概率可以为100%,如果目标网站的行为特征信息对应的数据点位于区域2内,则目标网站的异常概率可以为0,如果目标网站的行为特征信息对应的数据点位于区域1和区域2之外,则可以获取目标网站的行为特征信息对应的数据点与区域1之间的最短距离1,以及目标网站与区域2之间的最短距离2,然后将最短距离1与最短距离2的比值,作为目标网站的异常概率。
在S106中,基于异常概率,确定目标网站是否为恶意网站。
在实施中,可以基于预设异常概率阈值和目标网站的异常概率,确定目标网站是否为恶意网站。例如,预设异常概率阈值可以为70%,如果目标网站的异常概率大于70%,则可以认为目标网站为恶意网站,如果目标网站的异常概率不大于70%,则可以确定目标网站为非恶意网站。
本发明实施例提供一种恶意网站的检测方法,通过根据待检测的目标网站的域名注册信息,确定目标网站的行为特征信息,将目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到目标网站的异常概率,其中,恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到,基于异常概率,确定目标网站是否为恶意网站。这样,可以通过目标网站的行为特征信息和预先训练的恶意网站识别模型,确定目标网站的异常概率,在基于目标网站的异常概率,确定目标网站是否为恶意网站,而不需要通过人工收集URL黑名单的方式,对目标网站的URL进行匹配检测,降低人工成本的同时,提高恶意网站的检测效率以及检测准确性。
实施例二
如图3所示,本发明实施例提供一种恶意网站的检测方法,该方法的执行主体可以为服务器,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S302中,获取网站的域名注册信息。
其中,网站可以为基于预设服务器的访问日志获取的一个或多个待检测的网站。
在S304中,基于预设过滤规则和网站的域名注册信息,确定待检测的目标网站。
在实施中,预设过滤规则可以包括基于URL白名单对网站的URL进行过滤的第一过滤规则,其中,URL白名单可以为包括政府、学校等预设机构的URL,可以基于URL白名单,对网站进行初步过滤。
此外,预设过滤规则还可以包括基于域名注册信息的内容进行过滤的第二过滤规则,在基于第一过滤规则进行初步过滤后,可以基于第二过滤规则,对初步过滤后的网站进行筛选。例如,第二过滤规则可以包括对网站的域名注册信息是否存在缺失指定注册信息进行检测的过滤规则、对网站的域名注册信息中的注册组织信息中是否包含预设关键字进行检测的过滤规则、对网站的注册有效时长是否小于预设时长进行检测的过滤规则、对网站的DNS解释器的数量是否小于预设数量阈值进行检测的过滤规则等规则中的一个或多个。
例如,可以对经过第一过滤规则过滤后的网站1的域名注册信息中,是否缺失注册组织信息、联系邮箱信息、注册电话、有效期截止时间以及二级域名列表(即指定注册信息)进行检测,如果存在任意一项或多项指定注册信息的缺失,则可以将网站1确定为待检测的目标网站。
或者,假设预设关键字为“www”,可以检测网站1的注册组织信息中是否包含“www”,如果网站1的注册组织信息中包含“www”,则可以确定网站1为待检测的目标网站。
又或者,可以基于网站1的域名注册信息,获取网站1的注册时间和有效期,然后可以将注册时间和有效期的差值作为网站1的注册有效时长。例如,网站1的注册时间为2018年9月2日,有效期为2019年9月2日,则网站1注册有效时长为1年,假设预设时长为5年,网站1的注册有效时间小于预设时长,网站1即可以确定为待检测的目标网站。
又或者,如果网站1的DNS解释器的数量小于预设数量阈值(如5个),则可以确定网站1为待检测的目标网站。
通过第一过滤规则可以过滤网站中与URL白名单匹配的网站,然后通过第二过滤规则,可以筛选出存在较大可能性为恶意网站的目标网站,即通过预设过滤规则,可以筛选出网站中的目标网站,减少后续处理过程的复杂度,节约处理资源。
在S306中,根据待检测的目标网站的域名注册信息,确定目标网站的行为特征信息。
上述S306的具体处理过程可以参见上述实施例一中S102中的相关内容,在此不再赘述。
在S308中,获取恶意网站和非恶意网站的历史行为特征信息。
在S310中,分别对恶意网站的历史行为特征信息和非恶意网站的历史行为特征信息进行向量化处理,得到恶意网站的行为特征向量和非恶意网站的行为特征向量。
在实施中,在获取了恶意网站和非恶意网站的历史行为特征信息后,可以对历史行为特征信息进行分词处理,并将分词处理后的历史行为特征信息,转换为对应的数值,以得到与历史行为特征信息对应的行为特征向量。
在S312中,基于K近邻算法以及朴素贝叶斯算法,对恶意网站的行为特征向量和非恶意网站的行为特征向量进行处理,得到目标恶意网站集合和目标非恶意网站集合。
在实际应用中,上述S312的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤一~步骤六处理。
步骤一,基于预设距离算法,获取每两个恶意网站的行为特征向量之间的第一距离信息,以及每两个非恶意网站的行为特征向量之间的第二距离信息。
其中,预设距离算法可以为欧几里得距离算法、曼哈顿距离算法、切比雪夫距离算法等,可以根据实际应用场景中不同的数据使用需求,确定对应的预设距离算法,本发明实施例对此不做具体限定。
在实施中,在获取第一距离信息和第二距离信息之前,可以基于恶意网站和非恶意网站的行为特征向量,绘制对应的散点图,然后基于预设距离算法,获取每两个行为特征向量(包括恶意网站的行为特征向量和非恶意网站的行为特征向量)对应的数据点之间的距离信息,并根据距离信息,对行为特征向量对应的数据点进行筛选,例如,可以将与其它行为特征向量对应的数据点之间的距离之和大于预设距离之和阈值的数据点删除,以减少对后续处理工作的干扰。
然后在根据预设距离算法,获取每两个恶意网站的行为特征向量对应的数据点之间的距离(即第一距离信息),以及每两个非恶意网站的行为特征向量对应的数据点之间的距离(即第二距离信息)。
步骤二,基于第一距离信息,确定与恶意网站的行为特征向量对应第一中心点,以及基于第二距离信息,确定与非恶意网站的行为特征向量对应的第二中心点。
在实施中,可以基于恶意网站的行为特征向量以及非恶意网站的行为特征向量,绘制散点图,并根据第一距离信息,获取恶意网站的行为特征向量对应的数据点中,与其余恶意网站的行为特征向量对应的数据点之间的距离之和最小的数据点,并将该数据点确定为第一中心点,同样也可以根据第二距离信息,确定与非恶意网站的行为特征向量对应的第二中心点。
例如,有恶意网站1、恶意网站2、恶意网站3以及恶意网站4,基于这四个恶意网站的行为特征向量,可以绘制对应的散点图,并在散点图中,可以基于第一距离信息,查找这四个恶意网站对应的四个数据点中,与其余恶意网站对应的数据点之间的距离之和最小的数据点,并将该数据点确定为第一中心点。例如,恶意网站2对应的数据点2,与其余三个恶意网站对应的三个数据点之间的距离之和最小,则恶意网站2对应的数据点2可以为第一中心点。
其中,在确定第一中心点(或第二中心点)时,可以基于第一距离信息(或第二距离信息)和权重系数(包括第一权重系数或第二权重系数),确定第一中心点(或第二中心点),其中,第一权重系数可以是恶意网站的数量与网站总数的比值,第二权重系数可以是非恶意网站的数量与网站总数的比值,例如,有3个恶意网站,6个非恶意网站,则第一权重系数可以为3/9=0.33,第二权重系数可以为6/9=0.66。
可以将第一距离信息和第一权重系数输入公式 以得到第一中心点,其中,y′和x′可以为第一中心点,y1可以为恶意网站,v为网站的类型,即当v=y1时,表示当前数据点为恶意网站的行为特征向量对应的数据点,Dt为数据点所在的数据域,d(x′,xi)为第一中心点与其余数据点在第i维的距离,I(v=y1)可以是根据数据点对应的网站类型确定的权重系数(即第一权重系数)。
步骤三,基于预设k值和第一中心点,确定恶意网站集合,基于预设k值和第二中心点,确定非恶意网站集合。
其中,预设k值可以根据实际应用场景的不同,设定为不同的数值。
在实施中,如图4所示,预设k值可以为基于第一中心点(或第二中心点)为圆心确定的圆的半径,不同的预设k值,可以对应不同的非恶意网站集合,例如,如图4所示,当预设k值为1时,可以基于第一中心点和预设k值,将对应的集合1确定为非恶意网站集合,当预设k值为2时,可以基于第一中心点和预设k值,将对应的集合2确定为非恶意网站集合。
此外,在基于预设k值和第一中心点(或第二中心点),确定恶意网站集合(或非恶意网站集合)时,还可以基于第一中心点与其它恶意网站的行为特征向量对应的数据点之间的距离,对其它恶意网站(即恶意网站中除第一中心点对应的恶意网站之外的恶意网站)的行为特征向量进行排序(基于从小到大的顺序进行排序),并基于预设k值,选取前k个恶意网站的行为特征向量,并由这k个恶意网站的行为特征向量构成恶意网站集合,即恶意网站集合包含的数据点构成的图形可以为异形图形,同样的,也可以基于上述方法,确定非恶意网站集合。
步骤四,基于朴素贝叶斯算法,获取恶意网站集合内每个恶意网站的行为特征向量的异样概率,以及非恶意网站集合内每个非恶意网站的行为特征向量的异样概率。
在实施中,以获取恶意网站集合内每个恶意网站的行为特征向量的异样概率为例,假设每个恶意网站的行为特征向量中包含的各个维度的数据(即恶意网站的行为特征信息之间)相互独立,则可以基于每个恶意网站的行为特征向量中包含的多维数据,和公式获取每个恶意网站的行为特征向量相对于恶意网站集合中所有恶意网站的行为特征向量的异样概率,其中,P(x|y1)可以为恶意网站1的异样概率,y1可以为恶意网站1,xi可以为行为特征向量中第i维数据,n可以为行为特征向量中包含的数据的维数。同样的,也可以基于上述公式,获取非恶意网站集合内每个非恶意网站的行为特征向量的异样概率。
步骤五,基于恶意网站集合内每个恶意网站的行为特征向量的异样概率,对恶意网站集合内的恶意网站的行为特征向量进行筛选处理,得到目标恶意网站集合。
步骤六,基于非恶意网站集合内每个非恶意网站的行为特征向量的异样概率,对非恶意网站集合内的非恶意网站的行为特征向量进行筛选处理,得到目标非恶意网站集合。
上述步骤五和步骤六,分别用于对恶意网站集合和非恶意网站集合进行筛选处理,排除恶意网站集合和非恶意网站集合中包含的异常样本点(即异常行为特征向量),以得到目标恶意网站集合和目标非恶意网站,提高恶意网站的检测准确率。
在S314中,基于目标恶意网站集合和目标非恶意网站集合,确定预先训练的恶意网站识别模型。
在S316中,对目标网站的行为特征信息进行向量化处理,得到目标网站的行为特征向量。
在实际应用中,上述S316的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤一~步骤四处理。
步骤一,获取目标网站的行为特征信息中包含的注册组织信息的文本长度。
在实施中,例如,获取的目标网站的注册组织信息可以为“Chengdu westdimension digital technology”,则该注册组织信息的文本长度即为27。
步骤二,基于预设命名规范度确定规则,确定目标网站的行为特征信息中包含的联系邮箱信息的命名规范度。
在实施中,预设命名规范度确定规则可以是基于联系邮箱信息中包含的预设邮箱关键字的字符数,确定的联系邮箱信息的命名规范度的规则。例如,目标网站的联系邮箱信息为“westbuse@gmail.com”,则可以对该联系邮箱信息中,“@”字符前的字符串中,是否包含预设邮箱关键字进行检测,假设“west”为预设邮箱关键字,则联系邮箱信息的命名规范度可以为5/9=0.555,即联系邮箱信息的命名规范度为“buse”的字符数与“westbuse”的字符数之间的比值。
步骤三,基于注册组织信息和联系邮箱信息,确定目标网站的注册信息关联度。
在实施中,可以将注册组织信息中与联系邮箱信息中不同字符的个数,与注册组织信息的文本长度之间的比值,确定为目标网站的注册信息关联度。
例如,目标网站的注册组织信息为“Chengdu west dimension digitaltechnology”,则该目标网站的注册组织信息的文本长度即为27,该目标网站的联系邮箱信息为“westbuse@gmail.com”,则注册组织信息与联系邮箱信息中包含的相同字符即为“west”,则在注册组织信息中与联系邮箱信息包含的不同字符的个数即为27-4=23个,所以目标网站的注册信息关联度即为23/27=0.852。
步骤四,基于文本长度、命名规范度以及注册信息关联度,确定目标网站的行为特征向量。
在实施中,例如,目标网站的行为特征向量y可以为(27,0.555,0.852)。
在S318中,将目标网站的行为特征向量,输入预先训练的恶意网站识别模型中,得到目标网站的异常概率。
在实际应用中,上述S318的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤一~步骤二处理。
步骤一,获取目标网站的行为特征向量对应的数据点与目标恶意网站集合之间的第一距离,以及目标网站的行为特征向量与目标非恶意网站集合之间的第二距离。
在实施中,可以根据目标网站的行为特征向量对应的数据点是否位于目标恶意网站集合和/或目标非恶意网站集合之间的位置信息,确定对应的第一距离和第二距离。
例如,如图5所示,当目标网站的行为特征向量对应的数据点(如数据点1),位于目标恶意网站集合以及目标非恶意网站集合对应的数据点区域之外时,可以分别获取目标恶意网站集合对应的区域中与数据点1之间距离最短的数据点(如数据点2),并将数据点2与数据点1之间的距离确定为第一距离。同样也可以获取数据点1与目标非恶意网站集合(即数据点3)之间的第二距离。
或者,还可以获取目标网站的行为特征向量对应的数据点与目标恶意网站集合的第一中心点之间的距离,作为目标网站的行为特征向量与目标恶意网站集合之间的第一距离,获取目标网站的行为特征向量对应的数据点与目标非恶意网站集合的第二中心点之间的距离,作为目标网站的行为特征向量与目标非恶意网站集合之间的第二距离。
此外,如果目标网站的行为特征向量对应的数据点位于目标恶意网站集合之内,可以将第一距离设置为0,将第二距离设置为1,同样的,如果目标网站的行为特征向量对应的数据点位于目标非恶意网站集合之内,可以将第二距离设置为0,将第一距离设置为1。
第一距离和第二距离的确定方法可以有多种多样,可以根据实际应用场景的不同而有所不同,本发明实施例对此不做具体限定。
步骤二,基于第一距离和第二距离,确定目标网站的异常概率。
在实施中,当第一距离和第二距离都不为0时(即目标网站的行为特征向量对应的数据点位于目标恶意网站集合和目标非恶意网站集合之外时),可以根据第一距离和第二距离的比值,确定目标网站的异常概率。
当第一距离为0,第二距离为1时,可以确定目标网站的异常概率为1,当第一距离为1,第二距离为0时,可以确定目标网站的异常概率为0。
在S320中,基于异常概率,确定目标网站是否为恶意网站。
上述S320的具体处理过程可以参见上述S106中的相关内容,在此不再赘述。
本发明实施例提供一种恶意网站的检测方法,通过根据待检测的目标网站的域名注册信息,确定目标网站的行为特征信息,将目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到目标网站的异常概率,其中,恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到,基于异常概率,确定目标网站是否为恶意网站。这样,可以通过目标网站的行为特征信息和预先训练的恶意网站识别模型,确定目标网站的异常概率,在基于目标网站的异常概率,确定目标网站是否为恶意网站,而不需要通过人工收集URL黑名单的方式,对目标网站的URL进行匹配检测,降低人工成本的同时,提高恶意网站的检测效率以及检测准确性。
实施例三
以上为本发明实施例提供的恶意网站的检测方法,基于同样的思路,本发明实施例还提供一种恶意网站的检测装置,如图6所示。
该恶意网站的检测装置包括:信息确定模块601、概率确定模块602和恶意网站确定模块603,其中:
信息确定模块601,用于根据待检测的目标网站的域名注册信息,确定所述目标网站的行为特征信息;
概率确定模块602,用于将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,其中,所述恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到;
恶意网站确定模块603,用于基于所述异常概率,确定所述目标网站是否为恶意网站。
在本发明实施例中,所述装置还包括:
第一获取模块,用于获取所述恶意网站和非恶意网站的历史行为特征信息;
信息处理模块,用于分别对所述恶意网站的历史行为特征信息和所述非恶意网站的历史行为特征信息进行向量化处理,得到所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量;
模型训练模块,用于基于所述K近邻算法以及所述朴素贝叶斯算法,对所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量进行处理,得到目标恶意网站集合和目标非恶意网站集合;
模型确定模块,用于基于所述目标恶意网站集合和目标非恶意网站集合,确定所述预先训练的恶意网站识别模型。
在本发明实施例中,所述模型训练模块,包括:
距离获取单元,用于基于预设距离算法,获取每两个所述恶意网站的行为特征向量之间的第一距离信息,以及每两个所述非恶意网站的行为特征向量之间的第二距离信息;
中心点确定单元,用于基于所述第一距离信息,确定与所述恶意网站的行为特征向量对应第一中心点,以及基于所述第二距离信息,确定与所述非恶意网站的行为特征向量对应的第二中心点;
第一集合确定单元,用于基于预设k值和所述第一中心点,确定恶意网站集合,基于所述预设k值和所述第二中心点,确定非恶意网站集合;
异样概率确定单元,用于基于所述朴素贝叶斯算法,获取所述恶意网站集合内每个所述恶意网站的行为特征向量的异样概率,以及所述非恶意网站集合内每个所述非恶意网站的行为特征向量的异样概率;
第二集合确定单元,用于基于所述恶意网站集合内每个所述恶意网站的行为特征向量的异样概率,对所述恶意网站集合内的恶意网站的行为特征向量进行筛选处理,得到所述目标恶意网站集合;
第三集合确定单元,用于基于所述非恶意网站集合内每个所述非恶意网站的行为特征向量的异样概率,对所述非恶意网站集合内的非恶意网站的行为特征向量进行筛选处理,得到所述目标非恶意网站集合。
在本发明实施例中,所述装置,还包括:
第二获取模块,用于获取网站的域名注册信息;
网站确定模块,用于基于预设过滤规则和所述网站的域名注册信息,确定所述待检测的目标网站。
在本发明实施例中,所述概率确定模块602,包括:
信息处理单元,用于对所述目标网站的行为特征信息进行向量化处理,得到所述目标网站的行为特征向量;
概率确定单元,用于将所述目标网站的行为特征向量,输入所述预先训练的恶意网站识别模型中,得到所述目标网站的异常概率。
在本发明实施例中,所述信息处理单元,用于:
获取所述目标网站的行为特征信息中包含的注册组织信息的文本长度;
基于预设命名规范度确定规则,确定所述目标网站的行为特征信息中包含的联系邮箱信息的命名规范度;
基于所述注册组织信息和所述联系邮箱信息,确定所述目标网站的注册信息关联度;
基于所述文本长度、所述命名规范度以及所述注册信息关联度,确定所述目标网站的行为特征向量。
在本发明实施例中,所述概率确定单元,用于:
获取所述目标网站的行为特征向量与所述目标恶意网站集合之间的第一距离,以及所述目标网站的行为特征向量与所述目标非恶意网站集合之间的第二距离;
基于所述第一距离和所述第二距离,确定所述目标网站的异常概率。
本发明实施例提供一种恶意网站的检测装置,通过根据待检测的目标网站的域名注册信息,确定目标网站的行为特征信息,将目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到目标网站的异常概率,其中,恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到,基于异常概率,确定目标网站是否为恶意网站。这样,可以通过目标网站的行为特征信息和预先训练的恶意网站识别模型,确定目标网站的异常概率,在基于目标网站的异常概率,确定目标网站是否为恶意网站,而不需要通过人工收集URL黑名单的方式,对目标网站的URL进行匹配检测,降低人工成本的同时,提高恶意网站的检测效率以及检测准确性。
实施例四
图7为实现本发明各个实施例的一种电子设备的硬件结构示意图,
该电子设备700包括但不限于:射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解,图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,处理器710,用于:根据待检测的目标网站的域名注册信息,确定所述目标网站的行为特征信息;将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,其中,所述恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到;基于所述异常概率,确定所述目标网站是否为恶意网站。
此外,所述处理器710,还用于:获取所述恶意网站和非恶意网站的历史行为特征信息;分别对所述恶意网站的历史行为特征信息和所述非恶意网站的历史行为特征信息进行向量化处理,得到所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量;基于所述K近邻算法以及所述朴素贝叶斯算法,对所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量进行处理,得到目标恶意网站集合和目标非恶意网站集合;基于所述目标恶意网站集合和目标非恶意网站集合,确定所述预先训练的恶意网站识别模型。
此外,所述处理器710,还用于:基于预设距离算法,获取每两个所述恶意网站的行为特征向量之间的第一距离信息,以及每两个所述非恶意网站的行为特征向量之间的第二距离信息;基于所述第一距离信息,确定与所述恶意网站的行为特征向量对应第一中心点,以及基于所述第二距离信息,确定与所述非恶意网站的行为特征向量对应的第二中心点;基于预设k值和所述第一中心点,确定恶意网站集合,基于所述预设k值和所述第二中心点,确定非恶意网站集合;基于所述朴素贝叶斯算法,获取所述恶意网站集合内每个所述恶意网站的行为特征向量的异样概率,以及所述非恶意网站集合内每个所述非恶意网站的行为特征向量的异样概率;基于所述恶意网站集合内每个所述恶意网站的行为特征向量的异样概率,对所述恶意网站集合内的恶意网站的行为特征向量进行筛选处理,得到所述目标恶意网站集合;基于所述非恶意网站集合内每个所述非恶意网站的行为特征向量的异样概率,对所述非恶意网站集合内的非恶意网站的行为特征向量进行筛选处理,得到所述目标非恶意网站集合。
此外,所述处理器710,还用于:获取网站的域名注册信息;基于预设过滤规则和所述网站的域名注册信息,确定所述待检测的目标网站。
另外,所述处理器710,还用于:对所述目标网站的行为特征信息进行向量化处理,得到所述目标网站的行为特征向量;将所述目标网站的行为特征向量,输入所述预先训练的恶意网站识别模型中,得到所述目标网站的异常概率。
另外,所述处理器710,还用于:获取所述目标网站的行为特征信息中包含的注册组织信息的文本长度;基于预设命名规范度确定规则,确定所述目标网站的行为特征信息中包含的联系邮箱信息的命名规范度;基于所述注册组织信息和所述联系邮箱信息,确定所述目标网站的注册信息关联度;所述文本长度、所述命名规范度以及所述注册信息关联度,确定所述目标网站的行为特征向量。
另外,所述处理器710,还用于:获取所述目标网站的行为特征向量与所述目标恶意网站集合之间的第一距离,以及所述目标网站的行为特征向量与所述目标非恶意网站集合之间的第二距离;基于所述第一距离和所述第二距离,确定所述目标网站的异常概率。
本发明实施例提供一种电子设备,通过根据待检测的目标网站的域名注册信息,确定目标网站的行为特征信息,将目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到目标网站的异常概率,其中,恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到,基于异常概率,确定目标网站是否为恶意网站。这样,可以通过目标网站的行为特征信息和预先训练的恶意网站识别模型,确定目标网站的异常概率,在基于目标网站的异常概率,确定目标网站是否为恶意网站,而不需要通过人工收集URL黑名单的方式,对目标网站的URL进行匹配检测,降低人工成本的同时,提高恶意网站的检测效率以及检测准确性。
应理解的是,本发明实施例中,射频单元701可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器710处理;另外,将上行的数据发送给基站。通常,射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元701还可以通过无线通信系统与网络和其它电子设备通信。
电子设备通过网络模块702为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(Graphics Processing Unit,GPU)7041和麦克风7042。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。
显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。
用户输入单元707可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元707包括触控面板7071以及其它输入设备7072。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器710,接收处理器710发来的命令并加以执行。进一步的,触控面板7071可覆盖在显示面板7061上,当触控面板7071检测到在其上或附近的触摸操作后,传送给处理器710以确定触摸事件的类型,随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图7中,触控面板7071与显示面板7061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板7071与显示面板7061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元708为外部装置与电子设备700连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备700内的一个或多个元件或者可以用于在电子设备700和外部装置之间传输数据。
存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器709可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。
处理器710是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器709内的软件程序和/或模块,以及调用存储在存储器709内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器710可包括一个或多个处理单元;优选的,处理器710可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器710中。
电子设备700还可以包括给各个部件供电的电源711(比如电池),优选的,电源711可以通过电源管理系统与处理器710逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
优选的,本发明实施例还提供一种电子设备,包括处理器710,存储器709,存储在存储器709上并可在所述处理器710上运行的计算机程序,该计算机程序被处理器710执行时实现上述恶意网站的检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
实施例五
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述恶意网站的检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
本发明实施例提供一种计算机可读存储介质,通过根据待检测的目标网站的域名注册信息,确定目标网站的行为特征信息,将目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到目标网站的异常概率,其中,恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到,基于异常概率,确定目标网站是否为恶意网站。这样,可以通过目标网站的行为特征信息和预先训练的恶意网站识别模型,确定目标网站的异常概率,在基于目标网站的异常概率,确定目标网站是否为恶意网站,而不需要通过人工收集URL黑名单的方式,对目标网站的URL进行匹配检测,降低人工成本的同时,提高恶意网站的检测效率以及检测准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带,磁带磁磁盘存储或其它磁性存储设备或任何其它非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种恶意网站的检测方法,其特征在于,所述方法包括:
根据待检测的目标网站的域名注册信息,确定所述目标网站的行为特征信息;
将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,其中,所述恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到;
基于所述异常概率,确定所述目标网站是否为恶意网站。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率之前,还包括:
获取所述恶意网站和非恶意网站的历史行为特征信息;
分别对所述恶意网站的历史行为特征信息和所述非恶意网站的历史行为特征信息进行向量化处理,得到所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量;
基于所述K近邻算法以及所述朴素贝叶斯算法,对所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量进行处理,得到目标恶意网站集合和目标非恶意网站集合;
基于所述目标恶意网站集合和目标非恶意网站集合,确定所述预先训练的恶意网站识别模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述K近邻算法以及所述朴素贝叶斯算法,对所述恶意网站的行为特征向量和所述非恶意网站的行为特征向量进行处理,得到目标恶意网站集合和目标非恶意网站集合,包括:
基于预设距离算法,获取每两个所述恶意网站的行为特征向量之间的第一距离信息,以及每两个所述非恶意网站的行为特征向量之间的第二距离信息;
基于所述第一距离信息,确定与所述恶意网站的行为特征向量对应第一中心点,以及基于所述第二距离信息,确定与所述非恶意网站的行为特征向量对应的第二中心点;
基于预设k值和所述第一中心点,确定恶意网站集合,基于所述预设k值和所述第二中心点,确定非恶意网站集合;
基于所述朴素贝叶斯算法,获取所述恶意网站集合内每个所述恶意网站的行为特征向量的异样概率,以及所述非恶意网站集合内每个所述非恶意网站的行为特征向量的异样概率;
基于所述恶意网站集合内每个所述恶意网站的行为特征向量的异样概率,对所述恶意网站集合内的恶意网站的行为特征向量进行筛选处理,得到所述目标恶意网站集合;
基于所述非恶意网站集合内每个所述非恶意网站的行为特征向量的异样概率,对所述非恶意网站集合内的非恶意网站的行为特征向量进行筛选处理,得到所述目标非恶意网站集合。
4.根据权利要求3所述的方法,其特征在于,所述根据待检测的目标网站的域名注册信息,确定所述目标网站的行为特征信息之前,还包括:
获取网站的域名注册信息;
基于预设过滤规则和所述网站的域名注册信息,确定所述待检测的目标网站。
5.根据权利要求4所述的方法,其特征在于,所述将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,包括:
对所述目标网站的行为特征信息进行向量化处理,得到所述目标网站的行为特征向量;
将所述目标网站的行为特征向量,输入所述预先训练的恶意网站识别模型中,得到所述目标网站的异常概率。
6.根据权利要求5所述的方法,其特征在于,所述对所述目标网站的行为特征信息进行向量化处理,得到所述目标网站的行为特征向量,包括:
获取所述目标网站的行为特征信息中包含的注册组织信息的文本长度;
基于预设命名规范度确定规则,确定所述目标网站的行为特征信息中包含的联系邮箱信息的命名规范度;
基于所述注册组织信息和所述联系邮箱信息,确定所述目标网站的注册信息关联度;
基于所述文本长度、所述命名规范度以及所述注册信息关联度,确定所述目标网站的行为特征向量。
7.根据权利要求6所述的方法,其特征在于,所述将所述目标网站的行为特征向量,输入所述预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,包括:
获取所述目标网站的行为特征向量与所述目标恶意网站集合之间的第一距离,以及所述目标网站的行为特征向量与所述目标非恶意网站集合之间的第二距离;
基于所述第一距离和所述第二距离,确定所述目标网站的异常概率。
8.一种恶意网站的检测装置,其特征在于,所述装置包括:
信息确定模块,用于根据待检测的目标网站的域名注册信息,确定所述目标网站的行为特征信息;
概率确定模块,用于将所述目标网站的行为特征信息输入预先训练的恶意网站识别模型中,得到所述目标网站的异常概率,其中,所述恶意网站识别模型为基于朴素贝叶斯算法和K近邻算法,对恶意网站和非恶意网站的历史行为特征信息训练得到;
恶意网站确定模块,用于基于所述异常概率,确定所述目标网站是否为恶意网站。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的恶意网站的检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的恶意网站的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010004165.1A CN113079123B (zh) | 2020-01-03 | 2020-01-03 | 一种恶意网站的检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010004165.1A CN113079123B (zh) | 2020-01-03 | 2020-01-03 | 一种恶意网站的检测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113079123A true CN113079123A (zh) | 2021-07-06 |
CN113079123B CN113079123B (zh) | 2022-11-22 |
Family
ID=76608426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010004165.1A Active CN113079123B (zh) | 2020-01-03 | 2020-01-03 | 一种恶意网站的检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113079123B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114039745A (zh) * | 2021-10-08 | 2022-02-11 | 中移(杭州)信息技术有限公司 | 网站异常流量的识别方法、设备及介质 |
CN114143084A (zh) * | 2021-11-30 | 2022-03-04 | 安天科技集团股份有限公司 | 恶意域名判定方法、装置、电子设备及存储介质 |
CN114553555A (zh) * | 2022-02-24 | 2022-05-27 | 北京字节跳动网络技术有限公司 | 恶意网址识别方法、装置、存储介质及电子设备 |
CN116846668A (zh) * | 2023-07-28 | 2023-10-03 | 北京中睿天下信息技术有限公司 | 一种有害url检测方法、系统、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100115621A1 (en) * | 2008-11-03 | 2010-05-06 | Stuart Gresley Staniford | Systems and Methods for Detecting Malicious Network Content |
CN107438083A (zh) * | 2017-09-06 | 2017-12-05 | 安徽大学 | 一种Android环境下钓鱼网站检测方法及其检测系统 |
CN108154178A (zh) * | 2017-12-25 | 2018-06-12 | 北京工业大学 | 基于改进的svm-knn算法的半监督托攻击检测方法 |
CN108650260A (zh) * | 2018-05-09 | 2018-10-12 | 北京邮电大学 | 一种恶意网站的识别方法和装置 |
US20190318011A1 (en) * | 2018-04-16 | 2019-10-17 | Microsoft Technology Licensing, Llc | Identification, Extraction and Transformation of Contextually Relevant Content |
CN110348523A (zh) * | 2019-07-15 | 2019-10-18 | 北京信息科技大学 | 一种基于Stacking的恶意网页集成识别方法及系统 |
CN110602045A (zh) * | 2019-08-13 | 2019-12-20 | 南京邮电大学 | 一种基于特征融合和机器学习的恶意网页识别方法 |
-
2020
- 2020-01-03 CN CN202010004165.1A patent/CN113079123B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100115621A1 (en) * | 2008-11-03 | 2010-05-06 | Stuart Gresley Staniford | Systems and Methods for Detecting Malicious Network Content |
CN107438083A (zh) * | 2017-09-06 | 2017-12-05 | 安徽大学 | 一种Android环境下钓鱼网站检测方法及其检测系统 |
CN108154178A (zh) * | 2017-12-25 | 2018-06-12 | 北京工业大学 | 基于改进的svm-knn算法的半监督托攻击检测方法 |
US20190318011A1 (en) * | 2018-04-16 | 2019-10-17 | Microsoft Technology Licensing, Llc | Identification, Extraction and Transformation of Contextually Relevant Content |
CN108650260A (zh) * | 2018-05-09 | 2018-10-12 | 北京邮电大学 | 一种恶意网站的识别方法和装置 |
CN110348523A (zh) * | 2019-07-15 | 2019-10-18 | 北京信息科技大学 | 一种基于Stacking的恶意网页集成识别方法及系统 |
CN110602045A (zh) * | 2019-08-13 | 2019-12-20 | 南京邮电大学 | 一种基于特征融合和机器学习的恶意网页识别方法 |
Non-Patent Citations (1)
Title |
---|
陈远等: "基于主成分分析和随机森林的恶意网站评估与识别", 《数据分析与知识发现》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114039745A (zh) * | 2021-10-08 | 2022-02-11 | 中移(杭州)信息技术有限公司 | 网站异常流量的识别方法、设备及介质 |
CN114143084A (zh) * | 2021-11-30 | 2022-03-04 | 安天科技集团股份有限公司 | 恶意域名判定方法、装置、电子设备及存储介质 |
CN114143084B (zh) * | 2021-11-30 | 2024-02-23 | 安天科技集团股份有限公司 | 恶意域名判定方法、装置、电子设备及存储介质 |
CN114553555A (zh) * | 2022-02-24 | 2022-05-27 | 北京字节跳动网络技术有限公司 | 恶意网址识别方法、装置、存储介质及电子设备 |
CN114553555B (zh) * | 2022-02-24 | 2023-11-07 | 抖音视界有限公司 | 恶意网址识别方法、装置、存储介质及电子设备 |
CN116846668A (zh) * | 2023-07-28 | 2023-10-03 | 北京中睿天下信息技术有限公司 | 一种有害url检测方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113079123B (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113079123B (zh) | 一种恶意网站的检测方法、装置及电子设备 | |
CN111368290B (zh) | 一种数据异常检测方法、装置及终端设备 | |
CN105900466B (zh) | 消息处理方法及装置 | |
US11436266B2 (en) | Method and apparatus for processing information of a terminal | |
JP2017514204A (ja) | 連絡先グルーピング方法および装置 | |
CN105094861A (zh) | 网页应用程序加载方法、装置及系统 | |
CN106874936B (zh) | 图像传播监测方法及装置 | |
CN113868427A (zh) | 一种数据处理方法、装置及电子设备 | |
CN110826319A (zh) | 应用信息的处理方法及终端设备 | |
CN111159338A (zh) | 一种恶意文本的检测方法、装置、电子设备及存储介质 | |
CN103327029B (zh) | 一种恶意网址的检测方法和设备 | |
CN107992615B (zh) | 一种网址推荐方法、服务器及终端 | |
WO2014117072A1 (en) | Systems and methods for semantic url handling | |
CN108595107B (zh) | 一种界面内容处理方法及移动终端 | |
CN107819936B (zh) | 一种短信分类方法、移动终端和存储介质 | |
CN115981798B (zh) | 文件解析方法、装置、计算机设备及可读存储介质 | |
CN108804615B (zh) | 一种分享方法及服务器 | |
CN109670105B (zh) | 搜索方法及移动终端 | |
CN108848240B (zh) | 一种信息安全防护方法、终端及计算机可读存储介质 | |
CN113220949B (zh) | 一种隐私数据识别系统的构建方法及装置 | |
CN111353422B (zh) | 信息提取方法、装置及电子设备 | |
CN111666485B (zh) | 一种信息推荐方法、装置及终端 | |
CN109976610B (zh) | 一种应用程序标识的归类方法及终端设备 | |
CN111862015A (zh) | 一种图像质量等级确定方法、装置及电子设备 | |
CN111901740A (zh) | 一种数据的处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |