CN107508809B

CN107508809B - 识别网址类型的方法及装置

Info

Publication number: CN107508809B
Application number: CN201710704467.8A
Authority: CN
Inventors: 陈文生
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2020-10-23
Anticipated expiration: 2037-08-17
Also published as: CN107508809A

Abstract

本发明是关于一种识别网址类型的方法及装置。该方法包括：获取目标网址对应的访问序列集合，提取访问序列集合的频繁项，并提取频繁项的第一属性信息，根据频繁项的第一属性信息识别目标网址的网址类型，在对目标网址进行分类时，综合考虑用户在访问该目标网址前后的一段时间内所访问的各个网址，并对用户在访问该目标网址前后的一段时间内所访问的各个网址进行识别，以确定该目标网址的类型，提高网址分类的准确性。

Description

识别网址类型的方法及装置

技术领域

本发明涉及互联网应用技术领域，特别涉及一种识别网址类型的方法及装置。

背景技术

网址通常指互联网中的网页的地址。用户通过终端浏览网页时，终端中的浏览器等应用程序根据网址跳转到相应的网页。

随着互联网的不断普及，互联网中的恶意网址也越来越多，为了向用户提供安全的网络环境，目前很多网络服务商提供恶意网址检测服务。比如，网络服务商的服务器预先检测互联网中的各个网址的安全性，将网址分类为恶意网址和非恶意网址，并将恶意网址添加至黑名单中。当用户点击一个网址时，浏览器或者其它应用程序可以查询用户点击的网址是否为黑名单中的网址，若是，则对该网址进行拦截。

在相关技术中，服务器对网址进行分类时，通常爬取网址对应的网页的页面内容，并根据页面内容来判断该网址是否为恶意网址。

然而，在实际应用中，为了避免网页内容被爬取，一些恶意网址被点击时，会经过多个中间网址跳转到最终的网页，或者，当某些恶意网址被点击时，不同的场景下会跳转到不同的网页，对于此类恶意网址，服务器在爬取网页的页面内容时，可能爬取不到该网址对应的页面内容，导致恶意网址的检测准确性较低。

发明内容

为了解决相关技术中的问题，本发明实施例提供了一种识别网址类型的方法及装置，技术方案如下：

获取目标网址对应的访问序列集合，所述访问序列集合中的每一个元素是单个用户访问所述目标网址前后的预定时间范围内所访问的网址组成的网址序列，每个所述网址序列中包含至少一个按照被访问的时间顺序排列的网址；

提取所述访问序列集合的频繁项，所述频繁项是所述访问序列集合中出现频率高于预设频率阈值的网址序列；

提取所述频繁项的第一属性信息；

根据所述频繁项的第一属性信息识别所述目标网址的网址类型，所述网址类型用于指示所述目标网址的安全性。

第二方面，提供了一种识别网址类型的装置，所述装置包括：

集合获取模块，用于获取目标网址对应的访问序列集合，所述访问序列集合中的每一个元素是单个用户访问所述目标网址前后的预定时间范围内所访问的网址组成的网址序列，每个所述网址序列中包含至少一个按照被访问的时间顺序排列的网址；

频繁项提取模块，用于提取所述访问序列集合的频繁项，所述频繁项是所述访问序列集合中出现频率高于预设频率阈值的网址序列；

第一属性提取模块，用于提取所述频繁项的第一属性信息；

识别模块，用于根据所述频繁项的第一属性信息识别所述目标网址的网址类型，所述网址类型用于指示所述目标网址的安全性。

第三方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的识别网址类型的方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的识别网址类型的方法。

本发明提供的技术方案可以包括以下有益效果：

通过获取目标网址对应的访问序列集合，提取访问序列集合的频繁项，并提取频繁项的第一属性信息，根据频繁项的第一属性信息识别目标网址的网址类型，在对目标网址进行分类时，综合考虑用户在访问该目标网址前后的一段时间内所访问的各个网址，并对用户在访问该目标网址前后的一段时间内所访问的各个网址进行识别，以确定该目标网址的类型，提高网址分类的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的识别网址类型的系统的示意图；

图2是图1所示实施例涉及的一种识别网址类型的流程示意图；

图3是根据一示例性实施例示出的一种识别网址类型的方法的流程图；

图4是图3所示实施例涉及的识别网址类型的的流程示意图；

图5是根据一示例性实施例示出一种识别系统框架图；

图6是根据一示例性实施例示出的识别网址类型的装置的结构方框图；

图7是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是本发明一示例性实施例示出的一种识别网址类型的系统的结构示意图。该系统包括：若干个用户终端120和服务器集群140。

用户终端120可以是手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

在本发明实施例中，用户终端120提供网页浏览功能，比如，用户终端120中可以安装有浏览器类的应用程序。

用户终端120与服务器集群140之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

用户终端120可以统计用户在本地访问的网址的相关信息，比如，访问的网址和访问时间，并将统计获得的用户在本地访问的网址的相关信息发送给服务器集群140。

服务器集群140是一台服务器，或者由若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。可选的，服务器集群140可以包括用于实现网址类型识别平台142的服务器，可选的，服务器集群140还包括用于实现网址浏览历史管理平台144的服务器；可选的，服务器集群140还包括识别结果管理平台146的服务器。

可选的，网址类型识别平台142包括：用于识别目标网址的网址类型的服务器以及用于将识别出的目标网址的网址类型存储至网址黑白名单管理平台146的服务器。

可选的，网址浏览历史管理平台144包括：用于收集和存储各个用户访问网址的历史记录的服务器。

可选的，识别结果管理平台146包括：用于按照网址类型识别平台142的识别结果存储网址的服务器，以及用于对外提供网址查询服务的服务器。

需要说明的是，上述用于实现网址类型识别平台142、网址浏览历史管理平台144以及识别结果管理平台146的服务器可以是相互之间独立的服务器；或者，上述网址类型识别平台142、网址浏览历史管理平台144以及识别结果管理平台146中的两个平台可以实现在同一个服务器中，而另外一个平台可以实现在另一个服务器中；或者，用于实现上述三个平台的服务器也可以是同一个服务器。当上述三个平台实现在两个或者三个服务器中时，这两个或者三个服务器之间通过通信网络相连。

可选的，该系统还可以包括管理设备160(图1未示出)，该管理设备160与服务器集群140之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Trassport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

在本发明实施例中，服务器集群140在识别一个网址的网址类型时，可以结合用户点击该网址前后点击过的其它网址来进行识别。其中，请参考图2，其示出了本发明实施例涉及的一种识别网址类型的流程示意图。如图2所示，在识别目标网址的网址类型时，服务器集群可以根据用户终端采集上传的访问记录获取目标网址对应的访问序列集合，该访问序列集合中的每一个元素是单个用户访问该目标网址前后的预定时间范围内所访问的网址组成的网址序列，每个该网址序列中包含至少一个按照被访问的时间顺序排列的网址；服务器集群提取该访问序列集合的频繁项，该频繁项是该访问序列集合中出现频率高于预设频率阈值的网址序列；服务器集群进一步提取该频繁项的第一属性信息，并根据该频繁项的第一属性信息识别该目标网址的网址类型，该网址类型用于指示该目标网址的安全性。

在上述图2所示的方案中，服务器集群140并不直接根据目标网址的属性信息来判断目标网址的网址类型，而是先找出目标网址被各个用户点击前后一段时间内，被用户点击次数较多的网址组合(即上述频繁项)，并通过找到的网址组合的属性信息来确定目标网址的网址类型，在此过程中，不需要准确爬取到目标网址的页面内容，在识别网址的安全性时，能够有效识别出经过多个中间网址跳转到最终网页的网址的类型，从而提高网址分类的准确性。

在上述图2所示的方案中，在识别该目标网址的网址类型时，服务器集群可以通过预先训练好的机器学习模型进行识别。具体的，请参考图3，其是根据一示例性实施例示出的一种识别网址类型的方法的流程图，该方法可以用于如图1所示的实施环境中。该识别网址类型的方法可以由计算机设备(比如图1所示服务器集群中的服务器)来执行，以基于网址的安全性对目标网址进行分类为例，该识别网址类型的方法可以包括如下几个步骤：

步骤301，获取目标网址的异常检测信息。

以本发明实施例的执行主体是服务器为例，上述异常检测信息可以是服务器在收集各个用户终端发送的，各个用户访问目标网址的记录(比如，各个用户访问目标网址的时间以及传播渠道等等)后，对各个用户在预定长度时间段内(比如前24小时或者前一个星期内)访问目标网址的记录进行统计获得的信息。

其中，传播渠道可以是对应不同类型或者不同种类的应用程序，比如，以传播渠道按照用户访问目标网址时使用的浏览器进行划分为例，不同的浏览器对应不同的传播渠道，比如，浏览器A对应的传播渠道为传播渠道a，浏览器B对应的传播渠道为传播渠道b，以此类推。

或者，传播渠道可以是对应不同类型或者不同种类的用户终端，比如，以传播渠道按照用户访问目标网址时使用的用户终端进行划分为例，不同的用户终端对应不同的传播渠道，比如，智能手机对应的传播渠道为传播渠道c，个人电脑对应的传播渠道为传播渠道d，平板电脑对应的传播渠道为传播渠道e，以此类推。

或者，传播渠道也可以是对应不同种类的操作系统平台，比如，以传播渠道按照终端对应的操作系统平台为例，不同的操作系统平台对应不同的传播渠道，比如，视窗(windows)系统平台对应传播渠道f，安卓(Android)系统平台对应传播渠道g，IOS系统平台对应传播渠道h，以此类推。

其中，该异常检测信息包括该目标网址在各个传播渠道中的分布比例以及用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值。

比如，当异常检测信息包括目标网址在各个传播渠道中的分布比例时，服务器可以统计目标网址在预定长度时间段内被访问的总次数，以及目标网址在预定长度时间段内通过各个传播渠道被访问的次数，将目标网址通过各个传播渠道被访问的次数除以被访问的总次数，获得的百分比即为目标网址在各个传播渠道中的分布比例。

或者，当异常检测信息包括用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值时，服务器可以统计在上述预定长度时间段内，每个用户在访问该目标网址之前的至少一个网址到访问该目标网址之间的时间差值，并将统计获得的时间差值做平均值，获得用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值。

在本发明实施例中，网址可以是一个URL(Uniform Resource Locator，统一资源定位符)。

步骤302，根据该异常检测信息检测该目标网址被访问的方式是否存在异常。

网络中的网址数量是非常庞大的，在按照安全性对网址进行分类时，如果对每一个网址都进行安全性检测，则计算量将会非常庞大，严重影响网址分类的效率。因此，为了减少对对不必要分类的网址进行分类，在本发明实施例中，在确定目标网址的网址类型之前，可以先根据目标网址的异常检测信息检测目标网址被访问的方式是否异常，如果目标网址被访问的方式发生异常，则该目标网址可能是不安全的网址，需要进行后续网址类型确定的步骤；反之，如果该目标网址被访问的方式未发生异常，则该目标网址可能是安全的网址，此时，可以不对该目标网址执行后续网址类型确定的步骤。

具体的，当该异常检测信息包括该目标网址在各个传播渠道中的分布比例，且该目标网址在该各个传播渠道中的单个传播渠道中的分布比例高于预设比例阈值时，确定该目标网址被访问的方式存在异常。

其中，通常情况下，一个网址通常是在各个传播渠道中都有传播，而当目标网址在某个传播渠道中的分布比例高于预设比例阈值(比如99％)，则说明该目标网址可能是一个非正常的网址，比如恶意网址，此时，可以确定该目标网址的被访问方式存在异常。

当该异常检测信息包括用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值，且该差值小于预设差值阈值时，确定该目标网址被访问的方式存在异常。具体的，上述的用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值，可以是各个用户每次访问目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值的平均值。

对于经过多个中间网址跳转到最终的网页的网址，当该网址被点击时，在终端侧可以体现为浏览器或者浏览器类的应用程序在短时间内连续访问多个网址，因此，在本发明实施例中，当用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值小于预设的差值阈值(比如1s)，则说明该目标网址可能是经过多个中间网址跳转到最终的网页的网址，此时可以确定该目标网址被访问的方式存在异常。

在实际应用中，服务器可以根据目标网址的在各个传播渠道中的分布比例单独判断该目标网址的被访问的方式是否存在异常；或者，服务器也可以根据用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值单独判断该目标网址的被访问的方式是否存在异常；或者，服务器也可以结合目标网址的在各个传播渠道中的分布比例以及用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值综合判断，比如，当目标网址的在各个传播渠道中的分布比例和用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值中至少一个存在异常时，可以确定该目标网址的被访问的方式存在异常。

比如，以每个uin(user information，用户信息)对应一个用户为例，终端在运行过程中，收集各个uin对应的网址跳转记录，包括跳转的网址、跳转时间以及传播途径，并将各个uin对应的网址跳转记录上传至服务器，服务器将各个uin的网址跳转记录保存在数据库中。在确定网址类型的过程中，对于目标网址，服务器首先查询数据库中的目标网址，并统计目标网址在各个传播渠道中的分布比例，以及用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值，并根据统计出的目标网址在各个传播渠道中的分布比例和/或用户访问该目标网址之前的至少一个网址的时间与访问该目标网址的时间之间的差值判断该目标网址的被访问方式是否发生异常，若是，则进入步骤203。

步骤303，当该目标网址被访问的方式存在异常时，获取目标网址对应的访问序列集合。

其中，该访问序列集合中的每一个元素是单个用户访问该目标网址前后的预定时间范围内所访问的网址组成的网址序列。每个该网址序列中包含至少一个按照被访问的时间顺序排列的网址。

在本发明实施例中，当服务器检测出一个目标网址被访问的方式存在异常时，除了获取该目标网址之外，还获取每个用户访问该目标网址前后的预定时间范围内所访问的网址组成的网址序列，比如，获取该用户在访问该目标网址前后各1min内访问的所有网址，并将获取到的该用户在访问该目标网址前后各1min内访问的所有网址，以及该目标网址，按照访问时间从先到后的顺序进行排序，获得该用户一次访问目标网址时对应的网址序列。服务器将在预定长度时间段内，每个用户每次访问目标网址时对应的网址序列获取为目标网址对应的访问序列集合。

具体比如，服务器判断目标网址的被访问方式发生异常后，从数据库中提取每个uin每次访问目标网址前后预定时间范围内所访问的网址，将每一个uin每次访问目标网址前后预定时间范围内所访问的网址作为一个集合元素，获得访问序列集合，比如，假设目标网址为url 2，该访问序列集合可以如下表1所示。

用户	访问序列
		uin 1	url 1，url 2，url 3，…
uin 2	url 2，url 3，url 4，…
		uin 3	url 5，url 1，url 2，…
uin 3	url 5，url 2，url 3，…
		uin 4	url 6，url 2，url 4，…
uin 5	url 7，url 1，url 2，…
		…	…

表1

在表1中，每一行表示一个uin在访问url 2前后1min内访问的各个url按照访问时间的先后顺序排列的序列。其中，同一个uin可以对应至少一个访问序列，当一个uin对应两个或者两个以上序列时，该两个或者两个以上序列可以是该uin在不同时段访问目标网址时对应的访问序列。

步骤304，提取该访问序列集合的频繁项，该频繁项是该访问序列集合中出现频率高于预设频率阈值的网址序列。

简单来说，对于给定的一个项列表list＝{A，B，C，...}，存在一个数据集D中的每条记录都是list的子集，而找出数据集D中频繁共同出现的次数超过阈值t(这里的t也可以称为支持度)的元素的所有组合的过程，就是频繁项的挖掘过程。

在本发明实施例中，服务器可以通过FP-growth(Frequent Pattern growth，频繁模式增长)算法，基于上述访问序列集合构建FP树，再从FP树中挖掘出频繁项。FP-growth算法是针对Apriori算法的性能瓶颈问题(需要产生大量候选项集和需要重复地扫描数据库)进行优化改进的频繁项挖掘算法。FP-growth算法只需要进行2次项列表list扫描，通过项列表list生成一个频繁模式树，通过该频繁模式树挖掘获得频繁项。

或者，服务器也可以通过其它频繁项挖掘算法(比如Apriori算法)提取访问序列集合的频繁项。

步骤305，提取该频繁项的第一属性信息。

其中，该频繁项的第一属性信息包括以下信息中的至少一种：

该频繁项中包含的不同网址的个数、该频繁项中的每个网址序列在该访问序列集合中出现的次数以及该频繁项中包含的每个网址的信任度。

其中，该信任度用于指示对应的网址的受信任程度。

在本发明实施例中，网址的信任度可以由服务器通过该网址的网页排名(也称为page rank值或pr值，表示该网址对应的网页在全网搜索中的排名)以及该网址的备案信息(比如是否备案以及备案时间)等影响网址的受信任程度的信息来计算确定。比如，目标网址的网页排名越高，该目标网址的信任度越高，相应的，网页排名越低，该目标网址的信任度也越低；或者，目标网址已备案，则备案时间较早，则该目标网址的信任度越高，备案时间较晚，则该目标网址的信任度越低，若该目标网址尚未备案，则该目标网址的信任度可以是一个较低的默认值，比如，该默认值可以为0。该默认值可以由开发人员预先设置。

步骤306，将该频繁项的第一属性信息输入预先训练的机器学习模型，获得该目标网址的网址类型，该网址类型用于指示该目标网址的安全性。

其中，机器学习模型是预先根据网址样本的第一属性信息以及网址样本的网址类型进行机器训练获得的模型。该机器学习模型可以是决策树模型，其中，决策树模型的复杂度不高，且其输出结果易于理解和解释。或者，该机器学习模型也可以是其它类型的模型，比如线性回归模型等等。

在本发明实施例中，上述机器学习模型输出的网址类型可以包括两种，比如包括恶意网址或者非恶意网址。比如，在实际应用中，将频繁项的属性信息输入训练好的机器学习模型之后，机器学习模型可以输出一个数值来指示目标网址的网址类型，该数值可以是0或1中的一个数值，当该数值为0时，可以指示该目标网址的网址类型为恶意网址，当该数值为1时，可以指示该目标网址的网址类型为非恶意网址；或者，当该数值为0时，可以指示该目标网址的网址类型为非恶意网址，当该数值为1时，可以指示该目标网址的网址类型为恶意网址。

或者，上述机器学习模型输出的网址类型可以包括三种或者三种以上。以网址类型包括三种为例，上述机器学习模型输出的网址类型可以包括高风险网址、低风险网址或者安全网址。比如，在实际应用中，将频繁项的属性信息输入训练好的机器学习模型之后，机器学习模型可以输出一个数值来指示目标网址的网址类型，该数值可以是0、1或2中的一个数值，当该数值为0时，可以指示该目标网址的网址类型为高风险网址，当该数值为1时，可以指示该目标网址的网址类型为低风险网址，当该数值为2时，可以指示该目标网址的网址类型为安全网址；或者，当该数值为0时，可以指示该目标网址的网址类型为安全网址，当该数值为1时，可以指示该目标网址的网址类型为低风险网址，当该数值为2时，可以指示该目标网址的网址类型为高风险网址。

在本发明实施例中，服务器管理人员对于各种网址类型，可以分别标注出若干个网址样本，并按照步骤203至步骤205所示的方法，获取预定长度时间段内，每个网址样本对应的第一属性信息，并将每个网址样本的第一属性信息以及该网址样本的网址类型输入上述机器学习模型进行机器学习，获得训练好的机器学习模型。

步骤307，当该目标网址的网址类型指示该目标网址为不安全网址时，获取该目标网址的第二属性信息。

其中，该第二属性信息包括该目标网址的信任度、该目标网址对应的域名的信任度以及该目标网址在各个传播渠道中的分布比例随时间的变化信息中的至少一种。

步骤308，根据该第二属性信息确定该目标网址是否为安全网址。

在本发明实施例中，为了提高网址类型检测的准确性，降低误报率，在上述步骤306中，当机器学习模型输入的网址类型指示该目标网址为不安全网址时，还可以进一步获取目标网址的第二属性信息，并根据第二属性信息验证该目标网址是否为安全网址。具体的检测当时如下：

1)当该第二属性信息包括该目标网址的信任度，且该目标网址的信任度高于第一信任度阈值时，确定该目标网址为安全网址。

2)当该第二属性信息包括该目标网址对应的域名的信任度，且该域名的信任度高于第二信任度阈值时，确定该目标网址为安全网址。

其中，域名的信任度可以由服务器根据域名的创建时间，以及注册域名所使用的电子邮件地址的信任度来计算确定，其中，电子邮件地址的信任度可以由服务器预先统计通过该电子邮件注册的各个网址的信任度来确定，比如，若通过某个电子邮件地址注册的多个网址的信任度都比较低，则相应的，该电子邮件地址的信任度也较低，反之，若通过某个电子邮件地址注册的多个网址的信任度都比较高，则相应的，该电子邮件地址的信任度也较高。

3)当该第二属性信息包括该目标网址在各个传播渠道中的分布比例随时间的变化信息，且该目标网址在各个传播渠道中的分布比例随时间的变化信息指示该目标网址在各个传播渠道中的分布比例不存在变化幅度高于预设的变化幅度的至少一个时间点时，确定该目标网址为安全网址。

在本发明实施例中，若该目标网址在各个传播渠道中的分布比例并未发生突变，则该目标网址更可能是安全网址。

比如，以浏览器A对应的传播渠道为传播渠道a，浏览器B对应的传播渠道为传播渠道b为例，假设在当前时刻之前的一段时间内，目标网址在传播渠道a中的分布比例始终维持在30％左右，且在传播渠道b中的分布比例始终维持在70％左右，则可以认为该目标网址是一个安全网址。

或者，若假设在当前时刻之前的一段时间内，目标网址先在传播渠道a中的分布比例维持在30％左右，且在传播渠道b中的分布比例维持在70％左右，在时间点a，目标网址在传播渠道a中的分布比例短时间内上升至98％左右，同时而在传播渠道b中的分布比例下降至2％左右，则可以认为该目标网址是一个恶意网址。

可选的，上述第二属性信息也可以包括该目标网址在各个传播渠道中的传播热度随时间的变化信息，该传播热度可以是目标网址在各个传播渠道中单位时间内被点击的次数。当该目标网址在各个传播渠道中的传播热度随时间的变化信息指示该目标网址在各个传播渠道中的传播热度不存在变化幅度高于预设的变化幅度的至少一个时间点时，可以确定该目标网址为安全网址。

比如，假设在当前时刻之前的一段时间内，如果目标网址在任意传播渠道传播次数发生陡增的情况，比如由原来的1天传播1万次激增到1天传播20万次，则可认为该目标网址是一个恶意网址或者风险网址(比如高风险网址或者低风险网址)；反之，如果目标网址在各个传播渠道传播次数均未发生陡增的情况，则可以认为该目标网址是一个安全网址。

在实际应用中，对于上述三种根据第二属性验证目标网址是否为安全网址的情况，可以是当上述三种情况的一种得到满足时，即可以确认该目标网址是安全网址，或者，当上述三种情况的任意或者指定两种得到满足时，即可以确认该目标网址是安全网址，或者，当上述三种情况都得到满足时，才可以确认该目标网址是安全网址。

可选的，在本发明实施例中，第二属性除了上述三种属性之外，也可以包括目标网址对应的页面内容，即服务器在通过机器学习模型确定目标网址是不安全网址时，可以进一步获取目标网址的页面内容，并结合页面内容验证该目标网址是否为不安全的网址。

步骤309，若确定出该目标网址为安全网址，则将该目标网址的网址类型更新为安全网址对应的网址类型。

在本发明实施例中，当服务器通过目标网址的第二属性信息确定目标网址为安全网址时，可以将目标网址的网址类型更新为安全网址对应的网址类型，比如非恶意网址或者安全网址等等。

步骤310，根据该频繁项的第一属性信息以及更新后的网址类型输入该机器学习模型进行模型训练，以更新该机器学习模型。

其中，当上述机器学习模型输出的目标网址的网址类型错误时，服务器还可以将目标网址的频繁项的第一属性信息以及目标网址的正确的网址类型输入机器学习模型进行模型训练，以更新该机器学习模型。

在本发明实施例中，当机器学习模型输出的目标网址的网址类型指示该目标网址为不安全网址，而通过目标网址的第二属性信息确定出该目标网址是安全网址时，除了该目标网址的网址类型更新为安全网址对应的网址类型，还可以将该目标网址的频繁项的第一属性信息以及更新后的网址类型输入机器学习模型进行模型训练，以对机器学习模型进行更新，从而提高机器学习模型的准确性。

可选的，在本发明实施例中，当上述步骤206中确定的目标网址的网址类型指示该目标网址为安全网址时，若后续服务器通过用户反馈(比如用户举报)以及人工查验方式确定该目标网址为不安全网址时，服务器还可以将该目标网址的网址类型更新为不安全网址对应的网址类型(比如恶意网址、高风险网址或者低风险网址等)，并根据该频繁项的第一属性信息以及更新后的网址类型输入该机器学习模型进行模型训练，以更新该机器学习模型。

具体比如，请参考图4，其示出了本发明实施例涉及的一种识别网址类型的的流程示意图，如图4所示，以各个网址为url为例，图4中各个步骤具体执行如下：

1)服务器接收各个终端上传的url跳转记录，包括各个终端中各个uin请求跳转的url、跳转时间以及传播渠道，服务器对终端上传的url跳转记录对应各个uin存储如数据库。

2)对于目标url，服务器按照上述步骤301和步骤302提取目标url的异常检测信息，并检测目标url的访问方式是否发生异常。

3)当目标url的访问方式发生异常时，服务器按照上述步骤303～305所示的方法，从数据库中提取目标url对应的访问序列集合，提取访问序列集合中的频繁项，并获取频繁项的第一属性信息。

4)服务器将获取的频繁项的第一属性信息输入训练好的决策树模型，获取决策树模型输出的结果，通过决策树模型输出的结果判断目标url是否为恶意url。若该目标url不是恶意url，则流程结束。

5)若该目标url是恶意url，则服务器按照步骤207和步骤208进行防误报检测，以验证该目标url是否真的是恶意url。

6)若验证结果为该目标url是恶意url，则服务器将该目标url加入黑名单，以便接入服务器的应用程序基于该黑名单拦截目标url。具体比如，服务器可以向接入的应用程序的客户端推送更新后的黑名单，安装在终端中的客户端检测到访问黑名单中的目标url的请求后，可以对该请求进行拦截。

7)若验证结果为该目标url不是恶意url，则服务器更新url的类型，将该目标url的第一属性信息和该目标url的类型输入机器学习样本库，以便后续系统空闲时，通过样本库中的数据对决策树模型进行训练更新。

综上所述，本发明实施例所示的识别网址类型的方法，通过获取目标网址对应的访问序列集合，提取访问序列集合的频繁项，并提取频繁项的第一属性信息，将频繁项的第一属性信息输入预先训练的机器学习模型，获得目标网址的网址类型，在对目标网址进行分类时，综合考虑用户在访问该目标网址前后的一段时间内所访问的各个网址，并对用户在访问该目标网址前后的一段时间内所访问的各个网址进行机器学习分析，以确定该目标网址的类型，提高网址分类的准确性。

此外，本发明实施例所示的识别网址类型的方法，获取目标网址的异常检测信息，在根据目标网址的异常检测信息检测出目标网址的访问方式发生异常时，执行后续识别目标网址的网址类型的步骤，减少对对不必要分类的网址进行分类，提高网址分类的效率。

另外，本发明实施例所示的识别网址类型的方法，通过机器学习模型识别出目标网址的网址类型后，若该目标网址的网址类型指示该目标网址是不安全网址，则进一步验证该目标网址是否为不安全的网址，提高网址识别的准确性。

此外，在进一步验证过程中，若验证出该目标网址是安全网址，则使用目标网址的第一属性信息和目标网址的真实的网址类型对机器学习模型进行训练更新，以提供机器学习模型的识别准确性。

以上述网址为url为例，请参考图5，其示出了本发明实施例示出的一种识别系统框架图。在图5所示的识别系统50中，包含数据接口51、数据过滤子系统52、数据挖掘子系统53、识别子系统54、防误报子系统55以及数据库56。

其中，数据接口51用于接收各个终端上传的url跳转记录，包括各个终端中各个uin请求跳转的url、跳转时间以及传播渠道，并将终端上传的url跳转记录对应各个uin存储入数据库56。

数据过滤子系统52用于在对目标url进行识别时，按照上述步骤301和步骤302提取目标url的异常检测信息，并检测目标url的访问方式是否发生异常。

数据过滤子系统52用于当目标url的访问方式发生异常时，按照上述步骤303～305所示的方法，从数据库56中提取目标url对应的访问序列集合，提取访问序列集合中的频繁项，并获取频繁项的第一属性信息。

识别子系统54包括训练组件541、识别组件542以及监控组件543。

其中，训练组件541用于根据预先标注出类型的若干个url样本，并按照步骤203至步骤205所示的方法，获取预定长度时间段内，每个url样本对应的第一属性信息，并将每个url样本的第一属性信息以及该url样本的网址类型输入机器学习模型进行机器学习，获得训练好的机器学习模型。

识别组件542用于将目标url的第一属性信息输入训练好的机器学习模型，输出对目标url的识别结果。当识别组件542识别出的目标url的类型指示目标url为安全的url时，将目标url添加入数据库56中的白名单。

监控组件543用于监控用户对加入白名单中的该目标url的反馈以及开发人员对目标url的人工识别结果，当用户反馈或者开发人员对目标url的人工识别结果指示该目标url是不安全的url时，将目标url的第一属性信息以及目标url的真实类型输入训练组件541，以对机器学习模型进行训练更新。

防误报子系统55用于当识别组件542识别出的目标url的类型指示目标url为不安全的url，根据目标url的站点信任度、whois信任度、传播渠道变化信息以及对应的页面内容等信息验证该目标url是否为不安全的url，若是，则将目标url添加入数据库56中的黑名单，否则，将目标url添加入数据库56中的白名单。

其中，当防误报子系统55验证出目标url是安全的url时，监控组件543也将目标url的第一属性信息以及目标url的真实类型输入训练组件541，以对机器学习模型进行训练更新。

图6是根据一示例性实施例示出的一种识别网址类型的装置的结构方框图。该识别网址类型的装置可以用于如图1所示系统所包含的服务器中，以执行图2所示实施例中由服务器执行的全部或者部分步骤。该识别网址类型的装置可以包括：

集合获取模块601，用于获取目标网址对应的访问序列集合，所述访问序列集合中的每一个元素是单个用户访问所述目标网址前后的预定时间范围内所访问的网址组成的网址序列，每个所述网址序列中包含至少一个按照被访问的时间顺序排列的网址；

频繁项提取模块602，用于提取所述访问序列集合的频繁项，所述频繁项是所述访问序列集合中出现频率高于预设频率阈值的网址序列；

第一属性提取模块603，用于提取所述频繁项的第一属性信息；

识别模块604，用于根据所述频繁项的第一属性信息识别所述目标网址的网址类型，所述网址类型用于指示所述目标网址的安全性。

可选的，所述装置还包括：

检测信息获取模块，用于在所述集合获取模块获取目标网址对应的访问序列集合之前，获取所述目标网址的异常检测信息，所述异常检测信息包括所述目标网址在各个传播渠道中的分布比例以及用户访问所述目标网址之前的至少一个网址的时间与访问所述目标网址的时间之间的差值；

异常检测模块，用于根据所述异常检测信息检测所述目标网址被访问的方式是否存在异常；

所述集合获取模块，具体用于当所述目标网址被访问的方式存在异常时，执行所述获取目标网址对应的访问序列集合的步骤。

可选的，所述异常检测模块，用于

当所述异常检测信息包括所述目标网址在各个传播渠道中的分布比例，且所述目标网址在所述各个传播渠道中的单个传播渠道中的分布比例高于预设比例阈值时，确定所述目标网址被访问的方式存在异常；

当所述异常检测信息包括用户访问所述目标网址之前的至少一个网址的时间与访问所述目标网址的时间之间的差值，且所述差值小于预设差值阈值时，确定所述目标网址被访问的方式存在异常。

可选的，所述装置还包括：

第二属性获取模块，用于当所述目标网址的网址类型指示所述目标网址为不安全网址时，获取所述目标网址的第二属性信息，所述第二属性信息包括所述目标网址的信任度、所述目标网址对应的域名的信任度以及所述目标网址在各个传播渠道中的分布比例随时间的变化信息中的至少一种；

确定模块，用于根据所述第二属性信息确定所述目标网址是否为安全网址；

第一更新模块，用于当确定出所述目标网址为安全网址时，将所述目标网址的网址类型更新为安全网址对应的网址类型。

可选的，所述确定模块，用于

当所述第二属性信息包括所述目标网址的信任度，且所述目标网址的信任度高于第一信任度阈值时，确定所述目标网址为安全网址；

当所述第二属性包括所述目标网址对应的域名的信任度，且所述域名的信任度高于第二信任度阈值时，确定所述目标网址为安全网址；

当所述第二属性包括所述目标网址在各个传播渠道中的分布比例随时间的变化信息，且所述目标网址在各个传播渠道中的分布比例随时间的变化信息指示所述目标网址在各个传播渠道中的分布比例不存在变化幅度高于预设的变化幅度的至少一个时间点时，确定所述目标网址为安全网址。

可选的，该识别模块，具体用于将该频繁项的第一属性信息输入预先训练的机器学习模型，获得该机器学习模型的输出的该目标网址的网址类型；其中，该机器学习模型是预先根据网址样本的第一属性信息以及该网址样本的网址类型进行机器训练获得的模型。

可选的，所述装置还包括：

第二更新模块，用于当该机器学习模型输出的该目标网址的网址类型错误时，将该频繁项的第一属性信息以及该目标网址的正确的网址类型输入该机器学习模型进行模型训练，以更新该机器学习模型。

综上所述，本发明实施例所示的识别网址类型的装置，通过获取目标网址对应的访问序列集合，提取访问序列集合的频繁项，并提取频繁项的第一属性信息，将频繁项的第一属性信息输入预先训练的机器学习模型，获得目标网址的网址类型，在对目标网址进行分类时，综合考虑用户在访问该目标网址前后的一段时间内所访问的各个网址，并对用户在访问该目标网址前后的一段时间内所访问的各个网址进行机器学习分析，以确定该目标网址的类型，提高网址分类的准确性。

此外，本发明实施例所示的识别网址类型的装置，获取目标网址的异常检测信息，在根据目标网址的异常检测信息检测出目标网址的访问方式发生异常时，执行后续识别目标网址的网址类型的步骤，减少对对不必要分类的网址进行分类，提高网址分类的效率。

另外，本发明实施例所示的识别网址类型的装置，通过机器学习模型识别出目标网址的网址类型后，若该目标网址的网址类型指示该目标网址是不安全网址，则进一步验证该目标网址是否为不安全的网址，提高网址识别的准确性。

图7是根据一示例性实施例示出的一种服务器的结构示意图。所述服务器可以实现为上述图1所示的实施环境中的服务器集群120。所述服务器700包括中央处理单元(CPU)701、包括随机存取存储器(RAM)702和只读存储器(ROM)703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。所述服务器700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

所述基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中所述显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备707及其相关联的计算机可读介质为服务器700提供非易失性存储。也就是说，所述大容量存储设备707可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

服务器700可以通过连接在所述系统总线705上的网络接口单元711连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器701通过执行该一个或一个以上程序来实现图2所示的识别网址类型的方法中，由服务器所执行的步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由服务器的处理器执行以完成本发明各个实施例所示的识别网址类型的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种识别网址类型的方法，其特征在于，所述方法包括：

提取所述频繁项的第一属性信息；

2.根据权利要求1所述的方法，其特征在于，所述频繁项的第一属性信息包括以下信息中的至少一种：

所述频繁项中包含的不同网址的个数、所述频繁项中的每个网址序列在所述访问序列集合中出现的次数以及所述频繁项中包含的每个网址的信任度；

其中，所述信任度用于指示对应的网址的受信任程度。

3.根据权利要求1或2所述的方法，其特征在于，所述获取目标网址对应的访问序列集合之前，还包括：

获取所述目标网址的异常检测信息，所述异常检测信息包括所述目标网址在各个传播渠道中的分布比例以及用户访问所述目标网址之前的至少一个网址的时间与访问所述目标网址的时间之间的差值；

根据所述异常检测信息检测所述目标网址被访问的方式是否存在异常；

当所述目标网址被访问的方式存在异常时，执行所述获取目标网址对应的访问序列集合的步骤。

4.根据权利要求3所述的方法，其特征在于，所述根据所述异常检测信息检测所述目标网址被访问的方式是否存在异常，包括：

5.根据权利要求1或2所述的方法，其特征在于，当所述目标网址的网址类型指示所述目标网址为不安全网址时，所述方法还包括：

获取所述目标网址的第二属性信息，所述第二属性信息包括所述目标网址的信任度、所述目标网址对应的域名的信任度以及所述目标网址在各个传播渠道中的分布比例随时间的变化信息中的至少一种；

根据所述第二属性信息确定所述目标网址是否为安全网址；

当确定出所述目标网址为安全网址时，将所述目标网址的网址类型更新为安全网址对应的网址类型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二属性信息确定所述目标网址是否为安全网址，包括：

7.根据权利要求1或2所述的方法，其特征在于，所述根据所述频繁项的第一属性信息识别所述目标网址的网址类型，包括：

将所述频繁项的第一属性信息输入预先训练的机器学习模型，获得所述机器学习模型的输出的所述目标网址的网址类型；

其中，所述机器学习模型是预先根据网址样本的第一属性信息以及所述网址样本的网址类型进行机器训练获得的模型。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

当所述机器学习模型输出的所述目标网址的网址类型错误时，将所述频繁项的第一属性信息以及所述目标网址的正确的网址类型输入所述机器学习模型进行模型训练，以更新所述机器学习模型。

9.一种识别网址类型的装置，其特征在于，所述装置包括：

第一属性提取模块，用于提取所述频繁项的第一属性信息；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述异常检测模块，用于

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述确定模块，用于

14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的识别网址类型的方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的识别网址类型的方法。