CN111814643A

CN111814643A - 黑灰url识别方法、装置、电子设备及介质

Info

Publication number: CN111814643A
Application number: CN202010618920.5A
Authority: CN
Inventors: 赵鑫; 王伟; 吴鹏
Original assignee: Hangzhou Kedu Technology Co ltd
Current assignee: Hangzhou Kedu Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-23

Abstract

本发明公开了一种黑灰URL识别方法，涉及网络安全技术领域，用于解决黑灰网站大多依靠网友举报，导致难以遏制黑灰网站传播的问题。该黑灰URL识别方法包括以下步骤：获取疑似URL，访问疑似URL以跳转至对应的疑似网站；截取疑似网站的首页图像，并根据首页图像的文字信息计算首页图像的黑灰度；判断黑灰度是否符合第一预警范围，若是则将对应的疑似URL记为黑灰URL，若否则将对应的疑似URL记为第一URL。该识别方法可以快速识别出黑灰URL，从而为网络监管系统的建立提供基础。本发明还提供了一种黑灰URL识别装置、电子设备及计算机可读存储介质。

Description

黑灰URL识别方法、装置、电子设备及介质

技术领域

本发明涉及网络安全技术领域，尤其涉及一种黑灰URL识别方法、装置、电子设备及介质。

背景技术

近年来，随着电脑及网络的普及，越来越多的网络使用者习惯依赖网络获取各自需要的信息，而网络也确实给人们获取信息的需要提供快速便捷的服务。网络使用者最常用的方式是通过关键词搜索自己需要的信息，比如健康知识、休闲娱乐信息、书籍阅读等，这些信息都给人们的生活带来很大的帮助。

但是，我们也应该看到，很多的网站也充斥着很多不良和危险的信息，加上网络具有易得性和互动性的特点，使得这些危险信息很容易触及到网络使用者，并且难以追踪查缉。

由于目前网络监管系统还不是十分健全，从而黑灰网站大多是依靠网友举报实现，导致难以遏制黑灰网站的传播。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种黑灰URL识别方法，以快速识别黑灰URL。

本发明的目的之一采用如下技术方案实现：

一种黑灰URL识别方法，包括以下步骤：获取疑似URL，访问所述疑似URL以跳转至对应的疑似网站；截取所述疑似网站的首页图像，并根据所述首页图像的文字信息计算所述首页图像的黑灰度；判断所述黑灰度是否符合第一预警范围，若是则将对应的疑似URL记为黑灰URL，若否则将对应的疑似URL记为第一URL。

进一步地，获取疑似URL，包括以下步骤：

获取待识别URL；

提取所述待识别URL的域名信息；

判断所述域名信息是否符合疑似规则，若是，则将对应的待识别URL记为疑似URL。

进一步地，所述域名信息包括数字和字母，所述疑似规则包括：字母个数为0、数字和字母的总长度大于10、字母不连续、字母连续但与英文单词库不匹配。

进一步地，所述疑似规则还包括疑似度在疑似范围内，所述疑似度的计算包括以下步骤：

基于所述域名信息查询IP更换时间；

计算相邻IP更换时间之间的时间间隔T，根据时间间隔T的长度对所述时间间隔T进行分组；

查询各组的系数和占比，并基于各组的系数和占比计算所述疑似度。

进一步地，还包括以下步骤：

查询与所述第一URL对应的网站文本信息；

基于所述网站文本信息计算敏感词的TF-IDF值；

判断所述TF-IDF值是否符合第二预警范围，若是则将对应的第一URL记为黑灰URL。

进一步地，还包括以下步骤：

查询与所述第一URL对应的文档名称；

提取所述文档名称的特殊量和命名架构，并组成名称特征；

判断所述名称特征与黑灰名称特征库是否匹配，若是则将所述对应的第一URL记为黑灰URL，其中所述黑灰名称特征库与黑灰网站关联。

进一步地，还包括以下步骤：

查询与第一URL对应的注册信息；

判断所述注册信息与黑灰注册信息库是否匹配，若是则将对应的第一URL记为黑灰URL，其中黑灰注册信息库与黑灰网站关联。

本发明的目的之二在于提供一种黑灰URL识别装置，以快速识别黑灰URL。本发明的目的之二采用如下技术方案实现：一种黑灰URL识别装置，包括：获取模块，用于获取疑似URL，访问所述疑似URL以跳转至对应的疑似网站；截取模块，用于截取所述疑似网站的首页图像，并根据所述首页图像的文字信息计算所述首页图像的黑灰度；判断模块，用于判断所述黑灰度是否符合第一预警范围，若是则将对应的疑似URL记为黑灰URL，若否则将对应的疑似URL记为第一URL。

本发明的目的之三在于提供执行发明目的之一的电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现上述的黑灰URL识别方法。

本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的黑灰URL识别方法。

相比现有技术，本发明的有益效果在于：截取疑似网站的首页图像，然后基于首页图像的文字信息计算黑灰度并进行判断，从而可以快速地对黑灰URL进行识别，进而为网络监管系统的建立提供基础；黑灰度是基于首页图像得到的，则相应的文字信息包括首页的文本文字、首页的图片文字，从而可以提高黑灰度的准确率，进而提高黑灰URL识别的准确率；在通过对首页图像进行处理，从而可以提高整体的识别效率。

附图说明

图1为实施例一所示识别方法的流程图；

图2为实施例二所示识别方法步骤S10的流程图；

图3为实施例三所示识别方法步骤S80的流程图；

图4为实施例三所示识别方法步骤S90的流程图；

图5为实施例三所示识别方法步骤S100的流程图；

图6为实施例四所示识别装置的结构框图；

图7为实施例五所示电子设备的结构框图。

图中：1、获取模块；2、截取模块；3、判断模块；4、电子设备；41、处理器；42、存储器；43、输入装置；44、输出装置。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，以下参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例一

本实施例提供了一种黑灰URL识别方法，解决黑灰网站大多依靠网友举报，导致难以遏制黑灰网站传播的问题。具体地，参照图1所示，该识别方法包括以下步骤。

步骤S10、获取疑似URL。该疑似URL是黑灰URL的可能性较大，在此值得说明的是，该黑灰URL为非法网站的URL，该非法网站的内容可以涉及色情、赌博、传销以及反动等。

步骤S20、访问疑似URL以跳转至对应的疑似网站。可以理解的是，该疑似URL均为有效的URL，其可以被访问，若出现无法访问的情况，则将对应的URL记为失效URL并执行步骤S10。

步骤S30、截取疑似网站的首页图像。可以理解的是，疑似网站是具有多个网页的，且各个网页均具有序号，通常首个网页的信息最能反映该疑似网站的性质，因此该步骤仅截取首页图像。

步骤S40、根据首页图像的文字信息计算首页图像的黑灰度。具体地，该步骤需要先对首页图像进行文字识别以得到文字信息，然后针对文字信息计算黑灰度。该文本信息可以包括首页的文本文字、首页的图片文字等。

其中，针对文字信息计算黑灰度可以采用以下步骤：查询敏感词库，该敏感词库由敏感词组成；将该文字信息与敏感词库匹配，以得到各个敏感词的出现次数；将各个敏感词的出现次数相加后的和作为黑灰度。针对文字信息计算黑灰度还可以采用机器学习，具体地，将该文字信息输入已完成训练的机器模型中，然后可以得到对应的黑灰度。在此值得说明的是，该机器模型可以在bert算法的基础上确定文字信息的性质并进行量化，从而提高该黑灰度的准确率。但针对文字信息计算黑灰度不限于上述类型。

在此值得说明的是，若步骤S30采用疑似网站全部网页的图像，则会导致相应步骤的增加且黑灰URL计算效率的降低，因此步骤S30仅截取疑似网站的首页图像且步骤S40基于首页图像进行处理，从而可以提高识别效率。

步骤S50、判断黑灰度是否符合第一预警范围，若是则执行步骤S60；若否则执行步骤S70。该第一预警范围是预设的，其可以由工作人员根据实际情况进行相应的调整。

步骤S60、将黑灰度符合第一预警范围的疑似URL记为黑灰URL。

步骤S70、将黑灰度不符合第一预警范围的疑似URL记为第一URL。

值得说明的是，该方法的步骤是基于执行设备完成的。具体地，该执行设备可以为服务器、用户端、处理器等设备，但该执行设备不限于上述类型。

本识别方法先截取疑似网站的首页图像，然后将该首页图像转换为文字信息，因此该文字信息可以全面地反映疑似网站的首页情况，从而提高黑灰URL的准确率，进而为网络监管系统的建立提供基础。

实施例二

本实施例的目的在于提供一直黑灰URL识别方法，其是在实施一的基础上进行的，参照图2所示，该步骤S10包括步骤S101～步骤S104。

步骤S301、获取待识别URL。该待识别URL可以来自于互联网黑灰域交易平台、公安内网发案网址库、互联网企业等。该步骤为数据来源汇聚过程，可以采用传统开源数据ETL工具完成。

步骤S102、提取待识别URL的域名信息。该域名信息可以包括文字，也可以包括字母，还可以包括数字和字母的组合。

步骤S103、判断域名信息是否符合疑似规则，若是则执行步骤S104。其中该疑似规则具有多个疑似条件，当域名信息符合任意疑似条件时，则说明该域名信息符合该疑似规则。

步骤S104、将符合疑似规则的待识别URL记为疑似URL。

通过该技术方案，以对获取的待识别URL进行筛选，从而减少疑似URL的总数，以提高黑灰URL的识别效率。

进一步地，该疑似规则可以包括第一疑似条件、第二疑似条件、第三疑似条件、第四疑似条件。其中，第一疑似条件为字母个数为0，例如：12345；第二疑似条件为数字和字母的总长度大于10，例如：123456789is；第三疑似条件为字母不连续，例如1a2b3c；第四疑似条件为字母连续但与英文单词库不匹配，例如：1234sca。该第一疑似条件、第二疑似条件、第三疑似条件、第四疑条件的执行顺序在此不做限定，其可以根据实际情况进行调整。

进一步地，该疑似规则还可以包括第五疑似条件，该第五疑似条件为疑似度在疑似范围内。其中，该疑似度的计算包括以下步骤。

基于域名信息查询IP更换时间。在此值得说明的是：若与域名信息对应的IP未发生更换，则该IP更换时间为不存在，则无需执行下一步骤；若与域名信息对应的IP仅发生一次更换，则无法得到时间内间隔T，则也无需执行下一步骤。

计算相邻IP更换时间之间的时间间隔T，根据时间间隔T的长度对时间间隔T进行分组。其中，该分组所根据的长度在此不做限制，可以根据实际情况进行调整。例如：得到的时间间隔T分别为1天、1天、2天、4天、8天、11天。将0天～3天的时间间隔T归于第1组，将3天～5天的时间间隔T归于第2组，将5天～8天的时间间隔T归于第3组，将8天以上的时间间隔T归于第4组。因此第1组的数据为3个，第2组的数据为1个，第3组的数据为1个，第4组的数据为1个。

查询各组的系数和占比，并基于各组的系数和占比计算疑似度。其中单组的占比记为q，q＝单组的时间间隔T的数量/时间间隔T的总数量；各组的系数记为k，k均为预先设置；

其中q_i为第i组的占比，k_i为第i组的系数。

参考步骤S1042所示的例子，则第1组的占比为3/6，第2组的占比为1/6，第3组的占比为1/6，第4组的占比为1/6。第1组、第2组、第3组、第4组的系数分别为：0.7、0.5、0.2、0.1。因此该疑似度＝3/6*0.7+1/6*0.5+1/6*0.2+1/6*0.1。

综上，该步骤S103可以包括以下步骤：判断域名信息是否与第一疑似条件、第二疑似条件、第三疑似条件、第四疑条件的任意一个符合，若是则执行步骤S104，若否则计算待识别URL的疑似度，并判断是否在疑似范围内，若是则执行步骤S104，若否则表示该待识别URL不是疑似URL。通过该技术方案，可以实现对待识别URL的筛选，且该筛选涉及的步骤较为简单且执行效率较快，因此，可以提高整体的识别效率。

实施例三

本实施例提供一种黑灰URL识别方法，本实施例在实施例一或实施例二的基础上进行的。

参照图3所示，该识别方法还包括步骤S80、全文识别，该步骤可以在步骤S70的基础上进行的，具体地，该步骤S80包括步骤S801～步骤S803。

步骤S801、查询与第一URL对应网站文本信息。在此值得说明的是，该网站文本信息为该网站的所有网页的文字信息。

步骤S802、基于网站文本信息计算敏感词的TF-IDF值。该TF-IDF的计算方式为现有技术，在此不再赘述；

步骤S803、判断TF-IDF值是否符合第二预警范围，该第二预警范围为数值范围，该第二预警范围可以由工作人员根据实际情况进行设置。当TF-IDF值符合第二预警范围，执行步骤S804；当TF-IDF值不符合第二预警范围，则结束或执行预设步骤。

步骤S804、将对应的第一URL记为黑灰URL。

通过该技术方案，对不符合第一预警范围的疑似URL进行识别，从而提高识别的精确度。在此值得说明的是，该步骤S80的识别效率低于上述基于首页图像的识别，从而仅用于对小基数的第一URL进行进一步地识别，以减少多整体识别效率的影响。

作为可选的技术方案，参照图4所示，该识别方法还包括步骤S90、文档命名识别，该步骤可以在步骤S70的基础上进行的，具体地，该步骤S90包括步骤S901～步骤S904。

步骤S901、查询与第一URL对应的文档名称。值得说明的是，部分第一URL具有附件，该文档名称记为附件的名称，例如：style-dk-2020.css。对于不具有附件的第一URL则直接将文档名称记为空或停止后续步骤。

步骤S902、提取文档名称的特殊量和命名架构，并组成名称特征。具体地，先确定文档名的组成，其包括常见量和特殊量，该常见量可以为日期、版本、序号等，该特殊量可以为名称、符号、后缀，命名架构为特殊量和常见量之间的位置关系。例如：对应style-dk-2020.css，常见量为2020，特数量为style、dk、css。

步骤S903、判断名称特征与黑灰名称特征库是否匹配，若是则执行步骤S904，若否则结束或执行预设步骤。在此值得说明的是，该黑灰名称特征库与黑灰网站关联，即该黑灰注册库由黑灰网站的名称特征组成。

步骤S904、将对应的第一URL记为黑灰URL。

通过该技术方案，对不符合第一预警范围的疑似URL进行识别，从而提高识别的精确度。在此值得说明的是，该步骤S90的识别效率低于上述基于首页图像的识别，从而仅用于对小基数的第一URL进行进一步地识别，以减少多整体识别效率的影响。

作为可选的技术方案，参照图5所示，该识别方法还包括步骤S100、注册信息识别，该步骤可以在步骤S70的基础上进行的，具体地，该步骤S100包括步骤S1001～步骤S1002。

步骤S1001、查询与第一URL对应的注册信息。该步骤可以利用whois挖掘，该注册信息可以包括注册人、注册联系方式、注册商、注册时间以及注册结束时间等。

步骤S1001、判断注册信息与黑灰注册信息库是否匹配，若是则执行步骤S1002，若否则结束或执行预设步骤。在此值得说明的是，该黑灰注册信息库与黑灰网站关联。

步骤S1002、将对应的第一URL记为黑灰URL。

通过该技术方案，对不符合第一预警范围的疑似URL进行识别，从而提高识别的精确度。在此值得说明的是，该步骤S100的识别效率低于上述基于首页图像的识别，从而仅用于对小基数的第一URL进行进一步地识别，以减少多整体识别效率的影响。

作为可选的技术方案，步骤S80、步骤S90以及步骤S100可以依次执行，即当步骤S70之后，先对第一URL执行步骤S80，然后对经由步骤S80后的疑似URL执行步骤S90，继而对经由步骤S90后的疑似URL执行步骤S100，以使得疑似URL的基数可以层层减小，并提高整体识别的精确度。

实施例四

本实施例提供一种黑灰URL识别装置，为上述实施例的虚拟装置结构。参照图6所示，该识别装置包括：获取模块1、截取模块2、判断模块3。

获取模块1用于获取疑似URL，访问疑似URL以跳转至对应的疑似网站；截取模块2用于截取疑似网站的首页图像，并根据首页图像的文字信息计算首页图像的黑灰度；判断模块3用于判断黑灰度是否符合第一预警范围，若是则将对应的疑似URL记为黑灰URL，若否则将对应的疑似URL记为第一URL。

优选地，获取疑似URL，包括以下步骤：获取待识别URL；提取待识别URL的域名信息；判断域名信息是否符合疑似规则，若是，则将对应的待识别URL记为疑似URL。

优选地，域名信息包括数字和字母，疑似规则包括：字母个数为0、数字和字母的总长度大于10、字母不连续、字母连续但与英文单词库不匹配。

优选地，疑似规则还包括疑似度在疑似范围内，疑似度的计算包括以下步骤：基于域名信息查询IP更换时间；计算相邻IP更换时间之间的时间间隔T，根据时间间隔T的长度对时间间隔T进行分组；查询各组的系数和占比，并基于各组的系数和占比计算疑似度。

实施例五

电子设备4可以是台式计算机、笔记本电脑、服务器(实体服务器或云服务器)等，甚至也可以是手机或平板电脑等，

图7为本发明实施例五提供的一种电子设备的结构示意图，图7所示，该电子设备4包括处理器41、存储器42、输入装置43和输出装置44；计算机设备中处理器41的数量可以是一个或多个，图7中以一个处理器41为例；电子设备4中的处理器41、存储器42、输入装置43和输出装置44可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器42作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的黑灰URL识别方法对应的程序指令/模块，该程序指令/模块为黑灰URL识别装置中的获取模块1、截取模块2、判断模块3。处理器41通过运行存储在存储器42中的软件程序、指令/模块，从而执行电子设备4的各种功能应用以及数据处理，即实现上述实施例一至实施例三的任意实施例或实施例组合的黑灰URL识别方法。

存储器42可主要包括存储程序区和存储数据区，其中存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。存储器42还可以进一步设置为包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至电子设备4。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

值得说明的是，输入装置43可以用于接收获取的相关数据。输出装置44可以包括文档或显示屏等显示设备。具体地，当输出装置44为文档时，可以将对应信息按照特定的格式记录于文档内，在实现数据保存的同时，还实现了数据的整合；当输出装置44为显示屏等显示设备时，直接将对应信息投放于显示屏等设备上，以便于用户实时查看。

实施例六

本发明实施例六还提供一种计算机可读存储介质，其包含计算机可执行指令，计算机可执行指令在由计算机处理器执行时用于执行上述的黑灰URL识别方法，该方法包括：

获取疑似URL，访问疑似URL以跳转至对应的疑似网站；

截取疑似网站的首页图像，并根据首页图像的文字信息计算首页图像的黑灰度；

判断黑灰度是否符合第一预警范围，若是则将对应的疑似URL记为黑灰URL，若否则将对应的疑似URL记为第一URL。

当然，本发明实施例所提供的一种计算机可读存储介质，其计算机可执行指令不限于如上的方法操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FlASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明中实施例一至实施例三任意实施例或实施例组合的黑灰URL识别方法。

值得注意的是，上述的黑灰URL识别的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可。另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种黑灰URL识别方法，其特征在于，包括以下步骤：

获取疑似URL，访问所述疑似URL以跳转至对应的疑似网站；

截取所述疑似网站的首页图像，并根据所述首页图像的文字信息计算所述首页图像的黑灰度；

判断所述黑灰度是否符合第一预警范围，若是则将对应的疑似URL记为黑灰URL，若否则将对应的疑似URL记为第一URL。

2.根据权利要求1所述的黑灰URL识别方法，其特征在于，获取疑似URL，包括以下步骤：

获取待识别URL；

提取所述待识别URL的域名信息；

3.根据权利要求2所述的黑灰URL识别方法，其特征在于，所述域名信息包括数字和字母，所述疑似规则包括：字母个数为0、数字和字母的总长度大于10、字母不连续、字母连续但与英文单词库不匹配。

4.根据权利要求2所述的黑灰URL识别方法，其特征在于，所述疑似规则还包括疑似度在疑似范围内，所述疑似度的计算包括以下步骤：

基于所述域名信息查询IP更换时间；

5.根据权利要求1～4任意一项所述的黑灰URL识别方法，其特征在于，还包括以下步骤：

查询与所述第一URL对应的网站文本信息；

基于所述网站文本信息计算敏感词的TF-IDF值；

6.根据权利要求1～4任意一项所述的黑灰URL识别方法，其特征在于，还包括以下步骤：

查询与所述第一URL对应的文档名称；

提取所述文档名称的特殊量和命名架构，并组成名称特征；

7.根据权利要求1～4任意一项所述的黑灰URL识别方法，其特征在于，还包括以下步骤：

查询与第一URL对应的注册信息；

8.一种黑灰URL识别装置，其特征在于，包括：

获取模块，用于获取疑似URL，访问所述疑似URL以跳转至对应的疑似网站；

截取模块，用于截取所述疑似网站的首页图像，并根据所述首页图像的文字信息计算所述首页图像的黑灰度；

判断模块，用于判断所述黑灰度是否符合第一预警范围，若是则将对应的疑似URL记为黑灰URL，若否则将对应的疑似URL记为第一URL。

9.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任意一项所述的黑灰URL识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任意一项所述的黑灰URL识别方法。