CN113688905A

CN113688905A - 一种有害域名核验方法及装置

Info

Publication number: CN113688905A
Application number: CN202110981798.2A
Authority: CN
Inventors: 尚秋明; 张立坤; 王利军
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-11-23

Abstract

本发明公开了一种有害域名核验方法及装置，包括：确定疑似有害域名；获取每一疑似有害域名对应的网页图像；将网页图像在目标图像库中进行图像相似度检索，得到网页图像的相似度分值；将相似度分值大于分值阈值的疑似有害域名确定为有害域名；将相似度分值不大于分值阈值的疑似有害域名进行聚类分析，获得至少一个域名组；对域名组中的域名进行识别，以确定域名组中的各个域名是否为有害域名。本发明基于目标图像库的相似度检索和未与目标图像库匹配上的疑似有害域名的聚类分析，实现了自动对域名的识别处理，降低了有害域名核验的人工成本，提升了核验效率。

Description

一种有害域名核验方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种有害域名核验方法及装置。

背景技术

随着互联网的快速发展，网络赌博、淫秽色情等有害信息的传播越来越泛滥，对网络用户的生活以及学习会产生十分有害的影响。域名作为网络信息的主要访问入口，通过相关技术手段对网络有害信息进行检测，进而对相关域名进行过滤封堵是有害信息治理的重要实现保障。伴随着5G时代的到来，大带宽的移动互联网进一步加快了信息的传播，网络信息的规模也在快速增长，对有害域名的实时检测和处理需求也在不断提高。

现有有害域名的检测识别，多是基于域名相关信息，包括注册信息、DNS(DomainName System，域名系统)解析服务器、网站IP(Internet Protocol，国际互连协议)归属地等，结合有害域名黑白名单，利用机器学习预测模型，实现对域名有害程度进行判定。这种方式的前提是有害域名之间存在若干相关性。由于域名的注册成本较低且可选注册的顶级域名类型众多，借助大量的域名托管服务商和云服务商，域名注册者可通过打破有害域名之间的关联关系，实现逃避此类检测模式的目的。同时该方式的域名有害判定结果仍需大量的人工检验工作，以便开展相关处理工作。此外，还有根据网页DOM(Document ObjectModel，文档对象模型)相关结构进行相似性判定，同时存在判断结果不准确，处理前需要人工一一核验的工作投入问题。

可见，现有的有害域名检测识别均需要进行大量的人工核验，使得人工成本高，并且有害域名核验效率低。

发明内容

针对于上述问题，本发明提供一种有害域名核验方法及装置，降低了有害域名核验的人工成本，提升了核验效率。

为了实现上述目的，本发明提供了如下技术方案：

一种有害域名核验方法，包括：

确定疑似有害域名；

获取每一所述疑似有害域名对应的网页图像；

将所述网页图像在目标图像库中进行图像相似度检索，得到所述网页图像的相似度分值，所述目标图像库中包括已确认的有害域名对应的网页图像；

将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名；

将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析，获得至少一个域名组，所述域名组中包括至少一个疑似有害域名，且所述域名组中的各个疑似有害域名对应的网页图像具有相似特征；

对所述域名组中的疑似有害域名进行识别，以确定所述域名组中的各个疑似有害域名是否为有害域名。

可选地，所述确定疑似有害域名，包括：

获取初始域名列表，所述初始域名列表包括通用顶级域域名列表和国家域名列表；

对所述初始域名列表中的域名进行初始筛查，获得疑似有害域名。

可选地，所述方法还包括：

创建目标图像库，包括：

获取已确认的有害域名；

利用模拟浏览器获得所述已确认的有害域名对应的网页图像；

对所述网页图像进行存储，获得目标图像库。

可选地，所述方法还包括：

对每一所述疑似有害域名的网页图像进行内容和图像识别，确定每一所述疑似有害域名对应的参考分值，所述参考分值为对应有害类型匹配的参考分值。

可选地，所述对所述域名组中的域名进行识别，以确定所述域名组中的各个域名是否为有害域名，包括：

获取所述域名组中每一域名对应的参考分值，所述参考分值包括第一有害类型对应的第一分值和第二有害类型对应的第二分值；

若所述域名组中每一域名对应的第一有害类型对应的第一分值均高于第一类型的分数阈值，且所述每一域名的第一分值均大于第二分值，确定所述域名组中的每一域名属于第一有害类型对应的有害域名。

获取所述域名组中的目标域名信息，所述目标域名信息为所述域名组中的符合目标条件的域名的信息；

确定所述目标域名信息对应的识别结果；

基于所述识别结果确定所述域名组中的各个域名是否为有害域名。

可选地，所述方法还包括：

将在所述疑似有害域名中确定的有害域名对应的网页图像，添加至所述目标图像库，以更新所述目标图像库。

可选地，所述对每一所述疑似有害域名的网页图像进行内容和图像识别，确定每一所述疑似有害域名对应的参考分值，包括：

对每一所述疑似有害域名的网页图像中的文字内容进行识别，获得目标关键词；

基于所述目标关键词对应的权值进行计算，获得所述文字内容的有害分值；

利用图像识别模型对所述网页图像进行识别，得到与所述图像识别模型对应的分类类型相匹配的有害分值。

一种有害域名核验装置，包括：

第一确定单元，用于确定疑似有害域名；

第一获取单元，用于获取每一所述疑似有害域名对应的网页图像；

检索单元，用于将所述网页图像在目标图像库中进行图像相似度检索，得到所述网页图像的相似度分值，所述目标图像库中包括已确认的有害域名对应的网页图像；

第二确定单元，用于将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名；

聚类单元，用于将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析，获得至少一个域名组，所述域名组中包括至少一个疑似有害域名，且所述域名组中的各个疑似有害域名对应的网页图像具有相似特征；

识别单元，用于对所述域名组中的疑似有害域名进行识别，以确定所述域名组中的各个疑似有害域名是否为有害域名。

一种存储介质，所述存储介质存储有计算机程序代码，所述计算机程序代码执行时实现上述中任意一项所述的有害域名核验方法。

相较于现有技术，本发明提供了一种有害域名核验方法及装置，包括：确定疑似有害域名；获取每一疑似有害域名对应的网页图像；将网页图像在目标图像库中进行图像相似度检索，得到网页图像的相似度分值；将相似度分值大于分值阈值的疑似有害域名确定为有害域名；将相似度分值不大于分值阈值的疑似有害域名进行聚类分析，获得至少一个域名组；对域名组中的域名进行识别，以确定域名组中的各个域名是否为有害域名。本发明基于目标图像库的相似度检索和未与目标图像库匹配上的疑似有害域名的聚类分析，实现了自动对域名的识别处理，降低了有害域名核验的人工成本，提升了核验效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种有害域名核验方法的流程示意图；

图2为本发明实施例提供的一种有害域名核验的应用场景示意图；

图3为本发明实施例提供的一种有害域名核验装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种有害域名核验方法，其中，有害域名是指非正常域名，例如能够呈现非法内容的域名，或者影响未成年人健康成长的域名。具体的可以是能够提供网络赌博、淫秽色情、消极教唆信息的域名。通过本发明实施例提供的方法可以快速有效地在大量域名中识别出有害域名，并且可以对有害域名进行相关的后处理。

参见图1，为本发明实施例提供的一种有害域名核验方法的流程示意图，该方法可以包括以下步骤：

S101、确定疑似有害域名。

疑似有害域名可以是需要进行待识别的有害域名，在本发明实施例中为了降低有害域名核验的工作量，疑似有害域名无法根据初步筛选规则确定是否为有害域名的域名。

在本发明实施例的一种实施方式中，确定疑似有害域名的过程包括：

其中，初始筛查是一个确定域名是否有害的快速筛查过程，可以基于快速筛选规则来进行筛查。

举例说明，初始域名列表包括通用顶级域域名列表和国家域名列表是指获取包括.COM、.NET等通用顶级域(gTLD)域名列表，以及获取.CN等国家域名列表。

对应的，快速筛选规则包括但不局限于：

(1)域名是否拥有相关的A或AAAA记录，其中，A记录对应IPv4地址，AAAA记录对应IPv6地址。

(2)域名网站80端口是否可正常访问。

(3)按照网站IP归属地优先筛选IP归属目标国家或具体某地区的域名；

(4)网站是否为中文或者英文网站。

(5)按照域名知识图谱即域名与已知有害网站域名的关联关系，例如，是否共用DNS解析服务器、共用网站IP、网页链接关系、相同注册人等。

(6)优先筛选每日新增域名或注册时间较短的域名。

遍历筛选出的域名，采用分布式数据采集系统获取每个域名(其中，优先以域名作为爬取目标地址，若无法访问则在域名之前加www)网页内容进行清洗，将包括有关网络赌博、淫秽色情关键词的网页域名定义为疑似有害域名。

S102、获取每一疑似有害域名对应的网页图像。

其中，通过模拟浏览器访问疑似有害域名，获得对应的网页图像只是本发明实施例中的一种实施方式，也可以采用真实浏览器，但是疑似有害域名通常可能会存在一些病毒信息，易对真实浏览器进行攻击，所以优选采用模拟浏览器对疑似域名进行访问，从而跳转到其对应的网页，此时通过屏幕截取技术或者其他方式来获得当前网页对应的网页图像。

S103、将所述网页图像在目标图像库中进行图像相似度检索，得到所述网页图像的相似度分值。

其中，目标图像库中存储有多个图像，每一图像为已确认的有害域名对应的网页图像，进一步地，目标图像库中的每一图像还可以包括其对应的属性信息，如该图像属于的有害类别，对应的有害分值等，均可以作为进行相似度检索匹配的计算依据信息。其中，得到的疑似有害域名对应的网页图像与目标图像库中的图像的相似度分值，为网页图像与目标图像库中的图像的重合度分值。可以将目标图像库中与检索的网页图像最相思的图像的域名有害分值作为该意思域名的有害相似度分值。

S104、将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名。

S105、将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析，获得至少一个域名组。

S106、对所述域名组中的疑似有害域名进行识别，以确定所述域名组中的各个疑似有害域名是否为有害域名。

在本发明实施例可以设置一个相似度对应的分值阈值，通过与目标图像库的相似度检索得到的相似度分值以及与该分值阈值进行比较，来确定疑似有害域名是否为有害域名。若分值阈值为95分，则相似度分值大于95分的疑似有害域名会自动确认为有害域名。

若相似度分值不大于95分，需要进一步确认对应的疑似有害域名是否为有害域名。为了能够降低核验的工作量，在本发明实施例中将相似度分值不大于分值阈值的疑似有害域名进行聚类分析，在进行聚类分析时也是基于该疑似有害域名对应的网页图像进行聚类分析，得到的域名组中的各个疑似有害域名对应的网页图像具有相似特征，即实现了将高相似网页图像自动归类的目的。

这样在通过聚类分析得到域名组后，可以对域名组中某一疑似有害域名对应的特征进行识别，基于该识别结果，批量确定该域名组中的各个疑似有害域名是否为有害域名。

例如，通过人工审核的方式对域名组中的某一疑似有害域名对应的网页图像进行查看，若确定该图像为涉赌图像，则将该域名组中的各个疑似有害域名均确定为涉赌域名。

又例如，可以基于域名组中各个域名的参考分值自动识别，得到一个参考识别信息，若该参考识别信息满足预设条件，则自动确定该域名组属于哪类有害域名，或者是否为有害域名，若不满足预设条件，可以进一步由审核人员基于参考识别信息进行判定该组域名是否为有害域名。

通过聚类分析实现批量识别的目的，解决了逐条进行识别的工作量大和工作效率低的问题。

本发明实施例提供了一种有害域名核验方法及装置，包括：确定疑似有害域名；获取每一疑似有害域名对应的网页图像；将网页图像在目标图像库中进行图像相似度检索，得到网页图像的相似度分值；将相似度分值大于分值阈值的疑似有害域名确定为有害域名；将相似度分值不大于分值阈值的疑似有害域名进行聚类分析，获得至少一个域名组；对域名组中的域名进行识别，以确定域名组中的各个域名是否为有害域名。本发明基于目标图像库的相似度检索和未与目标图像库匹配上的疑似有害域名的聚类分析，实现了自动对域名的识别处理，降低了有害域名核验的人工成本，提升了核验效率。

在本发明实施例中还提供了一种创建目标图像库的方法，该方法包括：

获取已确认的有害域名；

对所述网页图像进行存储，获得目标图像库。

将历史已确认的有害域名，利用Selenium+webdriver技术进行网页内容采集与截屏取证，以获得对应的网页图像，将这些网页图像进行存储，获得目标图像库。需要说明的是，在本发明实施例中的网页图像是对网页内容进行截取获得的，在该网页图像中会包括截取得到的图片内容也会包括对应的网站文字内容。

在另一实施方式中，也可以分别建立文本库和图片库，文本库中保存已确认的有害域名对应的网页文本内容，图像库中保存截取的网页图像。具体的，采用Selenium+webdriver对每个已确认的有害域名进行内容采集与截屏取证。将域名的打开页面自动截图保存在图片库中；对网站文本内容进行清洗和预处理，剔除HTML、JavaScript脚本、特殊字符、乱码和停用词等内容,对汉字进行繁简转换以及分词处理，将清洗后的文本内容存入文本库中。

进一步地，还可以获取已确认的有害域名的IP解析归属地、ICP备案信息、域名DNS解析信息、域名注册人等信息并保存，以供后续数据关联分析。

需要说明的是，在获取疑似有害域名的网页图像的过程与获取已确认的有害域名的网页图像的过程是相似的，可以参考上述获取已确认的有害域名的网页图像的过程，对应的，在获取疑似有害域名的相关信息时除了截取获得网页图像之外，还可以进一步获得文本内容、关联数据等。

由于通过与目标图像库中的已确认为有害域名对应的图像进行相似度检索后，若相似度极高，可以直接将对应的疑似有害域名确认为有害域名。其他的疑似有害域名需要进一步进行聚类分析，来确定是否为有害域名。因此，在进行聚类分析分组后，可以基于参考分值来确定该组域名是否为有害域名。

具体的，本发明实施例中还包括：

对疑似有害域名的网页图像中包括的网页内容进行是否涉及有害应用的智能识别，对网页内容有害程度进行量化，分别给出对应有害类型的参考分值，如有害类型包括涉赌、涉黄、涉毒、危害安全等类型。

具体的，所述对每一所述疑似有害域名的网页图像进行内容和图像识别，确定每一所述疑似有害域名对应的参考分值，包括：

举例说明，以有害类型包括涉黄和涉赌为例。

计算文本内容有害分数。在实时文本检测识别场景中，对过滤出的关键词去重后个数大于等于7个的，取关键词去重权值的平均值作为文档有害度得分；对个数小于7的，取关键词去重后权值平均值*关键词去重后个数/7作为文档文本有害度得分，即将该得分确定为文字内容的有害分值。

计算网页图像中涉黄类型下的有害分值(例如，分值范围可以是0-100)：

首先，提取网页所有图片链接；

然后，依次对每张图片进行涉黄识别。具体的，对图片进行预处理，主要包括：图片颜色空间的变换、图片灰度变换和大小调整、图片增强和去燥。预处理过的图像经由Inception3与ResNet50双模型进行检测，将两个模型的综合打分作为图片的涉黄度得分。例如，网页中包含5张图片，有5个涉黄度得分，选三个最高的取平均值作为该域名网页的涉黄度得分。

计算网页图像对应的网页内容涉赌类型下的有害分值(例如，分值范围可以是0-100)：

首先收集大量网页图像数据以构造训练算法所需的数据集，采用正负样本的网页截图，即涉赌的网页截图和正常网页截图,利用卷积神经网络进行训练。算法训练过程中使用在线数据增强技术进一步提升了数据的多样性和数据量，提高模型的泛化能力，主要有随机图像颜色变换、随机翻转、随机抠图等技术。然后，利用训练好的涉赌识别模型计算域名涉赌度分数。

在本发明实施例中可以通过预先训练图像识别模型对网页图像进行识别，不同有害域名类型可以有与之对应的模型，这些图像识别模型均是通过历史收集的图像训练样本经过机器学习训练得到的，本发明并不限制图像识别模型的生成方式。

由于疑似有害域名均有与之对应的有害类型匹配的参考分值，可以通过该参考分值进行后续的有害域名的识别，如人工核验时可以基于对应的参考分值来确定疑似有害域名是否为有害域名。其中，有害类型是基于对疑似有害域名对应的网站内容进行分析确定的，如可以包括涉黄、涉赌、涉毒、诈骗等，在没有与目标图像库匹配成功或者相似度分值较低的情况下，可以进一步进行聚类分析，对得到的域名组进行判定。

在本发明的一种实施方式中，所述对所述域名组中的域名进行识别，以确定所述域名组中的各个域名是否为有害域名，包括：

若所述域名组中每一域名对应的第一有害类型对应的第一分值均高于第一类型的分数阈值，且所述每一域名的第一分值均大于第二分值；

确定所述域名组中的每一域名属于第一有害类型对应的有害域名。

在该实施方式中，由于每一域名组中各个疑似有害域名对应的网页内容是具有相似性的，即其具有相同或相似的特征，如可以将均包括大量枪支图片对应的疑似有害域名归为一个域名组，将均包括“轻松理财”“快速致富”等具有涉嫌金额诈骗的疑似有害域名归为一个域名组。这样后续无论是通过人工核验还是自动识别，可以识别域名组中的某个域名就可以为这一组域名确定对应的分类以及是否为有害域名。假设某个域名组中的每一疑似域名经过网页图像分析初步确定可能涉及两个有害类型，即第一有害类型和第二有害类型，而对应每一类型会有一个参考分值，分别为第一分值和第二分值。例如，通过对疑似有害域名对应的网页图像进行识别后得到该疑似有害域名可能对应涉黄或者涉赌类型，具体的涉黄的参考分值为92，涉赌的参考分值为53。对每一个域名组中的各个疑似域名对应的参考分值进行分析，若每一疑似域名对应的第一有害类型类型的第一分值均高于第一类型的分数阈值，如第一类型的分数阈值为70，则第一分值均大于70；并且第一分值均大于第二分值，则证明该组疑似域名属于第一有害类型的几率更大，由于第一分值大于第一类型的分数阈值，可以直接将其该组疑似域名均判断为属于第一有害类型对应的有害域名，如第一有害类型为涉赌类型，则该组疑似有害域名均确定为涉赌域名。进一步地，基于实际情况，可以由人工对该组的某个疑似有害域名进行核对，即工作人员可以根据参考分值确定这一组是否为有害域名。

在另一实施方式中，所述对所述域名组中的域名进行识别，以确定所述域名组中的各个域名是否为有害域名，包括：

确定所述目标域名信息对应的识别结果；

在该实施方式中从域名组中对应的各个疑似有害域名中确定一个具有代表性的疑似有害域名的信息，将该信息展现给进行核验的工作人员，工作人员通过该信息确定这个疑似有害域名是否为有害域名，如果是，则将该组对应的疑似有害域名均确定为有害域名。

具体的，目标域名信息可以是参考分值处于中间区域的任一有害疑似域名的网页图像，也可以是参考分值处于较低分值范围的疑似有害域名的网页图像，也可以是随机选取的一个疑似有害域名的网页图像或者对应的文本信息。需要说明的是，本发明实施例中之所以可以使得工作人员通过核验一组域名中的一个或者较少的部分疑似有害域名的属性，来确定这一组疑似有害域名是否为有害域名，是因为在本发明中对未确定的疑似有害域名进行聚类分析，使得每一组的疑似有害域名均是彼此相似度较高的域名。从而通过分析一个或者部分达到确定整组的目的，实现了批量处理，大大降低了人工核验的工作量。

在本发明实施例的一种实施方式中，通过上述的各个方式在疑似有害域名中确认得到了有害域名后，会将这部分有害域名对应的网页图像，添加至目标图像库，以更新目标图像库。

进一步地，还可以对识别到的有害域名进行后处理，以保证网络的安全性。具体的，若所述待识别域名为有害域名，将所述待识别域名添加至相匹配的有害域名列表；对所述待识别域名执行与所述有害域名列表对应的域名处理模式，使得无法对所述待识别域名进行访问。

当待识别域名为有害域名，将该待识别域名的域名信息添加至有害域名列表中，使得有害域名列表可以实时更新，在进行域名有害性的初筛时可以更加准确。进一步地可以按照域名所涉及的内容对有害域名列表进行分类，也可以是按照有害等级进行分类，如可以分为网络赌博类域名、淫秽色情类域名等。不同的有害域名列表配置有不同的处理模式，如属于某一有害域名列表对应的类型时，而该有害域名列表对应的处理模式为将域名添加至黑名单，则会对识别为有害域名的域名直接添加至黑名单禁止访问，又例如处理模式可以是域名查封或者访问内容受限等，可以基于实际应用需求设置对应的域名处理模式，使得识别到有害域名后无法进行访问。

在本发明实施例中为降低人工审核工作量，支持对高相似网页图像自动归类，实现一个确认即全类确认。采用直方图、特征网格、灰度等相似性比较，对待人工审核处置的域名网页截图进行聚类分析，将高相似网页图像自动归为一类。同时提供人工筛选机制，将错误归类的个别域名剔除，单独设为一类。

在本发明实施例中，对于确认的有害网页截图存入目标图像库，以构建了图像相似性搜索库，供后续图像检索使用。随着图像库规模的增加，图像相似度搜索结果将更加精准，将大大提升系统有害判定准确率和系统自动化率。后续随着系统不断磨合和图像识别算法的不断改进，将选定一有害度阈值，当有害分数超过该阈值时，系统将代替人工自动实现有害确认，进一步降低人工审核量。

具体的，系统按有害域名人工审核时间间隔，将指定时间段内获取的且未在已确认有害域名网页截图库中搜索到相似图像的网页截图进行聚类分析，将高相似网页图像自动归类。有害域名审核人员将参照涉黄分数、涉赌分数、有害相似度分数等信息，对网页图像聚类结果进行确认，实现一个有害域名确认即全类确认(例如，一键批量确认)，有效提升审核工作效率。

本发明实施例中采用网页截图图像相似性聚类算法，将相似网页归类，提升有害域名人工审核认定工作效率，避免针对大量高度相似有害域名网站一一认定审核的重复劳动，及时对有害域名进行相应处置。对于人工确认的有害网页截图，存入图像库，构建有害域名网页图像库，供后续图像检索使用。新采集的网页截图作为检索项，自动在有害域名网页图像库中进行相似性搜索，搜索命中的高相似网页截图的有害分数，作为该域名的有害分数，进一步供人工确认。随着图像库规模的增加，图像相似度搜索结果将更加精准，将大大提升系统有害判定准确率和系统自动化率。后续随着系统不断磨合和图像识别算法的不断改进，选定一有害度阈值(支持不同顶级域名，设置不同的阈值)，当有害分数超过该阈值时，系统有望代替人工自动实现有害确认，进一步降低人工审核量。

参见图2，为本发明实施例提供一种有害域名核验的应用场景示意图，在图2所示场景中，互联网基础资源大数据平台中记录了已经确认的有害域名，以及域名相关信息，其中，域名相关信息包括了注册数据、DNS数据(如DNS解析服务器)、网站IP归属地，还可以包括域名黑名单、域名白名单等信息。对应的，该互联网基础资源大数据平台可以连接有有害域名处置系统，该有害域名处置系统用于对有害域名进行进一步的处理，如将有害域名添加至黑名单，或者进行查封等。互联网基础资源大数据平台还可以连接至相关应用，如有害数据分析、数据统计、疑似有害域名应用识别等，这些应用可以对有害域名的相关信息进行统计分析或者对域名进行进一步识别。

当通过疑似有害域名应用识别到疑似有害域名之后，会将疑似有害域名添加至待取证疑似有害域名列表中，然后通过用户导入该列表进行后续识别。首先通过数据采集对疑似有害域名对应的网站内容或者网页图片进行识别，主要包括网页文本识别、网页图片识别、网页截图识别，然后基于识别结果通过以取证有害域名列表进行有害网页截图相似性搜索，基于相似度结果来确定疑似有害域名是否为有害域名。其中，在本发明实施例中网页文本、网页图片、网页截图等信息进行识别可以基于神经网络模型实现，对应的神经网络模型为通过相应算法训练的。在获得自动识别结果后还可以进行人工确认，将确定的有害域名存储到对应的有害域名列表中。

需要说明的是，具体的实现过程请参见前述实施例，此处不进行详述。

基于前述实施例，本发明实施例还提供了一种有害域名核验装置，参见图3，包括：

第一确定单元10，用于确定疑似有害域名；

第一获取单元20，用于获取每一所述疑似有害域名对应的网页图像；

检索单元30，用于将所述网页图像在目标图像库中进行图像相似度检索，得到所述网页图像的相似度分值，所述目标图像库中包括已确认的有害域名对应的网页图像；

第二确定单元40，用于将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名；

聚类单元50，用于将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析，获得至少一个域名组，所述域名组中包括至少一个疑似有害域名，且所述域名组中的各个疑似有害域名对应的网页图像具有相似特征；

识别单元60，用于对所述域名组中的疑似有害域名进行识别，以确定所述域名组中的各个疑似有害域名是否为有害域名。

进一步，所述第一确定单元具体用于：

可选地，所述装置还包括：

创建单元，用于创建目标图像库，所述创建单元具体用于：

获取已确认的有害域名；

对所述网页图像进行存储，获得目标图像库。

进一步，所述装置还包括：

第三确定单元，用于对每一所述疑似有害域名的网页图像进行内容和图像识别，确定每一所述疑似有害域名对应的参考分值，所述参考分值为对应有害类型匹配的参考分值。

可选地，所述识别单元包括：

第一获取子单元，用于获取所述域名组中每一域名对应的参考分值，所述参考分值包括第一有害类型对应的第一分值和第二有害类型对应的第二分值；

第一确定子单元，用于若所述域名组中每一域名对应的第一有害类型对应的第一分值均高于第一类型的分数阈值，且所述每一域名的第一分值均大于第二分值，确定所述域名组中的每一域名属于第一有害类型对应的有害域名。

可选地，所述识别单元包括：

第二获取子单元，用于获取所述域名组中的目标域名信息，所述目标域名信息为所述域名组中的符合目标条件的域名的信息；

第二确定子单元，用于确定所述目标域名信息对应的识别结果；

第三确定子单元，用于基于所述识别结果确定所述域名组中的各个域名是否为有害域名。

可选地，所述装置还包括：

图库更新单元，用于将在所述疑似有害域名中确定的有害域名对应的网页图像，添加至所述目标图像库，以更新所述目标图像库。

可选地，所述第三确定单元具体用于：

本发明实施例提供了一种有害域名核验装置，包括：确定疑似有害域名；获取每一疑似有害域名对应的网页图像；将网页图像在目标图像库中进行图像相似度检索，得到网页图像的相似度分值；将相似度分值大于分值阈值的疑似有害域名确定为有害域名；将相似度分值不大于分值阈值的疑似有害域名进行聚类分析，获得至少一个域名组；对域名组中的域名进行识别，以确定域名组中的各个域名是否为有害域名。本发明基于目标图像库的相似度检索和未与目标图像库匹配上的疑似有害域名的聚类分析，实现了自动对域名的识别处理，降低了有害域名核验的人工成本，提升了核验效率。

基于前述实施例，本发明的实施例还提供一种存储介质，所述存储介质存储有计算机程序代码，所述计算机程序代码执行时实现上述中任意一项所述的有害域名核验方法。

对应的，本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现的有害域名核验方法的步骤。

具体的有害域名核验方法的相关步骤在前述实施例中已经进行了详细说明，请参见前述各个实施例，此处不进行详述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种有害域名核验方法，其特征在于，包括：

确定疑似有害域名；

获取每一所述疑似有害域名对应的网页图像；

2.根据权利要求1所述的方法，其特征在于，所述确定疑似有害域名，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

创建目标图像库，包括：

获取已确认的有害域名；

对所述网页图像进行存储，获得目标图像库。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述域名组中的域名进行识别，以确定所述域名组中的各个域名是否为有害域名，包括：

6.根据权利要求4所述的方法，其特征在于，所述对所述域名组中的域名进行识别，以确定所述域名组中的各个域名是否为有害域名，包括：

确定所述目标域名信息对应的识别结果；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求4所述的方法，其特征在于，所述对每一所述疑似有害域名的网页图像进行内容和图像识别，确定每一所述疑似有害域名对应的参考分值，包括：

9.一种有害域名核验装置，其特征在于，包括：

第一确定单元，用于确定疑似有害域名；

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序代码，所述计算机程序代码执行时实现如权利要求1-8中任意一项所述的有害域名核验方法。