CN113688905A - 一种有害域名核验方法及装置 - Google Patents

一种有害域名核验方法及装置 Download PDF

Info

Publication number
CN113688905A
CN113688905A CN202110981798.2A CN202110981798A CN113688905A CN 113688905 A CN113688905 A CN 113688905A CN 202110981798 A CN202110981798 A CN 202110981798A CN 113688905 A CN113688905 A CN 113688905A
Authority
CN
China
Prior art keywords
domain name
harmful
domain
suspected
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110981798.2A
Other languages
English (en)
Inventor
尚秋明
张立坤
王利军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
China Internet Network Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Internet Network Information Center filed Critical China Internet Network Information Center
Priority to CN202110981798.2A priority Critical patent/CN113688905A/zh
Publication of CN113688905A publication Critical patent/CN113688905A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种有害域名核验方法及装置,包括:确定疑似有害域名;获取每一疑似有害域名对应的网页图像;将网页图像在目标图像库中进行图像相似度检索,得到网页图像的相似度分值;将相似度分值大于分值阈值的疑似有害域名确定为有害域名;将相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组;对域名组中的域名进行识别,以确定域名组中的各个域名是否为有害域名。本发明基于目标图像库的相似度检索和未与目标图像库匹配上的疑似有害域名的聚类分析,实现了自动对域名的识别处理,降低了有害域名核验的人工成本,提升了核验效率。

Description

一种有害域名核验方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种有害域名核验方法及装置。
背景技术
随着互联网的快速发展,网络赌博、淫秽色情等有害信息的传播越来越泛滥,对网络用户的生活以及学习会产生十分有害的影响。域名作为网络信息的主要访问入口,通过相关技术手段对网络有害信息进行检测,进而对相关域名进行过滤封堵是有害信息治理的重要实现保障。伴随着5G时代的到来,大带宽的移动互联网进一步加快了信息的传播,网络信息的规模也在快速增长,对有害域名的实时检测和处理需求也在不断提高。
现有有害域名的检测识别,多是基于域名相关信息,包括注册信息、DNS(DomainName System,域名系统)解析服务器、网站IP(Internet Protocol,国际互连协议)归属地等,结合有害域名黑白名单,利用机器学习预测模型,实现对域名有害程度进行判定。这种方式的前提是有害域名之间存在若干相关性。由于域名的注册成本较低且可选注册的顶级域名类型众多,借助大量的域名托管服务商和云服务商,域名注册者可通过打破有害域名之间的关联关系,实现逃避此类检测模式的目的。同时该方式的域名有害判定结果仍需大量的人工检验工作,以便开展相关处理工作。此外,还有根据网页DOM(Document ObjectModel,文档对象模型)相关结构进行相似性判定,同时存在判断结果不准确,处理前需要人工一一核验的工作投入问题。
可见,现有的有害域名检测识别均需要进行大量的人工核验,使得人工成本高,并且有害域名核验效率低。
发明内容
针对于上述问题,本发明提供一种有害域名核验方法及装置,降低了有害域名核验的人工成本,提升了核验效率。
为了实现上述目的,本发明提供了如下技术方案:
一种有害域名核验方法,包括:
确定疑似有害域名;
获取每一所述疑似有害域名对应的网页图像;
将所述网页图像在目标图像库中进行图像相似度检索,得到所述网页图像的相似度分值,所述目标图像库中包括已确认的有害域名对应的网页图像;
将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名;
将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组,所述域名组中包括至少一个疑似有害域名,且所述域名组中的各个疑似有害域名对应的网页图像具有相似特征;
对所述域名组中的疑似有害域名进行识别,以确定所述域名组中的各个疑似有害域名是否为有害域名。
可选地,所述确定疑似有害域名,包括:
获取初始域名列表,所述初始域名列表包括通用顶级域域名列表和国家域名列表;
对所述初始域名列表中的域名进行初始筛查,获得疑似有害域名。
可选地,所述方法还包括:
创建目标图像库,包括:
获取已确认的有害域名;
利用模拟浏览器获得所述已确认的有害域名对应的网页图像;
对所述网页图像进行存储,获得目标图像库。
可选地,所述方法还包括:
对每一所述疑似有害域名的网页图像进行内容和图像识别,确定每一所述疑似有害域名对应的参考分值,所述参考分值为对应有害类型匹配的参考分值。
可选地,所述对所述域名组中的域名进行识别,以确定所述域名组中的各个域名是否为有害域名,包括:
获取所述域名组中每一域名对应的参考分值,所述参考分值包括第一有害类型对应的第一分值和第二有害类型对应的第二分值;
若所述域名组中每一域名对应的第一有害类型对应的第一分值均高于第一类型的分数阈值,且所述每一域名的第一分值均大于第二分值,确定所述域名组中的每一域名属于第一有害类型对应的有害域名。
可选地,所述对所述域名组中的域名进行识别,以确定所述域名组中的各个域名是否为有害域名,包括:
获取所述域名组中的目标域名信息,所述目标域名信息为所述域名组中的符合目标条件的域名的信息;
确定所述目标域名信息对应的识别结果;
基于所述识别结果确定所述域名组中的各个域名是否为有害域名。
可选地,所述方法还包括:
将在所述疑似有害域名中确定的有害域名对应的网页图像,添加至所述目标图像库,以更新所述目标图像库。
可选地,所述对每一所述疑似有害域名的网页图像进行内容和图像识别,确定每一所述疑似有害域名对应的参考分值,包括:
对每一所述疑似有害域名的网页图像中的文字内容进行识别,获得目标关键词;
基于所述目标关键词对应的权值进行计算,获得所述文字内容的有害分值;
利用图像识别模型对所述网页图像进行识别,得到与所述图像识别模型对应的分类类型相匹配的有害分值。
一种有害域名核验装置,包括:
第一确定单元,用于确定疑似有害域名;
第一获取单元,用于获取每一所述疑似有害域名对应的网页图像;
检索单元,用于将所述网页图像在目标图像库中进行图像相似度检索,得到所述网页图像的相似度分值,所述目标图像库中包括已确认的有害域名对应的网页图像;
第二确定单元,用于将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名;
聚类单元,用于将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组,所述域名组中包括至少一个疑似有害域名,且所述域名组中的各个疑似有害域名对应的网页图像具有相似特征;
识别单元,用于对所述域名组中的疑似有害域名进行识别,以确定所述域名组中的各个疑似有害域名是否为有害域名。
一种存储介质,所述存储介质存储有计算机程序代码,所述计算机程序代码执行时实现上述中任意一项所述的有害域名核验方法。
相较于现有技术,本发明提供了一种有害域名核验方法及装置,包括:确定疑似有害域名;获取每一疑似有害域名对应的网页图像;将网页图像在目标图像库中进行图像相似度检索,得到网页图像的相似度分值;将相似度分值大于分值阈值的疑似有害域名确定为有害域名;将相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组;对域名组中的域名进行识别,以确定域名组中的各个域名是否为有害域名。本发明基于目标图像库的相似度检索和未与目标图像库匹配上的疑似有害域名的聚类分析,实现了自动对域名的识别处理,降低了有害域名核验的人工成本,提升了核验效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种有害域名核验方法的流程示意图;
图2为本发明实施例提供的一种有害域名核验的应用场景示意图;
图3为本发明实施例提供的一种有害域名核验装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种有害域名核验方法,其中,有害域名是指非正常域名,例如能够呈现非法内容的域名,或者影响未成年人健康成长的域名。具体的可以是能够提供网络赌博、淫秽色情、消极教唆信息的域名。通过本发明实施例提供的方法可以快速有效地在大量域名中识别出有害域名,并且可以对有害域名进行相关的后处理。
参见图1,为本发明实施例提供的一种有害域名核验方法的流程示意图,该方法可以包括以下步骤:
S101、确定疑似有害域名。
疑似有害域名可以是需要进行待识别的有害域名,在本发明实施例中为了降低有害域名核验的工作量,疑似有害域名无法根据初步筛选规则确定是否为有害域名的域名。
在本发明实施例的一种实施方式中,确定疑似有害域名的过程包括:
获取初始域名列表,所述初始域名列表包括通用顶级域域名列表和国家域名列表;
对所述初始域名列表中的域名进行初始筛查,获得疑似有害域名。
其中,初始筛查是一个确定域名是否有害的快速筛查过程,可以基于快速筛选规则来进行筛查。
举例说明,初始域名列表包括通用顶级域域名列表和国家域名列表是指获取包括.COM、.NET等通用顶级域(gTLD)域名列表,以及获取.CN等国家域名列表。
对应的,快速筛选规则包括但不局限于:
(1)域名是否拥有相关的A或AAAA记录,其中,A记录对应IPv4地址,AAAA记录对应IPv6地址。
(2)域名网站80端口是否可正常访问。
(3)按照网站IP归属地优先筛选IP归属目标国家或具体某地区的域名;
(4)网站是否为中文或者英文网站。
(5)按照域名知识图谱即域名与已知有害网站域名的关联关系,例如,是否共用DNS解析服务器、共用网站IP、网页链接关系、相同注册人等。
(6)优先筛选每日新增域名或注册时间较短的域名。
遍历筛选出的域名,采用分布式数据采集系统获取每个域名(其中,优先以域名作为爬取目标地址,若无法访问则在域名之前加www)网页内容进行清洗,将包括有关网络赌博、淫秽色情关键词的网页域名定义为疑似有害域名。
S102、获取每一疑似有害域名对应的网页图像。
其中,通过模拟浏览器访问疑似有害域名,获得对应的网页图像只是本发明实施例中的一种实施方式,也可以采用真实浏览器,但是疑似有害域名通常可能会存在一些病毒信息,易对真实浏览器进行攻击,所以优选采用模拟浏览器对疑似域名进行访问,从而跳转到其对应的网页,此时通过屏幕截取技术或者其他方式来获得当前网页对应的网页图像。
S103、将所述网页图像在目标图像库中进行图像相似度检索,得到所述网页图像的相似度分值。
其中,目标图像库中存储有多个图像,每一图像为已确认的有害域名对应的网页图像,进一步地,目标图像库中的每一图像还可以包括其对应的属性信息,如该图像属于的有害类别,对应的有害分值等,均可以作为进行相似度检索匹配的计算依据信息。其中,得到的疑似有害域名对应的网页图像与目标图像库中的图像的相似度分值,为网页图像与目标图像库中的图像的重合度分值。可以将目标图像库中与检索的网页图像最相思的图像的域名有害分值作为该意思域名的有害相似度分值。
S104、将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名。
S105、将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组。
S106、对所述域名组中的疑似有害域名进行识别,以确定所述域名组中的各个疑似有害域名是否为有害域名。
在本发明实施例可以设置一个相似度对应的分值阈值,通过与目标图像库的相似度检索得到的相似度分值以及与该分值阈值进行比较,来确定疑似有害域名是否为有害域名。若分值阈值为95分,则相似度分值大于95分的疑似有害域名会自动确认为有害域名。
若相似度分值不大于95分,需要进一步确认对应的疑似有害域名是否为有害域名。为了能够降低核验的工作量,在本发明实施例中将相似度分值不大于分值阈值的疑似有害域名进行聚类分析,在进行聚类分析时也是基于该疑似有害域名对应的网页图像进行聚类分析,得到的域名组中的各个疑似有害域名对应的网页图像具有相似特征,即实现了将高相似网页图像自动归类的目的。
这样在通过聚类分析得到域名组后,可以对域名组中某一疑似有害域名对应的特征进行识别,基于该识别结果,批量确定该域名组中的各个疑似有害域名是否为有害域名。
例如,通过人工审核的方式对域名组中的某一疑似有害域名对应的网页图像进行查看,若确定该图像为涉赌图像,则将该域名组中的各个疑似有害域名均确定为涉赌域名。
又例如,可以基于域名组中各个域名的参考分值自动识别,得到一个参考识别信息,若该参考识别信息满足预设条件,则自动确定该域名组属于哪类有害域名,或者是否为有害域名,若不满足预设条件,可以进一步由审核人员基于参考识别信息进行判定该组域名是否为有害域名。
通过聚类分析实现批量识别的目的,解决了逐条进行识别的工作量大和工作效率低的问题。
本发明实施例提供了一种有害域名核验方法及装置,包括:确定疑似有害域名;获取每一疑似有害域名对应的网页图像;将网页图像在目标图像库中进行图像相似度检索,得到网页图像的相似度分值;将相似度分值大于分值阈值的疑似有害域名确定为有害域名;将相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组;对域名组中的域名进行识别,以确定域名组中的各个域名是否为有害域名。本发明基于目标图像库的相似度检索和未与目标图像库匹配上的疑似有害域名的聚类分析,实现了自动对域名的识别处理,降低了有害域名核验的人工成本,提升了核验效率。
在本发明实施例中还提供了一种创建目标图像库的方法,该方法包括:
获取已确认的有害域名;
利用模拟浏览器获得所述已确认的有害域名对应的网页图像;
对所述网页图像进行存储,获得目标图像库。
将历史已确认的有害域名,利用Selenium+webdriver技术进行网页内容采集与截屏取证,以获得对应的网页图像,将这些网页图像进行存储,获得目标图像库。需要说明的是,在本发明实施例中的网页图像是对网页内容进行截取获得的,在该网页图像中会包括截取得到的图片内容也会包括对应的网站文字内容。
在另一实施方式中,也可以分别建立文本库和图片库,文本库中保存已确认的有害域名对应的网页文本内容,图像库中保存截取的网页图像。具体的,采用Selenium+webdriver对每个已确认的有害域名进行内容采集与截屏取证。将域名的打开页面自动截图保存在图片库中;对网站文本内容进行清洗和预处理,剔除HTML、JavaScript脚本、特殊字符、乱码和停用词等内容,对汉字进行繁简转换以及分词处理,将清洗后的文本内容存入文本库中。
进一步地,还可以获取已确认的有害域名的IP解析归属地、ICP备案信息、域名DNS解析信息、域名注册人等信息并保存,以供后续数据关联分析。
需要说明的是,在获取疑似有害域名的网页图像的过程与获取已确认的有害域名的网页图像的过程是相似的,可以参考上述获取已确认的有害域名的网页图像的过程,对应的,在获取疑似有害域名的相关信息时除了截取获得网页图像之外,还可以进一步获得文本内容、关联数据等。
由于通过与目标图像库中的已确认为有害域名对应的图像进行相似度检索后,若相似度极高,可以直接将对应的疑似有害域名确认为有害域名。其他的疑似有害域名需要进一步进行聚类分析,来确定是否为有害域名。因此,在进行聚类分析分组后,可以基于参考分值来确定该组域名是否为有害域名。
具体的,本发明实施例中还包括:
对每一所述疑似有害域名的网页图像进行内容和图像识别,确定每一所述疑似有害域名对应的参考分值,所述参考分值为对应有害类型匹配的参考分值。
对疑似有害域名的网页图像中包括的网页内容进行是否涉及有害应用的智能识别,对网页内容有害程度进行量化,分别给出对应有害类型的参考分值,如有害类型包括涉赌、涉黄、涉毒、危害安全等类型。
具体的,所述对每一所述疑似有害域名的网页图像进行内容和图像识别,确定每一所述疑似有害域名对应的参考分值,包括:
对每一所述疑似有害域名的网页图像中的文字内容进行识别,获得目标关键词;
基于所述目标关键词对应的权值进行计算,获得所述文字内容的有害分值;
利用图像识别模型对所述网页图像进行识别,得到与所述图像识别模型对应的分类类型相匹配的有害分值。
举例说明,以有害类型包括涉黄和涉赌为例。
计算文本内容有害分数。在实时文本检测识别场景中,对过滤出的关键词去重后个数大于等于7个的,取关键词去重权值的平均值作为文档有害度得分;对个数小于7的,取关键词去重后权值平均值*关键词去重后个数/7作为文档文本有害度得分,即将该得分确定为文字内容的有害分值。
计算网页图像中涉黄类型下的有害分值(例如,分值范围可以是0-100):
首先,提取网页所有图片链接;
然后,依次对每张图片进行涉黄识别。具体的,对图片进行预处理,主要包括:图片颜色空间的变换、图片灰度变换和大小调整、图片增强和去燥。预处理过的图像经由Inception3与ResNet50双模型进行检测,将两个模型的综合打分作为图片的涉黄度得分。例如,网页中包含5张图片,有5个涉黄度得分,选三个最高的取平均值作为该域名网页的涉黄度得分。
计算网页图像对应的网页内容涉赌类型下的有害分值(例如,分值范围可以是0-100):
首先收集大量网页图像数据以构造训练算法所需的数据集,采用正负样本的网页截图,即涉赌的网页截图和正常网页截图,利用卷积神经网络进行训练。算法训练过程中使用在线数据增强技术进一步提升了数据的多样性和数据量,提高模型的泛化能力,主要有随机图像颜色变换、随机翻转、随机抠图等技术。然后,利用训练好的涉赌识别模型计算域名涉赌度分数。
在本发明实施例中可以通过预先训练图像识别模型对网页图像进行识别,不同有害域名类型可以有与之对应的模型,这些图像识别模型均是通过历史收集的图像训练样本经过机器学习训练得到的,本发明并不限制图像识别模型的生成方式。
由于疑似有害域名均有与之对应的有害类型匹配的参考分值,可以通过该参考分值进行后续的有害域名的识别,如人工核验时可以基于对应的参考分值来确定疑似有害域名是否为有害域名。其中,有害类型是基于对疑似有害域名对应的网站内容进行分析确定的,如可以包括涉黄、涉赌、涉毒、诈骗等,在没有与目标图像库匹配成功或者相似度分值较低的情况下,可以进一步进行聚类分析,对得到的域名组进行判定。
在本发明的一种实施方式中,所述对所述域名组中的域名进行识别,以确定所述域名组中的各个域名是否为有害域名,包括:
获取所述域名组中每一域名对应的参考分值,所述参考分值包括第一有害类型对应的第一分值和第二有害类型对应的第二分值;
若所述域名组中每一域名对应的第一有害类型对应的第一分值均高于第一类型的分数阈值,且所述每一域名的第一分值均大于第二分值;
确定所述域名组中的每一域名属于第一有害类型对应的有害域名。
在该实施方式中,由于每一域名组中各个疑似有害域名对应的网页内容是具有相似性的,即其具有相同或相似的特征,如可以将均包括大量枪支图片对应的疑似有害域名归为一个域名组,将均包括“轻松理财”“快速致富”等具有涉嫌金额诈骗的疑似有害域名归为一个域名组。这样后续无论是通过人工核验还是自动识别,可以识别域名组中的某个域名就可以为这一组域名确定对应的分类以及是否为有害域名。假设某个域名组中的每一疑似域名经过网页图像分析初步确定可能涉及两个有害类型,即第一有害类型和第二有害类型,而对应每一类型会有一个参考分值,分别为第一分值和第二分值。例如,通过对疑似有害域名对应的网页图像进行识别后得到该疑似有害域名可能对应涉黄或者涉赌类型,具体的涉黄的参考分值为92,涉赌的参考分值为53。对每一个域名组中的各个疑似域名对应的参考分值进行分析,若每一疑似域名对应的第一有害类型类型的第一分值均高于第一类型的分数阈值,如第一类型的分数阈值为70,则第一分值均大于70;并且第一分值均大于第二分值,则证明该组疑似域名属于第一有害类型的几率更大,由于第一分值大于第一类型的分数阈值,可以直接将其该组疑似域名均判断为属于第一有害类型对应的有害域名,如第一有害类型为涉赌类型,则该组疑似有害域名均确定为涉赌域名。进一步地,基于实际情况,可以由人工对该组的某个疑似有害域名进行核对,即工作人员可以根据参考分值确定这一组是否为有害域名。
在另一实施方式中,所述对所述域名组中的域名进行识别,以确定所述域名组中的各个域名是否为有害域名,包括:
获取所述域名组中的目标域名信息,所述目标域名信息为所述域名组中的符合目标条件的域名的信息;
确定所述目标域名信息对应的识别结果;
基于所述识别结果确定所述域名组中的各个域名是否为有害域名。
在该实施方式中从域名组中对应的各个疑似有害域名中确定一个具有代表性的疑似有害域名的信息,将该信息展现给进行核验的工作人员,工作人员通过该信息确定这个疑似有害域名是否为有害域名,如果是,则将该组对应的疑似有害域名均确定为有害域名。
具体的,目标域名信息可以是参考分值处于中间区域的任一有害疑似域名的网页图像,也可以是参考分值处于较低分值范围的疑似有害域名的网页图像,也可以是随机选取的一个疑似有害域名的网页图像或者对应的文本信息。需要说明的是,本发明实施例中之所以可以使得工作人员通过核验一组域名中的一个或者较少的部分疑似有害域名的属性,来确定这一组疑似有害域名是否为有害域名,是因为在本发明中对未确定的疑似有害域名进行聚类分析,使得每一组的疑似有害域名均是彼此相似度较高的域名。从而通过分析一个或者部分达到确定整组的目的,实现了批量处理,大大降低了人工核验的工作量。
在本发明实施例的一种实施方式中,通过上述的各个方式在疑似有害域名中确认得到了有害域名后,会将这部分有害域名对应的网页图像,添加至目标图像库,以更新目标图像库。
进一步地,还可以对识别到的有害域名进行后处理,以保证网络的安全性。具体的,若所述待识别域名为有害域名,将所述待识别域名添加至相匹配的有害域名列表;对所述待识别域名执行与所述有害域名列表对应的域名处理模式,使得无法对所述待识别域名进行访问。
当待识别域名为有害域名,将该待识别域名的域名信息添加至有害域名列表中,使得有害域名列表可以实时更新,在进行域名有害性的初筛时可以更加准确。进一步地可以按照域名所涉及的内容对有害域名列表进行分类,也可以是按照有害等级进行分类,如可以分为网络赌博类域名、淫秽色情类域名等。不同的有害域名列表配置有不同的处理模式,如属于某一有害域名列表对应的类型时,而该有害域名列表对应的处理模式为将域名添加至黑名单,则会对识别为有害域名的域名直接添加至黑名单禁止访问,又例如处理模式可以是域名查封或者访问内容受限等,可以基于实际应用需求设置对应的域名处理模式,使得识别到有害域名后无法进行访问。
在本发明实施例中为降低人工审核工作量,支持对高相似网页图像自动归类,实现一个确认即全类确认。采用直方图、特征网格、灰度等相似性比较,对待人工审核处置的域名网页截图进行聚类分析,将高相似网页图像自动归为一类。同时提供人工筛选机制,将错误归类的个别域名剔除,单独设为一类。
在本发明实施例中,对于确认的有害网页截图存入目标图像库,以构建了图像相似性搜索库,供后续图像检索使用。随着图像库规模的增加,图像相似度搜索结果将更加精准,将大大提升系统有害判定准确率和系统自动化率。后续随着系统不断磨合和图像识别算法的不断改进,将选定一有害度阈值,当有害分数超过该阈值时,系统将代替人工自动实现有害确认,进一步降低人工审核量。
具体的,系统按有害域名人工审核时间间隔,将指定时间段内获取的且未在已确认有害域名网页截图库中搜索到相似图像的网页截图进行聚类分析,将高相似网页图像自动归类。有害域名审核人员将参照涉黄分数、涉赌分数、有害相似度分数等信息,对网页图像聚类结果进行确认,实现一个有害域名确认即全类确认(例如,一键批量确认),有效提升审核工作效率。
本发明实施例中采用网页截图图像相似性聚类算法,将相似网页归类,提升有害域名人工审核认定工作效率,避免针对大量高度相似有害域名网站一一认定审核的重复劳动,及时对有害域名进行相应处置。对于人工确认的有害网页截图,存入图像库,构建有害域名网页图像库,供后续图像检索使用。新采集的网页截图作为检索项,自动在有害域名网页图像库中进行相似性搜索,搜索命中的高相似网页截图的有害分数,作为该域名的有害分数,进一步供人工确认。随着图像库规模的增加,图像相似度搜索结果将更加精准,将大大提升系统有害判定准确率和系统自动化率。后续随着系统不断磨合和图像识别算法的不断改进,选定一有害度阈值(支持不同顶级域名,设置不同的阈值),当有害分数超过该阈值时,系统有望代替人工自动实现有害确认,进一步降低人工审核量。
参见图2,为本发明实施例提供一种有害域名核验的应用场景示意图,在图2所示场景中,互联网基础资源大数据平台中记录了已经确认的有害域名,以及域名相关信息,其中,域名相关信息包括了注册数据、DNS数据(如DNS解析服务器)、网站IP归属地,还可以包括域名黑名单、域名白名单等信息。对应的,该互联网基础资源大数据平台可以连接有有害域名处置系统,该有害域名处置系统用于对有害域名进行进一步的处理,如将有害域名添加至黑名单,或者进行查封等。互联网基础资源大数据平台还可以连接至相关应用,如有害数据分析、数据统计、疑似有害域名应用识别等,这些应用可以对有害域名的相关信息进行统计分析或者对域名进行进一步识别。
当通过疑似有害域名应用识别到疑似有害域名之后,会将疑似有害域名添加至待取证疑似有害域名列表中,然后通过用户导入该列表进行后续识别。首先通过数据采集对疑似有害域名对应的网站内容或者网页图片进行识别,主要包括网页文本识别、网页图片识别、网页截图识别,然后基于识别结果通过以取证有害域名列表进行有害网页截图相似性搜索,基于相似度结果来确定疑似有害域名是否为有害域名。其中,在本发明实施例中网页文本、网页图片、网页截图等信息进行识别可以基于神经网络模型实现,对应的神经网络模型为通过相应算法训练的。在获得自动识别结果后还可以进行人工确认,将确定的有害域名存储到对应的有害域名列表中。
需要说明的是,具体的实现过程请参见前述实施例,此处不进行详述。
基于前述实施例,本发明实施例还提供了一种有害域名核验装置,参见图3,包括:
第一确定单元10,用于确定疑似有害域名;
第一获取单元20,用于获取每一所述疑似有害域名对应的网页图像;
检索单元30,用于将所述网页图像在目标图像库中进行图像相似度检索,得到所述网页图像的相似度分值,所述目标图像库中包括已确认的有害域名对应的网页图像;
第二确定单元40,用于将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名;
聚类单元50,用于将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组,所述域名组中包括至少一个疑似有害域名,且所述域名组中的各个疑似有害域名对应的网页图像具有相似特征;
识别单元60,用于对所述域名组中的疑似有害域名进行识别,以确定所述域名组中的各个疑似有害域名是否为有害域名。
进一步,所述第一确定单元具体用于:
获取初始域名列表,所述初始域名列表包括通用顶级域域名列表和国家域名列表;
对所述初始域名列表中的域名进行初始筛查,获得疑似有害域名。
可选地,所述装置还包括:
创建单元,用于创建目标图像库,所述创建单元具体用于:
获取已确认的有害域名;
利用模拟浏览器获得所述已确认的有害域名对应的网页图像;
对所述网页图像进行存储,获得目标图像库。
进一步,所述装置还包括:
第三确定单元,用于对每一所述疑似有害域名的网页图像进行内容和图像识别,确定每一所述疑似有害域名对应的参考分值,所述参考分值为对应有害类型匹配的参考分值。
可选地,所述识别单元包括:
第一获取子单元,用于获取所述域名组中每一域名对应的参考分值,所述参考分值包括第一有害类型对应的第一分值和第二有害类型对应的第二分值;
第一确定子单元,用于若所述域名组中每一域名对应的第一有害类型对应的第一分值均高于第一类型的分数阈值,且所述每一域名的第一分值均大于第二分值,确定所述域名组中的每一域名属于第一有害类型对应的有害域名。
可选地,所述识别单元包括:
第二获取子单元,用于获取所述域名组中的目标域名信息,所述目标域名信息为所述域名组中的符合目标条件的域名的信息;
第二确定子单元,用于确定所述目标域名信息对应的识别结果;
第三确定子单元,用于基于所述识别结果确定所述域名组中的各个域名是否为有害域名。
可选地,所述装置还包括:
图库更新单元,用于将在所述疑似有害域名中确定的有害域名对应的网页图像,添加至所述目标图像库,以更新所述目标图像库。
可选地,所述第三确定单元具体用于:
对每一所述疑似有害域名的网页图像中的文字内容进行识别,获得目标关键词;
基于所述目标关键词对应的权值进行计算,获得所述文字内容的有害分值;
利用图像识别模型对所述网页图像进行识别,得到与所述图像识别模型对应的分类类型相匹配的有害分值。
本发明实施例提供了一种有害域名核验装置,包括:确定疑似有害域名;获取每一疑似有害域名对应的网页图像;将网页图像在目标图像库中进行图像相似度检索,得到网页图像的相似度分值;将相似度分值大于分值阈值的疑似有害域名确定为有害域名;将相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组;对域名组中的域名进行识别,以确定域名组中的各个域名是否为有害域名。本发明基于目标图像库的相似度检索和未与目标图像库匹配上的疑似有害域名的聚类分析,实现了自动对域名的识别处理,降低了有害域名核验的人工成本,提升了核验效率。
基于前述实施例,本发明的实施例还提供一种存储介质,所述存储介质存储有计算机程序代码,所述计算机程序代码执行时实现上述中任意一项所述的有害域名核验方法。
对应的,本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现的有害域名核验方法的步骤。
具体的有害域名核验方法的相关步骤在前述实施例中已经进行了详细说明,请参见前述各个实施例,此处不进行详述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种有害域名核验方法,其特征在于,包括:
确定疑似有害域名;
获取每一所述疑似有害域名对应的网页图像;
将所述网页图像在目标图像库中进行图像相似度检索,得到所述网页图像的相似度分值,所述目标图像库中包括已确认的有害域名对应的网页图像;
将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名;
将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组,所述域名组中包括至少一个疑似有害域名,且所述域名组中的各个疑似有害域名对应的网页图像具有相似特征;
对所述域名组中的疑似有害域名进行识别,以确定所述域名组中的各个疑似有害域名是否为有害域名。
2.根据权利要求1所述的方法,其特征在于,所述确定疑似有害域名,包括:
获取初始域名列表,所述初始域名列表包括通用顶级域域名列表和国家域名列表;
对所述初始域名列表中的域名进行初始筛查,获得疑似有害域名。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
创建目标图像库,包括:
获取已确认的有害域名;
利用模拟浏览器获得所述已确认的有害域名对应的网页图像;
对所述网页图像进行存储,获得目标图像库。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对每一所述疑似有害域名的网页图像进行内容和图像识别,确定每一所述疑似有害域名对应的参考分值,所述参考分值为对应有害类型匹配的参考分值。
5.根据权利要求4所述的方法,其特征在于,所述对所述域名组中的域名进行识别,以确定所述域名组中的各个域名是否为有害域名,包括:
获取所述域名组中每一域名对应的参考分值,所述参考分值包括第一有害类型对应的第一分值和第二有害类型对应的第二分值;
若所述域名组中每一域名对应的第一有害类型对应的第一分值均高于第一类型的分数阈值,且所述每一域名的第一分值均大于第二分值,确定所述域名组中的每一域名属于第一有害类型对应的有害域名。
6.根据权利要求4所述的方法,其特征在于,所述对所述域名组中的域名进行识别,以确定所述域名组中的各个域名是否为有害域名,包括:
获取所述域名组中的目标域名信息,所述目标域名信息为所述域名组中的符合目标条件的域名的信息;
确定所述目标域名信息对应的识别结果;
基于所述识别结果确定所述域名组中的各个域名是否为有害域名。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将在所述疑似有害域名中确定的有害域名对应的网页图像,添加至所述目标图像库,以更新所述目标图像库。
8.根据权利要求4所述的方法,其特征在于,所述对每一所述疑似有害域名的网页图像进行内容和图像识别,确定每一所述疑似有害域名对应的参考分值,包括:
对每一所述疑似有害域名的网页图像中的文字内容进行识别,获得目标关键词;
基于所述目标关键词对应的权值进行计算,获得所述文字内容的有害分值;
利用图像识别模型对所述网页图像进行识别,得到与所述图像识别模型对应的分类类型相匹配的有害分值。
9.一种有害域名核验装置,其特征在于,包括:
第一确定单元,用于确定疑似有害域名;
第一获取单元,用于获取每一所述疑似有害域名对应的网页图像;
检索单元,用于将所述网页图像在目标图像库中进行图像相似度检索,得到所述网页图像的相似度分值,所述目标图像库中包括已确认的有害域名对应的网页图像;
第二确定单元,用于将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名;
聚类单元,用于将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组,所述域名组中包括至少一个疑似有害域名,且所述域名组中的各个疑似有害域名对应的网页图像具有相似特征;
识别单元,用于对所述域名组中的疑似有害域名进行识别,以确定所述域名组中的各个疑似有害域名是否为有害域名。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序代码,所述计算机程序代码执行时实现如权利要求1-8中任意一项所述的有害域名核验方法。
CN202110981798.2A 2021-08-25 2021-08-25 一种有害域名核验方法及装置 Pending CN113688905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110981798.2A CN113688905A (zh) 2021-08-25 2021-08-25 一种有害域名核验方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110981798.2A CN113688905A (zh) 2021-08-25 2021-08-25 一种有害域名核验方法及装置

Publications (1)

Publication Number Publication Date
CN113688905A true CN113688905A (zh) 2021-11-23

Family

ID=78582467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110981798.2A Pending CN113688905A (zh) 2021-08-25 2021-08-25 一种有害域名核验方法及装置

Country Status (1)

Country Link
CN (1) CN113688905A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663860A (zh) * 2023-07-27 2023-08-29 深圳昊通技术有限公司 一种项目需求的任务分配方法、系统和可读存储介质
CN117081865A (zh) * 2023-10-17 2023-11-17 北京启天安信科技有限公司 一种基于恶意域名检测方法的网络安全防御系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470731A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种可个性化定制的网页过滤方法
CN102622552A (zh) * 2012-04-12 2012-08-01 焦点科技股份有限公司 一种基于数据挖掘的b2b平台欺诈访问的检测方法和系统
CN103442014A (zh) * 2013-09-03 2013-12-11 中国科学院信息工程研究所 一种自动检测疑似仿冒网站的方法及系统
CN104484396A (zh) * 2014-12-12 2015-04-01 北京国双科技有限公司 网页信息的筛选方法和装置
CN105138921A (zh) * 2015-08-18 2015-12-09 中南大学 基于页面特征匹配的钓鱼网站目标域名识别方法
CN106354800A (zh) * 2016-08-26 2017-01-25 中国互联网络信息中心 一种基于多维度特征的不良网站检测方法
CN106599155A (zh) * 2016-12-07 2017-04-26 北京亚鸿世纪科技发展有限公司 一种网页分类方法及系统
CN106919653A (zh) * 2017-01-24 2017-07-04 广西师范学院 基于用户行为的日志过滤方法
CN107547555A (zh) * 2017-09-11 2018-01-05 北京匠数科技有限公司 一种网站安全监测方法及装置
CN110572397A (zh) * 2019-09-10 2019-12-13 上海斗象信息科技有限公司 一种基于流量的webshell的检测方法
CN110619075A (zh) * 2018-06-04 2019-12-27 阿里巴巴集团控股有限公司 一种网页识别方法与设备
CN111814643A (zh) * 2020-06-30 2020-10-23 杭州科度科技有限公司 黑灰url识别方法、装置、电子设备及介质
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
CN112699280A (zh) * 2020-12-31 2021-04-23 北京天融信网络安全技术有限公司 网站监测方法、网站图谱建立方法、装置及电子设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470731A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种可个性化定制的网页过滤方法
CN102622552A (zh) * 2012-04-12 2012-08-01 焦点科技股份有限公司 一种基于数据挖掘的b2b平台欺诈访问的检测方法和系统
CN103442014A (zh) * 2013-09-03 2013-12-11 中国科学院信息工程研究所 一种自动检测疑似仿冒网站的方法及系统
CN104484396A (zh) * 2014-12-12 2015-04-01 北京国双科技有限公司 网页信息的筛选方法和装置
CN105138921A (zh) * 2015-08-18 2015-12-09 中南大学 基于页面特征匹配的钓鱼网站目标域名识别方法
CN106354800A (zh) * 2016-08-26 2017-01-25 中国互联网络信息中心 一种基于多维度特征的不良网站检测方法
CN106599155A (zh) * 2016-12-07 2017-04-26 北京亚鸿世纪科技发展有限公司 一种网页分类方法及系统
CN106919653A (zh) * 2017-01-24 2017-07-04 广西师范学院 基于用户行为的日志过滤方法
CN107547555A (zh) * 2017-09-11 2018-01-05 北京匠数科技有限公司 一种网站安全监测方法及装置
CN110619075A (zh) * 2018-06-04 2019-12-27 阿里巴巴集团控股有限公司 一种网页识别方法与设备
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
CN110572397A (zh) * 2019-09-10 2019-12-13 上海斗象信息科技有限公司 一种基于流量的webshell的检测方法
CN111814643A (zh) * 2020-06-30 2020-10-23 杭州科度科技有限公司 黑灰url识别方法、装置、电子设备及介质
CN112699280A (zh) * 2020-12-31 2021-04-23 北京天融信网络安全技术有限公司 网站监测方法、网站图谱建立方法、装置及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663860A (zh) * 2023-07-27 2023-08-29 深圳昊通技术有限公司 一种项目需求的任务分配方法、系统和可读存储介质
CN116663860B (zh) * 2023-07-27 2024-01-09 深圳昊通技术有限公司 一种项目需求的任务分配方法、系统和可读存储介质
CN117081865A (zh) * 2023-10-17 2023-11-17 北京启天安信科技有限公司 一种基于恶意域名检测方法的网络安全防御系统
CN117081865B (zh) * 2023-10-17 2023-12-29 北京启天安信科技有限公司 一种基于恶意域名检测方法的网络安全防御系统

Similar Documents

Publication Publication Date Title
CN111428231B (zh) 基于用户行为的安全处理方法、装置及设备
CN106599155B (zh) 一种网页分类方法及系统
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN110602029B (zh) 一种用于识别网络攻击的方法和系统
CN109274632B (zh) 一种网站的识别方法及装置
CN109063456B (zh) 图像型验证码的安全性检测方法及系统
CN110830490B (zh) 基于带对抗训练深度网络的恶意域名检测方法及系统
CN106354800A (zh) 一种基于多维度特征的不良网站检测方法
CN104391979A (zh) 网络恶意爬虫识别方法及装置
CN109104421B (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN113688905A (zh) 一种有害域名核验方法及装置
CN108023868B (zh) 恶意资源地址检测方法和装置
CN106446124B (zh) 一种基于网络关系图的网站分类方法
CN109150873A (zh) 基于pso_svm优化算法的恶意域名检测系统及方法
CN111859234A (zh) 一种非法内容识别方法、装置、电子设备及存储介质
CN113407886A (zh) 网络犯罪平台识别方法、系统、设备和计算机存储介质
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN113378899A (zh) 非正常账号识别方法、装置、设备和存储介质
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN115130104A (zh) 一种恶意网址综合评判方法、系统及存储介质
CN113688346A (zh) 一种违法网站识别方法、装置、设备及存储介质
CN112199388A (zh) 陌电识别方法、装置、电子设备及存储介质
CN107566371A (zh) 一种面向海量日志的WebShell挖掘方法
CN109190408B (zh) 一种数据信息的安全处理方法及系统
CN111431884A (zh) 一种基于dns分析的主机失陷检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211123