CN112910925B

CN112910925B - 域名检测方法、模型训练方法及装置、设备、存储介质

Info

Publication number: CN112910925B
Application number: CN202110253602.8A
Authority: CN
Inventors: 梁李; 张宾; 张伟哲
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2023-06-13
Anticipated expiration: 2041-03-08
Also published as: CN112910925A

Abstract

本发明公开了一种域名检测方法及装置、域名检测模型训练方法及装置、设备及存储介质。本发明通过获取更新后的域名检测模型；其中更新后的域名检测模型为根据定时爬取的恶意域名和历史训练样本集迭代训练得到，进而根据更新后的域名检测模型对待检测域名进行检测，得到检测结果；解决了相关技术中域名检测准确率低的问题。也即，本发明结合不断爬取到的恶意域名和历史训练样本集来对域名检测模型进行训练，以实时更新域名检测模型，使得得到的更新后的域名检测模型更为准确，因而利用该更新后的域名检测模型来对待检测域名进行检测的准确率也更高，即提升了域名检测准确率。

Description

域名检测方法、模型训练方法及装置、设备、存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种域名检测方法及装置、设备、域名检测模型训练方法及装置、设备、计算机可读存储介质。

背景技术

由于域名系统的关键性和脆弱性，域名系统成为众多攻击者的理想攻击目标，尤其是以恶意域名如钓鱼、外挂等作为承载体的攻击，其数量和威胁都在逐渐增加。

相关技术中，均是通过建立域名检测模型来检测域名是否为恶意域名，其中，域名检测模型在训练得到之后，并未进行更新，造成了域名检测准确率低的现象。

因此，如何提升域名检测准确率是亟待解决的问题。

发明内容

本发明的主要目的在于提供一种域名检测方法及装置、设备、域名检测模型训练方法及装置、设备、存储介质，旨在解决相关技术中域名检测准确率低的问题。

为实现上述目的，本发明提供一种域名检测方法，所述域名检测方法包括：

获取更新后的域名检测模型；其中，所述更新后的域名检测模型为根据定时爬取的恶意域名和历史训练样本集迭代训练得到；

根据所述更新后的域名检测模型对待检测域名进行检测，得到检测结果。

可选的，所述根据所述更新后的域名检测模型对待检测域名进行检测，得到检测结果的步骤之前，所述域名检测方法还包括：

获取黑名单；其中，所述黑名单中预置有多个恶意域名；

根据所述黑名单判断待检测域名是否为恶意域名；

若否，则执行根据所述更新后的域名检测模型对待检测域名进行检测，得到检测结果的步骤。

可选的，所述获取更新后的域名检测模型的步骤之前，所述域名检测方法还包括：

每隔预设时间段爬取网站上的域名；

将最新爬取到的域名输入至原始的域名检测模型中，输出所述域名为恶意域名的概率值；其中，所述原始的域名检测模型为根据历史训练样本集训练得到，所述历史训练样本集包括恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量；

将概率值大于预设阈值的域名添加至历史训练样本集中；

根据所述历史训练样本集对所述原始的域名检测模型进行再次训练，得到更新后的域名检测模型。

可选的，所述将最新爬取到的域名输入至原始的域名检测模型中，输出所述域名为恶意域名的概率值的步骤之前，还包括：

从人工采集到的恶意网页中获取普通词汇特征向量、特定词汇特征向量和截图特征向量；

将所述普通词汇特征向量、特定词汇特征向量和截图特征向量作为训练样本集，输入至神经网络中进行训练，得到原始的域名检测模型。

可选的，所述从人工采集到的恶意网页中获取普通词汇特征向量的步骤，包括：

通过预设脚本语言爬取多个恶意网页；

从所述多个恶意网页中获取文字，得到所述多个恶意网页对应的文字；

对所述多个恶意网页对应的文字进行切词处理，得到所述多个恶意网页对应的词汇；

将所述多个恶意网页对应的词汇输入至句向量神经网络中进行训练，得到所述多个恶意网页对应的词汇特征向量，以获取普通词汇特征向量。

可选的，所述对所述多个恶意网页对应的文字进行切词处理，得到所述多个恶意网页对应的词汇的步骤之后，还包括：

对所述多个恶意网页对应的词汇进行筛选，得到特定词汇；

从人工采集到的恶意网页中获取特定词汇特征向量的步骤，包括：

根据所述特定词汇，得到特定词汇特征向量，以获取特定词汇特征向量。

可选的，从人工采集到的恶意网页中获取截图特征向量的步骤，包括：

通过预设脚本语言爬取多个恶意网页；

对所述多个恶意网页进行截图，得到多个恶意网页对应的截图；

对所述截图进行划分，得到多张子截图；

获取所述多张子截图的平均值；

根据所述多张子截图的平均值得到截图特征向量，以获取截图特征向量。

为实现上述目的，本发明提供一种域名检测模型训练方法，所述域名检测模型训练方法包括：

每隔预设时间段爬取网站上的域名；

将概率值大于预设阈值的域名添加至历史训练样本集中；

可选的，所述将最新爬取到的域名输入至原始的域名检测模型中，输出所述域名为恶意域名的概率值的步骤之前，所述域名检测方法还包括：

此外，为实现上述目的，本发明还提出一种域名检测装置，所述域名检测装置包括：

获取模块，用于获取更新后的域名检测模型；其中，所述更新后的域名检测模型为根据定时爬取的恶意域名和历史训练样本集迭代训练得到；

检测模块，用于根据所述更新后的域名检测模型对待检测域名进行检测，得到检测结果。

此外，为实现上述目的，本发明还提出一种域名检测模型训练装置，所述域名检测模型训练装置包括：

爬取模块，用于每隔预设时间段爬取网站上的域名；

输出模块，用于将最新爬取到的域名输入至原始的域名检测模型中，输出所述域名为恶意域名的概率值；其中，所述原始的域名检测模型为根据历史训练样本集训练得到，所述历史训练样本集包括恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量；

添加模块，用于将概率值大于预设阈值的域名添加至历史训练样本集中；

训练模块，用于根据所述历史训练样本集对所述原始的域名检测模型进行再次训练，得到更新后的域名检测模型。

此外，为实现上述目的，本发明还提出一种域名检测设备，所述域名检测设备包括：存储器、处理器及存储在所述存储器上并在所述处理器上运行的域名检测程序，所述域名检测程序被所述处理器执行时实现上述所述的域名检测方法的步骤。

此外，为实现上述目的，本发明还提出一种域名检测模型训练设备，所述域名检测模型训练设备包括：存储器、处理器及存储在所述存储器上并在所述处理器上运行的域名检测模型训练程序，所述域名检测模型训练程序被所述处理器执行时实现上述所述的域名检测模型训练方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有域名检测程序，所述域名检测程序被处理器执行时实现上述任一项所述的域名检测方法的步骤；或，

所述计算机可读存储介质上存储有域名检测模型训练程序，所述域名检测模型训练程序被处理器执行时实现上述所述的域名检测模型训练方法的步骤。

本发明提供的技术方案，通过每隔预设时间段爬取网站上的恶意域名，并将爬取到的恶意域名输入至原始的域名检测模型中，输出域名为恶意域名的概率值；其中原始的域名检测模型为根据历史训练样本集训练得到，历史训练样本集包括恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量；若概率值大于预设阈值，则将恶意域名添加至历史训练样本集中；进而根据历史训练样本集对原始的域名检测模型进行再次训练，得到更新后的域名检测模型。这样，结合不断爬取到的恶意域名和历史训练样本集来对域名检测模型进行训练，以实时更新域名检测模型，使得得到的更新后的域名检测模型更为准确，且保证了更新后的域名检测模型不会过拟合。

本发明提供的技术方案，还通过获取更新后的域名检测模型；其中更新后的域名检测模型为根据定时爬取的恶意域名和历史训练样本集迭代训练得到，进而根据更新后的域名检测模型对待检测域名进行检测，得到检测结果；解决了相关技术中域名检测准确率低的问题。也即，本发明提供的技术方案中，是结合不断爬取到的恶意域名和历史训练样本集来对域名检测模型进行训练，以实时更新域名检测模型，使得得到的更新后的域名检测模型更为准确，因而利用该更新后的域名检测模型来对待检测域名进行检测的准确率也更高，即提升了域名检测准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明实施例方案涉及的硬件运行环境的域名检测设备结构示意图；

图2为本发明域名检测方法第一实施例的流程示意图；

图3为本发明域名检测方法第二实施例的流程示意图；

图4为本发明域名检测方法第三实施例的流程示意图；

图5为本发明域名检测装置第一实施例的结构框图；

图6为本发明域名检测模型训练装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参见图1所示，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

应当明确的是，图1中示出的设备可以为域名检测设备和/或域名检测模型训练设备。

其中，当设备为域名检测设备时，设备包括：至少一个处理器101、存储器102以及存储在存储器上并可在处理器上运行的域名检测程序，域名检测程序配置为实现如下任一实施例的域名检测方法的步骤。

其中，当设备为域名检测模型训练设备时，设备包括：至少一个处理器101、存储器102以及存储在存储器上并可在处理器上运行的域名检测模型训练程序，域名检测模型训练程序配置为实现如下任一实施例的域名检测模型训练方法的步骤。

处理器101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关域名检测方法操作，使得域名检测方法模型可以自主训练学习，提高效率和准确度。

存储器102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器101所执行以实现本申请中方法实施例提供的域名检测方法。

在一些实施例中，设备还可选包括有：通信接口103和至少一个外围设备。处理器101、存储器102和通信接口103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口103相连。具体地，外围设备包括：射频电路104、显示屏105和电源106中的至少一种。

通信接口103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器101和存储器102。在一些实施例中，处理器101、存储器102和通信接口103被集成在同一芯片或电路板上；在一些其他实施例中，处理器101、存储器102和通信接口103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏105是触摸显示屏时，显示屏105还具有采集在显示屏105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器101进行处理。此时，显示屏105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏105可以为一个，设备的前面板；在另一些实施例中，显示屏105可以为至少两个，分别设置在设备的不同表面或呈折叠设计；在一些实施例中，显示屏105可以是柔性显示屏，设置在设备的弯曲表面上或折叠面上。甚至，显示屏105还可以设置成非矩形的不规则图形，也即异形屏。显示屏105可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

电源106用于为设备中的各个组件进行供电。电源106可以是交流电、直流电、一次性电池或可充电电池。当电源106包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图1中示出的结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述硬件结构，提出本发明的各实施例。

请参见图2所示，图2为本发明域名检测方法第一实施例的流程示意图，域名检测方法包括以下步骤：

步骤S201：获取更新后的域名检测模型；其中，更新后的域名检测模型为根据定时爬取的恶意域名和历史训练样本集迭代训练得到。

本实施例中，域名检测模型为对域名进行检测的模型，具体地，域名检测模型是检测域名是否为恶意域名的模型，其中，检测结果可以是域名为恶意域名，或者可以是域名为正常域名。

本实施例中，定时爬取的恶意域名是用于对原始的域名检测模型进行更新，这样，便能够避免相关技术中域名检测模型在训练得到之后未进行更新，造成域名检测准确率低的现象。并且，由于恶意域名随时随地在进行更新，因此，通过定时去爬取恶意域名，能够得到最新的恶意域名，这样对原始的域名检测模型进行更新的准确率更高。

在一些示例中，定时爬取的恶意域名指的是根据设定时间点对恶意域名进行爬取；例如在每天的9:00或19:00进行恶意域名的爬取。其中，设定的时间点可以为一个或多个，当设定的时间点为多个时，在每个时间点进行恶意域名的爬取；例如在每天的9:00、12:00以及19:00这三个时间点进行恶意域名的爬取。值得注意的是，在实际应用中，设定时间点的具体取值和数量可以根据具体应用场景做灵活调整；其中，设定时间点的数量越多，则爬取得到的恶意域名越新。

在一些示例中，定时爬取的恶意域名指的是每隔预设时间段对恶意域名进行爬取；例如每隔24小时进行恶意域名的爬取。值得注意的是，在实际应用中，每隔预设时间段的具体取值可以根据具体应用场景做灵活调整；其中，预设时间段的取值越小，则爬取得到的恶意域名越新。

本实施例中，历史训练样本集中包含了恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量；也即，本实施例中会预先从人工采集到的恶意网页中获取普通词汇特征向量、特定词汇特征向量和截图特征向量，进而将普通词汇特征向量、特定词汇特征向量和截图特征向量作为训练样本集，输入至神经网络中进行训练，以得到域名检测模型，其中，将首次得到的域名检测模型称之为原始的域名检测模型。

本实施例中，若存在待测检域名，则首先获取更新后的域名检测模型，其中，本实施例中域名检测模型是根据定时爬取的恶意域名和历史训练样本集进行迭代训练得到的；也即，本实施例中获取到的域名检测模型均是最新的，因此利用该最新的域名检测模型来对待检测域名进行检测的准确率更高，从而提升了域名检测准确率。

步骤S202：根据更新后的域名检测模型对待检测域名进行检测，得到检测结果。

本实施例中，在获取更新后的域名检测模型之后，则根据获取到的更新后的域名检测模型对待检测域名进行检测，以得到检测结果；其中，检测结果可以是域名为恶意域名，或者可以是域名为正常域名。

本实施例中，通过获取更新后的域名检测模型；其中更新后的域名检测模型为根据定时爬取的恶意域名和历史训练样本集迭代训练得到，进而根据更新后的域名检测模型对待检测域名进行检测，得到检测结果；解决了相关技术中域名检测准确率低的问题。也即，本实施例中通过结合不断爬取到的恶意域名和历史训练样本集来对域名检测模型进行训练，以实时更新域名检测模型，使得得到的更新后的域名检测模型更为准确，因而利用该更新后的域名检测模型来对待检测域名进行检测的准确率也更高，即提升了域名检测准确率。

基于上述实施例，提出本发明域名检测方法第二实施例。

请参见图3所示，图3为本发明域名检测方法第二实施例的流程示意图；本实施例中，步骤S202根据更新后的域名检测模型对待检测域名进行检测，得到检测结果之前，域名检测方法还可以包括以下步骤：

步骤S301：获取黑名单；其中，黑名单中预置有多个恶意域名；

步骤S302：根据黑名单判断待检测域名是否为恶意域名；

若否，则执行步骤S202，若是，则结束流程。

也即，本实施例中步骤S202在根据更新后的域名检测模型对待检测域名进行检测，得到检测结果之前，还可以获取黑名单，然后根据黑名单判断待检测域名是否为恶意域名，若根据黑名单判断待检测域名为非恶意域名，则根据更新后的域名检测模型对待检测域名进行检测，得到检测结果，若根据黑名单判断待检测域名为恶意域名，则结束此次流程，无需再根据更新后的域名检测模型对待检测域名进行检测，得到检测结果。

可以理解的是，本实施例中步骤S301获取黑名单以及步骤S302根据黑名单判断待检测域名是否为恶意域名，可以执行在步骤S201获取更新后的域名检测模型之前，或者可以执行在步骤S201获取更新后的域名检测模型之后，或者可以和步骤S201获取更新后的域名检测模型并行执行；在实际应用中，可以根据具体应用场景做灵活调整。

应当明确的是，本实施例中获取的黑名单中预置有多个恶意域名，其中可以由相关工作人员进行预先设置，例如相关工作人员下发包含一个或多个恶意域名的设置指令，进而根据设置指令设置黑名单。其中，相关工作人员下发的设置指令可以通过任意方式下发，例如可以通过语音方式下发、可以通过按键方式下发、可以通过文本输入方式下发等；在实际应用中，可以根据具体应用场景做灵活调整。

举例说明，请参见表一所示，为一种示例的黑名单。

表一

如表一所示的黑名单中，预置有多个恶意域名，其中，在一些示例中，还可以根据恶意域名的不同类型进行划分，例如请参见表二所示，为另一种示例的黑名单。

表二

/>

如二所示的黑名单中，预置有多个不同类型的恶意域名，这样在根据黑名单判断待检测域名是否为恶意域名时，可以先确定待检测域名的类型，进而在确定的类型中去查找是否恶意域名，从而加快了查找效率，使得域名检测效率更高。

本实施例中，通过先根据黑名单对待检测域名进行检测，这样在待检测域名的数量较多时，可以先剔除掉为恶意域名的待检测域名，从而使得根据更新后的域名检测模型进行检测的待检测域名的数量更少，在极大程度上提升了域名检测效率。

基于上述实施例，提出本发明域名检测方法第三实施例。

请参见图4所示，图4为本发明域名检测方法第三实施例的流程示意图；本实施例中，步骤S201获取更新后的域名检测模型之前，域名检测方法还可以包括以下步骤：

步骤S401：每隔预设时间段爬取网站上的域名；

步骤S402：将最新爬取到的域名输入至原始的域名检测模型中，输出域名为恶意域名的概率值；其中，原始的域名检测模型为根据历史训练样本集训练得到，历史训练样本集包括恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量；

步骤S403：将概率值大于预设阈值的域名添加至历史训练样本集中；

步骤S404：根据历史训练样本集对原始的域名检测模型进行再次训练，得到更新后的域名检测模型。

也即，本实施例中步骤S201获取更新后的域名检测模型之前，还可以对原始的域名检测模型进行更新，从而以得到更新后的域名检测模型；具体地，对原始的域名检测模型进行更新，是通过每隔预设时间段爬取网站上的域名，并将最新爬取到的域名输入至原始的域名检测模型中，输出域名为恶意域名的概率值，将概率值大于预设阈值的域名添加至历史训练样本集中，进而根据历史训练样本集对原始的域名检测模型进行再次训练，以得到更新后的域名检测模型。

举例说明，例如设最新时间点爬取到的域名300～400共100个，此时将爬取到的这100个域名300～400输入至原始的域名检测模型中，输出各个域名为恶意域名的概率值，进而将概率值大于预设阈值的域名添加至历史训练样本集中，同时设预设阈值为90％，100个域名中域名360～380的概率值大于90％，此时将域名360～380添加至历史训练样本集中。可以理解的是，历史训练样本集中包含了从恶意网页中获取得到的普通词汇特征向量、特定词汇特征向量和截图特征向量，其中，设恶意网页有280个，则将域名360～380添加至历史训练样本集中，此时历史训练样本集中一共包含280+20＝300个恶意网页，从而可以从300个恶意网页中获取得到普通词汇特征向量、特定词汇特征向量和截图特征向量，对原始的域名检测模型进行再次训练，以得到更新后的域名检测模型。

应当明确的是，由于每隔预设时间段就会爬取网站上的域名，因此最新爬取到的域名时刻在进行更新，所以一旦域名进行了更新，则需要执行步骤S401～S404，以得到更新后的域名检测模型。

在一些实施例中，步骤S402将爬取到的恶意域名输入至原始的域名检测模型中，输出域名为恶意域名的概率值之前，域名检测方法还可以包括以下步骤：

首先，从人工采集到的恶意网页中获取普通词汇特征向量、特定词汇特征向量和截图特征向量；

然后，将普通词汇特征向量、特定词汇特征向量和截图特征向量作为训练样本集，输入至神经网络中进行训练，得到原始的域名检测模型。

也即，步骤S402将爬取到的恶意域名输入至原始的域名检测模型中，输出域名为恶意域名的概率值之前，还可以首先获取包含普通词汇特征向量、特定词汇特征向量和截图特征向量的训练样本集，进而将获取得到的训练样本集输入至神经网络中进行训练，从而以得到域名检测模型，其中，将首次得到的域名检测模型称之为原始的域名检测模型。

在一些实施例中，从人工采集到的恶意网页中获取普通词汇特征向量的步骤，可以包括以下步骤：

首先，通过预设脚本语言爬取多个恶意网页；

然后，从多个恶意网页中获取文字，得到多个恶意网页对应的文字；

其次，对多个恶意网页对应的文字进行切词处理，得到多个恶意网页对应的词汇；

再，将多个恶意网页对应的词汇输入至句向量神经网络中进行训练，得到多个恶意网页对应的词汇特征向量，以获取普通词汇特征向量。

也即，从人工采集到的恶意网页中获取普通词汇特征向量，具体可以是首先通过预设脚本语言爬取多个恶意网页，例如通过python selenium组件获取到恶意网页，并从多个恶意网页中获取文字，得到多个恶意网页对应的文字，进而对多个恶意网页对应的文字进行切词处理，得到多个恶意网页对应的词汇，再将多个恶意网页对应的词汇输入至句向量神经网络中进行训练，得到多个恶意网页对应的词汇特征向量，以获取普通词汇特征向量。

在一些示例中，在通过预设脚本语言爬取多个恶意网页之后，还可以根域预设语种对多个恶意网页进行筛选，例如筛选出中、日、英三个语种的恶意网页，相应地，将其他语种的恶意网页过滤掉；这样得到的恶意网页更有针对性，从而使得训练得到的域名检测模型更为准确。值得注意的是，在实际应用中，预设语种可以根据具体应用场景做灵活调整。

在一些示例中，在对多个恶意网页对应的文字进行切词处理，得到多个恶意网页对应的词汇之后，还可以根据词汇数量对多个恶意网页进行筛选，例如筛选出词汇数量大于预设阈值的恶意网页，相应地，将词汇数量小于等于预设阈值恶意网页过滤掉；这样得到的恶意网页更为有效，从而使得训练得到的域名检测模型更为准确。值得注意的是，在实际应用中，预设阈值可以根据具体应用场景做灵活调整，例如预设阈值取值为3、5等。

在一些实施例中，对多个恶意网页对应的文字进行切词处理，得到多个恶意网页对应的词汇的步骤之后，还可以包括以下步骤：

对多个恶意网页对应的词汇进行筛选，得到特定词汇；

相应地，从人工采集到的恶意网页中获取特定词汇特征向量的步骤，可以包括以下步骤：

根据特定词汇，得到特定词汇特征向量，以获取特定词汇特征向量。

也即，对多个恶意网页对应的文字进行切词处理，得到多个恶意网页对应的词汇的步骤之后，可以首先对多个恶意网页对应的词汇进行筛选，得到特定词汇，进而根据特定词汇，得到特定词汇特征向量，以获取特定词汇特征向量。应当明确的是，特定词汇一般指的是最具有代表恶意性的代表词汇，此可以由相关工作人员人工从普通词汇中进行筛选，或相关工作人员人工单独设置得到。

在一些实施例中，从人工采集到的恶意网页中获取截图特征向量的步骤，可以包括以下步骤：

首先，通过预设脚本语言爬取多个恶意网页；

然后，对多个恶意网页进行截图，得到多个恶意网页对应的截图；

其次，对截图进行划分，得到多张子截图；

进而，获取多张子截图的平均值；

再，根据多张子截图的平均值得到截图特征向量，以获取截图特征向量。

也即，从人工采集到的恶意网页中获取截图特征向量，具体可以是首先通过预设脚本语言爬取多个恶意网页，并对多个恶意网页进行截图，得到多个恶意网页对应的截图，进而对截图进行划分，得到多个子截图，并获取多个子截图的平均值，进而根据多个子截图的平均值得到截图特征向量，以获取截图特征向量。

举例说明，例如以得到的一张截图为例，将截图按照横竖划分为4份，其中每一份为一张子截图，进而对每一张子截图的图矩阵求平均值，得到共4张子截图的截图特征向量。

本实施例中，训练样本集从三个维度出发，其包含了普通词汇特征向量、特定词汇特征向量和截图特征向量，这样训练得到的域名检测模型更为准确；且在更新域名检测模型时，是结合不断爬取到的恶意域名和历史训练样本集，进一步使得得到的更新后的域名检测模型更为准确，且保证了更新后的域名检测模型不会过拟合，从而利用更新后的域名检测模型来对待检测域名进行检测的准确性更高。

此外，本发明实施例在上述域名检测方法的基础上，还提出一种域名检测模型训练方法，域名检测模型训练方法包括以下步骤：

首先，每隔预设时间段爬取网站上的域名；

然后，将最新爬取到的域名输入至原始的域名检测模型中，输出域名为恶意域名的概率值；其中，原始的域名检测模型为根据历史训练样本集训练得到，历史训练样本集包括恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量；

其次，将概率值大于预设阈值的域名添加至历史训练样本集中；

再，根据历史训练样本集对原始的域名检测模型进行再次训练，得到更新后的域名检测模型。

在一些实施例中，将最新爬取到的域名输入至原始的域名检测模型中，输出域名为恶意域名的概率值的步骤之前，域名检测方法还可以包括以下步骤：

需要说明的是，本实施例中提供的域名检测模型训练方法与第三实施例中的示例相同，为了不累赘说明，在本实施例中并未完全阐述第三实施例中的所有示例，应当明确的是，第三实施例中的所有示例均适用于本实施例。

本实施例中，通过结合不断爬取到的恶意域名和历史训练样本集来对域名检测模型进行训练，以实时更新域名检测模型，使得得到的更新后的域名检测模型更为准确，且保证了更新后的域名检测模型不会过拟合。

此外，请参见图5所示，本发明实施例在上述域名检测方法的基础上，还提出一种域名检测装置，域名检测装置包括：

获取模块501，用于获取更新后的域名检测模型；其中，更新后的域名检测模型为根据定时爬取的恶意域名和历史训练样本集迭代训练得到；

检测模块502，用于根据更新后的域名检测模型对待检测域名进行检测，得到检测结果。

本发明域名检测装置还包括其他可选的模块，并采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

此外，请参见图6所示，本发明实施例在上述域名检测模型训练方法的基础上，还提出一种域名检测模型训练装置，域名检测模型训练装置包括：

爬取模块601，用于每隔预设时间段爬取网站上的域名；

输出模块602，用于将最新爬取到的域名输入至原始的域名检测模型中，输出域名为恶意域名的概率值；其中，原始的域名检测模型为根据历史训练样本集训练得到，历史训练样本集包括恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量；

添加模块603，用于将概率值大于预设阈值的域名添加至历史训练样本集中；

训练模块604，用于根据历史训练样本集对原始的域名检测模型进行再次训练，得到更新后的域名检测模型。

本发明域名检测模型训练装置还包括其他可选的模块，并采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

此外，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质上存储有域名检测程序，域名检测程序被处理器执行时实现如上述域名检测方法的步骤；或，计算机可读存储介质上存储有域名检测模型训练程序，域名检测模型训练程序被处理器执行时实现如上述域名检测模型训练方法的步骤。

该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory，随机存取存储器)，ROM(Read-Only Memory，只读存储器)，EEPROM(Electrically EraableProgrammable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种域名检测方法，其特征在于，所述域名检测方法包括以下步骤：

获取更新后的域名检测模型；其中，所述更新后的域名检测模型为根据定时爬取的恶意域名和历史训练样本集迭代训练得到，所述历史训练样本集包括恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量，所述恶意网页包括人工采集到的网页和所述恶意域名对应的网页；

根据所述更新后的域名检测模型对待检测域名进行检测，得到检测结果；

所述获取更新后的域名检测模型的步骤之前，还包括：

从所述恶意网页中获取普通词汇特征向量、特定词汇特征向量和截图特征向量；

将获取到的普通词汇特征向量、特定词汇特征向量和截图特征向量作为训练样本集，输入至神经网络中进行训练，得到原始的域名检测模型；

将最新爬取到的域名输入至所述原始的域名检测模型中，输出所述域名为恶意域名的概率值；其中，所述域名通过每隔预设时间段爬取网站得到或者根据设定时间点爬取网站得到；

将概率值大于预设阈值的域名添加至所述历史训练样本集中，以根据所述历史训练样本集对所述原始的域名检测模型进行再次训练，得到所述更新后的域名检测模型；

其中，从所述恶意网页中获取截图特征向量，包括：

通过预设脚本语言爬取多个所述恶意网页；

对所述恶意网页进行截图，得到多个所述恶意网页对应的截图；

对所述截图进行划分，得到多张子截图；

获取所述多张子截图的平均值；其中，所述平均值通过对所述子截图的图矩阵求取平均值得到；

根据所述多张子截图的平均值得到所述截图特征向量。

2.如权利要求1所述的域名检测方法，其特征在于，所述根据所述更新后的域名检测模型对待检测域名进行检测，得到检测结果的步骤之前，所述域名检测方法还包括：

获取黑名单；其中，所述黑名单中预置有多个恶意域名；

根据所述黑名单判断待检测域名是否为恶意域名；

3.如权利要求1或2所述的域名检测方法，其特征在于，所述获取更新后的域名检测模型的步骤之前，所述域名检测方法还包括：

每隔预设时间段爬取网站上的域名；

将最新爬取到的域名输入至原始的域名检测模型中，输出所述域名为恶意域名的概率值；其中，所述原始的域名检测模型为根据历史训练样本集训练得到，所述历史训练样本集包括人工采集到的恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量；

将概率值大于预设阈值的域名添加至历史训练样本集中；

4.如权利要求3所述的域名检测方法，其特征在于，所述将最新爬取到的域名输入至原始的域名检测模型中，输出所述域名为恶意域名的概率值的步骤之前，还包括：

5.如权利要求4所述的域名检测方法，其特征在于，所述从人工采集到的恶意网页中获取普通词汇特征向量的步骤，包括：

通过预设脚本语言爬取多个恶意网页；

6.如权利要求5所述的域名检测方法，其特征在于，所述对所述多个恶意网页对应的文字进行切词处理，得到所述多个恶意网页对应的词汇的步骤之后，还包括：

对所述多个恶意网页对应的词汇进行筛选，得到特定词汇；

7.如权利要求4所述的域名检测方法，其特征在于，从人工采集到的恶意网页中获取截图特征向量的步骤，包括：

通过预设脚本语言爬取多个恶意网页；

对所述截图进行划分，得到多张子截图；

获取所述多张子截图的平均值；

8.一种域名检测模型训练方法，其特征在于，所述域名检测模型训练方法包括以下步骤：

每隔预设时间段爬取网站上的域名或根据设定时间点爬取网站上的域名；

将概率值大于预设阈值的域名添加至历史训练样本集中；

根据所述历史训练样本集对所述原始的域名检测模型进行再次训练，得到更新后的域名检测模型；

所述将概率值大于预设阈值的域名添加至历史训练样本集中的步骤包括：

将概率值大于预设阈值的域名对应的网页确定为恶意网页；

根据所有恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量得到历史训练样本集；

所述将最新爬取到的域名输入至原始的域名检测模型中，输出所述域名为恶意域名的概率值的步骤之前，还包括：

从人工采集到的网页和定时爬取的恶意域名对应的网页中获取普通词汇特征向量、特定词汇特征向量和截图特征向量；

将获取到的普通词汇特征向量、特定词汇特征向量和截图特征向量作为训练样本集，输入至神经网络中进行训练，得到所述原始的域名检测模型；

其中，从人工采集到的网页和定时爬取的恶意域名对应的网页中获取截图特征向量，包括：

通过预设脚本语言爬取多个人工采集到的网页和定时爬取的恶意域名对应的网页；

对多个人工采集到的网页和定时爬取的恶意域名对应的网页进行截图，得到多个恶意网页对应的截图；

对所述截图进行划分，得到多张子截图；

根据所述多张子截图的平均值得到所述截图特征向量。

9.如权利要求8所述的域名检测模型训练方法，其特征在于，所述将最新爬取到的域名输入至原始的域名检测模型中，输出所述域名为恶意域名的概率值的步骤之前，所述域名检测模型训练方法还包括：

10.一种域名检测装置，其特征在于，所述域名检测装置包括：

获取模块，用于获取更新后的域名检测模型；其中，所述更新后的域名检测模型为根据定时爬取的恶意域名和历史训练样本集迭代训练得到，所述历史训练样本集包括恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量，所述恶意网页包括人工采集到的网页和所述恶意域名对应的网页；

检测模块，用于根据所述更新后的域名检测模型对待检测域名进行检测，得到检测结果；

所述获取模块，还用于从所述恶意网页中获取普通词汇特征向量、特定词汇特征向量和截图特征向量；将获取到的普通词汇特征向量、特定词汇特征向量和截图特征向量作为训练样本集，输入至神经网络中进行训练，得到原始的域名检测模型；将最新爬取到的域名输入至所述原始的域名检测模型中，输出所述域名为恶意域名的概率值；其中，所述域名通过每隔预设时间段爬取网站得到或者根据设定时间点爬取网站得到；将概率值大于预设阈值的域名添加至所述历史训练样本集中，以根据所述历史训练样本集对所述原始的域名检测模型进行再次训练，得到所述更新后的域名检测模型；

其中，从所述恶意网页中获取截图特征向量，包括：通过预设脚本语言爬取多个所述恶意网页；对所述恶意网页进行截图，得到多个所述恶意网页对应的截图；对所述截图进行划分，得到多张子截图；获取所述多张子截图的平均值；其中，所述平均值通过对所述子截图的图矩阵求取平均值得到；根据所述多张子截图的平均值得到所述截图特征向量。

11.一种域名检测模型训练装置，其特征在于，所述域名检测模型训练装置包括：

爬取模块，用于每隔预设时间段爬取网站上的域名或根据设定时间点爬取网站上的域名；

训练模块，用于根据所述历史训练样本集对所述原始的域名检测模型进行再次训练，得到更新后的域名检测模型；

添加模块，还用于将概率值大于预设阈值的域名对应的网页确定为恶意网页；根据所有恶意网页中的普通词汇特征向量、特定词汇特征向量和截图特征向量得到历史训练样本集；

训练模块，还用于人工采集到的网页和定时爬取的恶意域名对应的网页中获取普通词汇特征向量、特定词汇特征向量和截图特征向量；将获取到的普通词汇特征向量、特定词汇特征向量和截图特征向量作为训练样本集，输入至神经网络中进行训练，得到所述原始的域名检测模型；

其中，从人工采集到的网页和定时爬取的恶意域名对应的网页中获取截图特征向量，包括：通过预设脚本语言爬取多个人工采集到的网页和定时爬取的恶意域名对应的网页；对多个人工采集到的网页和定时爬取的恶意域名对应的网页进行截图，得到多个恶意网页对应的截图；对所述截图进行划分，得到多张子截图；获取所述多张子截图的平均值；其中，所述平均值通过对所述子截图的图矩阵求取平均值得到；根据所述多张子截图的平均值得到所述截图特征向量。

12.一种域名检测设备，其特征在于，所述域名检测设备包括：存储器、处理器及存储在所述存储器上并在所述处理器上运行域名检测程序，所述域名检测程序被所述处理器执行时实现如权利要求1-7中任一项所述的域名检测方法的步骤。

13.一种域名检测模型训练设备，其特征在于，所述域名检测模型训练设备包括：存储器、处理器及存储在所述存储器上并在所述处理器上运行域名检测模型训练程序，所述域名检测模型训练程序被所述处理器执行时实现如权利要求8或9所述的域名检测模型训练方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有域名检测程序，所述域名检测程序被处理器执行时实现如权利要求1-7中任一项所述的域名检测方法的步骤；或，

所述计算机可读存储介质上存储有域名检测模型训练程序，所述域名检测模型训练程序被处理器执行时实现如权利要求8或9所述的域名检测模型训练方法的步骤。