CN113688346A

CN113688346A - 一种违法网站识别方法、装置、设备及存储介质

Info

Publication number: CN113688346A
Application number: CN202110937883.9A
Authority: CN
Inventors: 虞天; 范渊; 黄进
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-11-23

Abstract

本申请公开了一种违法网站识别方法、装置、设备及存储介质。该方法包括：获取网站数据；通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站，并对所述目标网站的网页进行截图操作以得到待识别图片；通过图像识别确定所述待识别图片对应的目标网站的网站类型；所述网站类型包括黑产网站和被篡改的门户网站。通过语义识别粗略筛选出存在风险的目标网站，然后再通过图像识别从存在风险的目标网站中精确的判读出黑产网站，结合语义的文本粗略筛选和图像的精准筛选，可以快速准确的从海量的互联网数据中识别出黑产网站。

Description

一种违法网站识别方法、装置、设备及存储介质

技术领域

本发明涉及网络安全领域，特别涉及一种违法网站识别方法、装置、设备及存储介质。

背景技术

近年来，新型涉网犯罪方法层出不穷，色情直播，裸聊诈骗，赌博网站，非法引流等各种形式的黑产侵蚀网络世界。其中黄色网站，赌博网站，作为网络黑产的主流形式，存在灵活性高，IP变换频繁的特点。虽然能够通过IP 的封号，实现部分黄色赌博网站的屏蔽，但是黄赌网站背后的研发团队，通过变换IP，黄赌网站就如野草般，野火烧不尽，春风吹又生。网络空间中的黄色赌博黑产并没有实质性的减少。现有技术中，通过关键词的规则匹配或自然语言处理技术等方式进行网站检测，但误报率较高；现有技术中还通过基于神经网络的图像识别，但无法完成于每日百万量级的网站数据的识别任务，更无法并实现黄赌数据及时更新的需求。因此，如何对全网空间的海量的黑产网站进行快速且准确识别，为用户输送实时的黑产数据，实质性地减少网络空间中的黄赌黑产是目前亟需解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种违法网站识别方法、装置、设备及介质，能够快速准确的从海量的互联网数据中识别出黑产网站。其具体方案如下：

第一方面，本申请公开了一种违法网站识别方法，包括：

获取网站数据；

通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站，并对所述目标网站的网页进行截图操作以得到待识别图片；

通过图像识别确定所述待识别图片对应的目标网站的网站类型；所述网站类型包括黑产网站和被篡改的门户网站。

可选的，所述获取网站数据，包括：

利用任务调度工具，按照数据采集配置采集网络空间探测引擎的扫描数据，以得到所述网站数据；其中，所述数据采集配置包括采集时间、采集范围、采集量中的任意一项或多项。

可选的，所述对所述目标网站的网页进行截图操作以得到待识别图片，包括：

通过爬虫访问所述目标网站，并根据访问结果从所述目标网站中筛选出存活网站；

对所述存活网站的网页进行截图操作，以得到所述待识别图片。

可选的，所述通过图像识别确定所述待识别图片对应的目标网站的网站类型之后，还包括：

将所述黑产网站关联的网站数据上报至ES数据库，以便通过所述ES数据库进行黑产网站查询和分析。

可选的，所述通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站，包括：

通过预先基于浅层卷积神经网络构建的文本识别模型，识别所述网站数据中包含的违法文本内容，以筛选出包含所述违法文本内容的目标网站；

所述通过图像识别确定所述待识别图片对应的目标网站的网站类型，包括：

通过预先基于深层卷积神经网络构建的图像识别模型，确定所述待识别图片对应的目标网站的网站类型。

可选的，所述文本识别模型的构建过程，包括：

基于输入层、单个卷积层、单个最大池化层和全连接层构建得到浅层卷积网络；

获取网页源码并对所述网页源码添加相应的类别标签，并对所述网页源码进行分词操作得到多个分词以得到文本训练集；

提取类别标签为违法网页的网页源码中的分词以构建模型的违法词库；

利用所述文本训练数据集对所述浅层卷积网络进行训练，以得到所述文本识别模型。

可选的，所述图像识别模型的构建过程，包括：

基于输入层、池化层、多个卷积层和全连接层构建得到深层卷积网络；

获取包含违法文本内容的网站的网页截图，并向所述网页截图添加对应的图像类别标签以得到图像训练集；

利用所述图像训练集对所述深层卷积网络进行训练，以得到所述图像识别模型。

第二方面，本申请公开了一种违法网站识别装置，包括：

数据获取模块，用于获取网站数据；

文本识别模块，用于通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站，并对所述目标网站的网页进行截图操作以得到待识别图片；

图像识别模块，用于通过图像识别确定所述待识别图片对应的目标网站的网站类型；所述网站类型包括黑产网站和被篡改的门户网站。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的违法网站识别方法。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中计算机程序被处理器执行时实现前述的违法网站识别方法。

本申请中，首先获取网站数据；然后，通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站，并对所述目标网站的网页进行截图操作以得到待识别图片；再通过图像识别确定所述待识别图片对应的目标网站的网站类型；所述网站类型包括黑产网站和被篡改的门户网站。可见，通过语义识别先筛选出含有违法文本内容的目标网站，此时筛选出的目标网站可能是黑产网站，也可能是被篡改的门户网站，即被攻击的合法网站，也就是说，本申请先通过语义识别粗略筛选出存在风险的目标网站，然后再通过图像识别从存在风险的目标网站中精确的判读出黑产网站，由此一来，通过语义的文本粗略筛选和图像的精准筛选，可以快速准确的从海量的互联网数据中识别出黑产网站。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种违法网站识别方法流程图；

图2为本申请提供的一种具体的浅层卷积网络结构示意图；

图3为本申请提供的一种具体的图像识别模块结构示意图；

图4为本申请提供的一种具体的数据流示意图；

图5为本申请提供的一种违法网站识别装置结构示意图；

图6为本申请提供的一种电子设备结构图。

具体实施方式

现有技术中，通过关键词的规则匹配或自然语言处理技术等方式进行网站检测，但误报率较高；现有技术中还通过基于神经网络的图像识别，但无法完成于每日百万量级的网站数据的识别任务，更无法并实现黄赌数据及时更新的需求。为克服上述技术问题，本申请提出一种违法网站识别方法，通过结合语义的文本粗略筛选和图像的精准筛选，可以快速准确的从海量的互联网数据中识别出黑产网站。

本申请实施例公开了一种违法网站识别方法，参见图1所示，该方法可以包括以下步骤：

步骤S11：获取网站数据。

本实施例中，首先批量获取网站数据，网站数据包括网站的IP、端口、域名以及网页源码等数据。

本实施例中，所述获取网站数据，可以包括：利用任务调度工具，按照数据采集配置采集网络空间探测引擎的扫描数据，以得到所述网站数据；其中，所述数据采集配置包括采集时间、采集范围、采集量中的任意一项或多项。可以理解的是，通过一些任务调度工具可以实现定时执行任务，例如，根据采集配置每日凌晨2点采集Sumap网络空间探测引擎在前一天对全网网站的扫描数据，以得到上述网站数据。

步骤S12：通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站，并对所述目标网站的网页进行截图操作以得到待识别图片。

本实施例中，得到上述网站数据后，首先通过语义识别从上述网站数据中筛选出包含违法文本内容的目标网站。可以理解的是，对于黄赌等违法网站，搜索引擎是不收录的，因此只能通过黑产网站运行，但黑客经常会利用网站系统漏洞，把正常的网页篡改成“黄赌”的网页；且防护力量比较弱的教育、企业等网站是最容易被黑的网站，黑客在攻陷这些防护力量薄弱的网站后，会小部分篡改后的网站作为黑产的门户网站，进行维护和运营。大部分被攻陷后的网站会成为黑产的引流网站，黑产在粗暴地篡改完网站内容后便弃置不顾了，严格意义上，用于引流的被篡改的门户网站，并不是真正的黑产网站；也就是说，本实施例中首先通过语义识别初步筛选出存在风险的所有网站。

本实施例中，所述通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站，可以包括：通过预先基于浅层卷积神经网络构建的文本识别模型，识别所述网站数据中包含的违法文本内容，以筛选出包含所述违法文本内容的目标网站；可以理解的是，通过预先基于浅层卷积神经网络构建的文本识别模型，识别网站数据中包含的违法文本内容，以筛选出包含违法文本内容的目标网站，可以理解的是，鉴于海量的网站数据，先通过浅层卷积神经网络针对文本进行初步筛选，在减低计算复杂度的情况下也可以保障筛选质量。

本实施例中，所述文本识别模型的构建过程，可以包括：基于输入层、单个卷积层、单个最大池化层和全连接层构建得到浅层卷积网络；获取网页源码并对所述网页源码添加相应的类别标签，并对所述网页源码进行分词操作得到多个分词以得到文本训练集；提取类别标签为违法网页的网页源码中的分词以构建模型的违法词库；利用所述文本训练数据集对所述浅层卷积网络进行训练，以得到所述文本识别模型。具体的，浅层卷积网络结构可以如图2所述，包含输入层、1个卷积层、1个最大池化层和2个全连接层；训练前先获取网页源码，然后标注网页类别，如涉黄网站、涉毒网站及合法的正常网站等；然后可以调用Jieba中文分词库对网页源码进行分词操作得到多个分词以得到文本训练集，最后基于上述文本训练数据集，通过特征工程转化将分词转换为词向量输入上述浅层卷积网络进行训练及迭代，以得到文本识别模型，同时，提取类别标签为违法网页的网页源码中的分词以不断累积模型的违法词库。

具体网络参数可以如下所示：

“embedding_length＝700embedding_dim＝64#词向量维度；

seq_length＝embedding_length#embedding序列长度；

num_classes＝3#输出层分类个数(类别数)；

num_filters＝256#卷积核数目；

kernel_size＝5#卷积核尺寸；

vocab_size＝5000#词汇表大小(词汇表为全训练样本中每个字出现次数统计，取前vocab_size的词与次数)；

hidden_dim＝128#全连接层神经元；

dropout_keep_prob＝0.5#dropout保留比例；

learning_rate＝1e-3#学习率；

batch_size＝64#每批训练大小；

num_epochs＝10#总迭代轮次#10；

print_per_batch＝100#每多少轮输出一次结果；

save_per_batch＝10#每多少轮存入tensorboard。”

本实施例中，通过近10万数据的训练后得到的文本识别模型，训练集准确度为95％，取训练集之外的20万网站监测数据进行测试，测试数据中涉黄网站数为1663，识别出1642，涉黄网站识别准确率99％；测试数据中涉赌网站数为1257，识别出1185，涉赌网站识别准确率94％；测试数据中正常网站数为9332，识别出9271，正常网站识别准确率99％，综合，网站总数12252，识别总数12098，识别准确率高达98％。

本实施例中，获得目标网站后，对目标张展的网页进行截图，以便后续根据网页截图利用图像识别进一步的进行违法网站的检测。进一步，本实施例中，所述对所述目标网站的网页进行截图操作以得到待识别图片，可以包括：通过爬虫访问所述目标网站，并根据访问结果从所述目标网站中筛选出存活网站；对所述存活网站的网页进行截图操作，以得到所述待识别图片。可以理解的是，由于黑产网站有生命周期短，变化快的特点，通常只有30％的网站是可以正常访问的，但是通过语义识别并不能过滤掉不能访问的网站，因此，为提高违法网站识别的效率避免不必要的资源浪费，本实施例中在进行截图操作之前通过爬虫访问目标网站，以此验证网页的存活状态，然后对于可访问的存活网站进行首页截图操作，以得到上述待识别图片。

步骤S13：通过图像识别确定所述待识别图片对应的目标网站的网站类型；所述网站类型包括黑产网站和被篡改的门户网站。

本实施例中，得到上述待识别图像后，通过图像识别确定待识别图片对应的目标网站是黑产网站，还是被篡改的门户网站。由于图像识别黑产网站相对于文本识别的准确性更高，因此文本识别后通过图像识别可以准确的识别哪些是违法的黑产网站哪些是被攻击篡改的门户网站。

本实施例中，所述通过图像识别确定所述待识别图片对应的目标网站的网站类型，可以包括：通过预先基于深层卷积神经网络构建的图像识别模型，确定所述待识别图片对应的目标网站的网站类型。可以理解的是，为了精确识别黑产网站，通过预先基于深层卷积神经网络构建的图像识别模型，允许图像识别模型运行时产生相对复杂的计算量，以精准确定待识别图片对应的目标网站的网站类型。

本实施例中，所述图像识别模型的构建过程，可以包括：基于输入层、池化层、多个卷积层和全连接层构建得到深层卷积网络；获取包含违法文本内容的网站的网页截图，并向所述网页截图添加对应的图像类别标签以得到图像训练集；利用所述图像训练集对所述深层卷积网络进行训练，以得到所述图像识别模型。具体构建过程中先批量获取文本识别模型初步判断检测出的含有违法文本内容的网站的网页截图；然后标注网页截图的标签，以标注的网页截图作为训练数据，训练深层卷积网络；以便利用训练好的图像识别模型对待识别图像进行识别，准确发现黄色网站、赌博网站。

其中，上述深层卷积神经网络具体可以为resnet18结构，包括输入层、1 个卷积层、1个最大池化层、16个卷积层、1个平均池化层、1个全连接层。上述网页截图可以通过部署于高带宽的服务器多进程的网页加载渲染工具，实现大批量的网页同步加载和渲染，从而短时间快速的获取网页的网页截图；且送入网络训练之前，可以对标注的网站网页截图进行预处理操作，如剪裁、缩放等，以便于进行模型训练。具体图像识别结构如图3所示，包括的组件有：数据加载、数据预处理、神经网络、N维度向量、损失函数和优化器。数据加载，首先网页截屏转化为RGB数据，然后进行数据增强，包括但不限于图像裁剪、向量化、标准化，然后输入至卷积网络，卷积输出后将卷积输出的张量(tensor)转换成N维度向量，进行分类；另外，网络采用CrossEntropyLoss 作为损失函数；优化器采用torch.optim.Adam，设置学习率初始值：lr＝0.001；学习率指数衰减采用torch.optim.lr.scheduler.ExponentialLR。

由此，本实施例针对网络黑产数据的特征，采用文本识别算子和图像识别算子，面对海量的互联网数据中的违法网站，通过浅层的卷积神经网络构建文本识别模型，快速圈选出含有违法文本的网站；此后，又通过深层卷积神经网络构建的图像识别模型，排除出含有违法文本，内容被篡改的误报网站，针对着实际应用问题，采用浅深神经网络结构的组合，实现从海量的互联网数据中准确识别黑产网站。通过实现采用本实施例方式可以5小时内完成在200万数量级的网站数据的识别工作，输出的黄赌网站数据的识别准确度达到90.5％，对网络空间中黑产的侦查打击具有实战意义。

本实施例中，所述通过图像识别确定所述待识别图片对应的目标网站的网站类型之后，还可以包括：将所述黑产网站关联的网站数据上报至ES数据库，以便通过所述ES数据库进行黑产网站查询和分析。即通过将黑产网站关联的网站数据上报至ES数据库，以便用户根据ES数据库对黑产网站进行查询和分析。

另外，本实施例中涉及数据调度及日志管理等操作都可以通过利用任务调度工具实现，如图4所示，采用海豚调度工具主动获取网络空间扫描引擎的网站数据，然后将网站数据导入文本识别模型；再将文本识别模型的输出导入批量截屏模型；之后将网站的首页截屏导入图像识别模型，最后将图像识别模型的输出按照最初的网络空间扫描引擎输出的数据维度，输入至ES数据库，供业务侧查询。

由上可见，本实施例中获取网站数据；然后，通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站，并对所述目标网站的网页进行截图操作以得到待识别图片；再通过图像识别确定所述待识别图片对应的目标网站的网站类型；所述网站类型包括黑产网站和被篡改的门户网站。可见，通过语义识别先筛选出含有违法文本内容的目标网站，此时筛选出的目标网站可能是黑产网站，也可能是被篡改的门户网站，即被攻击的合法网站，也就是说，本申请先通过语义识别粗略筛选出存在风险的目标网站，然后再通过图像识别从存在风险的目标网站中精确的判读出黑产网站，由此一来，通过语义的文本粗略筛选和图像的精准筛选，可以快速准确的从海量的互联网数据中识别出黑产网站。

相应的，本申请实施例还公开了一种违法网站识别装置，参见图5所示，该装置包括：

数据获取模块11，用于获取网站数据；

文本识别模块12，用于通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站，并对所述目标网站的网页进行截图操作以得到待识别图片；

图像识别模块13，用于通过图像识别确定所述待识别图片对应的目标网站的网站类型；所述网站类型包括黑产网站和被篡改的门户网站。

在一些具体实施例中，所述数据获取模块11具体可以包括：

数据采集单元，用于利用任务调度工具，按照数据采集配置采集网络空间探测引擎的扫描数据，以得到所述网站数据；其中，所述数据采集配置包括采集时间、采集范围、采集量中的任意一项或多项。

在一些具体实施例中，所述文本识别模块12具体可以包括：

网站筛选单元，用于通过爬虫访问所述目标网站，并根据访问结果从所述目标网站中筛选出存活网站；

截图单元，用于对所述存活网站的网页进行截图操作，以得到所述待识别图片。

在一些具体实施例中，所述违法网站识别装置具体可以包括：

数据上报单元，用于将所述黑产网站关联的网站数据上报至ES数据库，以便通过所述ES数据库进行黑产网站查询和分析。

在一些具体实施例中，所述文本识别模块12具体可以包括：

神经网络文本识别单元，用于通过预先基于浅层卷积神经网络构建的文本识别模型，识别所述网站数据中包含的违法文本内容，以筛选出包含所述违法文本内容的目标网站。

在一些具体实施例中，所述图像识别模块13具体可以包括：

神经网络图像识别单元，用于通过预先基于深层卷积神经网络构建的图像识别模型，确定所述待识别图片对应的目标网站的网站类型。

进一步的，本申请实施例还公开了一种电子设备，参见图6所示，图中的内容不能被认为是对本申请的使用范围的任何限制。

图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备 20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的违法网站识别方法中的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及包括网站数据在内的数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的违法网站识别方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的违法网站识别方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……” 限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种违法网站识别方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种违法网站识别方法，其特征在于，包括：

获取网站数据；

2.根据权利要求1所述的违法网站识别方法，其特征在于，所述获取网站数据，包括：

3.根据权利要求1所述的违法网站识别方法，其特征在于，所述对所述目标网站的网页进行截图操作以得到待识别图片，包括：

4.根据权利要求1所述的违法网站识别方法，其特征在于，所述通过图像识别确定所述待识别图片对应的目标网站的网站类型之后，还包括：

5.根据权利要求1至4任一项所述的违法网站识别方法，其特征在于，所述通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站，包括：

6.根据权利要求5所述的违法网站识别方法，其特征在于，所述文本识别模型的构建过程，包括：

7.根据权利要求5所述的违法网站识别方法，其特征在于，所述图像识别模型的构建过程，包括：

8.一种违法网站识别装置，其特征在于，包括：

数据获取模块，用于获取网站数据；

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的违法网站识别方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中计算机程序被处理器执行时实现如权利要求1至7任一项所述的违法网站识别方法。