CN113688346A - 一种违法网站识别方法、装置、设备及存储介质 - Google Patents
一种违法网站识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113688346A CN113688346A CN202110937883.9A CN202110937883A CN113688346A CN 113688346 A CN113688346 A CN 113688346A CN 202110937883 A CN202110937883 A CN 202110937883A CN 113688346 A CN113688346 A CN 113688346A
- Authority
- CN
- China
- Prior art keywords
- website
- illegal
- websites
- data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012216 screening Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 230000004083 survival effect Effects 0.000 claims description 7
- 208000001613 Gambling Diseases 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 208000003443 Unconsciousness Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001481833 Coryphaena hippurus Species 0.000 description 1
- 206010027146 Melanoderma Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 235000008216 herbs Nutrition 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/554—Detecting local intrusion or implementing counter-measures involving event detection and direct action
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种违法网站识别方法、装置、设备及存储介质。该方法包括:获取网站数据;通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站,并对所述目标网站的网页进行截图操作以得到待识别图片;通过图像识别确定所述待识别图片对应的目标网站的网站类型;所述网站类型包括黑产网站和被篡改的门户网站。通过语义识别粗略筛选出存在风险的目标网站,然后再通过图像识别从存在风险的目标网站中精确的判读出黑产网站,结合语义的文本粗略筛选和图像的精准筛选,可以快速准确的从海量的互联网数据中识别出黑产网站。
Description
技术领域
本发明涉及网络安全领域,特别涉及一种违法网站识别方法、装置、设 备及存储介质。
背景技术
近年来,新型涉网犯罪方法层出不穷,色情直播,裸聊诈骗,赌博网站, 非法引流等各种形式的黑产侵蚀网络世界。其中黄色网站,赌博网站,作为 网络黑产的主流形式,存在灵活性高,IP变换频繁的特点。虽然能够通过IP 的封号,实现部分黄色赌博网站的屏蔽,但是黄赌网站背后的研发团队,通 过变换IP,黄赌网站就如野草般,野火烧不尽,春风吹又生。网络空间中的黄 色赌博黑产并没有实质性的减少。现有技术中,通过关键词的规则匹配或自 然语言处理技术等方式进行网站检测,但误报率较高;现有技术中还通过基 于神经网络的图像识别,但无法完成于每日百万量级的网站数据的识别任务, 更无法并实现黄赌数据及时更新的需求。因此,如何对全网空间的海量的黑 产网站进行快速且准确识别,为用户输送实时的黑产数据,实质性地减少网 络空间中的黄赌黑产是目前亟需解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种违法网站识别方法、装置、设备 及介质,能够快速准确的从海量的互联网数据中识别出黑产网站。其具体方 案如下:
第一方面,本申请公开了一种违法网站识别方法,包括:
获取网站数据;
通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站, 并对所述目标网站的网页进行截图操作以得到待识别图片;
通过图像识别确定所述待识别图片对应的目标网站的网站类型;所述网 站类型包括黑产网站和被篡改的门户网站。
可选的,所述获取网站数据,包括:
利用任务调度工具,按照数据采集配置采集网络空间探测引擎的扫描数 据,以得到所述网站数据;其中,所述数据采集配置包括采集时间、采集范 围、采集量中的任意一项或多项。
可选的,所述对所述目标网站的网页进行截图操作以得到待识别图片, 包括:
通过爬虫访问所述目标网站,并根据访问结果从所述目标网站中筛选出 存活网站;
对所述存活网站的网页进行截图操作,以得到所述待识别图片。
可选的,所述通过图像识别确定所述待识别图片对应的目标网站的网站 类型之后,还包括:
将所述黑产网站关联的网站数据上报至ES数据库,以便通过所述ES数 据库进行黑产网站查询和分析。
可选的,所述通过语义识别从所述网站数据中筛选出包含违法文本内容 的目标网站,包括:
通过预先基于浅层卷积神经网络构建的文本识别模型,识别所述网站数 据中包含的违法文本内容,以筛选出包含所述违法文本内容的目标网站;
所述通过图像识别确定所述待识别图片对应的目标网站的网站类型,包 括:
通过预先基于深层卷积神经网络构建的图像识别模型,确定所述待识别 图片对应的目标网站的网站类型。
可选的,所述文本识别模型的构建过程,包括:
基于输入层、单个卷积层、单个最大池化层和全连接层构建得到浅层卷 积网络;
获取网页源码并对所述网页源码添加相应的类别标签,并对所述网页源 码进行分词操作得到多个分词以得到文本训练集;
提取类别标签为违法网页的网页源码中的分词以构建模型的违法词库;
利用所述文本训练数据集对所述浅层卷积网络进行训练,以得到所述文 本识别模型。
可选的,所述图像识别模型的构建过程,包括:
基于输入层、池化层、多个卷积层和全连接层构建得到深层卷积网络;
获取包含违法文本内容的网站的网页截图,并向所述网页截图添加对应 的图像类别标签以得到图像训练集;
利用所述图像训练集对所述深层卷积网络进行训练,以得到所述图像识 别模型。
第二方面,本申请公开了一种违法网站识别装置,包括:
数据获取模块,用于获取网站数据;
文本识别模块,用于通过语义识别从所述网站数据中筛选出包含违法文 本内容的目标网站,并对所述目标网站的网页进行截图操作以得到待识别图 片;
图像识别模块,用于通过图像识别确定所述待识别图片对应的目标网站 的网站类型;所述网站类型包括黑产网站和被篡改的门户网站。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的违法网站识别方法。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程 序;其中计算机程序被处理器执行时实现前述的违法网站识别方法。
本申请中,首先获取网站数据;然后,通过语义识别从所述网站数据中 筛选出包含违法文本内容的目标网站,并对所述目标网站的网页进行截图操 作以得到待识别图片;再通过图像识别确定所述待识别图片对应的目标网站 的网站类型;所述网站类型包括黑产网站和被篡改的门户网站。可见,通过 语义识别先筛选出含有违法文本内容的目标网站,此时筛选出的目标网站可 能是黑产网站,也可能是被篡改的门户网站,即被攻击的合法网站,也就是 说,本申请先通过语义识别粗略筛选出存在风险的目标网站,然后再通过图 像识别从存在风险的目标网站中精确的判读出黑产网站,由此一来,通过语 义的文本粗略筛选和图像的精准筛选,可以快速准确的从海量的互联网数据 中识别出黑产网站。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种违法网站识别方法流程图;
图2为本申请提供的一种具体的浅层卷积网络结构示意图;
图3为本申请提供的一种具体的图像识别模块结构示意图;
图4为本申请提供的一种具体的数据流示意图;
图5为本申请提供的一种违法网站识别装置结构示意图;
图6为本申请提供的一种电子设备结构图。
具体实施方式
现有技术中,通过关键词的规则匹配或自然语言处理技术等方式进行网 站检测,但误报率较高;现有技术中还通过基于神经网络的图像识别,但无 法完成于每日百万量级的网站数据的识别任务,更无法并实现黄赌数据及时 更新的需求。为克服上述技术问题,本申请提出一种违法网站识别方法,通 过结合语义的文本粗略筛选和图像的精准筛选,可以快速准确的从海量的互 联网数据中识别出黑产网站。
本申请实施例公开了一种违法网站识别方法,参见图1所示,该方法可以 包括以下步骤:
步骤S11:获取网站数据。
本实施例中,首先批量获取网站数据,网站数据包括网站的IP、端口、 域名以及网页源码等数据。
本实施例中,所述获取网站数据,可以包括:利用任务调度工具,按照 数据采集配置采集网络空间探测引擎的扫描数据,以得到所述网站数据;其 中,所述数据采集配置包括采集时间、采集范围、采集量中的任意一项或多 项。可以理解的是,通过一些任务调度工具可以实现定时执行任务,例如, 根据采集配置每日凌晨2点采集Sumap网络空间探测引擎在前一天对全网网 站的扫描数据,以得到上述网站数据。
步骤S12:通过语义识别从所述网站数据中筛选出包含违法文本内容的目 标网站,并对所述目标网站的网页进行截图操作以得到待识别图片。
本实施例中,得到上述网站数据后,首先通过语义识别从上述网站数据 中筛选出包含违法文本内容的目标网站。可以理解的是,对于黄赌等违法网 站,搜索引擎是不收录的,因此只能通过黑产网站运行,但黑客经常会利用 网站系统漏洞,把正常的网页篡改成“黄赌”的网页;且防护力量比较弱的 教育、企业等网站是最容易被黑的网站,黑客在攻陷这些防护力量薄弱的网 站后,会小部分篡改后的网站作为黑产的门户网站,进行维护和运营。大部 分被攻陷后的网站会成为黑产的引流网站,黑产在粗暴地篡改完网站内容后 便弃置不顾了,严格意义上,用于引流的被篡改的门户网站,并不是真正的 黑产网站;也就是说,本实施例中首先通过语义识别初步筛选出存在风险的 所有网站。
本实施例中,所述通过语义识别从所述网站数据中筛选出包含违法文本 内容的目标网站,可以包括:通过预先基于浅层卷积神经网络构建的文本识 别模型,识别所述网站数据中包含的违法文本内容,以筛选出包含所述违法 文本内容的目标网站;可以理解的是,通过预先基于浅层卷积神经网络构建 的文本识别模型,识别网站数据中包含的违法文本内容,以筛选出包含违法 文本内容的目标网站,可以理解的是,鉴于海量的网站数据,先通过浅层卷 积神经网络针对文本进行初步筛选,在减低计算复杂度的情况下也可以保障筛选质量。
本实施例中,所述文本识别模型的构建过程,可以包括:基于输入层、 单个卷积层、单个最大池化层和全连接层构建得到浅层卷积网络;获取网页 源码并对所述网页源码添加相应的类别标签,并对所述网页源码进行分词操 作得到多个分词以得到文本训练集;提取类别标签为违法网页的网页源码中 的分词以构建模型的违法词库;利用所述文本训练数据集对所述浅层卷积网 络进行训练,以得到所述文本识别模型。具体的,浅层卷积网络结构可以如 图2所述,包含输入层、1个卷积层、1个最大池化层和2个全连接层;训练 前先获取网页源码,然后标注网页类别,如涉黄网站、涉毒网站及合法的正 常网站等;然后可以调用Jieba中文分词库对网页源码进行分词操作得到多个 分词以得到文本训练集,最后基于上述文本训练数据集,通过特征工程转化 将分词转换为词向量输入上述浅层卷积网络进行训练及迭代,以得到文本识 别模型,同时,提取类别标签为违法网页的网页源码中的分词以不断累积模 型的违法词库。
具体网络参数可以如下所示:
“embedding_length=700embedding_dim=64#词向量维度;
seq_length=embedding_length#embedding序列长度;
num_classes=3#输出层分类个数(类别数);
num_filters=256#卷积核数目;
kernel_size=5#卷积核尺寸;
vocab_size=5000#词汇表大小(词汇表为全训练样本中每个字出现次数 统计,取前vocab_size的词与次数);
hidden_dim=128#全连接层神经元;
dropout_keep_prob=0.5#dropout保留比例;
learning_rate=1e-3#学习率;
batch_size=64#每批训练大小;
num_epochs=10#总迭代轮次#10;
print_per_batch=100#每多少轮输出一次结果;
save_per_batch=10#每多少轮存入tensorboard。”
本实施例中,通过近10万数据的训练后得到的文本识别模型,训练集准 确度为95%,取训练集之外的20万网站监测数据进行测试,测试数据中涉黄 网站数为1663,识别出1642,涉黄网站识别准确率99%;测试数据中涉赌网 站数为1257,识别出1185,涉赌网站识别准确率94%;测试数据中正常网站 数为9332,识别出9271,正常网站识别准确率99%,综合,网站总数12252, 识别总数12098,识别准确率高达98%。
本实施例中,获得目标网站后,对目标张展的网页进行截图,以便后续 根据网页截图利用图像识别进一步的进行违法网站的检测。进一步,本实施 例中,所述对所述目标网站的网页进行截图操作以得到待识别图片,可以包 括:通过爬虫访问所述目标网站,并根据访问结果从所述目标网站中筛选出 存活网站;对所述存活网站的网页进行截图操作,以得到所述待识别图片。 可以理解的是,由于黑产网站有生命周期短,变化快的特点,通常只有30% 的网站是可以正常访问的,但是通过语义识别并不能过滤掉不能访问的网站,因此,为提高违法网站识别的效率避免不必要的资源浪费,本实施例中在进 行截图操作之前通过爬虫访问目标网站,以此验证网页的存活状态,然后对 于可访问的存活网站进行首页截图操作,以得到上述待识别图片。
步骤S13:通过图像识别确定所述待识别图片对应的目标网站的网站类 型;所述网站类型包括黑产网站和被篡改的门户网站。
本实施例中,得到上述待识别图像后,通过图像识别确定待识别图片对 应的目标网站是黑产网站,还是被篡改的门户网站。由于图像识别黑产网站 相对于文本识别的准确性更高,因此文本识别后通过图像识别可以准确的识 别哪些是违法的黑产网站哪些是被攻击篡改的门户网站。
本实施例中,所述通过图像识别确定所述待识别图片对应的目标网站的 网站类型,可以包括:通过预先基于深层卷积神经网络构建的图像识别模型, 确定所述待识别图片对应的目标网站的网站类型。可以理解的是,为了精确 识别黑产网站,通过预先基于深层卷积神经网络构建的图像识别模型,允许 图像识别模型运行时产生相对复杂的计算量,以精准确定待识别图片对应的 目标网站的网站类型。
本实施例中,所述图像识别模型的构建过程,可以包括:基于输入层、 池化层、多个卷积层和全连接层构建得到深层卷积网络;获取包含违法文本 内容的网站的网页截图,并向所述网页截图添加对应的图像类别标签以得到 图像训练集;利用所述图像训练集对所述深层卷积网络进行训练,以得到所 述图像识别模型。具体构建过程中先批量获取文本识别模型初步判断检测出 的含有违法文本内容的网站的网页截图;然后标注网页截图的标签,以标注 的网页截图作为训练数据,训练深层卷积网络;以便利用训练好的图像识别模型对待识别图像进行识别,准确发现黄色网站、赌博网站。
其中,上述深层卷积神经网络具体可以为resnet18结构,包括输入层、1 个卷积层、1个最大池化层、16个卷积层、1个平均池化层、1个全连接层。上 述网页截图可以通过部署于高带宽的服务器多进程的网页加载渲染工具,实 现大批量的网页同步加载和渲染,从而短时间快速的获取网页的网页截图; 且送入网络训练之前,可以对标注的网站网页截图进行预处理操作,如剪裁、 缩放等,以便于进行模型训练。具体图像识别结构如图3所示,包括的组件有: 数据加载、数据预处理、神经网络、N维度向量、损失函数和优化器。数据加载,首先网页截屏转化为RGB数据,然后进行数据增强,包括但不限于图像 裁剪、向量化、标准化,然后输入至卷积网络,卷积输出后将卷积输出的张 量(tensor)转换成N维度向量,进行分类;另外,网络采用CrossEntropyLoss 作为损失函数;优化器采用torch.optim.Adam,设置学习率初始值:lr=0.001; 学习率指数衰减采用torch.optim.lr.scheduler.ExponentialLR。
由此,本实施例针对网络黑产数据的特征,采用文本识别算子和图像识 别算子,面对海量的互联网数据中的违法网站,通过浅层的卷积神经网络构 建文本识别模型,快速圈选出含有违法文本的网站;此后,又通过深层卷积 神经网络构建的图像识别模型,排除出含有违法文本,内容被篡改的误报网 站,针对着实际应用问题,采用浅深神经网络结构的组合,实现从海量的互 联网数据中准确识别黑产网站。通过实现采用本实施例方式可以5小时内完成 在200万数量级的网站数据的识别工作,输出的黄赌网站数据的识别准确度达 到90.5%,对网络空间中黑产的侦查打击具有实战意义。
本实施例中,所述通过图像识别确定所述待识别图片对应的目标网站的 网站类型之后,还可以包括:将所述黑产网站关联的网站数据上报至ES数据 库,以便通过所述ES数据库进行黑产网站查询和分析。即通过将黑产网站关 联的网站数据上报至ES数据库,以便用户根据ES数据库对黑产网站进行查 询和分析。
另外,本实施例中涉及数据调度及日志管理等操作都可以通过利用任务 调度工具实现,如图4所示,采用海豚调度工具主动获取网络空间扫描引擎的 网站数据,然后将网站数据导入文本识别模型;再将文本识别模型的输出导 入批量截屏模型;之后将网站的首页截屏导入图像识别模型,最后将图像识 别模型的输出按照最初的网络空间扫描引擎输出的数据维度,输入至ES数据 库,供业务侧查询。
由上可见,本实施例中获取网站数据;然后,通过语义识别从所述网站 数据中筛选出包含违法文本内容的目标网站,并对所述目标网站的网页进行 截图操作以得到待识别图片;再通过图像识别确定所述待识别图片对应的目 标网站的网站类型;所述网站类型包括黑产网站和被篡改的门户网站。可见, 通过语义识别先筛选出含有违法文本内容的目标网站,此时筛选出的目标网 站可能是黑产网站,也可能是被篡改的门户网站,即被攻击的合法网站,也 就是说,本申请先通过语义识别粗略筛选出存在风险的目标网站,然后再通 过图像识别从存在风险的目标网站中精确的判读出黑产网站,由此一来,通 过语义的文本粗略筛选和图像的精准筛选,可以快速准确的从海量的互联网 数据中识别出黑产网站。
相应的,本申请实施例还公开了一种违法网站识别装置,参见图5所示, 该装置包括:
数据获取模块11,用于获取网站数据;
文本识别模块12,用于通过语义识别从所述网站数据中筛选出包含违法 文本内容的目标网站,并对所述目标网站的网页进行截图操作以得到待识别 图片;
图像识别模块13,用于通过图像识别确定所述待识别图片对应的目标网 站的网站类型;所述网站类型包括黑产网站和被篡改的门户网站。
由上可见,本实施例中获取网站数据;然后,通过语义识别从所述网站 数据中筛选出包含违法文本内容的目标网站,并对所述目标网站的网页进行 截图操作以得到待识别图片;再通过图像识别确定所述待识别图片对应的目 标网站的网站类型;所述网站类型包括黑产网站和被篡改的门户网站。可见, 通过语义识别先筛选出含有违法文本内容的目标网站,此时筛选出的目标网 站可能是黑产网站,也可能是被篡改的门户网站,即被攻击的合法网站,也 就是说,本申请先通过语义识别粗略筛选出存在风险的目标网站,然后再通 过图像识别从存在风险的目标网站中精确的判读出黑产网站,由此一来,通 过语义的文本粗略筛选和图像的精准筛选,可以快速准确的从海量的互联网 数据中识别出黑产网站。
在一些具体实施例中,所述数据获取模块11具体可以包括:
数据采集单元,用于利用任务调度工具,按照数据采集配置采集网络空 间探测引擎的扫描数据,以得到所述网站数据;其中,所述数据采集配置包 括采集时间、采集范围、采集量中的任意一项或多项。
在一些具体实施例中,所述文本识别模块12具体可以包括:
网站筛选单元,用于通过爬虫访问所述目标网站,并根据访问结果从所 述目标网站中筛选出存活网站;
截图单元,用于对所述存活网站的网页进行截图操作,以得到所述待识 别图片。
在一些具体实施例中,所述违法网站识别装置具体可以包括:
数据上报单元,用于将所述黑产网站关联的网站数据上报至ES数据库, 以便通过所述ES数据库进行黑产网站查询和分析。
在一些具体实施例中,所述文本识别模块12具体可以包括:
神经网络文本识别单元,用于通过预先基于浅层卷积神经网络构建的文 本识别模型,识别所述网站数据中包含的违法文本内容,以筛选出包含所述 违法文本内容的目标网站。
在一些具体实施例中,所述图像识别模块13具体可以包括:
神经网络图像识别单元,用于通过预先基于深层卷积神经网络构建的图 像识别模型,确定所述待识别图片对应的目标网站的网站类型。
进一步的,本申请实施例还公开了一种电子设备,参见图6所示,图中的 内容不能被认为是对本申请的使用范围的任何限制。
图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备 20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信 接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算 机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施 例公开的违法网站识别方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压; 通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵 循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进 行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据, 其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、 磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及包 括网站数据在内的数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算 机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可 以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能 够用于完成前述任一实施例公开的由电子设备20执行的违法网站识别方法的 计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程 序。
进一步的,本申请实施例还公开了一种计算机存储介质,所述计算机存 储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并 执行时,实现前述任一实施例公开的违法网站识别方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。 对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述 的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、 处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存 储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编 程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任 意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……” 限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存 在另外的相同要素。
以上对本发明所提供的一种违法网站识别方法、装置、设备及介质进行 了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述, 以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对 于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围 上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种违法网站识别方法,其特征在于,包括:
获取网站数据;
通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站,并对所述目标网站的网页进行截图操作以得到待识别图片;
通过图像识别确定所述待识别图片对应的目标网站的网站类型;所述网站类型包括黑产网站和被篡改的门户网站。
2.根据权利要求1所述的违法网站识别方法,其特征在于,所述获取网站数据,包括:
利用任务调度工具,按照数据采集配置采集网络空间探测引擎的扫描数据,以得到所述网站数据;其中,所述数据采集配置包括采集时间、采集范围、采集量中的任意一项或多项。
3.根据权利要求1所述的违法网站识别方法,其特征在于,所述对所述目标网站的网页进行截图操作以得到待识别图片,包括:
通过爬虫访问所述目标网站,并根据访问结果从所述目标网站中筛选出存活网站;
对所述存活网站的网页进行截图操作,以得到所述待识别图片。
4.根据权利要求1所述的违法网站识别方法,其特征在于,所述通过图像识别确定所述待识别图片对应的目标网站的网站类型之后,还包括:
将所述黑产网站关联的网站数据上报至ES数据库,以便通过所述ES数据库进行黑产网站查询和分析。
5.根据权利要求1至4任一项所述的违法网站识别方法,其特征在于,所述通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站,包括:
通过预先基于浅层卷积神经网络构建的文本识别模型,识别所述网站数据中包含的违法文本内容,以筛选出包含所述违法文本内容的目标网站;
所述通过图像识别确定所述待识别图片对应的目标网站的网站类型,包括:
通过预先基于深层卷积神经网络构建的图像识别模型,确定所述待识别图片对应的目标网站的网站类型。
6.根据权利要求5所述的违法网站识别方法,其特征在于,所述文本识别模型的构建过程,包括:
基于输入层、单个卷积层、单个最大池化层和全连接层构建得到浅层卷积网络;
获取网页源码并对所述网页源码添加相应的类别标签,并对所述网页源码进行分词操作得到多个分词以得到文本训练集;
提取类别标签为违法网页的网页源码中的分词以构建模型的违法词库;
利用所述文本训练数据集对所述浅层卷积网络进行训练,以得到所述文本识别模型。
7.根据权利要求5所述的违法网站识别方法,其特征在于,所述图像识别模型的构建过程,包括:
基于输入层、池化层、多个卷积层和全连接层构建得到深层卷积网络;
获取包含违法文本内容的网站的网页截图,并向所述网页截图添加对应的图像类别标签以得到图像训练集;
利用所述图像训练集对所述深层卷积网络进行训练,以得到所述图像识别模型。
8.一种违法网站识别装置,其特征在于,包括:
数据获取模块,用于获取网站数据;
文本识别模块,用于通过语义识别从所述网站数据中筛选出包含违法文本内容的目标网站,并对所述目标网站的网页进行截图操作以得到待识别图片;
图像识别模块,用于通过图像识别确定所述待识别图片对应的目标网站的网站类型;所述网站类型包括黑产网站和被篡改的门户网站。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的违法网站识别方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中计算机程序被处理器执行时实现如权利要求1至7任一项所述的违法网站识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110937883.9A CN113688346A (zh) | 2021-08-16 | 2021-08-16 | 一种违法网站识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110937883.9A CN113688346A (zh) | 2021-08-16 | 2021-08-16 | 一种违法网站识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113688346A true CN113688346A (zh) | 2021-11-23 |
Family
ID=78580030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110937883.9A Pending CN113688346A (zh) | 2021-08-16 | 2021-08-16 | 一种违法网站识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688346A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021064A (zh) * | 2022-01-06 | 2022-02-08 | 北京微步在线科技有限公司 | 网站分类方法、装置、设备及存储介质 |
CN117951389A (zh) * | 2024-03-21 | 2024-04-30 | 江西珉轩大数据有限公司 | 一种基于深度学习的非法网站识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052523A (zh) * | 2017-11-03 | 2018-05-18 | 中国互联网络信息中心 | 基于卷积神经网络的赌博网站识别方法和系统 |
CN108566399A (zh) * | 2018-04-23 | 2018-09-21 | 中国互联网络信息中心 | 钓鱼网站识别方法及系统 |
CN110275958A (zh) * | 2019-06-26 | 2019-09-24 | 北京市博汇科技股份有限公司 | 网站信息识别方法、装置和电子设备 |
CN110516074A (zh) * | 2019-10-23 | 2019-11-29 | 中国人民解放军国防科技大学 | 一种基于深度学习的网站主题分类方法及装置 |
CN111191695A (zh) * | 2019-12-19 | 2020-05-22 | 杭州安恒信息技术股份有限公司 | 一种基于深度学习的网站图片篡改检测方法 |
US20210004628A1 (en) * | 2019-05-29 | 2021-01-07 | Wangsu Science & Technology Co., Ltd. | Method and system for website detection |
CN112565250A (zh) * | 2020-12-04 | 2021-03-26 | 中国移动通信集团内蒙古有限公司 | 一种网站识别方法、装置、设备及存储介质 |
-
2021
- 2021-08-16 CN CN202110937883.9A patent/CN113688346A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052523A (zh) * | 2017-11-03 | 2018-05-18 | 中国互联网络信息中心 | 基于卷积神经网络的赌博网站识别方法和系统 |
CN108566399A (zh) * | 2018-04-23 | 2018-09-21 | 中国互联网络信息中心 | 钓鱼网站识别方法及系统 |
US20210004628A1 (en) * | 2019-05-29 | 2021-01-07 | Wangsu Science & Technology Co., Ltd. | Method and system for website detection |
CN110275958A (zh) * | 2019-06-26 | 2019-09-24 | 北京市博汇科技股份有限公司 | 网站信息识别方法、装置和电子设备 |
CN110516074A (zh) * | 2019-10-23 | 2019-11-29 | 中国人民解放军国防科技大学 | 一种基于深度学习的网站主题分类方法及装置 |
CN111191695A (zh) * | 2019-12-19 | 2020-05-22 | 杭州安恒信息技术股份有限公司 | 一种基于深度学习的网站图片篡改检测方法 |
CN112565250A (zh) * | 2020-12-04 | 2021-03-26 | 中国移动通信集团内蒙古有限公司 | 一种网站识别方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021064A (zh) * | 2022-01-06 | 2022-02-08 | 北京微步在线科技有限公司 | 网站分类方法、装置、设备及存储介质 |
CN117951389A (zh) * | 2024-03-21 | 2024-04-30 | 江西珉轩大数据有限公司 | 一种基于深度学习的非法网站识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110233849B (zh) | 网络安全态势分析的方法及系统 | |
CN109005145B (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN106557695B (zh) | 一种恶意应用检测方法和系统 | |
CN111107048B (zh) | 一种钓鱼网站检测方法、装置和存储介质 | |
CN112989348B (zh) | 攻击检测方法、模型训练方法、装置、服务器及存储介质 | |
CN108229170B (zh) | 利用大数据和神经网络的软件分析方法和装置 | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN108566399A (zh) | 钓鱼网站识别方法及系统 | |
CN114528457B (zh) | Web指纹检测方法及相关设备 | |
CN113688346A (zh) | 一种违法网站识别方法、装置、设备及存储介质 | |
CN113033966B (zh) | 风险目标识别方法、装置、电子设备和存储介质 | |
CN112948897B (zh) | 一种基于drae与svm相结合的网页防篡改检测方法 | |
Gong et al. | Model uncertainty based annotation error fixing for web attack detection | |
CN114722323A (zh) | 一种基于网页内容安全审查的系统及方法 | |
CN113918794A (zh) | 企业网络舆情效益分析方法、系统、电子设备及存储介质 | |
CN116862243B (zh) | 一种基于神经网络的企业风险分析预测方法、系统及介质 | |
CN111125704B (zh) | 一种网页挂马识别方法及系统 | |
CN113918936A (zh) | Sql注入攻击检测的方法以及装置 | |
CN109309677B (zh) | 一种基于语义协同的Web应用动态防御方法 | |
CN108171074B (zh) | 一种基于内容关联的Web追踪自动检测方法 | |
CN114169432B (zh) | 一种基于深度学习的跨站脚本攻击识别方法 | |
CN112199573B (zh) | 一种非法交易主动探测方法及系统 | |
CN114124448A (zh) | 一种基于机器学习的跨站脚本攻击识别方法 | |
CN110413909B (zh) | 基于机器学习的大规模嵌入式设备在线固件智能识别方法 | |
Htwe et al. | Noise removing from Web pages using neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |