CN112347244A - 基于混合特征分析的涉黄、涉赌网站检测方法 - Google Patents
基于混合特征分析的涉黄、涉赌网站检测方法 Download PDFInfo
- Publication number
- CN112347244A CN112347244A CN201910727964.9A CN201910727964A CN112347244A CN 112347244 A CN112347244 A CN 112347244A CN 201910727964 A CN201910727964 A CN 201910727964A CN 112347244 A CN112347244 A CN 112347244A
- Authority
- CN
- China
- Prior art keywords
- website
- yellow
- gambling
- websites
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Abstract
本发明涉及一种基于混合特征的涉黄、涉赌网站检测方法。该方法包括以下步骤:对网络数据流量进行采集,对数据包进行解析后获取网站域名地址;根据域名地址获取对应网站的完整源码和首页长截图;使用基于关键词匹配的方法对网站域名进行过滤,然后人工标注网站类别(主要包括涉赌、涉黄网站和正常网站);分别使用word2vec和BoVW提取网站的文本特征和图像特征,然后训练联合分类器模型;并使用训练好的联合分类器对待检测的网站进行分类,检测该网站是否为涉赌网站或涉黄网站。本发明通过结合图像和文本特征并且使用联合分类器进行网站分类,能够实现更加精准的网站检测,最大限度地提高涉黄、涉赌网站的自动化识别能力。
Description
技术领域
本发明涉及一种基于混合特征分析的涉黄、涉赌网站检测方法,属于计算机网络技术领域。
背景技术
随着互联网的迅速发展,越来越多的人从网站上获取、共享、交换信息。然而,互联网上的信息不仅包含了人们需要的有用知识,而且还迅速增加了令人反感的暴力、色情、赌博等有害或非法信息,给广大网民尤其是青少年的身心带来了极大的危害。因此,对涉赌网站和涉黄网站的检测对于构建健康的网络环境具有重要现实意义。
随着机器学习的不断发展,机器学习技术被应用于对非法网站进行检测。目前基于机器学习的网站分类方法可分为基于文本内容的方法、基于URL的方法和基于视觉特征的方法。基于文本内容的方法是最常见的,文本内容是网页的主要组成部分内容较丰富也容易获取,但是由于网站的日益复杂和庞大使得基于文本内容的检测容易受到“维数诅咒”。并且一些不良网站在文本内容上呈现出积极向上的内容来躲避基于文本的检测。基于URL特征的检测方法能够得到满意的结果,但是由于恶意网站具有URL变化速度快且不规律的特点,导致URL的模式需要同时进行调整。相对于前面两种方法,基于视觉特征的方法的研究相对较少,主要集中在钓鱼网站的检测上,并且基于视觉特征的分类容易受到训练集样本质量、模型的泛化能力影响导致识别率较低。
发明内容
针对现有的网站检测方法存在的问题,本发明的目的在于提供一种基于混合特征分析的涉黄、涉赌网站检测方法,通过综合分析网站的图像、文本特征,并且使用联合分类器模型对网站进行分类以提高涉赌网站、涉黄网站的检测准确率。
本发明的技术方案为:
一种基于混合特征分析的涉黄、涉赌网站检测方法,包括有以下步骤:
(1)从出口路由的镜像中采集到用户与网站之间交互的网络数据流量,使用协议分析工具对数据包进行解析,从而获取网站域名地址,构建网站域名地址库;
(2)对于网站域名地址,使用Selenium库中的WebDriver利用浏览器访问网站,获取加载完JavaScript代码的网站的源码和截图;
(3)对步骤(1)中获得的域名库使用基于关键词匹配的网站域名过滤,筛选出疑似涉赌网站、涉黄网站和正常网站的域名。然后人工核对这些网站并标注真正的涉赌网站、涉黄网站和正常网站(包括完整源码和首页截图);
(4)对网站源码进行预处理,并使用word2vec提取网站的文本特征,使用TF-IDF对得到的文本特征向量进行加权,得到新的文本特征向量(100维);
(5)针对网站首页截图,使用BoVW提取截图的图像特征,然后使用PCA进行特征降维,得到网站的图像特征向量(500维);
(6)将训练集中网站的文本特征和图像特征结合在一起构建三种综合特征向量,训练联合分类器模型(包含支持向量机模型、决策树模型和朴素贝叶斯模型);
其中将文本特征向量(100维)和图像特征向量(前250维)首尾相接作为综合特征向量(350维)分别放入决策树中进行训练得到决策树模型。将文本特征向量(100维)和图像特征向量(后250维)作为综合特征向量(350维)首尾相接放入朴素贝叶斯中进行训练得到朴素贝叶斯模型。将文本特征向量(100维)和图像特征向量(500维)首尾相接作为综合特征向量(600维)放到SVM中得到SVM模型;
(7)将网站的测试数据集按照(6)中的步骤得到综合特征向量,然后输入到训练得到的三种模型中,进行类别的预测。网站最后的类别由投票机制产生,选取票数多的类别作为网站最终的类别。
本发明的一种基于混合特征分析的涉黄、涉赌网站检测方法的有益效果是:
(1)通过使用Selenium库中WebDriver提供的相应的接口函数通过采用时间延迟方式,模仿鼠标操作实现自动滚动网站页面到底部,从而获得对应最终目标网站的完整长截图和网站源码。通过动态加载JavaScrip代码以及设置时间延迟,避免涉黄、涉赌网站采用重定向或者将不良内容隐藏在JavaScrip脚本里来躲避检测。并且与直接用截图工具对网站进行简单的窗口截图相比,该步骤能够保留网站的完整视觉画面,考虑全面的网站视觉特征;
(2)在使用word2vec提取网站文本特征时,使用TF-IDF对文本特征向量进行加权,这样做不仅可以准确地描述单词的语义,而且可以正确表达不同单词的重要性。在使用BoVW提取网站图像特征时,在对SIFT特征点进行聚类之前,先使用PCA进行降维,剔除对图像匹配贡献不大的特征点的同时缩短了聚类和构建图像特征向量的时间;
(3)与采用单一分类器进行网站分类相比,本发明在采用了联合分类器进行网站分类,通过采用三种不同的分类器进行综合分析的基础上使用投票机制具有准确率高、识别率高的优点。
附图说明
为本发明的附图说明如下:
图1为本发明提供的基于混合特征分析的涉黄、涉赌网站检测方法的总体流程图;
图2为本发明提供的基于关键词匹配的网站域名过滤流程图;
图3为本发明提供的网站样本的文本特征提取流程图
图4为本发明提供的网站样本的图像特征提取流程图。
具体实施方式
下面结合附图对本发明的具体实施方法进行进一步详细描述。
一种基于混合特征分析的涉黄、涉赌网站检测方法,如图1所示,包括步骤如下:
(1)从出口路由的镜像中采集到用户与网站之间交互的网络数据流量,通过相应的协议分析工具对数据包进行解析,从而获取所述数据包中的网站域名地址,构建网站域名地址库。
(2)针对(1)中得到的网站域名地址使用Selenium库中的WebDriver获取加载完JavaScript代码后网站的源码和截图。
考虑到在利用浏览器访问页面时,往往只能获得页面的源码,而无法获得JS动态加载的信息,并且一些违法网站有时会采取页面跳转的方式规避检测,也就是说用户最终访问到的网站的URL与初始点击的URL并不相同;并且在对网页截图时,往往仅能截取到初始URL对应的网页截图,而无法正确获得目标网站的网页截图。所以本发明针对步骤(1)中获得的域名数据库中的每一个域名,通过使用Selenium库中的WebDriver调用Chrome浏览器实现动态渲染网站页面,可以获取加载完JavaScript代码之后的完整网站源码。使用WebDriver提供了相应的接口函数采用时间延迟能够在实现网页的自动滚动之后获得对应最终目标网站的完整长截图。
(3)然后对收集到网站域名进行基于关键词匹配的域名过滤,获得疑似涉赌、涉黄网站和正常网站的域名地址。然后人工筛查疑似涉赌、涉黄网站、正常网站以后对得到的真正的涉赌、涉黄网站、正常网站域名数据集(包括网站完整源码和首页截图)进行类别标注。并且从数据集中选出1050个涉赌网站、1300个涉黄网网站、3500个正常网站作为实验数据集(其中80%作为训练样本,20%作为测试样本)。
其中基于关键词匹配的网站域名过滤的流程图如2所示,首先通过大量的访问涉赌、涉黄网站的相关内容,基于经验积累形成涉赌网站、涉黄网站的关键字,并根据关键字对于网站的不同重要程度(出现的次数多少、敏感程度)赋予关键字不同的权重,从而形成涉赌网站、涉黄网站的关键字权重列表。对于(1)中得到的网站域名,分别将涉赌网站、涉黄网站的关键字应用到它的网站源码里进行关键词的硬匹配。然后将计算得到的网站关键字总权值与事先设置的涉赌和涉黄网站的关键字权重阈值进行比较,如果大于赌博网站或者涉黄网站对应的阈值,则认为该网站疑似涉赌网站或者涉黄网站;否则,则认为其疑似正常网站。
(4)提取网站样本的文本特征,得到网站源码的文本特征向量。网站样本的文本特征提取流程图如图3所示,具体分为以下6个步骤:
①首先对得到的每个类别下的网站源码进行预处理,获得去标签、分词、去停用词之后的文本内容。
首先去除网页源码中所有的标签,只留下文本内容,使用NLPIR-ICTCLAS2016分词系统对去除标签后的文本内容进行中文分词和词性标注。引入现有的停用词表结合词性分析,对分词后的文本内容进行过滤从而得到预处理后的词汇集合。此处的过滤操作主要是删除分词后的文本内容中的停用词、虚词(包括副词、介词、连词、助词)以及标点符号。
②采用TF-IDF计算出①中得到的词汇集合中每个词汇的TF-IDF值并进行归一化。其中,TF-IDF值越大,则意味着这个词成为一个关键词的概率就越大。
③训练word2vec模型,将来自收集的涉黄、涉赌网站样本和维基百科语料库(已经过预处理操作,包括分词、去停用词)作为训练模型的语料,得到word2vec词向量模型。在word2vec模型训练过程中使用的是skip-gram模型,训练窗口设置为6,采样阈值设置为1e-4,生成一个100维的词向量。
word2vec使用了一个两层神经网络,word2vec将一个大型文本语料库作为其输入,经过训练生成一个向量空间,语料库中的每个单词都在这个空间中分配一个对应的向量。
④利用②中所述word2vec模型将上述①中的得到的训练语料中每一个样本的中的词转化为词向量,此处词向量表示为W=[W1 ,W2 ,…,W100]。
⑤使用TF-IDF值对原始词向量进行加权。将④中得到的词对应的词向量W=[W1 ,W2,…,W100]乘以该词在②中的得到的TF-IDF值β,得到新的词向量W’=[βW1 , βW2 ,…, βW100]。这样做不仅可以准确地描述单词的语义,而且可以正确表达不同单词的重要性。
⑥对网站样本中词汇集合的经过步骤⑤得到的词向量进行求和,然后除以词向量数量做平均化处理得到相应网站的文档向量。
(5)提取网站样本的图像特征,得到网站截图的图像特征向量,如图4所示,所述步骤包括:
①使用SFIT算法提取网站截图样本的SFIT特征点。针对网站样本数据集中的每个网站的截图按照一定的大小分割为若干个图像块,再对这些图像块进行SFIT特征提取,每个图像块对应一个128维的SFIT特征向量。然后对得到的SFIT特征向量进行PCA降维,剔除对图像匹配贡献不大的特征点。
提取特征点的目的是应用一系列平滑和重采样图像的变换函数从尺度空间中找出最大和最小点,然后丢弃低对比度候选点和沿边缘的边缘响应点,从而留下局部不变的特征点。SFIT算法提取的SFIT描述子对图像尺度变换、旋转、亮度变化等保持不变性,对视角变化、仿射变换也保持一定的稳定性。
②利用K-means算法构建视觉词典。由于①中提取出的SIFT特征向量的数据量过大,容易造成计算时间过长。所以采用K-means聚类算法对所有关键点特征进行聚类。本实例中设置500个聚类中心,聚类后使用这500个聚类中心作为视觉词汇,所有视觉词汇构成视觉词典,此时视觉词典中包含500个视觉词汇。
③计算每一幅图像中的SIFT特征点与视觉词典中词汇的欧氏距离,将SFIT特征点映射为距其最近的聚类中心(视觉单词)。
④然后通过统计视觉词汇的词频,构建视觉词汇直方图,所得的视觉词汇直方图作为整幅图像的全局视觉特征向量。即最后可以将整个图像表示为一个500维的特征向量。
(6)将网站的文本特征和图像特征结合在一起作为该网站的综合特征,训练联合分类器模型(包括决策树模型、朴素贝叶斯模型和支持向量机模型)。
其中将文本特征向量(100维)和图像特征向量(前250维)首尾相接作为综合特征向量(350维)分别放入决策树中进行训练得到决策树模型。将文本特征向量(100维)和图像特征向量(后250维)作为综合特征向量(350维)首尾相接放入朴素贝叶斯中进行训练得到朴素贝叶斯模型。将文本特征向量(100维)和图像特征向量(500维)首尾相接作为综合特征向量(600维)放到支持向量机中得到支持向量机模型。
(7)将网站的测试数据集(包含文本特征和图像特征)按照(6)中的步骤得到综合特征向量输入到训练得到的三种模型中,进行类别的预测。网站最后的类别由投票机制产生,票数多的类别最为网站最终的类别。
Claims (6)
1.一种基于混合特征分析的涉黄、涉赌网站检测方法,其特征在于,包括以下步骤:
A、从出口路由的镜像中采集到用户与网站之间交互的网络数据流量,使用协议分析工具对数据包进行解析,从而获取网站域名地址;
B、对于网站域名地址,使用Selenium库中的WebDriver利用浏览器访问网站,获取加载完JavaScript代码的网站的源码和截图;
C、用于对数据采集模块获得的域名集使用基于关键词匹配的网站域名过滤,筛选出疑似涉赌网站、涉黄网站和正常网站的域名,然后人工核对这些网站并标注真正的涉赌网站、涉黄网站和正常网站(包括完整源码和首页截图);
D、对网站源码进行预处理,并使用word2vec提取网站的文本特征,经加权处理后得到文本特征向量;
E、针对网站首页截图,使用BoVW和PCA提取网站截图的图像特征,得到图像特征向量;
F、将训练集中网站的文本特征向量和图像特征向量结合在一起形成三种综合特征向量,构建联合分类器模型(包含支持向量机模型、决策树模型和朴素贝叶斯模型);
G、将网站的测试数据集按照步骤E得到的三种综合特征向量分别输入到训练得到的三种模型中,进行类别的预测,网站最后的类别由投票机制产生,选取票数多的类别作为网站最终的类别。
2.根据权利要求1所述的基于混合特征分析的涉黄、涉赌网站检测方法,其特征在于,所述的步骤B中获得网站的截图的方法为:
使用Selenium库中WebDriver提供的相应的接口函数通过采用时间延迟方式,模仿鼠标操作实现自动滚动网站页面到底部,从而获得对应最终目标网站的完整长截图。
3.根据权利要求1所述的基于混合特征分析的涉黄、涉赌网站检测方法,其特征在于,所述的步骤C中基于关键词匹配的网站域名过滤的步骤如下:
C1、首先通过大量的访问涉赌、涉黄网站的相关内容,基于经验积累涉赌网站、涉黄网站的关键字,并根据关键字对于网站的不同重要程度(出现的次数多少、敏感程度)赋予关键字不同的权重,从而形成涉赌网站、涉黄网站的关键字权重列表;
C2、然后对于C1中得到的网站域名将分别涉赌网站、涉黄网站的关键字应用到它的网站源码里进行关键词的硬匹配并进行加权计算,然后将计算得到的网站关键字总权值与事先设置的涉赌和涉黄网站的关键字权重阈值进行比较,如果大于涉赌网站或者涉黄网站对应的阈值,则认为该网站疑似涉赌网站或者涉黄网站;否则,则认为其疑似正常网站。
4.根据权利要求1所述的基于混合特征分析的涉黄、涉赌网站检测方法,其特征在于,所述的步骤D具体包括如下步骤:
D1、对网站样本集中的网站源码进行预处理操作得到样本的词汇集合,预处理操作包括去标签、分词、去停用词;
D2、采用TF-IDF计算出D1中得到的样本词汇集合中每个词汇的TF-IDF值并进行归一化;
D3、将来自收集的涉黄、涉赌网站样本和维基百科语料库(已经过预处理操作,包括分词、去停用词)训练word2vec模型,得到word2vec词向量模型;
D4、利用D3中所述word2vec模型将D1中的得到每一个样本的中的词汇转化为词向量,此处词向量表示为W= [W1 ,W2 ,…,Wn];
D5、使用TF-IDF对原始词向量进行加权,将④中得到的词对应的词向量W= [W1 ,W2,…,Wn]乘以该词在D2中的得到的TF-IDF值β,得到新的词向量 W’=[βW1 , βW2 ,…, βWn];
D6、对网站样本中词汇集合的经过步骤D5得到的词向量进行求和,然后除以词向量数量做平均化处理得到相应网站的文档向量。
5.根据权利要求1所述的基于混合特征分析的涉黄、涉赌网站检测方法,其特征在于,所述的步骤E具体包括如下步骤:
E1、使用SFIT算法提取涉赌网站、涉黄网站和正常网站截图样本的SFIT特征点,形成SFIT特征向量,然后使用PCA算法对SFIT特征向量进行降维,剔除对图像匹配贡献不大的特征点;
E2、所以采用K-means聚类算法对所有关键点特征进行聚类,将聚类中心作为视觉词汇构建视觉词典;
E3、计算每一幅图像中的SIFT特征点与视觉词典中词汇的欧氏距离,将SFIT特征点映射为距其最近的视觉词汇,并通过统计视觉词汇的词频,构建视觉词汇直方图,所得的视觉词汇直方图作为整幅图像的全局图像特征向量。
6.根据权利要求1所述的基于混合特征分析的涉黄、涉赌网站检测方法,其特征在于,所述的步骤F具体包括如下步骤:
F1、将训练集中网站的文本特征向量(100维)和图像特征向量(前250维)首尾相接作为综合特征向量(350维)分别放入决策树中进行训练得到决策树模型;
F2、将训练集中网站的文本特征向量(100维)和图像特征向量(后250维)作为综合特征向量(350维)首尾相接放入朴素贝叶斯中进行训练得到朴素贝叶斯模型;
F3、将训练集中网站的文本特征向量(100维)和图像特征向量(500维)首尾相接作为综合特征向量(600维)放到SVM中得到SVM模型;
F4、决策树模型、朴素贝叶斯模型和SVM模型构成所述的联合分类器模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910727964.9A CN112347244B (zh) | 2019-08-08 | 2019-08-08 | 基于混合特征分析的涉黄、涉赌网站检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910727964.9A CN112347244B (zh) | 2019-08-08 | 2019-08-08 | 基于混合特征分析的涉黄、涉赌网站检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347244A true CN112347244A (zh) | 2021-02-09 |
CN112347244B CN112347244B (zh) | 2023-07-25 |
Family
ID=74367414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910727964.9A Active CN112347244B (zh) | 2019-08-08 | 2019-08-08 | 基于混合特征分析的涉黄、涉赌网站检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347244B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948737A (zh) * | 2021-03-15 | 2021-06-11 | 亿海蓝(北京)数据技术股份公司 | Html页面截图方法及系统 |
CN113034331A (zh) * | 2021-05-06 | 2021-06-25 | 国家计算机网络与信息安全管理中心上海分中心 | 一种基于多模态融合的安卓赌博应用识别方法和系统 |
CN113157998A (zh) * | 2021-02-28 | 2021-07-23 | 江苏匠算天诚信息科技有限公司 | 通过ip巡检网站、并判断网站类别的方法、系统、设备及介质 |
CN113285957A (zh) * | 2021-06-15 | 2021-08-20 | 广州数智网络科技有限公司 | 基于clickhouse的赌博网站检测方法 |
CN113312568A (zh) * | 2021-03-25 | 2021-08-27 | 罗普特科技集团股份有限公司 | 一种基于HTML源代码和网页快照的Web信息抽取方法与系统 |
CN113407886A (zh) * | 2021-07-10 | 2021-09-17 | 广州数智网络科技有限公司 | 网络犯罪平台识别方法、系统、设备和计算机存储介质 |
CN113554023A (zh) * | 2021-07-20 | 2021-10-26 | 广州数智网络科技有限公司 | 一种网页自动取证的方法 |
CN113688905A (zh) * | 2021-08-25 | 2021-11-23 | 中国互联网络信息中心 | 一种有害域名核验方法及装置 |
CN113839918A (zh) * | 2021-07-20 | 2021-12-24 | 广州数智网络科技有限公司 | 一种网络违法平台用户活动预警的方法 |
CN114005004A (zh) * | 2021-12-30 | 2022-02-01 | 成都无糖信息技术有限公司 | 一种基于图片实例级特征的诈骗网站识别方法及系统 |
CN114285627A (zh) * | 2021-12-21 | 2022-04-05 | 安天科技集团股份有限公司 | 流量检测方法及装置、电子设备和计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140280570A1 (en) * | 2013-03-15 | 2014-09-18 | Social Iq Networks | Detecting, classifying, and enforcing policies on social networking activity |
US20140344195A1 (en) * | 2013-05-20 | 2014-11-20 | Southern Methodist University | System and method for machine learning and classifying data |
CN104217160A (zh) * | 2014-09-19 | 2014-12-17 | 中国科学院深圳先进技术研究院 | 一种中文钓鱼网站检测方法及系统 |
CN104391860A (zh) * | 2014-10-22 | 2015-03-04 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
CN107341183A (zh) * | 2017-05-31 | 2017-11-10 | 中国科学院信息工程研究所 | 一种基于暗网网站综合特征的网站分类方法 |
CN107957872A (zh) * | 2017-10-11 | 2018-04-24 | 中国互联网络信息中心 | 一种完整网站源码获取方法及非法网站检测方法、系统 |
CN108052523A (zh) * | 2017-11-03 | 2018-05-18 | 中国互联网络信息中心 | 基于卷积神经网络的赌博网站识别方法和系统 |
CN108111478A (zh) * | 2017-11-07 | 2018-06-01 | 中国互联网络信息中心 | 一种基于语义理解的网络钓鱼识别方法和装置 |
CN108628741A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 网页页面测试方法、装置、电子设备和介质 |
CN110020254A (zh) * | 2017-12-30 | 2019-07-16 | 惠州学院 | 基于用户ip和视频拷贝的识别有害视频的方法及系统 |
CN110020256A (zh) * | 2017-12-30 | 2019-07-16 | 惠州学院 | 基于用户id和片尾内容的识别有害视频的方法及系统 |
-
2019
- 2019-08-08 CN CN201910727964.9A patent/CN112347244B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140280570A1 (en) * | 2013-03-15 | 2014-09-18 | Social Iq Networks | Detecting, classifying, and enforcing policies on social networking activity |
US20140344195A1 (en) * | 2013-05-20 | 2014-11-20 | Southern Methodist University | System and method for machine learning and classifying data |
CN104217160A (zh) * | 2014-09-19 | 2014-12-17 | 中国科学院深圳先进技术研究院 | 一种中文钓鱼网站检测方法及系统 |
CN104391860A (zh) * | 2014-10-22 | 2015-03-04 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
CN107341183A (zh) * | 2017-05-31 | 2017-11-10 | 中国科学院信息工程研究所 | 一种基于暗网网站综合特征的网站分类方法 |
CN107957872A (zh) * | 2017-10-11 | 2018-04-24 | 中国互联网络信息中心 | 一种完整网站源码获取方法及非法网站检测方法、系统 |
CN108052523A (zh) * | 2017-11-03 | 2018-05-18 | 中国互联网络信息中心 | 基于卷积神经网络的赌博网站识别方法和系统 |
CN108111478A (zh) * | 2017-11-07 | 2018-06-01 | 中国互联网络信息中心 | 一种基于语义理解的网络钓鱼识别方法和装置 |
CN110020254A (zh) * | 2017-12-30 | 2019-07-16 | 惠州学院 | 基于用户ip和视频拷贝的识别有害视频的方法及系统 |
CN110020256A (zh) * | 2017-12-30 | 2019-07-16 | 惠州学院 | 基于用户id和片尾内容的识别有害视频的方法及系统 |
CN108628741A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 网页页面测试方法、装置、电子设备和介质 |
Non-Patent Citations (1)
Title |
---|
冯庆 等: ""基于集成学习的钓鱼网页深度检测系统"", vol. 25, no. 10, pages 47 - 56 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157998A (zh) * | 2021-02-28 | 2021-07-23 | 江苏匠算天诚信息科技有限公司 | 通过ip巡检网站、并判断网站类别的方法、系统、设备及介质 |
CN112948737A (zh) * | 2021-03-15 | 2021-06-11 | 亿海蓝(北京)数据技术股份公司 | Html页面截图方法及系统 |
CN113312568B (zh) * | 2021-03-25 | 2022-06-17 | 罗普特科技集团股份有限公司 | 一种基于HTML源代码和网页快照的Web信息抽取方法与系统 |
CN113312568A (zh) * | 2021-03-25 | 2021-08-27 | 罗普特科技集团股份有限公司 | 一种基于HTML源代码和网页快照的Web信息抽取方法与系统 |
CN113034331A (zh) * | 2021-05-06 | 2021-06-25 | 国家计算机网络与信息安全管理中心上海分中心 | 一种基于多模态融合的安卓赌博应用识别方法和系统 |
CN113285957A (zh) * | 2021-06-15 | 2021-08-20 | 广州数智网络科技有限公司 | 基于clickhouse的赌博网站检测方法 |
CN113407886A (zh) * | 2021-07-10 | 2021-09-17 | 广州数智网络科技有限公司 | 网络犯罪平台识别方法、系统、设备和计算机存储介质 |
CN113554023A (zh) * | 2021-07-20 | 2021-10-26 | 广州数智网络科技有限公司 | 一种网页自动取证的方法 |
CN113839918A (zh) * | 2021-07-20 | 2021-12-24 | 广州数智网络科技有限公司 | 一种网络违法平台用户活动预警的方法 |
CN113688905A (zh) * | 2021-08-25 | 2021-11-23 | 中国互联网络信息中心 | 一种有害域名核验方法及装置 |
CN114285627A (zh) * | 2021-12-21 | 2022-04-05 | 安天科技集团股份有限公司 | 流量检测方法及装置、电子设备和计算机可读存储介质 |
CN114285627B (zh) * | 2021-12-21 | 2023-12-22 | 安天科技集团股份有限公司 | 流量检测方法及装置、电子设备和计算机可读存储介质 |
CN114005004A (zh) * | 2021-12-30 | 2022-02-01 | 成都无糖信息技术有限公司 | 一种基于图片实例级特征的诈骗网站识别方法及系统 |
CN114005004B (zh) * | 2021-12-30 | 2022-04-01 | 成都无糖信息技术有限公司 | 一种基于图片实例级特征的诈骗网站识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112347244B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347244B (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN108376151B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
US8788503B1 (en) | Content identification | |
US9251248B2 (en) | Using context to extract entities from a document collection | |
CN108550054B (zh) | 一种内容质量评估方法、装置、设备和介质 | |
WO2012064976A1 (en) | Learning tags for video annotation using latent subtags | |
EP3690676A1 (en) | Method, apparatus, computer device and storage medium for verifying community question answer data | |
CN110019790B (zh) | 文本识别、文本监控、数据对象识别、数据处理方法 | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN111460250A (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN113806482A (zh) | 视频文本跨模态检索方法、装置、存储介质和设备 | |
CN110825998A (zh) | 一种网站识别方法及可读存储介质 | |
CN106294786A (zh) | 一种代码搜索方法和系统 | |
Patel et al. | Dynamic lexicon generation for natural scene images | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
Sabir et al. | Visual re-ranking with natural language understanding for text spotting | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN114117038A (zh) | 一种文档分类方法、装置、系统及电子设备 | |
CN113486664A (zh) | 文本数据可视化分析方法、装置、设备及存储介质 | |
CN111898528B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN113722492A (zh) | 一种意图识别方法及装置 | |
CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
CN111597423B (zh) | 一种文本分类模型可解释性方法的性能评价方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |