CN103605794A - 一种网站分类方法 - Google Patents

一种网站分类方法 Download PDF

Info

Publication number
CN103605794A
CN103605794A CN201310651985.XA CN201310651985A CN103605794A CN 103605794 A CN103605794 A CN 103605794A CN 201310651985 A CN201310651985 A CN 201310651985A CN 103605794 A CN103605794 A CN 103605794A
Authority
CN
China
Prior art keywords
website
svm
obtains
input
html
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310651985.XA
Other languages
English (en)
Other versions
CN103605794B (zh
Inventor
胡俊
王明华
云晓春
李佳
贺敏
纪玉春
何能强
高胜
朱天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201310651985.XA priority Critical patent/CN103605794B/zh
Publication of CN103605794A publication Critical patent/CN103605794A/zh
Application granted granted Critical
Publication of CN103605794B publication Critical patent/CN103605794B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网站分类方法,包括:获取网站的多维属性,利用集合对多维属性进行表示;针对表示多维属性的集合,进行自编码特征学习;利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将该结构输入到步骤S103得到的SVM中,进行网站分类,得到网站的类别。本发明的网站分类方法能高效准确的按照行业类别对网站进行分类,并且能快速侦测具有恶意特征的钓鱼网页;采用多维属性描述的方式,增加系统的便利性与通用性;且系统具有极强的稳定性。

Description

一种网站分类方法
技术领域
本发明涉及网络安全技术领域,特别是涉及一种网站分类方法。
背景技术
伴随着互联网产业的蓬勃发展,钓鱼欺诈、木马暗链和隐私泄露等网络安全事件频发,对网络用户造成了严重的财产、精神伤害。如何能够快速智能的识别钓鱼网站,以及针对不同类型网站给出合适的隐私保护等级,成为当前安全领域研究的热点。这就需要一种智能准确的网站分类的技术来处理海量互联网网站。
目前,对于网站分类技术,国内外的研究并不算很广泛,而且分析中使用的网站特征描述较为单一。总体而言,主要有如下几个研究方向:(1)基于网页文本。John Pierre最早提出将整个网站上网页的文字或标签集合为一个整体构造空间向量,利用文本分类的方法进行分类,实验结果并不理想。(2)基于网站结构。Hans-Peter Kriegel等人利用网站中各类类别网页的出现频率来进行网站分类,Majid Yazdani等人在此基础上提出了隐马尔科夫的模型。这类网站分类模型特别适用单个类别网站的选取和判断。(3)基于用户HTTP行为分析。这一方法绕开了网页本身的处理,利用HTTP协议的行为来处理网站分类问题。在网站分类的类别划分上,还没有一个统一的标准。但是,用户在同一类别网站上的业务使用过程是类似的,而且针对钓鱼网站之间也具有较强相似性。目前,最大的国际性人工网站分类目录是Open Directory Project,其中包含部分中文网站。就英文网站分类目录而言,Yahoo!Directory和Alexa是比较著名的。
深度学习(Deep Learning)是最近兴起的一种新的机器学习模型,其能够得到更好地表示复杂数据的特征,同时由于模型的层次、参数很多,效率足够,因此,深度学习模型有能力表示类型互联网网站这样大规模数据,能够在大规模训练数据上取得更好的效果。此外,从模式识别特征和分类器的角度,深度学习框架将特征选取和分类器结合到一个框架中,用数据去学习特征,在使用中减少了手工选取特征的巨大工作量(这是目前工业界工程师付出努力最多的方面),因此,不仅仅效果可以更好,而且,使用起来也有很多方便之处,因此,是十分合适的一套解决方案框架,
自编码(AutoEncoder)方法是深度学习方法中最常用的一种算法。该算法通过设置一个神经网络的输出层矢量等于输入矢量,并使隐层神经元的数量少于输入层,然后训练调整其参数,得到每一层中的权重。训练好的网络在隐层即为输入特征向量的压缩表示方法。这些压缩后的特征在解决分类问题时有较好的效果。
发明内容
本发明要解决的技术问题是提供一种网站分类方法,用以解决现有技术中网站分类效果不佳的问题。
为解决上述技术问题,本发明提供一种网站分类方法,包括:
步骤S101,获取网站的多维属性,利用集合对多维属性进行表示;
步骤S102,针对表示多维属性的集合,进行自编码特征学习;
步骤S103,利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;
步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将与该网站对应的自编码学习结果输入到步骤S103得到的用于进行网站分类的支持向量机SVM中,进行网站分类,得到网站的类别。
进一步,步骤S101具体包括:
步骤S1011,提取网站首页超文本标记语言HTML标题、HTML正文和层叠样式表CSS主题色彩;
步骤S1012,对所述HTML标题和HTML正文进行分词处理,得到单词向量集合B={w1,w2,…,wn},n为正整数;
步骤S1013,对每一个在向量B的单词wi,统计其在网页HTML的标签<a>、<h1>-<h6>、<title>、<em>、<strong>中出现的次数,按出现的次数加权后排名,得到排名后新单词向量集合B’={w’1,w’2,…,w’m};其中i=1,2,……,n;m为正整数,m<=n;
步骤S1014,统计所述CSS主题色彩中使用最多的3种颜色类别,得到色彩向量描述集合C,C={c1,c2,c3};
步骤S1015,获取属性值,建立属性描述集合S;其中,属性值包括下述中的一项或多项:网站服务器类型、Poweredby信息(驱动信息)、脚本语言类型、返回状态码、跳转次数、网站出处、外域个数、内域个数和页面大小;
步骤S1016,根据集合B’、C和S,建立网站多维属性样本集合V,V=B’∪C∪S;其中∪表示并集。
进一步,步骤S102具体包括:
步骤S1021,构建三层神经网络N,其输入特征数量等于输出数量,并且输入特征数量等于步骤S1016中得到网站多维属性集合V的特征数量;
步骤S1022,用网站多维属性集合V作为三层神经网络N的输入值Input,计算当前三层神经网络环境下的输出值Output;
步骤S1023,比较输入值Input与输出值Output,计算二之差是否达到目标阈值;如果是,则转步骤S1025,如果否,则转步骤S1024;
步骤S1024,根据梯度下降法调整三层神经网络N的参数,并返回到步骤S1022;
步骤S1025,完成学习,中间隐层节点向量V’即为自编码学习结果。
进一步,步骤S103具体包括:
步骤S1031,构建支持向量机SVM,使用向量V’作为输入;
步骤S1032,利用开源数据库,标记设定数量的样本网站的行业类别,得到已标注样本集L;
步骤S1033,利用SVM对已标注样本集L中的标记数据样本进行训练与学习;判断该SVM的分类结果是否满足设定要求,如果是,则以该SVM作为进行分类的SVM;如果否,则修改SVM的参数,然后对该SVM继续进行训练和学习,通过迭代训练,直至其分类结果满足设定要求,则以最终得到SVM作为进行分类的SVM。
本发明有益效果如下:
本发明的网站分类方法,能高效准确的按照行业类别对网站进行分类,并且对于具有恶意特征的钓鱼网页,能快速侦测出来;采用多维属性描述的方式,增加系统的便利性与通用性;采用机器学习的方法,并且采样的样本较为广泛,系统具有极强的稳定性。
附图说明
图1是本发明实施例中一种网站分类方法的流程图;
图2是本发明实施例中三层神经网络的结构示意图;
图3是本发明实施例中进行网站聚类学习及网站分类的流程图;
图4是本发明实施例中一个建立网站多维描述与聚集分类的示意图。
具体实施方式
以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
如图1所示,本发明实施例涉及一种基于自编码深度学习模型的网站分类方法,包括以下步骤:
步骤S101,获取网站的多维属性,利用集合对多维属性进行表示:
本步骤具体包括以下步骤:
步骤S1011,对网站首页进行HTML(HyperText Markup Language,超文本标记语言)处理,提取出首页HTML标题、HTML正文和CSS(Cascading StyleSheets,层叠样式表)主题色彩;
步骤S1012,对步骤S1011获得的HTML标题和HTML正文进行分词处理,按照出现频率由高到底统计预定比例(例如,前50%)的所有名词,并得到单词向量B={w1,w2,…,wn},n为正整数;
步骤S1013,对每一个在向量B的单词wi,统计其在网页HTML的标签<a>、<h1>-<h6>、<title>、<em>、<strong>中出现的次数,按出现的次数加权后排名,得到排名后新单词向量B’={w’1,w’2,…,w’m},m为正整数,m<=n;
步骤S1014,对步骤S1011获得的CSS主题色彩统计使用最多的3种颜色类别,得到色彩向量描述集合C,C={c1,c2,c3};
步骤S1015,收集网站服务器类型、Poweredby信息(驱动信息)、脚本语言类型、返回状态码、跳转次数、网站出处、外域个数、内域个数和页面大小这些属性值,建立属性描述集合S;
步骤S1016,综合步骤S1013、步骤S1014和步骤S1015步得到的向量B’,C,S,建立网站多维属性样本集合V,V=B’∪C∪S={v1,v2,…,vk},k为正整数;∪表示并集。
步骤S102,针对表示多维属性的集合,进行自编码特征学习。
本步骤具体包括以下步骤:
步骤S1021,构建一个如图2所示的三层神经网络N,输入特征数量等于输出数量,并且输入特征数量等于步骤S1016中得到网站多维属性集合V的特征数量;
步骤S1022,用样本集合V作为三层神经网络N的输入值Input,计算当前三层神经网络环境下的输出值Output;
步骤S1023,比较输入值Input与输出值Output,计算二之差是否达到目标阈值;如果是,则转步骤S1025,如果否,则转步骤S1024;
步骤S1024,当误差未达到目标阈值时,则根据梯度下降法调整三层神经网络N的参数,并返回到步骤S1022;
步骤S1025,当误差达到阈值时,则表示完成学习,图2中,中间隐层节点向量V’即为自编码学习结果;
步骤S103,利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM。
如图3所示,本步骤具体包括:
步骤S1031,构建支持向量机(SVM),使用向量V’作为输入;
步骤S1032,利用开源数据库,标记设定数量的样本网站的行业类别,得到已标注样本集L;设定数量通常都是少量的样本网站;
步骤S1033,利用SVM对步骤S1032得到已标注样本集L中的标记数据样本进行训练与学习;即用SVM进行网站分类,如果其分类结果满足设定要求,则以该SVM作为最终进行分类的SVM;如果该SVM的分类结果不满足设定要求,则修改SVM的参数后,对该SVM继续进行训练和学习,通过迭代训练,直至其分类结果满足设定要求,则以最终得到SVM作为最终进行分类的SVM。经过上述训练和学习,最终得到的SVM,就具备了进行网站分类的功能,其分类结果也是准确可信的。
例如,标注样本集L是100个网站(预先已经标注网站类别),利用构建的SVM进行分类,用分类结果与正确的网站类别进行比对,如果分类正确的是50个,错误的是50个,假设全部分类正确才符合要求,则该SVM的分类结果不满足设定要求,修改SVM的参数后,对该SVM继续进行训练和学习,此时,可以补充50个网站的样本数据,重新对100个网站进行分类;也可以只对上次分错的50个样本网站进行分类,只是,此种情况下,需要将预先设定的符合要求的阈值与本次分类的总样本数据进行对应。修改后的SVM再次进行分类,然后判断其分类结果是否满足设定要求,如果不满足,则继续进行迭代训练,直至满足;如果满足,则以修改后的SVM作为最终进行分类的SVM。
步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果V’;然后将与该网站对应的自编码学习结果V’输入到步骤S103得到的用于进行网站分类的支持向量机SVM中,进行网站分类,得到网站的类别。
下面,如图4所示,以实例具体描述如下:
(1)网站多维属性集合表示:
(11)对优酷网站首页进行HTML处理,提取出首页HTML标题、HTML正文和CSS主题色彩;
(12)对(11)获得的HTML标题和HTML正文进行分词处理,统计出现频率在前50%的所有名词,并得到单词向量B={视频,播放,更新,排行,热播,Flash};
(13)对每一个在向量B的单词,统计在网页HTML如下标签<a>、<h1>-<h6>、<title>、<em>、<strong>中出现的次数,按出现的次数加权后排名,得到排名后新单词向量B’={视频,Flash,更新,播放,热播,排行};
(14)对(11)获得的CSS主题色彩统计使用最多的前3中颜色类别,得到色彩向量描述C={白色,蓝色,灰色};
(15)收集网站服务器类型,Poweredby信息,脚本语言类型,返回状态码,跳转次数,网站出处,外域和内域个数,页面大小这些属性值,建立属性描述集合S={Linux,优酷网,Javascript,202,1,10,500};
(16)综合(13)、(14)和(15)步得到的向量B’,C,S,建立网站多维属性样本集合V,V=B’∪C∪S={视频,Flash,更新,…,Javascript,202,1,10,500}。
(2)自编码特征学习:
(21)构建一个如图2所示三层神经网络N,输入特征数量等于输出数量,并且输入特征数量等于(16)步中得到建立网站多维属性集合V特征数量;
(22)用样本集合V作为神经网络N的输入Input,计算当前神经网络环境下的输出值Output;
(23)比较的输入Input与输出值Output,计算误差是否达到目标阈值;
(24)未达到阈值,则根据梯度下降法调整神经网络N参数,并返回到步骤(22);
(25)达到阈值,完成学习,中间隐层节点向量V’即为自编码学习结果;
(3)网站聚类学习,如图3所示过程:
(31)构建支持向量机(SVM),使用向量V’作为的输入;
(32)利用开源数据库,标记少量样本网站的行业类别得到已标注样本集L;
(33)利用SVM对(32)步得到的少量标记数据样本进行训练与学习;
(34)将(16)步得到的未经标注的样本加入到训练所得的初始分类器中进行预测,预测结果与某一类别的余弦距离小于阈值,则代表分类取得的置信度越高;
(35)将置信度较高的文本连同其分类标注一起加入到对应类别集中,作为新的训练样本集进行再学习;
(36)迭代训练,直到所有样本分类完全为止。
(4)对于需要进行分类的网站,先进行步骤(1)、(2),将得到学习结果V’输入到步骤(3)训练得到的SVM中,进行分类,得到网站的类型,网站分类结束。
本发明的网站分类方法能高效准确的按照行业类别对网站进行分类,并且对于具有恶意特征的钓鱼网页,能快速侦测出来;采用多维属性描述的方式,增加系统的便利性与通用性;采用机器学习的方法,并且采样的样本较为广泛,系统具有极强的稳定性。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (4)

1.一种网站分类方法,其特征在于,包括:
步骤S101,获取网站的多维属性,利用集合对多维属性进行表示;
步骤S102,针对表示多维属性的集合,进行自编码特征学习;
步骤S103,利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;
步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将与该网站对应的自编码学习结果输入到步骤S103得到的用于进行网站分类的支持向量机SVM中,进行网站分类,得到网站的类别。
2.如权利要求1所述的网站分类方法,其特征在于,步骤S101具体包括:
步骤S1011,提取网站首页超文本标记语言HTML标题、HTML正文和层叠样式表CSS主题色彩;
步骤S1012,对所述HTML标题和HTML正文进行分词处理,得到单词向量集合B={w1,w2,…,wn},n为正整数;
步骤S1013,对每一个在向量B的单词wi,统计其在网页HTML的标签<a>、<h1>-<h6>、<title>、<em>、<strong>中出现的次数,按出现的次数加权后排名,得到排名后新单词向量集合B’={w’1,w’2,…,w’m};其中i=1,2,……,n;m为正整数,m<=n;
步骤S1014,统计所述CSS主题色彩中使用最多的3种颜色类别,得到色彩向量描述集合C,C={c1,c2,c3};
步骤S1015,获取属性值,建立属性描述集合S;其中,属性值包括下述中的一项或多项:网站服务器类型、Poweredby信息(驱动信息)、脚本语言类型、返回状态码、跳转次数、网站出处、外域个数、内域个数和页面大小;
步骤S1016,根据集合B’、C和S,建立网站多维属性样本集合V,V=B’∪C∪S;其中∪表示并集。
3.如权利要求2所述的网站分类方法,其特征在于,步骤S102具体包括:
步骤S1021,构建三层神经网络N,其输入特征数量等于输出数量,并且输入特征数量等于步骤S1016中得到网站多维属性集合V的特征数量;
步骤S1022,用网站多维属性集合V作为三层神经网络N的输入值Input,计算当前三层神经网络环境下的输出值Output;
步骤S1023,比较输入值Input与输出值Output,计算二之差是否达到目标阈值;如果是,则转步骤S1025,如果否,则转步骤S1024;
步骤S1024,根据梯度下降法调整三层神经网络N的参数,并返回到步骤S1022;
步骤S1025,完成学习,中间隐层节点向量V’即为自编码学习结果。
4.如权利要求3所述的网站分类方法,其特征在于,步骤S103具体包括:
步骤S1031,构建支持向量机SVM,使用向量V’作为输入;
步骤S1032,利用开源数据库,标记设定数量的样本网站的行业类别,得到已标注样本集L;
步骤S1033,利用SVM对已标注样本集L中的标记数据样本进行训练与学习;判断该SVM的分类结果是否满足设定要求,如果是,则以该SVM作为进行分类的SVM;如果否,则修改SVM的参数,然后对该SVM继续进行训练和学习,通过迭代训练,直至其分类结果满足设定要求,则以最终得到SVM作为进行分类的SVM。
CN201310651985.XA 2013-12-05 2013-12-05 一种网站分类方法 Expired - Fee Related CN103605794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310651985.XA CN103605794B (zh) 2013-12-05 2013-12-05 一种网站分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310651985.XA CN103605794B (zh) 2013-12-05 2013-12-05 一种网站分类方法

Publications (2)

Publication Number Publication Date
CN103605794A true CN103605794A (zh) 2014-02-26
CN103605794B CN103605794B (zh) 2017-02-15

Family

ID=50124016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310651985.XA Expired - Fee Related CN103605794B (zh) 2013-12-05 2013-12-05 一种网站分类方法

Country Status (1)

Country Link
CN (1) CN103605794B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361059A (zh) * 2014-11-03 2015-02-18 中国科学院自动化研究所 一种基于多示例学习的有害信息识别和网页分类方法
CN105653651A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种行业网站的发现整理方法及装置
CN106022356A (zh) * 2016-05-11 2016-10-12 华东师范大学 一种基于梯度下降法的多视图gepsvm网页分类算法
CN106354836A (zh) * 2016-08-31 2017-01-25 南威软件股份有限公司 一种广告页面的预测方法和装置
CN106777234A (zh) * 2016-12-27 2017-05-31 南京安讯科技有限责任公司 一种自反馈式网络社交平台分类方法
CN106910080A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种根据人群聚类结果进行分析的方法及装置
CN106909932A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种网站聚类的方法及装置
CN106910079A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种人群聚类的方法及装置
CN106909569A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种根据网站聚类结果进行分析的方法及装置
CN107204956A (zh) * 2016-03-16 2017-09-26 腾讯科技(深圳)有限公司 网站识别方法及装置
CN107341183A (zh) * 2017-05-31 2017-11-10 中国科学院信息工程研究所 一种基于暗网网站综合特征的网站分类方法
CN108170761A (zh) * 2017-12-23 2018-06-15 合肥弹刚信息科技有限公司 一种基于海量文献信息的可视化分析系统及其方法
CN108268993A (zh) * 2017-01-04 2018-07-10 阿里巴巴集团控股有限公司 基于自编码神经网络的电子业务风险识别方法和装置
CN108337255A (zh) * 2018-01-30 2018-07-27 华中科技大学 一种基于web自动化测试和宽度学习的钓鱼网站检测方法
CN108829898A (zh) * 2018-06-29 2018-11-16 无码科技(杭州)有限公司 Html内容页发布时间提取方法和系统
CN108959289A (zh) * 2017-05-18 2018-12-07 北京京东尚科信息技术有限公司 网站类别获取方法和装置
CN109299346A (zh) * 2018-10-31 2019-02-01 长春理工大学 一种无效地址网页的识别方法及系统
WO2019101197A1 (zh) * 2017-11-24 2019-05-31 新华三信息安全技术有限公司 网页请求识别
CN110084067A (zh) * 2019-05-07 2019-08-02 欢动无限(北京)科技有限公司 一种基于隐私链的隐私保护方法及装置
CN110266675A (zh) * 2019-06-12 2019-09-20 成都积微物联集团股份有限公司 一种基于深度学习的xss攻击自动化检测方法
CN110334262A (zh) * 2019-06-06 2019-10-15 阿里巴巴集团控股有限公司 一种模型训练方法、装置及电子设备
CN110472131A (zh) * 2019-08-20 2019-11-19 杭州安恒信息技术股份有限公司 一种网站行业类型识别的方法、系统及设备
US10997256B2 (en) 2015-05-08 2021-05-04 Guangzhou Ucweb Computer Technology Co., Ltd. Webpage classification method and apparatus, calculation device and machine readable storage medium
CN113688926A (zh) * 2021-08-31 2021-11-23 济南大学 一种网站行为分类方法、系统、存储介质及设备
CN113779559A (zh) * 2021-09-13 2021-12-10 北京百度网讯科技有限公司 用于识别作弊网站的方法、装置、电子设备和介质
CN117633675A (zh) * 2024-01-25 2024-03-01 成都无糖信息技术有限公司 一种基于模型级联的网络公害网站发现方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254111A (zh) * 2010-05-17 2011-11-23 北京知道创宇信息技术有限公司 恶意网站检测方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254111A (zh) * 2010-05-17 2011-11-23 北京知道创宇信息技术有限公司 恶意网站检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱秀华: "BP神经网络在网页自动分类中的应用", 《现代情报》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361059A (zh) * 2014-11-03 2015-02-18 中国科学院自动化研究所 一种基于多示例学习的有害信息识别和网页分类方法
CN104361059B (zh) * 2014-11-03 2018-03-27 中国科学院自动化研究所 一种基于多示例学习的有害信息识别和网页分类方法
US10997256B2 (en) 2015-05-08 2021-05-04 Guangzhou Ucweb Computer Technology Co., Ltd. Webpage classification method and apparatus, calculation device and machine readable storage medium
CN106910080A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种根据人群聚类结果进行分析的方法及装置
CN106909932A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种网站聚类的方法及装置
CN106910079A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种人群聚类的方法及装置
CN106909569A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种根据网站聚类结果进行分析的方法及装置
CN105653651A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种行业网站的发现整理方法及装置
CN105653651B (zh) * 2015-12-29 2019-04-02 云南电网有限责任公司电力科学研究院 一种行业网站的发现整理方法及装置
CN107204956A (zh) * 2016-03-16 2017-09-26 腾讯科技(深圳)有限公司 网站识别方法及装置
CN107204956B (zh) * 2016-03-16 2020-06-23 腾讯科技(深圳)有限公司 网站识别方法及装置
CN106022356B (zh) * 2016-05-11 2019-07-26 华东师范大学 一种基于梯度下降法的多视图gepsvm网页分类方法
CN106022356A (zh) * 2016-05-11 2016-10-12 华东师范大学 一种基于梯度下降法的多视图gepsvm网页分类算法
CN106354836A (zh) * 2016-08-31 2017-01-25 南威软件股份有限公司 一种广告页面的预测方法和装置
CN106777234A (zh) * 2016-12-27 2017-05-31 南京安讯科技有限责任公司 一种自反馈式网络社交平台分类方法
CN108268993A (zh) * 2017-01-04 2018-07-10 阿里巴巴集团控股有限公司 基于自编码神经网络的电子业务风险识别方法和装置
CN108959289A (zh) * 2017-05-18 2018-12-07 北京京东尚科信息技术有限公司 网站类别获取方法和装置
CN107341183A (zh) * 2017-05-31 2017-11-10 中国科学院信息工程研究所 一种基于暗网网站综合特征的网站分类方法
CN107341183B (zh) * 2017-05-31 2021-06-22 中国科学院信息工程研究所 一种基于暗网网站综合特征的网站分类方法
WO2019101197A1 (zh) * 2017-11-24 2019-05-31 新华三信息安全技术有限公司 网页请求识别
CN108170761A (zh) * 2017-12-23 2018-06-15 合肥弹刚信息科技有限公司 一种基于海量文献信息的可视化分析系统及其方法
CN108337255A (zh) * 2018-01-30 2018-07-27 华中科技大学 一种基于web自动化测试和宽度学习的钓鱼网站检测方法
CN108829898B (zh) * 2018-06-29 2020-11-20 无码科技(杭州)有限公司 Html内容页发布时间提取方法和系统
CN108829898A (zh) * 2018-06-29 2018-11-16 无码科技(杭州)有限公司 Html内容页发布时间提取方法和系统
CN109299346A (zh) * 2018-10-31 2019-02-01 长春理工大学 一种无效地址网页的识别方法及系统
CN109299346B (zh) * 2018-10-31 2020-12-08 长春理工大学 一种无效地址网页的识别方法及系统
CN110084067A (zh) * 2019-05-07 2019-08-02 欢动无限(北京)科技有限公司 一种基于隐私链的隐私保护方法及装置
CN110334262A (zh) * 2019-06-06 2019-10-15 阿里巴巴集团控股有限公司 一种模型训练方法、装置及电子设备
CN110334262B (zh) * 2019-06-06 2023-12-29 创新先进技术有限公司 一种模型训练方法、装置及电子设备
CN110266675A (zh) * 2019-06-12 2019-09-20 成都积微物联集团股份有限公司 一种基于深度学习的xss攻击自动化检测方法
CN110266675B (zh) * 2019-06-12 2022-11-04 成都积微物联集团股份有限公司 一种基于深度学习的xss攻击自动化检测方法
CN110472131A (zh) * 2019-08-20 2019-11-19 杭州安恒信息技术股份有限公司 一种网站行业类型识别的方法、系统及设备
CN113688926A (zh) * 2021-08-31 2021-11-23 济南大学 一种网站行为分类方法、系统、存储介质及设备
CN113688926B (zh) * 2021-08-31 2024-03-08 济南大学 一种网站行为分类方法、系统、存储介质及设备
CN113779559A (zh) * 2021-09-13 2021-12-10 北京百度网讯科技有限公司 用于识别作弊网站的方法、装置、电子设备和介质
CN113779559B (zh) * 2021-09-13 2023-10-03 北京百度网讯科技有限公司 用于识别作弊网站的方法、装置、电子设备和介质
CN117633675A (zh) * 2024-01-25 2024-03-01 成都无糖信息技术有限公司 一种基于模型级联的网络公害网站发现方法及系统
CN117633675B (zh) * 2024-01-25 2024-04-30 成都无糖信息技术有限公司 一种基于模型级联的网络公害网站发现方法及系统

Also Published As

Publication number Publication date
CN103605794B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN103605794A (zh) 一种网站分类方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN109005145B (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
WO2016058267A1 (zh) 一种基于网站主页特征分析的中文网站分类方法和系统
CN102034096B (zh) 基于自顶向下运动注意机制的视频事件识别方法
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN106708952B (zh) 一种网页聚类方法及装置
CN109522562B (zh) 一种基于文本图像融合识别的网页知识抽取方法
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN102170446A (zh) 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN108984706A (zh) 一种基于深度学习融合文本和结构特征的网页分类方法
CN107066548B (zh) 一种双维度分类提取网页链接的方法
US20230353585A1 (en) Malicious traffic identification method and related apparatus
CN104657375A (zh) 一种图文主题描述方法、装置以及系统
CN111625715A (zh) 信息提取方法、装置、电子设备及存储介质
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
Zhao et al. Hybrid generative/discriminative scene classification strategy based on latent Dirichlet allocation for high spatial resolution remote sensing imagery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20201205

CF01 Termination of patent right due to non-payment of annual fee