CN102004764A - 互联网不良信息检测方法以及系统 - Google Patents

互联网不良信息检测方法以及系统 Download PDF

Info

Publication number
CN102004764A
CN102004764A CN 201010536381 CN201010536381A CN102004764A CN 102004764 A CN102004764 A CN 102004764A CN 201010536381 CN201010536381 CN 201010536381 CN 201010536381 A CN201010536381 A CN 201010536381A CN 102004764 A CN102004764 A CN 102004764A
Authority
CN
China
Prior art keywords
feature
modal
internet
text
correlated characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010536381
Other languages
English (en)
Inventor
毛伟
李晓东
杨卫平
李洪涛
耿光刚
齐超
张桓铭
王国栋
卢文哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Knet Co ltd
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Knet Co ltd, Computer Network Information Center of CAS filed Critical Knet Co ltd
Priority to CN 201010536381 priority Critical patent/CN102004764A/zh
Publication of CN102004764A publication Critical patent/CN102004764A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种互联网不良信息检测方法以及系统。该方法包括:从预检测的网络信息中提取多模态特征,得到与所述多模态特征相对应的各模态特征子向量,包括:从预检测的网络信息中提取内容统计特征、文本相关特征和链接相关特征中的至少两项;对提取到的各模态特征子向量进行特征融合处理,得到多模态联合特征向量;根据多模态联合特征向量,采用机器学习算法进行不良信息检测,得到检测结果。本发明还提供了对应的系统。本发明提供的互联网不良信息检测方法以及系统,能够提高对互联网不良信息的检测性能,而且大大提高了检测系统的鲁棒性。

Description

互联网不良信息检测方法以及系统
技术领域
本发明涉及网络安全检测技术,尤其涉及一种互联网不良信息检测方法以及系统,属于网络安全领域。
背景技术
随着计算机及通信技术的高速发展,互联网的巨大影响和利润驱使很多别有用心的人借助互联网进行各种不良行为。IDC的统计曾显示,有30%-40%的Internet访问是与工作无关的,其中相当大的比例访问色情、暴力、反动等站点,Internet资源被严重浪费。近年来,互联网色情、钓鱼、暴力等不良信息的泛滥严重扰乱了互联网秩序,造成一系列不良影响,特别影响着广大青少年的身心健康。
互联网不良信息网站泛指色情网站、反动网站、暴力网站、病毒网站和作弊网站,其中作弊网站包括钓鱼、欺诈、搜索引擎垃圾等,色情、反动类网站多采用作弊技术。目前为止,高效的、全面的、成熟的有害信息识别与过滤技术仍然没有取得突破性进展。
1999年欧盟启动了安全网络行动计划,利用五年时间先后组织欧盟125个研究组织完成35项科研项目,这些研究项目以跨地域、文化、语言的网络有害信息过滤和评估方案为主要研究目标,希望在欧盟建立统一的网络有害信息过滤系统。近年来,国内模式识别国家重点实验室开展了敏感信息与行为监控实用化技术的研究与开发,主要是对图像视频进行内容理解,处于实验室阶段。
现有技术中利用单一模态对网络不良信息进行检测,方法包括:文本过滤、黑白名单过滤、IP过滤、图像内容理解等,另外也包括网页内容与图像融合的模式学习方法。虽然上述方法各自有其特点,且在不同方面的检测上各有所长,但也存在各自的缺点。
综上所述,现有技术中只是提取彼此不相关联的单一模态来对网络不良信息进行检测,存在着统计学习的方法特征提取不全等问题,因此,导致了检测性能低且检测系统的鲁棒性差。
发明内容
本发明的目的在于提供一种互联网不良信息检测方法以及系统,用以解决现有技术中采用统计学习方法导致的提取特征不全的问题,进而提高互联网不良信息检测的检测性能及检测系统的鲁棒性。
为了实现上述目的,本发明提供一种互联网不良信息检测方法,包括:
从预检测的网络信息中提取多模态特征,得到与所述多模态特征相对应的各模态特征子向量,提取的多模态特征包括内容统计特征、文本相关特征和链接相关特征中的至少两项;
对提取到的各模态特征子向量进行特征融合处理,得到多模态联合特征向量;
根据所述多模态联合特征向量,采用机器学习算法进行不良信息检测,得到检测结果。
本发明还提供了一种互联网不良信息检测系统,包括:
多模态特征提取模块,用于从预检测的网络信息中提取多模态特征,得到与所述多模态特征相对应的各模态特征子向量,提取的多模态特征包括内容统计特征、文本相关特征和链接相关特征中的至少两项;
特征融合模块,用于对提取到的各模态特征子向量进行特征融合处理,得到多模态联合特征向量;
检测模块,用于根据所述多模态联合特征向量,采用机器学习算法进行不良信息检测,得到检测结果。
本发明提供的多模态特征的互联网不良信息检测方法以及系统,充分挖掘多模态特征,建立统一检测策略以打击多种类型的互联网不良应用。从而,有效地克服了现有基于统计学习的方法稳定性不高、特征提取不全,及特征融合等问题。不仅可以更好的提高检测性能,而且大大提高了检测系统的鲁棒性。
附图说明
图1为本发明互联网不良信息检测方法实施例的流程示意图;
图2为本发明实施例中步骤100的具体流程示意图;
图3为本发明实施例中步骤200的具体流程示意图;
图4为本发明实施例中步骤300的具体流程示意图;
图5为本发明互联网不良信息检测系统实施例的结构示意图。
具体实施方式
下面结合附图和具体实施例进一步说明本发明实施例的技术方案。
图1为本发明互联网不良信息检测方法实施例的流程图,如图1所示,本发明多模态特征的互联网不良信息检测方法包括以下步骤:
步骤100、对预检测的网络信息进行多模态特征提取,即从预检测的网络信息中提取多模态特征,得到与上述多模态特征对应的各模态特征子向量;
其中,步骤100从预检测的网络信息中提取多模态特征,形成各模态特征子向量的步骤可具体包括网页抓取和预处理、网页内容分析、超链接图构建、提取内容统计特征、提取文本相关特征、提取链接相关特征。
图2为本发明实施例中步骤100的具体流程示意图。如图2所示,该方法包括如下步骤:
步骤101、网页抓取和预处理,对网页内容进行抓取和预处理后,当对网页内容进行分析时,执行步骤102,当对超链接图进行分析时,则执行步骤103,网页抓取和预处理技术是比较成熟的现有技术,可以通过网络爬虫技术实现,例如框架Heritrix和Nutch。
步骤102、网页内容分析,具体的是从多视角对网页信息进行分析,包括内容提取、锚文本提取、网页统计信息提取和复杂背景文字检测与识别。其中内容提取、锚文本提取方法有成熟的方法,例如利用CyberNeko技术的HTML解析器。网页统计信息的提取包括一系列网页相关的简单统计属性。复杂背景文字检测与识别作为独立研究近年来取得了长足发展,其检测与识别率完全满足进行内容分析的需要,本申请将充分利用该类文本信息。当分析的网页信息为统计信息时,执行步骤104,当分析的网页信息为其他信息时,则执行步骤105。
步骤103、构建超链接图,使用目前已经成熟的框架webgraph。
以下将详细叙述提取内容统计特征、提取文本相关特征及提取链接相关特征步骤:
步骤104、提取内容统计特征,该步骤提取的统计特征包括网页中单词的数量、网页的压缩率、可见文字的比例、锚文本的比例、标题中单词的个数、锚文本的平均长度、网页中词汇的平均长度、N元语法似然度特征等。我们采用以下方法将所有的网页统计特征向网站映射,H表示I个网页的网站,这I个网页可表示为P={p1,p2,…,p1},用ph表示该网站的主页,pm表示该网站拥有最大PageRank值的网页。f(p)表示前述8个统计特征,则网站H的特征向量f(H)为:
f(H)=(f(ph),f(pm),E(f(p)),Var(f(p)))
其中,p∈P,E(f(p))表示该网站中所有网页相应特征的均值,Var(f(p))表示该网站所有网页相应特征的方差。这样得到32个内容统计特征。
步骤105、提取文本相关特征,其中,文本包含三部分信息,网页内容文本、锚文本和图片文字,该步骤的处理对象并不是以上三类文本的简单叠加后的对象,而是首先对网页内容文本进行长度归一化处理,在此基础上与锚文本和图片文本简单联合成为文本D,这样做是防止网页文本过长而掩盖锚文本和图片文字。进一步,将网站主页Dh和拥有最大PageRank值的网页Dm联合为Dh∪Dm,代表该网站,文本特征的提取在Dh∪Dm上展开。每个网站都被表示为
Figure BSA00000339337900051
其中
Figure BSA00000339337900052
Figure BSA00000339337900053
表示词频,IDF(wi)表示逆转的文档频率。使用信息增益算法对
Figure BSA00000339337900054
进行计算,选择有效分类特征,最终形成文本相关特征。
步骤106、提取链接相关特征,考虑到互联网不良信息的提供以网站为载体,本发明链接相关特征的提取直接把网站作为链接节点。链接特征的提取从多个视角开展,基本度量包括出入度、PageRank、TrustRank、TruncatedPageRank(以上三种算法均为著名的链接分析算法)等。基于以上度量,分别计算其入邻居、出邻居、二级近邻的相应度量均值。最终形成链接相关特征,该特征对于通过超链接进行不良信息传播的应用尤为有效。
步骤200、对提取到的各模态特征子向量进行特征融合处理,获得多模态联合特征向量;
图3为本发明实施例中步骤200的具体流程示意图。如图3所示,步骤200包括特征联合处理和特征选择处理。考虑到内容统计特征、文本相关特征和链接相关特征的表示形式、语义各不相同,首先对这三类特征进行属性的归一化,归一化公式如下:
y=(x-Min Value)/(Max Value-Min Value)
x,y分别为转换前、后的值,MaxValue和MinValue分别为所有样本(包括标号集和检测集)的该特征的最大值和最小值。
步骤201、特征联合处理,即在归一化处理后,将三类特征线性融合,如果内容统计特征有C维,文本相关特征有T维,链接相关特征有L维,线性特征融合就是将这三种特征线性进行叠加,形成融合向量,该特征向量的维数为C+T+L。考虑到融合向量的维数太高,为了加快分类器学习和检测效率,进行必要的特征选择处理。
步骤202、特征选择处理。特征选择即从高维的特征中根据特定的算法将某些对分类贡献不大的或没有贡献的维度剔除,保留有辨识力的维度的行为。本发明中特征选择算法可以选择现有的主成分分析、线性判别分析等。
经过步骤200的特征融合处理和步骤202特征选择处理操作,即将步骤200的C+T+L维的特征,进一步经步骤202进行降维,比如得到U维,在U维特征空间上,最终形成各模态特征联合特征向量,每个特征联合向量包含U个元素。接下来的步骤300的训练以及分类决策均在该联合特征向量上展开。
步骤300、根据多模态联合特征向量,采用现有的机器学习算法进行作弊检测(即不良信息检测),得到检测结果,机器学习算法包括决策树、神经网络、支持向量机至少一项。
图4为本发明实施例中步骤300的具体流程示意图。如图4所示,步骤300的分类器学习和分类决策是基于步骤200形成的联合特征向量。具体包括:
步骤301、在联合特征向量上对训练集和检测集进行标示;
步骤302、在训练集上训练分类器,分类器的选择可以为任何现有模式分类器,如支持向量机(SVMs)、决策树、核方法、神经网络、学习矢量量化等;
步骤303、在分类器被训练结束后,使用训练好的模型对检测集中的站点样本进行分类,完成对互联网不良信息的检测,生成检测结果。
综上所述,本发明提供的互联网不良信息检测方法,通过对预检测的网络信息进行多模态特征提取,形成各模态特征子向量。之后,将各模态特征子向量进行特征融合处理,并获取多模态联合特征向量。最后,根据多模态联合特征向量,采用机器学习算法进行不良信息检测。上述方法,对多模态特征进行了充分的挖掘,建立了统一检测策略以打击多种类型的互联网不良应用,能够有效地克服了基于统计学习的方法特征提取不全等问题,不仅提高了检测性能,而且大大提高了检测系统的鲁棒性。
图5为本发明互联网不良信息检测系统实施例的结构示意图。如图5所示,该系统包括多模态特征提取模块501、特征融合模块502和检测模块503:其中,多模态特征提取模块501用于从预检测的网络信息中提取多模态特征,得到与所述多模态特征相对应的各模态特征子向量,提取的多模态特征包括内容统计特征、文本相关特征和链接相关特征中的至少两项;特征融合模块502用于对提取到的各模态特征子向量进行特征融合处理,得到多模态联合特征向量;检测模块503用于根据所述多模态联合特征向量,采用机器学习算法进行不良信息检测,得到检测结果。
上述多模态特征的互联网不良信息检测系统,通过对多模态特征进行提取并进行特征融合,建立了统一的检测策略,可以有效地克服现有技术中特征提取不全等问题,从而能更好的提高检测性能及检测系统的稳定性。
具体的,如图5所示,本发明上述实施例中的多模态特征提取模块501,可以包括第一提取单元504、第二提取单元505和第三提取单元506,其中,第一提取单元504用于提取内容统计特征;第二提取单元505用于提取文本相关特征;第三提取单元506用于提取链接相关特征。
综上所述,本发明提供的互联网不良信息检测方法,通过充分挖掘多模态特征,建立统一检测策略以打击多种类型的互联网不良应用,能够有效地克服基于统计学习的方法提取特征不全等问题。与现有技术相比,不仅可以更好的提高检测性能,而且大大提高了检测系统的鲁棒性。
虽然本发明以实施例揭示如上,但其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,可作任意改动或等同替换,故本发明的保护范围应当以本申请权利要求书所界定的范围为准。

Claims (7)

1.一种互联网不良信息检测方法,其特征在于,包括:
从预检测的网络信息中提取多模态特征,得到与所述多模态特征相对应的各模态特征子向量,提取的多模态特征包括内容统计特征、文本相关特征和链接相关特征中的至少两项;
对提取到的各模态特征子向量进行特征融合处理,得到多模态联合特征向量;
根据所述多模态联合特征向量,采用机器学习算法进行不良信息检测,得到检测结果。
2.根据权利要求1所述的互联网不良信息检测方法,其特征在于,提取内容统计特征包括:
提取文字长度、可见文本比例和压缩率。
3.根据权利要求1所述的互联网不良信息检测方法,其特征在于,提取文本相关特征包括:
根据信息增益方法对网页内容、锚文本和图片文字信息进行特征选择。
4.根据权利要求1所述的互联网不良信息检测方法,其特征在于,提取链接相关特征包括:
提取链接出入度信息、链接分析值相关信息和支持度相关信息。
5.根据权利要求1所述的互联网不良信息检测方法,其特征在于,所述对提取到的各模态特征子向量进行特征融合处理包括:
将从预检测的网络信息中提取的内容统计特征、文本相关特征和链接相关特征中的至少两项进行特征联合处理,得到融合向量;
对得到的融合向量进行特征选择处理,获得所述多模态联合特征向量。
6.根据权利要求1所述的互联网不良信息检测方法,其特征在于,所述机器学习算法包括:决策树、神经网络和支持向量机中至少一项。
7.一种互联网不良信息检测系统,其特征在于,包括:
多模态特征提取模块,用于从预检测的网络信息中提取多模态特征,得到与所述多模态特征相对应的各模态特征子向量,提取的多模态特征包括内容统计特征、文本相关特征和链接相关特征中的至少两项;
特征融合模块,用于对提取到的各模态特征子向量进行特征融合处理,得到多模态联合特征向量;
检测模块,用于根据所述多模态联合特征向量,采用机器学习算法进行不良信息检测,得到检测结果。
CN 201010536381 2010-11-04 2010-11-04 互联网不良信息检测方法以及系统 Pending CN102004764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010536381 CN102004764A (zh) 2010-11-04 2010-11-04 互联网不良信息检测方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010536381 CN102004764A (zh) 2010-11-04 2010-11-04 互联网不良信息检测方法以及系统

Publications (1)

Publication Number Publication Date
CN102004764A true CN102004764A (zh) 2011-04-06

Family

ID=43812127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010536381 Pending CN102004764A (zh) 2010-11-04 2010-11-04 互联网不良信息检测方法以及系统

Country Status (1)

Country Link
CN (1) CN102004764A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523130A (zh) * 2011-12-06 2012-06-27 中国科学院计算机网络信息中心 不良网页检测方法及装置
CN103218559A (zh) * 2013-03-25 2013-07-24 苏州德鲁克供应链管理有限公司 供应链保护系统
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN103744950A (zh) * 2013-12-28 2014-04-23 国家电网公司 一种网站IPv6支持度的评价方法
CN103853744A (zh) * 2012-11-29 2014-06-11 中国科学院计算机网络信息中心 一种面向用户生成内容的欺骗性垃圾意见检测方法
CN104239485A (zh) * 2014-09-05 2014-12-24 中国科学院计算机网络信息中心 一种基于统计机器学习的互联网暗链检测方法
CN105183894A (zh) * 2015-09-29 2015-12-23 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN105653649A (zh) * 2015-12-28 2016-06-08 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
CN105897774A (zh) * 2016-06-27 2016-08-24 华侨大学 一种基于机器学习的网络用户安全状态评估方法
CN105930365A (zh) * 2016-04-11 2016-09-07 天津大学 基于内容的网络链接拓扑重构方法
CN105975639A (zh) * 2016-07-04 2016-09-28 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN107783958A (zh) * 2016-08-31 2018-03-09 科大讯飞股份有限公司 一种目标语句识别方法及装置
CN108108371A (zh) * 2016-11-24 2018-06-01 北京国双科技有限公司 一种文本分类方法及装置
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN110019812A (zh) * 2018-02-27 2019-07-16 中国科学院计算技术研究所 一种用户自生产内容检测方法和系统
CN111241446A (zh) * 2020-01-13 2020-06-05 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN111340051A (zh) * 2018-12-18 2020-06-26 北京京东尚科信息技术有限公司 图片处理方法、装置及存储介质
CN111506852A (zh) * 2020-04-20 2020-08-07 承德石油高等专科学校 一种智能网页数据监控装置及方法
CN111651658A (zh) * 2020-06-05 2020-09-11 杭州安恒信息技术股份有限公司 一种基于深度学习的自动化识别网站的方法和计算机设备
CN112214707A (zh) * 2020-09-30 2021-01-12 支付宝(杭州)信息技术有限公司 网页内容表征方法、分类方法、装置及设备
CN115980298A (zh) * 2023-03-20 2023-04-18 山东思睿环境设备科技有限公司 一种基于多参数适应性水质检测分析方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493819A (zh) * 2008-01-24 2009-07-29 中国科学院自动化研究所 一种搜索引擎作弊检测的优化方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493819A (zh) * 2008-01-24 2009-07-29 中国科学院自动化研究所 一种搜索引擎作弊检测的优化方法

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523130A (zh) * 2011-12-06 2012-06-27 中国科学院计算机网络信息中心 不良网页检测方法及装置
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN103514174B (zh) * 2012-06-18 2019-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN103853744B (zh) * 2012-11-29 2017-02-22 中国科学院计算机网络信息中心 一种面向用户生成内容的欺骗性垃圾意见检测方法
CN103853744A (zh) * 2012-11-29 2014-06-11 中国科学院计算机网络信息中心 一种面向用户生成内容的欺骗性垃圾意见检测方法
CN103218559A (zh) * 2013-03-25 2013-07-24 苏州德鲁克供应链管理有限公司 供应链保护系统
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN103544436B (zh) * 2013-10-12 2017-04-12 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN103744950A (zh) * 2013-12-28 2014-04-23 国家电网公司 一种网站IPv6支持度的评价方法
CN104239485B (zh) * 2014-09-05 2018-05-01 中国科学院计算机网络信息中心 一种基于统计机器学习的互联网暗链检测方法
CN104239485A (zh) * 2014-09-05 2014-12-24 中国科学院计算机网络信息中心 一种基于统计机器学习的互联网暗链检测方法
CN105183894A (zh) * 2015-09-29 2015-12-23 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN105183894B (zh) * 2015-09-29 2020-03-10 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN105653649A (zh) * 2015-12-28 2016-06-08 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
CN105653649B (zh) * 2015-12-28 2019-05-21 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
CN105930365A (zh) * 2016-04-11 2016-09-07 天津大学 基于内容的网络链接拓扑重构方法
CN105897774A (zh) * 2016-06-27 2016-08-24 华侨大学 一种基于机器学习的网络用户安全状态评估方法
CN105897774B (zh) * 2016-06-27 2018-11-27 华侨大学 一种基于机器学习的网络用户安全状态评估方法
CN105975639A (zh) * 2016-07-04 2016-09-28 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN105975639B (zh) * 2016-07-04 2019-12-06 北京百度网讯科技有限公司 搜索结果排序方法和装置
CN107783958A (zh) * 2016-08-31 2018-03-09 科大讯飞股份有限公司 一种目标语句识别方法及装置
CN108108371A (zh) * 2016-11-24 2018-06-01 北京国双科技有限公司 一种文本分类方法及装置
CN110019812A (zh) * 2018-02-27 2019-07-16 中国科学院计算技术研究所 一种用户自生产内容检测方法和系统
CN110019812B (zh) * 2018-02-27 2021-08-20 中国科学院计算技术研究所 一种用户自生产内容检测方法和系统
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN108777674B (zh) * 2018-04-24 2021-02-26 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN111340051A (zh) * 2018-12-18 2020-06-26 北京京东尚科信息技术有限公司 图片处理方法、装置及存储介质
CN111241446A (zh) * 2020-01-13 2020-06-05 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN111241446B (zh) * 2020-01-13 2023-10-31 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN111506852A (zh) * 2020-04-20 2020-08-07 承德石油高等专科学校 一种智能网页数据监控装置及方法
CN111651658A (zh) * 2020-06-05 2020-09-11 杭州安恒信息技术股份有限公司 一种基于深度学习的自动化识别网站的方法和计算机设备
CN112214707A (zh) * 2020-09-30 2021-01-12 支付宝(杭州)信息技术有限公司 网页内容表征方法、分类方法、装置及设备
CN115980298A (zh) * 2023-03-20 2023-04-18 山东思睿环境设备科技有限公司 一种基于多参数适应性水质检测分析方法及装置

Similar Documents

Publication Publication Date Title
CN102004764A (zh) 互联网不良信息检测方法以及系统
Boididou et al. Detection and visualization of misleading content on Twitter
CN108777674B (zh) 一种基于多特征融合的钓鱼网站检测方法
CN102779249B (zh) 恶意程序检测方法及扫描引擎
Chakrabarti et al. Page-level template detection via isotonic smoothing
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
WO2016058267A1 (zh) 一种基于网站主页特征分析的中文网站分类方法和系统
CN111259219B (zh) 恶意网页识别模型建立方法、识别方法及系统
US10872270B2 (en) Exploit kit detection system based on the neural network using image
CN104679825B (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN101820366A (zh) 一种基于预取的钓鱼网页检测方法
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN102542061B (zh) 一种产品的智能分类方法
CN103324615A (zh) 基于搜索引擎优化的钓鱼网站探测方法及系统
CN104239485A (zh) 一种基于统计机器学习的互联网暗链检测方法
CN101350011A (zh) 一种基于小样本集的搜索引擎作弊检测方法
CN101493819A (zh) 一种搜索引擎作弊检测的优化方法
CN102170447A (zh) 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN103077172A (zh) 一种挖掘作弊用户的方法与装置
CN112464666B (zh) 一种基于暗网数据的未知网络威胁自动发现方法
CN102236654A (zh) 基于内容相关性的Web无效链接过滤方法
CN110191096A (zh) 一种基于语义分析的词向量网页入侵检测方法
Gopal et al. Machine learning based classification of online news data for disaster management
Chalothorn et al. Using SentiWordNet and sentiment analysis for detecting radical content on web forums
CN114915468A (zh) 基于知识图谱的网络犯罪智能分析检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: KNET CO., LTD.

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Mao Wei

Inventor after: Li Xiaodong

Inventor after: Yang Weiping

Inventor after: Li Hongtao

Inventor after: Geng Guanggang

Inventor after: Qi Chao

Inventor after: Zhang Huanming

Inventor after: Wang Guodong

Inventor before: Mao Wei

Inventor before: Li Xiaodong

Inventor before: Yang Weiping

Inventor before: Li Hongtao

Inventor before: Geng Guanggang

Inventor before: Qi Chao

Inventor before: Zhang Huanming

Inventor before: Wang Guodong

Inventor before: Lu Wenzhe

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: MAO WEI LI XIAODONG YANG WEIPING LI HONGTAO GENG GUANGGANG QI CHAO ZHANG HUANMING WANG GUODONG LU WENZHE TO: MAO WEI LI XIAODONG YANG WEIPING LI HONGTAO GENG GUANGGANG QI CHAO ZHANG HUANMING WANG GUODONG

TA01 Transfer of patent application right

Effective date of registration: 20110425

Address after: 100190 Beijing, Zhongguancun, South Street, No. four, No. four, No.

Applicant after: Computer Network Information Center, Chinese Academy of Sciences

Address before: 100190 Beijing, Zhongguancun, South Street, No. four, No. four, No.

Applicant before: Computer Network Information Center, Chinese Academy of Sciences

Co-applicant before: Beilong Knet (Beijing) Technology Co., Ltd.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110406