CN109905288B - 一种应用服务分类方法及装置 - Google Patents
一种应用服务分类方法及装置 Download PDFInfo
- Publication number
- CN109905288B CN109905288B CN201811571323.0A CN201811571323A CN109905288B CN 109905288 B CN109905288 B CN 109905288B CN 201811571323 A CN201811571323 A CN 201811571323A CN 109905288 B CN109905288 B CN 109905288B
- Authority
- CN
- China
- Prior art keywords
- cdn
- cdn cloud
- application service
- cloud
- domain name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开一种应用服务分类方法及装置,该方法的步骤包括:获取CDN云厂商域名集合;获取访问应用服务资源的流量,提取流量特征;建立应用服务与CDN云服务器的使用关系,根据该使用关系构建CDN云使用图谱;提取CDN云使用图谱中的各节点特征和图结构,构建特征模型;基于该特征模型,识别特定类型应用服务,对应用服务进行分类。
Description
技术领域
本发明涉及计算机信息技术领域,具体涉及一种应用服务分类方法及装置。
背景技术
传统的应用服务分类,如网站分类大多以网页分类为基础,利用数据挖掘中的Web分类技术确定网页的类别,从而对这些网页所隶属的网站进行分类。利用文本内容信息进行网页分类的方法:对Web文档分词;特征选择得到特征词汇项,得到网页的特征向量表示;对结构化表示的网页分类。
根据特征来源对网站分类的相关研究有:基于内容特征(例如HTML页面的标签信息等)、基于URL信息、基于DNS日志(例如WHOIS信息、IP地址信息、AS号码等)。解析URL信息可以获得URL词汇信息、协议类型、顶级域名信息、主机信息以及URL长度等。
基于内容特征的识别方法:
Golub使用网页中的title、headings、metadata和主要内容训练分类器。Haveliwala和Nie改进了传统的PageRank的网站关联方式,设计了基于网站主题的PageRank网站分类。此类方法需要占用更多的计算资源和网络带宽,并产生较大的时间开销;分析一个网页所需要的时间开销还取决于网络延迟和网页内容的复杂程度。
基于URL信息的识别方法:
Karagiannis提出BLINC,从网络边缘被动采集流量,利用有效载荷分类应用的流量,由于HTTPS加密,无法访问有效载荷;大型运营商从共享的基础设施(如CDN云和云计算平台)中提供服务,影响分类效果。Baykan针对ODP数据源中的15类网站,使用机器学习的算法(SVM和NB),建立了各类网站的分类模型,并证明分类准确率、召回率和F值在80%左右。Justin Ma从URL信息、域名注册信息和主机信息中抽取特征,建立识别模型并进而识别恶意网站,但无法准确识别由算法随机生成的恶意URL。Anh从URL结构信息出发,在前人工作基础上提出了四类轻量级的抗混淆词法特征,有效提升了恶意网站识别的准确率。Li从网络拓扑关系出发,基于PageRank算法对恶意网页识别问题进行了深入研究,提出了相应的识别方法,使得误检率控制在2%以内。
基于DNS日志的识别方法:
Antonakakis提出Notos,处理来自被动DNS数据库的DNS查询响应,并从观察到的FQDN和IP中提取一组41个特征。Notos使用历史的IP地址和历史域名来提取有效的特征,以将恶意域名与合法域名区分开来。Hsu提出一种基于来自给定客户端的HTTP/HTTPS请求中的异常延迟来检测flux域名的实时系统,基于假设恶意网站提供内容往往有较大的延迟。Bilge提出EXPOSURE,提取15个特征,需要1周的训练数据。Perdisci提出FluxBuster,使用大规模被动DNS流量来检测未知的fast-flux域名。Manadhata提出一种恶意域名检测系统,通过将检测日志构建为主机的域名映射,系统将检测问题建模为图推断问题。Foremski和Tongaonkar提出利用SNI和DNS查询进行分类,主要针对协议分类,缺少细粒度的对于单一Web服务的识别。Trevisan基于主机名和IP进行Web服务分类:通过发现并聚合给定服务的所有主机名,列举相应的IP地址;仅基于IP地址可以区分55%的web流量,用于分类的Web服务的域名集合需要不断更新;多服务共享主机名,在云或CDN云中托管的服务无法识别。Chiba提出Domain-Profiler,主动收集DNS日志,分析时间变化模式,预测给定的域名是否会被用于恶意目的,它能够在出现在公共黑名单之前的几天甚至几周内准确检测到先前未知的恶意域名。此类方法依赖DNS流量,由于域前置和DNS加密,识别在CDN云中托管的网站服务类别准确率不高,误判较大。
由以上可知,现有技术存在的缺陷是:基于内容特征的网站分类,解析成本大,需要占用大量计算资源和网络带宽,时间开销大。基于URL信息的网站分类,依赖于URL,由于HTTPS的广泛使用,无法获得URL信息;依赖于URL词特征,特征规模线性增长,特征集膨胀。基于DNS日志的网站分类,由于域前置和DNS加密,导致真实域名不可见;交叉使用的IP和域名,难以利用DNS流量进行网络测量及网站识别。
发明内容
本发明的目的在于提供一种应用服务分类方法及装置,基于访问流量,测绘应用服务如网站、APP等对于CDN云的使用模式,构建应用服务的CDN云使用图谱,利用图结构特征分类网站,识别特定类型的应用服务。
为达到上述目的,本发明采用如下技术方案:
一种应用服务分类方法,步骤包括:
获取CDN云厂商域名集合;
获取访问应用服务资源的流量,提取流量特征;
建立应用服务与CDN云的使用关系,根据该使用关系构建CDN云使用图谱;
提取CDN云使用图谱中的各节点特征和图结构,构建特征模型;
基于该特征模型,识别特定类型应用服务,对应用服务进行分类。
进一步地,获取CDN云厂商域名集合的方法包括:
通过搜索引擎查询CDN云厂商公开过的域名,由该域名反查IP,由该IP反查解析记录,由该解析记录获取CDN云厂商其他公开的域名;
通过在被访问流量中提取符合CDN云服务器节点特点的域名,以获取CDN云厂商的域名,该特点包括包含某些CDN云服务器域名的关键词、或同一个域名存在多个IP等;
以上述两种方法获取的CDN云厂商域名集合为基础,通过DNS协议的CNAME字段和通信协议(如HTTP协议、HLS协议等)头部字段是否包含预设的特征串匹配,来获取更多的CDN云厂商的域名。
进一步地,通过通信协议头部字段关联域名,找到欲获取资源所访问的网站,从中获取用户实际访问的应用服务入口页面地址。
进一步地,通信协议头部字段为URL字段、referer字段、cookie字段、host字段、301跳转、302跳转等。
进一步地,获取访问网站资源的流量的方法包括:
多点主动测量:通过广泛分布的测量节点,在网页端和客户端大量访问目标应用服务的资源;
被动测量:在某区域网关获取用户访问应用服务的流量并进行预处理,获得用户访问预设类型的应用服务资源的流量。
进一步地,被动测量中判断是否为访问应用服务资源的流量的方法包括资源后缀名类型、资源大小、资源类型、网络协议、资源名称等。
进一步地,流量特征包括行为特征、语义特征,行为特征包括同一应用服务资源能够关联到多个服务端IP;语义特征包括CNAME或NS记录有CDN云关键词,该CDN云关键词为CDN云通用特征串或CDN云厂商的域名集合。
进一步地,CDN云通用特征串包括CDN云厂商在提供CDN云服务时常使用的字符串,如gslb、cache、cacheCDN、cloud、glb、gilb等。
进一步地,应用服务与CDN云的使用关系包括:
应用服务对CDN云服务器的直接使用:应用服务的资源直接存放在特定CDN云厂商的服务器节点上;
应用服务对CDN云服务器的间接使用:应用服务的资源存放在特定CDN云厂商租用的其他CDN云厂商的服务器节点上。
进一步地,应用服务对CDN云服务器的直接使用可以划分为多个属性维度,包括资源类型、地域、时间、网络环境、运营商等。
进一步地,构成CDN云使用图谱的节点具有唯一ID标号,ID标号可以用包括IP、全称域名、特征子域名、厂商等属性来表示。
进一步地,构成CDN云使用图谱的边具有唯一ID标号之间的通联关系,包括跳转关系、共用域名关系、共用IP关系、相同组织隶属关系等,这种通联关系是可测量的,可变化的。
进一步地,节点特征主要包括资源描述(如URL中)的词特征。
进一步地,分类采用的算法包括各种分类、聚类算法,如网络嵌入算法、SVM算法、CNN算法等。
进一步地,特定应用服务类型可为流媒体、直播、短视频等,也可为非法网站/APP、恶意网站/APP、钓鱼网站/APP等。
一种应用服务分类装置,包括存储器和处理器,该存储器存储计算机程序,该程序被配置为由该处理器执行,该程序包括用于执行上述方法中各步骤的指令。
本发明方法通过测绘应用服务对于CDN云的使用模式,利用与CDN云的网状使用关系构建图谱,基于网络图结构解决应用服务分类问题,识别特定类型的应用服务。本发明方法将应用服务对CDN云的使用模式作为识别的特征,提出了更适用于CDN云环境下的特征模型。本发明方法将图结构分析方法应用于应用服务与CDN云关系图,改进应用服务分类、识别已有方法的不足,应用了更适用于CDN云环境下应用服务类型识别模型。
附图说明
图1是本发明的一种应用服务分类方法流程图。
图2是CDN云使用图谱示意图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
CDN云使得网络愈加错综复杂,网站为了更高效的利用网络资源,在不同地域,不同运营商实现用户体验最优化,应用服务在选择CDN云厂商的时候具有一定策略,因此,可以根据不同应用服务在选择CDN云厂商的时候策略的挖掘,来识别应用服务,并进行多类别分类。
图1所示为本发明提供的应用服务分类方法的流程图,该方法基于流量及CDN云不同维度使用关系测绘,识别应用服务类型,主要步骤包括:
1.基于语义信息挖掘CDN云厂商的域名集合,可以通过解析记录获取CDN云厂商的域名:主流搜索引擎查询CDN云厂商公开过的域名;由该公开过的域名反查IP;由IP反查解析记录。也可以通过CNAME特征和HTTP中的特征串匹配获取CDN云厂商的域名。
2.流量获取与预处理:获取访问应用服务资源的流量,通过以下主动或被动或主被动结合的测量方法。
1)多点主动测量:通过地理位置分布广泛的测量节点,主动发起资源请求,获取应用服务对CDN云的使用情况,挖掘CDN云服务使用关系。测量点需要对国家、运营商等形成比较全面的覆盖。
2)被动测量:获取流量并进行预处理(IP重组、链接还原等操作),通过预处理解析流量,并判断是否为待获取的流量,判断方法可以是URL文件名、后缀名类型、文件大小等。
3.判断资源是否存放在CDN云上:基于多特征识别是否从CDN云服务器节点获取资源,可以从行为特征(如同一文件能够关联到多个服务端IP),也可以从语义特征(如CNAME或NS记录有CDN云关键词)去识别,特征均由流量中抽取得到。CDN云关键词可以指CDN云通用特征串(如CDN云、gslb等),也可以是对应CDN云厂商的域名集合(如akamai.net等)。
4.挖掘入口URL:可以通过HTTP头部字段关联域名,获取资源若干前跳访问的网站(资源对应的URL是Cache URL,前一跳访问的URL是入口URL),挖掘实际用户访问的入口URL对应的网站。用来关联域名的HTTP头部可以是referer字段、cookie字段、host字段、302跳转等。
5.关联应用服务和CDN云服务器:访问资源流量的URL是实际存放资源的地址,实际存放资源的域名的CNAME为CDN云服务器节点所对应的域名,建立各应用服务与CDN云的使用关系。使用关系包括:
应用服务对CDN云服务器的直接使用:应用服务的资源直接存放在特定CDN云厂商的服务器节点上;直接使用可以划分为多个维度,如资源类型、地域、时间、网络环境、运营商等。
应用服务对CDN云服务器的间接使用:应用服务的资源存放在特定CDN云厂商的服务器节点上,该CDN云厂商又租用另一CDN云厂商的服务器节点提供服务。
6.构建CDN云使用图谱:节点可以对应CDN云服务器节点的IP、全称域名、二级域名、厂商等。以不同的维度对网站的CDN云使用关系进行融合构建图谱,如图2所示,其中,图谱的边由上述步骤5构建。
7.分类:提取CDN云使用图谱中各节点的特征,构建特征模型。各节点的特征主要包括URL的词特征。基于特征模型,分类网站,识别特定类型网站。分类算法可以使用网络嵌入算法、SVM算法以及CNN等机器学习算法。
8.输出特定应用服务类型:特定网站类型可以是流媒体、直播、短视频等,也可以是非法网站、恶意网站、钓鱼网站等。
本发明的关键点
随着互联网的发展,新兴技术的应用,CDN云服务产业的发展导致应用服务,如网站、APP等对于CDN云的使用关系复杂;网络流量加密的发展趋势,同时,应用服务对CDN云存在多类型使用关系,特定类型应用服务由于资源有限,对CDN云的使用模式存在一定的特征。基于CDN云使用状况测绘,发现应用服务使用CDN云模式,解决应用服务类型识别问题。
为使本发明的上述特征和优点能更明显易懂,下文特举两个实施例以进一步说明:
实施例1
在地理位置分布广泛的的测量点主动访问视频资源,模拟用户请求视频资源,同时,被动监测观看视频的流量,以构建CDN云使用图谱,识别同类的视频网站。
将观看视频产生的网络流量进行预处理,从DNS流量中识别出流量中域名的CNAME和NS记录,根据CDN云特征字典库判断视频是否存放在CDN云服务器节点上。关联视频网站和CDN云服务器节点,在不同的地理位置,不同的时间,关联关系可能不同,另外,不同的资源可能会存放在不同的CDN上,多维度地建立CDN的特征子域名的CDN云使用图谱。节点包括视频网站和CDN节点的特征子域名(如alicdn.com),边表示视频网站与CDN节点间存在租用关系。例如访问优酷上的视频资源,产生的DNS流量中可以识别出优酷租用了阿里云的CDN节点,该节点CDN特征子域名为alicdn.com,则在构建图谱时,优酷存在指向alicdn.com节点的边。
将图结构和节点特征输入到网络嵌入算法(如图卷积神经网络算法,即GCN)中。GCN是作用于网络结构上的卷积神经网络,并使用一种基于边的标签传播规则实现半监督的网络表示学习,增加全连接层,利用交叉熵作为损失函数用于分类。利用GCN算法对视频网站进行分类,若结构相似特征相似,则为同类型网站。例如某几个CDN节点组成的特定子图结构专用于直播平台分发视频流量,若一个新的网站利用这几个节点的特定模式分发内容,则该网站有很大的概率可以判定为直播类型的视频网站。
实施例2
从某地镜像访问视频资源的流量,欲识别非法视频网站,以便对网站内容进行监管。
将镜像得到的网络流量进行预处理,通过URL中的文件名后缀、特征码过滤得到视频流量,抽取视频流量对应的域名,从DNS流量中识别出域名的CNAME,基于多特征判断视频是否存放在CDN云服务器节点上,包括行为特征和语义特征。行为特征包括同一文件对应多个服务端IP等,语义特征是指CNAME中出现CDN云特征字典库中的字符串,如cdn、gslb等。基于跳转关系关联访问视频资源对应的视频网站,进一步关联视频网站和CDN云服务器节点,基于CDN的全称域名建立CDN云使用图谱,节点包括视频网站和CDN节点的全称域名,边代表视频网站对CDN的依赖关系,若视频网站租用了特点CDN节点,即CNAME中出现CDN的特征字符串,则视频网站与该CDN节点存在连接关系。
CDN云服务器节点为具体的域名,基于HTTP流量中URL的词特征,构建图谱中各视频网站的特征模型。将图结构和节点特征输入到分类算法中(如SVM算法),对视频网站进行分类,若该类中存在已知的非法视频网站,则该类中的其它视频网站也为非法视频网站。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (9)
1.一种应用服务分类方法,步骤包括:
获取CDN云厂商域名集合,CDN云厂商提供CDN云服务器;
访问应用服务的资源,获取访问过程中的DNS流量,从所述DNS流量中抽取流量特征;
根据所述流量特征识别所述资源是否存放在CDN云服务器上;
通过DNS流量的HTTP头部字段关联域名,获取所述资源前跳访问的入口URL;
根据所述入口URL确定应用服务对CDN云服务器的使用关系,所述应用服务对CDN云服务器的使用关系包括应用服务对CDN云服务器的直接使用和间接使用;应用服务对CDN云服务器的直接使用为所述资源直接存放在特定CDN服务器上,应用服务对CDN云服务器的间接使用为所述资源存放在特定CDN云厂商租用的其他CDN服务器上;
根据所述应用服务对CDN云服务器的使用关系构建CDN云使用图谱;
将CDN云使用图谱中的图结构和各节点特征输入到分类算法中,对应用服务进行分类。
2.如权利要求1所述的方法,其特征在于,获取CDN云厂商域名集合的方法包括:
通过搜索引擎查询CDN云厂商公开过的域名,由该域名反查IP,由该IP反查解析记录,由该解析记录获取CDN云厂商的更多公开域名;
通过DNS协议的CNAME特征和HTTP中的特征串匹配CDN云厂商域名。
3.如权利要求1所述的方法,其特征在于,获取DNS流量的方法包括:
通过地理位置广泛分布的测量节点,主动访问应用服务的资源,获取访问过程中的DNS流量;
获取网络流量并进行IP重组或链接还原操作的预处理,通过URL文件名、后缀名类型、文件大小中的至少一种来判断是否为访问应用服务的资源的DNS流量。
4.如权利要求1所述的方法,其特征在于,流量特征包括:
行为特征,包括同一应用服务资源能够关联到多个服务端IP;
语义特征,包括CNAME或NS记录的CDN云关键词,该CDN云关键词为CDN云通用特征串或CDN云厂商域名集合,该CDN云通用特征串为CDN云厂商在提供CDN云服务时常使用的字符串,包括gslb、cache、cacheCDN、cloud、glb、gilb中的至少一种。
5.如权利要求1所述的方法,其特征在于,HTTP头部字段包括URL字段、referer字段、cookie字段、host字段、301跳转、302跳转中的至少一种。
6.如权利要求1所述的方法,其特征在于,CDN云使用图谱的节点具有唯一ID标号,该ID标号采用IP、全称域名、特征子域名或厂商来表示;CDN云使用图谱的边具有唯一ID标号之间的通联关系,包括跳转关系、共用域名关系、共用IP关系或相同组织隶属关系;节点特征包括资源描述的词特征。
7.如权利要求1所述的方法,其特征在于,分类算法包括网络嵌入算法、SVM算法或CNN算法。
8.如权利要求1所述的方法,其特征在于,所述对应用服务进行分类,输出特定应用服务类型,包括流媒体、直播或短视频,还包括非法网站、非法APP、恶意网站、恶意APP、钓鱼网站或钓鱼APP。
9.一种应用服务分类装置,包括存储器和处理器,该存储器存储计算机程序,该程序被配置为由该处理器执行,该程序包括用于执行上述权利要求1至8任一所述方法中各步骤的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811571323.0A CN109905288B (zh) | 2018-12-21 | 2018-12-21 | 一种应用服务分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811571323.0A CN109905288B (zh) | 2018-12-21 | 2018-12-21 | 一种应用服务分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109905288A CN109905288A (zh) | 2019-06-18 |
CN109905288B true CN109905288B (zh) | 2021-09-14 |
Family
ID=66943440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811571323.0A Active CN109905288B (zh) | 2018-12-21 | 2018-12-21 | 一种应用服务分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109905288B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112564991A (zh) * | 2019-09-10 | 2021-03-26 | 华为技术有限公司 | 应用识别方法、装置及存储介质 |
CN112686277A (zh) * | 2019-10-18 | 2021-04-20 | 北京大学 | 模型训练的方法和装置 |
CN111224981B (zh) * | 2019-12-31 | 2022-05-17 | 北京天融信网络安全技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN113824644A (zh) * | 2020-06-18 | 2021-12-21 | 中国移动通信集团陕西有限公司 | Https业务内容识别方法、装置和设备 |
CN112437016B (zh) * | 2020-11-11 | 2023-09-26 | 中国科学技术大学先进技术研究院 | 网络流量识别方法、装置、设备及计算机存储介质 |
CN112866257B (zh) * | 2021-01-22 | 2023-09-26 | 网宿科技股份有限公司 | 一种域名检测方法、系统及装置 |
CN113449782B (zh) * | 2021-06-18 | 2022-05-24 | 中电积至(海南)信息技术有限公司 | 一种基于图半监督分类的cdn托管节点检测方法 |
CN114095384B (zh) * | 2021-10-29 | 2023-03-24 | 新浪网技术(中国)有限公司 | 一种融合cdn的服务质量实时展示方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106452940A (zh) * | 2016-08-22 | 2017-02-22 | 中国联合网络通信有限公司重庆市分公司 | 一种互联网业务流量归属的识别方法和装置 |
CN108985361A (zh) * | 2018-07-02 | 2018-12-11 | 北京金睛云华科技有限公司 | 一种基于深度学习的恶意流量检测实现方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10362166B2 (en) * | 2017-03-01 | 2019-07-23 | At&T Intellectual Property I, L.P. | Facilitating software downloads to internet of things devices via a constrained network |
-
2018
- 2018-12-21 CN CN201811571323.0A patent/CN109905288B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106452940A (zh) * | 2016-08-22 | 2017-02-22 | 中国联合网络通信有限公司重庆市分公司 | 一种互联网业务流量归属的识别方法和装置 |
CN108985361A (zh) * | 2018-07-02 | 2018-12-11 | 北京金睛云华科技有限公司 | 一种基于深度学习的恶意流量检测实现方法和装置 |
Non-Patent Citations (2)
Title |
---|
Characterizing a Meta-CDN;Oliver Hohlfeld 等;《Passive And ActiveMeasurement》;20180302;114-128 * |
VegaStar: An Illegal Domain Detection System on Large-Scale Video Traffic;Xiang Tian 等;《2018 17th IEEE International Conference On Trust, Security And Privacy In Computing And Communications/ 12th IEEE International Conference On Big Data Science And Engineering (TrustCom/BigDataSE)》;IEEE;20180906;783-789 * |
Also Published As
Publication number | Publication date |
---|---|
CN109905288A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109905288B (zh) | 一种应用服务分类方法及装置 | |
CN104125209B (zh) | 恶意网址提示方法和路由器 | |
US9928301B2 (en) | Classifying uniform resource locators | |
US10361931B2 (en) | Methods and apparatus to identify an internet domain to which an encrypted network communication is targeted | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
CN106095979B (zh) | Url合并处理方法和装置 | |
CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
US10885466B2 (en) | Method for performing user profiling from encrypted network traffic flows | |
CN112333185B (zh) | 一种基于dns解析的域名阴影检测方法和装置 | |
CN114328962A (zh) | 一种基于知识图谱的web日志异常行为识别方法 | |
Bai et al. | Analysis and detection of bogus behavior in web crawler measurement | |
Sujatha | Improved user navigation pattern prediction technique from web log data | |
Li et al. | Street-Level Landmarks Acquisition Based on SVM Classifiers. | |
Piredda et al. | Deepsquatting: Learning-based typosquatting detection at deeper domain levels | |
CN112749360A (zh) | 网页分类方法及装置 | |
US11394687B2 (en) | Fully qualified domain name (FQDN) determination | |
Ahamad et al. | Strategy and implementation of web mining tools | |
CN114793204B (zh) | 一种网络资产探测方法 | |
CN105447148A (zh) | 一种Cookie标识关联方法及装置 | |
CN109408479A (zh) | 日志数据添加方法、系统、计算机设备和存储介质 | |
Alfazi et al. | Identification as a service: large-scale cloud service discovery over the world wide web | |
Maheswari et al. | Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining | |
Tan et al. | Malfilter: A lightweight real-time malicious url filtering system in large-scale networks | |
CN112187768B (zh) | 不良信息网站的检测方法、装置、设备及可读存储介质 | |
Xu et al. | Darknet Web URL Detection without URL Content Leakage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |