CN104750704A - 一种网页url地址分类识别方法及装置 - Google Patents

一种网页url地址分类识别方法及装置 Download PDF

Info

Publication number
CN104750704A
CN104750704A CN201310739676.8A CN201310739676A CN104750704A CN 104750704 A CN104750704 A CN 104750704A CN 201310739676 A CN201310739676 A CN 201310739676A CN 104750704 A CN104750704 A CN 104750704A
Authority
CN
China
Prior art keywords
url address
catalogue
classification
keyword
directory tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310739676.8A
Other languages
English (en)
Other versions
CN104750704B (zh
Inventor
崔洪涛
李明
李�远
邵杰
黄伟
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Henan Co Ltd
Original Assignee
China Mobile Group Henan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Henan Co Ltd filed Critical China Mobile Group Henan Co Ltd
Priority to CN201310739676.8A priority Critical patent/CN104750704B/zh
Publication of CN104750704A publication Critical patent/CN104750704A/zh
Application granted granted Critical
Publication of CN104750704B publication Critical patent/CN104750704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页URL地址分类识别方法及装置,用以在尽量减小URL分类所需的数据量的前提下,提高URL分类的准确率以及深度,提高效率。该方法为:解析多个具体相同域名的URL地址,确定所述URL地址包含的主路径以及各级子路径,按照确定的所述主路径以及各级子路径作为各级目录构建目录树;按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下;针对所述目录树中的任一级目录,分别确定包含的各URL地址对应的网页中的关键词,确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时,将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。

Description

一种网页URL地址分类识别方法及装置
技术领域
本发明涉及网络技术领域,尤其涉及一种网页URL地址分类识别方法及装置。
背景技术
随着互联网的迅速发展,网络数据量急剧增长,面对数量庞大的网页信息资源,需要对数量庞大的网页信息进行分类整理。
目前,按照网页的统一资源定位符(URL)对网页进行分类是比较常见的网页分类整理方法之一。
传统的URL分类识别主要有以下几种方法:
第一种,在获取网页的URL地址后,采用网页爬虫技术按照该URL地址爬取网页内容,对网页的标题和正文进行语义分析后确定出现频率较高的设定个数的关键词(Keywords),根据确定的关键词确定该网页所属的类别。该方法受到硬件条件限制不可能爬取所有的互联网页面,再者该方法难以对网页进行准确分类,只能够给出该网页可能归属的几个类别(即关键词)。
第二种,将获取的网页的URL地址与设定的正则表达式进行匹配,若匹配成功则将该网页归于该正则表达式所对应的类别,例如,将获取的URL地址的后缀与设定的正则表达式后缀为“.XX.com”或“.XX.cn”进行比较,将凡是以“.XX.com”或“.XX.cn”结尾的URL地址均归属为XX网站。该方法需要针对每个待分类网站进行大量的URL地址分析,人工梳理得到URL地址的规律,人工梳理的难度高,工作量大。
第三种,将获取的网页的URL地址中包含的域名与设定的域名进行匹配,若匹配成功,将该URL地址归于该域名对应的类别。采用域名匹配的方法可以将有限的人力资源用到对热点网站的分类识别上,并且能够保证匹配的覆盖度,以及保证匹配的准确率。但是,域名匹配的匹配深度低,一般智能识别出该URL网址时域哪个网站,具体该URL属于该网站的哪一频道或者哪一类别无法确定。
第四种,将获取的网页的URL地址与预设的目录进行匹配,若匹配成功,将该URL地址归于该目录对应的类别,该方法能够保证匹配的准确率,但是预设的目录需要人工分析梳理大量的URL地址后得到,对目录进行维护的工作量大,且人工梳理获得目录的方式也难以保证匹配的覆盖度。
综上所述,需要寻求一种网页的URL地址分类识别的方法,能够尽量减小数据量的前提下,提高URL分类的准确率以及深度,提高处理效率。
发明内容
本发明提供一种网页URL地址分类识别方法及装置,用以在尽量减小URL分类所需的数据量的前提下,提高URL分类的准确率以及深度,提高处理效率。
本发明实施例提供的具体技术方案如下:
一种网页统一资源定位符URL地址分类识别方法,包括:
解析多个具体相同域名的URL地址,确定所述URL地址包含的主路径以及各级子路径,按照确定的所述主路径以及各级子路径作为各级目录构建目录树;
按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下;
针对所述目录树中的任一级目录,分别确定包含的各URL地址对应的网页中的关键词,确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时,将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。
一种网页统一资源定位符URL地址分类识别装置,包括:
构建单元,用于解析多个具体相同域名的URL地址,确定所述URL地址中包含的主路径以及各级子路径,按照确定的所述主路径以及各级子路径作为各级目录构建目录树;
分类单元,用于按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下;
处理单元,用于针对所述目录树中的任一级目录,分别确定包含的各URL地址对应的网页中的关键词,确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时,将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。
基于上述技术方案,本发明实施例中,通过解析多个具有相同域名的URL地址构建目录树,按照URL地址的全路径将各URL地址划分至目录树中相应的目录下,针对任一目录确定该目录,分别确定包含的各URL地址对应的网页的关键词,确定具有相同的第一关键词的网页与目录中的网页总数的比例高于设定阈值时,将第一关键词所属的类别确定为该目录下的URL地址的类别,从而能够自动构建目录树并确定目录树中各目录的类别,无需人工梳理,且根据同一目录下的各URL地址确定的网页的关键词的散列程度,确定相应目录所属的类别,从而可以按照目录树对URL地址进行分类并确定其类别,保证URL地址分类的准确度以及深度,并且可以避免在每次获取到URL地址时均需要爬取相应的网页内容确定关键词,降低了所需存储的数据量,并且提高了处理效率。
附图说明
图1为本发明实施例中对网页URL地址进行分类识别的方法流程图;
图2为本发明实施例中对网页URL地址进行分类识别的装置结构示意图。
具体实施方式
为了尽量减小URL地址分类所需的数据量的前提下,提高URL分类的准确率以及分类深度,提高处理效率,本发明实施例提供了一种网页URL地址分类识别方法及装置。
其中,URL地址一般的组成部分包括:采用的传输协议(例如,http、ftp等)、主机域名(host)和路径。路径为由零个或多个“/”符号分割的字符串,一般表示服务器上的一个目录或文件的地址。
例如,在URL地址:http://www.ceocio.com.cn/net/中,www.ceocio.com.cn为主机域名,也就是网页的服务器域名,net为该网页的服务器的一个目录。
下面结合附图对本发明优选的实施方式进行详细说明。
如附图1所示,本发明实施例中,提供了一种网页URL地址分类识别方法,该方法的具体过程如下:
步骤101:解析多个具体相同域名的URL地址,确定URL地址包含的主路径以及各级子路径,按照确定的所述主路径以及各级子路径作为各级目录构建目录树。
具体地,构建目录树时,将主路径作为目录树的根目录,将各级子路径依次作为根目录下的各级子目录。
实际应用中,URL地址可以仅包括主路径,也可以是包括主路径和子路径,以一个包括主路径和子路径的URL地址为例,按照次数该URL地址包括的路径有主路径、一级子路径、二级子路径….N级子路径和叶子。
例如,以URL地址1“http://www.ceocio.com.cn/net/moving/2013.10.17/xxx.htm”为例,其中,主路径为ceocio.com.cn,一级子路径为net,二级子路径为moving,三级子路径为2013.10.17,叶子为xxx.htm,构建目录树如下:
根目录为:http://www.ceocio.com.cn/;
一级子目录为:http://www.ceocio.com.cn/net/;
二级子目录为:http://www.ceocio.com.cn/net/moving/;
三级子目录为:http://www.ceocio.com.cn/net/moving/2013.10.17/。
优选地,在构建目录树后,解析再次获取的URL地址,若再次获取的URL的域名与构建目录树的URL的域名相同,且再次获取的URL地址中包含的各级子路径与所述目录树中各级目录对应的各子路径都不相同,则将与目录树中各级目录对应的各子路径都不相同的、再次获取的URL地址中的子路径,构建为所述目录树中相应等级的子目录。该过程为对目录树的修正补充过程,能够使得构建的目录树完整。
例如,接上例,在以URL地址1“http://www.ceocio.com.cn/net/moving/2013.10.17/xxx.htm”构建目录树后,获取到URL地址2“http://www.ceocio.com.cn/net/sports/xxxx.htm”,该URL地址2中包含子路径sports为URL地址1中不包含的子路径,则在目录树的一级子目录http://www.ceocio.com.cn/net下,增加一个二级子目录http://www.ceocio.com.cn/net/sport,与原有的二级子目录并列。
步骤102:按照URL地址包含的全路径将每个URL地址划分至目录树中相应的目录下。
具体地,在构建目录树时,将主路径作为目录树的根目录,将各级子路径依次作为根目录下的各级子目录。
优选地,每个URL地址划分至目录树中相应的目录下时,从目录树中的最后一级目录开始,将URL地址中的全路径依次与目录树中的各级目录进行匹配,直至匹配成功时,将该URL地址归于匹配成功的目录下。
步骤103:针对目录树中的任一目录,分别确定包含的各URL地址对应的网页中的关键词,确定具有相同的第一关键词的网页与该目录中的网页总数的比值高于设定阈值时,将第一关键词所属的类别确定为该目录下的各URL地址的类别。
优选地,将第一关键词所属的类别确定为所述目录下的各URL地址的类别后,还包括:
判断连续未对该目录下的各URL地址的类别进行修正的次数是否达到设定次数;
若未达到设定次数,按照目录树对再次获取的多个URL地址进行分类达到设定时长后,再次确定该目录包含的各URL地址对应的网页的关键词,确定具有相同的第二关键词的网页与该目录中的网页总数的比值高于设定阈值后,判断第二关键词与第一关键词是否相同;若相同,将连续未对该目录下的各URL地址的类别进行修正的次数增加设定值;否则,将该目录下的各URL地址所属的类别修正为第二关键词确定的类别,并将连续未对该目录下的各URL地址的类别进行修正的次数置为初始值,重复上述判断过程;
若达到设定次数,不再对该目录下的各URL地址的类别进行修正。
优选地,按照目录树对再次获取的多个URL地址进行分类的同时,可以根据再次获取的URL地址解析获得的各主路径以及各级子路径构建新的目录树,或者,对已构建的目录树进行补充修正,具体为:
再次获取URL地址后,将该URL地址中的主路径分别与已构建的各目录树的根目录进行匹配;
若不存在相匹配的根目录,则解析该URL地址获取其包括的主路径以及各级子路径,按照该主路径以及各级子路径构建新的目录树;
若存在相匹配的根目录,则解析该URL地址获取其包括的主路径以及各级子路径,判断获取的各子路径是否在相匹配的目录树中存在相应的子目录,若不存在,则在该相匹配的目录树中构建与URL地址中包含的、在目录树中不存在相应子目录的子路径相应等级的子目录;若存在,则按照该URL地址中包含的全路径将该URL地址归至相匹配的目录树的相应子目录中。
优选地,在确定目录树中的各级目录下的URL地址所属的类别时,从最末一级目录开始,顺次确定各级子目录对应的类别,直至主目录。
本发明实施例中,确定网页的关键词为对网页内容进行语义分析后确定,语义分析是采用概念识别算法识别网页中的各概念,具体可以对网页内容进行切词分析后,将切词分析获得各概念词与预设的词典库进行比较,若词典库中存在,将该概念词作为一个关键词,本发明实施例中,确定网页的关键词可以采用现有的语义分析算法实现,此处不再详述。
例如,接上例,首先按照三级子目录下的各URL地址获取网页,并分别确定各网页的关键词,若确定超过80%的网页的关键词中都有“移动互联网”、“移动”和“互联网”,符合散列程度低的要求,则根据该三个关键词可将该目录所属的类别确定为移动互联网。
基于相同的原理,如附图2所示,本发明实施例还提供了一种URL地址分类识别装置,该装置的具体实施可参见上述方法部分的实施,重复之处不再赘述,该装置主要包括:
构建单元201,用于解析多个具体相同域名的URL地址,确定所述URL地址包含的主路径以及各级子路径,按照确定的所述主路径以及各级子路径作为各级目录构建目录树;
分类单元202,用于按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下;
处理单元203,用于针对所述目录树中的任一级目录,分别确定包含的各URL地址对应的网页中的关键词,确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时,将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。
其中,构建单元201具体用于:
将所述主路径作为所述目录树的根目录,将所述各级子路径依次作为所述根目录下的各级子目录。
优选地,分类单元202具体用于:
从所述目录树中的最后一级目录开始,将所述全路径依次与所述目录树中的各级目录进行匹配,直至匹配成功时,将所述URL地址归于匹配成功的目录下。
优选地,处理单元203还用于:
将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别后,判断连续未对所述目录下的各URL地址的类别进行修正的次数是否达到设定次数;
若未达到设定次数,在所述分类单元按照所述目录树对再次获取的多个URL地址进行分类达到设定时长后,再次确定所述目录包含的各URL地址对应的网页的关键词,确定具有相同的第二关键词的网页与所述目录中的网页总数的比值高于设定阈值后,判断所述第二关键词与所述第一关键词是否相同;若相同,将连续未对所述目录下的各URL地址的类别进行修正的次数增加设定值;否则,将所述目录下的各URL地址所属的类别修正为所述第二关键词确定的类别,并将连续未对所述目录下的各URL地址的类别进行修正的次数置为初始值;
若达到设定次数,不再对所述目录下的各URL地址的类别进行修正。
较佳地,构建单元201还用于:
按照确定的所述主路径以及各级子路径构建目录树之前,将所述URL地址的域名与已有的目录树的根目录进行匹配,且确定不存在相匹配的根目录。
基于上述技术方案,本发明实施例中,通过解析多个具有相同域名的URL地址构建目录树,按照URL地址的全路径将各URL地址划分至目录树中相应的目录下,针对任一目录确定该目录,分别确定包含的各URL地址对应的网页的关键词,确定具有相同的第一关键词的网页与目录中的网页总数的比例高于设定阈值时,将第一关键词所属的类别确定为该目录下的URL地址的类别,从而能够自动构建目录树并确定目录树中各目录的类别,无需人工梳理,且根据同一目录下的各URL地址确定的网页的关键词的散列程度,确定相应目录所属的类别,从而可以按照目录树对URL地址进行分类并确定其类别,提高了URL地址分类的准确度以及分类深度,并且可以避免在每次获取到URL地址时均需要爬取相应的网页内容确定关键词,降低了所需存储的数据量,并且提高了处理效率。
并且,本发明实施例中,采用自学习的方式对构建的目录树进行修正,以及采用自学习的方式对确定的目录树中各级目录的类别进行多次修正,进一步提高了URL地址分类的准确性。
同时,本发明实施例提供的URL地址分类的方式不需要人工参与,节省了人力资源成本,同时在确定目录树以及目录树中各级目录的类别后,便无需再对网页进行语义分析确定关键词,在保证分类准确性和分类深度的前提下,降低了处理的数据量,进一步可以减少硬件投资。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种网页统一资源定位符URL地址分类识别方法,其特征在于,包括:
解析多个具体相同域名的URL地址,确定所述URL地址包含的主路径以及各级子路径,按照确定的所述主路径以及各级子路径作为各级目录构建目录树;
按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下;
针对所述目录树中的任一目录,分别确定包含的各URL地址对应的网页中的关键词,确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时,将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。
2.如权利要求1所述的方法,其特征在于,将所述主路径以及各级子路径作为各级目录构建目录树,包括:
将所述主路径作为所述目录树的根目录,将所述各级子路径依次作为所述根目录下的各级子目录。
3.如权利要求2所述的方法,其特征在于,按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下,包括:
从所述目录树中的最后一级目录开始,将所述全路径依次与所述目录树中的各级目录进行匹配,直至匹配成功时,将所述URL地址归于匹配成功的目录下。
4.如权利要求1、2或3所述的方法,其特征在于,将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别后,还包括:
判断连续未对所述目录下的各URL地址的类别进行修正的次数是否达到设定次数;
若未达到设定次数,按照所述目录树对再次获取的多个URL地址进行分类达到设定时长后,再次确定所述目录包含的各URL地址对应的网页的关键词,确定具有相同的第二关键词的网页与所述目录中的网页总数的比值高于设定阈值后,判断所述第二关键词与所述第一关键词是否相同;若相同,将连续未对所述目录下的各URL地址的类别进行修正的次数增加设定值;否则,将所述目录下的各URL地址所属的类别修正为所述第二关键词确定的类别,并将连续未对所述目录下的各URL地址的类别进行修正的次数置为初始值;
若达到设定次数,不再对所述目录下的各URL地址的类别进行修正。
5.如权利要求4所述的方法,其特征在于,按照确定的所述主路径以及各级子路径构建目录树之前,包括:
将所述URL地址的域名与已有的目录树的根目录进行匹配,且确定不存在相匹配的根目录。
6.一种网页统一资源定位符URL地址分类识别装置,其特征在于,包括:
构建单元,用于解析多个具体相同域名的URL地址,确定所述URL地址包含的主路径以及各级子路径,按照确定的所述主路径以及各级子路径作为各级目录构建目录树;
分类单元,用于按照所述URL地址包含的全路径将每个所述URL地址划分至所述目录树中相应的目录下;
处理单元,用于针对所述目录树中的任一级目录,分别确定包含的各URL地址对应的网页中的关键词,确定具有相同的第一关键词的网页与所述目录中的网页总数的比值高于设定阈值时,将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别。
7.如权利要求6所述的装置,其特征在于,所述构建单元具体用于:
将所述主路径作为所述目录树的根目录,将所述各级子路径依次作为所述根目录下的各级子目录。
8.如权利要求7所述的装置,其特征在于,所述分类单元具体用于:
从所述目录树中的最后一级目录开始,将所述全路径依次与所述目录树中的各级目录进行匹配,直至匹配成功时,将所述URL地址归于匹配成功的目录下。
9.如权利要求6、7或8所述的装置,其特征在于,所述处理单元还用于:
将所述第一关键词所属的类别确定为所述目录下的各URL地址的类别后,判断连续未对所述目录下的各URL地址的类别进行修正的次数是否达到设定次数;
若未达到设定次数,在所述分类单元按照所述目录树对再次获取的多个URL地址进行分类达到设定时长后,再次确定所述目录包含的各URL地址对应的网页的关键词,确定具有相同的第二关键词的网页与所述目录中的网页总数的比值高于设定阈值后,判断所述第二关键词与所述第一关键词是否相同;若相同,将连续未对所述目录下的各URL地址的类别进行修正的次数增加设定值;否则,将所述目录下的各URL地址所属的类别修正为所述第二关键词确定的类别,并将连续未对所述目录下的各URL地址的类别进行修正的次数置为初始值;
若达到设定次数,不再对所述目录下的各URL地址的类别进行修正。
10.如权利要求9所述的装置,其特征在于,所述构建单元还用于:
按照确定的所述主路径以及各级子路径构建目录树之前,将所述URL地址的域名与已有的目录树的根目录进行匹配,且确定不存在相匹配的根目录。
CN201310739676.8A 2013-12-26 2013-12-26 一种网页url地址分类识别方法及装置 Active CN104750704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310739676.8A CN104750704B (zh) 2013-12-26 2013-12-26 一种网页url地址分类识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310739676.8A CN104750704B (zh) 2013-12-26 2013-12-26 一种网页url地址分类识别方法及装置

Publications (2)

Publication Number Publication Date
CN104750704A true CN104750704A (zh) 2015-07-01
CN104750704B CN104750704B (zh) 2018-06-26

Family

ID=53590409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310739676.8A Active CN104750704B (zh) 2013-12-26 2013-12-26 一种网页url地址分类识别方法及装置

Country Status (1)

Country Link
CN (1) CN104750704B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117436A (zh) * 2015-08-10 2015-12-02 上海晶赞科技发展有限公司 网站频道自动挖掘方法
CN105868234A (zh) * 2015-12-07 2016-08-17 乐视云计算有限公司 缓存数据的更新方法及装置
CN105868251A (zh) * 2015-12-22 2016-08-17 乐视云计算有限公司 一种缓存数据更新方法及装置
CN106844588A (zh) * 2017-01-11 2017-06-13 上海斐讯数据通信技术有限公司 一种基于网络爬虫的用户行为数据的分析方法及系统
CN108073588A (zh) * 2016-11-09 2018-05-25 北京国双科技有限公司 栏目信息提取方法和装置
CN108337259A (zh) * 2018-02-01 2018-07-27 南京邮电大学 一种基于HTTP请求Host信息的可疑网页识别方法
CN108696599A (zh) * 2017-04-07 2018-10-23 北京上元信安技术有限公司 一种去除冗余域名的方法、系统和防火墙设备
CN108769832A (zh) * 2018-03-16 2018-11-06 青岛海信宽带多媒体技术有限公司 一种网页显示方法、装置及机顶盒
CN109241428A (zh) * 2018-09-05 2019-01-18 广州视源电子科技股份有限公司 用户性别的确定方法、装置、服务器及存储介质
CN109583211A (zh) * 2018-10-11 2019-04-05 阿里巴巴集团控股有限公司 网站聚类及漏洞扫描方法、装置、电子设备及存储介质
CN109710860A (zh) * 2018-12-21 2019-05-03 武汉思普崚技术有限公司 一种url分类匹配的方法及装置
CN109977328A (zh) * 2019-03-06 2019-07-05 杭州迪普科技股份有限公司 一种url分类方法及装置
CN110750739A (zh) * 2018-07-04 2020-02-04 北京国双科技有限公司 一种页面类型确定方法及装置
CN112860969A (zh) * 2021-02-25 2021-05-28 武汉思普崚技术有限公司 域名分类匹配方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050187889A1 (en) * 2002-09-05 2005-08-25 Hiroyuki Yasoshima Method for managing file using network structure, operation object display limiting program, and recording medium
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN101236571A (zh) * 2008-03-06 2008-08-06 北京乾坤化物数字技术有限公司 利用树状结构目录管理海量网络子站网页的方法
CN102571404A (zh) * 2010-12-31 2012-07-11 北京新媒传信科技有限公司 网站访问统计方法和网站访问统计系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050187889A1 (en) * 2002-09-05 2005-08-25 Hiroyuki Yasoshima Method for managing file using network structure, operation object display limiting program, and recording medium
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN101236571A (zh) * 2008-03-06 2008-08-06 北京乾坤化物数字技术有限公司 利用树状结构目录管理海量网络子站网页的方法
CN102571404A (zh) * 2010-12-31 2012-07-11 北京新媒传信科技有限公司 网站访问统计方法和网站访问统计系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117436B (zh) * 2015-08-10 2018-03-30 上海晶赞科技发展有限公司 网站频道自动挖掘方法
CN105117436A (zh) * 2015-08-10 2015-12-02 上海晶赞科技发展有限公司 网站频道自动挖掘方法
CN105868234A (zh) * 2015-12-07 2016-08-17 乐视云计算有限公司 缓存数据的更新方法及装置
CN105868251A (zh) * 2015-12-22 2016-08-17 乐视云计算有限公司 一种缓存数据更新方法及装置
CN108073588A (zh) * 2016-11-09 2018-05-25 北京国双科技有限公司 栏目信息提取方法和装置
CN106844588A (zh) * 2017-01-11 2017-06-13 上海斐讯数据通信技术有限公司 一种基于网络爬虫的用户行为数据的分析方法及系统
CN108696599B (zh) * 2017-04-07 2021-02-19 北京上元信安技术有限公司 域名分类特征库中去除冗余域名的方法、系统、防火墙设备
CN108696599A (zh) * 2017-04-07 2018-10-23 北京上元信安技术有限公司 一种去除冗余域名的方法、系统和防火墙设备
CN108337259A (zh) * 2018-02-01 2018-07-27 南京邮电大学 一种基于HTTP请求Host信息的可疑网页识别方法
CN108769832A (zh) * 2018-03-16 2018-11-06 青岛海信宽带多媒体技术有限公司 一种网页显示方法、装置及机顶盒
CN110750739A (zh) * 2018-07-04 2020-02-04 北京国双科技有限公司 一种页面类型确定方法及装置
CN110750739B (zh) * 2018-07-04 2022-07-05 北京国双科技有限公司 一种页面类型确定方法及装置
CN109241428A (zh) * 2018-09-05 2019-01-18 广州视源电子科技股份有限公司 用户性别的确定方法、装置、服务器及存储介质
CN109583211A (zh) * 2018-10-11 2019-04-05 阿里巴巴集团控股有限公司 网站聚类及漏洞扫描方法、装置、电子设备及存储介质
CN109583211B (zh) * 2018-10-11 2023-03-07 创新先进技术有限公司 网站聚类及漏洞扫描方法、装置、电子设备及存储介质
CN109710860A (zh) * 2018-12-21 2019-05-03 武汉思普崚技术有限公司 一种url分类匹配的方法及装置
CN109710860B (zh) * 2018-12-21 2021-07-27 武汉思普崚技术有限公司 一种url分类匹配的方法及装置
CN109977328A (zh) * 2019-03-06 2019-07-05 杭州迪普科技股份有限公司 一种url分类方法及装置
CN112860969A (zh) * 2021-02-25 2021-05-28 武汉思普崚技术有限公司 域名分类匹配方法及装置

Also Published As

Publication number Publication date
CN104750704B (zh) 2018-06-26

Similar Documents

Publication Publication Date Title
CN104750704A (zh) 一种网页url地址分类识别方法及装置
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN102054016B (zh) 用于撷取及管理社群智能信息的系统及方法
CN105447081A (zh) 面向云平台的一种政务舆情监控方法
CN105279277A (zh) 知识数据的处理方法和装置
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
GB2509773A (en) Automatic genre determination of web content
CN105677661A (zh) 一种检测社交媒体重复数据的方法
CN103544307B (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN104182412A (zh) 一种网页爬取方法及系统
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
CN101950312A (zh) 一种互联网网页内容解析方法
US20170193098A1 (en) System and method for topic modeling using unstructured manufacturing data
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN106649823A (zh) 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
Devi et al. An efficient approach for web indexing of big data through hyperlinks in web crawling
CN107330010B (zh) 一种基于机器学习的后台路径爆破方法
US20170235835A1 (en) Information identification and extraction
CN107506349A (zh) 一种基于网络日志的用户负面情绪预测方法和系统
CN111222031A (zh) 一种网站判别方法及系统
IT201600091521A1 (it) Metodo per l’esplorazione di tracce passive di traffico e raggruppamento di url simili.
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
CN103324640B (zh) 一种确定搜索结果文档的方法、装置和设备
CN104281693A (zh) 一种语义搜索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant