CN105117436B

CN105117436B - 网站频道自动挖掘方法

Info

Publication number: CN105117436B
Application number: CN201510485686.2A
Authority: CN
Inventors: 汤奇峰; 刘作涛
Original assignee: Shanghai Zamplus Technology Development Co Ltd
Current assignee: Shanghai Zamplus Technology Development Co Ltd
Priority date: 2015-08-10
Filing date: 2015-08-10
Publication date: 2018-03-30
Anticipated expiration: 2035-08-10
Also published as: CN105117436A

Abstract

本发明属于网站频道挖掘技术领域，提供了网站频道自动挖掘方法，包括：步骤从互联网数据中抓取各个网站的URL数据；对URL数据进行分解，分解成多种URL模式；对分解获得的多种URL模式进行过滤，去除重复包含的URL模式，得到候选URL模式；对过滤后的候选URL模式中所包含的URL数据进行抽样处理；对抽样留下的URL数据进行抓取网页内容，并对网页进行分类；统计各个URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；合并URL模式中存在包含关系的模式，得到频道列表。本发明能够自动发现各个网站的频道以及对频道进行分类，提高了URL数据的抓取和分类效率，占用磁盘空间小，省时省力，分类更加准确。

Description

网站频道自动挖掘方法

技术领域

本发明属于网站频道挖掘技术领域，特别涉及一种对大规模的网页URL进行分析处理、自动发现各个网站的频道以及对频道进行分类的网站频道自动挖掘方法。

背景技术

随着互联网技术的不断发展以及信息的不断膨胀，人们对于网络信息的使用需求也越来越高，如何对海量的网络URL进行分析和管理是许多网络应用都需要面临的难题。网站频道自动挖掘方法是对大规模的网页URL进行分析处理，自动发现各个网站的频道以及对频道进行分类，进一步地实现对URL进行分类。

随着互联网广告行业的发展，主流广告投放方式已经由包断网站流量对所有用户投放同样的广告，转变为根据具体的网页内容和不同用户的特征，分别投放不同的广告内容，来精准的迎合用户的兴趣爱好，达到提高广告点击率和转化率的目的。

对广告投放系统来说，需要区分大量不同网页的类别，也需要根据用户历史上的访问记录来分析其兴趣爱好。针对互联网的海量的，且在快速增长的网页规模，需要一个有效地对网页内容进行分类的系统。

现有的网页分类方法主要有以下几种：(1)采用人工对各个站点的URL进行标注，费时费力，且人工知识很难覆盖到大量站点。(2)从网络上把大量URL的网页内容都抓取下来，对每一个网页用一个网页分类系统分好类，并存到一个缓存系统中。这样当处理到一个网页时，从缓存系统中获取预先得到的分类结果。此种方法的问题在于：需要预先对所有网页进行抓取和分类，占用磁盘空间非常大；每当遇到一个未预先处理的网页时，就需要启动抓取和分类的过程，耗时较长；并且很多网页上的文本内容很少，比较难准确的分类，错误率很高。(3)借助于各个网站的频道体系。由于多数大型网站，通常会整理一个特有的频道体系，来方便用户快速访问，因此可以得到各个URL对应的网站频道，人工将这个频道映射到网页分类体系中。此种方法的问题在于：人工整理这些频道列表，不仅费时费力，而且在频道列表更新之后，很难及时发现。

因此，网站频道挖掘技术领域急需一种网站频道自动挖掘方法，能够自动发现各个网站的频道以及对频道进行分类，提高了URL数据的抓取和分类效率，占用磁盘空间小，省时省力，分类更加准确。

发明内容

本发明为了解决抓取和分类耗时长、占用空间大，费时费力的问题，提供了一种网站频道自动挖掘方法，技术方案如下：

网站频道自动挖掘方法，包括如下步骤：

步骤一，从互联网数据中抓取各个网站的URL数据；

步骤二，对URL数据进行分解，分解成多种URL模式；

步骤三，对分解获得的多种URL模式进行过滤，去除重复包含的URL模式，得到候选URL模式；

步骤四，对过滤后的候选URL模式中所包含的URL数据进行抽样处理；

步骤五，根据抽样留下的URL数据来抓取网页内容，并对网页进行分类；

步骤六，统计各个URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；具体步骤为：

首先，所述URL模式下包含的URL数据的分类是比较一致的，而不是杂乱无章的；

进一步地，根据统计的每个URL模式下所包含的URL分类标签，计算每个分类标签所占的比例；与预先设置的分类标签比例阈值进行比较，如果分类标签所占的比例大于比例阈值，则所述URL模式所属的URL分类是比较一致的，进行保留；过滤所属的URL分类不一致的模式，即得到符合条件的URL模式和对应的分类标签；

步骤七，合并所述URL模式中存在包含关系的模式，得到频道列表；具体步骤为：

首先，将上级所述URL模式与当前所述URL模式进行比较，上级所述URL模式是指组成模式的成分与当前URL模式相似，但是要比当前URL模式中的内容要少；

进一步地，当前所述URL模式对应的分类，与上级模式一致，则舍弃当前所述URL模式；

进一步地，被保留的所述URL模式和对应的分类，即构成了频道列表。

优选的，在上述网站频道自动挖掘方法中，步骤一是通过定制的网络爬虫，或者/和从互联网广告网络的广播数据中，收集互联网上各个网站的URL数据的。

优选的，在上述网站频道自动挖掘方法中，步骤一中通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为：

定制的网络爬虫是指从几个大的门户网站开始抓取网页，并收集网页中的URL，将URL加到候选队列之中；进一步地继续抓取候选队列中的URL，从网页中收集URL，仍旧加到候选队列中，去除重复的URL，如此循环，直至收集上亿的URL数据；

优选的，在上述网站频道自动挖掘方法中，步骤一中从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为：各个互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司；互联网广告代理公司再将所述URL搜集起来，进行积攒，即得到上亿的URL数据。

优选的，在上述网站频道自动挖掘方法中，步骤二中对URL数据进行分解，分解成多种URL模式的具体步骤为：

首先，URL为统一资源定位符，通常包括子域名、域名、目录多个组成部分；

进一步地，对URL数据进行分解是指，提取URL中包括子域名、域名、顶级域名、目录的多个组成部分，并按照相应的分隔符对子域名和目录进行分隔；

进一步地，舍弃URL中的部分子域名或者目录，重新拼装，得到的即为URL模式。

优选的，在上述网站频道自动挖掘方法中，步骤三中对分解获得的多种URL模式进行过滤，去除重复包含的URL，得到候选URL模式的具体步骤为：

首先，通过聚合步骤二中的URL模式，可以得到每个URL模式中包含的URL，并计算URL的数目；

进一步地，设置URL阈值，保留URL数据大于URL阈值的URL模式，对不满足条件的URL模式进行删除，即得到候选URL模式。

优选的，在上述网站频道自动挖掘方法中，步骤四中对过滤后的候选URL模式中所包含的URL数据进行抽样处理的具体步骤为：

候选URL模式中包含有多个URL数据，需要对每种候选URL模式下所包含的URL数据进行抽样处理，抽样是随机抽样，抽样结束后，每个URL模式包含的URL数量相等。

优选的，在上述网站频道自动挖掘方法中，步骤五中对抽样留下的URL数据进行抓取网页内容，并对网页进行分类的具体步骤为：

首先，采用通用的网络爬虫，抓取每个URL所对应的网页内容；

进一步地，人工对每个网页进行分类，寻找一些训练样本，训练出一个通用的网页分类器；

进一步地，利用训练好的网页分类器，提取网页的标题和正文；

进一步地，对提取的网页标题和正文进行分类，得到每个URL数据的分类标签。

优选的，在上述网站频道自动挖掘方法中，步骤五中的网页分类器是利用词组在各个分类下出现的频率不同来计算训练分类的。

本发明的有益效果：

1.本发明能够自动发现各个网站的频道以及对频道进行分类，提高抓取和分类效率，占用磁盘空间小，省时省力，分类更加准确。

2.本发明通过过滤需要存储的频道列表比抓取的URL数量少很多，更加节省资源。

3.即使某个抓取的URL网页内容很少，但是通过本发明的URL模式把它划到一个频道，仍旧可以得到可靠的类别，大大降低分类的错误率。

附图说明

下面结合附图和具体实施方式来详细说明本发明：

图1是网站频道自动挖掘方法的流程图。

具体实施方式

为了使本发明技术实现的措施、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

实施例1：

图1是网站频道自动挖掘方法的流程图。

如图1所示，网站频道自动挖掘方法，包括如下步骤：

步骤一，从互联网数据中抓取各个网站的URL数据；

步骤二，对URL数据进行分解，分解成多种URL模式；

步骤五，对抽样留下的URL数据进行抓取网页内容，并对网页进行分类；

步骤六，统计各个URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；

步骤七，合并URL模式中存在包含关系的模式，得到频道列表。

实施例2：

图1是网站频道自动挖掘方法的流程图。

如图1所示，网站频道自动挖掘方法，包括如下步骤：

步骤一，从互联网数据中抓取各个网站的URL数据；

通过定制的网络爬虫，或者/和从互联网广告网络的广播数据中，收集互联网上各个网站的URL数据的；

通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为：定制的网络爬虫是指从几个大的门户网站开始抓取网页，并收集网页中的URL，将URL加到候选队列之中；进一步地继续抓取候选队列中的URL，从网页中收集URL，仍旧加到候选队列中，去除重复的URL，如此循环，直至收集上亿的URL数据；

从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为：各个互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司；互联网广告代理公司再将所述URL搜集起来，积攒几周之后，也可以构成上亿的URL数据；

进一步地，将定制的网络爬虫和从广告网络中收集的URL数据合并起来，组成一个更大的数据集合；

步骤二，对URL数据进行分解，分解成多种URL模式；

步骤三，对分解获得的多种URL模式进行过滤，去除重复包含的URL，得到候选URL模式；

实施例3：

步骤一，从互联网数据中抓取各个网站的URL数据；

步骤二，对URL数据进行分解，分解成多种URL模式；

首先，URL为统一资源定位符，通常包括子域名、域名、目录多个组成部分；例如，完成的URL格式为：协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀？参数＝值#标志

例如：对http://voice.hupu.com/nba/1772918.html，提取并分隔完成后，可以得到voice、hupu、com、nba多个成分；

对http://finance.sina.com.cn/china/dfjj/20150724/155922784378.shtml，提取并分隔完成后，可以得到finance、sina、com、cn、china、dfjj、20150724多个成分；

进一步地，舍弃URL中的部分子域名或者目录，重新拼装，得到的即为URL模式；

例如:(1)http://voice.hupu.com/nba/1772918.html，分解组装后的模式为hupu.com，voice.hupu.com，voice.hupu.com/nba；

(2)http://finance.sina.com.cn/china/dfjj/20150724/155922784378.shtml，分解组装后的模式为sina.com.cn，finance.sina.com.cn，finance.sina.com.cn/china，finance.sina.com.cn/china/dfjj，finance.sina.com.cn/china/dfjj/20150724。

进一步地，设置URL阈值，例如1000，保留URL数据大于URL阈值的URL模式，对不满足条件的URL模式进行删除，即得到候选URL模式。

网页分类器利用词组在各个分类下出现的频率不同来计算，例如：“姚明”、“中国足球”这些词组在体育分类出现的频率很高，但在科技分类出现的频率很低。

利用训练好的网页分类器，对我们得到的URL数据的网页内容进行分类，得到每个URL数据的分类标签；

首先，URL模式下包含的URL数据的分类是比较一致的，而不是杂乱无章的；

进一步地，根据统计的每个URL模式下所包含的URL分类标签，计算每个分类标签所占的比例；与预先设置的分类标签比例阈值进行比较，如果分类标签所占的比例大于比例阈值，则该URL模式所属的URL分类是比较一致的，进行保留；过滤所属的URL分类不一致的模式，即得到符合条件的URL模式和对应的分类标签。

首先，将上级URL模式与当前URL模式进行比较，上级URL模式是指组成模式的成分与当前URL模式相似，但是要比当前URL模式中的内容要少；例如：hupu.com是hupu.com/news的上级模式；

进一步地，当前URL模式对应的分类，与上级模式一致，则舍弃当前URL模式；

如果某个模式c1的上级模式c2也存在，且上级模式c2的类别与c1的类别相同，则c1被上级模式c2完全包含，可以放弃c1；例如：hupu.com/news，hupu.com是2个模式，都对应篮球分类，那么hupu.com/news相比hupu.com不能提供更多信息，应该被舍弃；但是，nba.hupu.com也被hupu.com包含，但nba.hupu.com对应的类别是NBA，比hupu.com的类别篮球更细，可以提供更有价值的信息，nba.hupu.com就应该被保留。

进一步地，被保留的URL模式和对应的分类，即构成了频道列表。

下面结合具体实施例对本发明进行说明：

步骤一，从互联网数据中抓取了大量关于新浪网的URL数据，例如http://news.sina.com.cn/w/2014-04-23/052429991412.shtml，http://video.sina.com.cn/l/pl/sportstv/1683448.html，http://tech.sina.com.cn/it/2014-04-17/09559326842.shtml等。

步骤二，对URL数据进行分解，分解成多种URL模式，得到了video.sina.com.cn,news.sina.com.cn,tech.sina.com.cn,tech.sina.com.cn/it,tech.sina.com.cn/it/2014-04-17等多种URL模式；

步骤三，对分解获得的多种URL模式进行过滤，去除重复包含的URL模式，得到候选URL模式；例如：tech.sina.com.cn/it/2014-04-17被过滤了，剩余几百个候选URL模式。

步骤四，对过滤后的候选URL模式中所包含的URL数据进行抽样处理；例如：每个URL模式抽样500个URL；

步骤六，统计各个URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；例如video.sina.com.cn URL模式被过滤了；

步骤七，合并URL模式中存在包含关系的模式，得到频道列表；例如，由于tech.sina.com.cn/it跟上级模式tech.sina.com.cn的分类都是科技，因此被过滤了；

最终从新浪网中得到了49个频道；例如sports.sina.com.cn/cba的类别是篮球，sports.sina.com.cn/nba类别也是篮球，finance.sina.com.cn/money的类别是投资理财，baby.sina.com.cn的类别是母婴。

本发明能够自动发现各个网站的频道以及对频道进行分类，提高抓取和分类效率，占用磁盘空间小，省时省力，分类更加准确。

本发明通过过滤需要存储的频道列表比抓取的URL数量少很多，更加节省资源。

即使某个抓取的URL网页内容很少，但是通过本发明的URL模式把它划到一个频道，仍旧可以得到可靠的类别，大大降低分类的错误率。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.网站频道自动挖掘方法，其特征在于，包括如下步骤：

步骤一，从互联网数据中抓取各个网站的URL数据；

步骤二，对所述URL数据进行分解，分解成多种URL模式；

步骤三，对分解获得的多种所述URL模式进行过滤，去除重复包含的URL模式，得到候选URL模式；

步骤四，对过滤后的所述候选URL模式中所包含的URL数据进行抽样处理；

步骤五，根据抽样留下的所述URL数据来抓取网页内容，并对网页进行分类；

步骤六，统计各个所述URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；具体步骤为：

2.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤一是通过定制的网络爬虫，或者/和从互联网广告网络的广播数据中，收集互联网上各个网站的URL数据的。

3.根据权利要求2所述的网站频道自动挖掘方法，其特征在于，所述步骤一中通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为：

所述定制的网络爬虫是指从几个大的门户网站开始抓取网页，并收集网页中的URL，将URL加到候选队列之中；进一步地继续抓取候选队列中的URL，从网页中收集URL，仍旧加到候选队列中，去除重复的URL，如此循环，直至收集上亿的URL数据。

4.根据权利要求2所述的网站频道自动挖掘方法，其特征在于，所述步骤一中从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为：

各个所述互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司；互联网广告代理公司再将所述URL搜集起来，进行积攒，即得到上亿的URL数据。

5.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤二中对URL数据进行分解，分解成多种URL模式的具体步骤为：

首先，URL为统一资源定位符，包括子域名、域名、目录多个组成部分；

进一步地，对所述URL数据进行分解是指，提取URL中包括子域名、域名、顶级域名、目录的多个组成部分，并按照相应的分隔符对子域名和目录进行分隔；

进一步地，舍弃所述URL中的部分子域名或者目录，重新拼装，得到的即为URL模式。

6.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤三中对分解获得的多种URL模式进行过滤，去除重复包含的URL，得到候选URL模式的具体步骤为：

首先，通过聚合所述步骤二中的URL模式，可以得到每个所述URL模式中包含的URL，并计算URL的数目；

7.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤四中对过滤后的候选URL模式中所包含的URL数据进行抽样处理的具体步骤为：

所述候选URL模式中包含有多个URL数据，需要对每种候选URL模式下所包含的URL数据进行抽样处理，抽样是随机抽样，抽样结束后，每个URL模式包含的URL数量相等。

8.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤五中对抽样留下的URL数据进行抓取网页内容，并对网页进行分类的具体步骤为：

首先，采用通用的网络爬虫，抓取每个所述URL所对应的网页内容；

进一步地，利用训练好的所述网页分类器，提取网页的标题和正文；