CN105117436B - 网站频道自动挖掘方法 - Google Patents

网站频道自动挖掘方法 Download PDF

Info

Publication number
CN105117436B
CN105117436B CN201510485686.2A CN201510485686A CN105117436B CN 105117436 B CN105117436 B CN 105117436B CN 201510485686 A CN201510485686 A CN 201510485686A CN 105117436 B CN105117436 B CN 105117436B
Authority
CN
China
Prior art keywords
url
pattern
data
website
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510485686.2A
Other languages
English (en)
Other versions
CN105117436A (zh
Inventor
汤奇峰
刘作涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zamplus Technology Development Co Ltd
Original Assignee
Shanghai Zamplus Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zamplus Technology Development Co Ltd filed Critical Shanghai Zamplus Technology Development Co Ltd
Priority to CN201510485686.2A priority Critical patent/CN105117436B/zh
Publication of CN105117436A publication Critical patent/CN105117436A/zh
Application granted granted Critical
Publication of CN105117436B publication Critical patent/CN105117436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于网站频道挖掘技术领域,提供了网站频道自动挖掘方法,包括:步骤从互联网数据中抓取各个网站的URL数据;对URL数据进行分解,分解成多种URL模式;对分解获得的多种URL模式进行过滤,去除重复包含的URL模式,得到候选URL模式;对过滤后的候选URL模式中所包含的URL数据进行抽样处理;对抽样留下的URL数据进行抓取网页内容,并对网页进行分类;统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;合并URL模式中存在包含关系的模式,得到频道列表。本发明能够自动发现各个网站的频道以及对频道进行分类,提高了URL数据的抓取和分类效率,占用磁盘空间小,省时省力,分类更加准确。

Description

网站频道自动挖掘方法
技术领域
本发明属于网站频道挖掘技术领域,特别涉及一种对大规模的网页URL进行分析处理、自动发现各个网站的频道以及对频道进行分类的网站频道自动挖掘方法。
背景技术
随着互联网技术的不断发展以及信息的不断膨胀,人们对于网络信息的使用需求也越来越高,如何对海量的网络URL进行分析和管理是许多网络应用都需要面临的难题。网站频道自动挖掘方法是对大规模的网页URL进行分析处理,自动发现各个网站的频道以及对频道进行分类,进一步地实现对URL进行分类。
随着互联网广告行业的发展,主流广告投放方式已经由包断网站流量对所有用户投放同样的广告,转变为根据具体的网页内容和不同用户的特征,分别投放不同的广告内容,来精准的迎合用户的兴趣爱好,达到提高广告点击率和转化率的目的。
对广告投放系统来说,需要区分大量不同网页的类别,也需要根据用户历史上的访问记录来分析其兴趣爱好。针对互联网的海量的,且在快速增长的网页规模,需要一个有效地对网页内容进行分类的系统。
现有的网页分类方法主要有以下几种:(1)采用人工对各个站点的URL进行标注,费时费力,且人工知识很难覆盖到大量站点。(2)从网络上把大量URL的网页内容都抓取下来,对每一个网页用一个网页分类系统分好类,并存到一个缓存系统中。这样当处理到一个网页时,从缓存系统中获取预先得到的分类结果。此种方法的问题在于:需要预先对所有网页进行抓取和分类,占用磁盘空间非常大;每当遇到一个未预先处理的网页时,就需要启动抓取和分类的过程,耗时较长;并且很多网页上的文本内容很少,比较难准确的分类,错误率很高。(3)借助于各个网站的频道体系。由于多数大型网站,通常会整理一个特有的频道体系,来方便用户快速访问,因此可以得到各个URL对应的网站频道,人工将这个频道映射到网页分类体系中。此种方法的问题在于:人工整理这些频道列表,不仅费时费力,而且在频道列表更新之后,很难及时发现。
因此,网站频道挖掘技术领域急需一种网站频道自动挖掘方法,能够自动发现各个网站的频道以及对频道进行分类,提高了URL数据的抓取和分类效率,占用磁盘空间小,省时省力,分类更加准确。
发明内容
本发明为了解决抓取和分类耗时长、占用空间大,费时费力的问题,提供了一种网站频道自动挖掘方法,技术方案如下:
网站频道自动挖掘方法,包括如下步骤:
步骤一,从互联网数据中抓取各个网站的URL数据;
步骤二,对URL数据进行分解,分解成多种URL模式;
步骤三,对分解获得的多种URL模式进行过滤,去除重复包含的URL模式,得到候选URL模式;
步骤四,对过滤后的候选URL模式中所包含的URL数据进行抽样处理;
步骤五,根据抽样留下的URL数据来抓取网页内容,并对网页进行分类;
步骤六,统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;具体步骤为:
首先,所述URL模式下包含的URL数据的分类是比较一致的,而不是杂乱无章的;
进一步地,根据统计的每个URL模式下所包含的URL分类标签,计算每个分类标签所占的比例;与预先设置的分类标签比例阈值进行比较,如果分类标签所占的比例大于比例阈值,则所述URL模式所属的URL分类是比较一致的,进行保留;过滤所属的URL分类不一致的模式,即得到符合条件的URL模式和对应的分类标签;
步骤七,合并所述URL模式中存在包含关系的模式,得到频道列表;具体步骤为:
首先,将上级所述URL模式与当前所述URL模式进行比较,上级所述URL模式是指组成模式的成分与当前URL模式相似,但是要比当前URL模式中的内容要少;
进一步地,当前所述URL模式对应的分类,与上级模式一致,则舍弃当前所述URL模式;
进一步地,被保留的所述URL模式和对应的分类,即构成了频道列表。
优选的,在上述网站频道自动挖掘方法中,步骤一是通过定制的网络爬虫,或者/和从互联网广告网络的广播数据中,收集互联网上各个网站的URL数据的。
优选的,在上述网站频道自动挖掘方法中,步骤一中通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为:
定制的网络爬虫是指从几个大的门户网站开始抓取网页,并收集网页中的URL,将URL加到候选队列之中;进一步地继续抓取候选队列中的URL,从网页中收集URL,仍旧加到候选队列中,去除重复的URL,如此循环,直至收集上亿的URL数据;
优选的,在上述网站频道自动挖掘方法中,步骤一中从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为:各个互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司;互联网广告代理公司再将所述URL搜集起来,进行积攒,即得到上亿的URL数据。
优选的,在上述网站频道自动挖掘方法中,步骤二中对URL数据进行分解,分解成多种URL模式的具体步骤为:
首先,URL为统一资源定位符,通常包括子域名、域名、目录多个组成部分;
进一步地,对URL数据进行分解是指,提取URL中包括子域名、域名、顶级域名、目录的多个组成部分,并按照相应的分隔符对子域名和目录进行分隔;
进一步地,舍弃URL中的部分子域名或者目录,重新拼装,得到的即为URL模式。
优选的,在上述网站频道自动挖掘方法中,步骤三中对分解获得的多种URL模式进行过滤,去除重复包含的URL,得到候选URL模式的具体步骤为:
首先,通过聚合步骤二中的URL模式,可以得到每个URL模式中包含的URL,并计算URL的数目;
进一步地,设置URL阈值,保留URL数据大于URL阈值的URL模式,对不满足条件的URL模式进行删除,即得到候选URL模式。
优选的,在上述网站频道自动挖掘方法中,步骤四中对过滤后的候选URL模式中所包含的URL数据进行抽样处理的具体步骤为:
候选URL模式中包含有多个URL数据,需要对每种候选URL模式下所包含的URL数据进行抽样处理,抽样是随机抽样,抽样结束后,每个URL模式包含的URL数量相等。
优选的,在上述网站频道自动挖掘方法中,步骤五中对抽样留下的URL数据进行抓取网页内容,并对网页进行分类的具体步骤为:
首先,采用通用的网络爬虫,抓取每个URL所对应的网页内容;
进一步地,人工对每个网页进行分类,寻找一些训练样本,训练出一个通用的网页分类器;
进一步地,利用训练好的网页分类器,提取网页的标题和正文;
进一步地,对提取的网页标题和正文进行分类,得到每个URL数据的分类标签。
优选的,在上述网站频道自动挖掘方法中,步骤五中的网页分类器是利用词组在各个分类下出现的频率不同来计算训练分类的。
本发明的有益效果:
1.本发明能够自动发现各个网站的频道以及对频道进行分类,提高抓取和分类效率,占用磁盘空间小,省时省力,分类更加准确。
2.本发明通过过滤需要存储的频道列表比抓取的URL数量少很多,更加节省资源。
3.即使某个抓取的URL网页内容很少,但是通过本发明的URL模式把它划到一个频道,仍旧可以得到可靠的类别,大大降低分类的错误率。
附图说明
下面结合附图和具体实施方式来详细说明本发明:
图1是网站频道自动挖掘方法的流程图。
具体实施方式
为了使本发明技术实现的措施、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
实施例1:
图1是网站频道自动挖掘方法的流程图。
如图1所示,网站频道自动挖掘方法,包括如下步骤:
步骤一,从互联网数据中抓取各个网站的URL数据;
步骤二,对URL数据进行分解,分解成多种URL模式;
步骤三,对分解获得的多种URL模式进行过滤,去除重复包含的URL模式,得到候选URL模式;
步骤四,对过滤后的候选URL模式中所包含的URL数据进行抽样处理;
步骤五,对抽样留下的URL数据进行抓取网页内容,并对网页进行分类;
步骤六,统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;
步骤七,合并URL模式中存在包含关系的模式,得到频道列表。
实施例2:
图1是网站频道自动挖掘方法的流程图。
如图1所示,网站频道自动挖掘方法,包括如下步骤:
步骤一,从互联网数据中抓取各个网站的URL数据;
通过定制的网络爬虫,或者/和从互联网广告网络的广播数据中,收集互联网上各个网站的URL数据的;
通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为:定制的网络爬虫是指从几个大的门户网站开始抓取网页,并收集网页中的URL,将URL加到候选队列之中;进一步地继续抓取候选队列中的URL,从网页中收集URL,仍旧加到候选队列中,去除重复的URL,如此循环,直至收集上亿的URL数据;
从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为:各个互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司;互联网广告代理公司再将所述URL搜集起来,积攒几周之后,也可以构成上亿的URL数据;
进一步地,将定制的网络爬虫和从广告网络中收集的URL数据合并起来,组成一个更大的数据集合;
步骤二,对URL数据进行分解,分解成多种URL模式;
步骤三,对分解获得的多种URL模式进行过滤,去除重复包含的URL,得到候选URL模式;
步骤四,对过滤后的候选URL模式中所包含的URL数据进行抽样处理;
步骤五,根据抽样留下的URL数据来抓取网页内容,并对网页进行分类;
步骤六,统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;
步骤七,合并URL模式中存在包含关系的模式,得到频道列表。
实施例3:
步骤一,从互联网数据中抓取各个网站的URL数据;
通过定制的网络爬虫,或者/和从互联网广告网络的广播数据中,收集互联网上各个网站的URL数据的;
通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为:定制的网络爬虫是指从几个大的门户网站开始抓取网页,并收集网页中的URL,将URL加到候选队列之中;进一步地继续抓取候选队列中的URL,从网页中收集URL,仍旧加到候选队列中,去除重复的URL,如此循环,直至收集上亿的URL数据;
从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为:各个互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司;互联网广告代理公司再将所述URL搜集起来,积攒几周之后,也可以构成上亿的URL数据;
进一步地,将定制的网络爬虫和从广告网络中收集的URL数据合并起来,组成一个更大的数据集合;
步骤二,对URL数据进行分解,分解成多种URL模式;
首先,URL为统一资源定位符,通常包括子域名、域名、目录多个组成部分;例如,完成的URL格式为:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志
进一步地,对URL数据进行分解是指,提取URL中包括子域名、域名、顶级域名、目录的多个组成部分,并按照相应的分隔符对子域名和目录进行分隔;
例如:对http://voice.hupu.com/nba/1772918.html,提取并分隔完成后,可以得到voice、hupu、com、nba多个成分;
对http://finance.sina.com.cn/china/dfjj/20150724/155922784378.shtml,提取并分隔完成后,可以得到finance、sina、com、cn、china、dfjj、20150724多个成分;
进一步地,舍弃URL中的部分子域名或者目录,重新拼装,得到的即为URL模式;
例如:(1)http://voice.hupu.com/nba/1772918.html,分解组装后的模式为hupu.com,voice.hupu.com,voice.hupu.com/nba;
(2)http://finance.sina.com.cn/china/dfjj/20150724/155922784378.shtml,分解组装后的模式为sina.com.cn,finance.sina.com.cn,finance.sina.com.cn/china,finance.sina.com.cn/china/dfjj,finance.sina.com.cn/china/dfjj/20150724。
步骤三,对分解获得的多种URL模式进行过滤,去除重复包含的URL,得到候选URL模式;
首先,通过聚合步骤二中的URL模式,可以得到每个URL模式中包含的URL,并计算URL的数目;
进一步地,设置URL阈值,例如1000,保留URL数据大于URL阈值的URL模式,对不满足条件的URL模式进行删除,即得到候选URL模式。
步骤四,对过滤后的候选URL模式中所包含的URL数据进行抽样处理;
候选URL模式中包含有多个URL数据,需要对每种候选URL模式下所包含的URL数据进行抽样处理,抽样是随机抽样,抽样结束后,每个URL模式包含的URL数量相等。
步骤五,对抽样留下的URL数据进行抓取网页内容,并对网页进行分类;
首先,采用通用的网络爬虫,抓取每个URL所对应的网页内容;
进一步地,人工对每个网页进行分类,寻找一些训练样本,训练出一个通用的网页分类器;
网页分类器利用词组在各个分类下出现的频率不同来计算,例如:“姚明”、“中国足球”这些词组在体育分类出现的频率很高,但在科技分类出现的频率很低。
利用训练好的网页分类器,对我们得到的URL数据的网页内容进行分类,得到每个URL数据的分类标签;
进一步地,利用训练好的网页分类器,提取网页的标题和正文;
进一步地,对提取的网页标题和正文进行分类,得到每个URL数据的分类标签。
步骤六,统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;
首先,URL模式下包含的URL数据的分类是比较一致的,而不是杂乱无章的;
进一步地,根据统计的每个URL模式下所包含的URL分类标签,计算每个分类标签所占的比例;与预先设置的分类标签比例阈值进行比较,如果分类标签所占的比例大于比例阈值,则该URL模式所属的URL分类是比较一致的,进行保留;过滤所属的URL分类不一致的模式,即得到符合条件的URL模式和对应的分类标签。
步骤七,合并URL模式中存在包含关系的模式,得到频道列表。
首先,将上级URL模式与当前URL模式进行比较,上级URL模式是指组成模式的成分与当前URL模式相似,但是要比当前URL模式中的内容要少;例如:hupu.com是hupu.com/news的上级模式;
进一步地,当前URL模式对应的分类,与上级模式一致,则舍弃当前URL模式;
如果某个模式c1的上级模式c2也存在,且上级模式c2的类别与c1的类别相同,则c1被上级模式c2完全包含,可以放弃c1;例如:hupu.com/news,hupu.com是2个模式,都对应篮球分类,那么hupu.com/news相比hupu.com不能提供更多信息,应该被舍弃;但是,nba.hupu.com也被hupu.com包含,但nba.hupu.com对应的类别是NBA,比hupu.com的类别篮球更细,可以提供更有价值的信息,nba.hupu.com就应该被保留。
进一步地,被保留的URL模式和对应的分类,即构成了频道列表。
下面结合具体实施例对本发明进行说明:
步骤一,从互联网数据中抓取了大量关于新浪网的URL数据,例如http://news.sina.com.cn/w/2014-04-23/052429991412.shtml,http://video.sina.com.cn/l/pl/sportstv/1683448.html,http://tech.sina.com.cn/it/2014-04-17/09559326842.shtml等。
步骤二,对URL数据进行分解,分解成多种URL模式,得到了video.sina.com.cn,news.sina.com.cn,tech.sina.com.cn,tech.sina.com.cn/it,tech.sina.com.cn/it/2014-04-17等多种URL模式;
步骤三,对分解获得的多种URL模式进行过滤,去除重复包含的URL模式,得到候选URL模式;例如:tech.sina.com.cn/it/2014-04-17被过滤了,剩余几百个候选URL模式。
步骤四,对过滤后的候选URL模式中所包含的URL数据进行抽样处理;例如:每个URL模式抽样500个URL;
步骤五,对抽样留下的URL数据进行抓取网页内容,并对网页进行分类;
步骤六,统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;例如video.sina.com.cn URL模式被过滤了;
步骤七,合并URL模式中存在包含关系的模式,得到频道列表;例如,由于tech.sina.com.cn/it跟上级模式tech.sina.com.cn的分类都是科技,因此被过滤了;
最终从新浪网中得到了49个频道;例如sports.sina.com.cn/cba的类别是篮球,sports.sina.com.cn/nba类别也是篮球,finance.sina.com.cn/money的类别是投资理财,baby.sina.com.cn的类别是母婴。
本发明能够自动发现各个网站的频道以及对频道进行分类,提高抓取和分类效率,占用磁盘空间小,省时省力,分类更加准确。
本发明通过过滤需要存储的频道列表比抓取的URL数量少很多,更加节省资源。
即使某个抓取的URL网页内容很少,但是通过本发明的URL模式把它划到一个频道,仍旧可以得到可靠的类别,大大降低分类的错误率。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims (8)

1.网站频道自动挖掘方法,其特征在于,包括如下步骤:
步骤一,从互联网数据中抓取各个网站的URL数据;
步骤二,对所述URL数据进行分解,分解成多种URL模式;
步骤三,对分解获得的多种所述URL模式进行过滤,去除重复包含的URL模式,得到候选URL模式;
步骤四,对过滤后的所述候选URL模式中所包含的URL数据进行抽样处理;
步骤五,根据抽样留下的所述URL数据来抓取网页内容,并对网页进行分类;
步骤六,统计各个所述URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;具体步骤为:
首先,所述URL模式下包含的URL数据的分类是比较一致的,而不是杂乱无章的;
进一步地,根据统计的每个URL模式下所包含的URL分类标签,计算每个分类标签所占的比例;与预先设置的分类标签比例阈值进行比较,如果分类标签所占的比例大于比例阈值,则所述URL模式所属的URL分类是比较一致的,进行保留;过滤所属的URL分类不一致的模式,即得到符合条件的URL模式和对应的分类标签;
步骤七,合并所述URL模式中存在包含关系的模式,得到频道列表;具体步骤为:
首先,将上级所述URL模式与当前所述URL模式进行比较,上级所述URL模式是指组成模式的成分与当前URL模式相似,但是要比当前URL模式中的内容要少;
进一步地,当前所述URL模式对应的分类,与上级模式一致,则舍弃当前所述URL模式;
进一步地,被保留的所述URL模式和对应的分类,即构成了频道列表。
2.根据权利要求1所述的网站频道自动挖掘方法,其特征在于,所述步骤一是通过定制的网络爬虫,或者/和从互联网广告网络的广播数据中,收集互联网上各个网站的URL数据的。
3.根据权利要求2所述的网站频道自动挖掘方法,其特征在于,所述步骤一中通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为:
所述定制的网络爬虫是指从几个大的门户网站开始抓取网页,并收集网页中的URL,将URL加到候选队列之中;进一步地继续抓取候选队列中的URL,从网页中收集URL,仍旧加到候选队列中,去除重复的URL,如此循环,直至收集上亿的URL数据。
4.根据权利要求2所述的网站频道自动挖掘方法,其特征在于,所述步骤一中从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为:
各个所述互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司;互联网广告代理公司再将所述URL搜集起来,进行积攒,即得到上亿的URL数据。
5.根据权利要求1所述的网站频道自动挖掘方法,其特征在于,所述步骤二中对URL数据进行分解,分解成多种URL模式的具体步骤为:
首先,URL为统一资源定位符,包括子域名、域名、目录多个组成部分;
进一步地,对所述URL数据进行分解是指,提取URL中包括子域名、域名、顶级域名、目录的多个组成部分,并按照相应的分隔符对子域名和目录进行分隔;
进一步地,舍弃所述URL中的部分子域名或者目录,重新拼装,得到的即为URL模式。
6.根据权利要求1所述的网站频道自动挖掘方法,其特征在于,所述步骤三中对分解获得的多种URL模式进行过滤,去除重复包含的URL,得到候选URL模式的具体步骤为:
首先,通过聚合所述步骤二中的URL模式,可以得到每个所述URL模式中包含的URL,并计算URL的数目;
进一步地,设置URL阈值,保留URL数据大于URL阈值的URL模式,对不满足条件的URL模式进行删除,即得到候选URL模式。
7.根据权利要求1所述的网站频道自动挖掘方法,其特征在于,所述步骤四中对过滤后的候选URL模式中所包含的URL数据进行抽样处理的具体步骤为:
所述候选URL模式中包含有多个URL数据,需要对每种候选URL模式下所包含的URL数据进行抽样处理,抽样是随机抽样,抽样结束后,每个URL模式包含的URL数量相等。
8.根据权利要求1所述的网站频道自动挖掘方法,其特征在于,所述步骤五中对抽样留下的URL数据进行抓取网页内容,并对网页进行分类的具体步骤为:
首先,采用通用的网络爬虫,抓取每个所述URL所对应的网页内容;
进一步地,人工对每个网页进行分类,寻找一些训练样本,训练出一个通用的网页分类器;
进一步地,利用训练好的所述网页分类器,提取网页的标题和正文;
进一步地,对提取的网页标题和正文进行分类,得到每个URL数据的分类标签。
CN201510485686.2A 2015-08-10 2015-08-10 网站频道自动挖掘方法 Active CN105117436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510485686.2A CN105117436B (zh) 2015-08-10 2015-08-10 网站频道自动挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510485686.2A CN105117436B (zh) 2015-08-10 2015-08-10 网站频道自动挖掘方法

Publications (2)

Publication Number Publication Date
CN105117436A CN105117436A (zh) 2015-12-02
CN105117436B true CN105117436B (zh) 2018-03-30

Family

ID=54665426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510485686.2A Active CN105117436B (zh) 2015-08-10 2015-08-10 网站频道自动挖掘方法

Country Status (1)

Country Link
CN (1) CN105117436B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874282A (zh) * 2015-12-11 2017-06-20 北京奇虎科技有限公司 候选页面集合的生成方法及装置
CN105630983A (zh) * 2015-12-28 2016-06-01 努比亚技术有限公司 一种资源获取优化装置和方法
CN105930444A (zh) * 2016-04-20 2016-09-07 广州精点计算机科技有限公司 一种互联网用户分群方法及系统
CN105956002A (zh) * 2016-04-20 2016-09-21 广州精点计算机科技有限公司 一种基于url分析的网页分类方法及装置
CN106168977B (zh) * 2016-07-15 2019-07-02 山谷网安科技股份有限公司 一种用于网站安全监测的栏目识别方法
CN106874368B (zh) * 2016-12-30 2020-12-22 江苏号百信息服务有限公司 一种rtb竞价广告位价值分析方法及系统
CN107909396A (zh) * 2017-11-11 2018-04-13 霍尔果斯普力网络科技有限公司 一种互联网广告投放的反作弊监控方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819591A (zh) * 2012-08-07 2012-12-12 北京网康科技有限公司 一种基于内容的网页分类方法及系统
CN103902703A (zh) * 2014-03-31 2014-07-02 辽宁四维科技发展有限公司 基于移动互联网访问的文本内容分类方法
CN104376066A (zh) * 2014-11-05 2015-02-25 北京奇虎科技有限公司 一种网络特定内容挖掘方法和装置、及一种电子设备
CN104750704A (zh) * 2013-12-26 2015-07-01 中国移动通信集团河南有限公司 一种网页url地址分类识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9256692B2 (en) * 2009-12-03 2016-02-09 Hewlett Packard Enterprise Development Lp Clickstreams and website classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819591A (zh) * 2012-08-07 2012-12-12 北京网康科技有限公司 一种基于内容的网页分类方法及系统
CN104750704A (zh) * 2013-12-26 2015-07-01 中国移动通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN103902703A (zh) * 2014-03-31 2014-07-02 辽宁四维科技发展有限公司 基于移动互联网访问的文本内容分类方法
CN104376066A (zh) * 2014-11-05 2015-02-25 北京奇虎科技有限公司 一种网络特定内容挖掘方法和装置、及一种电子设备

Also Published As

Publication number Publication date
CN105117436A (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
CN105117436B (zh) 网站频道自动挖掘方法
CN101246499B (zh) 网络信息搜索方法及系统
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN102708096B (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN102737029B (zh) 搜索方法及系统
CN104239539B (zh) 一种基于多种信息融合的微博信息过滤方法
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN102930031B (zh) 由网页中提取双语平行正文的方法和系统
TW201214169A (en) Recognition of target words using designated characteristic values
CN102542061B (zh) 一种产品的智能分类方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN103885987B (zh) 一种音乐推荐方法和系统
CN108256104A (zh) 基于多维特征的互联网网站综合分类方法
CN104750704B (zh) 一种网页url地址分类识别方法及装置
CN104778161A (zh) 基于Word2Vec和Query log抽取关键词方法
CN101794311A (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN101261629A (zh) 基于自动分类技术的特定信息搜索方法
CN103577478A (zh) 网页推送方法及系统
CN104090931A (zh) 一种基于网页链接参数分析的信息预测采集方法
CN101777053A (zh) 一种识别作弊网页的方法及系统
CN103020043A (zh) 一种面向web双语平行语料资源的分布式采集系统
WO2018113673A1 (zh) 针对综艺类query的搜索结果的推送方法及装置
CN103544307B (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN107741960A (zh) Url的分类方法及装置
CN106649823A (zh) 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant