CN101694658B - 基于新闻去重的网页爬虫的构建方法 - Google Patents
基于新闻去重的网页爬虫的构建方法 Download PDFInfo
- Publication number
- CN101694658B CN101694658B CN2009101535883A CN200910153588A CN101694658B CN 101694658 B CN101694658 B CN 101694658B CN 2009101535883 A CN2009101535883 A CN 2009101535883A CN 200910153588 A CN200910153588 A CN 200910153588A CN 101694658 B CN101694658 B CN 101694658B
- Authority
- CN
- China
- Prior art keywords
- news
- url
- web page
- webpage
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title abstract description 8
- 241000239290 Araneae Species 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 12
- 239000012141 concentrate Substances 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 7
- 239000002699 waste material Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241000270322 Lepidosauria Species 0.000 description 3
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于新闻去重的网页爬虫的构建方法,包括以下步骤:构造解析器解析新闻网页;构建新闻集;设定网页之间的相似度的阈值;将当前抓取的新闻网页与新闻集进行比对,判断相似度是否高于阈值;若低于阈值,则将当前网页加入新闻集中;若高于阈值,则舍弃该新闻,抓取下一个网页;抓取当前网页的URL,判断此URL是否指向新闻网页,若是,判断此URL是否被访问过;若否,则舍弃;若此URL已被访问过,则舍弃此URL;若此URL未被访问过,则存入待访问队列;从待访问队列中依次提取URL进行访问;重复执行上述步骤。本发明的优点是:算法效率高,避免抓取重复内容的网页,资源浪费小,数据维护方便。
Description
技术领域
本发明涉及一种网页爬虫的构建方法,特别是一种基于新闻去重的网页爬虫的构件方法。
背景技术
在这个信息爆炸的时代,网络媒体以其快速的新闻发布,广泛的新闻传播而逐渐取代电视,报纸等传统媒体成为现在主流的新闻传播方式。
当前的几大新闻门户网站:“新浪网”、“新华网”、“网易”都拥有自己强大的新闻采访、编辑和发布团队,每天的新闻发布数量达到数千条。新闻网站一般涵盖了各个类别的新闻:国内新闻、国际新闻、社会新闻、娱乐新闻、军事新闻、体育新闻、财经新闻、科技新闻等。同时每个新闻门户也都有各自的特色,比如“新华网”的时政新闻,“新浪网”的体育新闻,“网易”的社会新闻。因此,整合多个新闻门户网站的新闻可以让用户得到更全面,更丰富,更具有特色的新闻资讯。
如何有效地提取网络中的信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但通用性搜索引擎存在以下的局限性:
1、通用搜索引擎的目标是获得尽可能大的网络覆盖率,这就进一步加深了有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾。
2、网络数据的形式丰富、网络技术不断发展,图片、数据库、音频/视频等不同形式的数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好的发现和获取。
3、通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
4、不同领域、不同北京的用户具有不同的检索目的、需求,通用搜索引擎返回的结果包含大量的用户不关心的信息。
为解决上述缺点,一种定向抓取相关网页资源的网页爬虫应运而生。网络爬虫是一个自动提取网页的程序,它可以自动地从网络中抓取网页,是搜索引擎的重要组成。其工作原理是:网页爬虫从初始设定的一个或者多个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前网页上抽取新的URL,然后根据网页分析算法过滤掉与主题无关的连接,保留有用的连接并将其放入等待访问的URL队列中,直到满足一定的停止条件。采用网页爬虫可以对多个数据源同时进行抓取。
以新闻信息为例,说明网络爬虫存在的缺点:1、由于每个新闻网站的对新闻的发布是,可能是相同的文章的复制,也可能是关于同一件事不同的网站发布了不同的文章,网页爬虫在抓取数据时,很可能将这些重复的信息也抓取进来,不仅浪费网络资源,存储资源,而且对今后的数据维护造成极大的麻烦。2、网页中有大量的URL都是指向与新闻无关的无效信息,如广告、博客、导航网页等,若爬虫将这些URL也抓取进来,也会造成网络资源、存储资源的浪费,以后后续维护的困难。3、现有的网页爬虫是先将网页抓取、下载后再进行有效性分析,大量的无关网页将被下载,浪费有限的存储资源。4、随着网页抓取量的增多,无关网页被下载再进行分析过滤,造成算法的效率低下。
发明内容
为克服现有技术的算法效率低下,容易抓取重复内容的网页,资源浪费大,数据维护困难的缺点,本发明提供了一种算法效率高,避免抓取重复内容的网页,资源浪费小,数据维护方便的基于新闻去重的网页爬虫的构建方法。
基于新闻去重的网页爬虫的构建方法,包括以下步骤:
1)、构造能将网页中的新闻的标题和内容抽取出来的解析器,用所述的解析器解析新闻网页;
2)、构建新闻网页的集合形成新闻集;设定当前抓取的网页与新闻集中的新闻网页之间的相似度的阈值,所述的相似度以内容的重复程度来表征;
3)、将当前抓取的新闻网页与所述的新闻集进行比对,判断它们之间的相似度是否高于所述的阈值;
4)、若相似度低于所述的阈值,则将当前网页加入新闻集中,若相似度高于所述的阈值,则舍弃该新闻,抓取下一个网页;
5)、抓取当前网页的URL,判断此URL是否指向新闻网页,若URL不指向新闻网页,则舍弃此URL;若是指向新闻网页,则与存储有已访问过的URL的已访问队列进行比对,判断此URL是否被访问过;
6)、若此URL存在于所述的已访问队列中,则舍弃此URL;若此URL不存在于所述的已访问队列中,则将此URL存入一待访问队列中;
7)、从待访问队列中依次提取URL进行访问;
8)、重复执行步骤1-9。
进一步,所述的解析器是通过学习多个新闻网站的HTML源代码框架后构造而成,所述的解析器解析网页得到的是新闻网页中的实际的新闻标题和新闻内容。
进一步,所述的步骤(3)由以下步骤组成:
(3.1)将新闻标题的文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重;
(3.2)根据经验,选取该文本中N个权重最高的关键词构成(关键词,权重)的集合C={(t1,w1),(t2,w2),(t3,w3),……(tN,wN)},
其中:ti:第i个关键词;wi:第i个关键词的权重;
(3.3)将集合C中的元素根据权重wi进行从大到小的排序;将新闻集中的每个子集Ci中的元素根据其关键词的权重进行从大到小的排序;设定C与Ci之间的相似度的阈值,所述的相似度由两集合中具有相同排序位置的关键词个数来表征;
(3.4)将集合C与新闻集中的每个Ci进行比对,判断它们的相似度是否高于所述的阈值;若高于所述的阈值,则认为C为重复新闻;若低于所述的阈值,则认为C为非重复新闻;
(3.5)将非重复新闻加入新闻集中。
进一步,若经(3.4)判断集合C为非重复新闻,则将新闻内容文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重,再一次顺序执行(3.2)到(3.4);若此次判断仍然为非重复新闻,再将此新闻加入新闻集中。
进一步,所述的步骤(5)中的判断URL是否指向新闻网页包括以下步骤:
(5.1)从作为数据源的各大网站批量抓取新闻网页的URL作为训练集,采用划分聚类算法对这些URL进行聚类,将具有相同URL格式的聚成一类;
(5.2)构造能根据URL的格式特征得出其正则表达式的URL解析器,用所述的URL解析器对每个类别的URL的格式特征进行学习,获得每个类别的正则表达式;
(5.3)用所述的URL解析器解析当前抓取网页的URL,判断该网页是否具有新闻网页的URL的格式特征;若是,则认为此URL为指向新闻网页的URL;若否,则认为此URL指向新闻以外的其它网页,将此URL舍弃。
本发明的技术构思是:在网络爬虫抓取网页之前进行重复数据过滤,避免重复数据的下载,减少了爬虫需要抓取的数据量,节约了存储资源;爬虫在抓取URL时,先判断URL是否指向有效信息,将无关网页的URL过滤,保证了爬取数据的纯净度与准确性,即下载下来的均为有效网页,算法的效率高,网络资源的消耗有效降低,存储资源的浪费少;由于只需存储有效信息即可,数据的存储量降低,后续的数据维护的困难度降低。
本发明的优点是:算法效率高,避免抓取重复内容的网页,资源浪费小,数据维护方便。
附图说明
图1为本发明的总的流程图
图2为当前抓取的新闻与新闻集中各新闻比对的流程图
图3为另一种当前抓取的新闻与新闻集中各新闻比对的流程图
图4为判断URL是否被访问过的流程图
具体实施方式
实施例一
参照附图1、2、4
基于新闻去重的网页爬虫的构建方法,包括以下步骤:
1、基于新闻去重的网页爬虫的构建方法,包括以下步骤:
1)、构造能将网页中的新闻的标题和内容抽取出来的解析器,用所述的解析器解析新闻网页;
2)、构建新闻网页的集合形成新闻集;设定当前抓取的网页与新闻集中的新闻网页之间的相似度的阈值,所述的相似度以内容的重复程度来表征;
3)、将当前抓取的新闻网页与所述的新闻集进行比对,判断它们之间的相似度是否高于所述的阈值;
(3.1)将新闻标题的文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重;
(3.2)根据经验,选取该文本中N个权重最高的关键词构成(关键词,权重)的集合C={(t1,w1),(t2,w2),(t3,w3),……(tN,wN)},
其中:ti:第i个关键词;wi:第i个关键词的权重;
(3.3)将集合C中的元素根据权重wi进行从大到小的排序;将新闻集中的每个子集Ci中的元素根据其关键词的权重进行从大到小的排序;设定C与Ci之间的相似度的阈值,所述的相似度由两集合中具有相同排序位置的关键词个数来表征;
(3.4)将集合C与新闻集中的每个Ci进行比对,判断它们的相似度是否高于所述的阈值;若高于所述的阈值,则认为C为重复新闻;若低于所述的阈值,则认为C为非重复新闻;
(3.5)将非重复新闻加入新闻集中。
4)、若相似度低于所述的阈值,则将当前网页加入新闻集中,若相似度高于所述的阈值,则舍弃该新闻,抓取下一个网页;
5)、抓取当前网页的URL,判断此URL是否指向新闻网页,若URL不指向新闻网页,则舍弃此URL;若是指向新闻网页,则与存储有已访问过的URL的已访问队列进行比对,判断此URL是否被访问过;
(5.1)从作为数据源的各大网站批量抓取新闻网页的URL作为训练集,采用划分聚类算法对这些URL进行聚类,将具有相同URL格式的聚成一类;
(5.2)构造能根据URL的格式特征得出其正则表达式的URL解析器,用所述的URL解析器对每个类别的URL的格式特征进行学习,获得每个类别的正则表达式;
(5.3)用所述的URL解析器解析当前抓取网页的URL,判断该网页是否具有新闻网页的URL的格式特征;若是,则认为此URL为指向新闻网页的URL;若否,则认为此URL指向新闻以外的其它网页,将此URL舍弃。
6)、若此URL存在于所述的已访问队列中,则舍弃此URL;若此URL不存在于所述的已访问队列中,则将此URL存入一待访问队列中;
7)、从待访问队列中依次提取URL进行访问;
8)、重复执行步骤1-9。
所述的解析器是通过学习多个新闻网站的HTML源代码框架后构造而成,所述的解析器解析网页得到的是新闻网页中的实际的新闻标题和新闻内容。
实施例二
参照附图1、3、4
本实施例与实施例一的区别之处在于:若经(3.4)判断集合C为非重复新闻,则将新闻正文文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重,再一次顺序执行(3.2)到(3.4);若此次判断仍然为非重复新闻,再将此新闻加入新闻集中。其余相同。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (2)
1.基于新闻去重的网页爬虫的构建方法,包括以下步骤:
1)、构造能将网页中的新闻的标题和内容抽取出来的解析器,用所述的解析器解析新闻网页,所述的解析器是通过学习多个新闻网站的HTML源代码框架后构造而成,所述的解析器解析网页得到的是新闻网页中的实际的新闻标题和新闻内容;
2)、构建新闻网页的集合形成新闻集;
3)、将当前抓取的新闻网页与所述的新闻集进行比对,其中步骤3)具体包括:
(3.1)将当前抓取的新闻网页的新闻标题的文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重;
(3.2)选取该文本中N个权重最高的关键词构成(关键词,权重)的集合C={(t1,w1),(t2,w2),(t3,w3),……,(ti,wi),……(tN,wN)},
其中:ti:第i个关键词;wi:第i个关键词的权重;
(3.3)将集合C中的元素根据权重wi进行从大到小的排序;将新闻集中的每个子集Ci中的元素根据其关键词的权重进行从大到小的排序;设定C与Ci之间的相似度阈值,所述的相似度由两集合的具有相同排序位置的关键词个数来表征;
(3.4)将集合C与新闻集中的每个Ci进行比对,判断它们的相似度是否高于所述相似度阈值;只要C与任意一个Ci的相似度高于所述相似度阈值,则认为C为重复新闻;若C与每个Ci的相似度都低于所述相似度阈值,则认为C为非重复新闻;
(3.5)将非重复新闻加入新闻集中;
4)、若当前抓取的新闻网页为非重复新闻,则将当前网页加入新闻集中,进入步骤5);若当前抓取的新闻网页为重复新闻,则舍弃该新闻,抓取下一个新闻网页,然后重复执行步骤4)之前的步骤;
5)、抓取当前抓取的新闻网页的URL,判断此URL是否指向新闻网页,若URL不指向新闻网页,则舍弃此URL;若是指向新闻网页,则与存储有已访问过的URL的已访问队列进行比对,判断此URL是否被访问过,其中步骤5)中判断URL是否指向新闻网页具体包括:
(5.1)从作为数据源的各大网站批量抓取新闻网页的URL作为训练集,采用划分聚类算法对这些URL进行聚类,将具有相同URL格式的聚成一类;
(5.2)构造能根据URL的格式特征得出其正则表达式的URL解析器,用所述的URL解析器对每个类别的URL的格式特征进行学习,获得每个类别的正则表达式;
(5.3)用所述的URL解析器解析当前抓取网页的URL,判断该网页是否具有新闻网页的URL的格式特征;若是,则认为此URL为指向新闻网页的URL;若否,则认为此URL指向新闻以外的其它网页,将此URL舍弃;
6)、若此URL存在于所述的已访问队列中,则舍弃此URL;若此URL不存在于所述的已访问队列中,则将此URL存入一待访问队列中;
7)、从待访问队列中依次提取URL进行访问;
8)、重复执行步骤1)-7)。
2.如权利要求1所述的基于新闻去重的网页爬虫的构建方法,其特征在于:若经(3.4)判断集合C为非重复新闻,则将当前抓取的新闻网页的新闻内容文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重,再一次顺序执行(3.2)到(3.4);若此次判断仍然为非重复新闻,再将此新闻加入新闻集中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101535883A CN101694658B (zh) | 2009-10-20 | 2009-10-20 | 基于新闻去重的网页爬虫的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101535883A CN101694658B (zh) | 2009-10-20 | 2009-10-20 | 基于新闻去重的网页爬虫的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101694658A CN101694658A (zh) | 2010-04-14 |
CN101694658B true CN101694658B (zh) | 2012-07-04 |
Family
ID=42093630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101535883A Active CN101694658B (zh) | 2009-10-20 | 2009-10-20 | 基于新闻去重的网页爬虫的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101694658B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894071A (zh) * | 2010-06-30 | 2010-11-24 | 中山大学 | 一种机顶盒嵌入式浏览器集成测试方法及系统 |
CN102567313B (zh) * | 2010-12-07 | 2016-08-24 | 盛乐信息技术(上海)有限公司 | 递进式网页库去重系统及其实现方法 |
CN102622365B (zh) * | 2011-01-28 | 2015-04-29 | 北京百度网讯科技有限公司 | 一种网页重复的判断系统及其判断方法 |
CN102163226B (zh) * | 2011-04-12 | 2013-03-13 | 浙江大学 | 基于映射-化简和分词及邻接排序去重方法 |
CN102254038B (zh) * | 2011-08-11 | 2013-01-23 | 武汉安问科技发展有限责任公司 | 一种分析网络评论相关度的系统及其分析方法 |
CN102682085A (zh) * | 2012-04-18 | 2012-09-19 | 北京十分科技有限公司 | 一种网页去重的方法 |
CN102622454B (zh) * | 2012-04-23 | 2014-05-28 | 杭州电子科技大学 | 一种基于文本分析的面向视频网站的互联网视频搜索方法 |
CN102760162A (zh) * | 2012-06-11 | 2012-10-31 | 北京搜狗信息服务有限公司 | 展现和获取下载链接的方法及装置 |
CN103631806A (zh) * | 2012-08-24 | 2014-03-12 | 华为技术有限公司 | 一种网络信息抓取方法和装置 |
CN103399933B (zh) * | 2013-08-08 | 2017-01-18 | 人民搜索网络股份公司 | 一种抓取网络平面媒体的网页内容的方法及系统 |
CN103699687B (zh) * | 2014-01-03 | 2017-02-01 | 复旦大学 | 一种基于枚举的网络实体爬取方法 |
CN104202348A (zh) * | 2014-02-24 | 2014-12-10 | 无锡天脉聚源传媒科技有限公司 | 一种推送信息的方法、装置及系统 |
CN104951448B (zh) * | 2014-03-26 | 2019-04-12 | 雪球(北京)技术开发有限公司 | 一种为用户推送订阅类别的消息的方法和服务器 |
CN104090976B (zh) * | 2014-07-21 | 2017-06-23 | 北京奇虎科技有限公司 | 搜索引擎爬虫抓取网页的方法及装置 |
CN105956070A (zh) * | 2016-04-28 | 2016-09-21 | 优品财富管理有限公司 | 一种整合重复记录的方法及系统 |
CN106354846A (zh) * | 2016-08-31 | 2017-01-25 | 成都广电视讯文化传播有限公司 | 基于大数据的新闻智能选稿方法及系统 |
CN106569989A (zh) * | 2016-10-20 | 2017-04-19 | 北京智能管家科技有限公司 | 一种用于短文本的去重方法及装置 |
CN106570171B (zh) * | 2016-11-03 | 2020-11-20 | 中国电子科技集团公司第二十八研究所 | 一种基于语义的科技情报处理方法及系统 |
CN108614811B (zh) * | 2016-12-09 | 2021-11-05 | 腾讯科技(深圳)有限公司 | 一种数据分析方法及装置 |
CN106789990A (zh) * | 2016-12-09 | 2017-05-31 | 天脉聚源(北京)传媒科技有限公司 | 一种新闻推送方法及装置 |
CN106649810B (zh) * | 2016-12-29 | 2019-05-28 | 山东舜网传媒股份有限公司 | 基于Ajax的新闻网页动态数据的抓取方法及系统 |
CN107045529B (zh) * | 2017-01-16 | 2021-01-22 | 阿里巴巴(中国)有限公司 | 网络内容获取方法、装置及服务终端 |
CN106933944A (zh) * | 2017-01-20 | 2017-07-07 | 深圳前海勇艺达机器人有限公司 | 能自动抓取和播报新闻的方法及其机器人装置 |
CN107291916A (zh) * | 2017-06-28 | 2017-10-24 | 上海尚工机器人技术有限公司 | 网络信息整合引擎 |
US10698876B2 (en) | 2017-08-11 | 2020-06-30 | Micro Focus Llc | Distinguish phrases in displayed content |
CN107908698B (zh) * | 2017-11-03 | 2021-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN108038124B (zh) * | 2017-11-06 | 2020-08-28 | 广东广业开元科技有限公司 | 一种基于大数据的pdf文档采集处理方法、系统及装置 |
CN109104478A (zh) * | 2018-07-31 | 2018-12-28 | 上海爱优威软件开发有限公司 | 一种图片下载方法及系统 |
CN109471966B (zh) * | 2018-10-30 | 2022-07-15 | 中译语通科技股份有限公司 | 一种自动获取目标数据源的方法及系统 |
CN113486279A (zh) * | 2021-06-29 | 2021-10-08 | 平安信托有限责任公司 | 新闻自动生成方法、装置、设备及存储介质 |
CN113779377B (zh) * | 2021-07-27 | 2024-03-22 | 浙江大学 | 基于无障碍检测结果去重的爬虫搜索方法 |
CN114519163B (zh) * | 2022-02-21 | 2024-05-03 | 江西数易科技有限公司 | 基于正则匹配和Bloom filter的增量新闻URL提取方法 |
-
2009
- 2009-10-20 CN CN2009101535883A patent/CN101694658B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101694658A (zh) | 2010-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101694658B (zh) | 基于新闻去重的网页爬虫的构建方法 | |
Zubiaga | Enhancing navigation on wikipedia with social tags | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN103023714B (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
CN104077377A (zh) | 基于网络文章属性的网络舆情热点发现方法和装置 | |
CN104679783B (zh) | 一种网络搜索方法和装置 | |
CN102426610A (zh) | 微博搜索排名方法及微博搜索引擎 | |
CN105740460B (zh) | 网页搜集推荐方法和装置 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN102999625A (zh) | 一种检索请求语义扩展方法 | |
CN105069112A (zh) | 一种行业垂直搜索引擎系统 | |
CN103914538B (zh) | 基于锚文本上下文和链接分析的主题抓取方法 | |
CN103970800A (zh) | 网页相关关键词的抽取处理方法和系统 | |
CN104598561A (zh) | 一种基于文本的农业视频智能分类方法及装置 | |
CN106326236A (zh) | 一种网页内容识别方法和系统 | |
CN105574004B (zh) | 一种网页去重方法和设备 | |
CN104572720A (zh) | 一种网页信息排重的方法、装置及计算机可读存储介质 | |
CN104965902A (zh) | 一种富集化url的识别方法和装置 | |
CN112597370A (zh) | 指定需求范围的网页信息自主搜集筛选系统 | |
Lee et al. | Web document classification using topic modeling based document ranking | |
CN102214179A (zh) | 网络信息抓取方法 | |
Ganguly et al. | Performance optimization of focused web crawling using content block segmentation | |
CN112115269A (zh) | 一种基于爬虫的网页自动分类方法 | |
Li et al. | Research of network data mining based on reliability source under big data environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |