CN108647342A - 一种优化百度蜘蛛抓取的方法 - Google Patents
一种优化百度蜘蛛抓取的方法 Download PDFInfo
- Publication number
- CN108647342A CN108647342A CN201810457707.3A CN201810457707A CN108647342A CN 108647342 A CN108647342 A CN 108647342A CN 201810457707 A CN201810457707 A CN 201810457707A CN 108647342 A CN108647342 A CN 108647342A
- Authority
- CN
- China
- Prior art keywords
- crawl
- baidu
- keyword
- optimization
- spider
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种优化百度蜘蛛抓取的方法,包括以下步骤:步骤一:制定相对应网站的规则,最大限度的利用宽带和相关的资源获取信息,降低对应的抓取网站的压力;步骤二:通过网络排名的数据分析、网民搜索需求,分析百度搜索引擎抓取关键词的规律,每个关键词不同,分析结果不同;步骤三:利用不同数量的经验发布,过滤简单化和一般化的用词,对百度后台编程的关键词抓取规律进行进一步分析,对关键词和抓取的标题进行统计。本发明通过人工和专业经验对丰富多彩的关键词和标题去分析,避免了软件和编程是模糊化的单一的模式,可以更加多条多样的去编写,避免了发布的内容千篇一律,提高了精准度和新颖度。
Description
技术领域
本发明涉及搜索引擎技术领域,特别涉及一种优化百度蜘蛛抓取的方法。
背景技术
网络推广多种多样,其中搜索引擎的排名为客户提供非常好的转化效果。目前,主要分三大类。
一、搜索引擎营销优化SEM,主要是指搜索引擎竞价优化和搜索引擎快照优化。SEM优化主要包括百度竞价SEM优化、360竞价SEM优化、搜狗推广SEM优化、腾讯广点通SEM优化等。简单来说就是,烧钱做推广广告,按点击量收费。在搜索引擎的首页前十位出现网站和推广信息,优化这两部分。优点:见效快,投钱就有排名在搜索引擎的首页前十位,黄金时段点击率费用越高,排名越靠前,如:在后台设置为9:00—18:00这段黄金时段每点击一次收费5元,其他时段收费为2元,那么这黄金时段的排名和点击率就相当高,企业的曝光率相对来说也高。缺点:网民每次搜索关键词时,都会看到搜索引擎提供变换的信息,企业的信息在搜索引擎上曝光不固定,而且,每次出现的信息只有一条。稳定性差,一旦别人出广告价格比你的高,那你就会排名落后;一旦你帐户中每天地预算消费完了,那你的排名立刻就会消失。最大的弊端是砸钱做推广,很多同行为了挤垮对手,不惜恶性竞争导致公司的推广成本费用居高不下,无形当中增加了企业运营成本,从而导致企业不堪重负而无力做推广。更有甚者,由于推广公司本身不得力,导致企业曝光率底下,推广公司会唆使内部员工去点击企业所推广的网站,不但毫无作用,反而让企业蒙受巨大损失而一无所获。
二、编程搜索引擎优化SEO,这是一直被运用到网络营销的一种手段。特点是利用搜索引擎的搜索规则来提高网站在有关搜索引擎内的自然排名的方式,从而获得更多的免费流量。缺点:传统的SEO,通过后台编程,优化的是网站,从网站名字、网站结构、内容建设方案、用户互动传播、页面等角度进行规划,更适合搜索引擎的索引,但是往往这样做,会造成在搜索引擎的排名很容易被拉下来,甚至网站被黑掉成乱码。而且优化的标题和描述不吸引人,被点击量低。人工成本居高不下,需要不断的对当前的热门话题新闻等做各种超链接,以博取点击率提高网站的排名。而一旦有专业的SEO优化高手入侵后台,那么整个网站将被攻击处于瘫痪状态,几个月的优化心血全部付诸东流。优点:比SEM便宜很多,成本较低,基本不需要投资推广费用,只需要大量的人工时间。
三、软件搜索引擎优化SEO,通过软件对网站进行优化,固定1-3个关键词优化,提高网站在有关搜索引擎内的自然排名的方式。实际手段是平台方先在搜索引擎买了排位,再优化客户的网站和关键词。优点:没有按流量点击收费,费用相对较小,排位固定排在搜索引擎广告栏的下方。缺点:每次出现的信息只有一条。被浏览量很有限。优化的标题和描述也是不吸引人,被点击量比编程式的优化稍微好点。虽然成本比SEM低,网站也不会被拉黑,但是性价比不高。客户点击率也不高,因为没有在正规的平台出现,而是以杂牌军的身份出现,导致广告本身的可信度不高,客户不敢信任这样的广告,影响广告的可信度和客户的信赖度,从而影响企业的推广效果和实际发挥作用。
软件和编程是模糊化的单一的模式,它实际是通过人工设定一个标题后发布,没有多条多样去编写,发布的内容是千篇一律的,没有任何精准度和新颖度,谈不上被精准抓取。大量灌水信息导致的结果是任何一个搜索引擎都会讨厌这种信息,从而全部把它当成垃圾信息过滤掉,根本不会有任何的效果。所以其结果是不论发布多少条信息,有效排名基本为零,即使偶尔有一条信息排名,由于事先没有精心的优化标题和关键词,很快就会被同类的信息挤下去。
因此,发明一种优化百度蜘蛛抓取的方法来解决上述问题很有必要。
发明内容
本发明的目的在于提供一种优化百度蜘蛛抓取的方法,通过人工和专业经验对丰富多彩的关键词和标题去分析,利用不同数量的经验发布,过滤简单化和一般化的用词以解决上述背景技术中提出灌水信息过多,抓取精准度和新颖度不足的问题。
为实现上述目的,本发明提供如下技术方案:一种优化百度蜘蛛抓取的方法,包括以下步骤:
步骤一:制定相对应网站的规则,最大限度的利用宽带和相关的资源获取信息,降低对应的抓取网站的压力;
步骤二:通过网络排名的数据分析、网民搜索需求,分析百度搜索引擎抓取关键词的规律,每个关键词不同,分析结果不同;
步骤三:利用不同数量的经验发布,过滤简单化和一般化的用词,对百度后台编程的关键词抓取规律进行进一步分析,对关键词和抓取的标题进行统计;
步骤四:对步骤二中抓取的标题和分析的关键词进行锁定;
步骤五:利用url重定向进行识别,对抓取页面进行重定向,继续进行步骤一至步骤四的相应工作;
步骤六,选择若干条最有效的标题和关键词,从而进一步的优化和发布。
优选的,所述抓取过程中建立多种优先抓取策略。
优选的,所述优先抓取策略包括深度优先、宽度优先、PR优先和反链优先。
优选的,所述抓取过程中涉及http协议、https协议和robots协议,https协议提高了安全性,robots协议可以对抓取目标进行筛选提高了抓取效率。
优选的,所述抓取过程中出现无法抓取时,进行手动提交数据。
优选的,所述抓取频率与对应网站权重、更新频率成正比。
优选的,所述抓取深度与对应网站内容质量、内容数量和页面深度成正比。
优选的,所述抓取过程中自动过滤死链、IP封禁和dns异常。
本发明的技术效果和优点:
1、本发明通过人工和专业经验对丰富多彩的关键词和标题去分析,避免了软件和编程是模糊化的单一的模式,可以更加多条多样的去编写,避免了发布的内容千篇一律,提高了精准度和新颖度,减少了大量灌水信息现象导致影响搜索引擎的正常工作;
2、通过对抓取结果其进行过滤,使得信息的有效排名可以进行,且优化的标题和关键词不会被同类信息挤出。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
一种优化百度蜘蛛抓取的方法,包括以下步骤:
步骤一:制定相对应网站的规则,最大限度的利用宽带和相关的资源获取信息,降低对应的抓取网站的压力;
步骤二:通过网络排名的数据分析、网民搜索需求,分析百度搜索引擎抓取关键词的规律,每个关键词不同,分析结果不同;
步骤三:利用不同数量的经验发布,过滤简单化和一般化的用词,对百度后台编程的关键词抓取规律进行进一步分析,对关键词和抓取的标题进行统计;
步骤四:对步骤二中抓取的标题和分析的关键词进行锁定;
步骤五:利用url重定向进行识别,对抓取页面进行重定向,继续进行步骤一至步骤四的相应工作;
步骤六,选择若干条最有效的标题和关键词,从而进一步的优化和发布。
所述抓取过程中建立多种优先抓取策略,所述优先抓取策略包括深度优先、宽度优先、PR优先和反链优先,所述抓取过程中涉及http协议、https协议和robots协议,所述抓取过程中出现无法抓取时,进行手动提交数据,所述抓取频率与对应网站权重、更新频率成正比。
实施例2:
一种优化百度蜘蛛抓取的方法,包括以下步骤:
步骤一:制定相对应网站的规则,最大限度的利用宽带和相关的资源获取信息,降低对应的抓取网站的压力;
步骤二:通过网络排名的数据分析、网民搜索需求,分析百度搜索引擎抓取关键词的规律,每个关键词不同,分析结果不同;
步骤三:利用不同数量的经验发布,过滤简单化和一般化的用词,对百度后台编程的关键词抓取规律进行进一步分析,对关键词和抓取的标题进行统计;
步骤四:对步骤二中抓取的标题和分析的关键词进行锁定;
步骤五:利用url重定向进行识别,对抓取页面进行重定向,继续进行步骤一至步骤四的相应工作;
步骤六,选择若干条最有效的标题和关键词,从而进一步的优化和发布。
所述抓取过程中建立多种优先抓取策略,所述优先抓取策略包括深度优先、宽度优先、PR优先和反链优先,所述抓取过程中涉及http协议、https协议和robots协议,所述抓取过程中出现无法抓取时,进行手动提交数据,所述抓取深度与对应网站内容质量、内容数量和页面深度成正比。
实施例3:
一种优化百度蜘蛛抓取的方法,包括以下步骤:
步骤一:制定相对应网站的规则,最大限度的利用宽带和相关的资源获取信息,降低对应的抓取网站的压力;
步骤二:通过网络排名的数据分析、网民搜索需求,分析百度搜索引擎抓取关键词的规律,每个关键词不同,分析结果不同;
步骤三:利用不同数量的经验发布,过滤简单化和一般化的用词,对百度后台编程的关键词抓取规律进行进一步分析,对关键词和抓取的标题进行统计;
步骤四:对步骤二中抓取的标题和分析的关键词进行锁定;
步骤五:利用url重定向进行识别,对抓取页面进行重定向,继续进行步骤一至步骤四的相应工作;
步骤六,选择若干条最有效的标题和关键词,从而进一步的优化和发布。
所述抓取过程中建立多种优先抓取策略,所述优先抓取策略包括深度优先、宽度优先、PR优先和反链优先,所述抓取过程中涉及http协议、https协议和robots协议,所述抓取过程中出现无法抓取时,进行手动提交数据,所述抓取深度与对应网站内容质量、内容数量和页面深度成正比,所述抓取过程中自动过滤死链、IP封禁和dns异常。
通过以上三组实施例,将这三种优化百度蜘蛛抓取的运行结果进行数据对比,结果得出三组实施例中的运行效果均有所提升,其中实施例3中优化百度蜘蛛抓取的方法运行效果最好,本发明通过人工和专业经验对丰富多彩的关键词和标题去分析,避免了软件和编程是模糊化的单一的模式,可以更加多条多样的去编写,避免了发布的内容千篇一律,提高了精准度和新颖度,减少了大量灌水信息现象导致影响搜索引擎的正常工作,且将其进行过滤,使得信息的有效排名可以进行,且优化的标题和关键词不会被同类信息挤出。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种优化百度蜘蛛抓取的方法,其特征在于,包括以下步骤:
步骤一:制定相对应网站的规则,最大限度的利用宽带和相关的资源获取信息,降低对应的抓取网站的压力;
步骤二:通过网络排名的数据分析、网民搜索需求,分析百度搜索引擎抓取关键词的规律,每个关键词不同,分析结果不同;
步骤三:利用不同数量的经验发布,过滤简单化和一般化的用词,对百度后台编程的关键词抓取规律进行进一步分析,对关键词和抓取的标题进行统计;
步骤四:对步骤二中抓取的标题和分析的关键词进行锁定;
步骤五:利用url重定向进行识别,对抓取页面进行重定向,继续进行步骤一至步骤四的相应工作;
步骤六,选择若干条最有效的标题和关键词,从而进一步的优化和发布。
2.根据权利要求1所述的一种优化百度蜘蛛抓取的方法,其特征在于:所述抓取过程中建立多种优先抓取策略。
3.根据权利要求2所述的一种优化百度蜘蛛抓取的方法,其特征在于:所述优先抓取策略包括深度优先、宽度优先、PR优先和反链优先。
4.根据权利要求1所述的一种优化百度蜘蛛抓取的方法,其特征在于:所述抓取过程中涉及http协议、https协议和robots协议。
5.根据权利要求1所述的一种优化百度蜘蛛抓取的方法,其特征在于:所述抓取过程中出现无法抓取时,进行手动提交数据。
6.根据权利要求1所述的一种优化百度蜘蛛抓取的方法,其特征在于:所述抓取频率与对应网站权重、更新频率成正比。
7.根据权利要求1所述的一种优化百度蜘蛛抓取的方法,其特征在于:所述抓取深度与对应网站内容质量、内容数量和页面深度成正比。
8.根据权利要求1所述的一种优化百度蜘蛛抓取的方法,其特征在于:所述抓取过程中自动过滤死链、IP封禁和dns异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810457707.3A CN108647342A (zh) | 2018-05-14 | 2018-05-14 | 一种优化百度蜘蛛抓取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810457707.3A CN108647342A (zh) | 2018-05-14 | 2018-05-14 | 一种优化百度蜘蛛抓取的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108647342A true CN108647342A (zh) | 2018-10-12 |
Family
ID=63755274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810457707.3A Pending CN108647342A (zh) | 2018-05-14 | 2018-05-14 | 一种优化百度蜘蛛抓取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647342A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932817A (zh) * | 2006-09-15 | 2007-03-21 | 陈远 | 通用互联网内容关键词交互系统 |
CN104778208A (zh) * | 2015-03-11 | 2015-07-15 | 赵业东 | 一种搜索引擎 seo 网站数据的优化抓取方法及系统 |
CN103761279B (zh) * | 2014-01-09 | 2017-02-08 | 北京京东尚科信息技术有限公司 | 一种基于关键词检索的网络爬虫调度方法及系统 |
-
2018
- 2018-05-14 CN CN201810457707.3A patent/CN108647342A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932817A (zh) * | 2006-09-15 | 2007-03-21 | 陈远 | 通用互联网内容关键词交互系统 |
CN103761279B (zh) * | 2014-01-09 | 2017-02-08 | 北京京东尚科信息技术有限公司 | 一种基于关键词检索的网络爬虫调度方法及系统 |
CN104778208A (zh) * | 2015-03-11 | 2015-07-15 | 赵业东 | 一种搜索引擎 seo 网站数据的优化抓取方法及系统 |
Non-Patent Citations (2)
Title |
---|
邓能强: "如何利用SEO技术进行网站优化的探索", 《内蒙古科技与经济》 * |
霍龙: "解析百度蜘蛛如何抓取网站和提高抓取频率", 《站长之家》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104133820B (zh) | 内容推荐方法及内容推荐装置 | |
Gallardo-Gallardo et al. | Mapping collaboration networks in talent management research | |
CN104615716B (zh) | 基于优先序列的分布式社交网络信息采集方法及系统 | |
CN105677842A (zh) | 基于Hadoop大数据处理技术的日志分析系统 | |
CN103475717B (zh) | 一种基于社交网络的好友推荐方法和系统 | |
CN103246654A (zh) | 搜索结果的展示处理方法和装置 | |
CN101500017A (zh) | 一种基于流量提供业务的方法及其系统 | |
CN104468752A (zh) | 一种提高云计算资源利用率的方法及系统 | |
CN105678458A (zh) | 一种众包任务的推广系统及其使用方法 | |
CN108647342A (zh) | 一种优化百度蜘蛛抓取的方法 | |
CN108733794A (zh) | 一种基于关键词编辑的人工搜索引擎优化方法 | |
CN108647341A (zh) | 一种提高搜索引擎排名的方法 | |
CN106294536A (zh) | 一种反作弊视频的方法及装置 | |
CN103377201B (zh) | 信息搜索方法及装置 | |
Xia | A study on the profit model of we media in China | |
CN104885075B (zh) | 一种利用关键链接执行反向搜索的方法及装置 | |
CN110502493A (zh) | 一种基于日志分析的缓存效率提升方法 | |
CN112612941B (zh) | 一种金融证券舆情信息爬取方法及装置 | |
Winseck | 13. Media Concentration in the Age of the Internet and Mobile Phones | |
Guo et al. | Research on development strategy of news app under the background of artificial intelligence | |
CN103544294B (zh) | 一种关键词热度自动控制方法 | |
CN106960353A (zh) | 一种基于电子商务平台的用户行为分析方法及系统 | |
CN107908700A (zh) | 一种微博用户行为分析预测的方法 | |
Kotrous | Regulation and net neutrality | |
CN109446396A (zh) | 一种垂直业务信息的智能爬虫框架系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181012 |