CN110750701B

CN110750701B - 一种基于爬虫的网络推广效果评估方法

Info

Publication number: CN110750701B
Application number: CN201911035087.5A
Authority: CN
Inventors: 邱明胜
Original assignee: Baizhuo Network Technology Co ltd
Current assignee: Baizhuo Network Technology Co ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2022-07-05
Anticipated expiration: 2039-10-29
Also published as: CN110750701A

Abstract

本发明公开了一种基于爬虫的网络推广效果评估方法，包括如下步骤：拉取目标客户的客户信息；利用词库对目标客户的信息进行分词；对关键词去重；选取前3个关键词；利用python编写聚焦爬虫，调用百度搜索引擎爬取百度搜索结果列表页，所用检索词为步骤3中去重后的关键词；对步骤4爬取的搜索结果进行分析；调用百度搜索引擎向后翻页；根据爬取的数据，利用爬虫二次爬取，补全信息；汇总信息入库。达到定期、批量爬取百度收录结果，检测和分析客户投放效果，通过收集的数据可以反馈出目前客户页面在百度的收录情况，促进公司与客户的续约谈判；同时可以分析出某个行业中收录较好的关键词，给出客户优化方案，提高客户对公司的认同的效果。

Description

一种基于爬虫的网络推广效果评估方法

技术领域

本发明涉及计算机处理技术的服务发现领域，特别是涉及一种基于爬虫的网络推广效果评估方法。

背景技术

随着阿里、百度、腾讯等企业的成功，互联网思维越来越频繁的被大家所提及。越来越多的公司开始利用互联网提升自身企业的知名度，展示企业产品，介绍企业服务。客户购买会员或推广服务希望能直观的看到投放的效果，然而客户并不知道自己网站的真实收录情况，也不知道哪些词的检索和收录量比较高。本方法基于网络爬虫可以定期、批量爬取百度收录结果，分析客户投放效果，可以建立一个长期的反馈机制，从而促进用户续费、更换投放词等操作。

搜索引擎中有搜索器即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在爬取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。通俗的讲，也就是通过源码解析来获得想要的内容。

聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待爬取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要爬取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫爬取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的爬取过程给出反馈和指导。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于爬虫的网络推广效果评估方法。

为解决上述技术问题，本发明提供一种基于爬虫的网络推广效果评估方法，其特征在于，包括如下步骤：

步骤1：拉取目标客户的客户信息；

步骤2：利用词库对目标客户的信息进行分词；

步骤3：对关键词去重；选取前3个关键词；

步骤4：利用python编写聚焦爬虫，调用百度搜索引擎爬取百度搜索结果列表页，所用检索词为步骤3中去重后的关键词；

步骤5：对步骤4爬取的搜索结果进行分析，分析搜索结果的收录来源用以判断该网页是否归属于指定的推广来源，如果是，那么记录该搜索结果，若不是，则继续分析下一条搜索结果；

步骤6：调用百度搜索引擎向后翻页；

步骤7：重复步骤5、步骤6直至爬取完所有搜索结果；

步骤8：根据步骤7爬取的数据，利用爬虫二次爬取，补全信息；

步骤9：汇总信息入库。

所述步骤1中，所述客户信息是指客户在本公司填写提交的信息，包含公司名称、经营范围、主营产品和公司描述。

所述步骤5中，所述分析搜索结果包括分析收录的链接、关键词、对应百度搜索结果页的页数及其在当前页的排名；具体为分析页面源代码的文档结构，找到类名为“c-showurl”的href标签；如果标签的内容包含指定的推广来源的信息，则记录搜索结果；所述步骤7中，如果搜索结果超过5页，则爬取完第5页的搜索结果即结束爬取；所述步骤8中还包括，利用爬虫分析页面，爬取预先在页面中设置好的id为“hidden_remote_user_info”的元素，用于获取到投放该页面的公司名称、用户名、会员级别、收录关键词和在百度收录的页数及排名；利用爬虫二次爬取补全信息具体为分析页面的url，得到页面类型，所述页面类型包括产品详情页、大图页、视频页和列表页。

本发明所达到的有益效果:本方法基于网络爬虫可以定期、批量爬取百度收录结果，检测和分析客户投放效果，可以建立一个长期的反馈机制，从而促进用户续费、更换投放词。

附图说明

图1为本发明的示例性实施例的方法流程图。

具体实施方式

一种基于爬虫的网络推广效果评估方法，包括如下步骤：

步骤1：拉取目标客户的客户信息；

步骤2：利用词库对目标客户的信息进行分词；

步骤3：对关键词去重；选取前3个关键词；

步骤6：调用百度搜索引擎向后翻页；

步骤7：重复步骤5、步骤6直至爬取完所有搜索结果；

步骤9：汇总信息入库。

下面结合附图对本发明作进一步的说明：

如图1所示的一种基于爬虫的网络推广效果评估方法，包括如下步骤：

步骤101，收集客户信息，包含公司名称、经营范围、主营产品、公司描述，选取上述类别的客户信息是因为用户在搜索引擎中输入的检索关键词，绝大部分都包含在这些信息中；

步骤102，读取词库，利用词库对目标客户的信息进行分词，进行分词，将分词结果写入关键词表；

步骤103，对关键词去重，以避免重复检索，提高效率；选取前3个关键词；

步骤104，将关键词作为检索词调用百度搜索引擎；爬取百度搜索结果列表页；

步骤105，对搜索结果进行筛选，过滤掉与指定的推广来源即中国制造网内贸站无关的搜索结果，保留有效结果，分析页面源代码的文档结构，找到类名为“c-showurl”的href标签，如果该标签的内容包含“.made-in-china.com”即说明收录的内容来自于中国制造网。将链接及对应的百度排名写入数据库；

步骤106，调用百度搜索引擎向后翻页；

步骤107，重复105、106直至爬取完所有搜索结果，或者超过第5页；对于绝大部分的用户，查看搜索结果并不会一直翻页到末页，因此爬取过多翻页数据意义不大，同时还会降低分析速度；

步骤108，再次调用爬虫访问步骤105中保存的链接；利用爬虫分析页面，爬取预先在页面中设置好的id为“hidden_remote_user_info”的元素，可以获取到投放该页面的公司名称、用户名、会员级别、收录关键词和在百度收录的页数及排名；同时分析页面的url，得到页面类型所述页面类型包括产品详情页、大图页、视频页和列表页；

步骤109，将上一步骤记录的数据入库，供后续使用。

本发明主要用于提供一种基于爬虫的网络推广效果评估方法，本方法基于网络爬虫可以定期、批量爬取百度收录结果，检测和分析客户投放效果。通过收集的数据可以反馈出目前客户页面在百度的收录情况，促进公司与客户的续约谈判；同时可以分析出某个行业中收录较好的关键词，给出客户优化方案，提高客户对公司的认同。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种基于爬虫的网络推广效果评估方法，其特征在于，包括如下步骤：

步骤1：拉取目标客户的客户信息；所述客户信息是指客户在本公司填写提交的信息，所述客户信息包含公司名称、经营范围、主营产品和公司描述；

步骤2：利用词库对目标客户的客户信息进行分词；

步骤3：对分词的关键词去重；选取前3个关键词；

步骤5：对步骤4爬取的搜索结果进行分析，分析搜索结果的收录来源用以判断该搜索结果对应的网页是否归属于指定的推广来源，所述分析搜索结果包括分析收录的链接、关键词、对应百度搜索结果页的页数及其在当前页的排名；具体为分析页面源代码的文档结构，找到类名为“c-showurl”的href标签；如果标签的内容包含指定的推广来源的信息，那么记录该搜索结果，若不是，则继续分析下一条搜索结果；则记录搜索结果；

步骤6：调用百度搜索引擎向后翻页；

步骤7：重复步骤5、步骤6直至爬取完所有搜索结果，如果搜索结果超过5页，则爬取完第5页的搜索结果即结束爬取；

步骤8：根据步骤7爬取的数据，利用爬虫二次爬取，包括：利用爬虫分析页面，爬取预先在页面中设置好的id为“hidden_remote_user_info”的元素，用于获取到投放该页面的公司名称、用户名、会员级别、收录关键词和在百度收录的页数及排名；利用爬虫二次爬取补全信息，具体为分析页面的url，得到页面类型，所述页面类型包括产品详情页、大图页、视频页和列表页；补全信息；

步骤9：汇总信息入库。