CN110750701B - 一种基于爬虫的网络推广效果评估方法 - Google Patents
一种基于爬虫的网络推广效果评估方法 Download PDFInfo
- Publication number
- CN110750701B CN110750701B CN201911035087.5A CN201911035087A CN110750701B CN 110750701 B CN110750701 B CN 110750701B CN 201911035087 A CN201911035087 A CN 201911035087A CN 110750701 B CN110750701 B CN 110750701B
- Authority
- CN
- China
- Prior art keywords
- page
- client
- crawler
- information
- search result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于爬虫的网络推广效果评估方法,包括如下步骤:拉取目标客户的客户信息;利用词库对目标客户的信息进行分词;对关键词去重;选取前3个关键词;利用python编写聚焦爬虫,调用百度搜索引擎爬取百度搜索结果列表页,所用检索词为步骤3中去重后的关键词;对步骤4爬取的搜索结果进行分析;调用百度搜索引擎向后翻页;根据爬取的数据,利用爬虫二次爬取,补全信息;汇总信息入库。达到定期、批量爬取百度收录结果,检测和分析客户投放效果,通过收集的数据可以反馈出目前客户页面在百度的收录情况,促进公司与客户的续约谈判;同时可以分析出某个行业中收录较好的关键词,给出客户优化方案,提高客户对公司的认同的效果。
Description
技术领域
本发明涉及计算机处理技术的服务发现领域,特别是涉及一种基于爬虫的网络推广效果评估方法。
背景技术
随着阿里、百度、腾讯等企业的成功,互联网思维越来越频繁的被大家所提及。越来越多的公司开始利用互联网提升自身企业的知名度,展示企业产品,介绍企业服务。客户购买会员或推广服务希望能直观的看到投放的效果,然而客户并不知道自己网站的真实收录情况,也不知道哪些词的检索和收录量比较高。本方法基于网络爬虫可以定期、批量爬取百度收录结果,分析客户投放效果,可以建立一个长期的反馈机制,从而促进用户续费、更换投放词等操作。
搜索引擎中有搜索器即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在爬取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待爬取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要爬取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫爬取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的爬取过程给出反馈和指导。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于爬虫的网络推广效果评估方法。
为解决上述技术问题,本发明提供一种基于爬虫的网络推广效果评估方法,其特征在于,包括如下步骤:
步骤1:拉取目标客户的客户信息;
步骤2:利用词库对目标客户的信息进行分词;
步骤3:对关键词去重;选取前3个关键词;
步骤4:利用python编写聚焦爬虫,调用百度搜索引擎爬取百度搜索结果列表页,所用检索词为步骤3中去重后的关键词;
步骤5:对步骤4爬取的搜索结果进行分析,分析搜索结果的收录来源用以判断该网页是否归属于指定的推广来源,如果是,那么记录该搜索结果,若不是,则继续分析下一条搜索结果;
步骤6:调用百度搜索引擎向后翻页;
步骤7:重复步骤5、步骤6直至爬取完所有搜索结果;
步骤8:根据步骤7爬取的数据,利用爬虫二次爬取,补全信息;
步骤9:汇总信息入库。
所述步骤1中,所述客户信息是指客户在本公司填写提交的信息,包含公司名称、经营范围、主营产品和公司描述。
所述步骤5中,所述分析搜索结果包括分析收录的链接、关键词、对应百度搜索结果页的页数及其在当前页的排名;具体为分析页面源代码的文档结构,找到类名为“c-showurl”的href标签;如果标签的内容包含指定的推广来源的信息,则记录搜索结果;所述步骤7中,如果搜索结果超过5页,则爬取完第5页的搜索结果即结束爬取;所述步骤8中还包括,利用爬虫分析页面,爬取预先在页面中设置好的id为“hidden_remote_user_info”的元素,用于获取到投放该页面的公司名称、用户名、会员级别、收录关键词和在百度收录的页数及排名;利用爬虫二次爬取补全信息具体为分析页面的url,得到页面类型,所述页面类型包括产品详情页、大图页、视频页和列表页。
本发明所达到的有益效果:本方法基于网络爬虫可以定期、批量爬取百度收录结果,检测和分析客户投放效果,可以建立一个长期的反馈机制,从而促进用户续费、更换投放词。
附图说明
图1为本发明的示例性实施例的方法流程图。
具体实施方式
一种基于爬虫的网络推广效果评估方法,包括如下步骤:
步骤1:拉取目标客户的客户信息;
步骤2:利用词库对目标客户的信息进行分词;
步骤3:对关键词去重;选取前3个关键词;
步骤4:利用python编写聚焦爬虫,调用百度搜索引擎爬取百度搜索结果列表页,所用检索词为步骤3中去重后的关键词;
步骤5:对步骤4爬取的搜索结果进行分析,分析搜索结果的收录来源用以判断该网页是否归属于指定的推广来源,如果是,那么记录该搜索结果,若不是,则继续分析下一条搜索结果;
步骤6:调用百度搜索引擎向后翻页;
步骤7:重复步骤5、步骤6直至爬取完所有搜索结果;
步骤8:根据步骤7爬取的数据,利用爬虫二次爬取,补全信息;
步骤9:汇总信息入库。
所述步骤1中,所述客户信息是指客户在本公司填写提交的信息,包含公司名称、经营范围、主营产品和公司描述。
所述步骤5中,所述分析搜索结果包括分析收录的链接、关键词、对应百度搜索结果页的页数及其在当前页的排名;具体为分析页面源代码的文档结构,找到类名为“c-showurl”的href标签;如果标签的内容包含指定的推广来源的信息,则记录搜索结果;所述步骤7中,如果搜索结果超过5页,则爬取完第5页的搜索结果即结束爬取;所述步骤8中还包括,利用爬虫分析页面,爬取预先在页面中设置好的id为“hidden_remote_user_info”的元素,用于获取到投放该页面的公司名称、用户名、会员级别、收录关键词和在百度收录的页数及排名;利用爬虫二次爬取补全信息具体为分析页面的url,得到页面类型,所述页面类型包括产品详情页、大图页、视频页和列表页。
下面结合附图对本发明作进一步的说明:
如图1所示的一种基于爬虫的网络推广效果评估方法,包括如下步骤:
步骤101,收集客户信息,包含公司名称、经营范围、主营产品、公司描述,选取上述类别的客户信息是因为用户在搜索引擎中输入的检索关键词,绝大部分都包含在这些信息中;
步骤102,读取词库,利用词库对目标客户的信息进行分词,进行分词,将分词结果写入关键词表;
步骤103,对关键词去重,以避免重复检索,提高效率;选取前3个关键词;
步骤104,将关键词作为检索词调用百度搜索引擎;爬取百度搜索结果列表页;
步骤105,对搜索结果进行筛选,过滤掉与指定的推广来源即中国制造网内贸站无关的搜索结果,保留有效结果,分析页面源代码的文档结构,找到类名为“c-showurl”的href标签,如果该标签的内容包含“.made-in-china.com”即说明收录的内容来自于中国制造网。将链接及对应的百度排名写入数据库;
步骤106,调用百度搜索引擎向后翻页;
步骤107,重复105、106直至爬取完所有搜索结果,或者超过第5页;对于绝大部分的用户,查看搜索结果并不会一直翻页到末页,因此爬取过多翻页数据意义不大,同时还会降低分析速度;
步骤108,再次调用爬虫访问步骤105中保存的链接;利用爬虫分析页面,爬取预先在页面中设置好的id为“hidden_remote_user_info”的元素,可以获取到投放该页面的公司名称、用户名、会员级别、收录关键词和在百度收录的页数及排名;同时分析页面的url,得到页面类型所述页面类型包括产品详情页、大图页、视频页和列表页;
步骤109,将上一步骤记录的数据入库,供后续使用。
本发明主要用于提供一种基于爬虫的网络推广效果评估方法,本方法基于网络爬虫可以定期、批量爬取百度收录结果,检测和分析客户投放效果。通过收集的数据可以反馈出目前客户页面在百度的收录情况,促进公司与客户的续约谈判;同时可以分析出某个行业中收录较好的关键词,给出客户优化方案,提高客户对公司的认同。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (1)
1.一种基于爬虫的网络推广效果评估方法,其特征在于,包括如下步骤:
步骤1:拉取目标客户的客户信息;所述客户信息是指客户在本公司填写提交的信息,所述客户信息包含公司名称、经营范围、主营产品和公司描述;
步骤2:利用词库对目标客户的客户信息进行分词;
步骤3:对分词的关键词去重;选取前3个关键词;
步骤4:利用python编写聚焦爬虫,调用百度搜索引擎爬取百度搜索结果列表页,所用检索词为步骤3中去重后的关键词;
步骤5:对步骤4爬取的搜索结果进行分析,分析搜索结果的收录来源用以判断该搜索结果对应的网页是否归属于指定的推广来源,所述分析搜索结果包括分析收录的链接、关键词、对应百度搜索结果页的页数及其在当前页的排名;具体为分析页面源代码的文档结构,找到类名为“c-showurl”的href标签;如果标签的内容包含指定的推广来源的信息,那么记录该搜索结果,若不是,则继续分析下一条搜索结果;则记录搜索结果;
步骤6:调用百度搜索引擎向后翻页;
步骤7:重复步骤5、步骤6直至爬取完所有搜索结果,如果搜索结果超过5页,则爬取完第5页的搜索结果即结束爬取;
步骤8:根据步骤7爬取的数据,利用爬虫二次爬取,包括:利用爬虫分析页面,爬取预先在页面中设置好的id为“hidden_remote_user_info”的元素,用于获取到投放该页面的公司名称、用户名、会员级别、收录关键词和在百度收录的页数及排名;利用爬虫二次爬取补全信息,具体为分析页面的url,得到页面类型,所述页面类型包括产品详情页、大图页、视频页和列表页;补全信息;
步骤9:汇总信息入库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035087.5A CN110750701B (zh) | 2019-10-29 | 2019-10-29 | 一种基于爬虫的网络推广效果评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035087.5A CN110750701B (zh) | 2019-10-29 | 2019-10-29 | 一种基于爬虫的网络推广效果评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750701A CN110750701A (zh) | 2020-02-04 |
CN110750701B true CN110750701B (zh) | 2022-07-05 |
Family
ID=69280678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911035087.5A Active CN110750701B (zh) | 2019-10-29 | 2019-10-29 | 一种基于爬虫的网络推广效果评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750701B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930059A (zh) * | 2012-11-26 | 2013-02-13 | 电子科技大学 | 一种聚焦爬虫的设计方法 |
CN110020044A (zh) * | 2017-09-22 | 2019-07-16 | 北京国双科技有限公司 | 一种爬虫的爬取方法及装置 |
-
2019
- 2019-10-29 CN CN201911035087.5A patent/CN110750701B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930059A (zh) * | 2012-11-26 | 2013-02-13 | 电子科技大学 | 一种聚焦爬虫的设计方法 |
CN110020044A (zh) * | 2017-09-22 | 2019-07-16 | 北京国双科技有限公司 | 一种爬虫的爬取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110750701A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663254B2 (en) | System and engine for seeded clustering of news events | |
CN106126648B (zh) | 一种基于重做日志的分布式商品信息爬虫方法 | |
CN105022827B (zh) | 一种面向领域主题的Web新闻动态聚合方法 | |
US6463430B1 (en) | Devices and methods for generating and managing a database | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
US20140279622A1 (en) | System and method for semantic processing of personalized social data and generating probability models of personal context to generate recommendations in searching applications | |
US9396188B2 (en) | Assigning tags to digital content | |
CN110543595B (zh) | 一种站内搜索系统及方法 | |
EP3563240B1 (en) | Systems and methods for harvesting data associated with fraudulent content in a networked environment | |
WO2020233344A1 (zh) | 一种搜索方法、装置及存储介质 | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
CN103577489A (zh) | 一种网页浏览历史查询方法及装置 | |
CN103577490A (zh) | 一种网页浏览历史展现方法及装置 | |
CN102270331A (zh) | 基于可视化搜索的网络购物导航方法 | |
CN103942268A (zh) | 搜索与应用相结合的方法、设备以及应用接口 | |
Gupta et al. | A review on search engine optimization: Basics | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN114021001A (zh) | 一种基于大数据的企业措施匹配方法、设备及介质 | |
CN112732995A (zh) | 一种畜牧业新闻资讯推荐系统 | |
CN102214183A (zh) | 按页面反馈内容与固定排名相结合的搜索引擎查询方法 | |
Dias et al. | Automating the extraction of static content and dynamic behaviour from e-commerce websites | |
US9165053B2 (en) | Multi-source contextual information item grouping for document analysis | |
CN104484367A (zh) | 一种数据挖掘分析系统 | |
CN110750701B (zh) | 一种基于爬虫的网络推广效果评估方法 | |
CN111753151A (zh) | 一种基于互联网用户行为的服务推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |