CN104199830B - 搜索引擎优化大数据管理方法 - Google Patents

搜索引擎优化大数据管理方法 Download PDF

Info

Publication number
CN104199830B
CN104199830B CN201410372930.XA CN201410372930A CN104199830B CN 104199830 B CN104199830 B CN 104199830B CN 201410372930 A CN201410372930 A CN 201410372930A CN 104199830 B CN104199830 B CN 104199830B
Authority
CN
China
Prior art keywords
data
search engine
keyword
website
exterior chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410372930.XA
Other languages
English (en)
Other versions
CN104199830A (zh
Inventor
渠成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Scientific Games (Beijing) Co., Ltd.
Original Assignee
Scientific Games (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Scientific Games (beijing) Co Ltd filed Critical Scientific Games (beijing) Co Ltd
Priority to CN201410372930.XA priority Critical patent/CN104199830B/zh
Publication of CN104199830A publication Critical patent/CN104199830A/zh
Application granted granted Critical
Publication of CN104199830B publication Critical patent/CN104199830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的搜索引擎优化大数据管理平台是一款基于SEO(搜索引擎优化)追踪,整合网站所有流量,然后进行统计、分析和管理的大数据平台,通过每天抓取网站SEO(搜索引擎优化)主要指标,整合关键词排名、网站外链、网站收录和网站流量等多个维度的数据,及时通知站长影响网站表现的因素。因此,所述搜索引擎优化大数据管理平台能够同时监控网站在多个搜索引擎上的表现,与竞争对手的对比分析一目了然。

Description

搜索引擎优化大数据管理方法
技术领域
本发明属于互联网搜索引擎优化(简称:SEO)领域,尤其是涉及一种搜索引擎优化大数据管理方法。
背景技术
目前互联网的搜索引擎优化(简称:SEO)领域的工作人员,需要在网络上收集信息,为客户决策提供数据参考,因为考虑的因素不同,面对的企业不同,在收集信息时会发生片面、信息量不够等问题。
对于SEO人员的工作大致可以分为三步:
收集网站的基础SEO数据,这需要大量的人力工作,需要到不同的网站进行多次查询才可以获取到最终数据;
优化网站的内容,让网站代码更符合搜索引擎蜘蛛的抓取习惯;
生成数据报告,SEO人员需要将工作的成果展示给公司领导或者客户,同样需要大量的人力工作,获取不同时期的数据,并将这些数据绘制成图表。
发明内容
搜索引擎优化大数据管理方法要解决的问题是提供一种新型的数据采集方法,从而保证数据的全面、数据反映的问题客观,为客户决策提供客观的数据参考,其技术方案如下所述:
一种搜索引擎优化大数据管理方法,包括下列步骤:
(1)通过网络爬虫获取企业网站的关键词排名、流量、收录、外链四个维度的数据;
(2)将获取的四个维度的数据通过数据统计模块形成报表;
(3)将报表通过前端页面程序进行展示。
步骤(1)中,所述关键词排名的数据抓取是用关键词在搜索引擎里进行查询,找到网站和其竞争对手在查询结果页面中出现的位置并记录在数据库中,遍历所有关键词,从而获得所有关键词的排名信息。
步骤(1)中,所述收录的数据抓取是通过在搜索引擎中查询,从而获得收录数据。
步骤(1)中,所述外链的数据抓取是通过对接专业外链数据查询网站的数据接口,从而获得网站和其竞争对手的外链数据。
步骤(1)中,所述流量的数据抓取是通过专业流量数据查询网站提供的数据接口获得。
所述步骤(2)中,所述数据统计模块分为关键词排名整合、收录数据整合、外链整合和流量整合四个模块。
所述关键词排名整合分为关键词历史排名、关键词市场份额和关键词分类排名三个子模块。
所述收录数据整合是将网站的收录数据和其竞争对手的收录数据存储在同一张数据表中。
所述外链整合的内容是当获取到网站所有的外链数据之后,统计外链中出现频率最高的关键词,统计提供外链个数最多的域名,统计外链中锚文本的类型。
所述流量整合是从关键词维度和搜索引擎维度统计哪些关键词或搜索引擎为网站带来的流量最多,以及这些流量对应的每个访客在网站上停留的时间、新访客比例以及跳出率。
本发明的有益效果有两个方面:
降低时间成本:在没有本发明之前,用户需要在多个工具之间来回切换来获取数据。本发明可以做到整合市面上大部分工具。实现一次配置,重复使用。
历史数据查询:本发明支持历史数据的查询,并且可以导出。可以通过历史数据看到过去一段时间对网站操作带来的影响。这是其他同类软件不具备的。
跨搜索引擎:搜索引擎优化大数据管理方法支持百度、搜狗、360和百度移动四个搜索引擎的数据抓取,对于需要多搜索引擎数据的用户来说,这无疑又可以大大节约成本。
具体实施方式
搜索引擎优化大数据管理方法可以监测网站在搜索引擎上的表现,在SEO(搜索引擎优化)优化过程中需要获取四个维度的数据,这四个维度的数据分别是:关键词排名、流量、收录、外链。
搜索引擎优化大数据管理方法获取这四个维度的数据并且最终形成报表是通过以下方式来实现的:
1、爬虫部分:爬虫是负责获取这四个维度的基础数据。而且针对每个维度的数据都有不同的爬虫负责。
关键词爬虫:关键词爬虫是负责查询关键词对应网站在搜索引擎中的排名的爬虫,一个爬虫负责模拟用户在搜索引擎输入关键词进行查询,把查询结果存储在服务器硬盘中。另一个程序负责解析这些查询结果,把最终解析到的关键词排名存储在数据库中。
收录爬虫:采用site命令在搜索引擎中查询,获得收录数据存储在数据库。
外链爬虫:对接MOZ API获取外联数据。
流量爬虫:对接Google Analytics(谷歌网站数据统计服务)获得流量数据。
2.数据统计程序:数据统计程序是负责将爬虫抓取到的原始数据通过归纳、统计和计算,生成各种报表所需要的数据,最终为用户提供指导意义的数据。例如:关键词排名前三页占比报表,此报表需要获取企业网站和其竞争对手前两名网站这三个网站,针对特定的100个关键词在百度上的前三页的排名占比,数据统计程序会把与这100个关键词排名在前三页的三个网站全部统计出来,再按照这三个网站分别占总量的比例来生成图表。
3.前端页面程序:前端页面程序主要负责和客户交互的部分。将数据统计程序计算结果以报表的形式展示给客户。
当用户注册登录系统后需要将自身网站、竞争对手和需要监控的关键词信息输入到搜索引擎优化大数据管理方法里,搜索引擎优化大数据管理方法会自动每天在百度、搜狗、360和百度移动这几个搜索引擎中搜索网站和竞争对手的关键词排名、收录数据。并且会在moz.com和Google Analytics(谷歌网站数据统计服务)中获取网站的外链和流量数据,把这些数据累计起来就可以形成数据的历史图表。通过历史图表可以直观看出某段时间的SEO(搜索引擎优化)优化效果。
举例说明:某企业网站(网址:qiye.com)使用搜索引擎优化大数据管理方法如何提升SEO(搜索引擎优化)工作效率?
首先、需要在搜索引擎优化大数据管理方法里添加qiye.com。
其次、添加qiye.com的竞争对手:例如51.com、yingjie.com
最后、添加需要监控的关键词,由于关键词多达1万个,所以这里就不列举了。
配置好后,搜索引擎优化大数据管理方法会在每天的零点从互联网上获取SEO(搜索引擎优化)所需的所有数据。具体的操作步骤是数据抓取、统计分析整理和前台展示。
第一步数据抓取程序共四个部分、关键词排名数据抓取、外链数据抓取和流量数据抓取,这四个部分的功能和工作原理如下:
关键词排名数据抓取:搜索引擎优化大数据管理方法会通过程序遍历所有关键词,用每个关键词在搜索引擎里进行查询,把查询页面结果存储在硬盘里,再通过另外一个程序把硬盘中的查询结果页面进行分析,找到qiye.com和其竞争对手在查询结果页面中出现的位置记录在数据库中,这个位置就是关键词排名。直到遍历完所有关键词,即可获得一万个关键词的排名信息。
收录数据抓取:通过site:qiye.com在搜索引擎中查询即可获得收录数据。
外链数据抓取:通过程序对接moz.com的数据接口,可以获得智联招聘和其他竞争对手的外链数据。
流量数据抓取:通过Google Analytics(谷歌网站数据统计服务)提供的数据接口获得智联招聘的流量数据。
第二步数据统计分析:在获得SEO(搜索引擎优化)数据之后,就需要经过数据统计分析程序,把零散、缺乏关联性的数据有机的结合起来,最终为前台展示程序提供数据基础。数据统计模块分为关键词排名整合、收录数据整合、外链整合和流量整合具体的工作内容如下:
关键词排名整合又分为三个子模块,分别是关键词历史排名、关键词市场份额和关键词分类排名。
关键词历史排名:把关键词排名数据跟进日期归类可以得到关键词排名变化趋势,按照关键词排名出现的位置归类可以得到关键词在搜索引擎前三页的分布情况,再考虑时间维度,又可以得到关键词排在前三页的变化趋势。
关键词市场份额:关键词市场份额是以当天智联招聘和竞争对手的关键词排在搜索引擎前三页的个和数作为分母,再以智联招聘和其竞争对手分别作为分子计算,最终得出智联招聘和竞争对手各自的市场份额。
关键词分类排名:因为智联招聘的关键词很多,通过整体关键词的排名是无法细化到某一个子领域的排名情况。关键词排名分类程序会要求客户输入关键词之前先输入关键词对应的分类,在排名爬虫抓取完排名之后,关键词分类程序会根据关键词的分类把排名结果按照分类来存储在数据库表中。
收录数据整合:收录数据整合程序主要是把智联招聘的收录数据和竞争对手的收录数据存储在同一张数据表中,方便客户对比自身网站和他竞争对手的收录情况。由于抓取收录信息时考虑了时间维度,所以收录数据也可以查看历史信息。
外链整合:当获取到一个网站所有的外链数据之后,统计分析程序负责统计外链中出现频率最高的关键词,统计提供外链个数最多的域名,统计外链中锚文本的类型。
流量整合:流量整合主要是从关键词维度和搜索引擎维度统计哪些关键词或搜索引擎为智联招聘带来的流量最多,以及这些流量对应的每个访客在网站上停留的时间、新访客比例以及跳出率。
第三步前台页面展示:在经过统计程序统计之后,前台展示页面只需要把统计好的数据以图表的形式显示出来即可。
所述搜索引擎优化大数据管理方法把SEO(搜索引擎优化)人员从繁重的、重复的收集数据的工作中解放出来,只需要简单的配置就可以获得SEO(搜索引擎优化)人员需要的数据,大大降低了人力成本。并最终形成报表可以直观显示,为客户提供决策参考。

Claims (6)

1.一种搜索引擎优化大数据管理方法,包括搜索引擎优化大数据管理系统,其特征在于,包括下列步骤:
(1)通过网络爬虫抓取企业网站的关键词排名、流量、收录、外链四个维度的数据,针对每个维度的数据由不同的爬虫负责,分别是关键词爬虫、收录爬虫、外链爬虫、流量爬虫;
(2)将获取的四个维度的数据通过数据统计模块形成报表,所述数据统计模块分为关键词排名整合、收录数据整合、外链整合和流量整合四个模块;所述收录数据整合是将网站的收录数据和其竞争对手的收录数据存储在同一张数据表中;所述外链整合的内容是当获取到网站所有的外链数据之后,统计外链中出现频率最高的关键词,统计提供外链个数最多的域名,统计外链中锚文本的类型;所述流量整合是从关键词维度和搜索引擎维度统计哪些关键词或搜索引擎为网站带来的流量最多,以及这些流量对应的每个访客在网站上停留的时间、新访客比例以及跳出率;
(3)将报表通过前端页面程序进行展示;
用户注册登录系统,将自身网站、竞争对手和需要监控的关键词信息输入到搜索引擎优化大数据管理系统里,搜索引擎优化大数据管理系统会自动每天在相关搜索引擎中搜索网站和竞争对手的关键词排名、收录数据;并且会获取网站的外链和流量数据,把这些数据累计起来就可以形成数据的历史图表,通过历史图表可以直观看出某段时间的搜索引擎优化的优化效果。
2.根据权利要求1所述的搜索引擎优化大数据管理方法,其特征在于:步骤(1)中,所述关键词排名的数据抓取是用关键词在搜索引擎里进行查询,找到网站和其竞争对手在查询结果页面中出现的位置并记录在数据库中,遍历所有关键词,从而获得所有关键词的排名信息。
3.根据权利要求1所述的搜索引擎优化大数据管理方法,其特征在于:步骤(1)中,所述收录的数据抓取是通过在搜索引擎中查询,从而获得收录数据。
4.根据权利要求1所述的搜索引擎优化大数据管理方法,其特征在于:步骤(1)中,所述外链的数据抓取是通过对接专业外链数据查询网站的数据接口,从而获得网站和其竞争对手的外链数据。
5.根据权利要求1所述的搜索引擎优化大数据管理方法,其特征在于:步骤(1)中,所述流量的数据抓取是通过专业流量数据查询网站提供的数据接口获得。
6.根据权利要求1所述的搜索引擎优化大数据管理方法,其特征在于:所述关键词排名整合模块分为关键词历史排名、关键词市场份额和关键词分类排名三个子模块。
CN201410372930.XA 2014-07-31 2014-07-31 搜索引擎优化大数据管理方法 Active CN104199830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410372930.XA CN104199830B (zh) 2014-07-31 2014-07-31 搜索引擎优化大数据管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410372930.XA CN104199830B (zh) 2014-07-31 2014-07-31 搜索引擎优化大数据管理方法

Publications (2)

Publication Number Publication Date
CN104199830A CN104199830A (zh) 2014-12-10
CN104199830B true CN104199830B (zh) 2018-01-09

Family

ID=52085123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410372930.XA Active CN104199830B (zh) 2014-07-31 2014-07-31 搜索引擎优化大数据管理方法

Country Status (1)

Country Link
CN (1) CN104199830B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408189B (zh) * 2014-12-15 2018-11-09 北京国双科技有限公司 关键词排名的展示方法和装置
US10394796B1 (en) 2015-05-28 2019-08-27 BloomReach Inc. Control selection and analysis of search engine optimization activities for web sites
CN106339372B (zh) * 2015-07-06 2020-01-17 阿里巴巴集团控股有限公司 搜索引擎优化的方法和装置
CN106649362B (zh) * 2015-10-30 2020-02-07 北京国双科技有限公司 网页爬取方法和装置
CN105303333A (zh) * 2015-12-01 2016-02-03 百度在线网络技术(北京)有限公司 招聘信息的处理方法及装置
CN105930442B (zh) * 2016-04-19 2019-06-18 广州天趣网络科技有限公司 一种基于统计计算的网站搜索引擎优化方法及系统
CN106599299A (zh) * 2016-12-28 2017-04-26 北京奇虎科技有限公司 一种网站关键词的确定方法及装置
CN107609203B (zh) * 2017-11-07 2021-12-03 安徽斯百德信息技术有限公司 一种搜索引擎优化效果量化评估的数据分析系统及方法
CN110232163A (zh) * 2018-03-05 2019-09-13 上海联启网络科技有限公司 一种企业网站建设推广平台及方法
CN108804540B (zh) * 2018-05-08 2020-12-22 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法
CN111143645A (zh) * 2018-11-02 2020-05-12 千寻位置网络有限公司 利用网络爬虫进行seo自动优化的方法及装置
CN113032657A (zh) * 2021-04-28 2021-06-25 玉米社(深圳)网络科技有限公司 一种快速选择企业推广中核心市场的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645155A (zh) * 2008-08-08 2010-02-10 陈列生 一种网络营销方法
CN103605735A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站数据分析方法及装置
CN103605744A (zh) * 2013-11-20 2014-02-26 北京国双科技有限公司 网站搜索引擎流量数据的分析方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9659095B2 (en) * 2012-03-04 2017-05-23 International Business Machines Corporation Managing search-engine-optimization content in web pages

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645155A (zh) * 2008-08-08 2010-02-10 陈列生 一种网络营销方法
CN103605735A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站数据分析方法及装置
CN103605744A (zh) * 2013-11-20 2014-02-26 北京国双科技有限公司 网站搜索引擎流量数据的分析方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
搜索引擎优化技术的研究与实现;黄平珍;《中国优秀硕士学位论文全文数据库》;20120515;第I138-1705页 *
网站搜索引擎优化技术研究与应用;金路;《中国优秀硕士学位论文全文数据库》;20130815;第I138-742页 *

Also Published As

Publication number Publication date
CN104199830A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN104199830B (zh) 搜索引擎优化大数据管理方法
US8650198B2 (en) Systems and methods for facilitating the gathering of open source intelligence
CN104700190B (zh) 一种用于项目与专业人员匹配的方法和装置
US20120323627A1 (en) Real-time Monitoring of Public Sentiment
US10600011B2 (en) Methods and systems for improving engagement with a recommendation engine that recommends items, peers, and services
CN106326413A (zh) 一种个性化视频推荐系统及方法
CN104572709A (zh) 用于企业创新体系的数据挖掘系统
CN107918818A (zh) 基于大数据技术的供应链管理决策支持系统
JP5895052B2 (ja) 情報分析システム及び情報分析方法
CN110569273A (zh) 一种基于相关性排序的专利检索系统及方法
US10409866B1 (en) Systems and methods for occupation normalization at a job aggregator
CN115757689A (zh) 一种信息查询系统、方法及设备
KR101532252B1 (ko) 소셜 네트워크 정보 수집 및 분석 시스템
CN107609203B (zh) 一种搜索引擎优化效果量化评估的数据分析系统及方法
Lee et al. A data acquisition architecture for healthcare services in mobile sensor networks
CN104809253B (zh) 互联网数据分析系统
KR102025813B1 (ko) 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법
US20220343353A1 (en) Identifying Competitors of Companies
CN106909691A (zh) 一种基于缓存的高效税收数据分析方法
KR20130023977A (ko) 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치
US10643227B1 (en) Business lines
KR100952634B1 (ko) 정보분석 시스템 및 그 정보분석 방법
Umagandhi et al. Search Query Recommendations using Hybrid User Profile with Query Logs
CN117370448B (zh) 品牌数字资产洞察分析方法
CN108920726A (zh) 一种审计分析系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150930

Address after: 100020, A, block 1301-1306, Tang Tang International Office, 1 Bei Bei Bei, Mitutoyo, Beijing, Chaoyang District

Applicant after: Scientific Games (Beijing) Co., Ltd.

Address before: 100020 A, block 1301-1306, Tang Tang International office building, 1 North Tower, Mitutoyo, Beijing, Chaoyang District

Applicant before: Qu Cheng

GR01 Patent grant
GR01 Patent grant