CN104199830A - 搜索引擎优化大数据管理平台 - Google Patents

搜索引擎优化大数据管理平台 Download PDF

Info

Publication number
CN104199830A
CN104199830A CN201410372930.XA CN201410372930A CN104199830A CN 104199830 A CN104199830 A CN 104199830A CN 201410372930 A CN201410372930 A CN 201410372930A CN 104199830 A CN104199830 A CN 104199830A
Authority
CN
China
Prior art keywords
data
search engine
keyword
website
management platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410372930.XA
Other languages
English (en)
Other versions
CN104199830B (zh
Inventor
渠成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Scientific Games (Beijing) Co., Ltd.
Original Assignee
渠成
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 渠成 filed Critical 渠成
Priority to CN201410372930.XA priority Critical patent/CN104199830B/zh
Publication of CN104199830A publication Critical patent/CN104199830A/zh
Application granted granted Critical
Publication of CN104199830B publication Critical patent/CN104199830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的搜索引擎优化大数据管理平台是一款基于SEO(搜索引擎优化)追踪,整合网站所有流量,然后进行统计、分析和管理的大数据平台,通过每天抓取网站SEO(搜索引擎优化)主要指标,整合关键词排名、网站外链、网站收录和网站流量等多个维度的数据,及时通知站长影响网站表现的因素。因此,所述搜索引擎优化大数据管理平台能够同时监控网站在多个搜索引擎上的表现,与竞争对手的对比分析一目了然。

Description

搜索引擎优化大数据管理平台
技术领域
本发明属于互联网搜索引擎优化(简称:SEO)领域,尤其是涉及一种搜索引擎优化大数据管理平台。
背景技术
目前互联网的搜索引擎优化(简称:SEO)领域的工作人员,需要在网络上收集信息,为客户决策提供数据参考,因为考虑的因素不同,面对的企业不同,在收集信息时会发生片面、信息量不够等问题。
对于SEO人员的工作大致可以分为三步:
收集网站的基础SEO数据,这需要大量的人力工作,需要到不同的网站进行多次查询才可以获取到最终数据;
优化网站的内容,让网站代码更符合搜索引擎蜘蛛的抓取习惯;
生成数据报告,SEO人员需要将工作的成果展示给公司领导或者客户,同样需要大量的人力工作,获取不同时期的数据,并将这些数据绘制成图表。
发明内容
搜索引擎优化大数据管理平台要解决的问题是提供一种新型的数据采集方法,从而保证数据的全面、数据反映的问题客观,为客户决策提供客观的数据参考,其技术方案如下所述:
一种搜索引擎优化大数据管理平台,包括下列步骤:
(1)通过网络爬虫获取企业网站的关键词排名、流量、收录、外链四个维度的数据;
(2)将获取的四个维度的数据通过数据统计模块形成报表;
(3)将报表通过前端页面程序进行展示。
步骤(1)中,所述关键词排名的数据抓取是用关键词在搜索引擎里进行查询,找到网站和其竞争对手在查询结果页面中出现的位置并记录在数据库中,遍历所有关键词,从而获得所有关键词的排名信息。
步骤(1)中,所述收录的数据抓取是通过在搜索引擎中查询,从而获得收录数据。
步骤(1)中,所述外链的数据抓取是通过对接专业外链数据查询网站的数据接口,从而获得网站和其竞争对手的外链数据。
步骤(1)中,所述流量的数据抓取是通过专业流量数据查询网站提供的数据接口获得。
所述步骤(2)中,所述数据统计模块分为关键词排名整合、收录数据整合、外链整合和流量整合四个模块。
所述关键词排名整合分为关键词历史排名、关键词市场份额和关键词分类排名三个子模块。
所述收录数据整合是将网站的收录数据和其竞争对手的收录数据存储在同一张数据表中。
所述外链整合的内容是当获取到网站所有的外链数据之后,统计外链中出现频率最高的关键词,统计提供外链个数最多的域名,统计外链中锚文本的类型。
所述流量整合是从关键词维度和搜索引擎维度统计哪些关键词或搜索引擎为网站带来的流量最多,以及这些流量对应的每个访客在网站上停留的时间、新访客比例以及跳出率。
本发明的有益效果有两个方面:
降低时间成本:在没有本发明之前,用户需要在多个工具之间来回切换来获取数据。本发明可以做到整合市面上大部分工具。实现一次配置,重复使用。
历史数据查询:本发明支持历史数据的查询,并且可以导出。可以通过历史数据看到过去一段时间对网站操作带来的影响。这是其他同类软件不具备的。
跨搜索引擎:搜索引擎优化大数据管理平台支持百度、搜狗、360和百度移动四个搜索引擎的数据抓取,对于需要多搜索引擎数据的用户来说,这无疑又可以大大节约成本。
具体实施方式
搜索引擎优化大数据管理平台可以监测网站在搜索引擎上的表现,在SEO(搜索引擎优化)优化过程中需要获取四个维度的数据,这四个维度的数据分别是:关键词排名、流量、收录、外链。
搜索引擎优化大数据管理平台获取这四个维度的数据并且最终形成报表是通过以下方式来实现的:
1、爬虫部分:爬虫是负责获取这四个维度的基础数据。而且针对每个维度的数据都有不同的爬虫负责。
关键词爬虫:关键词爬虫是负责查询关键词对应网站在搜索引擎中的排名的爬虫,一个爬虫负责模拟用户在搜索引擎输入关键词进行查询,把查询结果存储在服务器硬盘中。另一个程序负责解析这些查询结果,把最终解析到的关键词排名存储在数据库中。
收录爬虫:采用site命令在搜索引擎中查询,获得收录数据存储在数据库。
外链爬虫:对接MOZ API获取外联数据。
流量爬虫:对接Google Analytics(谷歌网站数据统计服务)获得流量数据。
2.数据统计程序:数据统计程序是负责将爬虫抓取到的原始数据通过归纳、统计和计算,生成各种报表所需要的数据,最终为用户提供指导意义的数据。例如:关键词排名前三页占比报表,此报表需要获取企业网站和其竞争对手前两名网站这三个网站,针对特定的100个关键词在百度上的前三页的排名占比,数据统计程序会把与这100个关键词排名在前三页的三个网站全部统计出来,再按照这三个网站分别占总量的比例来生成图表。
3.前端页面程序:前端页面程序主要负责和客户交互的部分。将数据统计程序计算结果以报表的形式展示给客户。
当用户注册登录系统后需要将自身网站、竞争对手和需要监控的关键词信息输入到搜索引擎优化大数据管理平台里,搜索引擎优化大数据管理平台会自动每天在百度、搜狗、360和百度移动这几个搜索引擎中搜索网站和竞争对手的关键词排名、收录数据。并且会在moz.com和Google Analytics(谷歌网站数据统计服务)中获取网站的外链和流量数据,把这些数据累计起来就可以形成数据的历史图表。通过历史图表可以直观看出某段时间的SEO(搜索引擎优化)优化效果。
举例说明:某企业网站(网址:qiye.com)使用搜索引擎优化大数据管理平台如何提升SEO(搜索引擎优化)工作效率?
首先、需要在搜索引擎优化大数据管理平台里添加qiye.com。
其次、添加qiye.com的竞争对手:例如51.com、yingjie.com
最后、添加需要监控的关键词,由于关键词多达1万个,所以这里就不列举了。
配置好后,搜索引擎优化大数据管理平台会在每天的零点从互联网上获取SEO(搜索引擎优化)所需的所有数据。具体的操作步奏是数据抓取、统计分析整理和前台展示。
第一步数据抓取程序共四个部分、关键词排名数据抓取、外链数据抓取和流量数据抓取,这四个部分的功能和工作原理如下:
关键词排名数据抓取:搜索引擎优化大数据管理平台会通过程序遍历所有关键词,用每个关键词在搜索引擎里进行查询,把查询页面结果存储在硬盘里,再通过另外一个程序把硬盘中的查询结果页面进行分析,找到qiye.com和其竞争对手在查询结果页面中出现的位置记录在数据库中,这个位置就是关键词排名。直到遍历完所有关键词,即可获得一万个关键词的排名信息。
收录数据抓取:通过site:qiye.com在搜索引擎中查询即可获得收录数据。
外链数据抓取:通过程序对接moz.com的数据接口,可以获得智联招聘和其他竞争对手的外链数据。
流量数据抓取:通过Google Analytics(谷歌网站数据统计服务)提供的数据接口获得智联招聘的流量数据。
第二步数据统计分析:在获得SEO(搜索引擎优化)数据之后,就需要经过数据统计分析程序,把零散、缺乏关联性的数据有机的结合起来,最终为前台展示程序提供数据基础。数据统计模块分为关键词排名整合、收录数据整合、外链整合和流量整合具体的工作内容如下:
关键词排名整合又分为三个子模块,分别是关键词历史排名、关键词市场份额和关键词分类排名。
关键词历史排名:把关键词排名数据跟进日期归类可以得到关键词排名变化趋势,按照关键词排名出现的位置归类可以得到关键词在搜索引擎前三页的分布情况,再考虑时间维度,又可以得到关键词排在前三页的变化趋势。
关键词市场份额:关键词市场份额是以当天智联招聘和竞争对手的关键词排在搜索引擎前三页的个和数作为分母,再以智联招聘和其竞争对手分别作为分子计算,最终得出智联招聘和竞争对手各自的市场份额。
关键词分类排名:因为智联招聘的关键词很多,通过整体关键词的排名是无法细化到某一个子领域的排名情况。关键词排名分类程序会要求客户输入关键词之前先输入关键词对应的分类,在排名爬虫抓取完排名之后,关键词分类程序会根据关键词的分类把排名结果按照分类来存储在数据库表中。
收录数据整合:收录数据整合程序主要是把智联招聘的收录数据和竞争对手的收录数据存储在同一张数据表中,方便客户对比自身网站和他竞争对手的收录情况。由于抓取收录信息时考虑了时间维度,所以收录数据也可以查看历史信息。
外链整合:当获取到一个网站所有的外链数据之后,统计分析程序负责统计外链中出现频率最高的关键词,统计提供外链个数最多的域名,统计外链中锚文本的类型。
流量整合:流量整合主要是从关键词维度和搜索引擎维度统计哪些关键词或搜索引擎为智联招聘带来的流量最多,以及这些流量对应的每个访客在网站上停留的时间、新访客比例以及跳出率。
第三步前台页面展示:在经过统计程序统计之后,前台展示页面只需要把统计好的数据以图表的形式显示出来即可。
所述搜索引擎优化大数据管理平台把SEO(搜索引擎优化)人员从繁重的、重复的收集数据的工作中解放出来,只需要简单的配置就可以获得SEO(搜索引擎优化)人员需要的数据,大大降低了人力成本。并最终形成报表可以直观显示,为客户提供决策参考。

Claims (10)

1.一种搜索引擎优化大数据管理平台,其特征在于,包括下列步骤:
(1)通过网络爬虫获取企业网站的关键词排名、流量、收录、外链四个维度的数据;
(2)将获取的四个维度的数据通过数据统计模块形成报表;
(3)将报表通过前端页面程序进行展示。
2.根据权利要求1所述的搜索引擎优化大数据管理平台,其特征在于:步骤(1)中,所述关键词排名的数据抓取是用关键词在搜索引擎里进行查询,找到网站和其竞争对手在查询结果页面中出现的位置并记录在数据库中,遍历所有关键词,从而获得所有关键词的排名信息。
3.根据权利要求1所述的搜索引擎优化大数据管理平台,其特征在于:步骤(1)中,所述收录的数据抓取是通过在搜索引擎中查询,从而获得收录数据。
4.根据权利要求1所述的搜索引擎优化大数据管理平台,其特征在于:步骤(1)中,所述外链的数据抓取是通过对接专业外链数据查询网站的数据接口,从而获得网站和其竞争对手的外链数据。
5.根据权利要求1所述的搜索引擎优化大数据管理平台,其特征在于:步骤(1)中,所述流量的数据抓取是通过专业流量数据查询网站提供的数据接口获得。
6.根据权利要求1所述的搜索引擎优化大数据管理平台,其特征在于:所述步骤(2)中,所述数据统计模块分为关键词排名整合、收录数据整合、外链整合和流量整合四个模块。
7.根据权利要求6所述的搜索引擎优化大数据管理平台,其特征在于:所述关键词排名整合分为关键词历史排名、关键词市场份额和关键词分类排名三个子模块。
8.根据权利要求6所述的搜索引擎优化大数据管理平台,其特征在于:所述收录数据整合是将网站的收录数据和其竞争对手的收录数据存储在同一张数据表中。
9.根据权利要求6所述的搜索引擎优化大数据管理平台,其特征在于:所述外链整合的内容是当获取到网站所有的外链数据之后,统计外链中出现频率最高的关键词,统计提供外链个数最多的域名,统计外链中锚文本的类型。
10.根据权利要求6所述的搜索引擎优化大数据管理平台,其特征在于:所述流量整合是从关键词维度和搜索引擎维度统计哪些关键词或搜索引擎为网站带来的流量最多,以及这些流量对应的每个访客在网站上停留的时间、新访客比例以及跳出率。
CN201410372930.XA 2014-07-31 2014-07-31 搜索引擎优化大数据管理方法 Active CN104199830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410372930.XA CN104199830B (zh) 2014-07-31 2014-07-31 搜索引擎优化大数据管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410372930.XA CN104199830B (zh) 2014-07-31 2014-07-31 搜索引擎优化大数据管理方法

Publications (2)

Publication Number Publication Date
CN104199830A true CN104199830A (zh) 2014-12-10
CN104199830B CN104199830B (zh) 2018-01-09

Family

ID=52085123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410372930.XA Active CN104199830B (zh) 2014-07-31 2014-07-31 搜索引擎优化大数据管理方法

Country Status (1)

Country Link
CN (1) CN104199830B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408189A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词排名的展示方法和装置
CN105303333A (zh) * 2015-12-01 2016-02-03 百度在线网络技术(北京)有限公司 招聘信息的处理方法及装置
CN105930442A (zh) * 2016-04-19 2016-09-07 广州天趣网络科技有限公司 一种基于统计计算的网站搜索引擎优化方法及系统
CN106339372A (zh) * 2015-07-06 2017-01-18 阿里巴巴集团控股有限公司 搜索引擎优化的方法和装置
CN106599299A (zh) * 2016-12-28 2017-04-26 北京奇虎科技有限公司 一种网站关键词的确定方法及装置
CN106649362A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 网页爬取方法和装置
CN107609203A (zh) * 2017-11-07 2018-01-19 安徽斯百德信息技术有限公司 一种搜索引擎优化效果量化评估的数据分析系统及方法
CN108804540A (zh) * 2018-05-08 2018-11-13 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法
US10394796B1 (en) 2015-05-28 2019-08-27 BloomReach Inc. Control selection and analysis of search engine optimization activities for web sites
CN110232163A (zh) * 2018-03-05 2019-09-13 上海联启网络科技有限公司 一种企业网站建设推广平台及方法
CN111143645A (zh) * 2018-11-02 2020-05-12 千寻位置网络有限公司 利用网络爬虫进行seo自动优化的方法及装置
CN113032657A (zh) * 2021-04-28 2021-06-25 玉米社(深圳)网络科技有限公司 一种快速选择企业推广中核心市场的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645155A (zh) * 2008-08-08 2010-02-10 陈列生 一种网络营销方法
US20130232131A1 (en) * 2012-03-04 2013-09-05 International Business Machines Corporation Managing search-engine-optimization content in web pages
CN103605735A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站数据分析方法及装置
CN103605744A (zh) * 2013-11-20 2014-02-26 北京国双科技有限公司 网站搜索引擎流量数据的分析方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645155A (zh) * 2008-08-08 2010-02-10 陈列生 一种网络营销方法
US20130232131A1 (en) * 2012-03-04 2013-09-05 International Business Machines Corporation Managing search-engine-optimization content in web pages
CN103605735A (zh) * 2013-11-19 2014-02-26 北京国双科技有限公司 网站数据分析方法及装置
CN103605744A (zh) * 2013-11-20 2014-02-26 北京国双科技有限公司 网站搜索引擎流量数据的分析方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
金路: "网站搜索引擎优化技术研究与应用", 《中国优秀硕士学位论文全文数据库》 *
黄平珍: "搜索引擎优化技术的研究与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408189A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词排名的展示方法和装置
CN104408189B (zh) * 2014-12-15 2018-11-09 北京国双科技有限公司 关键词排名的展示方法和装置
US10394796B1 (en) 2015-05-28 2019-08-27 BloomReach Inc. Control selection and analysis of search engine optimization activities for web sites
CN106339372A (zh) * 2015-07-06 2017-01-18 阿里巴巴集团控股有限公司 搜索引擎优化的方法和装置
CN106339372B (zh) * 2015-07-06 2020-01-17 阿里巴巴集团控股有限公司 搜索引擎优化的方法和装置
CN106649362A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 网页爬取方法和装置
CN106649362B (zh) * 2015-10-30 2020-02-07 北京国双科技有限公司 网页爬取方法和装置
CN105303333A (zh) * 2015-12-01 2016-02-03 百度在线网络技术(北京)有限公司 招聘信息的处理方法及装置
CN105930442A (zh) * 2016-04-19 2016-09-07 广州天趣网络科技有限公司 一种基于统计计算的网站搜索引擎优化方法及系统
CN105930442B (zh) * 2016-04-19 2019-06-18 广州天趣网络科技有限公司 一种基于统计计算的网站搜索引擎优化方法及系统
CN106599299A (zh) * 2016-12-28 2017-04-26 北京奇虎科技有限公司 一种网站关键词的确定方法及装置
CN107609203A (zh) * 2017-11-07 2018-01-19 安徽斯百德信息技术有限公司 一种搜索引擎优化效果量化评估的数据分析系统及方法
CN110232163A (zh) * 2018-03-05 2019-09-13 上海联启网络科技有限公司 一种企业网站建设推广平台及方法
CN108804540A (zh) * 2018-05-08 2018-11-13 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法
CN108804540B (zh) * 2018-05-08 2020-12-22 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法
CN111143645A (zh) * 2018-11-02 2020-05-12 千寻位置网络有限公司 利用网络爬虫进行seo自动优化的方法及装置
CN113032657A (zh) * 2021-04-28 2021-06-25 玉米社(深圳)网络科技有限公司 一种快速选择企业推广中核心市场的方法

Also Published As

Publication number Publication date
CN104199830B (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN104199830A (zh) 搜索引擎优化大数据管理平台
US9734203B2 (en) Access path optimization through system statistics
US9063973B2 (en) Method and apparatus for optimizing access path in database
US20120323627A1 (en) Real-time Monitoring of Public Sentiment
CN102724059B (zh) 基于MapReduce的网站运行状态监控与异常检测
CN108027763B (zh) 关系型数据库的调整装置和方法
US20110072008A1 (en) Query Optimization with Awareness of Limited Resource Usage
CN105243147A (zh) 一种MySQL数据库慢查询日志的管理方法及系统
JP5506735B2 (ja) ウェブサイトの影響をランク付けする方法及び記録媒体
CN105160038A (zh) 一种基于审计知识库的数据分析方法及系统
CN104063411A (zh) 基于波特五力模型的企业情报收集方法
Park et al. Understanding science and technology information users through transaction log analysis
CN103631922A (zh) 基于Hadoop集群的大规模Web信息提取方法及系统
US20190220939A1 (en) Systems and methods for analyzing prior art rejections
CN110928903B (zh) 数据提取方法及装置、设备和存储介质
Habimana Query optimization techniques-tips for writing efficient and faster SQL queries
US20130060782A1 (en) Determining indexes for improving database system performance
Linden et al. Dimensions of business process intelligence
CN110569273A (zh) 一种基于相关性排序的专利检索系统及方法
US10409866B1 (en) Systems and methods for occupation normalization at a job aggregator
Bär et al. Dbstream: An online aggregation, filtering and processing system for network traffic monitoring
CN103279529A (zh) 非结构化数据检索方法及系统
CN115757689A (zh) 一种信息查询系统、方法及设备
Xavier et al. Agile ETL
CN106933902B (zh) 数据多维度自由剖析的查询方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150930

Address after: 100020, A, block 1301-1306, Tang Tang International Office, 1 Bei Bei Bei, Mitutoyo, Beijing, Chaoyang District

Applicant after: Scientific Games (Beijing) Co., Ltd.

Address before: 100020 A, block 1301-1306, Tang Tang International office building, 1 North Tower, Mitutoyo, Beijing, Chaoyang District

Applicant before: Qu Cheng

GR01 Patent grant
GR01 Patent grant