CN106776983B

CN106776983B - 搜索引擎优化装置和方法

Info

Publication number: CN106776983B
Application number: CN201611109371.9A
Authority: CN
Inventors: 沙飞; 徐文章
Original assignee: Shenzhen City Grain Science And Technology Co Ltd
Current assignee: Shenzhen City Grain Science And Technology Co Ltd
Priority date: 2016-12-06
Filing date: 2016-12-06
Publication date: 2019-03-26
Anticipated expiration: 2036-12-06
Also published as: CN106776983A

Abstract

一种搜索引擎优化装置，包括后台日志抓取单元、用户代理识别单元、后台日志分析单元及爬虫爬行分析优化单元，其中，所述后台日志抓取单元在服务器后台抓取用户的网站访问日志；所述用户代理识别单元根据用户所访问网站的用户代理识别出不同厂商的爬虫；所述后台日志分析单元根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析，进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期；所述爬虫爬行分析优化单元对所述爬虫爬行时间、爬虫爬行的路径及爬虫爬行的周期进行分析，根据分析结果优化搜索引擎。本发明还揭示了一种搜索引擎优化方法。

Description

搜索引擎优化装置和方法

技术领域

本发明涉及一种搜索引擎优化装置和方法。

背景技术

搜索引擎是一种根据一定的策略、运用特定的计算机程序搜集互联网上的信息，并在对信息进行组织和处理后，将处理后的信息显示给用户，以为用户提供检索服务的系统。目前，随着互联网的迅速发展，搜索引擎已成为互联网的重要应用之一。为了在互联网上数以百亿计的网页中寻找信息，人们往往求助于搜索引擎。通常搜索引擎优化的运营人员通过百度或谷歌统计等访问检测工具来识别搜索引擎的推广和优化结果。百度和谷歌统计等检测工具都是通过嵌入JavaScript脚本在页面中进行检测，所检测的都是实际访问用户，无法监测搜索引擎爬虫的爬行路径和结果。

发明内容

鉴于以上，有必要提供一种搜索引擎优化装置和方法，可对爬虫的爬行情况进行监控，从而提高搜索引擎优化效率。

一种搜索引擎优化装置，包括后台日志抓取单元、用户代理识别单元、后台日志分析单元及爬虫爬行分析优化单元，其中，所述后台日志抓取单元在服务器后台抓取用户的网站访问日志；所述用户代理识别单元根据用户所访问网站的用户代理识别出不同厂商的爬虫；所述后台日志分析单元根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析，进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期；所述爬虫爬行分析优化单元对所述爬虫爬行时间、爬虫爬行的路径及爬虫爬行的周期进行分析，根据分析结果优化搜索引擎。

一种采用上述搜索引擎优化装置进行优化的优化方法，包括以下步骤：在服务器后台抓取用户的网站访问日志；根据用户所访问网站的用户代理识别出不同厂商的爬虫；根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析，进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期；及分析所述爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期，根据分析结果优化搜索引擎。

相较于现有技术，本发明搜索引擎优化装置和方法通过所述爬行时间分析优化子单元对得出的爬虫爬行的时间进行分析并优化服务器的性能，所述爬行路径分析优化子单元对得出的爬虫爬行的路径进行分析并优化网站页面嵌套的路径，述爬行周期分析优化子单元对得出的爬虫爬行的周期进行分析并优化网站内容的更新时间和更新量，可对爬虫的爬行情况进行监控，从而提高搜索引擎优化效率。

进而，本发明通过上述对后台访问日志的监控和分析，可以更加清楚搜索引擎爬虫的爬行规则，更有利于针对爬虫的爬行规则特征进行搜索引擎优化，提升搜索引擎关键字的收录效果及网站排名。

附图说明

图1是本发明搜索引擎优化装置的一较佳实施方式的结构框图。

图2是图1中爬虫爬行分析优化单元的结构框图。

图3是本发明搜索引擎优化方法的一较佳实施方式的流程图。

图4是应用本发明搜索引擎优化装置和方法的电子设备的结构示意图。

具体实施方式

请参照图1，本发明一种搜索引擎优化装置500的较佳实施方式包括一后台日志抓取单元100、一用户代理识别单元200、一后台日志分析单元300及一爬虫爬行分析优化单元400。

所述后台日志抓取单元100用以在服务器后台抓取用户的网站访问日志。其中，网站访问日志的数据源来自于Nginx或apache等服务器的访问日志，通常当爬虫爬行网站页面时百度统计或谷歌统计等工具不会留下访问痕迹，但会在后台的访问日志留下一条访问记录。用户请求打开网页时向服务器发出网页请求信息。其中，以Http(Hyper TextTransfer Protocol，超文本传输协议)的方式传送所述网页请求信息，所述网页请求信息包括起始行、头域、头域结束空行及可选消息体。所述头域包括通用头、请求头、响应头及实体头。所述请求信息的起始行表示对于请求网站URL(Uniform Resource Locator，统一资源定位器) 的完成方法。所述请求头包含客户端向服务器发送的有关请求或客户端的附加信息。网站访问日志记录了网站服务器接收处理请求和运行错误时的各种原始信息文件，包括网络用户请求访问的网页地址URL。所述URL包括协议、域名、及请求地址。完整的URL唯一确定了所请求的资源，包括页面、内容模块、文件及多媒体资源等，通过提取URL中的信息可以得知网络用户访问了哪些网页内容，通过对全网网络访问日志中URL的分析，可以得知各种网页资源被访问的情况，如访问次数及访问频率等信息。

所述用户代理识别单元200用以根据用户所访问网站的用户代理识别出不同厂商的爬虫。其中，百度的爬虫所对应用户代理为Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)。

所述后台日志分析单元300用以根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析，进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期。

以利用上述搜索引擎优化装置500对指定的网页进行爬行为例进行说明，在爬虫开始的时候，需要给爬虫输送一个URL列表，这个列表中的URL地址便是爬虫的起始位置，爬虫从这些URL出发，开始了爬行，一直不断地发现新的URL，然后再根据策略爬行这些新发现的URL，如此永远反复下去。首先人工给定一个URL（如http://www.mysite.com）作为入口，从这里开始爬取。所述后台日志分析单元300从爬虫爬行URL的起始位置开始计时，直至爬虫爬行完URL列表中的所有链接地址结束所用的时间即为爬虫爬行的时间。所述后台日志分析单元300从爬虫爬行完一次URL列表开始计时，直至爬虫再次爬行该URL列表结束所用的时间即为爬虫爬行的周期。

接着用运行队列和完成队列来保存不同状态的链接，爬虫访问的是后台Html代码（Hyper Text Markup Language，超级文本标记语言），它分析出URL之后，对其进行过滤并将结果放入运行队列。然后线程从运行队列读取队首URL，如果存在，则继续执行，反之则停止爬取，每处理完一个URL，将其放入完成队列，防止重复访问。最后每次抓取网页之后分析其中的URL（URL是字符串形式，功能类似指针），将经过过滤的合法链接写入运行队列，等待提取。链接过滤处理涉及两个数组，第一个是必须存在的关键字组。分析链接时，链接中必须存在这个数组中所有关键字（例如关键字为http和index，则http://www.mysite.com/index符合要求，而http://www.mysite.com/html不符合要求）。另一个是不可存在的关键字组。分析链接时，链接中必须不存在这个数组中任何一个关键字（例如关键字为index，则http://www.mysite.com/index不符合要求）。所述后台日志分析单元300从URL中过滤出的所有符合要求的合法链接即为爬虫爬行的路径。

请继续参照图2，所述爬虫爬行分析优化单元400包括一爬行时间分析优化子单元401、一爬行路径分析优化子单元402及一爬行周期分析优化子单元403。所述爬行时间分析优化子单元401用以对得出的爬虫爬行的时间进行分析，从而对爬虫感兴趣的页面提前做好优化，提高爬虫爬行的成功率。所述爬行时间分析优化子单元401通过已知的网页或数据，采用网页算法对其有间接关系的网页或网站做出评价以提取重要的网页，进而据此优化服务器的性能。爬虫进入网站时会先访问网站服务器根目录下的爬虫协议，这个协议告诉爬虫网站中哪些内容希望被抓取，哪些内容不希望被抓取。所述爬行时间分析优化子单元401对爬虫感兴趣的页面，也即重要的页面提前做好优化，特别是对爬虫爬行时间较长的网页内容进行资料补充完善。其中，网页的重要程度判断有许多依据，如：链接的欢迎程度（通过反向链接判断）、链接的重要度（通过某种URL函数判断，如认为包含.com和home的URL重要度高于包含.cc和map的网页）、链接平均深度（通过距离种子的深度判断）、历史权重、网页质量等。本发明通过上述爬行时间分析优化子单元401的实施，使得爬虫可尽可能的提取最为重要的网页，提高了资源利用率和爬虫爬行的成功率。

爬虫通常会建立DNS（Domain Name System，域名系统）缓冲，以加快URL解析成IP（Internet Protocol，网络协议）地址的速度。所述爬行路径分析优化子单元402用以对得出的爬虫爬行的路径进行分析，通过DNS解析URL的主机IP地址连接相应服务器的端口并发送请求，通过服务器响应来获取相关页面内容，进而据此优化网站页面嵌套的路径，避免了爬虫合作时重复抓取同一页面。URL与IP之间的对应关系可能是一对一、一对多或多对一的。一个URL对应多个IP通常出现在访问量较大的域名，将一个URL与多个IP绑定以分流访问量，减小单个服务器的访问压力；一个IP对应多个URL则是出于节约服务器的目的，或是由于公网IP地址匮乏而产生的策略，当客户端对该IP进行访问时，先通过请求的协议头部来获取需要访问的URL，再将该请求通过反向代理或虚拟主机的方式转发到相应服务。由于这种情况，若用IP作为判断重复网页的标准，则可能因为URL与IP的一对多而出现重复获取，或因为URL与IP的多对一而出现遗漏。因此，爬虫在判断重复页面时主要以URL为判断标准，以保证服务的唯一性。本发明通过上述爬行路径分析优化子单元402的实施，使得爬虫可更快的爬行到用户期待的目标页面而不会重复抓取同一页面。

所述爬行周期分析优化子单元403用以对得出的爬虫爬行的周期进行分析，通过对网页的某些属性（如日期）加以判断，并与上次结果相比，如果相同则无需更新，进而据此优化网站内容的更新时间和更新量。爬虫应当尽量发掘新页面而减少重复页面的爬取，而决定对某个网页的更新频率涉及到时间更新控制。通常将这次抓取到的页面上的数据与上一次相比较，如果进行连续五次这样的比较都没有变化，则将以后爬取该网页的时间扩大，例如，为原来的2倍；如果进行连续五次这样的比较都有变化，则将以后爬取该网页的时间缩短，例如，为原来的1/2。本发明通过上述爬行周期分析优化子单元403的实施，使得爬虫重复抓取的老页面数减少，而发掘的新页面数增加，大大提高了爬虫爬行效率和网页更新效率。

进而，本发明通过上述各个单元的实施，完成了对后台访问日志的监控和分析，可以更加清楚搜索引擎爬虫的爬行规则，更有利于针对爬虫的爬行规则特征进行搜索引擎优化，提升搜索引擎关键字的收录效果及网站排名。

请参照图3，为采用上述搜索引擎优化装置进行优化的优化方法的流程图，该优化方法包括以下步骤：

S301：所述后台日志抓取单元100在服务器后台抓取用户的网站访问日志。网站访问日志的数据源来自于Nginx或apache等服务器的访问日志，通常当爬虫爬行网站页面时百度统计或谷歌统计等工具不会留下访问痕迹，但会在后台的访问日志留下一条访问记录。所述网站访问日志记录了网站服务器接收处理请求和运行错误时的各种原始信息文件，包括网络用户请求访问的网页地址URL。通过提取所述URL中的信息可以得知网络用户访问了哪些网页内容，通过对全网网络访问日志中URL的分析，可以得知各种网页资源被访问的情况，如访问次数及访问频率等信息。

S302：所述用户代理识别单元200根据用户所访问网站的用户代理识别出不同厂商的爬虫。例如，百度的爬虫UA即为Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)。所述用户代理，是一个特殊字符串头，简称UA（（User-Agent）。

S303：所述后台日志分析单元300根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析，进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期。所述后台日志分析单元300从爬虫爬行URL的起始位置开始计时，直至爬虫爬行完URL列表中的所有链接地址结束所用的时间即为爬虫爬行的时间；所述后台日志分析单元300从URL中过滤出的所有符合要求的合法链接即为爬虫爬行的路径；所述后台日志分析单元300从爬虫爬行完一次URL列表开始计时，直至爬虫再次爬行该URL列表结束所用的时间即为爬虫爬行的周期。

S304：所述爬行时间分析优化子单元401对得出的爬虫爬行的时间进行分析，从而对爬虫感兴趣的页面提前做好优化，提高爬虫爬行的成功率。

所述爬行时间分析优化子单元401根据所述的爬虫爬行的时间，通过已知的网页或数据，采用网页算法对其有间接关系的网页或网站做出评价以提取重要的网页，进而据此优化服务器的性能；爬虫进入网站时会先访问网站服务器根目录下的爬虫协议，这个协议告诉爬虫网站中哪些内容希望被抓取，哪些内容不希望被抓取；所述爬行时间分析优化子单元401对爬虫感兴趣的页面提前做好优化，特别是对爬虫爬行时间较长的网页内容进行资料补充完善。

S305：所述爬行路径分析优化子单元402对得出的爬虫爬行的路径进行分析，进而优化网站页面嵌套的路径。

所述爬行路径分析优化子单元402通过DNS解析URL的主机IP地址连接相应服务器的端口并发送请求，通过服务器响应来获取相关页面内容，进而据此优化网站页面嵌套的路径，避免爬虫合作时重复抓取同一页面，使得爬虫可更快的爬行到用户期待的目标页面。当客户端对该IP进行访问时，先通过请求的协议头部来获取需要访问的URL，再将该请求通过反向代理或虚拟主机的方式转发到相应服务。因此，爬虫在判断重复页面时主要以URL为判断标准，以保证服务的唯一性。

S306：所述爬行周期分析优化子单元403对得出的爬虫爬行的周期进行分析，进而优化网站内容的更新时间和更新量。

所述爬行周期分析优化子单元403通过对网页的某些属性（如日期）加以判断，并与上次结果相比，如果相同则无需更新，进而据此优化网站内容的更新时间和更新量。在本发明的实施例中，所述爬行周期分析优化子单元403将这次抓取到的页面上的数据与上一次相比较，如果进行连续五次这样的比较都没有变化，则将以后爬取该网页的时间扩大，例如，为原来的2倍；如果进行连续五次这样的比较都有变化，则将以后爬取该网页的时间缩短，例如为原来的1/2。

进而，本发明通过上述各个步骤的实施，完成了对后台访问日志的监控和分析，可以更加清楚搜索引擎爬虫的爬行规则，更有利于针对爬虫的爬行规则特征进行搜索引擎优化，提升搜索引擎关键字的收录效果及网站排名。

上述图1至图3详细介绍了本发明的搜索引擎优化装置和方法，下面结合第4图，对实现上述搜索引擎优化装置和方法的硬件系统架构进行介绍。

应该了解，该实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

请参照图4，是应用本发明搜索引擎优化装置和方法的电子设备的结构示意图。图中所示的电子设备10包括搜索引擎优化装置500、处理器12、存储设备14以及触摸屏16。应该了解，所述电子设备10也可以包括其他硬件或者软件，而并不限制于上述列举的部件。

所述电子设备10是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。所述电子设备可以是，但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸屏或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理（Personal DigitalAssistant，PDA）、游戏机、交互式网络电视（Internet Protocol Television，IPTV）、智能式穿戴式设备等。

所述处理器12又称中央处理器（CPU，Central Processing Unit），是一块超大规模的集成电路，是电子设备10的运算核心（Core）和控制核心（Control Unit）。处理器12的功能主要是解释程序指令以及处理软件中的数据。

所述存储设备14用于存储程序和各种数据，并在电子设备10运行过程中实现高速、自动地完成程序或数据的存取。所述存储设备14可以是电子设备10的外部存储设备和/或内部存储设备。进一步地，所述存储设备14可以是集成电路中没有实物形式的具有存储功能的电路，如随机存取存储设备（Random-Access Memory，RAM）等。或者，所述存储设备14也可以是具有实物形式的存储设备，如内存条、TF卡（Trans-flash Card）等等。

所述触摸屏16支持多点触控，能检测触控操作，侦测与所述触控操作相对应的触控信号并定位所述触控操作，以便于响应所述触控操作，例如开启应用程序、执行选项功能、移动图标位置等。

所述搜索引擎优化装置500可以包括多个由程序段所组成的功能模块（详见图1和图2）。所述搜索引擎优化装置500中的各个程序段的程序代码可以存储于所述存储设备14中，并由所述处理器12所执行，以执行对搜索引擎优化的各类操作（详见图1至图3中描述）。

其中，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用ASIC(Application Specific Integrated Circuit，专用集成电路)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM(Random-Access Memory，随机存取存储器)，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

对于本发明搜索引擎优化方法的较佳实施方式，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施方式，所涉及的动作和单元并不一定是本发明所必须的。

Claims

1.一种搜索引擎优化装置，其特征在于，所述优化装置包括后台日志抓取单元、用户代理识别单元、后台日志分析单元及爬虫爬行分析优化单元，其中，所述后台日志抓取单元在服务器后台抓取用户的网站访问日志；所述用户代理识别单元根据用户所访问网站的用户代理识别出不同厂商的爬虫；所述后台日志分析单元根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析，进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期；所述爬虫爬行分析优化单元对所述爬虫爬行时间、爬虫爬行的路径及爬虫爬行的周期进行分析，根据分析结果优化搜索引擎，所述爬虫爬行分析优化单元包括爬行时间分析优化子单元，用以分析爬虫爬行的时间，通过网站访问日志中用户访问过的已知的网页或数据，采用网页算法对已知的网页或数据有间接关系的网页或网站做出评价，以提取重要的网页并对所述重要的网页提前做好优化。

2.如权利要求1所述的搜索引擎优化装置，其特征在于，所述对所述重要的网页提前做好优化具体是指：对爬虫爬行时间较长的网页内容进行资料补充完善。

3.如权利要求1所述的搜索引擎优化装置，其特征在于，所述爬虫爬行分析优化单元还包括爬行路径分析优化子单元，用以分析爬虫爬行的路径，通过DNS解析URL的主机IP地址连接相应服务器的端口并发送请求，通过服务器响应来获取相关页面内容，从而优化网站页面嵌套的路径。

4.如权利要求1所述的搜索引擎优化装置，其特征在于，所述爬虫爬行分析优化单元还包括爬行周期分析优化子单元，用以分析爬虫爬行的周期，根据网页属性的变化优化网站内容的更新时间和更新量。

5.一种采用权利要求1至4中任意一项所述的搜索引擎优化装置进行优化的优化方法，包括以下步骤：在服务器后台抓取用户的网站访问日志；根据用户所访问网站的用户代理识别出不同厂商的爬虫；根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析，进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期；及分析所述爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期，根据分析结果优化搜索引擎，所述根据分析结果优化搜索引擎进一步包括：通过已知的网页或数据，采用网页算法对其有间接关系的网页或网站做出评价以提取重要的网页；对所述重要的网页提前做好优化。

6.如权利要求5所述的优化方法，其特征在于，所述对所述重要的网页提前做好优化进一步包括：对爬虫爬行时间较长的网页内容进行资料补充完善。

7.如权利要求5所述的优化方法，其特征在于，所述根据分析结果优化搜索引擎进一步包括：通过DNS解析URL的主机IP地址连接相应服务器的端口并发送请求；通过服务器响应来获取相关页面内容，进而据此优化网站页面嵌套的路径。

8.如权利要求5所述的优化方法，其特征在于，所述根据分析结果优化搜索引擎进一步包括：根据网页属性的变化优化网站内容的更新时间和更新量。