CN106776983B - 搜索引擎优化装置和方法 - Google Patents

搜索引擎优化装置和方法 Download PDF

Info

Publication number
CN106776983B
CN106776983B CN201611109371.9A CN201611109371A CN106776983B CN 106776983 B CN106776983 B CN 106776983B CN 201611109371 A CN201611109371 A CN 201611109371A CN 106776983 B CN106776983 B CN 106776983B
Authority
CN
China
Prior art keywords
crawler
optimization
analysis
creeps
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611109371.9A
Other languages
English (en)
Other versions
CN106776983A (zh
Inventor
沙飞
徐文章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen City Grain Science And Technology Co Ltd
Original Assignee
Shenzhen City Grain Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen City Grain Science And Technology Co Ltd filed Critical Shenzhen City Grain Science And Technology Co Ltd
Priority to CN201611109371.9A priority Critical patent/CN106776983B/zh
Publication of CN106776983A publication Critical patent/CN106776983A/zh
Application granted granted Critical
Publication of CN106776983B publication Critical patent/CN106776983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种搜索引擎优化装置,包括后台日志抓取单元、用户代理识别单元、后台日志分析单元及爬虫爬行分析优化单元,其中,所述后台日志抓取单元在服务器后台抓取用户的网站访问日志;所述用户代理识别单元根据用户所访问网站的用户代理识别出不同厂商的爬虫;所述后台日志分析单元根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析,进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期;所述爬虫爬行分析优化单元对所述爬虫爬行时间、爬虫爬行的路径及爬虫爬行的周期进行分析,根据分析结果优化搜索引擎。本发明还揭示了一种搜索引擎优化方法。

Description

搜索引擎优化装置和方法
技术领域
本发明涉及一种搜索引擎优化装置和方法。
背景技术
搜索引擎是一种根据一定的策略、运用特定的计算机程序搜集互联网上的信息,并在对信息进行组织和处理后,将处理后的信息显示给用户,以为用户提供检索服务的系统。目前,随着互联网的迅速发展,搜索引擎已成为互联网的重要应用之一。为了在互联网上数以百亿计的网页中寻找信息,人们往往求助于搜索引擎。通常搜索引擎优化的运营人员通过百度或谷歌统计等访问检测工具来识别搜索引擎的推广和优化结果。百度和谷歌统计等检测工具都是通过嵌入JavaScript脚本在页面中进行检测,所检测的都是实际访问用户,无法监测搜索引擎爬虫的爬行路径和结果。
发明内容
鉴于以上,有必要提供一种搜索引擎优化装置和方法,可对爬虫的爬行情况进行监控,从而提高搜索引擎优化效率。
一种搜索引擎优化装置,包括后台日志抓取单元、用户代理识别单元、后台日志分析单元及爬虫爬行分析优化单元,其中,所述后台日志抓取单元在服务器后台抓取用户的网站访问日志;所述用户代理识别单元根据用户所访问网站的用户代理识别出不同厂商的爬虫;所述后台日志分析单元根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析,进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期;所述爬虫爬行分析优化单元对所述爬虫爬行时间、爬虫爬行的路径及爬虫爬行的周期进行分析,根据分析结果优化搜索引擎。
一种采用上述搜索引擎优化装置进行优化的优化方法,包括以下步骤:在服务器后台抓取用户的网站访问日志;根据用户所访问网站的用户代理识别出不同厂商的爬虫;根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析,进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期;及分析所述爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期,根据分析结果优化搜索引擎。
相较于现有技术,本发明搜索引擎优化装置和方法通过所述爬行时间分析优化子单元对得出的爬虫爬行的时间进行分析并优化服务器的性能,所述爬行路径分析优化子单元对得出的爬虫爬行的路径进行分析并优化网站页面嵌套的路径,述爬行周期分析优化子单元对得出的爬虫爬行的周期进行分析并优化网站内容的更新时间和更新量,可对爬虫的爬行情况进行监控,从而提高搜索引擎优化效率。
进而,本发明通过上述对后台访问日志的监控和分析,可以更加清楚搜索引擎爬虫的爬行规则,更有利于针对爬虫的爬行规则特征进行搜索引擎优化,提升搜索引擎关键字的收录效果及网站排名。
附图说明
图1是本发明搜索引擎优化装置的一较佳实施方式的结构框图。
图2是图1中爬虫爬行分析优化单元的结构框图。
图3是本发明搜索引擎优化方法的一较佳实施方式的流程图。
图4是应用本发明搜索引擎优化装置和方法的电子设备的结构示意图。
具体实施方式
请参照图1,本发明一种搜索引擎优化装置500的较佳实施方式包括一后台日志抓取单元100、一用户代理识别单元200、一后台日志分析单元300及一爬虫爬行分析优化单元400。
所述后台日志抓取单元100用以在服务器后台抓取用户的网站访问日志。其中,网站访问日志的数据源来自于Nginx或apache等服务器的访问日志,通常当爬虫爬行网站页面时百度统计或谷歌统计等工具不会留下访问痕迹,但会在后台的访问日志留下一条访问记录。用户请求打开网页时向服务器发出网页请求信息。其中,以Http(Hyper TextTransfer Protocol,超文本传输协议)的方式传送所述网页请求信息,所述网页请求信息包括起始行、头域、头域结束空行及可选消息体。所述头域包括通用头、请求头、响应头及实体头。所述请求信息的起始行表示对于请求网站URL(Uniform Resource Locator,统一资源定位器) 的完成方法。所述请求头包含客户端向服务器发送的有关请求或客户端的附加信息。网站访问日志记录了网站服务器接收处理请求和运行错误时的各种原始信息文件,包括网络用户请求访问的网页地址URL。所述URL包括协议、域名、及请求地址。完整的URL唯一确定了所请求的资源,包括页面、内容模块、文件及多媒体资源等,通过提取URL中的信息可以得知网络用户访问了哪些网页内容,通过对全网网络访问日志中URL的分析,可以得知各种网页资源被访问的情况,如访问次数及访问频率等信息。
所述用户代理识别单元200用以根据用户所访问网站的用户代理识别出不同厂商的爬虫。其中,百度的爬虫所对应用户代理为Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)。
所述后台日志分析单元300用以根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析,进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期。
以利用上述搜索引擎优化装置500对指定的网页进行爬行为例进行说明,在爬虫开始的时候,需要给爬虫输送一个URL列表,这个列表中的URL地址便是爬虫的起始位置,爬虫从这些URL出发,开始了爬行,一直不断地发现新的URL,然后再根据策略爬行这些新发现的URL,如此永远反复下去。首先人工给定一个URL(如http://www.mysite.com)作为入口,从这里开始爬取。所述后台日志分析单元300从爬虫爬行URL的起始位置开始计时,直至爬虫爬行完URL列表中的所有链接地址结束所用的时间即为爬虫爬行的时间。所述后台日志分析单元300从爬虫爬行完一次URL列表开始计时,直至爬虫再次爬行该URL列表结束所用的时间即为爬虫爬行的周期。
接着用运行队列和完成队列来保存不同状态的链接,爬虫访问的是后台Html代码(Hyper Text Markup Language,超级文本标记语言),它分析出URL之后,对其进行过滤并将结果放入运行队列。然后线程从运行队列读取队首URL,如果存在,则继续执行,反之则停止爬取,每处理完一个URL,将其放入完成队列,防止重复访问。最后每次抓取网页之后分析其中的URL(URL是字符串形式,功能类似指针),将经过过滤的合法链接写入运行队列,等待提取。链接过滤处理涉及两个数组,第一个是必须存在的关键字组。分析链接时,链接中必须存在这个数组中所有关键字(例如关键字为http和index,则http://www.mysite.com/index符合要求,而http://www.mysite.com/html不符合要求)。另一个是不可存在的关键字组。分析链接时,链接中必须不存在这个数组中任何一个关键字(例如关键字为index,则http://www.mysite.com/index不符合要求)。所述后台日志分析单元300从URL中过滤出的所有符合要求的合法链接即为爬虫爬行的路径。
请继续参照图2,所述爬虫爬行分析优化单元400包括一爬行时间分析优化子单元401、一爬行路径分析优化子单元402及一爬行周期分析优化子单元403。所述爬行时间分析优化子单元401用以对得出的爬虫爬行的时间进行分析,从而对爬虫感兴趣的页面提前做好优化,提高爬虫爬行的成功率。所述爬行时间分析优化子单元401通过已知的网页或数据,采用网页算法对其有间接关系的网页或网站做出评价以提取重要的网页,进而据此优化服务器的性能。爬虫进入网站时会先访问网站服务器根目录下的爬虫协议,这个协议告诉爬虫网站中哪些内容希望被抓取,哪些内容不希望被抓取。所述爬行时间分析优化子单元401对爬虫感兴趣的页面,也即重要的页面提前做好优化,特别是对爬虫爬行时间较长的网页内容进行资料补充完善。其中,网页的重要程度判断有许多依据,如:链接的欢迎程度(通过反向链接判断)、链接的重要度(通过某种URL函数判断,如认为包含.com和home的URL重要度高于包含.cc和map的网页)、链接平均深度(通过距离种子的深度判断)、历史权重、网页质量等。本发明通过上述爬行时间分析优化子单元401的实施,使得爬虫可尽可能的提取最为重要的网页,提高了资源利用率和爬虫爬行的成功率。
爬虫通常会建立DNS(Domain Name System,域名系统)缓冲,以加快URL解析成IP(Internet Protocol,网络协议)地址的速度。所述爬行路径分析优化子单元402用以对得出的爬虫爬行的路径进行分析,通过DNS解析URL的主机IP地址连接相应服务器的端口并发送请求,通过服务器响应来获取相关页面内容,进而据此优化网站页面嵌套的路径,避免了爬虫合作时重复抓取同一页面。URL与IP之间的对应关系可能是一对一、一对多或多对一的。一个URL对应多个IP通常出现在访问量较大的域名,将一个URL与多个IP绑定以分流访问量,减小单个服务器的访问压力;一个IP对应多个URL则是出于节约服务器的目的,或是由于公网IP地址匮乏而产生的策略,当客户端对该IP进行访问时,先通过请求的协议头部来获取需要访问的URL,再将该请求通过反向代理或虚拟主机的方式转发到相应服务。由于这种情况,若用IP作为判断重复网页的标准,则可能因为URL与IP的一对多而出现重复获取,或因为URL与IP的多对一而出现遗漏。因此,爬虫在判断重复页面时主要以URL为判断标准,以保证服务的唯一性。本发明通过上述爬行路径分析优化子单元402的实施,使得爬虫可更快的爬行到用户期待的目标页面而不会重复抓取同一页面。
所述爬行周期分析优化子单元403用以对得出的爬虫爬行的周期进行分析,通过对网页的某些属性(如日期)加以判断,并与上次结果相比,如果相同则无需更新,进而据此优化网站内容的更新时间和更新量。爬虫应当尽量发掘新页面而减少重复页面的爬取,而决定对某个网页的更新频率涉及到时间更新控制。通常将这次抓取到的页面上的数据与上一次相比较,如果进行连续五次这样的比较都没有变化,则将以后爬取该网页的时间扩大,例如,为原来的2倍;如果进行连续五次这样的比较都有变化,则将以后爬取该网页的时间缩短,例如,为原来的1/2。本发明通过上述爬行周期分析优化子单元403的实施,使得爬虫重复抓取的老页面数减少,而发掘的新页面数增加,大大提高了爬虫爬行效率和网页更新效率。
进而,本发明通过上述各个单元的实施,完成了对后台访问日志的监控和分析,可以更加清楚搜索引擎爬虫的爬行规则,更有利于针对爬虫的爬行规则特征进行搜索引擎优化,提升搜索引擎关键字的收录效果及网站排名。
请参照图3,为采用上述搜索引擎优化装置进行优化的优化方法的流程图,该优化方法包括以下步骤:
S301:所述后台日志抓取单元100在服务器后台抓取用户的网站访问日志。网站访问日志的数据源来自于Nginx或apache等服务器的访问日志,通常当爬虫爬行网站页面时百度统计或谷歌统计等工具不会留下访问痕迹,但会在后台的访问日志留下一条访问记录。所述网站访问日志记录了网站服务器接收处理请求和运行错误时的各种原始信息文件,包括网络用户请求访问的网页地址URL。通过提取所述URL中的信息可以得知网络用户访问了哪些网页内容,通过对全网网络访问日志中URL的分析,可以得知各种网页资源被访问的情况,如访问次数及访问频率等信息。
S302:所述用户代理识别单元200根据用户所访问网站的用户代理识别出不同厂商的爬虫。例如,百度的爬虫UA即为Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)。所述用户代理,是一个特殊字符串头,简称UA((User-Agent)。
S303:所述后台日志分析单元300根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析,进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期。所述后台日志分析单元300从爬虫爬行URL的起始位置开始计时,直至爬虫爬行完URL列表中的所有链接地址结束所用的时间即为爬虫爬行的时间;所述后台日志分析单元300从URL中过滤出的所有符合要求的合法链接即为爬虫爬行的路径;所述后台日志分析单元300从爬虫爬行完一次URL列表开始计时,直至爬虫再次爬行该URL列表结束所用的时间即为爬虫爬行的周期。
S304:所述爬行时间分析优化子单元401对得出的爬虫爬行的时间进行分析,从而对爬虫感兴趣的页面提前做好优化,提高爬虫爬行的成功率。
所述爬行时间分析优化子单元401根据所述的爬虫爬行的时间,通过已知的网页或数据,采用网页算法对其有间接关系的网页或网站做出评价以提取重要的网页,进而据此优化服务器的性能;爬虫进入网站时会先访问网站服务器根目录下的爬虫协议,这个协议告诉爬虫网站中哪些内容希望被抓取,哪些内容不希望被抓取;所述爬行时间分析优化子单元401对爬虫感兴趣的页面提前做好优化,特别是对爬虫爬行时间较长的网页内容进行资料补充完善。
S305:所述爬行路径分析优化子单元402对得出的爬虫爬行的路径进行分析,进而优化网站页面嵌套的路径。
所述爬行路径分析优化子单元402通过DNS解析URL的主机IP地址连接相应服务器的端口并发送请求,通过服务器响应来获取相关页面内容,进而据此优化网站页面嵌套的路径,避免爬虫合作时重复抓取同一页面,使得爬虫可更快的爬行到用户期待的目标页面。当客户端对该IP进行访问时,先通过请求的协议头部来获取需要访问的URL,再将该请求通过反向代理或虚拟主机的方式转发到相应服务。因此,爬虫在判断重复页面时主要以URL为判断标准,以保证服务的唯一性。
S306:所述爬行周期分析优化子单元403对得出的爬虫爬行的周期进行分析,进而优化网站内容的更新时间和更新量。
所述爬行周期分析优化子单元403通过对网页的某些属性(如日期)加以判断,并与上次结果相比,如果相同则无需更新,进而据此优化网站内容的更新时间和更新量。在本发明的实施例中,所述爬行周期分析优化子单元403将这次抓取到的页面上的数据与上一次相比较,如果进行连续五次这样的比较都没有变化,则将以后爬取该网页的时间扩大,例如,为原来的2倍;如果进行连续五次这样的比较都有变化,则将以后爬取该网页的时间缩短,例如为原来的1/2。
进而,本发明通过上述各个步骤的实施,完成了对后台访问日志的监控和分析,可以更加清楚搜索引擎爬虫的爬行规则,更有利于针对爬虫的爬行规则特征进行搜索引擎优化,提升搜索引擎关键字的收录效果及网站排名。
上述图1至图3详细介绍了本发明的搜索引擎优化装置和方法,下面结合第4图,对实现上述搜索引擎优化装置和方法的硬件系统架构进行介绍。
应该了解,该实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
请参照图4,是应用本发明搜索引擎优化装置和方法的电子设备的结构示意图。图中所示的电子设备10包括搜索引擎优化装置500、处理器12、存储设备14以及触摸屏16。应该了解,所述电子设备10也可以包括其他硬件或者软件,而并不限制于上述列举的部件。
所述电子设备10是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。所述电子设备可以是,但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸屏或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal DigitalAssistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述处理器12又称中央处理器(CPU,Central Processing Unit),是一块超大规模的集成电路,是电子设备10的运算核心(Core)和控制核心(Control Unit)。处理器12的功能主要是解释程序指令以及处理软件中的数据。
所述存储设备14用于存储程序和各种数据,并在电子设备10运行过程中实现高速、自动地完成程序或数据的存取。所述存储设备14可以是电子设备10的外部存储设备和/或内部存储设备。进一步地,所述存储设备14可以是集成电路中没有实物形式的具有存储功能的电路,如随机存取存储设备(Random-Access Memory,RAM)等。或者,所述存储设备14也可以是具有实物形式的存储设备,如内存条、TF卡(Trans-flash Card)等等。
所述触摸屏16支持多点触控,能检测触控操作,侦测与所述触控操作相对应的触控信号并定位所述触控操作,以便于响应所述触控操作,例如开启应用程序、执行选项功能、移动图标位置等。
所述搜索引擎优化装置500可以包括多个由程序段所组成的功能模块(详见图1和图2)。所述搜索引擎优化装置500中的各个程序段的程序代码可以存储于所述存储设备14中,并由所述处理器12所执行,以执行对搜索引擎优化的各类操作(详见图1至图3中描述)。
其中,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用ASIC(Application Specific Integrated Circuit,专用集成电路)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM(Random-Access Memory,随机存取存储器),磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
对于本发明搜索引擎优化方法的较佳实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施方式,所涉及的动作和单元并不一定是本发明所必须的。

Claims (8)

1.一种搜索引擎优化装置,其特征在于,所述优化装置包括后台日志抓取单元、用户代理识别单元、后台日志分析单元及爬虫爬行分析优化单元,其中,所述后台日志抓取单元在服务器后台抓取用户的网站访问日志;所述用户代理识别单元根据用户所访问网站的用户代理识别出不同厂商的爬虫;所述后台日志分析单元根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析,进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期;所述爬虫爬行分析优化单元对所述爬虫爬行时间、爬虫爬行的路径及爬虫爬行的周期进行分析,根据分析结果优化搜索引擎,所述爬虫爬行分析优化单元包括爬行时间分析优化子单元,用以分析爬虫爬行的时间,通过网站访问日志中用户访问过的已知的网页或数据,采用网页算法对已知的网页或数据有间接关系的网页或网站做出评价,以提取重要的网页并对所述重要的网页提前做好优化。
2.如权利要求1所述的搜索引擎优化装置,其特征在于,所述对所述重要的网页提前做好优化具体是指:对爬虫爬行时间较长的网页内容进行资料补充完善。
3.如权利要求1所述的搜索引擎优化装置,其特征在于,所述爬虫爬行分析优化单元还包括爬行路径分析优化子单元,用以分析爬虫爬行的路径,通过DNS解析URL的主机IP地址连接相应服务器的端口并发送请求,通过服务器响应来获取相关页面内容,从而优化网站页面嵌套的路径。
4.如权利要求1所述的搜索引擎优化装置,其特征在于,所述爬虫爬行分析优化单元还包括爬行周期分析优化子单元,用以分析爬虫爬行的周期,根据网页属性的变化优化网站内容的更新时间和更新量。
5.一种采用权利要求1至4中任意一项所述的搜索引擎优化装置进行优化的优化方法,包括以下步骤:在服务器后台抓取用户的网站访问日志;根据用户所访问网站的用户代理识别出不同厂商的爬虫;根据识别出的相应厂商的爬虫对抓取的网站访问日志进行分析,进而得出爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期;及分析所述爬虫爬行的时间、爬虫爬行的路径及爬虫爬行的周期,根据分析结果优化搜索引擎,所述根据分析结果优化搜索引擎进一步包括:通过已知的网页或数据,采用网页算法对其有间接关系的网页或网站做出评价以提取重要的网页;对所述重要的网页提前做好优化。
6.如权利要求5所述的优化方法,其特征在于,所述对所述重要的网页提前做好优化进一步包括:对爬虫爬行时间较长的网页内容进行资料补充完善。
7.如权利要求5所述的优化方法,其特征在于,所述根据分析结果优化搜索引擎进一步包括:通过DNS解析URL的主机IP地址连接相应服务器的端口并发送请求;通过服务器响应来获取相关页面内容,进而据此优化网站页面嵌套的路径。
8.如权利要求5所述的优化方法,其特征在于,所述根据分析结果优化搜索引擎进一步包括:根据网页属性的变化优化网站内容的更新时间和更新量。
CN201611109371.9A 2016-12-06 2016-12-06 搜索引擎优化装置和方法 Active CN106776983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611109371.9A CN106776983B (zh) 2016-12-06 2016-12-06 搜索引擎优化装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611109371.9A CN106776983B (zh) 2016-12-06 2016-12-06 搜索引擎优化装置和方法

Publications (2)

Publication Number Publication Date
CN106776983A CN106776983A (zh) 2017-05-31
CN106776983B true CN106776983B (zh) 2019-03-26

Family

ID=58879144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611109371.9A Active CN106776983B (zh) 2016-12-06 2016-12-06 搜索引擎优化装置和方法

Country Status (1)

Country Link
CN (1) CN106776983B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108616525A (zh) * 2018-04-16 2018-10-02 深圳市小满科技有限公司 网站访问方法和装置、电子设备及存储介质
CN108551452B (zh) * 2018-04-18 2021-01-08 平安科技(深圳)有限公司 网络爬虫方法、终端及存储介质
CN108777687B (zh) * 2018-06-05 2020-04-14 掌阅科技股份有限公司 基于用户行为画像的爬虫拦截方法、电子设备、存储介质
CN111125489B (zh) * 2019-12-25 2023-05-26 北京锐安科技有限公司 一种数据抓取方法、装置、设备及存储介质
CN111475764B (zh) * 2020-06-29 2020-10-02 平安国际智慧城市科技股份有限公司 搜索引擎优化方法、装置、终端及存储介质
CN113626673A (zh) * 2021-07-30 2021-11-09 彩讯科技股份有限公司 一种页面数据采集方法、系统、终端及存储介质
CN114726616A (zh) * 2022-04-07 2022-07-08 京东科技信息技术有限公司 一种网站访问请求的处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716243A (zh) * 2004-06-30 2006-01-04 马·研究公司 利用网络爬行者程序在网上进行价格收集的方法
CN101847161A (zh) * 2010-06-02 2010-09-29 苏州搜图网络技术有限公司 搜索网页的方法和建立数据库的方法
CN104462333A (zh) * 2014-12-03 2015-03-25 上海耀肖电子商务有限公司 购物搜索推荐与告警方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090976B (zh) * 2014-07-21 2017-06-23 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置
CN105930442B (zh) * 2016-04-19 2019-06-18 广州天趣网络科技有限公司 一种基于统计计算的网站搜索引擎优化方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716243A (zh) * 2004-06-30 2006-01-04 马·研究公司 利用网络爬行者程序在网上进行价格收集的方法
CN101847161A (zh) * 2010-06-02 2010-09-29 苏州搜图网络技术有限公司 搜索网页的方法和建立数据库的方法
CN104462333A (zh) * 2014-12-03 2015-03-25 上海耀肖电子商务有限公司 购物搜索推荐与告警方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《SEO优化要学会分析IIS日志》;-;《http://www.360doc7.net/wxarticlenew/206107900.html?from=singlemessage》;20120424;网页全文
《从IIS日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容》;-;《https://wk.baidu.com/view/2eb1c02fa5e9856a56126093?pcf=2&from=singlemessage#1》;20130104;网页全文
《大型网站优化策略》;星箭;《http://www.semcmd.com/seo-ziliao/194/?from=singlemessage》;20100713;网页全文

Also Published As

Publication number Publication date
CN106776983A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106776983B (zh) 搜索引擎优化装置和方法
US10454969B2 (en) Automatic generation of low-interaction honeypots
CN106503134B (zh) 浏览器跳转至应用程序的数据同步方法及装置
US9680856B2 (en) System and methods for scalably identifying and characterizing structural differences between document object models
CN104125209B (zh) 恶意网址提示方法和路由器
CN109033115B (zh) 一种动态网页爬虫系统
RU2383920C2 (ru) Система и способ для клиент-обоснованного поиска веб-агентом
US8424004B2 (en) High performance script behavior detection through browser shimming
US8732857B2 (en) Client-side access control of electronic content
CN102075570B (zh) 一种基于关键字的http报文缓存机制的实现方法
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
Chitraa et al. A novel technique for sessions identification in web usage mining preprocessing
US20150046426A1 (en) Method and/or system for searching network content
WO2021114454A1 (zh) 一种检测爬虫请求的方法和装置
CN109474640B (zh) 恶意爬虫检测方法、装置、电子设备及存储介质
JP2020515944A (ja) インターネットコンテンツ内の要素の直接的なブラウザ内のマークアップのためのシステムおよび方法
KR102222287B1 (ko) 은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템
WO2014059183A2 (en) Methods and automated systems for testing, optimization, and analysis that preserve continuity in identities and status of users who access remote information from different contexts
CN105550206B (zh) 结构化查询语句的版本控制方法及装置
CN102158365A (zh) 一种网络日志挖掘中的用户聚类方法及系统
RU2638001C1 (ru) Система и способ выделения части резерва производительности антивирусного сервера для выполнения антивирусной проверки веб-страницы
CN110555146A (zh) 一种网络爬虫伪装数据的生成方法及系统
CN110321503A (zh) 一种web组件缓存方法、装置及电子设备
US9336316B2 (en) Image URL-based junk detection
US10216852B1 (en) Indexing access limited native applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant