CN103605735B - 网站数据分析方法及装置 - Google Patents

网站数据分析方法及装置 Download PDF

Info

Publication number
CN103605735B
CN103605735B CN201310585758.1A CN201310585758A CN103605735B CN 103605735 B CN103605735 B CN 103605735B CN 201310585758 A CN201310585758 A CN 201310585758A CN 103605735 B CN103605735 B CN 103605735B
Authority
CN
China
Prior art keywords
data
website
property parameters
analyzing
running status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310585758.1A
Other languages
English (en)
Other versions
CN103605735A (zh
Inventor
姜世豪
王晓群
杨韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201310585758.1A priority Critical patent/CN103605735B/zh
Publication of CN103605735A publication Critical patent/CN103605735A/zh
Application granted granted Critical
Publication of CN103605735B publication Critical patent/CN103605735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网站数据分析方法及装置。其中,该方法包括:获取与网站访问分析请求对应的网站访问数据,其中,网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,网站访问分析请求中携带网站运行状态;根据网站运行状态确定属性参数;根据属性参数查询对应的分析数据;将网站运行状态、属性参数及分析数据保存在数据表中,生成分析报告。采用本发明,解决了现有技术中由于无法获取完整数据导致对网站出现的问题分析不全面、不准确的问题,实现了采集完整数据并对网站的问题进行完整准确的分析,实现高效的网站监测和优化的效果。

Description

网站数据分析方法及装置
技术领域
本发明涉及数据分析领域,具体而言,涉及一种网站数据分析方法及装置。
背景技术
为了维护网站正常运营,并且保持良好的发展趋势,现有技术中往往需要对网站数据进行分析,通过网站分析可以找到网站出现的问题,以实现新的需求和目标。目前网站公开数据分析的技术思想是依据网站出现的问题或网站需求的改变,单方面考虑搜索引擎数据或考虑模拟蜘蛛抓取数据,取出认为相关的数据进行定性分析,找出数据变化趋势的异常解决网站出现的问题、设定数据的改变思路实现网站需求。并且,目前的网站的分析方法大多属于定性分析,大多凭借已有经验根据数据变化趋势来解决问题,可是网站问题的出现受众多因素影响,单方面考虑搜索引擎数据或者模拟蜘蛛抓取数据,也即使用不完整的数据往往不能找出问题出现的根本原因,或者实现既定目标。
由上述分析可知,现有技术中分析网站出现问题的方法分析结果不全面、不准确,从而无法根据不准确的问题分析结果找到问题发生的原因。
针对现有技术中由于无法获取完整数据导致对网站出现的问题分析不全面、不准确的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中由于无法获取完整数据导致对网站出现的问题分析不全面、不准确的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种网站数据分析方法及装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网站数据分析方法,该方法包括:获取与网站访问分析请求对应的网站访问数据,其中,网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,网站访问分析请求中携带网站运行状态;根据网站运行状态确定属性参数;根据属性参数查询对应的分析数据;将网站运行状态、属性参数及分析数据保存在数据表中,生成分析报告。
进一步地,获取与网站访问分析请求对应的网站访问数据的步骤包括:从URL数据表中读取与网站访问分析请求对应的URL;按照URL获取对应的通过搜索引擎获取的第一数据和通过模拟蜘蛛抓取的第二数据。
进一步地,根据网站运行状态确定属性参数的步骤包括:根据网站运行状态从预设方案表中查询得到状态类型;根据状态类型确定网站运行状态的属性参数。
进一步地,根据属性参数查询获取对应的分析数据的步骤包括:从预设方案表中获取预设状态公式;按照预设状态公式计算属性参数的当前状态数据;从预设方案表中查询与当前状态数据对应的分析数据。
进一步地,在获取与网站访问分析请求对应的网站访问数据之前,网站数据分析方法还包括:获取网站访问分析请求;判断网站访问分析请求中是否包含对关联网站的分析请求;在网站访问分析请求中包含对关联网站的分析请求的情况下,获取关联网站的关联网站数据;将第一数据、第二数据和关联网站数据作为网站访问数据。
为了实现上述目的,根据本发明的一个方面,提供了一种网站数据分析装置,该装置包括:数据获取模块,用于获取与网站访问分析请求对应的网站访问数据,其中,网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,网站访问分析请求中携带网站运行状态;参数获取模块,用于根据网站运行状态确定属性参数;查询模块,用于根据属性参数查询对应的分析数据;保存模块,用于将网站运行状态、属性参数及分析数据保存在数据表中,生成分析报告。
进一步地,数据获取模块包括:读取模块,用于从URL数据表中读取与网站访问分析请求对应的URL;数据获取子模块,用于按照URL获取对应的通过搜索引擎获取的第一数据和通过模拟蜘蛛抓取的第二数据。
进一步地,参数获取模块包括:类型查询模块,用于根据网站运行状态从预设方案表中查询得到状态类型;参数获取子模块,用于根据状态类型确定网站运行状态的属性参数。
进一步地,查询模块包括:公式获取模块,用于从预设方案表中获取预设状态公式;计算模块,用于按照预设状态公式计算属性参数的当前状态数据;查询子模块,用于从预设方案表中查询与当前状态数据对应的分析数据。
进一步地,网站数据分析装置还包括:请求获取模块,用于获取网站访问分析请求;判断模块,用于判断网站访问分析请求中是否包含对关联网站的分析请求;关联数据获取模块,用于在网站访问分析请求中包含对关联网站的分析请求的情况下,获取关联网站的关联网站数据;确定模块,用于将第一数据、第二数据和关联网站数据作为网站访问数据。
采用本发明,获取与网站访问分析请求对应的网站访问数据,其中,网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,网站访问分析请求中携带网站运行状态,在根据网站运行状态确定属性参数之后,根据属性参数查询分析数据,然后将网站运行状态、状态来源数据以及分析数据保存在数据表中,生成分析报告。采用该方案,可以将搜索引擎数据和模拟蜘蛛抓取数据共同运用到网站访问分析中,从而可以对网站进行全面的、定量和定性的数据分析,解决了现有技术中由于无法获取完整数据导致对网站出现的问题分析不全面、不准确的问题,实现了采集完整数据并对网站的问题进行完整准确的分析,实现高效的网站监测和优化的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网站数据分析装置示意图;
图2是根据本发明实施例的网站数据分析方法的流程图;
图3是根据本发明实施例的一种可选的网站数据分析方法的流程图;
图4是根据本发明实施例的解决方案资料库的示意图;以及
图5是根据本发明实施例的分析结果汇总的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1是根据本发明实施例的网站数据分析装置示意图,如图1所示该装置可以包括:数据获取模块10、参数获取模块30、查询模块50以及保存模块70。
其中,数据获取模块10,用于获取与网站访问分析请求对应的网站访问数据,其中,网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,网站访问分析请求中携带网站运行状态。
参数获取模块30,用于根据网站运行状态确定属性参数。
查询模块50,用于根据属性参数查询对应的分析数据。
保存模块70,用于将网站运行状态、属性参数及分析数据保存在数据表中,生成分析报告。
采用本发明,通过数据获取模块获取与网站访问分析请求对应的网站访问数据,其中,网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,网站访问分析请求中携带网站运行状态,在通过参数获取模块根据网站运行状态确定属性参数之后,查询模块根据属性参数查询分析数据,然后通过保存模块将网站运行状态、状态来源数据以及分析数据保存在数据表中,生成分析报告。采用该方案,可以将搜索引擎数据和模拟蜘蛛抓取数据共同运用到网站访问分析中,从而可以对网站进行全面的、定量和定性的数据分析,解决了现有技术中由于无法获取完整数据导致对网站出现的问题分析不全面、不准确的问题,实现了采集完整数据并对网站的问题进行完整准确的分析,实现高效的网站监测和优化的效果。
根据本发明的上述实施例,数据获取模块10可以包括:读取模块,用于从URL数据表中读取与网站访问分析请求对应的URL;数据获取子模块,用于按照URL获取对应的通过搜索引擎获取的第一数据和通过模拟蜘蛛抓取的第二数据。
在上述实施例中,网站运行状态可以是网站当前存在的问题,也可以是网站可能存在的 问题,还可以是用户需要网站将来的运行模式。具体地,网站访问分析请求可以是用户在发现网站问题后分析网站问题的来源或者原因请求(如关键词排名不好、收录不理想等问题),也可以是在网站运行正常的情况下,请求分析网站是否存在漏洞或者可能发生的访问问题的请求等等。
通常来说,网站公开数据中可用到的分析维度包括两大类:从搜索引擎中获取的第一数据以及模拟搜索引擎蜘蛛抓取的第二数据。比如,网站页面是否是收录、关键词的排名等属于从搜索引擎中获取的第一数据;链接锚文本、关键词密度等属于模拟搜索引擎蜘蛛抓取的网站数据。
在本发明的上述实施例中,根据URL(即网页地址)将第一数据和第二数据进行整合得到网站访问数据,将两类数据之间打通渠道,从而可以对网站进行全面的、定量与定性相结合的数据分析,实现高效的网站监测和优化。
在本发明的上述实施例中,参数获取模块30可以包括:类型查询模块,用于根据网站运行状态从预设方案表中查询得到状态类型;参数获取子模块,用于根据状态类型确定网站运行状态的属性参数。
具体地,上述实施例中的查询模块50可以包括:公式获取模块,用于从预设方案表中获取预设状态公式;计算模块,用于按照预设状态公式计算属性参数的当前状态数据;查询子模块,用于从预设方案表中查询与当前状态数据对应的分析数据。
根据本发明的上述实施例,网站数据分析装置还可以包括:请求获取模块,用于获取网站访问分析请求;判断模块,用于判断网站访问分析请求中是否包含对关联网站的分析请求;关联数据获取模块,用于在网站访问分析请求中包含对关联网站的分析请求的情况下,获取关联网站的关联网站数据;确定模块,用于将第一数据、第二数据和关联网站数据作为网站访问数据。
具体地,可以将用户请求分析的网站的所有页面或主要页面获取的网站访问数据保存在URL数据表(URL_List)中,在获取网站分析请求中的网站运行状态之后,确定需要进行问题分析的页面URL后,从预设方案表(Solution_List)中查询问题(即网站运行状态)对应的问题类型(即上述实施例中的状态类型,如:网站基础数据、收录问题以及关键词排名问题;更具体地获取网站运行分析的具体类型,如:网站平均页面文本数量对页面权重影响、网站收录率以及页面关键词数量对某关键词排名影响分析),在确定状态类型之后,进一步确定需要分析问题的属性参数(如:网站平均页面文本数量对页面权重影响涉及的属性参数可以包括:编号B3、编号C1以及编号C3对应的属性参数),在确定属性参数之后,从URL数据表中获取对应的页面URL的性能参数,然后可以根据属性数据查询、诊断获取对应的分析数据,从而找到网站存在的问题和解决方案。
在上述装置实施例中的模块均可以使用方法实施例中的方法实现。
图2是根据本发明实施例的网站数据分析方法的流程图,如图2所示该方法包括如下步骤:
步骤S102,获取与网站访问分析请求对应的网站访问数据,其中,网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,网站访问分析请求中携带网站运行状态。
步骤S104,根据网站运行状态确定属性参数。
步骤S106,根据属性参数查询对应的分析数据。
步骤S108,将网站运行状态、属性参数及分析数据保存在数据表中,生成分析报告。
采用本发明,获取与网站访问分析请求对应的网站访问数据,其中,网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,网站访问分析请求中携带网站运行状态,在根据网站运行状态确定属性参数之后,根据属性参数查询分析数据,然后将网站运行状态、状态来源数据以及分析数据保存在数据表中,生成分析报告。采用该方案,可以将搜索引擎数据和模拟蜘蛛抓取数据共同运用到网站访问分析中,从而可以对网站进行全面的、定量和定性的数据分析,解决了现有技术中由于无法获取完整数据导致对网站出现的问题分析不全面、不准确的问题,实现了采集完整数据并对网站的问题进行完整准确的分析,实现高效的网站监测和优化的效果。
在上述实施例中,在获取搜索引擎数据和模拟蜘蛛抓取数据之后,通过这两类数据的整合,实现了通过定量分析的方法,解决网站在搜索优化中遇到的问题,达成网站优化目标。
在本发明提供的一种优选的实施例中,可以在获取网站访问分析请求之后,先确定属性参数,然后再获取网站访问数据,也即步骤S102可以在步骤S104之后执行,这样可以少处理很多数据,从而可以加快处理速度。
在上述实施例中,网站运行状态可以是网站当前存在的问题,也可以是网站可能存在的问题,还可以是用户需要网站将来的运行模式。具体地,网站访问分析请求可以是用户在发现网站问题后分析网站问题的来源或者原因请求(如关键词排名不好、收录不理想等问题),也可以是在网站运行正常的情况下,请求分析网站是否存在漏洞或者可能发生的访问问题的请求等等。
具体地,获取与网站访问分析请求对应的网站访问数据的步骤可以包括:从URL数据表中读取与网站访问分析请求对应的URL;按照URL获取对应的通过搜索引擎获取的第一数据和通过模拟蜘蛛抓取的第二数据。
通常来说,网站公开数据中可用到的分析维度包括两大类:从搜索引擎中获取的第一数据以及模拟搜索引擎蜘蛛抓取的第二数据。比如,网站页面是否是收录、关键词的排名等属于从搜索引擎中获取的第一数据;链接锚文本、关键词密度等属于模拟搜索引擎蜘蛛抓取的网站数据。
在本发明的上述实施例中,根据URL(即网页地址)将第一数据和第二数据进行整合得到网站访问数据,将两类数据之间打通渠道,从而可以对网站进行全面的、定量与定性相结合的数据分析,实现高效的网站监测和优化。
在本发明的上述实施例中,根据网站运行状态确定属性参数的步骤可以包括:根据网站 运行状态从预设方案表中查询得到状态类型;根据状态类型确定网站运行状态的属性参数。
具体地,在确定与网站运行状态对应的属性参数之后,可以检测预设类目分类表中是否存在属性参数;在预设类目分类表中不存在属性参数的情况下,将属性参数添加到预设类目分类表中。通过该实施例可以不断地完善预设类目分类表,从而使得预设类目分类表中的数据分类更加完善和准确,从而可以获取更精准的分析结果。
具体地,可以将用户请求分析的网站的所有页面或主要页面获取的网站访问数据保存在URL数据表(URL_List)中,在获取网站分析请求中的网站运行状态之后,确定需要进行问题分析的页面URL后,从预设方案表(Solution_List)中查询问题(即网站运行状态)对应的问题类型(即上述实施例中的状态类型,如:网站基础数据、收录问题以及关键词排名问题;更具体地获取网站运行分析的具体类型,如:网站平均页面文本数量对页面权重影响、网站收录率以及页面关键词数量对某关键词排名影响分析),在确定状态类型之后,进一步确定需要分析问题的属性参数(如:网站平均页面文本数量对页面权重影响涉及的属性参数可以包括:编号B3、编号C1以及编号C3对应的属性参数),在确定属性参数之后,从URL数据表中获取对应的页面URL的性能参数,然后可以根据属性数据查询、诊断获取对应的分析数据,从而找到网站存在的问题和解决方案。
根据本发明的上述实施例,根据属性参数查询获取对应的分析数据的步骤可以包括:从预设方案表中获取预设状态公式;按照预设状态公式计算属性参数的当前状态数据;从预设方案表中查询与当前状态数据对应的分析数据。
在本发明的上述实施例中,在获取与网站访问分析请求对应的网站访问数据之前,方法还包括:获取网站访问分析请求;判断网站访问分析请求中是否包含对关联网站的分析请求;在网站访问分析请求中包含对关联网站的分析请求的情况下,获取关联网站的关联网站数据;将第一数据、第二数据和关联网站数据作为网站访问数据。
下面结合图3详细介绍本发明:
步骤S201:获取分析对象的网站访问数据。
具体地,可以预先建立URL数据(URL_List1),可以将分析对象的URL保存在第一URL表中,该表中可以包括页面级别、页面编号以及URL。
步骤S201:判断是否需要分析关联对象。
其中,在需要分析关联对象的情况下,执行步骤S203;在不需要分析关联对象的情况下,执行步骤S204。具体地,该步骤可以通过检测网站访问分析请求中是否还具有对关联对象的分析请求来实现,其中,分析对象可以为用户自己的网站,关联对象可以是分析对象的竞争对手的网站。
步骤S203:获取关联对象的网站访问数据。
具体地,建立URL_List2,可以将关联对象的URL保存在第一URL表中,该表中可以包括页面级别、页面编号以及URL。在完成该步骤之后可以将所有对象的数据保存在上述实施例中 的URL数据表(URL_List)中。
如表1所示,该表为URL_List的示例表。
表1
如表1所示,URL_List中可以存储网站或竞争对手网站URL数据,可以是问题分析页面的URL,也可以是主要页面URL或全站页面URL。
步骤S204:从URL_List中提取URL。
具体地,根据网站运行状态获取URL,也即上述实施例中涉及的出现问题的页面的URL。
步骤S205:分析网站运行状态中属于第一数据的第一属性参数。
步骤S206:检测预设项目分类表中是否存在第一属性参数。
其中,在预设项目分类表中存在第一属性参数的情况下,执行步骤S207;在预设项目分类表中不存在第一属性参数的情况下,执行步骤S210。
步骤S207:分析网站运行状态中属于第二数据的第二属性参数。
步骤S208:检测预设项目分类表中是否存在第二属性参数。
其中,在预设项目分类表中存在第二属性参数的情况下,执行步骤S209;在预设项目分类表中不存在第一属性参数的情况下,执行步骤S210。
具体地,分析问题(即上述实施例中的网站运行状态)中涉及的有关搜索引擎数据的第一属性参数或有关模拟蜘蛛抓取数据的第二属性参数,并查看这些属性参数是否已经存在于预设项目分类表中,如果已经存在于预设项目分类表中,则读取该属性参数对应的属性编号(如表2中示出的属性参数网站页面总数对应编号B1、抓取页面数对应C1)。
在上述实施例中的预设项目分类表可以为Sort_List,具体地,如表2中示出的Sort_List的示例。
表2
其中,Sort_List中存储网站分析中需要用到的所有属性参数(如表中示出的:页面权重、页面关键词排名等属性数据),使用网站访问状态的属性参数完善Sort_List,具体地检测Sort_List中是否存在第一属性参数和第二属性参数,不存在将其补入,可以更好地打通两类数据之间的关系,统筹地结合起来,使得网站访问数据的分析更加全面。
具体地,在从预设方案表中读取到该属性参数之后,获取与该参数对应的属性数据。如网站页面总数100,100即为属性数据。
步骤S209:检测预设方案表中是否存在与网站运行状态对应的分析数据。
其中,在预设方案表中存在与网站运行状态对应的分析数据的情况下,执行步骤S211;在预设方案表中不存在与网站运行状态对应的分析数据的情况下,执行步骤S212。
步骤S210:将属性参数写入预设项目分类表。
步骤S211:将属性参数写入预设方案表。
步骤S212:对网站运行状态进行分析获取分析数据。
步骤S213:将分析对象的URL、属性参数以及对应的分析数据填入结果表。
步骤S214:检测是否需要查询竞争对手数据。
也即检测是否需要对关联对象的访问数据进行分析,其中,在需要的情况下,执行步骤S215;在不需要的情况下,执行步骤S216。
步骤S215:将关联对象的URL、属性参数以及对应的分析数据填入结果表。
步骤S216:获取分析结果。
步骤S217:是否继续查询其他问题。
其中,在是的情况下,返回执行步骤S204;在否的情况下,执行步骤S218。
步骤S218:生成分析报告。
具体地,在本发明的上述实施例中,若Solution_List中无法查找到类似问题,则根据Sort_List中问题属性,尝试将Sort_List中属于搜索引擎抓取的数据和模拟蜘蛛抓取的数据相关联,找到解决方案并完善Solution_List。
在上述实施例中的预设方案表(Solution_List,如图4所示的解决方案资料库)是最关键的解决方案表,记录从Sort_List中得到的所有问题,指导所需数据查询,得出相关数据或 结论并对方案属性进行归类,对网站问题分析产生指导性作用。Solution_List需要在运用过程中长期维护和完善。
在完成上述步骤之后生成的分析报告(Result_List,如图5所示的分析结果汇总)记可以录分析过程中的分析对象URL及编号、所用方案编号、项目编号及数据、结论等。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
从以上的描述中,可以看出,本发明实现了如下技术效果:采用本发明,获取与网站访问分析请求对应的网站访问数据,其中,网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,网站访问分析请求中携带网站运行状态,在根据网站运行状态确定属性参数之后,根据属性参数查询分析数据,然后将网站运行状态、状态来源数据以及分析数据保存在数据表中,生成分析报告。采用该方案,可以将搜索引擎数据和模拟蜘蛛抓取数据共同运用到网站访问分析中,从而可以对网站进行全面的、定量和定性的数据分析,解决了现有技术中由于无法获取完整数据导致对网站出现的问题分析不全面、不准确的问题,实现了采集完整数据并对网站的问题进行完整准确的分析,实现高效的网站监测和优化的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网站数据分析方法,其特征在于,包括:
获取与网站访问分析请求对应的网站访问数据,其中,所述网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,所述网站访问分析请求中携带网站运行状态,其中,所述网站运行状态为所述网站存在的问题,其中,所述搜索引擎数据包括网站页面是否收录关键词的排名,所述模拟蜘蛛抓取数据包括链接锚文本、关键词密度;
根据所述网站运行状态确定属性参数,其中,根据所述网站运行状态确定属性参数之后,包括:检测预设类目分类表中是否存在所述属性参数;在检测到预设类目分类表中不存在所述属性参数的情况下,将所述属性参数添加到预设类目分类表中;
根据所述属性参数查询对应的分析数据;
将所述网站运行状态、所述属性参数及所述分析数据保存在数据表中,生成分析报告。
2.根据权利要求1所述的网站数据分析方法,其特征在于,获取与网站访问分析请求对应的网站访问数据的步骤包括:
从URL数据表中读取与所述网站访问分析请求对应的URL;
按照所述URL获取对应的通过搜索引擎获取的第一数据和通过模拟蜘蛛抓取的第二数据。
3.根据权利要求1或2所述的网站数据分析方法,其特征在于,根据所述网站运行状态确定属性参数的步骤包括:
根据所述网站运行状态从预设方案表中查询得到状态类型;
根据所述状态类型确定所述网站运行状态的所述属性参数。
4.根据权利要求3所述的网站数据分析方法,其特征在于,根据所述属性参数查询获取对应的分析数据的步骤包括:
从所述预设方案表中获取预设状态公式;
按照所述预设状态公式计算所述属性参数的当前状态数据;
从所述预设方案表中查询与所述当前状态数据对应的所述分析数据。
5.根据权利要求4所述的网站数据分析方法,其特征在于,在获取与网站访问分析请求对应的网站访问数据之前,所述网站数据分析方法还包括:
获取所述网站访问分析请求;
判断所述网站访问分析请求中是否包含对关联网站的分析请求;
在所述网站访问分析请求中包含对关联网站的分析请求的情况下,获取所述关联网站的关联网站数据;
将所述第一数据、所述第二数据和所述关联网站数据作为所述网站访问数据。
6.一种网站数据分析装置,其特征在于,包括:
数据获取模块,用于获取与网站访问分析请求对应的网站访问数据,其中,所述网站访问数据包括搜索引擎数据和模拟蜘蛛抓取数据,所述网站访问分析请求中携带网站运行状态,其中,所述网站运行状态为所述网站存在的问题,其中,所述搜索引擎数据包括网站页面是否收录关键词的排名,所述模拟蜘蛛抓取数据包括链接锚文本、关键词密度;
参数获取模块,用于根据所述网站运行状态确定属性参数,其中,所述参数获取模块还包括:检测预设类目分类表中是否存在所述属性参数;在检测到预设类目分类表中不存在所述属性参数的情况下,将所述属性参数添加到预设类目分类表中;
查询模块,用于根据所述属性参数查询对应的分析数据;
保存模块,用于将所述网站运行状态、所述属性参数及所述分析数据保存在数据表中,生成分析报告。
7.根据权利要求6所述的网站数据分析装置,其特征在于,所述数据获取模块包括:
读取模块,用于从URL数据表中读取与所述网站访问分析请求对应的URL;
数据获取子模块,用于按照所述URL获取对应的通过搜索引擎获取的第一数据和通过模拟蜘蛛抓取的第二数据。
8.根据权利要求6或7所述的网站数据分析装置,其特征在于,所述参数获取模块包括:
类型查询模块,用于根据所述网站运行状态从预设方案表中查询得到状态类型;
参数获取子模块,用于根据所述状态类型确定所述网站运行状态的所述属性参数。
9.根据权利要求8所述的网站数据分析装置,其特征在于,所述查询模块包括:
公式获取模块,用于从所述预设方案表中获取预设状态公式;
计算模块,用于按照所述预设状态公式计算所述属性参数的当前状态数据;
查询子模块,用于从所述预设方案表中查询与所述当前状态数据对应的所述分析数据。
10.根据权利要求9所述的网站数据分析装置,其特征在于,所述网站数据分析装置还包括:
请求获取模块,用于获取所述网站访问分析请求;
判断模块,用于判断所述网站访问分析请求中是否包含对关联网站的分析请求;
关联数据获取模块,用于在所述网站访问分析请求中包含对关联网站的分析请求的情况下,获取所述关联网站的关联网站数据;
确定模块,用于将所述第一数据、所述第二数据和所述关联网站数据作为所述网站访问数据。
CN201310585758.1A 2013-11-19 2013-11-19 网站数据分析方法及装置 Active CN103605735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310585758.1A CN103605735B (zh) 2013-11-19 2013-11-19 网站数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310585758.1A CN103605735B (zh) 2013-11-19 2013-11-19 网站数据分析方法及装置

Publications (2)

Publication Number Publication Date
CN103605735A CN103605735A (zh) 2014-02-26
CN103605735B true CN103605735B (zh) 2017-11-21

Family

ID=50123957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310585758.1A Active CN103605735B (zh) 2013-11-19 2013-11-19 网站数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN103605735B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199830B (zh) * 2014-07-31 2018-01-09 耐特康赛网络技术(北京)有限公司 搜索引擎优化大数据管理方法
CN106547799B (zh) * 2015-09-23 2019-11-12 北京国双科技有限公司 数据的导入方法及装置
CN111179010A (zh) * 2019-09-27 2020-05-19 任我游(厦门)科技发展有限公司 不合理价格产品的在线公证方法、系统、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645155A (zh) * 2008-08-08 2010-02-10 陈列生 一种网络营销方法
CN102073960A (zh) * 2010-09-15 2011-05-25 江苏仕德伟网络科技股份有限公司 一种网站营销过程中运行效果的评估方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080209030A1 (en) * 2007-02-28 2008-08-28 Microsoft Corporation Mining Web Logs to Debug Wide-Area Connectivity Problems
CN101355587B (zh) * 2008-09-17 2012-05-23 杭州华三通信技术有限公司 Url信息获取方法和装置及搜索引擎实现方法及系统
CN103294732B (zh) * 2012-03-05 2016-08-03 富士通株式会社 网页抓取方法及爬虫
CN102724059B (zh) * 2012-03-31 2015-03-11 常熟市支塘镇新盛技术咨询服务有限公司 基于MapReduce的网站运行状态监控与异常检测

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645155A (zh) * 2008-08-08 2010-02-10 陈列生 一种网络营销方法
CN102073960A (zh) * 2010-09-15 2011-05-25 江苏仕德伟网络科技股份有限公司 一种网站营销过程中运行效果的评估方法

Also Published As

Publication number Publication date
CN103605735A (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
CN107609135B (zh) 页面元素确定方法及设备、用户行为路径确定方法及装置
CN102955798B (zh) 一种基于搜索引擎的搜索方法及搜索服务器
CN103605738B (zh) 网页访问数据统计方法及装置
CN103631957B (zh) 访客行为数据统计方法及装置
CN107957957A (zh) 测试用例的获取方法和装置
US20060173819A1 (en) System and method for grouping by attribute
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
US20110166926A1 (en) Evaluating Online Marketing Efficiency
CN106095979A (zh) Url合并处理方法和装置
CN109104421B (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN106453320B (zh) 恶意样本的识别方法及装置
CN108920607A (zh) 字段发现方法、装置及电子设备
CN103605735B (zh) 网站数据分析方法及装置
Sujatha Improved user navigation pattern prediction technique from web log data
CN108920479B (zh) 针对两微一端跨信源账号推荐方法
CN103605744B (zh) 网站搜索引擎流量数据的分析方法及装置
US9973950B2 (en) Technique for data traffic analysis
CN108268370B (zh) 基于Referer和模板库匹配的网站质量分析方法、装置和系统
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
CN109729054A (zh) 访问数据监测方法及相关设备
CN108733707A (zh) 一种确定搜索功能稳定性及装置
CN106411951A (zh) 网络攻击行为检测方法及装置
CN103793509B (zh) 组图抓取方法与装置
JP2018018523A (ja) ユーザアクセスログの関連付け方法、装置、システム、プログラム及び記録媒体
KR20140080404A (ko) 유해 사이트 수집 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Website data analyzing method and website data analyzing device

Effective date of registration: 20190531

Granted publication date: 20171121

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20171121

PP01 Preservation of patent right