CN103810177A - 一种准确获取网站访问者在网页上真实停留时间的方法 - Google Patents

一种准确获取网站访问者在网页上真实停留时间的方法 Download PDF

Info

Publication number
CN103810177A
CN103810177A CN201210439699.2A CN201210439699A CN103810177A CN 103810177 A CN103810177 A CN 103810177A CN 201210439699 A CN201210439699 A CN 201210439699A CN 103810177 A CN103810177 A CN 103810177A
Authority
CN
China
Prior art keywords
webpages
meta tags
website
page
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210439699.2A
Other languages
English (en)
Inventor
陈德阳
黄国建
李建中
高涵毅
张峰
汪张宪
范锋华
朱平
亓明敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU SHIDEWEI NETWORK TECHNOLOGY Co Ltd
Original Assignee
JIANGSU SHIDEWEI NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU SHIDEWEI NETWORK TECHNOLOGY Co Ltd filed Critical JIANGSU SHIDEWEI NETWORK TECHNOLOGY Co Ltd
Priority to CN201210439699.2A priority Critical patent/CN103810177A/zh
Publication of CN103810177A publication Critical patent/CN103810177A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种准确获取网站访问者在网页上真实停留时间的方法,包括以下步骤:首先根据网站地址,通过虚拟请求的方式获取到网站页面的html源码,然后根据html源码抓取到指向自己本网站的链接,以此类推获取到整个站点所有的网页,接着分析所有网页的html源码,找到meta标签,分析其meta标签的keywords和description属性是否已经设置,并且不是空的,紧接着对meta标签是否完整作出统计,计算出meta标签重复率。(公式:meta重复的页面个数/meta不重复的页面个数),最后计算出重复率率,通过网页的显示出来。采用本发明技术方案,很方便得检查出网站meta标签设置是否重复以及对搜索引擎的收录效果。

Description

一种准确获取网站访问者在网页上真实停留时间的方法
技术领域
本发明涉及网络软件技术领域,具体涉及一种准确获取网站访问者在网页上真实停留时间的方法。 
背景技术
Meta标签是HTML标记HEAD区的一个关键标签,它提供的信息虽然用户不可见,但却是文档的最基本的元信息,除了提供文档字符集、使用语言、作者等基本信息外,还涉及对关键词和网页等级的设定。 
各大主流搜索引擎,对于Meta标签的重视程度也是相当高,基本上搜索引擎通过蜘蛛收录网页时,都是通过meta标签内设置的关键词以及页面描述信息来进行分析,并分类收录。如果meta信息重复率较高,搜索引擎会判断其为相似页面,收录或者权重相对会比较低。 
所以保证每张页面的meta标签的不重复,对于网站的完整度、专业度以及推广度是极为重要的。 
发明内容
本发明的目的在于判断网站meta标签设置的重复率,本发明很方便得检查出网站meta标签设置是否重复以及对搜索引擎的收录效果。 
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现: 
一种准确获取网站访问者在网页上真实停留时间的方法,包括以下步骤: 
步骤1)输入网址,并触发检测; 
步骤2)获取到页面源码,并对页面源码进行分析; 
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接; 
步骤4)获取并分析所有站内链接的html源码,记录每一页的meta标签内容,并统计出meta标签设置重复的页面个数和meta标签设置不重复的页面个数; 
步骤5)通过公式meta标签设置重复的页面个数/meta标签设置不重复的页面个数计算出meta标签完整率; 
步骤6)通过页面显示出来。 
本发明的有益效果是: 
本发明很方便得检查出网站meta标签设置是否重复以及对搜索引擎的收录效果。 
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。 
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中: 
图1是本发明的流程示意图。 
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。 
参照图1所示,一种准确获取网站访问者在网页上真实停留时间的方法,包括以下步骤: 
步骤1)输入网址,并触发检测; 
步骤2)获取到页面源码,并对页面源码进行分析; 
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接; 
步骤4)获取并分析所有站内链接的html源码,记录每一页的meta标签内容,并统计出meta标签设置重复的页面个数和met a标签设置不重复的页面个数; 
步骤5)通过公式meta标签设置重复的页面个数/meta标签设置不重复的页面个数计算出meta标签完整率; 
步骤6)通过页面显示出来。 
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。 

Claims (1)

1.一种准确获取网站访问者在网页上真实停留时间的方法,其特征在于:包括以下步骤:
步骤1)输入网址,并触发检测;
步骤2)获取到页面源码,并对页面源码进行分析;
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接;
步骤4)获取并分析所有站内链接的html源码,记录每一页的meta标签内容,并统计出meta标签设置重复的页面个数和meta标签设置不重复的页面个数;
步骤5)通过公式meta标签设置重复的页面个数/meta标签设置不重复的页面个数计算出meta标签完整率;
步骤6)通过页面显示出来。
CN201210439699.2A 2012-11-07 2012-11-07 一种准确获取网站访问者在网页上真实停留时间的方法 Pending CN103810177A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210439699.2A CN103810177A (zh) 2012-11-07 2012-11-07 一种准确获取网站访问者在网页上真实停留时间的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210439699.2A CN103810177A (zh) 2012-11-07 2012-11-07 一种准确获取网站访问者在网页上真实停留时间的方法

Publications (1)

Publication Number Publication Date
CN103810177A true CN103810177A (zh) 2014-05-21

Family

ID=50706962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210439699.2A Pending CN103810177A (zh) 2012-11-07 2012-11-07 一种准确获取网站访问者在网页上真实停留时间的方法

Country Status (1)

Country Link
CN (1) CN103810177A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850409A (zh) * 2015-06-05 2015-08-19 北京京东尚科信息技术有限公司 统计网页停留时长方法
CN105376311A (zh) * 2015-11-11 2016-03-02 北京北信源软件股份有限公司 一种基于终端访问的页面停留时长确定方法及装置
CN106060117A (zh) * 2016-05-17 2016-10-26 北京京东尚科信息技术有限公司 一种页面停留时长的计时方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050223082A1 (en) * 2004-03-30 2005-10-06 Karthiksundar Sankaran Methods, systems, and products for verifying integrity of web-server served content
CN101727471A (zh) * 2008-10-30 2010-06-09 鸿富锦精密工业(深圳)有限公司 网站内容检索系统及方法
CN102420851A (zh) * 2011-11-10 2012-04-18 百度在线网络技术(北京)有限公司 Http服务监控方法及系统
CN102592067A (zh) * 2011-01-17 2012-07-18 腾讯科技(深圳)有限公司 一种网页识别方法、装置及系统
CN102663041A (zh) * 2012-03-28 2012-09-12 重庆大学 面向深层网页面数据自动抽取方法
CN102819613A (zh) * 2012-08-28 2012-12-12 北京奇虎科技有限公司 Rss信息分页抓取系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050223082A1 (en) * 2004-03-30 2005-10-06 Karthiksundar Sankaran Methods, systems, and products for verifying integrity of web-server served content
CN101727471A (zh) * 2008-10-30 2010-06-09 鸿富锦精密工业(深圳)有限公司 网站内容检索系统及方法
CN102592067A (zh) * 2011-01-17 2012-07-18 腾讯科技(深圳)有限公司 一种网页识别方法、装置及系统
CN102420851A (zh) * 2011-11-10 2012-04-18 百度在线网络技术(北京)有限公司 Http服务监控方法及系统
CN102663041A (zh) * 2012-03-28 2012-09-12 重庆大学 面向深层网页面数据自动抽取方法
CN102819613A (zh) * 2012-08-28 2012-12-12 北京奇虎科技有限公司 Rss信息分页抓取系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850409A (zh) * 2015-06-05 2015-08-19 北京京东尚科信息技术有限公司 统计网页停留时长方法
CN104850409B (zh) * 2015-06-05 2019-06-04 北京京东尚科信息技术有限公司 统计网页停留时长方法
CN105376311A (zh) * 2015-11-11 2016-03-02 北京北信源软件股份有限公司 一种基于终端访问的页面停留时长确定方法及装置
CN105376311B (zh) * 2015-11-11 2018-09-11 北京北信源软件股份有限公司 一种基于终端访问的页面停留时长确定方法及装置
CN106060117A (zh) * 2016-05-17 2016-10-26 北京京东尚科信息技术有限公司 一种页面停留时长的计时方法和装置
CN106060117B (zh) * 2016-05-17 2020-11-03 北京京东尚科信息技术有限公司 一种页面停留时长的计时方法和装置

Similar Documents

Publication Publication Date Title
CN103164427B (zh) 新闻聚合方法及装置
CN102760172B (zh) 一种网络搜索方法及网络搜索系统
CN102567494B (zh) 网站分类方法及装置
CN103605658B (zh) 一种基于文本情感分析的搜索引擎系统
WO2014130484A4 (en) Link association analysis systems and methods
CN102306201B (zh) 一种网页标题分析的方法和系统
WO2014000518A1 (zh) 一种舆情信息展示系统及方法
CN103678528B (zh) 基于段落抄袭检测的电子作业反抄袭系统和方法
CN102708168A (zh) 一种教学资源搜索结果排序的系统及方法
CN103150663A (zh) 一种网络投放数据投放的方法和装置
CN107679217A (zh) 基于数据挖掘的关联内容提取方法和装置
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN104133870B (zh) 一种网页相似度计算方法及装置
CN105550253B (zh) 一种类型关系的获取方法及装置
CN103365876A (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN102999595A (zh) 一种用于提供与页面信息相对应的访问页面的方法和设备
CN102402535A (zh) 一种建设产品库的方法及系统
CN103577447A (zh) 一种用于确定目标页面的页面类型信息的方法和设备
CN107193930A (zh) 一种网站敏感词屏蔽方法
CN105117434A (zh) 一种网页分类方法和系统
CN103810177A (zh) 一种准确获取网站访问者在网页上真实停留时间的方法
US9053177B1 (en) Sitelinks based on visual location
CN104615639A (zh) 一种用于提供图片的呈现信息的方法和设备
CN102737045A (zh) 一种相关度计算方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Jiangsu Shidewei Network Technology Co., Ltd.

Document name: the First Notification of an Office Action

DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: Jiangsu Shidewei Network Technology Co., Ltd.

Document name: Notification that Application Deemed to be Withdrawn

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140521