CN103810177A - 一种准确获取网站访问者在网页上真实停留时间的方法 - Google Patents
一种准确获取网站访问者在网页上真实停留时间的方法 Download PDFInfo
- Publication number
- CN103810177A CN103810177A CN201210439699.2A CN201210439699A CN103810177A CN 103810177 A CN103810177 A CN 103810177A CN 201210439699 A CN201210439699 A CN 201210439699A CN 103810177 A CN103810177 A CN 103810177A
- Authority
- CN
- China
- Prior art keywords
- webpages
- meta tags
- website
- page
- meta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种准确获取网站访问者在网页上真实停留时间的方法,包括以下步骤:首先根据网站地址,通过虚拟请求的方式获取到网站页面的html源码,然后根据html源码抓取到指向自己本网站的链接,以此类推获取到整个站点所有的网页,接着分析所有网页的html源码,找到meta标签,分析其meta标签的keywords和description属性是否已经设置,并且不是空的,紧接着对meta标签是否完整作出统计,计算出meta标签重复率。(公式:meta重复的页面个数/meta不重复的页面个数),最后计算出重复率率,通过网页的显示出来。采用本发明技术方案,很方便得检查出网站meta标签设置是否重复以及对搜索引擎的收录效果。
Description
技术领域
本发明涉及网络软件技术领域,具体涉及一种准确获取网站访问者在网页上真实停留时间的方法。
背景技术
Meta标签是HTML标记HEAD区的一个关键标签,它提供的信息虽然用户不可见,但却是文档的最基本的元信息,除了提供文档字符集、使用语言、作者等基本信息外,还涉及对关键词和网页等级的设定。
各大主流搜索引擎,对于Meta标签的重视程度也是相当高,基本上搜索引擎通过蜘蛛收录网页时,都是通过meta标签内设置的关键词以及页面描述信息来进行分析,并分类收录。如果meta信息重复率较高,搜索引擎会判断其为相似页面,收录或者权重相对会比较低。
所以保证每张页面的meta标签的不重复,对于网站的完整度、专业度以及推广度是极为重要的。
发明内容
本发明的目的在于判断网站meta标签设置的重复率,本发明很方便得检查出网站meta标签设置是否重复以及对搜索引擎的收录效果。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种准确获取网站访问者在网页上真实停留时间的方法,包括以下步骤:
步骤1)输入网址,并触发检测;
步骤2)获取到页面源码,并对页面源码进行分析;
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接;
步骤4)获取并分析所有站内链接的html源码,记录每一页的meta标签内容,并统计出meta标签设置重复的页面个数和meta标签设置不重复的页面个数;
步骤5)通过公式meta标签设置重复的页面个数/meta标签设置不重复的页面个数计算出meta标签完整率;
步骤6)通过页面显示出来。
本发明的有益效果是:
本发明很方便得检查出网站meta标签设置是否重复以及对搜索引擎的收录效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的流程示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
参照图1所示,一种准确获取网站访问者在网页上真实停留时间的方法,包括以下步骤:
步骤1)输入网址,并触发检测;
步骤2)获取到页面源码,并对页面源码进行分析;
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接;
步骤4)获取并分析所有站内链接的html源码,记录每一页的meta标签内容,并统计出meta标签设置重复的页面个数和met a标签设置不重复的页面个数;
步骤5)通过公式meta标签设置重复的页面个数/meta标签设置不重复的页面个数计算出meta标签完整率;
步骤6)通过页面显示出来。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种准确获取网站访问者在网页上真实停留时间的方法,其特征在于:包括以下步骤:
步骤1)输入网址,并触发检测;
步骤2)获取到页面源码,并对页面源码进行分析;
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接;
步骤4)获取并分析所有站内链接的html源码,记录每一页的meta标签内容,并统计出meta标签设置重复的页面个数和meta标签设置不重复的页面个数;
步骤5)通过公式meta标签设置重复的页面个数/meta标签设置不重复的页面个数计算出meta标签完整率;
步骤6)通过页面显示出来。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210439699.2A CN103810177A (zh) | 2012-11-07 | 2012-11-07 | 一种准确获取网站访问者在网页上真实停留时间的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210439699.2A CN103810177A (zh) | 2012-11-07 | 2012-11-07 | 一种准确获取网站访问者在网页上真实停留时间的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103810177A true CN103810177A (zh) | 2014-05-21 |
Family
ID=50706962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210439699.2A Pending CN103810177A (zh) | 2012-11-07 | 2012-11-07 | 一种准确获取网站访问者在网页上真实停留时间的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103810177A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850409A (zh) * | 2015-06-05 | 2015-08-19 | 北京京东尚科信息技术有限公司 | 统计网页停留时长方法 |
CN105376311A (zh) * | 2015-11-11 | 2016-03-02 | 北京北信源软件股份有限公司 | 一种基于终端访问的页面停留时长确定方法及装置 |
CN106060117A (zh) * | 2016-05-17 | 2016-10-26 | 北京京东尚科信息技术有限公司 | 一种页面停留时长的计时方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050223082A1 (en) * | 2004-03-30 | 2005-10-06 | Karthiksundar Sankaran | Methods, systems, and products for verifying integrity of web-server served content |
CN101727471A (zh) * | 2008-10-30 | 2010-06-09 | 鸿富锦精密工业(深圳)有限公司 | 网站内容检索系统及方法 |
CN102420851A (zh) * | 2011-11-10 | 2012-04-18 | 百度在线网络技术(北京)有限公司 | Http服务监控方法及系统 |
CN102592067A (zh) * | 2011-01-17 | 2012-07-18 | 腾讯科技(深圳)有限公司 | 一种网页识别方法、装置及系统 |
CN102663041A (zh) * | 2012-03-28 | 2012-09-12 | 重庆大学 | 面向深层网页面数据自动抽取方法 |
CN102819613A (zh) * | 2012-08-28 | 2012-12-12 | 北京奇虎科技有限公司 | Rss信息分页抓取系统及方法 |
-
2012
- 2012-11-07 CN CN201210439699.2A patent/CN103810177A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050223082A1 (en) * | 2004-03-30 | 2005-10-06 | Karthiksundar Sankaran | Methods, systems, and products for verifying integrity of web-server served content |
CN101727471A (zh) * | 2008-10-30 | 2010-06-09 | 鸿富锦精密工业(深圳)有限公司 | 网站内容检索系统及方法 |
CN102592067A (zh) * | 2011-01-17 | 2012-07-18 | 腾讯科技(深圳)有限公司 | 一种网页识别方法、装置及系统 |
CN102420851A (zh) * | 2011-11-10 | 2012-04-18 | 百度在线网络技术(北京)有限公司 | Http服务监控方法及系统 |
CN102663041A (zh) * | 2012-03-28 | 2012-09-12 | 重庆大学 | 面向深层网页面数据自动抽取方法 |
CN102819613A (zh) * | 2012-08-28 | 2012-12-12 | 北京奇虎科技有限公司 | Rss信息分页抓取系统及方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850409A (zh) * | 2015-06-05 | 2015-08-19 | 北京京东尚科信息技术有限公司 | 统计网页停留时长方法 |
CN104850409B (zh) * | 2015-06-05 | 2019-06-04 | 北京京东尚科信息技术有限公司 | 统计网页停留时长方法 |
CN105376311A (zh) * | 2015-11-11 | 2016-03-02 | 北京北信源软件股份有限公司 | 一种基于终端访问的页面停留时长确定方法及装置 |
CN105376311B (zh) * | 2015-11-11 | 2018-09-11 | 北京北信源软件股份有限公司 | 一种基于终端访问的页面停留时长确定方法及装置 |
CN106060117A (zh) * | 2016-05-17 | 2016-10-26 | 北京京东尚科信息技术有限公司 | 一种页面停留时长的计时方法和装置 |
CN106060117B (zh) * | 2016-05-17 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 一种页面停留时长的计时方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103164427B (zh) | 新闻聚合方法及装置 | |
CN102760172B (zh) | 一种网络搜索方法及网络搜索系统 | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN103605658B (zh) | 一种基于文本情感分析的搜索引擎系统 | |
WO2014130484A4 (en) | Link association analysis systems and methods | |
CN102306201B (zh) | 一种网页标题分析的方法和系统 | |
WO2014000518A1 (zh) | 一种舆情信息展示系统及方法 | |
CN103678528B (zh) | 基于段落抄袭检测的电子作业反抄袭系统和方法 | |
CN102708168A (zh) | 一种教学资源搜索结果排序的系统及方法 | |
CN103150663A (zh) | 一种网络投放数据投放的方法和装置 | |
CN107679217A (zh) | 基于数据挖掘的关联内容提取方法和装置 | |
CN105677857B (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN104133870B (zh) | 一种网页相似度计算方法及装置 | |
CN105550253B (zh) | 一种类型关系的获取方法及装置 | |
CN103365876A (zh) | 基于关系图谱生成网络操作辅助信息的方法与设备 | |
CN102999595A (zh) | 一种用于提供与页面信息相对应的访问页面的方法和设备 | |
CN102402535A (zh) | 一种建设产品库的方法及系统 | |
CN103577447A (zh) | 一种用于确定目标页面的页面类型信息的方法和设备 | |
CN107193930A (zh) | 一种网站敏感词屏蔽方法 | |
CN105117434A (zh) | 一种网页分类方法和系统 | |
CN103810177A (zh) | 一种准确获取网站访问者在网页上真实停留时间的方法 | |
US9053177B1 (en) | Sitelinks based on visual location | |
CN104615639A (zh) | 一种用于提供图片的呈现信息的方法和设备 | |
CN102737045A (zh) | 一种相关度计算方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice |
Addressee: Jiangsu Shidewei Network Technology Co., Ltd. Document name: the First Notification of an Office Action |
|
DD01 | Delivery of document by public notice | ||
DD01 | Delivery of document by public notice |
Addressee: Jiangsu Shidewei Network Technology Co., Ltd. Document name: Notification that Application Deemed to be Withdrawn |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140521 |