CN103810178A - 一种计算网页完整率的方法 - Google Patents

一种计算网页完整率的方法 Download PDF

Info

Publication number
CN103810178A
CN103810178A CN201210439700.1A CN201210439700A CN103810178A CN 103810178 A CN103810178 A CN 103810178A CN 201210439700 A CN201210439700 A CN 201210439700A CN 103810178 A CN103810178 A CN 103810178A
Authority
CN
China
Prior art keywords
webpages
meta
source code
page
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210439700.1A
Other languages
English (en)
Inventor
陈德阳
黄国建
李建中
高涵毅
张峰
汪张宪
范锋华
朱平
亓明敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU SHIDEWEI NETWORK TECHNOLOGY Co Ltd
Original Assignee
JIANGSU SHIDEWEI NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU SHIDEWEI NETWORK TECHNOLOGY Co Ltd filed Critical JIANGSU SHIDEWEI NETWORK TECHNOLOGY Co Ltd
Priority to CN201210439700.1A priority Critical patent/CN103810178A/zh
Publication of CN103810178A publication Critical patent/CN103810178A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种计算网页完整率的方法,包括以下步骤:据网站地址,通过虚拟请求的方式获取到网站页面的html源码,接着可以根据html源码抓取到指向自己本网站的链接,以此类推获取到整个站点所有的网页,然后分析所有网页的html源码,找到meta标签,分析其meta标签的keywords和description属性是否已经设置,并且不是空的,最后对meta标签是否完整作出统计,计算出meta标签完整率,(公式:meta标签不完整的页面个数/网站的网页个数);计算出完整率,通过网页的显示出来。采用本发明技术方案,很方便得检查出网站meta标签设置是否完整以及对搜索引擎的收录效果。

Description

一种计算网页完整率的方法
技术领域
本发明涉及网络软件技术领域,具体涉及一种计算网页完整率的方法。
背景技术
Meta标签是HTML标记HEAD区的一个关键标签,它提供的信息虽然用户不可见,但却是文档的最基本的元信息,除了提供文档字符集、使用语言、作者等基本信息外,还涉及对关键词和网页等级的设定。
各大主流搜索引擎,对于Meta标签的重视程度也是相当高,基本上搜索引擎通过蜘蛛收录网页时,都是通过meta标签内设置的关键词以及页面描述信息来进行分析,并分类收录。
所以保证每张页面的meta标签的完整性,对于网站的完整度、专业度以及推广度是极为重要的。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种计算网页完整率的方法,本发明很方便得检查出网站meta标签设置是否完整以及对搜索引擎的收录效果。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种计算网页完整率的方法,包括以下步骤:
步骤1)输入网址,并触发检测;
步骤2)获取到页面源码,并对页面源码进行分析;
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接;
步骤4)获取并分析所有站内链接的html源码,判断每一页的meta标签是否完整,并统计出meta标签设置不完整的页面个数和总的页面个数;
步骤5)通过公式meta标签设置不完整的页面个数/总的页面个数计算出meta标签完整率;
步骤6)通过页面显示出来。
本发明的有益效果是:
本发明很方便得检查出网站meta标签设置是否完整以及对搜索引擎的收录效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的流程示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
参照图1所示,一种计算网页完整率的方法,包括以下步骤:
步骤1)输入网址,并触发检测;
步骤2)获取到页面源码,并对页面源码进行分析;
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接;
步骤4)获取并分析所有站内链接的html源码,判断每一页的meta标签是否完整,并统计出meta标签设置不完整的页面个数和总的页面个数;
步骤5)通过公式meta标签设置不完整的页面个数/总的页面个数计算出meta标签完整率;
步骤6)通过页面显示出来。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种计算网页完整率的方法,其特征在于:包括以下步骤:
步骤1)输入网址,并触发检测;
步骤2)获取到页面源码,并对页面源码进行分析;
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接;
步骤4)获取并分析所有站内链接的html源码,判断每一页的meta标签是否完整,并统计出meta标签设置不完整的页面个数和总的页面个数;
步骤5)通过公式meta标签设置不完整的页面个数/总的页面个数计算出meta标签完整率;
步骤6)通过页面显示出来。
CN201210439700.1A 2012-11-07 2012-11-07 一种计算网页完整率的方法 Pending CN103810178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210439700.1A CN103810178A (zh) 2012-11-07 2012-11-07 一种计算网页完整率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210439700.1A CN103810178A (zh) 2012-11-07 2012-11-07 一种计算网页完整率的方法

Publications (1)

Publication Number Publication Date
CN103810178A true CN103810178A (zh) 2014-05-21

Family

ID=50706963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210439700.1A Pending CN103810178A (zh) 2012-11-07 2012-11-07 一种计算网页完整率的方法

Country Status (1)

Country Link
CN (1) CN103810178A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111123301A (zh) * 2018-11-01 2020-05-08 千寻位置网络有限公司 一种改正数完整率测评方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080004904A (ko) * 2006-07-07 2008-01-10 오희국 실시간 웹 무결성 검증 시스템
US7426556B2 (en) * 2004-03-30 2008-09-16 At&T Intellectual Property I, L.P. Methods, systems, and products for verifying integrity of web-server served content
CN101329687A (zh) * 2008-07-31 2008-12-24 清华大学 一种新闻网页定位方法
CN102096781A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于网页关联性的钓鱼检测方法
CN102420851A (zh) * 2011-11-10 2012-04-18 百度在线网络技术(北京)有限公司 Http服务监控方法及系统
CN102592067A (zh) * 2011-01-17 2012-07-18 腾讯科技(深圳)有限公司 一种网页识别方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7426556B2 (en) * 2004-03-30 2008-09-16 At&T Intellectual Property I, L.P. Methods, systems, and products for verifying integrity of web-server served content
KR20080004904A (ko) * 2006-07-07 2008-01-10 오희국 실시간 웹 무결성 검증 시스템
CN101329687A (zh) * 2008-07-31 2008-12-24 清华大学 一种新闻网页定位方法
CN102592067A (zh) * 2011-01-17 2012-07-18 腾讯科技(深圳)有限公司 一种网页识别方法、装置及系统
CN102096781A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于网页关联性的钓鱼检测方法
CN102420851A (zh) * 2011-11-10 2012-04-18 百度在线网络技术(北京)有限公司 Http服务监控方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘军: ""网页采集、净化与分类"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111123301A (zh) * 2018-11-01 2020-05-08 千寻位置网络有限公司 一种改正数完整率测评方法及装置

Similar Documents

Publication Publication Date Title
WO2020164276A1 (zh) 网页数据爬取方法、装置、系统及计算机可读存储介质
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN103164427B (zh) 新闻聚合方法及装置
CN104036030B (zh) 基于浏览器的弹窗广告拦截方法、系统及相关浏览器
US9465789B1 (en) Apparatus and method for detecting spam
CN102779174A (zh) 一种舆情信息展示系统及方法
CN103729385B (zh) 一种报表自动更新的方法和装置
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN108804469B (zh) 一种网页识别方法以及电子设备
CN105550253B (zh) 一种类型关系的获取方法及装置
CN104133870A (zh) 一种网页相似度计算方法及装置
CN111310750B (zh) 一种信息处理方法、装置、计算设备及介质
CN110955690A (zh) 一种基于大数据技术的自助数据标签平台及自助数据标签方法
CN114241501B (zh) 影像文档处理方法、装置及电子设备
WO2020024403A1 (zh) 目标语料数据的爬取方法、装置及存储介质
CN103365876A (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN103279275B (zh) 分析文档内容的方法及手持式电子装置
US9053177B1 (en) Sitelinks based on visual location
CN102999576A (zh) 用于确定目标页面所对应的页面描述信息的方法和设备
CN103810177A (zh) 一种准确获取网站访问者在网页上真实停留时间的方法
Kucher et al. Analysis of VINCI 2009-2017 proceedings
CN103810178A (zh) 一种计算网页完整率的方法
CN105574764A (zh) 一种知识产权评估系统
CN105045890A (zh) 确定目标新闻源中的热点新闻的方法与设备
CN103809940A (zh) 一种判断div+css结构的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Jiangsu Shidewei Network Technology Co., Ltd.

Document name: the First Notification of an Office Action

DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: Jiangsu Shidewei Network Technology Co., Ltd.

Document name: Notification that Application Deemed to be Withdrawn

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140521