CN103810178A - 一种计算网页完整率的方法 - Google Patents
一种计算网页完整率的方法 Download PDFInfo
- Publication number
- CN103810178A CN103810178A CN201210439700.1A CN201210439700A CN103810178A CN 103810178 A CN103810178 A CN 103810178A CN 201210439700 A CN201210439700 A CN 201210439700A CN 103810178 A CN103810178 A CN 103810178A
- Authority
- CN
- China
- Prior art keywords
- webpages
- meta
- source code
- page
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种计算网页完整率的方法,包括以下步骤:据网站地址,通过虚拟请求的方式获取到网站页面的html源码,接着可以根据html源码抓取到指向自己本网站的链接,以此类推获取到整个站点所有的网页,然后分析所有网页的html源码,找到meta标签,分析其meta标签的keywords和description属性是否已经设置,并且不是空的,最后对meta标签是否完整作出统计,计算出meta标签完整率,(公式:meta标签不完整的页面个数/网站的网页个数);计算出完整率,通过网页的显示出来。采用本发明技术方案,很方便得检查出网站meta标签设置是否完整以及对搜索引擎的收录效果。
Description
技术领域
本发明涉及网络软件技术领域,具体涉及一种计算网页完整率的方法。
背景技术
Meta标签是HTML标记HEAD区的一个关键标签,它提供的信息虽然用户不可见,但却是文档的最基本的元信息,除了提供文档字符集、使用语言、作者等基本信息外,还涉及对关键词和网页等级的设定。
各大主流搜索引擎,对于Meta标签的重视程度也是相当高,基本上搜索引擎通过蜘蛛收录网页时,都是通过meta标签内设置的关键词以及页面描述信息来进行分析,并分类收录。
所以保证每张页面的meta标签的完整性,对于网站的完整度、专业度以及推广度是极为重要的。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种计算网页完整率的方法,本发明很方便得检查出网站meta标签设置是否完整以及对搜索引擎的收录效果。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种计算网页完整率的方法,包括以下步骤:
步骤1)输入网址,并触发检测;
步骤2)获取到页面源码,并对页面源码进行分析;
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接;
步骤4)获取并分析所有站内链接的html源码,判断每一页的meta标签是否完整,并统计出meta标签设置不完整的页面个数和总的页面个数;
步骤5)通过公式meta标签设置不完整的页面个数/总的页面个数计算出meta标签完整率;
步骤6)通过页面显示出来。
本发明的有益效果是:
本发明很方便得检查出网站meta标签设置是否完整以及对搜索引擎的收录效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的流程示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
参照图1所示,一种计算网页完整率的方法,包括以下步骤:
步骤1)输入网址,并触发检测;
步骤2)获取到页面源码,并对页面源码进行分析;
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接;
步骤4)获取并分析所有站内链接的html源码,判断每一页的meta标签是否完整,并统计出meta标签设置不完整的页面个数和总的页面个数;
步骤5)通过公式meta标签设置不完整的页面个数/总的页面个数计算出meta标签完整率;
步骤6)通过页面显示出来。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种计算网页完整率的方法,其特征在于:包括以下步骤:
步骤1)输入网址,并触发检测;
步骤2)获取到页面源码,并对页面源码进行分析;
步骤3)获取到所有的站内链接,通过站内链接再次深入抓取站内链接,直到抓取到所有站内链接;
步骤4)获取并分析所有站内链接的html源码,判断每一页的meta标签是否完整,并统计出meta标签设置不完整的页面个数和总的页面个数;
步骤5)通过公式meta标签设置不完整的页面个数/总的页面个数计算出meta标签完整率;
步骤6)通过页面显示出来。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210439700.1A CN103810178A (zh) | 2012-11-07 | 2012-11-07 | 一种计算网页完整率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210439700.1A CN103810178A (zh) | 2012-11-07 | 2012-11-07 | 一种计算网页完整率的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103810178A true CN103810178A (zh) | 2014-05-21 |
Family
ID=50706963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210439700.1A Pending CN103810178A (zh) | 2012-11-07 | 2012-11-07 | 一种计算网页完整率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103810178A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111123301A (zh) * | 2018-11-01 | 2020-05-08 | 千寻位置网络有限公司 | 一种改正数完整率测评方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080004904A (ko) * | 2006-07-07 | 2008-01-10 | 오희국 | 실시간 웹 무결성 검증 시스템 |
US7426556B2 (en) * | 2004-03-30 | 2008-09-16 | At&T Intellectual Property I, L.P. | Methods, systems, and products for verifying integrity of web-server served content |
CN101329687A (zh) * | 2008-07-31 | 2008-12-24 | 清华大学 | 一种新闻网页定位方法 |
CN102096781A (zh) * | 2011-01-18 | 2011-06-15 | 南京邮电大学 | 一种基于网页关联性的钓鱼检测方法 |
CN102420851A (zh) * | 2011-11-10 | 2012-04-18 | 百度在线网络技术(北京)有限公司 | Http服务监控方法及系统 |
CN102592067A (zh) * | 2011-01-17 | 2012-07-18 | 腾讯科技(深圳)有限公司 | 一种网页识别方法、装置及系统 |
-
2012
- 2012-11-07 CN CN201210439700.1A patent/CN103810178A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7426556B2 (en) * | 2004-03-30 | 2008-09-16 | At&T Intellectual Property I, L.P. | Methods, systems, and products for verifying integrity of web-server served content |
KR20080004904A (ko) * | 2006-07-07 | 2008-01-10 | 오희국 | 실시간 웹 무결성 검증 시스템 |
CN101329687A (zh) * | 2008-07-31 | 2008-12-24 | 清华大学 | 一种新闻网页定位方法 |
CN102592067A (zh) * | 2011-01-17 | 2012-07-18 | 腾讯科技(深圳)有限公司 | 一种网页识别方法、装置及系统 |
CN102096781A (zh) * | 2011-01-18 | 2011-06-15 | 南京邮电大学 | 一种基于网页关联性的钓鱼检测方法 |
CN102420851A (zh) * | 2011-11-10 | 2012-04-18 | 百度在线网络技术(北京)有限公司 | Http服务监控方法及系统 |
Non-Patent Citations (1)
Title |
---|
刘军: ""网页采集、净化与分类"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111123301A (zh) * | 2018-11-01 | 2020-05-08 | 千寻位置网络有限公司 | 一种改正数完整率测评方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020164276A1 (zh) | 网页数据爬取方法、装置、系统及计算机可读存储介质 | |
WO2019041521A1 (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
CN103164427B (zh) | 新闻聚合方法及装置 | |
CN104036030B (zh) | 基于浏览器的弹窗广告拦截方法、系统及相关浏览器 | |
US9465789B1 (en) | Apparatus and method for detecting spam | |
CN102779174A (zh) | 一种舆情信息展示系统及方法 | |
CN103729385B (zh) | 一种报表自动更新的方法和装置 | |
CN105677857B (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
CN108804469B (zh) | 一种网页识别方法以及电子设备 | |
CN105550253B (zh) | 一种类型关系的获取方法及装置 | |
CN104133870A (zh) | 一种网页相似度计算方法及装置 | |
CN111310750B (zh) | 一种信息处理方法、装置、计算设备及介质 | |
CN110955690A (zh) | 一种基于大数据技术的自助数据标签平台及自助数据标签方法 | |
CN114241501B (zh) | 影像文档处理方法、装置及电子设备 | |
WO2020024403A1 (zh) | 目标语料数据的爬取方法、装置及存储介质 | |
CN103365876A (zh) | 基于关系图谱生成网络操作辅助信息的方法与设备 | |
CN103279275B (zh) | 分析文档内容的方法及手持式电子装置 | |
US9053177B1 (en) | Sitelinks based on visual location | |
CN102999576A (zh) | 用于确定目标页面所对应的页面描述信息的方法和设备 | |
CN103810177A (zh) | 一种准确获取网站访问者在网页上真实停留时间的方法 | |
Kucher et al. | Analysis of VINCI 2009-2017 proceedings | |
CN103810178A (zh) | 一种计算网页完整率的方法 | |
CN105574764A (zh) | 一种知识产权评估系统 | |
CN105045890A (zh) | 确定目标新闻源中的热点新闻的方法与设备 | |
CN103809940A (zh) | 一种判断div+css结构的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice |
Addressee: Jiangsu Shidewei Network Technology Co., Ltd. Document name: the First Notification of an Office Action |
|
DD01 | Delivery of document by public notice | ||
DD01 | Delivery of document by public notice |
Addressee: Jiangsu Shidewei Network Technology Co., Ltd. Document name: Notification that Application Deemed to be Withdrawn |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140521 |