CN102306201B - 一种网页标题分析的方法和系统 - Google Patents

一种网页标题分析的方法和系统 Download PDF

Info

Publication number
CN102306201B
CN102306201B CN2011102913881A CN201110291388A CN102306201B CN 102306201 B CN102306201 B CN 102306201B CN 2011102913881 A CN2011102913881 A CN 2011102913881A CN 201110291388 A CN201110291388 A CN 201110291388A CN 102306201 B CN102306201 B CN 102306201B
Authority
CN
China
Prior art keywords
word
title
webpage
web page
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011102913881A
Other languages
English (en)
Other versions
CN102306201A (zh
Inventor
邢飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2011102913881A priority Critical patent/CN102306201B/zh
Publication of CN102306201A publication Critical patent/CN102306201A/zh
Application granted granted Critical
Publication of CN102306201B publication Critical patent/CN102306201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种网页标题分析的方法,解决了针对网页标题的搜索引擎优化中的直观性和准确性的问题。本发明包括以下步骤:1.记录网页的每一个用户访问,将referrer信息中包含有搜索引擎关键词的部分进行提取并记录;2.使用分词器,对所有的搜索关键词或指定时间区间内的搜索关键词与网页标题进行分词;3.将每个网页下对应的指定时间区间内的搜索关键词的分词后的结果进行归并统计,得到标题中每个词对应的搜索次数,并以直观的形式展示。本发明提出了一种新的基于来源搜索关键词的网页标题分析,为网页做搜索引擎优化,提供了更加直观和准确的依据。

Description

一种网页标题分析的方法和系统
技术领域
本发明涉及互联网数据分析领域,尤其涉及网站流量数据分析领域。
背景技术
HTTP referrer:HTTP协议表头的一个字段,记录该HTTP请求的来源网页URL。当用户浏览网站时,用户在网页A通过点击超链接要进入到下一个页面B时,浏览器会发送一个HTTP请求给网站服务器,该请求中,包含了要访问的网页URL B,和referrer信息A。
网页标题:通常地,在网页html代码中“<title>”和“</title>”中包含的文字即网页标题。更精确地,对于网页内容中包含有明显的加粗或大号字体的文字,且这段文字概括了整个网页内容,也被定义为网页标题。例如:电子商务网站中一个商品详情页面中商品的全名即为该网页标题;一篇新闻网页中新闻的题目即为改网页标题。
搜索引擎优化:搜索引擎是互联网用户获取信息的重要入口,用户在搜索引擎中输入查询词找到需要的资料。为了提升网站中网页被用户找到的几率,对网页进行合理地搜索引擎优化是必不可少的。当用户搜索与某网页相关的查询词时,经过优化的网页在搜索结果页中展示并且更靠前,进而增加了该网页的浏览量。其中,网页的标题是影响搜索引擎排名的重要因素,因此,对网页标题的优化是搜索引擎优化中的重要环节。这里提到的搜索引擎,包括但不限于网页搜索引擎、商品搜索引擎、电子商务网站中站内商品搜索引擎。
分词器:可以自动识别句子或段落中词的边界的装置,可以将句子或段落切分成一个一个的词。
目前,对网页标题的优化方法主要是根据网页的主体内容,人为或辅助以词表来判断标题中词的保留或删除,没有方法能够结合用户的搜索行为,准确且直观地对网页标题进行分析。
发明内容
针对现有技术上存在的缺陷和不足,本发明提供了一种网页标题分析的方法,能够根据该页面搜索来源关键词,对标题中的每个词进行分析并以可视化形式展示,以帮助网页内容提供者更好的对网页进行搜索引擎优化,从而提升了网页被用户找到的几率。
为了达到上述目的,本发明的方法,包括以下步骤:
1.记录网页的每一个用户访问,将referrer信息中包含有搜索引擎关键词的部分进行提取并记录;
2.使用分词器,对所有的搜索关键词或指定时间区间内的搜索关键词与网页标题进行分词;
3.将每个网页下对应的指定时间区间内的搜索关键词进行归并统计,得到标题中每个词对应的搜索关键词的次数,并以直观的形式展示;
上述的方法中,步骤1进一步包括:
11.根据预先定义的规则库,判断referrer信息类型,如果是搜索引擎查询类,则继续执行12,如果不是,则不记录该条信息;
12.根据referrer信息匹配到的规则,提取对应的搜索关键词信息并解码、记录;
上述的方法中,步骤3进一步包括:
31.选取指定时间内的搜索关键词的分词后的结果;
32.对每个搜索关键词分词后的结果进行搜索次数归并统计;
33.根据32中的统计结果,对网页标题中的每个词进行匹配,得到标题中每个词在特定时间段的搜索次数,未匹配上的词次数记作0;
34.对33中的统计结果进行渲染,并以直观的形式展示。
附图说明
图1为根据本发明的网页标题分析方法流程图;
图2为根据本发明的网页标题分析系统实际效果截图。
具体实施方式
下面结合附图1对本发明做进一步详细说明:
1.对网页的每一个用户访问,记录该商品的URL、referrer信息及访问时间。根据预先设定一个referrer信息分类规则库,将referrer信息与规则库中规则进行匹配,如果匹配成功,将包含有搜索引擎关键词的部分进行提取、URL编码转换并记录。这里提及的referrer信息分类规则库,可以用来判断referrer信息是否属于搜索引擎查询,如果是搜索引擎查询,并提供查询词提取规则,以供提取搜索查询词。
例如,referrer信息分类规则库中包含如下规则:
http://s.taobao.com/search?q=*
http://search.360buy.com/Search?keyword=*
http://www.baidu.com/baidu?word=*
对于某个referrer信息“http://www.baidu.com/s?wd=%CA%D6%BB%FA”,首先将其在规则库中进行匹配,成功匹配后,提取关键词部分为“%CA%D6%BB%FA”,进行URL编码转化,最终转换为用户实际的查询词:“手机”。
对于另一个referrer信息“http://www.sina.com.cn/”,将其在规则库中进行匹配,匹配失败,说明该信息不是搜索引擎查询,则不记录。
2.用分词器切分网页标题与收集到的所有搜索关键词或指定时间区间内的搜索关键词。
3.将每个网页下对应的指定时间区间内的每个搜索关键词的分词后的结果进行归并统计,得到标题中每个词对应的搜索次数。例如:“飞利浦快速充电器SCB3055NB”这个商品网页在2011年8月1日至2011年8月7日共有10个用户访问是来自搜索引擎的,对应的查询词分别是:“philips充电器”4次,“飞利浦充电器”3次,“SCB3055NB”2次,“飞利浦快充”1次,经过步骤2分词后的结果分别是:“philips充电器”,“飞利浦充电器”,“SCB3055NB”,“飞利浦快充”。经过归并统计,得到结果:“充电器”7次,“飞利浦”4次,“philips”4次,“SCB3055NB”2次,“快充”1次。将该结果与网页标题进行匹配,得到标题分析结果:飞利浦[4次]快速[0次]充电器[7次]SCB3055NB[2次]。展示模块根据标题分析结果进行渲染和呈现,渲染技术包括但不限于:
a.网页html中的css或javascript技术;
b.flash技术。
呈现方式包括但不限于:
a.根据标题中每个词的搜索次数,次数多的词用深颜色文字,次数少的词用浅颜色文字;
b.根据标题中每个词的搜索次数,次数多的词用深颜色背景,次数少的词用浅颜色背景;
c.当鼠标停留在某个词上时,显示浮动框,框里显示该词的搜索次数。
下面结合图2举例说明。图2是已实现系统中标题分析的结果展现截图。
一个商品网页标题为“超漂亮2011丽婴房彼得兔时尚衣袖针织棉长袖T恤上衣女童”,根据本发明的网页标题分析方法,选取2011年9月1日到2011年9月7日间搜索引擎流量来源数据进行分析,分析结果如图2所示。该商品网页标题中的每个词根据分析结果数字大小,以不同背景颜色深浅来直观地表示该词的重要度。可以看到,本例中,“丽婴房”是统计值最大的词,背景颜色最深;而“超”“漂亮”是统计值最小的词,背景颜色最浅。当用户将鼠标移到“丽婴房”上时,呈现“丽婴房”对应统计值的浮动框,如图2(a)所示;当用户将鼠标移到“漂亮”上时,呈现“漂亮”对应统计值的浮动框,如图2(b)所示。

Claims (5)

1.一种网页标题分析的方法,其特征在于包含如下步骤:
(1)记录网页的每一个用户访问,将referrer信息中包含有搜索引擎关键词的部分进行提取、解码并记录;
(2)使用分词器,对所有的搜索关键词或指定时间区间内的搜索关键词与网页标题进行分词;
(3)根据指定时间区间搜索关键词的分词后的统计信息,对网页标题中的每个词进行搜索重要度分析,包括以下子步骤:
(31)选取指定时间内的搜索关键词的分词后的结果;
(32)对每个搜索关键词分词后的每个词进行搜索次数归并统计;
(33)根据(32)中的统计结果,对网页标题中的每个词进行匹配,得到标题中每个词在特定时间段的搜索次数,未匹配上的词次数记作0;
(4)将统计结果以直观的形式展示;
展示方法是通过网页技术(css、javascipt)或flash技术生成分析结果,分析结果的形式是以下形式的一种或几种:
(41)根据标题中每个词的搜索次数,次数多的词用深颜色文字,次数少的词用浅颜色文字;
(42)根据标题中每个词的搜索次数,次数多的词用深颜色背景,次数少的词用浅颜色背景;
(43)当鼠标停留在某个词上时,显示浮动框,框里显示该词的搜索次数。
2.根据权利要求1所述的方法,其特征在于,所述“搜索引擎”是网页搜索引擎、商品搜索引擎、电子商务网站中站内商品搜索引擎中的一种或几种。
3.根据权利要求1所述的方法,其特征在于,所述网页标题是指网页html代码中“<title>”和“</title>”中包含的文字。
4.根据权利要求1所述的方法,其特征在于,所述网页标题是指电子商务网站中商品详情网页中所描述商品的全称。
5.根据权利要求1所述的方法,其特征在于,所述步骤(1)进一步包括:
(11)根据预先定义的规则库,判断referrer信息类型,如果是搜索引擎查询类,则继续执行步骤(12);如果不是,则不记录该条信息;
(12)根据referrer信息匹配到的规则,将对应的搜索关键词信息提取、解码并记录。
CN2011102913881A 2011-09-30 2011-09-30 一种网页标题分析的方法和系统 Active CN102306201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102913881A CN102306201B (zh) 2011-09-30 2011-09-30 一种网页标题分析的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102913881A CN102306201B (zh) 2011-09-30 2011-09-30 一种网页标题分析的方法和系统

Publications (2)

Publication Number Publication Date
CN102306201A CN102306201A (zh) 2012-01-04
CN102306201B true CN102306201B (zh) 2013-12-04

Family

ID=45380063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102913881A Active CN102306201B (zh) 2011-09-30 2011-09-30 一种网页标题分析的方法和系统

Country Status (1)

Country Link
CN (1) CN102306201B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778156A (zh) * 2012-10-24 2014-05-07 阿里巴巴集团控股有限公司 数据搜索的方法和装置以及用于数据搜索的服务器
CN103001954B (zh) * 2012-11-22 2016-03-09 深圳市共进电子股份有限公司 一种web服务器文件保护方法及系统
CN104598439B (zh) * 2013-10-30 2021-03-05 阿里巴巴集团控股有限公司 信息对象的标题修正方法及装置和推送信息对象的方法
CN104063430A (zh) * 2014-06-10 2014-09-24 百度在线网络技术(北京)有限公司 搜索结果的展现方法和装置
CN104158698B (zh) * 2014-08-06 2017-07-28 厦门天锐科技股份有限公司 一种网页浏览记录统计方法及系统
CN105138579A (zh) * 2015-07-31 2015-12-09 北京金山安全软件有限公司 获取关键词和基于该关键词进行信息推荐的方法及装置
CN105930442B (zh) * 2016-04-19 2019-06-18 广州天趣网络科技有限公司 一种基于统计计算的网站搜索引擎优化方法及系统
CN110910203A (zh) * 2019-10-24 2020-03-24 苏宁云计算有限公司 一种商品页面的内容展示方法及装置
CN111931040B (zh) * 2020-06-30 2024-01-12 深圳市世强元件网络有限公司 一种网络平台内部服务实体服务入口的推荐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661471A (zh) * 2008-08-29 2010-03-03 朱世康 一种网页页面的显示方法和装置
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661471A (zh) * 2008-08-29 2010-03-03 朱世康 一种网页页面的显示方法和装置
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《浅论SEO及其实现》;张红宇;《中国科技信息》;20060401(第16期);51 *
张红宇.《浅论SEO及其实现》.《中国科技信息》.2006,(第16期),51.

Also Published As

Publication number Publication date
CN102306201A (zh) 2012-01-04

Similar Documents

Publication Publication Date Title
CN102306201B (zh) 一种网页标题分析的方法和系统
CN102622445B (zh) 一种基于用户兴趣感知的网页推送系统及方法
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN101452453B (zh) 一种输入法网址导航的方法和一种输入法系统
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN102253979B (zh) 基于视觉的web页面萃取方法
CN102722498B (zh) 搜索引擎及其实现方法
CN103166981B (zh) 一种无线网页转码方法及装置
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN109857956B (zh) 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN101520798A (zh) 基于垂直搜索和聚焦爬虫的网页分类技术
CN101329687A (zh) 一种新闻网页定位方法
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN102065114A (zh) 一种移动终端访问网页的方法及装置
CN101114284B (zh) 一种显示网页内容相关信息的方法及系统
CN101630315B (zh) 一种快速检索方法及系统
CN104090757A (zh) 针对浏览器的富媒体信息展示方法
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
TWI417751B (zh) Information providing device, information providing method, information application program, and information recording medium
CN104915422A (zh) 基于浏览器的网页收藏方法和装置
CN103729178A (zh) 一种浏览器多标签页的处理方法及系统
KR101074578B1 (ko) 검색 데이터베이스 관리 방법 및 장치
CN102819384A (zh) 一种输入栏处进行提示显示的方法和装置
CN101115024A (zh) 一种显示网页内容相关信息的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant