CN102184240B - 基于移动通讯设备终端的网页页面排版方法及系统 - Google Patents

基于移动通讯设备终端的网页页面排版方法及系统 Download PDF

Info

Publication number
CN102184240B
CN102184240B CN201110125846.4A CN201110125846A CN102184240B CN 102184240 B CN102184240 B CN 102184240B CN 201110125846 A CN201110125846 A CN 201110125846A CN 102184240 B CN102184240 B CN 102184240B
Authority
CN
China
Prior art keywords
webpage
typesetting
weight
page
eigenwert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110125846.4A
Other languages
English (en)
Other versions
CN102184240A (zh
Inventor
梁捷
易壬俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Dongjing Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Dongjing Computer Technology Co Ltd filed Critical Guangzhou Dongjing Computer Technology Co Ltd
Priority to CN201110125846.4A priority Critical patent/CN102184240B/zh
Publication of CN102184240A publication Critical patent/CN102184240A/zh
Application granted granted Critical
Publication of CN102184240B publication Critical patent/CN102184240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及移动通讯设备终端相关技术领域,特别是基于移动通讯设备终端的网页页面排版方法及系统。所述方法包括:移动通讯设备终端向中转服务器转发网页访问请求;中转服务器根据网页访问请求获取第一网页页面,根据第一网页页面的网页页面特征计算第一网页页面特征值;中转服务器从特征值数据库中搜索与第一网页页面特征值相关的第一排版辅助数据,中转服务器根据第一排版辅助数据对第一网页页面进行排版得到第一排版网页页面,并向移动通讯设备终端返回第一排版网页页面。本发明通过对多用户的浏览特点进行统计,能够通过很大幅度优化服务器排版页面的内容与显示效果,提高用户体验。

Description

基于移动通讯设备终端的网页页面排版方法及系统
技术领域
本发明涉及移动通讯设备终端相关技术领域,特别是基于移动通讯设备终端的网页页面排版方法及系统。
背景技术
目前手机浏览器采用的服务器排版技术,一般都是通过某种固定的机器算法来对Web页面进行处理,转换为适宜于手机屏幕显示的页面,这种转换由于缺乏人工的干预,很多情况下效果是不理想的,比如一个Web页面中往往只有一部分关键内容是用户真正关注的,而这种机器自动转换往往不能准确知道这些关键内容,并且这种自动转换产生出来的页面,其内容布局往往不够理想,不能带来很好的用户体验。
发明内容
本发明的第一个发明目的在于提供一种基于移动通讯设备终端的网页页面排版方法,以解决现有技术对网页页面自动排版内容不能突出用户关注区域的技术问题。
为了实现本发明的第一个发明目的,采用的技术方案如下:
一种基于移动通讯设备终端的网页页面排版方法,所述方法包括:
移动通讯设备终端向中转服务器发送网页访问请求;
中转服务器根据网页访问请求获取第一网页页面,根据第一网页页面的网页页面特征计算第一网页页面特征值;
中转服务器从特征值数据库中搜索与第一网页页面特征值相关的第一排版辅助数据,中转服务器根据第一排版辅助数据对第一网页页面进行排版得到第一排版网页页面,并向移动通讯设备终端返回第一排版网页页面。
作为一种优选方案,所述第一网页页面特征包括:第一网页页面的域名信息、文档结构信息及关键内容信息。
作为进一步的优选方案,所述第一排版辅助数据包括第一目标页面模板,所述第一目标页面模板为基于与第一网页页面特征值相关联的网页文档结构而生成的用于描述目标页面的页面元素布局框架的描述信息,中转服务器根据目标页面模板对第一网页页面进行排版,把第一网页页面的页面元素采用与目标页面模板中相应的页面元素进行布局。
作为进一步的优选方案,所述第一排版辅助数据包括第一页面区域权重信息,所述第一页面区域权重信息为多个用户对第一网页页面各个区域的关注权重,中转服务器根据每个区域的关注权重选择权重处理方式进行处理。
作为再进一步的优选方案,所述各个区域的关注权重与多个用户对第一网页页面各个区域的浏览时间的统计值成正比。
作为更进一步的优选方案,所述第一网页页面包括第四区域,如果对第一网页页面的第四区域的浏览用户数超过预先设定的浏览统计阈值,则计算第四区域的关注权重,否则不记录第四区域的关注权重。
作为再进一步的优选方案,所述方法包括三种权重处理方法,分别为第一权重处理方式、第二权重处理方式和第三权重处理方式,其中:
第一权重处理方式,包括:对于关注权重在第一权重区域范围内的第一区域,删除第一区域;
第二权重处理方式,包括:对于关注权重值第二权重区域范围内的第二区域,减少第二区域的字体。
第三权重处理方式,包括:对于关注权重值第三权重区域范围内的第三区域,则加大第三区域的字体。
本发明的第二个发明目的,在于提供一种基于移动通讯设备终端的网页页面排版系统及其中转服务器,以实现本发明的第一个发明目的所提供的网页页面排版方法。
为了实现本发明的第二个发明目的,采用的技术方案如下:
一种基于移动通讯设备终端的网页页面排版系统的中转服务器,所述中转服务器包括:
根据移动通讯设备终端发送的网页访问请求从目标服务器获取第一网页页面的获取模块;
根据网页页面的网页页面特征计算第一网页页面特征值的页面特征值计算模块;
特征值数据库,保存多个与网页页面特征值相关的排版辅助数据;
从特征值数据库中搜索与网页页面特征值相关的第一排版辅助数据,中转服务器根据第一排版辅助数据对网页页面进行排版得到第一排版网页页面,并向移动通讯设备终端返回所述第一排版网页页面的排版模块。
一种基于移动通讯设备终端的网页页面排版系统,所述系统包括:
设置在移动通讯设备终端,用于向中转服务器转发网页访问请求的转发模块;
设置在中转服务器,根据网页访问请求获取第一网页页面,根据第一网页页面的网页页面特征计算第一网页页面特征值的页面特征值计算模块;
设置在中转服务器,从特征值数据库中搜索与第一网页页面特征值相关的第一排版辅助数据,中转服务器根据第一排版辅助数据对第一网页页面进行排版得到第一排版网页页面,并向移动通讯设备终端返回第一排版网页页面的排版模块。
本发明通过对多用户的浏览特点进行统计,能够通过很大幅度优化服务器排版页面的内容与显示效果,提高用户体验。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的系统结构图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细的说明。
如图1所示为本发明实施例的流程图。
步骤S110:移动通讯设备终端向中转服务器转发网页访问请求;
步骤S120:中转服务器根据网页访问请求获取第一网页页面,根据第一网页页面的域名信息、文档结构信息及关键内容信息计算第一网页页面特征值;
步骤S130:中转服务器从特征值数据库中搜索与第一网页页面特征值相关的第一排版辅助数据,中转服务器根据第一排版辅助数据对第一网页页面进行排版得到第一排版网页页面,并向移动通讯设备终端返回第一排版网页页面。
页面的特征值是一系统特征的集合,并非一个单纯的数值,两个页面是否相似的比较,不是分别计算其特征值再将其值比较大小,而是按照预先设定的权值,对各个特征的相似度加权得到综合的相似度。最简单的一种特征值计算规则可以为:1对两页面的域名做从左至右的字符串比较,将相同字符数/最大字符串作为其相似度;2统计页面根标签中各个子标签的 (比如td)的个数,以及特定标签下面子标签个数,然后用类似于(max(count(td1), count(td2)) - count(td1) + count(td2))/max(count(td1), count(td2))的方法计算某标签相似度,对统计的各个标签进行加权平均,这些特征都可以作为特征值,在网页匹配的时候使用这些特征值进行相似度计算。
所述的关键内容是指该页面的正文内容,对于大部分的网页,可以通过一些列的规则来获取关键内容,例如可以定义这样一条规则,从DOM TREE中将页面中一块区域的内容取出并计算包含的超链接个数,一般链接较多的区域不是关键内容。关于关键内容的获取,业界也有可供参考的较成熟的方法,例如基于视觉获取关键内容,基于标记窗获取关键内容,或者基于双层决策算法获取关键内容等等。
上述第一排版辅助数据包括第一目标页面模板和第一页面区域权重信息:
第一目标页面模板为基于与第一网页页面特征值相关联的网页文档结构而生成的用于描述目标页面的页面元素布局框架的描述信息,中转服务器根据目标页面模板对第一网页页面进行排版,把第一网页页面的页面元素采用与目标页面模板中相同的页面元素进行布局。
页面模板的产生方式可以是这样的,对于一些热门的页面,可以预先制作页面模板,同时提供让热心用户制作并上传模板的途径。对同一特征值的网页可能会存在多种页面模板,用户可以主动指定使用的模板,如果无指定则使用评分最高的模板。
第一页面区域权重信息为多个用户对第一网页页面各个区域的关注权重,区域权重信息是通过对用户浏览页面的行为进行统计,并上传到特定的服务器进行分析得到,中转服务器根据每个区域的关注权重选择权重处理方式进行处理。
各个区域的关注权重与多个用户对第一网页页面各个区域的浏览时间的统计值成正比。比如用户总是快速跳过的区域权重最低,而停留时间较久或者有一些附加操作的页面区域则权重较高。该类信息是基于对大量用户浏览同特征值网页时行为的一个统计,因此需要设置一个有效性阈值,只有当统计量达标时才生效。
上述的权重处理方式有三种:
包括第一权重处理方式,包括:对于关注权重在第一权重区域范围内的第一区域,删除第一区域,优选地,第一权重区域范围为低于阈值1,当关注权值低于阈值1,则去掉第一区域内容;
作为再进一步的优选方案,所述方法包括第二权重处理方式,包括:对于关注权重值第二权重区域范围内的第二区域,减少第二区域的字体,优选地,第一权重区域范围为高于阈值1但是低于阈值2,如果高于阈值1但是低于阈值2,则减小其字体或者使用不醒目的颜色。
作为再进一步的优选方案,所述方法包括第三权重处理方式,包括:对于关注权重值第三权重区域范围内的第三区域,则加大第三区域的字体,优选地,第三权重区域范围为高于阈值3但低于阈值4,如果高于阈值3但低于阈值4,则加大其字体或使用醒目的颜色。同时对于高于阈值3的区域,需要检测是其相似区域是否有不在目标页面中的,如果有则重新将其加入目标页面。
对于高于阈值2但是低于阈值3,则不改变区域里面的内容。
如图2所示为本发明实施例的结构示意图。
一种基于移动通讯设备终端的网页页面排版系统200,所述系统200包括:
设置在移动通讯设备终端,用于向中转服务器转发网页访问请求的转发模块210;
设置在中转服务器,根据网页访问请求获取第一网页页面,根据第一网页页面的网页页面特征计算第一网页页面特征值的页面特征值计算模块220;
设置在中转服务器的特征值数据库230,用于保存多个与网页页面特征值相关的排版辅助数据;
设置在中转服务器,从特征值数据库230中搜索与第一网页页面特征值相关的第一排版辅助数据,中转服务器根据第一排版辅助数据对第一网页页面进行排版得到第一排版网页页面,并向移动通讯设备终端返回第一排版网页页面的排版模块240。
下面举一个具体实现方式为例子。
手机浏览器向中间件服务器请求访问某小说页面,该页面中存在浮动广告及结构复杂的导航菜单。中间件服务器需要首先计算该页面的特征值,并查询是否有辅助排版信息。如果有模板,则根据最高评分模板的描述将相应的页面内容取出来填入模板并生成目标页面。模板描述中,可以舍弃掉入广告元素,并只显示一级导航内容,同时将小说文字设置为特定的字号并居左显示。如果没有模板,但是有区域权重数据,则先按照原算法生成一个目标页面,如果生成的目标页面中,某区域权值低于阈值1,则去掉该区域内容,如果高于阈值1但是低于阈值2,则减小其字体或者使用不醒目的颜色,如果高于阈值2但是低于阈值3,则不改变,如果高于阈值3但低于阈值4,则加大其字体或使用醒目的颜色。同时对于高于阈值3的区域,需要检测是其相似区域是否有不在目标页面中的,如果有则重新将其加入目标页面。

Claims (7)

1.一种基于移动通讯设备终端的网页页面排版方法,其特征在于,所述方法包括:
移动通讯设备终端向中转服务器发送网页访问请求;
中转服务器根据所述网页访问请求从目标服务器获取第一网页页面,根据第一网页页面的网页页面特征计算第一网页页面特征值,页面的特征值是一系统特征的集合;
中转服务器从特征值数据库中搜索与第一网页页面特征值相关的第一排版辅助数据,中转服务器根据第一排版辅助数据对第一网页页面进行排版得到第一排版网页页面,并向移动通讯设备终端返回所述第一排版网页页面;
所述第一排版辅助数据包括第一目标页面模板,所述第一目标页面模板为基于与第一网页页面特征值相关联的网页文档结构而生成的用于描述目标页面的页面元素布局框架的描述信息;
所述第一排版辅助数据包括第一页面区域权重信息,所述第一页面区域权重信息为多个用户对第一网页页面各个区域的关注权重,中转服务器根据每个区域的关注权重选择权重处理方式进行处理; 各个区域的关注权重与多个用户对第一网页页面各个区域的浏览时间的统计值成正比。
2.根据权利要求1所述的网页页面排版方法,其特征在于,所述第一网页页面特征包括:第一网页页面的域名信息、文档结构信息及关键内容信息。
3.根据权利要求1所述的网页页面排版方法,其特征在于,所述中转服务器根据第一排版辅助数据对第一网页页面进行排版得到第一排版网页页面具体包括:将所述第一网页页面中的页面元素采用与所述第一目标页面模板中相应的页面元素进行布局。
4.根据权利要求1所述的网页页面排版方法,其特征在于,所述第一网页页面包括第四区域,如果对第一网页页面的第四区域的浏览用户数超过预先设定的浏览统计阈值,则计算第四区域的关注权重,否则不记录第四区域的关注权重。
5.根据权利要求1所述的网页页面排版方法,其特征在于,所述方法包括三种权重处理方法,分别为第一权重处理方式、第二权重处理方式和第三权重处理方式,其中:
第一权重处理方式,包括:对于关注权重在第一权重区域范围内的第一区域,删除第一区域;
第二权重处理方式,包括:对于关注权重值第二权重区域范围内的第二区域,减小第二区域的字体;
第三权重处理方式,包括:对于关注权重值第三权重区域范围内的第三区域,则加大第三区域的字体。
6.一种基于移动通讯设备终端的网页页面排版系统的中转服务器,其特征在于,所述中转服务器包括:
根据移动通讯设备终端发送的网页访问请求从目标服务器获取第一网页页面的获取模块;
根据网页页面的网页页面特征计算第一网页页面特征值的页面特征值计算模块,页面的特征值是一系统特征的集合;
特征值数据库,保存多个与网页页面特征值相关的第一排版辅助数据;所述第一排版辅助数据包括第一目标页面模板,所述第一目标页面模板为基于与第一网页页面特征值相关联的网页文档结构而生成的用于描述目标页面的页面元素布局框架的描述信息;
所述第一排版辅助数据包括第一页面区域权重信息,所述第一页面区域权重信息为多个用户对第一网页页面各个区域的关注权重,中转服务器根据每个区域的关注权重选择权重处理方式进行处理; 各个区域的关注权重与多个用户对第一网页页面各个区域的浏览时间的统计值成正比;
从特征值数据库中搜索与网页页面特征值相关的第一排版辅助数据,中转服务器根据第一排版辅助数据对网页页面进行排版得到第一排版网页页面,并向移动通讯设备终端返回所述第一排版网页页面的排版模块。
7.一种基于移动通讯设备终端的网页页面排版系统,其特征在于,所述系统包括:
设置在移动通讯设备终端,用于向中转服务器转发网页访问请求的转发模块;
设置在中转服务器,根据网页访问请求获取第一网页页面,根据第一网页页面的网页页面特征计算第一网页页面特征值的页面特征值计算模块,页面的特征值是一系统特征的集合;
设置在中转服务器,从特征值数据库中搜索与第一网页页面特征值相关的第一排版辅助数据,根据第一排版辅助数据对第一网页页面进行排版得到第一排版网页页面,并向移动通讯设备终端返回第一排版网页页面的排版模块;
所述第一排版辅助数据包括第一目标页面模板,所述第一目标页面模板为基于与第一网页页面特征值相关联的网页文档结构而生成的用于描述目标页面的页面元素布局框架的描述信息;
所述第一排版辅助数据包括第一页面区域权重信息,所述第一页面区域权重信息为多个用户对第一网页页面各个区域的关注权重,中转服务器根据每个区域的关注权重选择权重处理方式进行处理; 各个区域的关注权重与多个用户对第一网页页面各个区域的浏览时间的统计值成正比。
CN201110125846.4A 2011-05-16 2011-05-16 基于移动通讯设备终端的网页页面排版方法及系统 Active CN102184240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110125846.4A CN102184240B (zh) 2011-05-16 2011-05-16 基于移动通讯设备终端的网页页面排版方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110125846.4A CN102184240B (zh) 2011-05-16 2011-05-16 基于移动通讯设备终端的网页页面排版方法及系统

Publications (2)

Publication Number Publication Date
CN102184240A CN102184240A (zh) 2011-09-14
CN102184240B true CN102184240B (zh) 2014-03-12

Family

ID=44570417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110125846.4A Active CN102184240B (zh) 2011-05-16 2011-05-16 基于移动通讯设备终端的网页页面排版方法及系统

Country Status (1)

Country Link
CN (1) CN102184240B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309878B (zh) * 2012-03-12 2017-02-01 腾讯科技(深圳)有限公司 用于网页显示中的排版的方法和装置
CN103455475B (zh) * 2012-06-01 2016-12-14 腾讯科技(深圳)有限公司 排版方法、设备及系统
CN104834646A (zh) * 2014-02-11 2015-08-12 腾讯科技(深圳)有限公司 网页显示方法、客户端及系统
CN104102728A (zh) * 2014-07-23 2014-10-15 天脉聚源(北京)科技有限公司 一种新闻列表展示方法和装置
CN109299416B (zh) * 2018-10-19 2020-01-14 北京字节跳动网络技术有限公司 一种网页处理方法、装置、电子设备及存储介质
CN111125587B (zh) * 2019-12-31 2023-08-04 北京百度网讯科技有限公司 网页结构优化方法、装置、设备和存储介质
CN114528519B (zh) * 2022-04-22 2022-09-09 深圳市云波网络科技有限公司 一种基于大数据的企业网站建设信息展示管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101815093A (zh) * 2010-03-11 2010-08-25 深圳市嘉讯软件有限公司 一种网页到移动终端的适配方法及移动终端页面适配装置
CN101882133A (zh) * 2009-05-05 2010-11-10 北京博越世纪科技有限公司 一种将web页面转换为wap页面的方法
CN101930475A (zh) * 2010-09-14 2010-12-29 中兴通讯股份有限公司 网页显示方法及浏览器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882133A (zh) * 2009-05-05 2010-11-10 北京博越世纪科技有限公司 一种将web页面转换为wap页面的方法
CN101815093A (zh) * 2010-03-11 2010-08-25 深圳市嘉讯软件有限公司 一种网页到移动终端的适配方法及移动终端页面适配装置
CN101930475A (zh) * 2010-09-14 2010-12-29 中兴通讯股份有限公司 网页显示方法及浏览器

Also Published As

Publication number Publication date
CN102184240A (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN102184240B (zh) 基于移动通讯设备终端的网页页面排版方法及系统
US11004109B2 (en) Automated creative extension selection for content performance optimization
US10235349B2 (en) Systems and methods for automated content generation
US9471714B2 (en) Method for increasing the security level of a user device that is searching and browsing web pages on the internet
US20150206169A1 (en) Systems and methods for extracting and generating images for display content
AU2014399168B2 (en) Automated click type selection for content performance optimization
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN104598577B (zh) 一种网页正文的提取方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
US10311120B2 (en) Method and apparatus for identifying webpage type
WO2015066891A1 (en) Systems and methods for extracting and generating images for display content
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN102339311B (zh) 在用户设备上基于查询分类搜索网页内容的方法与设备
JP5891339B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN111726336B (zh) 一种联网智能设备识别信息提取方法及系统
CN102193946A (zh) 为媒体文件添加标签方法和使用该方法的系统
CN110020312B (zh) 提取网页正文的方法和装置
US9268769B1 (en) System, method, and computer program for identifying message content to send to users based on user language characteristics
CN102789449A (zh) 对评论文本进行评价的方法和装置
CN101930475A (zh) 网页显示方法及浏览器
CN102768663A (zh) 一种网页标题的提取方法、装置及信息处理系统
CN102999511A (zh) 一种页面快速转换方法、装置和系统
CN103389981A (zh) 网络标签自动识别方法及其系统
JP5462591B2 (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
CN106779899B (zh) 恶意订单识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200417

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 2, 16, 301 rooms, 510665 Yun Yun Road, Tianhe District, Guangdong, Guangzhou

Patentee before: GUANGZHOU UCWEB COMPUTER TECHNOLOGY Co.,Ltd.