CN105677649A - 一种个性化网页排版的方法及装置 - Google Patents

一种个性化网页排版的方法及装置 Download PDF

Info

Publication number
CN105677649A
CN105677649A CN201410657924.9A CN201410657924A CN105677649A CN 105677649 A CN105677649 A CN 105677649A CN 201410657924 A CN201410657924 A CN 201410657924A CN 105677649 A CN105677649 A CN 105677649A
Authority
CN
China
Prior art keywords
subject
content
typesetting
user
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410657924.9A
Other languages
English (en)
Other versions
CN105677649B (zh
Inventor
杨文漪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201410657924.9A priority Critical patent/CN105677649B/zh
Publication of CN105677649A publication Critical patent/CN105677649A/zh
Application granted granted Critical
Publication of CN105677649B publication Critical patent/CN105677649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种个性化网页排版的方法及装置,该方法包括:获取网页的源内容信息,对源内容信息进行主题分类处理,得到多个主题板块;获取客户端发送的用户浏览网页的行为特征,分析得出用户感兴趣的网页主题和用户感兴趣的网页内容;根据得到的用户感兴趣的网页主题设置每个主题板块的排版权重值,并根据得到的用户感兴趣的网页内容设置主题板块内每个主题内容的排版权重值;根据主题板块的排版权重值和主题板块内每个主题内容的排版权重值自动进行网页页面的排版,并将排版的网页页面发送至客户端。该方法从用户行为特征和网页内容特征方面丰富页面排版的个性化信息,根据不同用户的偏好进行网页版面布局构建,并提供符合用户喜好的内容更新。

Description

一种个性化网页排版的方法及装置
技术领域
本发明涉及互联网信息技术处理领域,特别涉及一种个性化网页排版的方法及装置。
背景技术
随着互联网技术的不断发展,人们对智能化及个性化服务的需求愈加强烈,如何改进用户体验为用户提供更好的服务已经成为互联网领域每个产品都需要解决的关键问题。移动智能终端关注焦点突出、个体标识强烈、具有先天的个性化优势;传统网页大而全的信息展示方式,往往让用户无法准确获取所需信息,极大地降低用户使用效率。在以用户为中心的涉及理念深入人心的互联网时代,传统网页排版也急需跟上个性化智能服务的步伐,为不同用户提供适合用户使用习惯的网页排版及内容。
现有个性化网页排版大都只是简单的页面形式组合,用户可根据个人喜好对网页的位置、大小、颜色等页面属性而进行设置,从而达到表达个性特征的需求;用户可对系统页面中独立划分的模块进行拖拽重组,从而方便用户使用相关功能。归结起来,这些排版方式都需要用户人工参与进行设置或操作,只是基于网页布局形式的不同展现,没有涉及内容语义等更深层次的理解。另外一种常见的个性化页面排版,是针对页面预留的小部分固定元素进行个性化显示,有针对性地进行内容投放,如最常见的页面广告位展示。这种方法进一步分析了用户特性,达到了对不同用户的智能信息推荐,然而对于网页核心内容的排版技术却始终没有突破性创新。针对门户网站首页、新闻首页等综合信息页面,信息量巨大又不易于查看,用户对网页个性化排版的需求更加强烈。
大数据分析和分布式计算的普及,使得针对用户行为特征数据的分析更加精准细致,为每个用户提供个性化服务成为应用趋势。模型-视图-控制器MVC(model-view-controller)编程模式的广泛使用,使得WEB服务构建时业务逻辑、数据和界面显示分离,网页内容和展现形式的分开管理维护,让面向不同用户进行独立的网页内容组织变得更加容易。而互联网前端科技的成熟,使得网页排版细化丰富,版面更加精致可控,从而可实现页面模块的多层拆分和重组。页面个性化排版已经成为改进人机交互、提升用户体验的重要组成部分,计算机网络、数据挖掘、视觉设计等多个技术领域的发展都为其奠定了基础。
现有网页个性化排版方法的缺点:
1)现有网页个性化排版方法多注重界面展示形式的细枝末节,只是简单对网页的位置、大小、颜色等页面表面属性进行自定义,而对网页版面及内容的整体构建方法上几乎没有涉及。
2)现有网页个性化排版方法无一例外都需要人工手动设置,或进行版面重构的拖拽操作,没有做到无需用户感知参与过程便实现自适应网页排版,智能性远远达不到人们的需求。
3)现有网页个性化排版方法中还对网页的部分固定元素进行了有针对性的内容推送,然而对于网页核心内容的整体架构却始终没有突破性创新,无法达到提升用户使用体验的目的。
发明内容
本发明的目的在于提供一种个性化网页排版的方法及装置,为不同用户准确有效的传递所需页面信息,使用中动态变化网页框架和内容来适应用户行为变化,真正做到了网页排版智能化和个性化。
为了达到上述目的,本发明实施例提供一种个性化网页排版的方法,应用于服务器侧,包括:
获取网页的源内容信息,对所述源内容信息进行主题分类处理,得到多个主题板块;
获取客户端发送的用户浏览网页的行为特征,分析得出所述用户感兴趣的网页主题和所述用户感兴趣的网页内容;
根据得到的所述用户感兴趣的网页主题设置每个所述主题板块的排版权重值,并根据得到的所述用户感兴趣的网页内容设置所述主题板块内每个主题内容的排版权重值;
根据所述主题板块的排版权重值和所述主题板块内每个主题内容的排版权重值自动进行网页页面的排版,并将排版得到的网页页面发送至所述客户端。
其中,所述方法还包括:
获取所述用户实时浏览所述主题内容的实时行为特征和所述主题内容的内容特征,分析得到所述主题内容的实时排版权重值;
根据所述主题内容的实时排版权重值,自动进行所述主题板块内所述主题内容的实时更新排版。
其中,所述获取网页的源内容信息,对所述源内容信息进行主题分类处理,得到多个主题板块,包括:
获取网页的源内容信息,所述源内容信息采用文档格式显示;
对所述文档格式的源内容信息采用文档分类的方法进行主题分类处理,得到多个主题板块。
其中,所述获取客户端发送的用户浏览网页的行为特征,分析得出所述用户感兴趣的网页主题和所述用户感兴趣的网页内容,包括:
获取客户端发送的预设周期内用户浏览网页的行为特征,生成用户网页使用日志,所述用户网页使用日志包括:用于标识用户身份的编码、所述用户查看的内容所属的主题板块的编码和所述用户查看的内容的网页的编码:
对所述用户的网页使用日志进行统计分析,得到所述用户感兴趣的网页主题和所述用户感兴趣的网页内容。
其中,所述获取所述主题内容的内容特征,包括:
对不同的所述主题内容的源内容信息进行相似度分析,得到主题内容间的相似度值;
根据所述主题内容间的相似度值,确定所述主题内容的内容特征。
其中,所述对不同的所述主题内容的源内容信息进行相似度分析,得到网页内容间的相似度值,包括:
对不同的所述主题内容的源内容信息进行预处理,确定所述主题内容之间的距离;
根据所述主题内容之间的距离,得到所述主题内容间的相似度值。
其中,所述获取所述用户实时浏览所述主题内容的实时行为特征和所述主题内容的内容特征,分析得到所述主题内容的实时排版权重值,包括:
获取所述用户实时浏览主题内容的实时行为特征;
根据所述实时行为特征和所述主题内容间的相似度值,获取所述主题内容的实时排版权重值,其中,所述主题内容的实时排版权重值与所述主题内容间的相似度值成正比。
本发明实施例还提供一种个性化网页排版的装置,应用于服务器侧,包括:
分类模块,用于获取网页的源内容信息,对所述源内容信息进行主题分类处理,得到多个主题板块;
第一分析模块,用于获取客户端发送的用户浏览网页的行为特征,分析得出所述用户感兴趣的网页主题和所述用户感兴趣的网页内容;
设置模块,用于根据得到的所述用户感兴趣的网页主题设置每个所述主题板块的排版权重值,并根据得到的所述用户感兴趣的网页内容设置所述主题板块内每个主题内容的排版权重值;
排版模块,用于根据所述主题板块的排版权重值和所述主题板块内每个主题内容的排版权重值自动进行网页页面的排版,并将排版得到的网页页面发送至所述客户端。
其中,所述装置还包括:
第二分析模块,用于获取所述用户实时浏览所述主题内容的实时行为特征和所述主题内容的内容特征,分析得到所述主题内容的实时排版权重值;
更新模块,用于根据所述主题内容的实时排版权重值,自动进行所述主题板块内所述主题内容的实时更新排版。
其中,所述分类模块包括:
第一分类子模块,用于获取网页的源内容信息,所述源内容信息采用文档格式显示;
第二分类子模块,用于对所述文档格式的源内容信息采用文档分类的方法进行主题分类处理,得到多个主题板块。
其中,所述第一分析模块包括:
第一分析子模块,用于获取客户端发送的预设周期内用户浏览网页的行为特征,生成用户网页使用日志,所述用户网页使用日志包括用于标识用户身份的编码、所述用户查看的内容所属的主题板块的编码和所述用户查看的内容的网页的编码:
第二分析子模块,用于对所述用户的网页使用日志进行统计分析,得到所述用户感兴趣的网页主题和所述用户感兴趣的网页内容。
其中,所述第二分析模块包括:
相似模块,用于对不同的所述主题内容的源内容信息进行相似度分析,得到主题内容间的相似度值;
确定模块,用于根据所述主题内容间的相似度值,确定所述主题内容的内容特征。
其中,所述相似模块包括:
处理模块,用于对不同的所述主题内容的源内容信息进行预处理,确定所述主题内容之间的距离;
相似子模块,用于根据所述主题内容之间的距离,得到所述主题内容间的相似度值。
其中,所述第二分析模块包括:
第三分析子模块,用于获取所述用户实时浏览主题内容的实时行为特征;
第四分析子模块,用于根据所述实时行为特征和所述主题内容间的相似度值,获取所述主题内容的实时排版权重值,其中,所述主题内容的实时排版权重值与所述主题内容间的相似度值成正比。
本发明的上述技术方案至少具有如下有益效果:
本发明实施例的个性化网页排版的方法及装置中,通过挖掘用户浏览网页的行为特征,分析得出用户感兴趣的网页主题和内容,以主题划分自动完成页面排版及内容更新;本发明实施例根据用户的使用习惯自动完成页面的排版,整个过程不需要用户参与,而是在使用中动态变化网页框架和内容来适应用户的行为变化,实现了网页排版智能化、个性化。
附图说明
图1表示本发明实施例的个性化网页排版的方法的基本步骤示意图;
图2表示本发明实施例的个性化网页排版的方法应用的客户端和服务器端构成的系统图;
图3表示本发明实施例的个性化网页排版的方法中分析用户感兴趣主题及网页内容的具体步骤示意图;
图4表示本发明实施例的个性化网页排版的方法中主题内容的内容特征的具体获取方法示意图;
图5表示本发明实施例的个性化网页排版的方法中主题内容的实时排版权重值的获取方法示意图;
图6表示本发明实施例的个性化网页排版的装置的结构示意图;
图7表示本发明实施例的个性化网页排版的具体流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有技术中网页排版方法未涉及网页版面及内容的整体构建方法且现有网页排版需要用户设置,达不到智能性的问题,提供一种个性化网页排版的方法及装置中,通过挖掘用户浏览网页的行为特征,分析得出用户感兴趣的网页主题和内容,以主题划分自动完成页面排版及内容更新;本发明实施例根据用户的使用习惯自动完成页面的排版,整个过程不需要用户参与,而是在使用中动态变化网页框架和内容来适应用户的行为变化,实现了网页排版智能化、个性化。
如图1所示,本发明实施例提供一种个性化网页排版的方法,应用于服务器侧,包括:
步骤11,获取网页的源内容信息,对所述源内容信息进行主题分类处理,得到多个主题板块;
本发明实施例中,网页的源内容信息可通过人工编辑获得,也可通过服务器自动挖掘得到,不限于一固定形式;该源内容信息是所有可能在综合信息网页展示的相关内容,通过对源内容信息进行分析,为网页主题板块及时提供相应显示信息。在服务器端进行网页内容的存储分析,为排版提前准备好内容数据,提升了整个系统的计算效率。
步骤12,获取客户端发送的用户浏览网页的行为特征,分析得出所述用户感兴趣的网页主题和所述用户感兴趣的网页内容;
本发明上述实施例中,如图2所示,客户端部分包含一用户行为数据采集模块,该用户行为数据采集模块记录下用户浏览网页的行为,供服务器端进行用户行为特征分析。引入服务器端的用户行为特征分析,不仅满足了排版的个性化要求,获取到不同用户的独特行为数据,还让用户长期行为特征挖掘成为现实,减轻了客户端对用户行为数据存储和计算的压力。使用用户长期页面浏览数据确定用户对网页主题板块的偏好,帮助页面框架按用户习惯重构版面。
步骤13,根据得到的所述用户感兴趣的网页主题设置每个所述主题板块的排版权重值,并根据得到的所述用户感兴趣的网页内容设置所述主题板块内每个主题内容的排版权重值;
本发明的上述实施例中,主题板块的排版权重的赋值思路就是使用得越多表明用户对相应的板块越感兴趣,则该主题板块的排版权重值也就越大;对主题内容的排版权值的赋值思路与上述思路一致,即用户越感兴趣,则排版权重值越大。
步骤14,根据所述主题板块的排版权重值和所述主题板块内每个主题内容的排版权重值自动进行网页页面的排版,并将排版得到的网页页面发送至所述客户端。
本发明的上述实施例中,网页页面的排版需遵照排版权重值越大,其显示页面越大或其显示位置越靠近页面上部,使得用户能够十分方便的获取到其感兴趣的内容。服务器端将排版得到的网页页面发送至客户端,如图2所示,客户端还包含一显示模块,用于将个性化排版结果呈现给用户,使得用户得到适合自己阅览喜好的排版结果。
本发明实施例通过划分主题板块,根据用户的感兴趣程度对所述主题板块进行排版实现了网页框架的灵活布局,不仅有利于针对不同用户进行主题板块的拆分、重组和管理,还遵循了用户熟悉的排版形式,保障了用户使用体验。同时本发明实施例借助服务器端的分析数据,将特征数据的收集挖掘与排版处理分离,从而在增加特征和改进排版方法的同时,不影响客户端系统的性能和效率,使得系统的可扩展性、通用性增强。
本发明上述实施例中,所述方法还包括:
步骤15,获取所述用户实时浏览所述主题内容的实时行为特征和所述主题内容的内容特征,分析得到所述主题内容的实时排版权重值;
步骤16,根据所述主题内容的实时排版权重值,自动进行所述主题板块内所述主题内容的实时更新排版。
本发明具体实施例中,服务器端根据用户每次点击内容调整主题板块内的主题内容信息。用户点击查看主题内容表明关注相应内容,对相关内容感兴趣的概率较大,应该将相似内容的排版优先级提高,达到适应用户喜好的目的。具体的,在用户点击查看主题内容后,对相关内容的排版权重值进行更新,再根据新的排版权重值对主题内容排版即可。
较佳的,根据用户的实时行为特征和所述主题内容的内容特征,自动调整主题板块内主题内容的推出顺序,让用户准确有效的获得更多感兴趣的内容。
本发明上述实施例中,步骤11包括:
步骤111,获取网页的源内容信息,所述源内容信息采用文档格式显示;
步骤112,对所述文档格式的源内容信息采用文档分类的方法进行主题分类处理,得到多个主题板块。
本发明具体实施例中,为了便于版面管理、排版,将网页页面划分为不同主题板块,可对主题板块进行增减操作,但总的来说,排版前已有确定的板块信息。由于板块数量、主题的相对固定,可采用文档分类的方法将源内容信息准确推送到相应主题板块下。对内容进行主题分类不仅减少人工参与编辑的工作量,还提高了板块获取相应内容的效率。目前基于机器学习的文本自动分类已经取得很好的效果,常见的分类方法有:K-近邻算法、朴素贝叶斯分类算法、决策树算法、支持向量机等。
在进行文档分类之前首先需要将网页内容的标题和正文进行分词处理,然后通过去停用词去除无意义词语,达到降维目的抽取出网页的文档特征,最后使用向量空间模型(VSM)表示文本。每篇文档的标题和正文被分别表示为特征权重向量:{t1:ω1,t22,…,tnn},其中ωi表示特征项ti的权重。权重计算公式采用统计方法TF-IDF,文档i中特征项j的权重为:
ω ij = TF ij × IDF i = f ij f i × log D D j
其中,fij表示文档i中特征项j的频次,fi表示文档i中的特征总频次,D表示页面内容处理周期内的文档总数,而Dj则表示特征项j出现过的文档数,页面内容处理周期视处理量及需求而定。接下来,对文本进行分类,为每个主题板块提供准确的内容支撑。
文档分类需要训练数据进行学习,以往的页面分类信息可以作为训练集,或对内容逐步标注迭代完善训练数据。以K-近邻算法为例,计算已知类别数据中每篇文档与带分类文档的距离,选取与待分类文档距离最小的K个点,统计前K个点中每个类别的样本出现的频率,返回前K个点出现频率最高的类别作为待分类文档的预测分类。其中,文档间距离计算可以使用余弦相似度、修正余弦相似度或皮尔森相似度。内容分类结果信息为:I_con={内容ID,板块ID,内容创建时间,…}。
本发明的上述实施例中,如图2所示,步骤12包括:
步骤121,获取客户端发送的预设周期内用户浏览网页的行为特征,生成用户网页使用日志,所述用户网页使用日志包括:用于标识用户身份的编码、所述用户查看的内容所属的主题板块的编码和所述用户查看的内容的网页的编码:
步骤122,对所述用户的网页使用日志进行统计分析,得到所述用户感兴趣的网页主题和所述用户感兴趣的网页内容。
本发明具体实施例中,用户网页使用日志主要记录了用户点击查看页面内容的相关信息,每次浏览操作服务器端都会记录下相应的日志信息,其内容包括C={用户ID,板块ID,内容ID,操作时间,…}。其中,用户ID是唯一标识用户身份的编码;板块ID是用户查看内容所属板块的编码,每个排版页面维护一张板块ID映射表,板块增删变化时,以表中板块信息为主进行相关分析;内容ID对应着用户点击查看内容的编码,方便定位网页分析结果。
根据用户长期使用行为总结页面浏览习惯;从用户的长期使用行为中可总结出用户浏览网页内容的偏好,在预设周期Tuser内,对用户点击查看内容所属板块情况进行统计分析,得到页面板块的排版权重,权重大小代表用户对板块内容感兴趣程度。周期Tuser应为10天、1个月等较长时间段,短时间内用户行为随机性强变化大,而长期行为具有一定的偏好分布特征。用户长期行为特征分析不仅让板块排版符合每个用户的关注焦点,还保证用户的网页结构框架不会频繁变动。
页面板块在周期Tuser内使用情况统计:针对每位用户,统计给出该用户对页面每个板块在周期内的使用情况数据,包括内容Cuser={用户ID,板块ID,使用总次数,…};针对所有用户,综合得出页面内容周期内用户总体使用情况,包括内容Csection={内容ID,板块ID,使用总人数,使用总次数,…}。综合分析每个周期内的板块使用情况,首先必须满足用户的浏览习惯,使用个人数据排序板块重要程度,针对用户使用极少或使用情况相同的板块,使用总体使用情况补充缺失信息。总的来说,主题板块权重的赋值思路就是使用得越多表明用户对相应板块越感兴趣权重也就越大。
综上,本发明的具体实施例中,用户点击查看页面内容的操作信息提交到服务器端,形成长期的用户行为特征集(用户网页使用日志);从用户网页使用日志中挖掘出用户对页面各主题板块的偏好程度,为页面板块赋权值来决定构建顺序;这不仅让排版样式、内容易于管理,也完全遵循了用户的使用习惯,个性化排版不突兀片面,保障了用户感观体验。
本发明上述实施例中,如图3所示,所述获取所述主题内容的内容特征,包括:
步骤31,对不同的所述主题内容的源内容信息进行相似度分析,得到主题内容间的相似度值;
步骤32,根据所述主题内容间的相似度值,确定所述主题内容的内容特征。
具体的,步骤31包括:
步骤311,对不同的所述主题内容的源内容信息进行预处理,确定所述主题内容之间的距离;
步骤312,根据所述主题内容之间的距离,得到所述主题内容间的相似度值。
本发明具体应用中,所述主题内容的内容特征具体指所述主题内容间的相似度值,计算主题内容间的相似度,可帮助用户挖掘感兴趣的相关内容,通过分析用户点击查看网页内容,为用户准确提供关注的相关信息。相关内容挖掘不仅丰富了用户内容排版的个性化信息,同时也提高了个性化排版效率,及时反应用户查看内容变化。由于主题分类中也用到文档间距离,只用计算一次便完成内容分析两方面需求,减少了计算的复杂程度。
使用余弦相似度公式计算主题内容相似度,其中为上文中对网页内容处理后得到的文本特征向量:
分别对文档的标题和正文计算文本向量的余弦值,加权得到最终的文本相似度,其中α+β=1,可根据标题和正文的重要程度调节相应权重。公式如下:
设文档间相似度阈值为σsin,从而筛选出每个文档的相似文档信息,Isim={{内容ID1,相似度σ1},{内容ID2,相似度σ2},…}。
本发明的上述实施例中,如图4所示,步骤15包括:
步骤151,获取所述用户实时浏览主题内容的实时行为特征;
步骤152,根据所述实时行为特征和所述主题内容间的相似度值,获取所述主题内容的实时排版权重值,其中,所述主题内容的实时排版权重值与所述主题内容间的相似度值成正比。
本发明的具体应用中,通常使用页面内容创建时间来排版各主题板块内的主题内容,优先推出最新资讯,为了反映用户个性化浏览需求,针对用户每次点击浏览行为,借助页面内容分析中的内容相似度更新相关内容排版权重,实现快速调整内容排版顺序。例如,用户在点击查看内容A后,对相关内容B的排版权重进行调整,设内容A和内容B的相似度为σ,则用户对内容B感兴趣的概率也为σ,内容A的排版权重为ρA,内容B的排版权重为ρB,相应增加B内容的权重为ρB+σ·ρA。发生点击查看行为后更新所有相关内容的排版权重,缺少用户操作相关内容信息的内容,可使用用户总体使用信息来补充内容排版顺序,为用户优先提供近期的热门信息。
综上,服务器侧将结合网页内容分析和用户行为分析结果对每位用户进行自适应用户行为的页面内容排版,为个性化排版提供语义层次的文本分析支撑,排版处理模块则按照一定的策略使用这些结果数据,得到最终的个性化排版结果,并将结果返回客户端,通过显示模块将符合不同用户喜好的页面结果呈现给用户。
用户长期的网页点击查看行为数据是进行页面架构组织的主要参数,通过计算得到用户对页面各板块的喜好权重,主题板块的排版顺序主要由这部分数据决定。根据板块信息对用户的重要程度,把用户感兴趣的板块放到用户方便查看的地方,便于用户浏览所需信息。挖掘得到的网页内容特征为排版提供相应主题板块及用户感兴趣的内容信息,从语义层面调整页面内容排版,使版面更加符合用户使用行为。页面内容更新按创建时间优先推出最新资讯,通过主题查看行为和点击相关内容调整推出顺序,让用户准确有效的获得更多感兴趣的内容。
为了更好的实现上述目的,如图5所示,本发明实施例还提供一种个性化网页排版的装置,应用于服务器侧,包括:
分类模块51,用于获取网页的源内容信息,对所述源内容信息进行主题分类处理,得到多个主题板块;
第一分析模块52,用于获取客户端发送的用户浏览网页的行为特征,分析得出所述用户感兴趣的网页主题和所述用户感兴趣的网页内容;
设置模块53,用于根据得到的所述用户感兴趣的网页主题设置每个所述主题板块的排版权重值,并根据得到的所述用户感兴趣的网页内容设置所述主题板块内每个主题内容的排版权重值;
排版模块54,用于根据所述主题板块的排版权重值和所述主题板块内每个主题内容的排版权重值自动进行网页页面的排版,并将排版得到的网页页面发送至所述客户端。
本发明上述实施例中,所述装置还包括:
第二分析模块,用于获取所述用户实时浏览所述主题内容的实时行为特征和所述主题内容的内容特征,分析得到所述主题内容的实时排版权重值;
更新模块,用于根据所述主题内容的实时排版权重值,自动进行所述主题板块内所述主题内容的实时更新排版。
具体的,本发明上述实施例中,所述分类模块51包括:
第一分类子模块,用于获取网页的源内容信息,所述源内容信息采用文档格式显示;
第二分类子模块,用于对所述文档格式的源内容信息采用文档分类的方法进行主题分类处理,得到多个主题板块。
具体的,本发明上述实施例中,所述第一分析模块52包括:
第一分析子模块,用于获取客户端发送的预设周期内用户浏览网页的行为特征,生成用户网页使用日志,所述用户网页使用日志包括用于标识用户身份的编码、所述用户查看的内容所属的主题板块的编码和所述用户查看的内容的网页的编码:
第二分析子模块,用于对所述用户的网页使用日志进行统计分析,得到所述用户感兴趣的网页主题和所述用户感兴趣的网页内容。
具体的,本发明上述实施例中,所述第二分析模块包括:
相似模块,用于对不同的所述主题内容的源内容信息进行相似度分析,得到主题内容间的相似度值;
确定模块,用于根据所述主题内容间的相似度值,确定所述主题内容的内容特征。
具体的,本发明上述实施例中,所述相似模块包括:
处理模块,用于对不同的所述主题内容的源内容信息进行预处理,确定所述主题内容之间的距离;
相似子模块,用于根据所述主题内容之间的距离,得到所述主题内容间的相似度值。
具体的,本发明上述实施例中,所述第二分析模块包括:
第三分析子模块,用于获取所述用户实时浏览主题内容的实时行为特征;
第四分析子模块,用于根据所述实时行为特征和所述主题内容间的相似度值,获取所述主题内容的实时排版权重值,其中,所述主题内容的实时排版权重值与所述主题内容间的相似度值成正比。
本发明上述实施例中,服务器侧的装置将页面整体框架结构细分为通用模块和多个内容主题板块,通用模块确定了页面主体样式布局,各内容主题板块更加细致地管理维护了板块排版形式和内容展现,板块间则可灵活拆分重组,动态调整以适应用户浏览行为变化。在构建完整页面排版结果的过程中,充分利用div标签精确管理主题板块及页面元素,在组合版面框架前增加板块排序过程,使得最终网页排版布局符合用户喜好,将个性化排版结果传递给客户端显示模块展示给用户。
进一步的,目前被广泛应用在web服务开发中的MVC编程模式将界面显示和业务数据分离,页面加载过程中,各主题板块将经过用户行为分析得到的内容数据按排版权重严格展示。在用户点击查看网页过程中,对查看过内容进行局部更新,通过DOM定位对应网页节点,同样按内容排版顺序持续更新未查看过的相关内容,让用户获取更多感兴趣内容。
综上,本发明实施例的完整页面排版流程如图7所示,本发明实施例从用户行为特征和网页内容特征方面丰富了页面排版的个性化信息,多角度理解用户浏览网页习惯,从本质上创新了排版算法,为不同用户准确有效的传递所需页面信息;同时本发明实施例通过划分主题板块并进行相应的内容更新实现了网页框架的灵活布局,不仅有利于针对不同用户进行页面板块的拆分、重组和管理,还遵循了用户熟悉的排版形式,保障了用户使用体检;本发明实施例还根据用户的使用习惯自动完成页面的排版,整个过程不需要用户参与,而是在使用中动态变化网页框架和内容来适应用户行为变化,真正做到了网页排版智能化、个性化;且本发明实施例给出了个性化网页排版的完整系统架构,保障了系统的灵活、高效、可扩展,让系统具有实际应用价值。
本发明实施例打破了传统网页排版方法设置表面属性和固定投放内容的格局,从语义层面深入理解了用户对网页排版的需求,使网页排版结果更加准确有效,更加接近用户的使用习惯,提高了用户浏览网页的效率,真正做到网页排版向智能化、个性化方向发展,在该框架下系统可扩展页面板块和内容,增加数据分析的个性化特征,保证了排版的灵活通用,具有十分广阔的应用推广前景。
需要说明的是,本发明实施例提供的个性化网页排版的装置是应用上述个性化网页排版的方法的装置,则上述方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种个性化网页排版的方法,应用于服务器侧,其特征在于,包括:
获取网页的源内容信息,对所述源内容信息进行主题分类处理,得到多个主题板块;
获取客户端发送的用户浏览网页的行为特征,分析得出所述用户感兴趣的网页主题和所述用户感兴趣的网页内容;
根据得到的所述用户感兴趣的网页主题设置每个所述主题板块的排版权重值,并根据得到的所述用户感兴趣的网页内容设置所述主题板块内每个主题内容的排版权重值;
根据所述主题板块的排版权重值和所述主题板块内每个主题内容的排版权重值自动进行网页页面的排版,并将排版得到的网页页面发送至所述客户端。
2.根据权利要求1所述的个性化网页排版的方法,其特征在于,所述方法还包括:
获取所述用户实时浏览所述主题内容的实时行为特征和所述主题内容的内容特征,分析得到所述主题内容的实时排版权重值;
根据所述主题内容的实时排版权重值,自动进行所述主题板块内所述主题内容的实时更新排版。
3.根据权利要求1所述的个性化网页排版的方法,其特征在于,所述获取网页的源内容信息,对所述源内容信息进行主题分类处理,得到多个主题板块,包括:
获取网页的源内容信息,所述源内容信息采用文档格式显示;
对所述文档格式的源内容信息采用文档分类的方法进行主题分类处理,得到多个主题板块。
4.根据权利要求1所述的个性化网页排版的方法,其特征在于,所述获取客户端发送的用户浏览网页的行为特征,分析得出所述用户感兴趣的网页主题和所述用户感兴趣的网页内容,包括:
获取客户端发送的预设周期内用户浏览网页的行为特征,生成用户网页使用日志,所述用户网页使用日志包括:用于标识用户身份的编码、所述用户查看的内容所属的主题板块的编码和所述用户查看的内容的网页的编码:
对所述用户的网页使用日志进行统计分析,得到所述用户感兴趣的网页主题和所述用户感兴趣的网页内容。
5.根据权利要求2所述的个性化网页排版的方法,其特征在于,所述获取所述主题内容的内容特征,包括:
对不同的所述主题内容的源内容信息进行相似度分析,得到主题内容间的相似度值;
根据所述主题内容间的相似度值,确定所述主题内容的内容特征。
6.根据权利要求5所述的个性化网页排版的方法,其特征在于,所述对不同的所述主题内容的源内容信息进行相似度分析,得到网页内容间的相似度值,包括:
对不同的所述主题内容的源内容信息进行预处理,确定所述主题内容之间的距离;
根据所述主题内容之间的距离,得到所述主题内容间的相似度值。
7.根据权利要求5所述的个性化网页排版的方法,其特征在于,所述获取所述用户实时浏览所述主题内容的实时行为特征和所述主题内容的内容特征,分析得到所述主题内容的实时排版权重值,包括:
获取所述用户实时浏览主题内容的实时行为特征;
根据所述实时行为特征和所述主题内容间的相似度值,获取所述主题内容的实时排版权重值,其中,所述主题内容的实时排版权重值与所述主题内容间的相似度值成正比。
8.一种个性化网页排版的装置,应用于服务器侧,其特征在于,包括:
分类模块,用于获取网页的源内容信息,对所述源内容信息进行主题分类处理,得到多个主题板块;
第一分析模块,用于获取客户端发送的用户浏览网页的行为特征,分析得出所述用户感兴趣的网页主题和所述用户感兴趣的网页内容;
设置模块,用于根据得到的所述用户感兴趣的网页主题设置每个所述主题板块的排版权重值,并根据得到的所述用户感兴趣的网页内容设置所述主题板块内每个主题内容的排版权重值;
排版模块,用于根据所述主题板块的排版权重值和所述主题板块内每个主题内容的排版权重值自动进行网页页面的排版,并将排版得到的网页页面发送至所述客户端。
9.根据权利要求8所述的个性化网页排版的装置,其特征在于,所述装置还包括:
第二分析模块,用于获取所述用户实时浏览所述主题内容的实时行为特征和所述主题内容的内容特征,分析得到所述主题内容的实时排版权重值;
更新模块,用于根据所述主题内容的实时排版权重值,自动进行所述主题板块内所述主题内容的实时更新排版。
10.根据权利要求8所述的个性化网页排版的装置,其特征在于,所述分类模块包括:
第一分类子模块,用于获取网页的源内容信息,所述源内容信息采用文档格式显示;
第二分类子模块,用于对所述文档格式的源内容信息采用文档分类的方法进行主题分类处理,得到多个主题板块。
11.根据权利要求8所述的个性化网页排版的装置,其特征在于,所述第一分析模块包括:
第一分析子模块,用于获取客户端发送的预设周期内用户浏览网页的行为特征,生成用户网页使用日志,所述用户网页使用日志包括用于标识用户身份的编码、所述用户查看的内容所属的主题板块的编码和所述用户查看的内容的网页的编码:
第二分析子模块,用于对所述用户的网页使用日志进行统计分析,得到所述用户感兴趣的网页主题和所述用户感兴趣的网页内容。
12.根据权利要求9所述的个性化网页排版的装置,其特征在于,所述第二分析模块包括:
相似模块,用于对不同的所述主题内容的源内容信息进行相似度分析,得到主题内容间的相似度值;
确定模块,用于根据所述主题内容间的相似度值,确定所述主题内容的内容特征。
13.根据权利要求12所述的个性化网页排版的装置,其特征在于,所述相似模块包括:
处理模块,用于对不同的所述主题内容的源内容信息进行预处理,确定所述主题内容之间的距离;
相似子模块,用于根据所述主题内容之间的距离,得到所述主题内容间的相似度值。
14.根据权利要求12所述的个性化网页排版的装置,其特征在于,所述第二分析模块包括:
第三分析子模块,用于获取所述用户实时浏览主题内容的实时行为特征;
第四分析子模块,用于根据所述实时行为特征和所述主题内容间的相似度值,获取所述主题内容的实时排版权重值,其中,所述主题内容的实时排版权重值与所述主题内容间的相似度值成正比。
CN201410657924.9A 2014-11-18 2014-11-18 一种个性化网页排版的方法及装置 Active CN105677649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410657924.9A CN105677649B (zh) 2014-11-18 2014-11-18 一种个性化网页排版的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410657924.9A CN105677649B (zh) 2014-11-18 2014-11-18 一种个性化网页排版的方法及装置

Publications (2)

Publication Number Publication Date
CN105677649A true CN105677649A (zh) 2016-06-15
CN105677649B CN105677649B (zh) 2019-04-23

Family

ID=56945554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410657924.9A Active CN105677649B (zh) 2014-11-18 2014-11-18 一种个性化网页排版的方法及装置

Country Status (1)

Country Link
CN (1) CN105677649B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126557A (zh) * 2016-06-16 2016-11-16 乐视控股(北京)有限公司 页面处理方法及装置
CN106407402A (zh) * 2016-09-21 2017-02-15 乐视控股(北京)有限公司 一种网页呈现方法、装置以及电子设备
CN106777012A (zh) * 2016-12-07 2017-05-31 北京小米移动软件有限公司 网页内容展示的方法和装置
CN107391134A (zh) * 2017-07-19 2017-11-24 北京勤哲软件技术有限责任公司 一种通用移动应用交互界面自动生成与动态变换方法与装置
CN108076079A (zh) * 2016-11-09 2018-05-25 阿里巴巴集团控股有限公司 一种用户信息获取系统、方法及装置
CN108153788A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 页面信息个性化处理方法、装置及系统
CN108280128A (zh) * 2017-12-19 2018-07-13 苏宁云商集团股份有限公司 一种展示个性化页面的方法及设备
CN108280081A (zh) * 2017-01-06 2018-07-13 百度在线网络技术(北京)有限公司 生成网页的方法和装置
CN108399031A (zh) * 2017-02-06 2018-08-14 腾讯科技(深圳)有限公司 确定界面布局方式的方法和装置
TWI633448B (zh) * 2017-07-24 2018-08-21 優像數位媒體科技股份有限公司 Method of analyzing the interest preferences of website readers
CN108509526A (zh) * 2018-03-13 2018-09-07 百度在线网络技术(北京)有限公司 用于动态布局移动应用的界面元素的方法和装置
CN108549566A (zh) * 2018-04-16 2018-09-18 中山大学 一种基于用户特征的个性化页面及客户端布局生成方法
CN109614545A (zh) * 2018-11-13 2019-04-12 阿里巴巴集团控股有限公司 页面加载方法、装置及设备
CN109740140A (zh) * 2018-12-28 2019-05-10 北京百度网讯科技有限公司 页面排版方法、装置和计算机设备
CN109783745A (zh) * 2018-12-11 2019-05-21 平安科技(深圳)有限公司 对页面进行个性化排版的方法、装置和计算机设备
CN109992331A (zh) * 2017-12-28 2019-07-09 重庆南华中天信息技术有限公司 基于行为分析的常用功能门户组件动态调整方法及系统
CN110147483A (zh) * 2017-09-12 2019-08-20 阿里巴巴集团控股有限公司 一种标题重建方法及装置
CN110765376A (zh) * 2018-07-09 2020-02-07 江门堂朝网络有限公司 一种智能版面内容生成系统
CN110968752A (zh) * 2018-09-28 2020-04-07 珠海格力电器股份有限公司 数据采集方法、装置、存储介质及电子设备
CN111090815A (zh) * 2019-12-31 2020-05-01 恩亿科(北京)数据科技有限公司 一种标签的生成方法及装置
CN111461792A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 一种业务对象的展示方法、装置和电子设备
CN112287264A (zh) * 2020-11-19 2021-01-29 迈普通信技术股份有限公司 一种网页布局方法、装置、电子设备及存储介质
CN112464105A (zh) * 2020-11-17 2021-03-09 崔海燕 基于大数据定位的互联网平台信息推送方法及云计算中心
WO2021136362A1 (zh) * 2020-01-02 2021-07-08 阿里巴巴集团控股有限公司 页面的访问处理、配置处理方法、装置及电子设备
CN113434755A (zh) * 2021-06-15 2021-09-24 北京百度网讯科技有限公司 页面的生成方法、装置、电子设备及存储介质
CN114528519A (zh) * 2022-04-22 2022-05-24 深圳市云波网络科技有限公司 一种基于大数据的企业网站建设信息展示管理系统
TWI802247B (zh) * 2022-01-26 2023-05-11 台灣松下電器股份有限公司 自適應配置網頁版面方法與伺服系統
US11966447B2 (en) 2020-03-27 2024-04-23 Petal Cloud Technology Co., Ltd. Details page processing method, apparatus, and system, electronic device, and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198720A1 (en) * 2001-04-27 2002-12-26 Hironobu Takagi System and method for information access
CN101236563A (zh) * 2008-02-01 2008-08-06 刘峰 智能个性化服务网站构造方法
CN101621791A (zh) * 2009-08-10 2010-01-06 中兴通讯股份有限公司 实现移动终端用户定制门户网站个性化页面的方法和系统
CN101661488A (zh) * 2008-08-25 2010-03-03 宏碁股份有限公司 网页内容排版方法、其系统及其数据服务器
CN102035883A (zh) * 2010-11-26 2011-04-27 百度在线网络技术(北京)有限公司 一种在网络设备中用于优化网页的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198720A1 (en) * 2001-04-27 2002-12-26 Hironobu Takagi System and method for information access
CN101236563A (zh) * 2008-02-01 2008-08-06 刘峰 智能个性化服务网站构造方法
CN101661488A (zh) * 2008-08-25 2010-03-03 宏碁股份有限公司 网页内容排版方法、其系统及其数据服务器
CN101621791A (zh) * 2009-08-10 2010-01-06 中兴通讯股份有限公司 实现移动终端用户定制门户网站个性化页面的方法和系统
CN102035883A (zh) * 2010-11-26 2011-04-27 百度在线网络技术(北京)有限公司 一种在网络设备中用于优化网页的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高琳琦: "《基于用户行为分析的自适应新闻推荐模型》", 《图书情报工作》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017215175A1 (zh) * 2016-06-16 2017-12-21 乐视控股(北京)有限公司 页面处理方法、装置、终端及服务器
CN106126557A (zh) * 2016-06-16 2016-11-16 乐视控股(北京)有限公司 页面处理方法及装置
CN106407402A (zh) * 2016-09-21 2017-02-15 乐视控股(北京)有限公司 一种网页呈现方法、装置以及电子设备
CN108076079A (zh) * 2016-11-09 2018-05-25 阿里巴巴集团控股有限公司 一种用户信息获取系统、方法及装置
CN108153788B (zh) * 2016-12-02 2022-02-11 阿里巴巴集团控股有限公司 页面信息个性化处理方法、装置及系统
CN108153788A (zh) * 2016-12-02 2018-06-12 阿里巴巴集团控股有限公司 页面信息个性化处理方法、装置及系统
CN106777012A (zh) * 2016-12-07 2017-05-31 北京小米移动软件有限公司 网页内容展示的方法和装置
CN108280081A (zh) * 2017-01-06 2018-07-13 百度在线网络技术(北京)有限公司 生成网页的方法和装置
CN108399031A (zh) * 2017-02-06 2018-08-14 腾讯科技(深圳)有限公司 确定界面布局方式的方法和装置
CN108399031B (zh) * 2017-02-06 2021-05-25 腾讯科技(深圳)有限公司 确定界面布局方式的方法和装置
CN107391134A (zh) * 2017-07-19 2017-11-24 北京勤哲软件技术有限责任公司 一种通用移动应用交互界面自动生成与动态变换方法与装置
CN107391134B (zh) * 2017-07-19 2020-10-02 北京勤哲软件技术有限责任公司 一种通用移动应用交互界面自动生成与动态变换方法与装置
TWI633448B (zh) * 2017-07-24 2018-08-21 優像數位媒體科技股份有限公司 Method of analyzing the interest preferences of website readers
CN110147483B (zh) * 2017-09-12 2023-09-29 阿里巴巴集团控股有限公司 一种标题重建方法及装置
CN110147483A (zh) * 2017-09-12 2019-08-20 阿里巴巴集团控股有限公司 一种标题重建方法及装置
CN108280128A (zh) * 2017-12-19 2018-07-13 苏宁云商集团股份有限公司 一种展示个性化页面的方法及设备
CN109992331A (zh) * 2017-12-28 2019-07-09 重庆南华中天信息技术有限公司 基于行为分析的常用功能门户组件动态调整方法及系统
CN108509526A (zh) * 2018-03-13 2018-09-07 百度在线网络技术(北京)有限公司 用于动态布局移动应用的界面元素的方法和装置
CN108549566A (zh) * 2018-04-16 2018-09-18 中山大学 一种基于用户特征的个性化页面及客户端布局生成方法
CN110765376A (zh) * 2018-07-09 2020-02-07 江门堂朝网络有限公司 一种智能版面内容生成系统
CN110968752A (zh) * 2018-09-28 2020-04-07 珠海格力电器股份有限公司 数据采集方法、装置、存储介质及电子设备
CN109614545A (zh) * 2018-11-13 2019-04-12 阿里巴巴集团控股有限公司 页面加载方法、装置及设备
CN109783745A (zh) * 2018-12-11 2019-05-21 平安科技(深圳)有限公司 对页面进行个性化排版的方法、装置和计算机设备
CN109783745B (zh) * 2018-12-11 2024-03-15 平安科技(深圳)有限公司 对页面进行个性化排版的方法、装置和计算机设备
CN109740140A (zh) * 2018-12-28 2019-05-10 北京百度网讯科技有限公司 页面排版方法、装置和计算机设备
CN111090815A (zh) * 2019-12-31 2020-05-01 恩亿科(北京)数据科技有限公司 一种标签的生成方法及装置
WO2021136362A1 (zh) * 2020-01-02 2021-07-08 阿里巴巴集团控股有限公司 页面的访问处理、配置处理方法、装置及电子设备
US11966447B2 (en) 2020-03-27 2024-04-23 Petal Cloud Technology Co., Ltd. Details page processing method, apparatus, and system, electronic device, and storage medium
CN111461792A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 一种业务对象的展示方法、装置和电子设备
CN111461792B (zh) * 2020-04-17 2022-09-16 支付宝(杭州)信息技术有限公司 一种业务对象的展示方法、装置和电子设备
CN112464105A (zh) * 2020-11-17 2021-03-09 崔海燕 基于大数据定位的互联网平台信息推送方法及云计算中心
CN112287264A (zh) * 2020-11-19 2021-01-29 迈普通信技术股份有限公司 一种网页布局方法、装置、电子设备及存储介质
CN113434755A (zh) * 2021-06-15 2021-09-24 北京百度网讯科技有限公司 页面的生成方法、装置、电子设备及存储介质
TWI802247B (zh) * 2022-01-26 2023-05-11 台灣松下電器股份有限公司 自適應配置網頁版面方法與伺服系統
CN114528519A (zh) * 2022-04-22 2022-05-24 深圳市云波网络科技有限公司 一种基于大数据的企业网站建设信息展示管理系统

Also Published As

Publication number Publication date
CN105677649B (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN105677649A (zh) 一种个性化网页排版的方法及装置
CN105608477B (zh) 一种人物画像与职位匹配的方法及系统
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN102831199B (zh) 建立兴趣模型的方法及装置
Vysotska et al. Web Content Support Method in Electronic Business Systems.
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
CN110968782B (zh) 一种面向学者的用户画像构建及应用方法
CN104657496A (zh) 一种计算信息热度值的方法和设备
Hensinger et al. Modelling and predicting news popularity
CN102591995A (zh) 一种基于云数据中心的用户信息处理方法及装置
US20170262447A1 (en) Topical analytics for online articles
CN109471946A (zh) 一种中文文本的分类方法及系统
CN102609424B (zh) 评价信息抽取方法和设备
CN103198098A (zh) 一种网络信息投放方法和装置
CN110309114A (zh) 媒体信息的处理方法、装置、存储介质和电子装置
Kacem et al. Time-sensitive user profile for optimizing search personlization
CN108090228A (zh) 一种通过文化云平台进行互动的方法及装置
Das et al. A CV parser model using entity extraction process and big data tools
CN109597899A (zh) 媒体个性化推荐系统的优化方法
US10289624B2 (en) Topic and term search analytics
CN112035748A (zh) 信息推荐方法、装置、电子设备及存储介质
CN102436512A (zh) 一种基于偏好度的网页文本内容管控方法
CN101178721A (zh) 一种对论坛中有用帖子信息进行分类并整理的方法
CN108920508A (zh) 基于lda算法的文本分类模型训练方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant