CN103631944A - 一种基于内容相似的网页分割方法 - Google Patents

一种基于内容相似的网页分割方法 Download PDF

Info

Publication number
CN103631944A
CN103631944A CN201310669395.XA CN201310669395A CN103631944A CN 103631944 A CN103631944 A CN 103631944A CN 201310669395 A CN201310669395 A CN 201310669395A CN 103631944 A CN103631944 A CN 103631944A
Authority
CN
China
Prior art keywords
content
mobile terminal
webpage
information
splitting method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310669395.XA
Other languages
English (en)
Other versions
CN103631944B (zh
Inventor
童名文
彭红超
郝秋红
牛琳
栗欢
杨蕾
张小娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN201310669395.XA priority Critical patent/CN103631944B/zh
Publication of CN103631944A publication Critical patent/CN103631944A/zh
Application granted granted Critical
Publication of CN103631944B publication Critical patent/CN103631944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于内容相似的网页分割方法,首先采用内容块检测算法检测出网页中所有的内容块。然后依据人类视觉特征得出六维度内容视觉向量空间,并定义内容视觉空间里两点相似度计算公式。接着将内容块看作顶点,相似度看作顶点间边的权值,网页构造为一张加权无向连通图。依据移动终端软硬件配置,采用Kruskal算法对加权无向连通图进行分割,分割后的每张子图适合移动终端处理和显示。最后关联所有子图,建立子图关系,并选取第一个子图作为首页推送给用户,用户可以根据子图关系实现网页遍历。本发明可以用于移动终端访问Web网页的解决方案中,有效解决网页在移动终端的显示质量差,甚至无法显示的问题,从而提高用户服务体验。

Description

一种基于内容相似的网页分割方法
技术领域
本发明属于自适应web呈现与web信息提取技术领域,具体来讲,涉及一种基于内容相似的网页分割方法。
背景技术
自适应web呈现技术是自适应技术的一个应用领域,它描述了一类新“智能组件/智能结构”,这些智能组件在工作条件改变的时候具有一个主动适应和目标优化调节的机械特性。这种主动的组件满足了改善系统机械特性、效率、性能及其他特性的要求。
Web信息抽取技术是从Web网页所包含的无结构、半结构或者结构化的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式(XML、关系数据等),是信息提取的一个应用领域。
早在20世纪90年代,人们便开始研究自适应web呈现与web信息提取技术,解决如何将针对PC端设计的网页在移动终端正常问题。30年历程,出现了各种解决方案。解决方法主要有三种:重构网页、转码、网页分割。重构网页即建立一个与PC网页对等的适合不同移动终端显示的移动网页,Web服务器判断是移动终端用户,则选择重构网页作为响应信息,该方法需要消耗大量的人力、物力、财力。转码即采用转码技术将HTML、JSP、ASP、PHP等不适合移动终端显示的代码转换成对等的WML(适合移动终端显示)的代码,由于一个网页含有大量的信息,如果将网页内容全部显示在小屏幕的移动终端中,需要花费大量时间滑动滚动条寻找需要的信息,用户体验极差;网页分割即将网页分割成语义完整的语义块,用户每次看到的仅仅是一个语义块形成的子页,该方法是目前热点研究话题,可分为以下几类:基于标签的网页分割方法、基于DOM的网页分割方法、基于位置关系的网页分割方法、基于模板的网页分割方法、基于视觉的网页分割方法。针对Web网页特点及用途的不同,每类分割方法具有多种不同的具体实现方法,这些具体实现方法一般只针对具有某种特征的网站,使用范围有限。比较先进的VIPS方法因“内容与样式分离”思想的普及应用以及大量网页的不规范,变得力不从心。随着移动终端的迅速发展与3G技术的普及,该矛盾日益突出和尖锐。
采用上述三种方法生成的智能组件有三种部署方案:客户端部署、服务器端部署、代理服务器端部署。客户端部署即在客户端以插件的形式实现,但必须考虑移动终端软硬件性能的有限性以不同设备的兼容性问题。服务器端部署即将组件安装在服务器端,主要有联机部署(使用反向代理)和脱机部署(制成插件安装到网页制作工具中)两种,该部署方法会增加服务器负担,且这种负担会成倍的增加;代理服务器端部署即在服务器端与客服端之间建立一个类似服务器的设备,智能组件安装在该设备中获取与响应用户请求。
发明内容
为了解决上述的技术问题,本发明基于内容相似,从人类视觉角度提出一种解决移动终端浏览器准确、高效显示Web网页问题的网页分割方法,该方法采用代理服务器部署,既避免不同客户端兼容问题,又不会增加Web服务器的负担。
本发明所采用的技术方案是:一种基于内容相似的网页分割方法,其特征在于,包括以下步骤:
步骤1:自动获取移动终端软硬件配置信息并存储;
步骤2:依据用户请求获取Web服务器中的Web网页;
步骤3:对步骤2得到的Web页面,进行HTML规范处理与CSS预处理,实现HTML规范化和样式信息与数据的绑定;
步骤4:根据内容块检测算法获取经步骤3处理后的Web网页中所有内容块;
步骤5:对于步骤4得到的内容块,依据人类视觉特征得出六维度内容视觉向量空间,并定义内容视觉空间里两点相似度计算公式;
步骤6:构建加权无向连通图,依据移动终端软硬件配置信息,采用Kruskal算法对加权无向连通图进行分割,得到所述的加权无向连通图的子图;
步骤7:关联所有子图,建立子图关系,选取第一个子图作为主页面推送给用户。
作为优选,步骤1中所述的终端软硬件配置信息包括移动终端品牌,移动终端型号,移动终端系统类型及版本,移动终端分辨率,移动终端浏览器类型、版本、内核信息,并设定所述的移动终端品牌、移动终端型号、移动终端系统类型及版本移动终端浏览器类型、版本、内核信息为主键。
作为优选,步骤3所述的对步骤2得到的Web页面进行HTML规范化,其具体采用HTMLClear Jar包实现。
作为优选,步骤3所述的对步骤2得到的Web页面进行CSS预处理,其具体实现包括以下子步骤:
步骤3.1:获取所述的Web页面的进行HTML规范化后的样式信息;
步骤3.2:关联样式信息和标签;
步骤3.3:输出HTML和PerfectNode关联类列表。
作为优选,步骤3.2所述的关联样式信息和标签,其具体实现包括以下子步骤:
步骤3.2.1:查找所述的关联样式信息的对应标签;
步骤3.2.2:定义“样式信息—标签”关联类;
步骤3.2.3:样式冲突检测与处理。
作为优选,步骤5中所述的六维度内容视觉向量空间为cv=(内容块相关度,内容类型,空白,背景色,字体信息,边框信息)。
作为优选,步骤5所述的内容视觉空间里两点相似度计算公式定义为:
S ( i , j ) = 1 n Σ k = 1 n ω k S k ( i , j )
其中n为内容视觉空间里总点数,即内容块数;Sk(i,j)表示内容视觉空间里i,j两点第k维度的相似度;ωk表示维度权重。
作为优选,步骤6所述的构建加权无向连通图方法如下:将内容块看作顶点,内容块间的相似度看作顶点间边的权值。
作为优选,步骤6所述的Kruskal算法,其具体实现包括以下子步骤:
步骤6.1:读取步骤1获取的移动终端主键和移动终端分辨率信息;
步骤6.2:依据移动终端分辨率确定阈值分割模型,即确定子图最大像素面积St;
步骤6.3:将加权无向连通图的n个顶点看成n个孤立的连通分支,将所有边按权值从大到小排序;
步骤6.4:判断各个连通分支的面积Sn:
如果Sn>=St,则将连通分支从原图中分割出去,形成子图,将该连通分支与其他连通分支权值最大的边存储于关连池cr中;
如果Sn<St,按下述方法连接两个不同的连通分支:设查看到第s条边,若该边两端点分别是当前两个不同的连通分支T1和T2中的顶点时,则用该边将T1和T2连成一个连通分支,并重复步骤6.4;若该边两端点在当前的同一个连通分支中,直接查看第S+1条边,并重复步骤6.4,直到没有剩余边为止;
步骤6.5:对于剩余的图,重复步骤6.4,直到剩余的图为空图。
作为优选,用于实现所述的基于内容相似的网页分割方法的系统部署于代理服务器中,所述代理服务器能够获取用户请求与移动终端配置信息、获取Web服务器响应信息、获取处理后的响应信息,能够模拟移动终端用户发送请求、发送响应信息与移动终端配置信息给处理器、发送处理后的响应信息到用户。
本发明根据移动终端浏览器信息自动将针对PC设计的网页分割成语义完整的子页,用户可以根据子图关系实现网页遍历。本发明可以用于移动终端访问Web网页的解决方案中,有效解决网页在移动终端的显示质量差,甚至无法显示的问题,从而提高用户服务体验。
附图说明
图1:为本发明实施例的流程图。
图2:为本发明实施例的系统部署示意图。
具体实施方式
以下结合附图和具体实施例,详细描述本发明所提供的基于内容相似的网页分割方法。
请见图1、图2,本发明所采用的技术方案是:一种基于内容相似的网页分割方法,包括以下步骤:
步骤1:自动获取移动终端软硬件配置信息并存储;移动终端软硬件配置信息包括移动终端品牌,移动终端型号,移动终端系统类型及版本,移动终端分辨率,移动终端浏览器类型、版本、内核信息,并设定所述的移动终端品牌、移动终端型号、移动终端系统类型及版本移动终端浏览器类型、版本、内核信息为主键。具体实施时,使用Java等语言创建参数获取方法,截获HTTP请求头,通过分析请求头,获取相关参数,并将参数存于数据库中(如MySql数据库)。
步骤2:依据用户请求获取Web服务器中的Web网页;为使移动终端能够得到正确的信息,本发明所提方法模拟移动终端用户发送请求给目标Web服务器,并获取Web服务器返回的响应信息。具体实施时,使用Java等语言创建页面获取方法,该方法可调用请求发送方法模拟移动终端用户发送请求给目标Web服务器,并获取Web服务器返回的响应信息。
步骤3:对步骤2得到的Web页面,进行HTML规范处理与CSS预处理,实现HTML规范化和样式信息与数据的绑定;现行HTML存在大量错误与不规范,加之CSS样式信息本身存在大量冲突,并且特殊选择器中的样式规则无法简单地添加到对应标签的style属性值中。因此,进行HTML规范化处理与CSS预处理。具体实施时,对步骤2得到的Web页面进行HTML规范化,其具体采用HTMLClear Jar包实现;对步骤2得到的Web页面进行CSS预处理,其具体实现包括以下子步骤:
步骤3.1:获取Web页面的进行HTML规范化后的样式信息;具体实现时,使用Java等语言创建样式信息获取算法,该算法依次从<link>标签、<style>标签、style属性值中获取样式信息;
步骤3.2:关联样式信息和标签;其具体实现包括以下子步骤:
步骤3.2.1:查找关联样式信息的对应标签;具体实施时,使用Java等语言创建查找对应标签算法依据样式信息中的选择器查找对应标签;
步骤3.2.2:定义“样式信息—标签”关联类;具体实施时,使用Java等语言创建PerfectNode类列表来存储步骤3.2.1查找到的标签与对应的样式信息;
步骤3.2.3:样式冲突检测与处理;由于样式信息具有灵活性和多样性,其本身存在显性冲突和隐性冲突。因此,具体实施时,使用Java等语言设计样式冲突检测与处理算法来解决步骤3.2.2生成的PerfectNode类列表中存在的3种样式冲突:①PerfectNode列表中标签相同,而样式信息相同或者不同;②样式信息中的选择器相同,而样式规则相同或者不同;③样式属性名相同,而样式属性值相同或者不同;
步骤3.3:输出HTML和PerfectNode关联类列表。
步骤4:根据内容块检测算法获取经步骤3处理后的Web网页中所有内容块;本发明采用最优化理论,首先将Web网页分成最小内容块,然后依据块块间相似度将内容块构成加权无向连通图。Web网页分成最小内容块具体实施时,使用Java等语言创建内容块检测算法获取网页所有内容块。内容块判定依据为(从DOM角度):含有文本子节点(不是标签子节点)的节点,另外<a>、<img>、<form>、<label>、<input>、<select>、<textarea>、<button>、<ul>等特殊标签也为内容块。
步骤5:对于步骤4得到的内容块,依据人类视觉特征得出六维度内容视觉向量空间,并定义内容视觉空间里两点相似度计算公式:
S ( i , j ) = 1 n &Sigma; k = 1 n &omega; k S k ( i , j )
其中n为内容视觉空间里总点数,即内容块数;Sk(i,j)表示内容视觉空间里i,j两点第k维度的相似度;ωk表示维度权重;
具体实施时,对于六个维度,计算公式如下:
①内容块相关度
S ( i , j ) = l i &CircleTimes; l j 2 m - 1
li、lj是表示内容块i,j的位置;m表示DOM树的深度;
②内容类型:四种内容类型为图片、文本、链接、控件,分别用1、10、100、1000表示
S ( i , j ) = Num ( t i &CircleTimes; t j ) max ( len ( t i ) , len ( t j ) )
ti,tj分别表示内容块i,j的内容类型,
Figure BDA0000434143870000044
表示ti,tj的汉明距离;len(ti)表示ti值长度;
③空白
S ( i , j ) = 1 - 1 1 + &Sigma; k = 0 3 ( i k + j ( k + 2 ) % 4 ) 2 4
K为0、1、2、3,分别表示上间距、右间距、下间距、左间距;
④背景色:内容块Bi、Bj的RGB分别为Bi(a1,b2,c3),Bj(a1,b2,c3)
S ( i , j ) = 1 255 ( a 1 - a 2 ) 2 + ( b 1 - b 2 ) 2 + ( c 1 - c 2 ) 2 3
⑤字体信息:考虑大小、颜色、字型、粗细四个方面,字体信息f=(大小值,颜色值,字型,粗细值)
S ( i , j ) = Num ( f i &CircleTimes; f j ) 4
fi,fj分别表示内容块i,j的字体信息,
Figure BDA0000434143870000052
表示fi,fj的汉明距离,即四个方面字体信息相同的数量;
⑥边框信息:考虑上右下左四个边,边框信息b=(上边框值,下边框值,左边框值,右边框值)
S ( i , j ) = Num ( b i &CircleTimes; b j ) 4
bi,bj分别表示内容块i,j的边框信息,
Figure BDA0000434143870000054
表示bi,bj的汉明距离,即四个边框值相同的数量;
步骤6:构建加权无向连通图,依据移动终端软硬件配置信息,采用Kruskal算法对加权无向连通图进行分割,得到所述的加权无向连通图的子图;将内容块看作顶点,相似度看作顶点间边的权值,可形成一张加权无向连通图。对该图,依据移动终端软硬件配置,采用Kruskal算法对加权无向连通图进行分割。具体实施时,包括以下子步骤:
步骤6.1:读取步骤1获取的移动终端主键和移动终端分辨率信息;
步骤6.2:依据移动终端分辨率确定阈值分割模型,即确定子图最大像素面积St;
步骤6.3:将加权无向连通图的n个顶点看成n个孤立的连通分支,将所有边按权值从大到小排序;
步骤6.4:判断各个连通分支的面积Sn:
如果Sn>=St,则将连通分支从原图中分割出去,形成子图,将该连通分支与其他连通分支权值最大的边存储于关连池cr中;
如果Sn<St,按下述方法连接两个不同的连通分支:设查看到第s条边,若该边两端点分别是当前两个不同的连通分支T1和T2中的顶点时,则用该边将T1和T2连成一个连通分支,并重复步骤6.4;若该边两端点在当前的同一个连通分支中,直接查看第S+1条边,并重复步骤6.4,直到没有剩余边为止;
步骤6.5:对于剩余的图,重复步骤6.4,直到剩余的图为空图。
步骤7:关联所有子图,建立子图关系,选取第一个子图作为主页面推送给用户;经过步骤6,得到一系列子图和一个关连池cr,对这些子图,具体实施时,取出关连池cr中的边,将这些边两端点所对应的各子图顶点关联,关联方法如下:将每个子图看做DOM数结构,前一子图对应节点的父节点创建一个<a>节点,指向后一子图的对应一节点。之后,本发明所提方法将第一子图形成的子页作为主页推送给用户。
请继续参见附图2,用于实现基于内容相似的网页分割方法的系统部署于代理服务器中,所述代理服务器能够获取用户请求与移动终端配置信息、获取Web服务器响应信息、获取处理后的响应信息,能够模拟移动终端用户发送请求、发送响应信息与移动终端配置信息给处理器、发送处理后的响应信息到用户。具体实施时,采用Java等语言编写具有上述功能的代理服务器,将用于实现基于内容相似的网页分割方法的系统部署于代理服务器中。
以上所述仅为本发明中的一个实施例,并不用于限制本发明。凡在本发明的精神与原则之内,所做的任何修改、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于内容相似的网页分割方法,其特征在于,包括以下步骤:
步骤1:自动获取移动终端软硬件配置信息并存储;
步骤2:依据用户请求获取Web服务器中的Web网页;
步骤3:对步骤2得到的Web页面,进行HTML规范处理与CSS预处理,实现HTML规范化和样式信息与数据的绑定;
步骤4:根据内容块检测算法获取经步骤3处理后的Web网页中所有内容块;
步骤5:对于步骤4得到的内容块,依据人类视觉特征得出六维度内容视觉向量空间,并定义内容视觉空间里两点相似度计算公式;
步骤6:构建加权无向连通图,依据移动终端软硬件配置信息,采用Kruskal算法对加权无向连通图进行分割,得到所述的加权无向连通图的子图;
步骤7:关联所有子图,建立子图关系,选取第一个子图作为主页面推送给用户。
2.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤1中所述的终端软硬件配置信息包括移动终端品牌,移动终端型号,移动终端系统类型及版本,移动终端分辨率,移动终端浏览器类型、版本、内核信息,并设定所述的移动终端品牌、移动终端型号、移动终端系统类型及版本移动终端浏览器类型、版本、内核信息为主键。
3.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤3所述的对步骤2得到的Web页面进行HTML规范化,其具体采用HTMLClear Jar包实现。
4.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤3所述的对步骤2得到的Web页面进行CSS预处理,其具体实现包括以下子步骤:
步骤3.1:获取所述的Web页面的进行HTML规范化后的样式信息;
步骤3.2:关联样式信息和标签;
步骤3.3:输出HTML和PerfectNode关联类列表。
5.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤3.2所述的关联样式信息和标签,其具体实现包括以下子步骤:
步骤3.2.1:查找所述的关联样式信息的对应标签;
步骤3.2.2:定义“样式信息—标签”关联类;
步骤3.2.3:样式冲突检测与处理。
6.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤5中所述的六维度内容视觉向量空间为cv=(内容块相关度,内容类型,空白,背景色,字体信息,边框信息)。
7.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤5所述的内容视觉空间里两点相似度计算公式定义为:
S ( i , j ) = 1 n &Sigma; k = 1 n &omega; k S k ( i , j )
其中n为内容视觉空间里总点数,即内容块数;Sk(i,j)表示内容视觉空间里i,j两点第k维度的相似度;ωk表示维度权重。
8.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤6所述的构建加权无向连通图方法如下:将内容块看作顶点,内容块间的相似度看作顶点间边的权值。
9.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:步骤6所述的Kruskal算法,其具体实现包括以下子步骤:
步骤6.1:读取步骤1获取的移动终端主键和移动终端分辨率信息;
步骤6.2:依据移动终端分辨率确定阈值分割模型,即确定子图最大像素面积St;
步骤6.3:将加权无向连通图的n个顶点看成n个孤立的连通分支,将所有边按权值从大到小排序;
步骤6.4:判断各个连通分支的面积Sn:
如果Sn>=St,则将连通分支从原图中分割出去,形成子图,将该连通分支与其他连通分支权值最大的边存储于关连池cr中;
如果Sn<St,按下述方法连接两个不同的连通分支:设查看到第s条边,若该边两端点分别是当前两个不同的连通分支T1和T2中的顶点时,则用该边将T1和T2连成一个连通分支,并重复步骤6.4;若该边两端点在当前的同一个连通分支中,直接查看第S+1条边,并重复步骤6.4,直到没有剩余边为止;
步骤6.5:对于剩余的图,重复步骤6.4,直到剩余的图为空图。
10.根据权利要求1所述的基于内容相似的网页分割方法,其特征在于:用于实现所述的基于内容相似的网页分割方法的系统部署于代理服务器中,所述代理服务器能够获取用户请求与移动终端配置信息、获取Web服务器响应信息、获取处理后的响应信息,能够模拟移动终端用户发送请求、发送响应信息与移动终端配置信息给处理器、发送处理后的响应信息到用户。
CN201310669395.XA 2013-12-10 2013-12-10 一种基于内容相似的网页分割方法 Active CN103631944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310669395.XA CN103631944B (zh) 2013-12-10 2013-12-10 一种基于内容相似的网页分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310669395.XA CN103631944B (zh) 2013-12-10 2013-12-10 一种基于内容相似的网页分割方法

Publications (2)

Publication Number Publication Date
CN103631944A true CN103631944A (zh) 2014-03-12
CN103631944B CN103631944B (zh) 2016-07-27

Family

ID=50212985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310669395.XA Active CN103631944B (zh) 2013-12-10 2013-12-10 一种基于内容相似的网页分割方法

Country Status (1)

Country Link
CN (1) CN103631944B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105590321A (zh) * 2015-12-24 2016-05-18 华中科技大学 一种基于块的子图构建及分布式图处理方法
CN107545036A (zh) * 2017-07-28 2018-01-05 深圳前海微众银行股份有限公司 客服机器人知识库建设方法、客服机器人及可读存储介质
CN109299443A (zh) * 2018-09-04 2019-02-01 中山大学 一种基于最小顶点覆盖的新闻文本去重方法
CN113342416A (zh) * 2021-06-09 2021-09-03 上海万物新生环保科技集团有限公司 一种在小程序中展示h5图文数据的方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685340A (zh) * 2002-09-27 2005-10-19 索尼国际(欧洲)股份有限公司 用于自适应多媒体应用及呈现的自适应多媒体综合语言(amil)
CN102893277A (zh) * 2010-05-19 2013-01-23 惠普发展公司,有限责任合伙企业 用于使用自适应阈限计算的网页分割的系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685340A (zh) * 2002-09-27 2005-10-19 索尼国际(欧洲)股份有限公司 用于自适应多媒体应用及呈现的自适应多媒体综合语言(amil)
CN102893277A (zh) * 2010-05-19 2013-01-23 惠普发展公司,有限责任合伙企业 用于使用自适应阈限计算的网页分割的系统和方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
史晶等: "移动终端个性化页面显示优化技术研究", 《计算机工程》 *
安增文等: "基于视觉特征的网页正文提取方法研究", 《微型机与应用》 *
尹建伟等: "支持语义耦合的设备自适应网页布局算法", 《浙江大学学报(工学版)》 *
张文东等: "基于视觉的网页数据抽取", 《2009年研究生学术交流会 通信与信息技术论文集》 *
童名文等: "内容适配技术研究综述", 《软件》 *
黄文蓓: "基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105590321A (zh) * 2015-12-24 2016-05-18 华中科技大学 一种基于块的子图构建及分布式图处理方法
CN105590321B (zh) * 2015-12-24 2018-12-28 华中科技大学 一种基于块的子图构建及分布式图处理方法
CN107545036A (zh) * 2017-07-28 2018-01-05 深圳前海微众银行股份有限公司 客服机器人知识库建设方法、客服机器人及可读存储介质
CN107545036B (zh) * 2017-07-28 2021-01-19 深圳前海微众银行股份有限公司 客服机器人知识库建设方法、客服机器人及可读存储介质
CN109299443A (zh) * 2018-09-04 2019-02-01 中山大学 一种基于最小顶点覆盖的新闻文本去重方法
CN109299443B (zh) * 2018-09-04 2023-04-14 中山大学 一种基于最小顶点覆盖的新闻文本去重方法
CN113342416A (zh) * 2021-06-09 2021-09-03 上海万物新生环保科技集团有限公司 一种在小程序中展示h5图文数据的方法及设备

Also Published As

Publication number Publication date
CN103631944B (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
AU2016238832B2 (en) Evaluation of multimedia summarization
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
US10311120B2 (en) Method and apparatus for identifying webpage type
US8898296B2 (en) Detection of boilerplate content
JP2020503629A (ja) ページ表示方法、装置、サーバー及び記憶媒体
JP2017054542A5 (zh)
US20120066380A1 (en) Update notification method and system
US20150234827A1 (en) Method, apparatus, and device for ranking search results
CN102760162A (zh) 展现和获取下载链接的方法及装置
CN103246732B (zh) 一种在线Web新闻内容的抽取方法及系统
CN101957834A (zh) 一种基于用户特征进行内容推荐的方法与设备
US20190034535A1 (en) Method and system for generating a user-personalization interest parameter for identifying personalized targeted content item
CN105138558A (zh) 基于用户访问内容的实时个性化信息采集方法
CN104899306B (zh) 信息处理方法、信息显示方法及装置
CN103810268B (zh) 加载搜索结果推荐信息、网址检测的方法、装置和系统
CN102521248A (zh) 一种网络用户分类方法及其装置
US11132721B1 (en) Interest based advertising inside a content delivery network
KR20170023936A (ko) 개인화된 트렌딩 이미지 검색 제시 기법
CN101833554A (zh) 产生抽取模板的方法、设备和抽取网页内容的方法和设备
CN103631944A (zh) 一种基于内容相似的网页分割方法
CN108959580A (zh) 一种标签数据的优化方法及系统
CN101930475A (zh) 网页显示方法及浏览器
CN110083752A (zh) 房源信息推荐方法、装置、设备及存储介质
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN104899236A (zh) 一种评论信息显示方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant