CN101777060B - 基于网页视觉特征的网页分类方法及其系统 - Google Patents

基于网页视觉特征的网页分类方法及其系统 Download PDF

Info

Publication number
CN101777060B
CN101777060B CN2009102437290A CN200910243729A CN101777060B CN 101777060 B CN101777060 B CN 101777060B CN 2009102437290 A CN2009102437290 A CN 2009102437290A CN 200910243729 A CN200910243729 A CN 200910243729A CN 101777060 B CN101777060 B CN 101777060B
Authority
CN
China
Prior art keywords
webpage
visual
web page
piece
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009102437290A
Other languages
English (en)
Other versions
CN101777060A (zh
Inventor
吴偶
胡卫明
陈云飞
李兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2009102437290A priority Critical patent/CN101777060B/zh
Publication of CN101777060A publication Critical patent/CN101777060A/zh
Application granted granted Critical
Publication of CN101777060B publication Critical patent/CN101777060B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开一种网页视觉质量的自动评价方法及其系统,包括:收集网页样本,每个样本通过人工来进行标记其为视觉质量高的网页样本还是视觉质量低的网页样本,以此建立训练集,利用网页分割算法来对每幅网页进行分割并提取网页布局块与文本块,把每一幅网页转换成一副图像,结合提取的网页布局块和文本块来提取每一幅网页四方面的特征:布局视觉特征、文本视觉特征、传统视觉特征以及视觉复杂度特征;利用得到的网页特征对支持向量机分类器进行训练,得到分类器参数,并对新网页进行评价,判定其视觉质量的高低。本发明可以应用在Web搜索,网页设计以及Web过滤等诸多方面,提高基于Web的应用程序的性能。

Description

基于网页视觉特征的网页分类方法及其系统
技术领域
本发明涉及计算机应用技术领域,特别涉及一种网页视觉质量的评价方法及其系统。
背景技术
互联网网页不仅包含了人们所需要的各种信息,同时还是互联网的用户接口(User Interface,UI)。随着互联网在人们生活中扮演着越来越重要的作用,设计更具有视觉吸引力的网页已经成为不容忽视的需求。很多领域的学者已经开始研究网页的美感度(也即网页视觉质量)对用户访问的影响。已有研究指出,视觉质量高的网页能够增强用户在使用基于网页的程序时候的体验。心理学实验也证明了视觉质量高的网页能够增加网页的可用性与访问性。因此在人机交互(Human ComputerInteraction,HCI)和网页设计领域,在网页视觉质量评价上已有很多的工作。但是由于这些领域的研究人员通常在web信息处理、视觉信息处理、模型学习方面比较欠缺,所设计的评价模型不适用于对大规模网页的自动评价。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的是提供一种自动的网页视觉质量评价方法及系统。
(二)技术方案
为达到上述目的,本发明提供了一种网页视觉质量的评价方法,其特征在于,该方法包括:
步骤1:首先收集尽可能多的网页样本,利用人工来把每个样本标记为视觉质量高的网页或者视觉质量低的网页,人工标记为视觉质量高的样本组成正类样本集,人工标记为视觉质量低的样本组成负类样本集,两个集合构成了训练集;收集的网页及其标记,构成了训练集;
步骤2:利用网页分割算法来对每幅网页进行分割并提取网页布局块和文本块;
步骤3:将每一幅网页转换成一副图像,提取每幅网页四个方面的特征:布局视觉特征、文本视觉特征、传统视觉特征以及视觉复杂度特征;
步骤4:利用得到的每幅网页的特征对支持向量机分类器进行训练,得到分类器参数,并对新网页样本进行评价,判定其是否为高于质量阈值的网页。
其中,所述建立训练集收集网页样本是收集尽可能多的网页样本,并多个用户对每个样本进行视觉质量评判,获得每个样本的多个视觉质量评判结果并对多个视觉质量评判结果进行平均计算,计算得到的平均值高于视觉质量阈值的网页样本标记为正类样本,低于视觉质量阈值的网页样本标记为负类样本。
其中,所述的网页分割方法包括:基于视觉的网页分割算法、基于DOM树的网页分割算法。
其中,提取网页的布局块与文本块是利用网页分割算法来把网页划分成多个矩形块,这些矩形块称为布局块;包含文本字符个数超过阈值的布局块作为网页的文本块。
其中,所述的布局视觉特征包括:网页的整体长宽比、网页的整体长宽和、提取的布局块的个数。
其中,所述的文本视觉特征包括:网页中文本块的个数、网页文本块占总体网页的面积比、网页文字字符与网页文本块面积的比例。
其中,所述的传统视觉特征包括:网页的色调表示为Hue(Page),网页的饱和度表示为Saturation(Page),网页的明亮度表示为Brightness(Page)和网页的彩色度表示为Colorfulness,传统视觉特征的计算首先需要把一副网页首先转化为一副图形,并分别用颜色空间HSV和颜色空间RGB进行表示,然后采用以下公式:
Hue ( Page ) = Σ i = 1 N Σ j = 1 M H ( i , j ) / ( N · M )
Saturation ( Page ) = Σ i = 1 N Σ j = 1 M S ( i , j ) / ( N · M )
Brightness ( Page ) = Σ i = 1 N Σ j = 1 M V ( i , j ) / ( N · M )
Colorfulness=αrgyb+0.3βrgyb
其中,i和j是指图像像素的在水平方向和垂直方向上的位置,N和M分别为网页对应图像的高和宽;H(i,j)为位于图像(i,j)的像素点在颜色空间HSV的H值;S(i,j)为位于图像(i,j)的像素点在颜色空间HSV的S值;V(i,j)为位于图像(i,j)的像素点在颜色空间HSV的V值;彩色度计算公式中的αrgyb和βrgyb分别表示方差彩色因子和平均彩色因子,其计算公式为:
α rgyb = [ σ rg ] 2 + [ σ yb ] 2
β rgyb = [ μ rg ] 2 + [ μ yb ] 2
rg(i,j)=R(i,j)-G(i,j)
yb(i,j)=0.5(R(i,j)+G(i,j))-B(i,j)
其中σ和μ分别表示所有图像像素点的rg和yb值的方差和均值;R(i,j),G(i,j),和B(i,j),表示图像(i,j)的像素点在颜色空间RGB的R,G和B值。
其中,所述的视觉复杂度特征是指网页转化为图像后的图像存储空间大小。
其中,采用支持向量机分类算法对网页进行分类,判定其是否高于视觉质量阈值的网页。
为达到上述目的,本发明提供了一种自动的网页视觉质量评价系统,该系统包括:
网页预处理模块,用于对网页进行分割,并把网页转化为一副图像;
网页结构分析模块与网页预处理模块连接,用于提取网页的布局块以及文本块;
网页布局视觉特征提取模块与网页结构分析模块连接,接受网页结构分析模块提取的网页布局块,用于提取反应网页布局的视觉特征;
网页文本视觉特征提取模块与网页结构分析模块连接,接受网页结构分析模块提取的网页文本块,用于提取反应网页文本的一些视觉特征;
网页传统视觉特征提取模块,与网页预处理模块和网页结构分析模块连接,接受网页预处理模块网页转换后的图像以及接受网页结构分析模块的提取的网页布局块,用于提取网页颜色上的一些传统视觉特征;
网页视觉复杂度特征提取模块与网页预处理模块连接,接受网页预处理模块的网页转换后的图像,用于提取网页的视觉复杂度特征;
分类模块,用于接收网页布局视觉特征提取模块、网页文本视觉特征提取模块、网页传统视觉特征提取模块以及和网页视觉复杂度特征提取模块提取的网页特征,利用训练集对支持向量机分类器进行训练,得到分类器参数,利用训练好的支持向量机分类器模型对测试网页分类,并输出网页的分类结果。
其中,所述网页结构分析模块包括:网页布局块提取单元接收网页预处理模块的网页分割单元的分割后生成的网页视觉块树,网页视觉块树的所有叶节点对应的矩阵块作为网页的布局块;网页文本块提取单元接收网页预处理模块的网页分割单元的分割后生成的网页视觉块树,网页视觉块树的所有叶节点中,包含了文本字符个数大于等于给定阈值的叶节点对应的矩阵块作为网页的文本块。
(三)有益效果
从上述技术方案可以看出,本发明具有以下优点:
1、本发明提供的这种网页视觉质量的评价方法,从四个方面来提取网页的视觉特征:布局视觉特征、文本视觉特征、颜色纹理特征以及视觉复杂度特征,四方面特征较为完整的描述了一副网页的四种内容:结构、文本、图像以及背景。每一方面特征可以单独进行更改和扩展,使得如果今后出现了更为快速鲁棒的特征提取,可以轻而易举地添加到本系统中,从而进一步提升系统的性能。
2、本系统的特征提取和分类器处理过程完全是自动的,不需要人工干预,因此能够非常容易的嵌入到目前的各类基于Web的应用程序当中,具有广泛的应用前景。本发明可以应用在Web搜索,网页设计以及Web过滤等诸多方面,提高基于Web的应用程序的性能。
附图说明
图1a为本发明的网页的布局块;
图1b为本发明的网页的文本块;
图2a为两幅网页;
图2b为上面两幅网页对应的分割产生的树形结构图。
图3为本发明提供的网页视觉质量评价方法的流程图;
图4为本发明提供系统模块构成图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的执行环境采用一台具有3.0G赫兹中央处理器和2G字节内存的奔腾4计算机并用C++语言编制了网页视觉质量评价方法的算法程序,实现了本发明自动的网页视觉质量评价系统,还可以采用其他的执行环境,在此不再赘述。
本发明的系统由以下七个模块组构成,如图4所示:
一、网页预处理模块1,该模块为一独立模块,包括网页分割单元11和转化为图像单元12。网页预处理模块1,用于对网页进行分割,并把网页转化为一副图像;
二、网页结构分析模块2,该模块为一独立模块,网页结构分析模块2与网页预处理模块1连接,该模块的主要功能是依据网页分割的结果,提取网页的布局块(如图1a示出)和文本块(如图1b示出),图1a中的粗线矩形框代表了网页的布局块,图1b中的细线矩形框代表了网页的文本块。
三、网页布局视觉特征提取模块3与网页结构分析模块2的网页布局块提取单元21连接,用于接收网页结构分析模块提取的网页布局块,该模块的主要功能是根据提取的网页布局块,提取网页的布局视觉特征。
四、网页文本视觉提取模块4与网页结构分析模块2的网页文本块提取单元22连接,接受网页结构分析模块2提取的网页文本块,用于提取反应网页文本的一些视觉特征;该网页文本视觉提取模块4的主要功能是对得到的网页文本块进行特征提取,以反映网页文本对用户视觉感知的影响。
五、网页传统视觉特征提取模块5与网页预处理模块1的图像单元12以及网页结构分析模块2的网页布局块提取21单元连接,用于接收网页结构分析模块2提取的网页的布局块,以及接受网页预处理模块1网页转换后的图像,用于提取网页颜色上的一些传统视觉特征;具体来说,就是提取每个网页的整体色调(Hue),饱和度(Saturation),明亮度(Brightness),以及彩色度(Colorfulness)。
六、网页视觉复杂度特征提取模块6与网页预处理模块1的图像单元12连接,接受网页预处理模块1的网页转换后的图像,用于提取网页的视觉复杂度特征;获取网页转换得到的网页图像,获取网页图像的存储空间大小来作为网页的视觉复杂度特征。
七、分类模块与网页布局视觉特征提取模块、网页文本视觉特征提取模块、网页传统视觉特征提取模块以及网页视觉复杂度特征提取模块连接,用以接收上述这四个特征提取模块的提取的四方面特征,利用支持向量机对特征进行分类,并给出网页最终是属于正类(视觉质量高的网页)还是负类(视觉质量低的网页)。
所述网页结构分析模块2包括:网页布局块提取单元21和网页文本块提取单元22,其中:网页布局块提取单元21接收网页预处理模块的网页分割单元输出的网页块树提取网页块的叶节点对应的矩阵块,网页文本块提取单元22接受接收网页预处理模块的网页分割单元11输出的网页块树,提取含有文本字符个数大于等于给定阈值(阈值的范围为30-100个数,一般选取50个数)的叶节点对应的矩阵块作为网页的文本块。
下面结合图3,详细给出本发明技术方案中所涉及的各个步骤细节问题的说明。
步骤301:首先收集尽可能多的网页样本,利用人工来把每个样本标记为视觉质量高的网页或者视觉质量低的网页,人工标记为视觉质量高的样本组成正类样本集,人工标记为视觉质量低的样本组成负类样本集,两个集合构成了训练集;收集的网页及其人工标记,构成了训练集;此步骤应尽可能多地收集多的网页样本,使所建立的训练集具有广泛的代表性。并且在利用人工对每个样本的视觉质量标记上,尽可能请多个用户对每个样本进行视觉质量评判,评判的结果是给出每个样本的视觉质量分数,分数在一个事先设定的区间类,用户给的分值越高表示视觉质量越好,获得每个样本的多个视觉质量评判结果后,对多个视觉质量评判结果进行平均计算,计算得到的平均值高于视觉质量阈值(阈值定为打分区间的中值)的网页样本标记为正类样本,低于视觉质量阈值的网页样本标记为负类样本。
假定网页的视觉质量的打分区间为[0,10],分值越高越好,视觉质量阈值选取为视觉质量打分区间的中值,也即为5分;假定有四个用户对某一个样本的打分分别为:1分,2分,3分,6分,其平均分值为3分,小于5分,那么该样本标记为负类样本。假定打分分别为:5分,10分,7分,8分,其平均分值为7.5分,大于5分,那么该样本标记为正类样本。
步骤302:在训练集网页上对每幅网页进行分割,提取网页布局块与文本块,以作为进一步特征提取的输入;
网页的分割方法可以有很多选择,如:基于视觉的网页分割算法(VIPS),基于文档树(DOM)的网页分割算法等。图2a,图2b分别给出了网页,以及根据该网页源码利用基于视觉的网页分割算法(Vision-based Page Segmentation,VIPS)后产生的相应的网页视觉块树的结构的示意图。网页视觉块树的叶节点对应的矩形作为网页的布局块,网页视觉块树的叶节点中含有文本字符个数大于等于给定阈值的叶节点对应的矩阵块作为网页的文本块;
步骤303:将网页转换为图像,根据提取的布局块和文本块,分别提取网页布局视觉特征,网页文本视觉特征,网页传统视觉特征以及网页视觉复杂度特征;
网页布局视觉特征包括网页的整体长宽比、网页的整体长宽和、提取的布局块的个数;
网页文本视觉特征包括网页中文本块的个数、网页文本块占总体网页的面积比、网页文字字符个数与网页文本块总面积的比例;
网页传统视觉特征包括:网页的色调表示为Hue,饱和度表示为Saturation,明亮度表示为Brightness和网页的彩色度表示为(Colorfulness),传统视觉特征的计算首先需要把一副网页首先转化为一副图形,并分别用颜色空间HSV(Hue-Saturation-Value)和颜色空间RGB(Red-Green-Blue)对该图像进行表示,然后采用以下公式:
Hue ( Page ) = Σ i = 1 N Σ j = 1 M H ( i , j ) / ( N · M )
Saturation ( Page ) = Σ i = 1 N Σ j = 1 M S ( i , j ) / ( N · M )
Brightness ( Page ) = Σ i = 1 N Σ j = 1 M V ( i , j ) / ( N · M )
Colorfulness=αrgyb+0.3βrgyb
其中,i和j是指图像像素的在水平方向和垂直方向上的位置,N和M分别为网页对应图像的高和宽;H(i,j)为位于图像(i,j)的像素点在颜色空间HSV的H值;S(i,j)为位于图像(i,j)的像素点在颜色空间HSV的S值;V(i,j)为位于图像(i,j)的像素点在颜色空间HSV的V值;彩色度计算公式中的αrgyb和βrgyb分别表示方差彩色因子和平均彩色因子,其计算公式为:
α rgyb = [ σ rg ] 2 + [ σ yb ] 2
β rgyb = [ μ rg ] 2 + [ μ yb ] 2
rg(i,j)=R(i,j)-G(i,j)
yb(i,j)=0.5(R(i,j)+G(i,j))-B(i,j)
其中σ和μ分别表示所有图像像素点的rg和yb值的方差和均值;R(i,j),G(i,j),和B(i,j),表示图像(i,j)的像素点在颜色空间RGB的R,G和B值。
网页视觉复杂度特征是指网页转化的图像对应的图像存储空间的大小。
步骤304:将得到的特征向量集分为训练集和测试集两部分,利用训练集对支持向量机分类器进行训练,得到分类器参数,利用训练好的支持向量机分类器模型对测试集分类,并输出分类结果,并对新网页样本进行预测。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于网页视觉特征的网页分类方法,其特征在于,该方法包括:
步骤1:首先收集网页样本,把每个样本标记为视觉质量高的网页或者视觉质量低的网页,标记为视觉质量高的样本组成正类样本集,标记为视觉质量低的样本组成负类样本集,两个集合构成了训练集;
步骤2:利用网页分割算法来对每幅网页进行分割并提取网页布局块和文本块;
步骤3:将每一幅网页转换成一幅图像,提取每幅网页四个方面的特征:布局视觉特征、文本视觉特征、传统视觉特征以及视觉复杂度特征;所述的传统视觉特征包括:网页的色调表示为Hue(Page),网页的饱和度表示为Saturation(Page),网页的明亮度表示为Brightness(Page)和网页的彩色度表示为Colorfulness,传统视觉特征的计算首先需要把一幅网页首先转化为一幅图形,并分别用颜色空间HSV和颜色空间RGB进行表示,然后采用以下公式:
Hue ( Page ) = Σ i = 1 N Σ j = 1 M H ( i , j ) / ( N · M )
Saturation ( Page ) = Σ i = 1 N Σ j = 1 M S ( i , j ) / ( N · M )
Brightness ( Page ) = Σ i = 1 N Σ j = 1 M V ( i , j ) / ( N · M )
Colorfulness=αrgyb+0.3βrgyb
其中,i和j是指图像像素的在水平方向和垂直方向上的位置,N和M分别为网页对应图像的高和宽;H(i,j)为位于图像的(i,j)位置的像素点在颜色空间HSV的H值;S(i,j)为位于图像的(i,j)位置的像素点在颜色空间HSV的S值;V(i,j)为位于图像的(i,j)位置的像素点在颜色空间HSV的V值;彩色度计算公式中的αrgyb和βrgyb分别表示方差彩色因子和平均彩色因子,其计算公式为:
α rgyb = [ σ rg ] 2 + [ σ yb ] 2
β rgyb = [ μ rg ] 2 + [ μ yb ] 2
rg(i,j)=R(i,j)-G(i,j)
yb(i,j)=0.5(R(i,j)+G(i,j))-B(i,j)
其中σ和μ分别表示所有图像像素点的rg和yb值的方差和均值;R(i,j),G(i,j),和B(i,j),表示图像的(i,j)位置的像素点在颜色空间RGB的R,G和B值;所述的文本视觉特征包括:网页中文本块的个数、网页文本块占总体网页的面积比、网页文字字符与网页文本块面积的比例;所述的视觉复杂度特征是指网页转化为图像后的图像存储空间大小;
步骤4:利用得到的每幅网页的特征对支持向量机分类器进行训练,得到分类器参数,并对新网页样本进行评价,判定其是否为高于质量阈值的网页。
2.根据权利要求1所述的基于网页视觉特征的网页分类方法,其特征在于,建立训练集收集网页样本是收集尽可能多的网页样本,并多个用户对每个样本进行视觉质量评判,获得每个样本的多个视觉质量评判结果并对多个视觉质量评判结果进行平均计算,计算得到的平均值高于视觉质量阈值的网页样本标记为正类样本,低于视觉质量阈值的网页样本标记为负类样本。
3.根据权利要求1所述的基于网页视觉特征的网页分类方法,其特征在于,所述的网页分割方法包括:基于视觉的网页分割算法或基于DOM树的网页分割算法。
4.根据权利要求1所述的基于网页视觉特征的网页分类方法,其特征在于,提取网页的布局块与文本块是利用网页分割算法来把网页划分成多个矩形块,这些矩形块称为布局块;包含文本字符个数超过阈值的布局块作为网页的文本块。
5.根据权利要求1所述的基于网页视觉特征的网页分类方法,其特征在于,所述的布局视觉特征包括:网页的整体长宽比、网页的整体长宽和、提取的布局块的个数。
6.一种基于网页视觉特征的网页分类系统,其特征在于,该系统包括:
网页预处理模块,用于对网页进行分割,并把网页转化为一幅图像;
网页结构分析模块与网页预处理模块连接,用于提取网页的布局块以及文本块;
网页布局视觉特征提取模块与网页结构分析模块连接,接收网页结构分析模块提取的网页布局块,用于提取反应网页布局的视觉特征;
网页文本视觉特征提取模块与网页结构分析模块连接,接收网页结构分析模块提取的网页文本块,用于提取反应网页文本的视觉特征,所述的文本视觉特征包括:网页中文本块的个数、网页文本块占总体网页的面积比、网页文字字符与网页文本块面积的比例;
网页传统视觉特征提取模块与网页结构分析模块和网页预处理模块连接,接收网页结构分析模块的网页的布局块以及接收网页预处理模块的网页转换后的图像,用于提取网页颜色上的传统视觉特征;
网页视觉复杂度特征提取模块与网页预处理模块连接,接收网页预处理模块的网页转换后的图像,用于提取网页的视觉复杂度特征,所述的视觉复杂度特征是指网页转化为图像后的图像存储空间大小;
分类模块,用于接收网页布局视觉特征提取模块、网页文本视觉特征提取模块、网页传统视觉特征提取模块以及网页视觉复杂度特征提取模块提取的网页特征,利用训练集对支持向量机分类器进行训练,得到分类器参数,利用训练好的支持向量机分类器模型对测试网页分类,并输出网页的分类结果。
7.根据权利要求6所述的基于网页视觉特征的网页分类系统,其特征在于,所述网页结构分析模块包括:网页布局块提取单元和网页文本块提取单元,其中:
网页布局块提取单元接收网页预处理模块的网页分割单元的分割后生成的网页视觉块树,网页视觉块树的所有叶节点对应的矩阵块作为网页的布局块;
网页文本块提取单元接收网页预处理模块的网页分割单元的分割后生成的网页视觉块树,网页视觉块树的所有叶节点中,包含了文本字符个数大于等于给定阈值的叶节点对应的矩阵块作为网页的文本块。
CN2009102437290A 2009-12-23 2009-12-23 基于网页视觉特征的网页分类方法及其系统 Expired - Fee Related CN101777060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102437290A CN101777060B (zh) 2009-12-23 2009-12-23 基于网页视觉特征的网页分类方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102437290A CN101777060B (zh) 2009-12-23 2009-12-23 基于网页视觉特征的网页分类方法及其系统

Publications (2)

Publication Number Publication Date
CN101777060A CN101777060A (zh) 2010-07-14
CN101777060B true CN101777060B (zh) 2012-05-23

Family

ID=42513523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102437290A Expired - Fee Related CN101777060B (zh) 2009-12-23 2009-12-23 基于网页视觉特征的网页分类方法及其系统

Country Status (1)

Country Link
CN (1) CN101777060B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102137271A (zh) * 2010-11-04 2011-07-27 华为软件技术有限公司 一种图像质量评价方法及装置
CN102243661B (zh) * 2011-07-21 2014-04-23 中国科学院计算机网络信息中心 网站内容质量评估方法和装置
CN103544169B (zh) * 2012-07-12 2017-05-10 百度在线网络技术(北京)有限公司 页面调整方法及装置
CN103577831B (zh) 2012-07-30 2016-12-21 国际商业机器公司 用于基于反馈来生成训练模型的方法和装置
US9659258B2 (en) 2013-09-12 2017-05-23 International Business Machines Corporation Generating a training model based on feedback
CN103793717A (zh) * 2012-11-02 2014-05-14 阿里巴巴集团控股有限公司 判断图像主体显著性及训练其分类器的方法和系统
CN105095312B (zh) * 2014-05-22 2018-10-02 阿里巴巴集团控股有限公司 网页前端性能的评估方法和系统
CN106886992A (zh) * 2017-01-24 2017-06-23 北京理工大学 一种基于饱和度的彩色多曝光融合图像的质量评价方法
WO2018195891A1 (zh) * 2017-04-28 2018-11-01 深圳大学 无参考图像质量评价方法及装置
CN110134464A (zh) * 2018-02-02 2019-08-16 富士通株式会社 信息处理方法和装置
CN108921184A (zh) * 2018-04-18 2018-11-30 中国科学院信息工程研究所 一种通用的网页类型判定方法
CN110837460B (zh) * 2018-08-16 2023-07-14 阿里巴巴华南技术有限公司 页面评测方法、模型构建方法及设备
CN109740435A (zh) * 2018-11-30 2019-05-10 四川译讯信息科技有限公司 一种图片类文件复杂度判定方法及平台
CN110704687B (zh) * 2019-09-02 2023-08-11 平安科技(深圳)有限公司 文字布局方法、装置及计算机可读存储介质
CN110796004A (zh) * 2019-09-25 2020-02-14 北京大米科技有限公司 图像识别评估方法、装置、存储介质及电子设备
CN111488931B (zh) * 2020-04-10 2023-04-07 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111488953B (zh) * 2020-06-28 2020-10-13 浙江网新恒天软件有限公司 基于html源码特征对网页主题进行快速分类的方法
CN111753843A (zh) * 2020-06-28 2020-10-09 平安科技(深圳)有限公司 基于深度学习的分割效果评估方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法
US20090177959A1 (en) * 2008-01-08 2009-07-09 Deepayan Chakrabarti Automatic visual segmentation of webpages

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090177959A1 (en) * 2008-01-08 2009-07-09 Deepayan Chakrabarti Automatic visual segmentation of webpages
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deng Cai等.Extracting Content Structure for Web Pages based on Visual Representation.《ACM Transactions on Info.Sys.》.2002,第20卷(第1期),文章4.1节、5.1节,附图2. *
韩先培等.基于布局特征与语言特征的网页主要内容块发现.《中文信息学报》.2008,第22卷(第1期),18-19. *
高乐等.基于视觉的Web页面分块算法的改进与实现.《计算机系统应用》.2009,(第4期),65-69. *

Also Published As

Publication number Publication date
CN101777060A (zh) 2010-07-14

Similar Documents

Publication Publication Date Title
CN101777060B (zh) 基于网页视觉特征的网页分类方法及其系统
CN108764074B (zh) 基于深度学习的主观题智能阅卷方法、系统及存储介质
CN109284758B (zh) 一种发票印章消除方法、装置和计算机存储介质
CN101038686B (zh) 一种基于信息融合的机读旅行证件识别方法
CN104408449B (zh) 智能移动终端场景文字处理方法
CN103679678B (zh) 一种矩形文字特征碎纸片的半自动拼接复原方法
CN104268134B (zh) 一种主客观分类器构建方法和系统
CN102141998B (zh) 网页视觉复杂度的自动评价方法
CN105005765A (zh) 一种基于Gabor小波和灰度共生矩阵的人脸表情识别方法
CN106875546A (zh) 一种增值税发票的识别方法
CN102156865A (zh) 手写文本行字符切分方法、识别方法
CN105069412A (zh) 一种数字化阅卷方法
CN112528997B (zh) 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN103455823B (zh) 一种基于分类模糊及图像分割的英文字符识别方法
CN102254159A (zh) 一种数显仪表判读方法
CN109086772A (zh) 一种扭曲粘连字符图片验证码的识别方法及系统
CN107818321A (zh) 一种用于车辆年检的水印日期识别方法
CN109949333B (zh) 一种基于颜色解混的文字图章分离方法
CN106980857A (zh) 一种基于碑帖的毛笔字分割识别方法
CN110263739A (zh) 基于ocr技术的图片表格识别方法
CN108052955B (zh) 一种高精度盲文识别方法及系统
Rigaud et al. What do we expect from comic panel extraction?
Kesiman et al. An analysis of ground truth binarized image variability of palm leaf manuscripts
CN107958261B (zh) 一种盲文点检测方法及系统
CN106709437A (zh) 一种改进的针对早期专利文档扫描件中图文信息的智能处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120523

Termination date: 20211223

CF01 Termination of patent right due to non-payment of annual fee