CN108959287B - 一种网页内容处理方法及装置、存储介质 - Google Patents

一种网页内容处理方法及装置、存储介质 Download PDF

Info

Publication number
CN108959287B
CN108959287B CN201710351041.9A CN201710351041A CN108959287B CN 108959287 B CN108959287 B CN 108959287B CN 201710351041 A CN201710351041 A CN 201710351041A CN 108959287 B CN108959287 B CN 108959287B
Authority
CN
China
Prior art keywords
web page
snapshot
longitudinal axis
array
axis direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710351041.9A
Other languages
English (en)
Other versions
CN108959287A (zh
Inventor
曹刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201710351041.9A priority Critical patent/CN108959287B/zh
Priority to PCT/CN2018/086064 priority patent/WO2018210164A1/zh
Publication of CN108959287A publication Critical patent/CN108959287A/zh
Priority to US16/686,019 priority patent/US10970464B2/en
Application granted granted Critical
Publication of CN108959287B publication Critical patent/CN108959287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页内容处理方法,包括:在网页快照的直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置;基于网页快照的分辨率,在纵轴方向的起始位置和终止位置之间,确定网页快照中正文在纵轴方向的第一起始位置和第一终止位置;基于网页快照的渲染树,在第一起始位置和第一终止位置之间,确定网页快照中正文在纵轴方向的第二起始位置和第二终止位置。本发明还公开了一种网页内容处理装置、存储介质。

Description

一种网页内容处理方法及装置、存储介质
技术领域
本发明涉及互联网浏览器网页内容提取技术,尤其是一种网页内容处理方法及装置、存储介质。
背景技术
现有技术中,为避免频繁的翻页操作,在网站存在多页的新闻或小说类正文内容时,可以基于用户的请求将网页中内容提取出来拼接在一个网页中。为提取网页中所需要的正文内容,现有技术中常用的方法是,根据网页中的下页按钮标签位置就近查找正文的位置,或是人工遍历各种网站的网页记下正文对应的标签属性,然后根据该属性来找到正文的标签元素。该方法虽然能够实现提取网页中需要的正文内容,但由于网页布局或标签属性经常变化,往往会造成正文提取不准确,影响用户的阅读体验。
发明内容
有鉴于此,本发明实施例期望提供一种网页内容处理方法及装置、存储介质,能够精确提取浏览器中所需的网页内容,提高对网页内容提取的准确性。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种网页内容处理方法,包括:
在网页快照的直方图统计数组中,确定最长连续图像在纵轴方向的起始位置和终止位置;
基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置;
基于所述网页快照的渲染树,在所述第一起始位置和第一终止位置之间,确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置。
上述方案中,所述方法还包括:
提取所述第二起始位置和所述第二终止位置之间的内容为所述网页快照的正文内容。
上述方案中,所述方法还包括:
对所述网页快照滤波处理;
对经过滤波处理的所述网页快照进行二值化处理;
对所述经过二值化处理的所述网页快照进行膨胀处理;
对所述经过膨胀处理的所述网页快照进行纵轴方向的直方图统计,得到所述纵轴方向的直方图统计数组。
上述方案中,所述对所述网页快照滤波处理包括:
将所述网页快照对应的网页的链接标签对应点,由显示属性模式切换为隐藏属性模式。
上述方案中,所述在网页快照的直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置包括:
设置检测数组,所述检测数组的中的元素取值范围与所述直方图统计数组的元素取值范围相同;
将所述直方图统计数组的计算结果与预设阈值比较,若所述直方图统计数组的计算结果大于预设阈值,则所述检测数组的计算结果记为1,若所述直方图统计数组的计算结果小于等于预设阈值,则所述检测数组的计算结果记为0;
在所述检测数组中搜索计算结果为1的最大连续步长;
其中,所述最大连续步长的起始位置为所述最长连续图像在纵轴方向的起始位置,所述最大连续步长的终止位置为所述最长连续图像在纵轴方向的终止位置。
上述方案中,所述基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置包括:
确定所述网页快照中正文在纵轴方向的第一起始位置的纵坐标取值为:所述直方图统计数组中的最长连续图像的在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值;
确定所述网页快照中正文在纵轴方向的第一终止位置的纵坐标取值为:所述直方图统计数组中的最长连续图像的在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值。
上述方案中,所述基于所述网页快照的渲染树,在所述第一起始位置和第一终止位置之间,确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置包括:
在所述网页快照的渲染树的位置中查找纵轴高度相差最大的起始位置和终止位置,并且所查找到的起始位置和终止位置满足以下条件:
所述查找到的起始位置的纵坐标大于或等于所述第一起始位置的纵坐标,所述查找到的终止位置的纵坐标小于或等于所述第一终止位置的纵坐标。
上述方案中,所述方法还包括:
所述确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置之后,
将网页的各所述网页快照的所述第二起始位和所述第二终止位置相连接,形成所述网页的正文部分的连续显示信息。
本发明实施例还提供了一种网页内容处理装置,包括:
直方图定位模块,用于在网页快照的直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置;
初始定位模块,用于基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置;
精确定位模块,用于基于所述网页快照的渲染树,在所述第一起始位置和第一终止位置之间,确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置。
提取模块,用于提取所述第二起始位置和所述第二终止位置之间的内容。
上述方案中,所述装置还包括:
提取模块,用于提取所述第二起始位置和所述第二终止位置之间的内容。
上述方案中,所述装置还包括:
滤波处理模块,用于对所述网页快照进行滤波处理;
二值化处理模块,用于对经过滤波处理的所述网页快照进行二值化处理;
膨胀处理模块,用于对所述经过二值化处理的网页快照进行膨胀处理;
直方图统计模块,用于对经过膨胀处理的网页快照的纵方向中元素值为1的投影进行统计,根据所述统计的结果,得到所述纵轴方向的直方图统计数组。
上述方案中,
所述滤波处理模块具体用于:
将所述网页快照对应的网页的链接标签对应点,由显示属性模式切换为隐藏属性模式。
上述方案中,
所述直方图定位模块包括:
检测数组设置单元,用于设置检测数组;
比较单元,用于将所述直方图统计数组的计算结果与预设阈值比较,
记录单元,用于若所述直方图统计数组的计算结果大于预设阈值,则记录所述检测数组的计算结果为1;
所述记录单元还用于:若所述直方图统计数组的计算结果小于等于预设阈值,则记录所述检测数组的计算结果为0;
检测数组搜索单元,用于在所述检测数组中搜索计算结果为1的最大连续步长;
检测数组定位单元,用于将所述最大连续步长的起始位置定位为所述最长连续图像在纵轴方向的起始位置;
所述检测数组定位单元还用于:将所述最大连续步长的终止位置定位为所述最长连续图像在纵轴方向的终止位置。
上述方案中,
所述初始定位模块包括:
初始定位计算单元,用于计算所述直方图统计数组中的最长连续图像的在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值;
所述初始定位计算单元还用于:计算所述直方图统计数组中的最长连续图像的在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值;
初始定位位置确定单元,用于将纵坐标为所述直方图统计数组中的最长连续图像的在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值的位置定位为第一起始位置;
所述初始定位位置确定单元还用于:将纵坐标为所述直方图统计数组中的最长连续图像的在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值的位置定位为第一终止位置。
上述方案中,
所述精确定位模块包括:
精确定位位置确定单元,用于在所述网页快照的渲染树的位置中查找纵轴高度相差最大的起始位置和终止位置;
精确定位比较单元,用于比较所述精确定位位置确定单元查找到的起始位置的纵坐标是否大于或等于所述第一起始位置的纵坐标;
所述精确定位比较单元还用于:比较所述查找到的终止位置的纵坐标是否小于或等于所述第一终止位置的纵坐标。
上述方案中,
所述装置还包括:
连接模块,用于将网页的各所述网页快照的所述第二起始位和所述第二终止位置相连接,形成所述网页的正文部分的连续显示信息。
本发明实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方案中网页内容处理方法。
本发明实施例中,首先根据网页快照的定位网页快照中正文内容的初始起始位置和初始终止位置,然后根据网页快照的渲染树对初始起始位置和初始终止位置中,获得网页快照正文内容的精确位置即第二起始位置和第二终止位置;可以自动定位网页正文所要提取内容的准确位置,避免了现有技术中仅根据标签属性提取网页的正文内容所造成的提取内容不准确,提高了用户的使用体验;直接实现对网页内容的提取,不需要限定使用环境,实现简单且适用范围广。
附图说明
图1为本发明实施例网页内容处理方法的流程示意图;
图2为本发明实施例网页内容处理装置示意图;
图3为本发明实施例网页内容处理方法中在直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置的过程示意图;
图4为本发明实施例中确定第二起始位置和第二终止位置的过程示意图;
图5为本发明实施例中网页内容处理流程示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。
在本发明实施例记载中,需要说明的是,除非另有说明和限定,需本发明实施例所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
正文内容:在本申请中,正文内容是指需要在网页中提取的内容,用户可以根据自身需要,确定网页中哪些内容可以作为正文内容,例如,用户可以确定网页中的连载小说内容是正文内容,广告信息是非正文内容。
网页快照:直接从浏览器内核渲染模块中提取出已经渲染好的网页快照,再由多个不同分辨率的网页快照时,需要选择选择最低分辨率的网页快照。
需要说明的是:由于提取网页内容主要是提取网页的正文部分,正文部分与非正文部分主要在纵轴方向的位置存在差异,因此不再考虑对横轴方向的定位和提取。
图1为本发明实施例网页内容处理方法的流程示意图,如图1所示,本发明实施例网页内容处理方法的流程包括以下步骤:
步骤101:在网页快照直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置;
步骤102:基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置;
步骤103:基于所述网页快照的渲染树,在所述第一起始位置和第一终止位置之间,确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置。
本发明可选实施例中,还可以执行以下步骤:
步骤104:提取所述第二起始位置和所述第二终止位置之间的内容为所述网页快照的正文内容。
实际使用中,在网页快照直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置之前,还可以:
对所述网页快照滤波处理;
所述滤波处理网页快照包括:
将所述网页快照对应的网页的链接标签对应点,由显示属性模式切换为隐藏属性模式。
通过所述滤波处理可以过滤掉所述网页快照中的大部分噪声干扰,仅保留正文部分和零星噪声。
对所述网页快照滤波处理之后还需要执行以下操作:
对所述经过滤波处理的所述网页快照进行二值化处理;
对所述经过二值化处理的所述网页快照进行膨胀处理;
对所述经过膨胀处理的所述网页快照进行纵轴方向的直方图统计,得到所述纵轴方向的直方图统计数组。
其中,所述二值化处理包括但不限于使用均值二值化、直方图二值化、一维Means方法,可选的使用直方图方法来进行二值化处理,首先寻找二值化阈值,先检测所述网页快照经过直方图方法处理得到的图像灰度直方图的两个最高的峰,然后阈值则取值在两个峰之间的峰谷最低处。如图像像素灰度大于等阈值设置为1,否则设置为0。如此,完成了对所述经过滤波处理的网页快照的二值化处理。
另外,使用膨胀处理的原因是网页快照正文部分之间存在间隔,膨胀处理能够使网页快照正文部分自然地连接在一起,便于之后对纵轴方向的起始位置和终止位置的确定;进行膨胀处理的方法较多,可选的是使用结构元素扫描经过二值化处理的所述网页快照的每一个像素,用结构元素与其覆盖的二值图像做“与”操作,将所述每一个像素处理为0或1的连续编码;以用来消除网页正文之间的间隔,压缩需要连接的正文的长度,避免出现正文链接中的大段的空白,同时也提高了用户的视觉感观;在优选使用结构元素时,优选使用3*3的结构元素扫描图像的每一个像素,具体过程包括:用结构元素与被3*3的结构元素覆盖的二值化图像做“与”操作:如果都为0,所述网页快照的该像素为0,否则为1,将所述网页快照的每一个像素处理为0或1的连续编码。
对所述经过膨胀处理的所述网页快照进行纵轴方向的直方图统计,得到所述纵轴方向的直方图统计数组,具体包括:
对所述经过膨胀处理的网页快照的纵方向中元素值为1的投影进行统计,根据所述统计的结果,得到所述纵轴方向的直方图统计数组。
在实际应用中,无论采用何种二值化处理方法和膨胀处理方法,都会形成直方图,由于网页快照的横轴坐标对需要被定位的正文内容无影响,所以定位正文纵向方向的位置即纵轴坐标即可,只需要统计该网页快照纵轴方向上元素值为1的投影,根据直方图统计得到一个统计数组m[y](1=<y<=Y),Y为该网页快照的最大像素高度,数组中每个值表示在图像高度为y的方向上像素值为1的像素个数。
所述在所述直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置包括:
设置检测数组;
所述检测数组的中的元素取值范围与所述直方图统计数组的元素取值范围相同;
将所述直方图统计数组的计算结果与预设阈值比较,
若所述直方图统计数组的计算结果大于预设阈值,则所述检测数组的计算结果记为1;
若所述直方图统计数组的计算结果小于等于预设阈值,则所述检测数组的计算结果记为0;
在所述检测数组中搜索计算结果为1的最大连续步长;
所述最大连续步长的起始位置为所述最长连续图像在纵轴方向的起始位置;
所述最大连续步长的终止位置为所述最长连续图像在纵轴方向的终止位置。
具体的,可以初始化检测数组c[y](1=<y<=Y);
其中,Y为该网页快照的最大像素高度;
设置阈值a;
其中,a为小于网页快照宽度的一个数值,优选网页快照宽度的二分之一;
判断m[y]是否大于a,如果大于a记录c[y]=1;
c[y]=1表示在y的方向上像素值为1的像素个数较多;
如果不大于a,则记录c[y]=0;
c[y]=0表示在y的方向上像素值为1的像素个数较少;
可选的,还可以对所述检测数组进行近邻处理;通过近邻处理能进一步让目标变得紧凑便于加速对第一位置和第二位置的确定,提升浏览器阅读模式的实现速度;
所述近邻处理包括:
判断若c[y]等于0、c[y-1]等于1、c[y+1]等于1是否同时成立,即c[y]==0&&c[y-1]==1&&c[y+1]==1是否成立,如果是对检测数组c[y](1=<y<=Y)进行近邻处理,即记录c[y]==1,然后在检测数组c[y](1=<y<=Y)中搜索连续为1的最大步长;
否则,不对检测数组c[y](1=<y<=Y)进行近邻处理,保持记录结果不变,在检测数组c[y](1=<y<=Y)中搜索连续为1的最大步长;
所述最大连续步长的起始位置为所述最长连续图像在纵轴方向的起始位置;
所述最大连续步长的终止位置为所述最长连续图像在纵轴方向的终止位置。
所述基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置包括:
所述网页快照中正文在纵轴方向的第一起始位置的纵坐标取值为:
所述直方图统计数组中的最长连续图像的在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值;
所述网页快照中正文在纵轴方向的第一终止位置的纵坐标取值为:
所述直方图统计数组中的最长连续图像的在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值。
由于网页对应的网页渲染树中的网页快照分辨率通常为1,因此通过这种方式可以确定在分辨率为1的网页快照中所要提取的正文部分的初始定位初始位置和第一终止位置。
所述基于所述网页快照的渲染树,确定满足不超过所述纵轴方向的起始位置和终止位置跨度区间的第二起始位置和第二终止位置包括:
在所述网页快照的渲染树的位置中查找纵轴高度相差最大的起始位置和终止位置,并且,所述查找到的起始位置的纵坐标大于或等于所述第一起始位置的纵坐标,所述查找到的终止位置的纵坐标小于或等于所述第一终止位置的纵坐标。
由于网页快照的渲染树的位置中的起始位置和终止位置组成的坐标集合可以有无数组,但是仅有一组的起始位置和终止位置能够同时满足起始位置的纵坐标大于或等于所述第一起始位置的纵坐标、终止位置的纵坐标小于或等于所述第一终止位置的纵坐标、纵轴高度相差最大这三个条件。
确定各个网页快照的第二起始位置和第二终止位置之后,还可以将各所述网页快照的第二起始位置连接至上一个网页快照的第二终止位置,如此可以将所提取的内容连接在一起,形成连续阅读模式。
图2为本发明实施例网页内容处理装置示意图,如图2所示,本发明实施例网页内容处理装置200包括:
直方图定位模块201,用于在网页快照的直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置;
初始定位模块202,用于基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置;
精确定位模块203,用于基于所述网页快照的渲染树,确定满足不超过所述纵轴方向的起始位置和终止位置跨度区间的第二起始位置和第二终止位置;
提取模块204,用于提取所述第二起始位置和所述第二终止位置之间的内容。
实际应用中,所述装置还包括:
滤波处理模块,用于对网页快照进行滤波处理;
二值化处理模块,用于对经过滤波处理的所述网页快照进行二值化处理;
膨胀处理模块,用于对所述经过二值化处理的网页快照进行膨胀处理;
直方图统计模块,用于对所述经过膨胀处理的所述网页快照进行纵轴方向的直方图统计,得到所述纵轴方向的直方图统计数组。
所述滤波处理模块具体用于:
将所述网页快照对应的网页的链接标签对应点,由显示属性模式切换为隐藏属性模式。
所述直方图统计模块具体用于:
对所述经过膨胀处理的网页快照的纵方向中元素值为1的投影进行统计,根据所述统计的结果,得到所述纵轴方向的直方图统计数组。
所述直方图定位模块201包括:
检测数组设置单元,用于设置检测数组;
比较单元,用于将所述直方图统计数组的计算结果与预设阈值比较,
记录单元,用于若所述直方图统计数组的计算结果大于预设阈值,则记录所述检测数组的计算结果为1;
所述记录单元还用于:
若所述直方图统计数组的计算结果小于等于预设阈值,则记录所述检测数组的计算结果为0;
检测数组搜索单元,用于在所述检测数组中搜索计算结果为1的最大连续步长;
检测数组定位单元,用于将所述最大连续步长的起始位置定位为所述最长连续图像在纵轴方向的起始位置;
所述检测数组定位单元还用于:
将所述最大连续步长的终止位置定位为所述最长连续图像在纵轴方向的终止位置。
所述初始定位模块202包括:
初始定位计算单元,用于计算所述直方图统计数组中的最长连续图像的在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值;
所述初始定位计算单元还用于:
计算所述直方图统计数组中的最长连续图像的在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值;
初始定位位置确定单元,用于将纵坐标为所述直方图统计数组中的最长连续图像的在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值的位置定位为第一起始位置;
所述初始定位位置确定单元还用于:
将纵坐标为所述直方图统计数组中的最长连续图像的在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值的位置定位为第一终止位置。
所述精确定位模块203包括:
精确定位位置确定单元,用于在所述网页快照的渲染树的位置中查找纵轴高度相差最大的起始位置和终止位置;
精确定位比较单元,用于比较所述精确定位位置确定单元查找到的起始位置的纵坐标是否大于或等于所述第一起始位置的纵坐标;
所述精确定位比较单元还用于:
比较所述查找到的终止位置的纵坐标是否小于或等于所述第一终止位置的纵坐标。
所述装置还包括:
连接模块,用于将各所述网页快照的第二起始位置连接至上一个网页快照的第二终止位置。
图3为本发明实施例网页内容处理方法中在直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置的过程示意图,如图3所示,本发明实施例网页内容处理方法中在直方图统计数组中确定最长连续图像的在纵轴方向的起始位置和终止位置的过程包括以下步骤:
步骤301:初始化检测数组c[y](1=<y<=Y);
其中,Y为该网页快照的最大像素高度;
步骤302:设置阈值a;
其中,a为小于网页快照宽度的一个数值,优选网页快照宽度的二分之一;
步骤303:判断m[y]是否大于a,如果是,执行步骤304,否则执行步骤305;
步骤304:记录c[y]=1;
c[y]=1表示在y的方向上像素值为1的像素个数较多;
步骤305:记录c[y]=0;
c[y]=0表示在y的方向上像素值为1的像素个数较少;
步骤306:判断若c[y]等于0、c[y-1]等于1、c[y+1]等于1是否同时成立,即c[y]==0&&c[y-1]==1&&c[y+1]==1是否成立,如果是,执行步骤307,否则,执行步骤308;
步骤307:对检测数组c[y](1=<y<=Y)进行近邻处理,即记录c[y]==1,然后执行步骤309;
步骤308:不对检测数组c[y](1=<y<=Y)进行近邻处理,保持记录结果不变,然后执行步骤309;
步骤309:在检测数组c[y](1=<y<=Y)中搜索连续为1的最大步长。
所述最大连续步长的起始位置为所述最长连续图像在纵轴方向的起始位置;
所述最大连续步长的终止位置为所述最长连续图像在纵轴方向的终止位置。
图4为本发明实施例中确定第二起始位置和第二终止位置的过程示意图,如图4所示,本发明实施例中确定第二起始位置和第二终止位置的过程包括以下步骤:
步骤401:计算所述直方图统计数组中的最长连续图像的在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值;
步骤402:确定纵坐标取值为步骤401中所述比值的所述网页快照中正文在纵轴方向的第一起始位置;
步骤403:计算所述直方图统计数组中的最长连续图像的在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值;
步骤404:确定纵坐标取值为步骤403中所述比值的所述网页快照中正文在纵轴方向的第一终止位置;
步骤405:在所述网页快照的渲染树的位置中查找纵轴高度相差最大的起始位置和终止位置;
步骤406:判断所述起始位置的纵坐标是否满足大于或等于所述第一起始位置的纵坐标,同时,所述终止位置的纵坐标满足小于或等于所述第一终止位置的纵坐标,如果是,执行步骤407,否则返回执行步骤405;
步骤407:确定所述起始位置为第二起始位置,所述终止位置为第二终止位置。
图5为本发明实施例一中网页内容处理流程示意图,如图5所示,本发明实施例一中网页内容处理流程包括以下步骤:
步骤501:对网页快照滤波处理;
步骤502:对所述经过滤波处理的所述网页快照进行二值化处理;
步骤503:对所述经过二值化处理的所述网页快照进行膨胀处理;
步骤504:对所述经过膨胀处理的所述网页快照进行纵轴方向的直方图统计,得到所述纵轴方向的直方图统计数组;
步骤505:初始化检测数组c[y](1=<y<=Y);
其中,Y为该网页快照的最大像素高度;
步骤506:设置阈值a;
其中,a为小于网页快照宽度的一个数值,优选网页快照宽度的二分之一;
步骤507:判断m[y]是否大于a,如果是,执行步骤508,否则执行步骤509;
步骤508:记录c[y]=1;
c[y]=1表示在y的方向上像素值为1的像素个数较多;
步骤509:记录c[y]=0;
c[y]=0表示在y的方向上像素值为1的像素个数较少;
步骤510:判断若c[y]等于0、c[y-1]等于1、c[y+1]等于1是否同时成立,即c[y]==0&&c[y-1]==1&&c[y+1]==1是否成立,如果是,执行步骤511,否则,执行步骤512;
步骤511:对检测数组c[y](1=<y<=Y)进行近邻处理,即记录c[y]==1,然后执行步骤513;
步骤512:不对检测数组c[y](1=<y<=Y)进行近邻处理,保持记录结果不变,然后执行步骤513;
步骤513:在检测数组c[y](1=<y<=Y)中搜索连续为1的最大步长;
所述最大连续步长的起始位置为所述最长连续图像在纵轴方向的起始位置;
所述最大连续步长的终止位置为所述最长连续图像在纵轴方向的终止位置。
步骤514:计算所述直方图统计数组中的最长连续图像的在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值;
步骤515:确定纵坐标取值为步骤514中所述比值的所述网页快照中正文在纵轴方向的第一起始位置;
步骤516:计算所述直方图统计数组中的最长连续图像的在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值;
步骤517:确定纵坐标取值为步骤516中所述比值的所述网页快照中正文在纵轴方向的第一终止位置;
步骤518:在所述网页快照的渲染树的位置中查找纵轴高度相差最大的起始位置和终止位置;
步骤519:判断所述起始位置的纵坐标是否满足大于或等于所述第一起始位置的纵坐标,同时,所述终止位置的纵坐标满足小于或等于所述第一终止位置的纵坐标,如果是,执行步骤:520,否则返回执行步骤518;
步骤520:确定所述起始位置为第二起始位置,所述终止位置为第二终止位置。
本发明实施例还提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的所述网页内容处理方法,例如图1、图3、图4和图5任一附图所示的网页内容处理方法。就存储介质而言,可以是可读存储介质可以随机存取器(RAM,Random Access Memory)、只读存储器(ROM,Read Only Memory)、电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory)、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备。
本领域内的技术人员应明白,本发明实施例可提供为方法、系统、或计算机程序产品。因此,本发明实施例可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种网页内容处理方法,其特征在于,所述方法包括:
在网页快照的直方图统计数组中,确定最长连续图像在纵轴方向的起始位置和终止位置,其包括:
设置检测数组,所述检测数组中的元素取值范围与所述直方图统计数组的元素取值范围相同;
将所述直方图统计数组的计算结果与预设阈值比较,若所述直方图统计数组的计算结果大于预设阈值,则所述检测数组的计算结果记为1,若所述直方图统计数组的计算结果小于等于预设阈值,则所述检测数组的计算结果记为0;
在所述检测数组中搜索计算结果为1的最大连续步长;
其中,所述最大连续步长的起始位置为所述最长连续图像在纵轴方向的起始位置,所述最大连续步长的终止位置为所述最长连续图像在纵轴方向的终止位置;
基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置,其包括:
确定所述网页快照中正文在纵轴方向的第一起始位置的纵坐标取值为:所述直方图统计数组中的最长连续图像在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值;
确定所述网页快照中正文在纵轴方向的第一终止位置的纵坐标取值为:所述直方图统计数组中的最长连续图像在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值;
基于所述网页快照的渲染树,在所述第一起始位置和第一终止位置之间,确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置,其包括:
在所述网页快照的渲染树的位置中查找纵轴高度相差最大的起始位置和终止位置,并且所查找到的起始位置和终止位置满足以下条件:
所述查找到的起始位置的纵坐标大于或等于所述第一起始位置的纵坐标,所述查找到的终止位置的纵坐标小于或等于所述第一终止位置的纵坐标。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提取所述第二起始位置和所述第二终止位置之间的内容为所述网页快照的正文内容。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述网页快照滤波处理;
对经过滤波处理的所述网页快照进行二值化处理;
对所述经过二值化处理的所述网页快照进行膨胀处理;
对所述经过膨胀处理的所述网页快照进行纵轴方向的直方图统计,得到所述纵轴方向的直方图统计数组。
4.根据权利要求3所述的方法,其特征在于,所述对所述网页快照滤波处理包括:
将所述网页快照对应的网页的链接标签对应点,由显示属性模式切换为隐藏属性模式。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置之后,
将网页的各所述网页快照的所述第二起始位置和所述第二终止位置相连接,形成所述网页的正文部分的连续显示信息。
6.一种网页内容处理装置,其特征在于,所述装置包括:
直方图定位模块,用于在网页快照的直方图统计数组中确定最长连续图像在纵轴方向的起始位置和终止位置,其包括:
检测数组设置单元,用于设置检测数组;
比较单元,用于将所述直方图统计数组的计算结果与预设阈值比较,
记录单元,用于若所述直方图统计数组的计算结果大于预设阈值,则记录所述检测数组的计算结果为1,以及若所述直方图统计数组的计算结果小于等于预设阈值,则记录所述检测数组的计算结果为0;
检测数组搜索单元,用于在所述检测数组中搜索计算结果为1的最大连续步长;
检测数组定位单元,用于将所述最大连续步长的起始位置定位为所述最长连续图像在纵轴方向的起始位置,以及将所述最大连续步长的终止位置定位为所述最长连续图像在纵轴方向的终止位置;
初始定位模块,用于基于所述网页快照的分辨率,在所述纵轴方向的起始位置和终止位置之间,确定所述网页快照中正文在纵轴方向的第一起始位置和第一终止位置,其包括:
初始定位计算单元,用于计算所述直方图统计数组中的最长连续图像在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值,以及计算所述直方图统计数组中的最长连续图像在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值;
初始定位位置确定单元,用于将纵坐标为所述直方图统计数组中的最长连续图像在纵轴方向的起始位置的纵坐标与所述网页快照分辨率的比值的位置定位为第一起始位置,以及将纵坐标为所述直方图统计数组中的最长连续图像在纵轴方向的终止位置的纵坐标与所述网页快照分辨率的比值的位置定位为第一终止位置;
精确定位模块,用于基于所述网页快照的渲染树,在所述第一起始位置和第一终止位置之间,确定所述网页快照中正文在纵轴方向的第二起始位置和第二终止位置,其包括:
精确定位位置确定单元,用于在所述网页快照的渲染树的位置中查找纵轴高度相差最大的起始位置和终止位置;
精确定位比较单元,用于比较所述精确定位位置确定单元查找到的起始位置的纵坐标是否大于或等于所述第一起始位置的纵坐标,以及比较所述查找到的终止位置的纵坐标是否小于或等于所述第一终止位置的纵坐标。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
提取模块,用于提取所述第二起始位置和所述第二终止位置之间的内容。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
滤波处理模块,用于对所述网页快照进行滤波处理;
二值化处理模块,用于对经过滤波处理的所述网页快照进行二值化处理;
膨胀处理模块,用于对所述经过二值化处理的网页快照进行膨胀处理;
直方图统计模块,用于对经过膨胀处理的网页快照的纵方向中元素值为1的投影进行统计,根据所述统计的结果,得到所述纵轴方向的直方图统计数组。
9.根据权利要求8所述的装置,其特征在于,
所述滤波处理模块具体用于:
将所述网页快照对应的网页的链接标签对应点,由显示属性模式切换为隐藏属性模式。
10.根据权利要求6所述的装置,其特征在于,
所述装置还包括:
连接模块,用于将网页的各所述网页快照的所述第二起始位置和所述第二终止位置相连接,形成所述网页的正文部分的连续显示信息。
11.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述网页内容处理方法。
CN201710351041.9A 2017-05-17 2017-05-17 一种网页内容处理方法及装置、存储介质 Active CN108959287B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710351041.9A CN108959287B (zh) 2017-05-17 2017-05-17 一种网页内容处理方法及装置、存储介质
PCT/CN2018/086064 WO2018210164A1 (zh) 2017-05-17 2018-05-08 一种网页内容处理方法及装置、存储介质
US16/686,019 US10970464B2 (en) 2017-05-17 2019-11-15 Method, device for processing webpage content and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710351041.9A CN108959287B (zh) 2017-05-17 2017-05-17 一种网页内容处理方法及装置、存储介质

Publications (2)

Publication Number Publication Date
CN108959287A CN108959287A (zh) 2018-12-07
CN108959287B true CN108959287B (zh) 2021-08-03

Family

ID=64273297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710351041.9A Active CN108959287B (zh) 2017-05-17 2017-05-17 一种网页内容处理方法及装置、存储介质

Country Status (3)

Country Link
US (1) US10970464B2 (zh)
CN (1) CN108959287B (zh)
WO (1) WO2018210164A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241446B (zh) * 2020-01-13 2023-10-31 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1786947A (zh) * 2004-12-07 2006-06-14 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法和程序
CN101515272A (zh) * 2008-02-18 2009-08-26 株式会社理光 提取网页内容的方法和装置
CN101714164A (zh) * 2008-09-29 2010-05-26 尼尔森(美国)有限公司 利用图像分析对互联网进行自动爬行的方法和装置
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
US8989485B2 (en) * 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2843220B1 (fr) * 2002-07-31 2005-02-18 Lyon Ecole Centrale "procede et systeme de localisation automatique de zones de texte dans une image"
JP2011204158A (ja) * 2010-03-26 2011-10-13 Sony Corp 端末装置、処理システム、処理方法及びプログラム
JP5067459B2 (ja) * 2010-08-31 2012-11-07 ブラザー工業株式会社 画像形成制御プログラム、及び画像処理装置
JP5445483B2 (ja) * 2011-02-07 2014-03-19 ブラザー工業株式会社 画像処理プログラム
CN103309961B (zh) * 2013-05-30 2015-07-15 北京智海创讯信息技术有限公司 基于马尔可夫随机场的网页正文提取方法
US20150212988A1 (en) * 2013-06-04 2015-07-30 Panasonic Intellectual Property Corporation Of America Information display method and program
CN104574454B (zh) * 2013-10-29 2020-06-02 阿里巴巴集团控股有限公司 图像的处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1786947A (zh) * 2004-12-07 2006-06-14 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法和程序
CN101515272A (zh) * 2008-02-18 2009-08-26 株式会社理光 提取网页内容的方法和装置
CN101714164A (zh) * 2008-09-29 2010-05-26 尼尔森(美国)有限公司 利用图像分析对互联网进行自动爬行的方法和装置
CN101937438A (zh) * 2009-06-30 2011-01-05 富士通株式会社 网页内容提取方法和装置
US8989485B2 (en) * 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters

Also Published As

Publication number Publication date
US10970464B2 (en) 2021-04-06
WO2018210164A1 (zh) 2018-11-22
CN108959287A (zh) 2018-12-07
US20200081957A1 (en) 2020-03-12

Similar Documents

Publication Publication Date Title
CN105868758B (zh) 图像中文本区域检测方法、装置及电子设备
CN109685055B (zh) 一种图像中文本区域的检测方法及装置
CN106599940B (zh) 图片文字的识别方法及装置
CN108108731B (zh) 基于合成数据的文本检测方法及装置
CN110502985B (zh) 表格识别方法、装置及表格识别设备
CN112085022B (zh) 一种用于识别文字的方法、系统及设备
CA2656425A1 (en) Recognizing text in images
CN104298947B (zh) 一种对二维条码精确定位的方法及装置
EP3330887A1 (en) Chinese-sensitive code feature pattern detection method and system
CN111652144B (zh) 基于目标区域融合的题目分割方法、装置、设备和介质
CN110533699B (zh) 基于光流法的像素变化的动态多帧测速方法
CN112861842A (zh) 基于ocr的案件文本识别方法及电子设备
CN111340020A (zh) 一种公式识别方法、装置、设备及存储介质
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN111563505A (zh) 一种基于像素分割合并的文字检测方法及装置
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
CN108959287B (zh) 一种网页内容处理方法及装置、存储介质
CN110796130A (zh) 用于文字识别的方法、装置及计算机存储介质
CN110795933B (zh) 一种网页正文的识别处理方法及装置
CN111738173A (zh) 视频片段检测方法、装置、电子设备及存储介质
CN109101973B (zh) 文字识别方法、电子设备、存储介质
CN115797955A (zh) 基于单元格约束的表格结构识别方法及其应用
CN110826488B (zh) 一种针对电子文档的图像识别方法、装置及存储设备
CN111291756B (zh) 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质
CN115082944A (zh) 表格的智能识别切分方法、系统和终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant