CN101984426B - 用于对网页图片进行字符切分的方法及装置 - Google Patents

用于对网页图片进行字符切分的方法及装置 Download PDF

Info

Publication number
CN101984426B
CN101984426B CN2010105216911A CN201010521691A CN101984426B CN 101984426 B CN101984426 B CN 101984426B CN 2010105216911 A CN2010105216911 A CN 2010105216911A CN 201010521691 A CN201010521691 A CN 201010521691A CN 101984426 B CN101984426 B CN 101984426B
Authority
CN
China
Prior art keywords
content zone
content
white space
picture
zone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010105216911A
Other languages
English (en)
Other versions
CN101984426A (zh
Inventor
梁捷
周志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Ucweb Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ucweb Inc filed Critical Ucweb Inc
Priority to CN2010105216911A priority Critical patent/CN101984426B/zh
Publication of CN101984426A publication Critical patent/CN101984426A/zh
Priority to US13/880,977 priority patent/US20140149855A1/en
Priority to PCT/CN2011/080968 priority patent/WO2012051943A1/zh
Application granted granted Critical
Publication of CN101984426B publication Critical patent/CN101984426B/zh
Priority to US15/132,056 priority patent/US20160232133A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种对网页图片进行字符切分的方法,包括:对网页图片进行逐行扫描,以行为单位划分为多个相互间隔的第一空白区域和第一内容区域;从所获取的网页图片中切分出所划分出的第一内容区域;针对每个所切分出的第一内容区域进行逐列扫描,以列为单位将该第一内容区域划分为多个相互间隔的第二空白区域和第二内容区域;以及根据各个第二空白区域的像素坐标,将各个第二内容区域与各个第二空白区域切分开,作为被判断为是小说图片的各个第一内容区域中的各个单个字符。利用上述方法,可以将网页图片切分为单个字符,然后根据移动终端的屏幕尺寸对切分出的单个字符进行重新排版,以适于在移动终端上显示。

Description

用于对网页图片进行字符切分的方法及装置
技术领域
本发明涉及网页浏览领域,并且更为具体地,涉及一种用于对网页图片进行字符切分的方法及装置。
背景技术
随着通信技术的不断发展,利用移动终端登录小说网站来浏览小说内容逐渐成为一种趋势。为了对小说网站上发表的小说进行版权保护,许多小说网站通常采用图片格式显示小说内容,尤其是小说的一些VIP章节,从而防止这些内容被阅读者复制。
由于小说网站的内容通常是在个人计算机(PC)上显示的,所以这些小说网站上显示的图片格式基本上都是针对PC的显示屏幕来设计的。当利用移动终端登录小说网站进行网页浏览时,由于这种图片格式通常都比较大,难以在移动终端的小屏幕上如PC一样进行网页展示。在这种情况下,如果将小说图片缩小到移动终端的屏幕大小,则会导致文字缩小到很小,从而导致无法阅读。如果按照原来的图片格式进行展示,则用户在阅读过程中需要反复地左右移动窗口,从而造成阅读非常不方便。
基于上述问题,在利用移动终端浏览小说网站上的小说内容时,需要针对移动终端显示屏幕的尺寸,对网页图片内容进行适配处理,例如对网页图片内容进行重新排版。
由于对小说内容进行排版处理是以字符为基本单位,所以在对网页图片内容进行重新排版之前,需要对网页图片的字符进行切分。
发明内容
鉴于上述,本发明提供了一种用于对网页图片进行字符切分的方法和装置,利用上述字符切分方法和装置,可以将网页图片切分为单个字符,然后利用所切分出的单个字符,根据移动终端的屏幕尺寸对小说内容进行重新排版,以适合于在移动终端的屏幕上显示。
根据本发明的一个方面,提供了一种对网页图片进行字符切分的方法,包括:对所获取的网页图片的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域;从所获取的网页图片中切分出所划分出的第一内容区域;针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域;以及根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符。
此外,在一个或多个实施例中,从所获取的网页图片中切分出所划分的第一内容区域的步骤还可以包括:根据所划分出的各个第一内容区域的高度和和小说图片文字行的高度特征,判断该第一内容区域是否是小说图片;以及在该第一内容区域是小说图片时,以与该第一内容区域相邻的两个空白区域的中心为界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。
此外,在一个或多个实施例中,判断第一内容区域是否是小说图片的步骤还包括:计算该第一内容区域的高度平均值;以及在所计算出的第一内容区域的高度平均值落在第一阈值范围时,判断该第一内容区域是小说图片。
此外,在一个或多个实施例中,判断第一内容区域是否是小说图片的步骤还可以包括:计算该第一内容区域的高度标准差,只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时,才判断该第一内容区域是小说图片。
此外,根据各个第二空白区域的像素坐标,将所述第二内容区域与所述第二空白区域分割开的步骤还可以包括:根据所划分出的各个第二空白区域的像素坐标,确定第二内容区域的最大宽度;利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标,确定第二内容区域的字符切分点;以及利用所确定出的第二内容区域的各个字符切分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符。
此外,在对所获取的网页图片中的像素进行逐行扫描或逐列扫描时,还可以根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。
根据本发明的另一方面,提供了一种对网页图片进行字符切分的装置,包括:第一划分单元,用于对所获取的网页图片的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和多个由连续内容像素行组成的第一内容区域;第一切分单元,用于从所获取的网页图片中切分出所划分出的第一内容区域;第二划分单元,用于针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域;以及第二切分单元,用于根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符。
此外,在一个或多个实施例中,所述第一切分单元还可以包括:第一判断单元,用于根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征,判断该第一内容区域是否是小说图片;以及第一分割单元,用于在该第一内容区域是小说图片时,以与该第一内容区域相邻的两个空白区域的中心为界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。
此外,在一个示例中,所述第一判断单元还可以包括计算单元,用于计算该第一内容区域的高度平均值,在所计算出的第一内容区域的高度平均值落在第一阈值范围内时,所述第一判断单元判断该第一内容区域是小说图片。
此外,在另一示例中,所述计算单元还可以计算该第一内容区域的高度标准差,只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时,所述第一判断单元才判断该第一内容区域是小说图片。
此外,在一个或多个实施例中,所述第二切分单元还可以包括:第一确定单元,用于根据所划分出的各个第二空白区域的像素坐标,确定第二内容区域的最大宽度;第二确定单元,用于利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标,确定第二内容区域的字符切分点;及第二分割单元,用于利用所确定出的第二内容区域的各个字符切分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符。
此外,所述装置还可以包括防水印处理单元,用于在对网页图片的像素进行逐行扫描或逐列扫描时,根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。
根据本发明的另一方面,提供了一种包括如上所述的装置的移动终端。
根据本发明的另一方面,提供了一种包括如上所述的装置的服务器。
利用上述字符切分方法和装置,可以将网页图片切分为单个字符,然后利用所切分出的单个字符,根据移动终端的屏幕尺寸对小说内容进行重新排版,以适合于在移动终端的屏幕上显示。
此外,通过对网页图片进行防水印处理,可以提高划分空白区域和内容区域的准确性,从而提高字符切分的准确性。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1示出了根据本发明实施例的对网页图片进行字符切分的方法的流程图;
图2示出了图1中所示出的切分出第一内容区域的过程的一个示例的流程图;
图3示出了图1中所示出的切分出第二内容区域的过程的一个示例的流程图;
图4示出了根据本发明实施例的对网页图片进行字符切分的字符切分装置的方框示意图;
图5示出了图4中包括的第一切分单元的结构的一个示例的方框示意图;
图6示出了图4中包括的第二切分单元的结构的一个示例的方框示意图;
图7示出了包括根据本发明的字符切分装置的移动终端的方框示意图;和
图8示出了包括根据本发明的字符切分装置的服务器的方框示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施例
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
下面将参照附图来对根据本发明的各个实施例进行详细描述。
图1示出了根据本发明实施例的对网页图片进行字符切分的方法的流程图。
如图1所示,首先,在步骤S110中,对从目标网站(例如,小说网站)获取的网页图片的像素进行逐行扫描,以行为单位将网页图片划分为相互间隔的多个由连续空白像素行组成的第一空白区域和多个由连续内容像素行组成的第一内容区域,例如,所述第一空白区域可以由一个或多个连续空白像素行组成,所述第一内容区域可以由一个或多个连续内容像素行组成。
然后,在步骤S120中,从所获取的网页图片中切分出所划分出的第一内容区域。具体地,小说图片是指由一行行文字组成的网页图片,行与行之间存在一定的空白。对于一般小说图片而言,每行文字的高度通常会在10-30个像素之间(即,小说图片文字行的高度特征),其平均值也应该落在这个范围内。此外,小说图片的每行文字的高度大致相同,其标准差和平均值的比值很小(通常小于1)。因此,优选地,可以根据所划分出的各个第一内容区域的高度,计算第一内容区域的高度平均值(更进一步,可以计算高度标准差和平均值的比值),并根据所计算出的高度平均值(或高度标准差和平均值的比值)和小说图片文字行的高度特征,判断和切分出所有被判断为是小说图片的第一内容区域。关于判断和切分出所有被判断为是小说图片的第一内容区域的具体过程将在下面参照图2进行描述。
图2示出了根据图1中所示出的切分出第一内容区域的过程的一个示例的流程图。
如图2所示,首先,在步骤S121中,计算所划分出的各个第一内容区域的高度平均值。然后,在步骤S123中,判断所计算出的各个第一内容区域的高度平均值是否落在第一阈值范围内,所述第一阈值范围例如可以是10到30个像素的范围,该第一阈值范围也称为小说图片文字行的高度特征。
当所计算出的第一内容区域的高度平均值没有落在该第一阈值范围内时,判断该第一内容区域不是小说图片,从而不对该第一内容区域进行处理。当所计算出的第一内容区域的高度平均值落在该第一阈值范围内时,进行到步骤S125。在步骤S125中,进一步计算该第一内容区域的高度标准差,然后在步骤S127中,判断该高度标准差与高度平均值的比值是否不超过第二阈值,该第二阈值通常例如是1。
当该比值超过第二阈值时,判断该第一内容区域不是小说图片,从而不对该第一内容区域进行处理。当该比值不超过第二阈值时,即判断该第一内容区域是小说图片时,在步骤S129中,以与该第一内容区域相邻的两个空白区域的中心为界切分出该第一内容区域。
在从所划分的第一内容区域中切分出所有被判断为是小说图片的第一内容区域后,在步骤S130中,针对每个切分出的第一内容区域进行逐列扫描,以列为单位将该第一内容区域划分为多个相互间隔的第二空白区域和第二内容区域,例如,将第一内容区域划分为k个第二内容区域和k+1个第二空白区域,其中所述第二空白区域由一个或多个连续空白像素列组成,所述第二内容区域由一个或多个连续内容像素列组成。
然后,在步骤S140中,根据各个第二空白区域的像素坐标,将各个第二内容区域与各个第二空白区域切分开,以将切分出的各个第二内容区域作为被判断为是小说图片的各个第一内容区域中的各个单个字符。图3示出了图1中所示出的切分出第二内容区域的过程的一个示例的流程图。
如图3所示,首先,在步骤S141中,根据所划分出的各个第二空白区域的像素坐标,例如,各个第二空白区域的端坐标或中点坐标,在本例中采用中点坐标Si,确定第二内容区域的最大宽度W=MAX(Si-Si-1),其中,i是自然数,且3≤i≤k。
然后,利用所确定出的第二内容区域的最大宽度W和各个第二空白区域的端坐标,在本例中为右端坐标,确定各个第二内容区域的字符切分点。具体过程如步骤S142到S 147所示。在步骤S142中,将i设置为i=0,并且以第一个空白区域的中点X0作为第一个字符切分点。在步骤S143中,将变量d的初始值设置为d=0。在步骤S145中,计算作为当前切分点的空白区域的右端坐标Righti和最大宽度W之和,确定Righti+W-d是否落在第j个空白区域内,其中第j个空白区域的左右坐标可以通过手机终端系统获知。如果没有,则在步骤S144中将变量d加1,并返回到步骤S145进行循环判断。如果落在第j个空白区域内,则转到步骤S146,取该空白区域的中点作为第i+1个字符的右边切分点,即Xi=Sj,并作为当前字符切分点,并将变量i加1。然后,在步骤S147中,判断是否满足j==k+1。如果满足,则进行到步骤S148,在步骤S148中,利用所确定出的各个字符切分点来将第二内容区域和第二空白区域切分开,并将切分开的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个字符。否则,返回到步骤S143。
此外,由于一些网站在图片上通常使用水印,从而导致空白部分不是完全空白,由此在将网页图片划分为空白区域和内容区域时,会将一些含有水印的空白区域确定为是内容区域,从而导致不能准确地区分内容区域和空白区域。因此,优选地,在对从目标网站获取的网页图片的像素进行逐行扫描或逐列扫描时,还可以根据所扫描出的网页图片像素的灰度值,对该网页图片进行防水印处理。
具体地,对于包含有水印的小说图片而言,由于水印的灰度通常比较低,而文字部分的灰度比较高,因此可以通过设定一个阈值(例如,50%的灰度)来进行防水印处理。在这种情况下,如果所扫描到的网页图片的像素的灰度大于该阈值,则认为该像素是内容像素。如果所扫描到的网页图片的像素的灰度不大于该阈值,则认为是空白像素。这里所说的灰度Gray是亮度I的补数,即Gray=1-I。亮度的常用计算公式为I=0.299*R+0.587*G+0.114*B。
此外,在网站上使用彩色水印的情况下,为了更有效地去除彩色水印,可以将亮度的计算公式变为I=MAX(R,G,B),则灰度Gray=1-MAX(R,G,B)。
通过对网页图片进行防水印处理,可以防止包含有水印的空白区域被确定为是内容区域,从而提高划分空白区域和内容区域的准确性,由此提高字符切分的准确性。
这里要说明的是,上述方法可以利用移动终端的浏览器来实现,也可以在服务器端实现。
在利用移动终端的浏览器实现时,需要该浏览器具有强大的性能。在利用服务器实现时,移动终端中的浏览器客户端将需要浏览的网址URL发送给服务器,然后由服务器从该网址获取网页数据并进行字符切分。在完成字符切分后,服务器将切分后的字符发送给浏览器客户端。
如上参照图1-图3描述了根据本发明的对网页图片进行字符切分的方法。本发明的上述对网页图片进行字符切分的方法,可以采用软件实现,也可以采用硬件实现,或采用软件和硬件组合的方式实现。
图4示出了根据本发明实施例的对网页图片进行字符切分的字符切分装置400的方框示意图。如图4所示,所述字符切分装置400包括第一划分单元410、第一切分单元420、第二划分单元430和第二切分单元440。
在从目标网站(例如小说网站)获取网页图片后,所述第一划分单元410对所获取的网页图片的像素进行逐行扫描,以行为单位将该网页图片划分为多个相互间隔的由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域,例如,所述第一空白区域可以由一个或多个连续空白像素行组成,所述第一内容区域可以由一个或多个连续内容像素行组成。
然后,第一切分单元420从所获取的网页图片中切分出所划分出的第一内容区域。优选地,第一切分单元420可以根据所划分出的第一内容区域的高度和小说图片文字行的高度特征,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。关于第一切分单元420的细节将在下面参照图5进行描述。
在切分出所有被判断为是小说图片的第一内容区域后,第二划分单元430针对每个切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为相互间隔的多个由连续空白像素列组成的第二空白区域和多个由连续内容像素列组成的第二内容区域,例如,所述第二空白区域可以由一个或多个连续空白像素列组成,所述第二内容区域可以由一个或多个连续内容像素列组成。
在划分出多个第二内容区域和第二空白区域后,第二切分单元440根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符。关于第二切分单元420的细节将在下面参照图6进行描述。
此外,优选地,在对目标网站上的网页图片进行水印处理时,所述字符切分装置400还可以包括防水印处理单元(未示出),用于在对网页图片的像素进行逐行扫描或逐列扫描时,根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。
图5示出了图4中包括的第一切分单元420的结构的一个示例的方框示意图。如图5所示,第一切分单元420包括计算单元421、第一判断单元423和第一分割单元425。
计算单元421计算各个所切分出的第一内容区域的高度平均值。在所计算出的第一内容区域的高度平均值落在第一阈值范围内时,所述第一判断单元423判断该第一内容区域是小说图片。在该第一内容区域是小说图片时,第一分割单元425以与该第一内容区域相邻的两个空白区域的中心为界切分出该第一内容区域。
此外,可选地,计算单元421还可以进一步计算各个所切分出的第一内容区域的高度标准差。并且,只有在所计算出的第一内容区域的高度平均值落在第一阈值范围内且该高度标准差与高度平均值的比值不超过第二阈值时,第一判断单元423才判断该第一内容区域是小说图片。
这里要说明的是,所述计算单元421可以在第一判断单元423之外,也可以包含在第一判断单元423中。
图6示出了图4中包括的第二切分单元440的结构的一个示例的方框示意图。如图6所示,第二切分单元440包括第一确定单元441、第二确定单元442和第二分割单元443。
第一确定单元441根据所划分出的各个第二空白区域的像素坐标,确定第二内容区域的最大宽度。第二确定单元利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标(在本示例中为右端坐标),确定第二内容区域的字符切分点。在确定出所有字符切分点后,第二分割单元443利用所确定出的各个字符切分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图片的第一内容区域的各个单个字符。
图7示出了包括根据本发明的字符切分装置400的移动终端10的方框示意图。图7中的移动终端所包括的字符切分装置400可以包含根据本发明的实施例进行的各种变型。
图8示出了包括根据本发明的字符切分装置400的服务器20的方框示意图。图8中的服务器所包括的字符切分装置400可以包含根据本发明的实施例进行的各种变型。
本发明所述的移动终端典型地可为各种可能进行网页浏览的终端设备,例如手机、个人数字助理等,因此本发明的保护范围不应限定为某种特定类型的移动终端。
尽管前面公开的内容示出了本发明的示例性实施例,但是应当注意,在不背离权利要求限定的本发明的范围的前提下,可以进行多种改变和修改。根据这里描述的发明实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明的元素可以以个体形式描述或要求,但是也可以设想多个,除非明确限制为单数。
尽管已经结合详细示出并描述的优选实施例公开了本发明,但是本领域技术人员应当理解,对于上述本发明所提出的对网页图片进行字符切分的方法和装置,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (11)

1.一种在移动终端中对网页图片进行字符切分的方法,包括:
对所获取的网页图片中的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域;
从所获取的网页图片中切分出所划分出的第一内容区域;
针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域;以及
根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符,
其中,根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开的步骤还包括:
(a)根据所划分出的各个第二空白区域的中点坐标Si,确定第二内容区域的最大宽度W=MAX(Si-Si-1),其中,i是自然数,且3≤i≤k,k是对第一内容区域进行划分而得到的第二内容区域的个数;
(b)利用所确定出的第二内容区域的最大宽度和各个第二空白区域的右端坐标,确定第二内容区域的字符切分点;以及
(c)利用所确定出的第二内容区域的各个字符切分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符,
其中,利用所确定出的第二内容区域的最大宽度和各个第二空白区域的右端坐标,确定第二内容区域的字符切分点的步骤包括:
(b1)将i设置为i=0,以第一个空白区域的中点X0作为第一个字符切分点;
(b2)将变量d的初始值设置为d=0;
(b3)计算作为当前切分点的空白区域的右端坐标Righti和最大宽度之和,确定Righti+W-d是否落在第j个空白区域内,该第j个空白区域的左右端坐标通过移动终端获知;
(b4)如果没有落在第j个空白区域内,则将变量d加1,并且返回到步骤(b3);
(b5)如果落在第j个空白区域,则取该空白区域的中点作为第i+1个字符的右边切分点,并将该切分点作为当前字符切分点,并将i加1;以及
(b6)判断是否满足j=k+1,其中,k是对第一内容区域进行划分而得到的第二内容区域的个数,
如果满足j=k+1,则返回到步骤(c),如果不满足,则返回到步骤(b2)。
2.如权利要求1所述的方法,其中,从所获取的网页图片中切分出所划分出的第一内容区域的步骤还包括:
根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征,判断该第一内容区域是否是小说图片;以及
在该第一内容区域是小说图片时,以与该第一内容区域相邻的两个空白区域的中心为界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。
3.如权利要求2所述的方法,其中,判断第一内容区域是否是小说图片的步骤还包括:
计算该第一内容区域的高度平均值;以及
在所计算出的第一内容区域的高度平均值落在第一阈值范围时,判断该第一内容区域是小说图片。
4.如权利要求3所述的方法,其中,判断第一内容区域是否是小说图片的步骤还包括:
计算该第一内容区域的高度标准差,
只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时,才判断该第一内容区域是小说图片。
5.如权利要求1所述的方法,其中,在对所获取的网页图片中的像素进行逐行扫描或逐列扫描时,所述方法还包括:
根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。
6.如权利要求1-5中任何一个所述的方法,其中,所述方法是利用移动终端的浏览器来实现的。
7.一种在移动终端中对网页图片进行字符切分的装置,包括:
第一划分单元,用于对所获取的网页图片的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域;
第一切分单元,用于从所获取的网页图片中切分出所划分出的第一内容区域;
第二划分单元,用于针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域;以及
第二切分单元,用于根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符,
其中,所述第二切分单元还包括:
第一确定单元,用于根据所划分出的各个第二空白区域的中点坐标Si,确定第二内容区域的最大宽度W=MAX(Si-Si-1),其中,i是自然数,且3≤i≤k,k是对第一内容区域进行划分而得到的第二内容区域的个数;
第二确定单元,用于利用所确定出的第二内容区域的最大宽度和各个第二空白区域的右端坐标,确定第二内容区域的字符切分点;以及
第二分割单元,用于利用所确定出的第二内容区域的各个字符切分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符,
其中,所述第二确定单元被配置为:
(b1)将i设置为i=0,以第一个空白区域的中点X0作为第一个字符切分点;
(b2)将变量d的初始值设置为d=0;
(b3)计算作为当前切分点的空白区域的右端坐标Righti和最大宽度之和,确定Righti+W-d是否落在第j个空白区域内,该第j个空白区域的左右端坐标通过移动终端获知;
(b4)如果没有落在第j个空白区域内,则将变量d加1,并且返回到步骤(b3),
(b5)如果落在第j个空白区域,则取该空白区域的中点作为第i+1个字符的右边切分点,并将该切分点作为当前字符切分点,并将i加1;以及
(b6)判断是否满足j=k+1,其中,k是对第一内容区域进行划分而得到的第二内容区域的个数,
如果满足j=k+1,则所述第二分割单元利用所确定出的第二内容区域的各个字符切分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符,如果不满足,则返回到步骤(b2)。
8.如权利要求7所述的装置,其中,所述第一切分单元还包括:
第一判断单元,用于根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征,判断该第一内容区域是否是小说图片;以及
第一分割单元,用于在该第一内容区域是小说图片时,以与该第一内容区域相邻的两个空白区域的中心为界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。
9.如权利要求8所述的装置,其中,所述第一切分单元还包括:
计算单元,用于计算该第一内容区域的高度平均值,
在所计算出的第一内容区域的高度平均值落在第一阈值范围内时,所述第一判断单元判断该第一内容区域是小说图片。
10.如权利要求9所述的装置,其中,所述计算单元还计算该第一内容区域的高度标准差,
只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时,所述第一判断单元才判断该第一内容区域是小说图片。
11.如权利要求7所述的装置,还包括:
防水印处理单元,用于在对网页图片中的像素进行逐行扫描或逐列扫描时,根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。
CN2010105216911A 2010-10-21 2010-10-21 用于对网页图片进行字符切分的方法及装置 Active CN101984426B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN2010105216911A CN101984426B (zh) 2010-10-21 2010-10-21 用于对网页图片进行字符切分的方法及装置
US13/880,977 US20140149855A1 (en) 2010-10-21 2011-10-19 Character Segmenting Method and Apparatus for Web Page Pictures
PCT/CN2011/080968 WO2012051943A1 (zh) 2010-10-21 2011-10-19 用于对网页图片进行字符切分的方法及装置
US15/132,056 US20160232133A1 (en) 2010-10-21 2016-04-18 Method and device for rearranging paragraphs of webpage picture content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105216911A CN101984426B (zh) 2010-10-21 2010-10-21 用于对网页图片进行字符切分的方法及装置

Publications (2)

Publication Number Publication Date
CN101984426A CN101984426A (zh) 2011-03-09
CN101984426B true CN101984426B (zh) 2013-04-10

Family

ID=43641595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105216911A Active CN101984426B (zh) 2010-10-21 2010-10-21 用于对网页图片进行字符切分的方法及装置

Country Status (3)

Country Link
US (1) US20140149855A1 (zh)
CN (1) CN101984426B (zh)
WO (1) WO2012051943A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984426B (zh) * 2010-10-21 2013-04-10 优视科技有限公司 用于对网页图片进行字符切分的方法及装置
CN102567300B (zh) * 2011-12-29 2013-11-27 方正国际软件有限公司 图片文档的处理方法及装置
CN102681986A (zh) * 2012-05-23 2012-09-19 董名垂 页面即时翻译系统及页面即时翻译方法
CN103729354B (zh) * 2012-10-10 2015-10-21 腾讯科技(深圳)有限公司 网页信息处理方法及装置
CN103870444A (zh) * 2012-12-12 2014-06-18 腾讯科技(深圳)有限公司 一种图片式文本的切图方法和系统
CN103092989A (zh) * 2013-02-08 2013-05-08 广州市渡明信息技术有限公司 适应终端屏幕的图片显示方法及设备
CN104112287B (zh) * 2013-04-17 2017-05-24 北大方正集团有限公司 切分图片中文字的方法和装置
CN103500166B (zh) * 2013-08-22 2016-07-13 合一网络技术(北京)有限公司 一种渐进增强的响应式网页设计方法
CN103823863B (zh) * 2014-02-24 2017-07-25 联想(北京)有限公司 一种信息处理方法以及电子设备
CN105338360B (zh) * 2014-06-25 2019-02-15 优视科技有限公司 图像解码方法及装置
CN104537117A (zh) * 2015-01-23 2015-04-22 小米科技有限责任公司 文章处理的方法及装置
CN107533548B (zh) * 2015-07-23 2021-07-30 惠普发展公司有限责任合伙企业 在文本显示器上展示显示数据
CN105574526A (zh) * 2015-12-10 2016-05-11 广东小天才科技有限公司 一种实现逐行扫描的方法及系统
CN107783951A (zh) * 2016-08-24 2018-03-09 北京京东尚科信息技术有限公司 电子文档显示方法和装置
CN106599105A (zh) * 2016-11-29 2017-04-26 珠海市魅族科技有限公司 显示控制方法及电子设备
CN110020983B (zh) * 2018-01-10 2023-09-22 北京京东尚科信息技术有限公司 图像处理方法和装置
CN109445652B (zh) * 2018-09-26 2021-08-13 中国平安人寿保险股份有限公司 一种pdf文档显示方法及终端设备
CN111063001B (zh) * 2019-12-18 2023-11-10 北京金山安全软件有限公司 图片合成方法、装置、电子设备以及存储介质
US11887088B2 (en) * 2020-01-22 2024-01-30 Salesforce, Inc. Smart moderation and/or validation of product and/or service details in database systems
CN112036412B (zh) * 2020-08-28 2024-08-27 绿盟科技集团股份有限公司 一种网页识别方法、装置、设备及存储介质
CN113655973B (zh) * 2021-07-16 2023-12-26 深圳价值在线信息科技股份有限公司 页面分割方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents
US5062141A (en) * 1988-06-02 1991-10-29 Ricoh Company, Ltd. Method of segmenting characters in lines which may be skewed, for allowing improved optical character recognition
US5307422A (en) * 1991-06-25 1994-04-26 Industrial Technology Research Institute Method and system for identifying lines of text in a document
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
CA2260094C (en) * 1999-01-19 2002-10-01 Nec Corporation A method for inserting and detecting electronic watermark data into a digital image and a device for the same
US6674900B1 (en) * 2000-03-29 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for extracting titles from digital images
CN1778100B (zh) * 2003-04-22 2010-09-22 日本冲信息株式会社 水印信息嵌入装置及方法、水印信息检测装置及方法
US7680648B2 (en) * 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
JP5011508B2 (ja) * 2007-04-27 2012-08-29 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置
KR101015663B1 (ko) * 2008-06-24 2011-02-22 삼성전자주식회사 문자인식장치에서의 문자인식방법 및 그 장치
CN101984426B (zh) * 2010-10-21 2013-04-10 优视科技有限公司 用于对网页图片进行字符切分的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置

Also Published As

Publication number Publication date
WO2012051943A1 (zh) 2012-04-26
CN101984426A (zh) 2011-03-09
US20140149855A1 (en) 2014-05-29

Similar Documents

Publication Publication Date Title
CN101984426B (zh) 用于对网页图片进行字符切分的方法及装置
CN101984419B (zh) 用于对网页图片内容进行段落重排的方法及装置
CN101908076B (zh) 页面布局自适应方法及装置
US8873887B2 (en) Systems and methods for resizing an image
CN1922896A (zh) 用于自动选择窗体进行显示的方法和设备
CN107797801A (zh) 一种基于多种移动终端界面的适配方法
JP2011128204A (ja) 広告配信装置、方法及びプログラム
CN102364460A (zh) 基于移动终端的页面自动放大方法和系统
JPWO2014155742A1 (ja) 情報処理システム、情報処理システムの制御方法、情報処理装置、情報処理装置の制御方法、情報記憶媒体、及びプログラム
JP6401726B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6310955B2 (ja) 配信装置、表示制御装置、表示制御方法およびプログラム
JP5918427B2 (ja) 配信装置、表示制御装置、表示制御方法および表示制御プログラム
US20150309680A1 (en) Electronic-book display processing program and electronic-book system
WO2018130069A1 (zh) 图集内容承载页生成方法、装置、计算设备以及存储介质
JP5814422B1 (ja) 配信装置、表示制御装置、表示制御方法および表示制御プログラム
CN103365968A (zh) 网页内容放大方法及网页内容放大镜
CN105389308B (zh) 网页的显示处理方法及装置
JP2009509259A5 (zh)
CN110673903A (zh) 一种阅读软件的书架页面的显示方法和装置
JP2011028779A (ja) 携帯端末、携帯端末の制御方法及びプログラム
CN102479037B (zh) 电子阅读器及电子阅读器的屏幕内容选取方法
JP5824170B2 (ja) 画像表示装置、画像表示方法及びプログラム
CN105335854B (zh) 在页面中提供商品对象图片的方法及装置
KR101604838B1 (ko) 웹페이지의 구성방법
JP2010008955A (ja) 画像データ編集装置、画像データ編集方法及びコンピュータプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200526

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 building 16, building 1610-1620, building 18, Building 29, Suzhou Street, Beijing, Haidian District

Patentee before: UC MOBILE Ltd.

TR01 Transfer of patent right