CN101984426B

CN101984426B - 用于对网页图片进行字符切分的方法及装置

Info

Publication number: CN101984426B
Application number: CN2010105216911A
Authority: CN
Inventors: 梁捷; 周志明
Original assignee: Ucweb Inc
Current assignee: Alibaba China Co Ltd
Priority date: 2010-10-21
Filing date: 2010-10-21
Publication date: 2013-04-10
Anticipated expiration: 2030-10-21
Also published as: WO2012051943A1; CN101984426A; US20140149855A1

Abstract

本发明提供一种对网页图片进行字符切分的方法，包括：对网页图片进行逐行扫描，以行为单位划分为多个相互间隔的第一空白区域和第一内容区域；从所获取的网页图片中切分出所划分出的第一内容区域；针对每个所切分出的第一内容区域进行逐列扫描，以列为单位将该第一内容区域划分为多个相互间隔的第二空白区域和第二内容区域；以及根据各个第二空白区域的像素坐标，将各个第二内容区域与各个第二空白区域切分开，作为被判断为是小说图片的各个第一内容区域中的各个单个字符。利用上述方法，可以将网页图片切分为单个字符，然后根据移动终端的屏幕尺寸对切分出的单个字符进行重新排版，以适于在移动终端上显示。

Description

用于对网页图片进行字符切分的方法及装置

技术领域

本发明涉及网页浏览领域，并且更为具体地，涉及一种用于对网页图片进行字符切分的方法及装置。

背景技术

随着通信技术的不断发展，利用移动终端登录小说网站来浏览小说内容逐渐成为一种趋势。为了对小说网站上发表的小说进行版权保护，许多小说网站通常采用图片格式显示小说内容，尤其是小说的一些VIP章节，从而防止这些内容被阅读者复制。

由于小说网站的内容通常是在个人计算机(PC)上显示的，所以这些小说网站上显示的图片格式基本上都是针对PC的显示屏幕来设计的。当利用移动终端登录小说网站进行网页浏览时，由于这种图片格式通常都比较大，难以在移动终端的小屏幕上如PC一样进行网页展示。在这种情况下，如果将小说图片缩小到移动终端的屏幕大小，则会导致文字缩小到很小，从而导致无法阅读。如果按照原来的图片格式进行展示，则用户在阅读过程中需要反复地左右移动窗口，从而造成阅读非常不方便。

基于上述问题，在利用移动终端浏览小说网站上的小说内容时，需要针对移动终端显示屏幕的尺寸，对网页图片内容进行适配处理，例如对网页图片内容进行重新排版。

由于对小说内容进行排版处理是以字符为基本单位，所以在对网页图片内容进行重新排版之前，需要对网页图片的字符进行切分。

发明内容

鉴于上述，本发明提供了一种用于对网页图片进行字符切分的方法和装置，利用上述字符切分方法和装置，可以将网页图片切分为单个字符，然后利用所切分出的单个字符，根据移动终端的屏幕尺寸对小说内容进行重新排版，以适合于在移动终端的屏幕上显示。

根据本发明的一个方面，提供了一种对网页图片进行字符切分的方法，包括：对所获取的网页图片的像素进行逐行扫描，以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域；从所获取的网页图片中切分出所划分出的第一内容区域；针对每个所切分出的第一内容区域的像素进行逐列扫描，以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域；以及根据各个第二空白区域的像素坐标，将第二内容区域与第二空白区域切分开，以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符。

此外，在一个或多个实施例中，从所获取的网页图片中切分出所划分的第一内容区域的步骤还可以包括：根据所划分出的各个第一内容区域的高度和和小说图片文字行的高度特征，判断该第一内容区域是否是小说图片；以及在该第一内容区域是小说图片时，以与该第一内容区域相邻的两个空白区域的中心为界，从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。

此外，在一个或多个实施例中，判断第一内容区域是否是小说图片的步骤还包括：计算该第一内容区域的高度平均值；以及在所计算出的第一内容区域的高度平均值落在第一阈值范围时，判断该第一内容区域是小说图片。

此外，在一个或多个实施例中，判断第一内容区域是否是小说图片的步骤还可以包括：计算该第一内容区域的高度标准差，只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时，才判断该第一内容区域是小说图片。

此外，根据各个第二空白区域的像素坐标，将所述第二内容区域与所述第二空白区域分割开的步骤还可以包括：根据所划分出的各个第二空白区域的像素坐标，确定第二内容区域的最大宽度；利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标，确定第二内容区域的字符切分点；以及利用所确定出的第二内容区域的各个字符切分点，将所述第二内容区域与所述第二空白区域分割开，以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符。

此外，在对所获取的网页图片中的像素进行逐行扫描或逐列扫描时，还可以根据所扫描到的网页图片中的像素灰度值，对所述网页图片进行防水印处理。

根据本发明的另一方面，提供了一种对网页图片进行字符切分的装置，包括：第一划分单元，用于对所获取的网页图片的像素进行逐行扫描，以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和多个由连续内容像素行组成的第一内容区域；第一切分单元，用于从所获取的网页图片中切分出所划分出的第一内容区域；第二划分单元，用于针对每个所切分出的第一内容区域的像素进行逐列扫描，以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域；以及第二切分单元，用于根据各个第二空白区域的像素坐标，将第二内容区域与第二空白区域切分开，以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符。

此外，在一个或多个实施例中，所述第一切分单元还可以包括：第一判断单元，用于根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征，判断该第一内容区域是否是小说图片；以及第一分割单元，用于在该第一内容区域是小说图片时，以与该第一内容区域相邻的两个空白区域的中心为界，从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。

此外，在一个示例中，所述第一判断单元还可以包括计算单元，用于计算该第一内容区域的高度平均值，在所计算出的第一内容区域的高度平均值落在第一阈值范围内时，所述第一判断单元判断该第一内容区域是小说图片。

此外，在另一示例中，所述计算单元还可以计算该第一内容区域的高度标准差，只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时，所述第一判断单元才判断该第一内容区域是小说图片。

此外，在一个或多个实施例中，所述第二切分单元还可以包括：第一确定单元，用于根据所划分出的各个第二空白区域的像素坐标，确定第二内容区域的最大宽度；第二确定单元，用于利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标，确定第二内容区域的字符切分点；及第二分割单元，用于利用所确定出的第二内容区域的各个字符切分点，将所述第二内容区域与所述第二空白区域分割开，以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符。

此外，所述装置还可以包括防水印处理单元，用于在对网页图片的像素进行逐行扫描或逐列扫描时，根据所扫描到的网页图片中的像素灰度值，对所述网页图片进行防水印处理。

根据本发明的另一方面，提供了一种包括如上所述的装置的移动终端。

根据本发明的另一方面，提供了一种包括如上所述的装置的服务器。

利用上述字符切分方法和装置，可以将网页图片切分为单个字符，然后利用所切分出的单个字符，根据移动终端的屏幕尺寸对小说内容进行重新排版，以适合于在移动终端的屏幕上显示。

此外，通过对网页图片进行防水印处理，可以提高划分空白区域和内容区域的准确性，从而提高字符切分的准确性。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1示出了根据本发明实施例的对网页图片进行字符切分的方法的流程图；

图2示出了图1中所示出的切分出第一内容区域的过程的一个示例的流程图；

图3示出了图1中所示出的切分出第二内容区域的过程的一个示例的流程图；

图4示出了根据本发明实施例的对网页图片进行字符切分的字符切分装置的方框示意图；

图5示出了图4中包括的第一切分单元的结构的一个示例的方框示意图；

图6示出了图4中包括的第二切分单元的结构的一个示例的方框示意图；

图7示出了包括根据本发明的字符切分装置的移动终端的方框示意图；和

图8示出了包括根据本发明的字符切分装置的服务器的方框示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施例

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出。

下面将参照附图来对根据本发明的各个实施例进行详细描述。

图1示出了根据本发明实施例的对网页图片进行字符切分的方法的流程图。

如图1所示，首先，在步骤S110中，对从目标网站(例如，小说网站)获取的网页图片的像素进行逐行扫描，以行为单位将网页图片划分为相互间隔的多个由连续空白像素行组成的第一空白区域和多个由连续内容像素行组成的第一内容区域，例如，所述第一空白区域可以由一个或多个连续空白像素行组成，所述第一内容区域可以由一个或多个连续内容像素行组成。

然后，在步骤S120中，从所获取的网页图片中切分出所划分出的第一内容区域。具体地，小说图片是指由一行行文字组成的网页图片，行与行之间存在一定的空白。对于一般小说图片而言，每行文字的高度通常会在10-30个像素之间(即，小说图片文字行的高度特征)，其平均值也应该落在这个范围内。此外，小说图片的每行文字的高度大致相同，其标准差和平均值的比值很小(通常小于1)。因此，优选地，可以根据所划分出的各个第一内容区域的高度，计算第一内容区域的高度平均值(更进一步，可以计算高度标准差和平均值的比值)，并根据所计算出的高度平均值(或高度标准差和平均值的比值)和小说图片文字行的高度特征，判断和切分出所有被判断为是小说图片的第一内容区域。关于判断和切分出所有被判断为是小说图片的第一内容区域的具体过程将在下面参照图2进行描述。

图2示出了根据图1中所示出的切分出第一内容区域的过程的一个示例的流程图。

如图2所示，首先，在步骤S121中，计算所划分出的各个第一内容区域的高度平均值。然后，在步骤S123中，判断所计算出的各个第一内容区域的高度平均值是否落在第一阈值范围内，所述第一阈值范围例如可以是10到30个像素的范围，该第一阈值范围也称为小说图片文字行的高度特征。

当所计算出的第一内容区域的高度平均值没有落在该第一阈值范围内时，判断该第一内容区域不是小说图片，从而不对该第一内容区域进行处理。当所计算出的第一内容区域的高度平均值落在该第一阈值范围内时，进行到步骤S125。在步骤S125中，进一步计算该第一内容区域的高度标准差，然后在步骤S127中，判断该高度标准差与高度平均值的比值是否不超过第二阈值，该第二阈值通常例如是1。

当该比值超过第二阈值时，判断该第一内容区域不是小说图片，从而不对该第一内容区域进行处理。当该比值不超过第二阈值时，即判断该第一内容区域是小说图片时，在步骤S129中，以与该第一内容区域相邻的两个空白区域的中心为界切分出该第一内容区域。

在从所划分的第一内容区域中切分出所有被判断为是小说图片的第一内容区域后，在步骤S130中，针对每个切分出的第一内容区域进行逐列扫描，以列为单位将该第一内容区域划分为多个相互间隔的第二空白区域和第二内容区域，例如，将第一内容区域划分为k个第二内容区域和k+1个第二空白区域，其中所述第二空白区域由一个或多个连续空白像素列组成，所述第二内容区域由一个或多个连续内容像素列组成。

然后，在步骤S140中，根据各个第二空白区域的像素坐标，将各个第二内容区域与各个第二空白区域切分开，以将切分出的各个第二内容区域作为被判断为是小说图片的各个第一内容区域中的各个单个字符。图3示出了图1中所示出的切分出第二内容区域的过程的一个示例的流程图。

如图3所示，首先，在步骤S141中，根据所划分出的各个第二空白区域的像素坐标，例如，各个第二空白区域的端坐标或中点坐标，在本例中采用中点坐标S_i，确定第二内容区域的最大宽度W＝MAX(S_i-S_i-1)，其中，i是自然数，且3≤i≤k。

然后，利用所确定出的第二内容区域的最大宽度W和各个第二空白区域的端坐标，在本例中为右端坐标，确定各个第二内容区域的字符切分点。具体过程如步骤S142到S 147所示。在步骤S142中，将i设置为i＝0，并且以第一个空白区域的中点X0作为第一个字符切分点。在步骤S143中，将变量d的初始值设置为d＝0。在步骤S145中，计算作为当前切分点的空白区域的右端坐标Right_i和最大宽度W之和，确定Right_i+W-d是否落在第j个空白区域内，其中第j个空白区域的左右坐标可以通过手机终端系统获知。如果没有，则在步骤S144中将变量d加1，并返回到步骤S145进行循环判断。如果落在第j个空白区域内，则转到步骤S146，取该空白区域的中点作为第i+1个字符的右边切分点，即Xi＝Sj，并作为当前字符切分点，并将变量i加1。然后，在步骤S147中，判断是否满足j＝＝k+1。如果满足，则进行到步骤S148，在步骤S148中，利用所确定出的各个字符切分点来将第二内容区域和第二空白区域切分开，并将切分开的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个字符。否则，返回到步骤S143。

此外，由于一些网站在图片上通常使用水印，从而导致空白部分不是完全空白，由此在将网页图片划分为空白区域和内容区域时，会将一些含有水印的空白区域确定为是内容区域，从而导致不能准确地区分内容区域和空白区域。因此，优选地，在对从目标网站获取的网页图片的像素进行逐行扫描或逐列扫描时，还可以根据所扫描出的网页图片像素的灰度值，对该网页图片进行防水印处理。

具体地，对于包含有水印的小说图片而言，由于水印的灰度通常比较低，而文字部分的灰度比较高，因此可以通过设定一个阈值(例如，50％的灰度)来进行防水印处理。在这种情况下，如果所扫描到的网页图片的像素的灰度大于该阈值，则认为该像素是内容像素。如果所扫描到的网页图片的像素的灰度不大于该阈值，则认为是空白像素。这里所说的灰度Gray是亮度I的补数，即Gray＝1-I。亮度的常用计算公式为I＝0.299*R+0.587*G+0.114*B。

此外，在网站上使用彩色水印的情况下，为了更有效地去除彩色水印，可以将亮度的计算公式变为I＝MAX(R，G，B)，则灰度Gray＝1-MAX(R，G，B)。

通过对网页图片进行防水印处理，可以防止包含有水印的空白区域被确定为是内容区域，从而提高划分空白区域和内容区域的准确性，由此提高字符切分的准确性。

这里要说明的是，上述方法可以利用移动终端的浏览器来实现，也可以在服务器端实现。

在利用移动终端的浏览器实现时，需要该浏览器具有强大的性能。在利用服务器实现时，移动终端中的浏览器客户端将需要浏览的网址URL发送给服务器，然后由服务器从该网址获取网页数据并进行字符切分。在完成字符切分后，服务器将切分后的字符发送给浏览器客户端。

如上参照图1-图3描述了根据本发明的对网页图片进行字符切分的方法。本发明的上述对网页图片进行字符切分的方法，可以采用软件实现，也可以采用硬件实现，或采用软件和硬件组合的方式实现。

图4示出了根据本发明实施例的对网页图片进行字符切分的字符切分装置400的方框示意图。如图4所示，所述字符切分装置400包括第一划分单元410、第一切分单元420、第二划分单元430和第二切分单元440。

在从目标网站(例如小说网站)获取网页图片后，所述第一划分单元410对所获取的网页图片的像素进行逐行扫描，以行为单位将该网页图片划分为多个相互间隔的由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域，例如，所述第一空白区域可以由一个或多个连续空白像素行组成，所述第一内容区域可以由一个或多个连续内容像素行组成。

然后，第一切分单元420从所获取的网页图片中切分出所划分出的第一内容区域。优选地，第一切分单元420可以根据所划分出的第一内容区域的高度和小说图片文字行的高度特征，从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。关于第一切分单元420的细节将在下面参照图5进行描述。

在切分出所有被判断为是小说图片的第一内容区域后，第二划分单元430针对每个切分出的第一内容区域的像素进行逐列扫描，以列为单位将该第一内容区域划分为相互间隔的多个由连续空白像素列组成的第二空白区域和多个由连续内容像素列组成的第二内容区域，例如，所述第二空白区域可以由一个或多个连续空白像素列组成，所述第二内容区域可以由一个或多个连续内容像素列组成。

在划分出多个第二内容区域和第二空白区域后，第二切分单元440根据各个第二空白区域的像素坐标，将第二内容区域与第二空白区域切分开，以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符。关于第二切分单元420的细节将在下面参照图6进行描述。

此外，优选地，在对目标网站上的网页图片进行水印处理时，所述字符切分装置400还可以包括防水印处理单元(未示出)，用于在对网页图片的像素进行逐行扫描或逐列扫描时，根据所扫描到的网页图片中的像素灰度值，对所述网页图片进行防水印处理。

图5示出了图4中包括的第一切分单元420的结构的一个示例的方框示意图。如图5所示，第一切分单元420包括计算单元421、第一判断单元423和第一分割单元425。

计算单元421计算各个所切分出的第一内容区域的高度平均值。在所计算出的第一内容区域的高度平均值落在第一阈值范围内时，所述第一判断单元423判断该第一内容区域是小说图片。在该第一内容区域是小说图片时，第一分割单元425以与该第一内容区域相邻的两个空白区域的中心为界切分出该第一内容区域。

此外，可选地，计算单元421还可以进一步计算各个所切分出的第一内容区域的高度标准差。并且，只有在所计算出的第一内容区域的高度平均值落在第一阈值范围内且该高度标准差与高度平均值的比值不超过第二阈值时，第一判断单元423才判断该第一内容区域是小说图片。

这里要说明的是，所述计算单元421可以在第一判断单元423之外，也可以包含在第一判断单元423中。

图6示出了图4中包括的第二切分单元440的结构的一个示例的方框示意图。如图6所示，第二切分单元440包括第一确定单元441、第二确定单元442和第二分割单元443。

第一确定单元441根据所划分出的各个第二空白区域的像素坐标，确定第二内容区域的最大宽度。第二确定单元利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标(在本示例中为右端坐标)，确定第二内容区域的字符切分点。在确定出所有字符切分点后，第二分割单元443利用所确定出的各个字符切分点，将所述第二内容区域与所述第二空白区域分割开，以将切分出的各个第二内容区域作为被判断为小说图片的第一内容区域的各个单个字符。

图7示出了包括根据本发明的字符切分装置400的移动终端10的方框示意图。图7中的移动终端所包括的字符切分装置400可以包含根据本发明的实施例进行的各种变型。

图8示出了包括根据本发明的字符切分装置400的服务器20的方框示意图。图8中的服务器所包括的字符切分装置400可以包含根据本发明的实施例进行的各种变型。

本发明所述的移动终端典型地可为各种可能进行网页浏览的终端设备，例如手机、个人数字助理等，因此本发明的保护范围不应限定为某种特定类型的移动终端。

尽管前面公开的内容示出了本发明的示例性实施例，但是应当注意，在不背离权利要求限定的本发明的范围的前提下，可以进行多种改变和修改。根据这里描述的发明实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明的元素可以以个体形式描述或要求，但是也可以设想多个，除非明确限制为单数。

尽管已经结合详细示出并描述的优选实施例公开了本发明，但是本领域技术人员应当理解，对于上述本发明所提出的对网页图片进行字符切分的方法和装置，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种在移动终端中对网页图片进行字符切分的方法，包括：

对所获取的网页图片中的像素进行逐行扫描，以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域；

从所获取的网页图片中切分出所划分出的第一内容区域；

针对每个所切分出的第一内容区域的像素进行逐列扫描，以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域；以及

根据各个第二空白区域的像素坐标，将第二内容区域与第二空白区域切分开，以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符，

其中，根据各个第二空白区域的像素坐标，将第二内容区域与第二空白区域切分开的步骤还包括：

(a)根据所划分出的各个第二空白区域的中点坐标S_i，确定第二内容区域的最大宽度W=MAX（S_i-S_i-1），其中，i是自然数，且3≤i≤k，k是对第一内容区域进行划分而得到的第二内容区域的个数；

(b)利用所确定出的第二内容区域的最大宽度和各个第二空白区域的右端坐标，确定第二内容区域的字符切分点；以及

(c)利用所确定出的第二内容区域的各个字符切分点，将所述第二内容区域与所述第二空白区域分割开，以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符，

其中，利用所确定出的第二内容区域的最大宽度和各个第二空白区域的右端坐标，确定第二内容区域的字符切分点的步骤包括：

(b1)将i设置为i=0，以第一个空白区域的中点X0作为第一个字符切分点；

(b2)将变量d的初始值设置为d=0；

(b3)计算作为当前切分点的空白区域的右端坐标Right_i和最大宽度之和，确定Right_i+W-d是否落在第j个空白区域内，该第j个空白区域的左右端坐标通过移动终端获知；

(b4)如果没有落在第j个空白区域内，则将变量d加1，并且返回到步骤(b3）；

(b5)如果落在第j个空白区域，则取该空白区域的中点作为第i+1个字符的右边切分点，并将该切分点作为当前字符切分点，并将i加1；以及

(b6)判断是否满足j＝k+1，其中，k是对第一内容区域进行划分而得到的第二内容区域的个数，

如果满足j＝k+1，则返回到步骤(c)，如果不满足，则返回到步骤(b2)。

2.如权利要求1所述的方法，其中，从所获取的网页图片中切分出所划分出的第一内容区域的步骤还包括：

根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征，判断该第一内容区域是否是小说图片；以及

在该第一内容区域是小说图片时，以与该第一内容区域相邻的两个空白区域的中心为界，从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。

3.如权利要求2所述的方法，其中，判断第一内容区域是否是小说图片的步骤还包括：

计算该第一内容区域的高度平均值；以及

在所计算出的第一内容区域的高度平均值落在第一阈值范围时，判断该第一内容区域是小说图片。

4.如权利要求3所述的方法，其中，判断第一内容区域是否是小说图片的步骤还包括：

计算该第一内容区域的高度标准差，

只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时，才判断该第一内容区域是小说图片。

5.如权利要求1所述的方法，其中，在对所获取的网页图片中的像素进行逐行扫描或逐列扫描时，所述方法还包括：

根据所扫描到的网页图片中的像素灰度值，对所述网页图片进行防水印处理。

6.如权利要求1-5中任何一个所述的方法，其中，所述方法是利用移动终端的浏览器来实现的。

7.一种在移动终端中对网页图片进行字符切分的装置，包括：

第一划分单元，用于对所获取的网页图片的像素进行逐行扫描，以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域；

第一切分单元，用于从所获取的网页图片中切分出所划分出的第一内容区域；

第二划分单元，用于针对每个所切分出的第一内容区域的像素进行逐列扫描，以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域；以及

第二切分单元，用于根据各个第二空白区域的像素坐标，将第二内容区域与第二空白区域切分开，以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符，

其中，所述第二切分单元还包括：

第一确定单元，用于根据所划分出的各个第二空白区域的中点坐标S_i，确定第二内容区域的最大宽度W=MAX（S_i-S_i-1），其中，i是自然数，且3≤i≤k，k是对第一内容区域进行划分而得到的第二内容区域的个数；

第二确定单元，用于利用所确定出的第二内容区域的最大宽度和各个第二空白区域的右端坐标，确定第二内容区域的字符切分点；以及

第二分割单元，用于利用所确定出的第二内容区域的各个字符切分点，将所述第二内容区域与所述第二空白区域分割开，以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符，

其中，所述第二确定单元被配置为：

(b2)将变量d的初始值设置为d=0；

(b4)如果没有落在第j个空白区域内，则将变量d加1，并且返回到步骤(b3），

如果满足j＝k+1，则所述第二分割单元利用所确定出的第二内容区域的各个字符切分点，将所述第二内容区域与所述第二空白区域分割开，以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符，如果不满足，则返回到步骤(b2)。

8.如权利要求7所述的装置，其中，所述第一切分单元还包括：

第一判断单元，用于根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征，判断该第一内容区域是否是小说图片；以及

第一分割单元，用于在该第一内容区域是小说图片时，以与该第一内容区域相邻的两个空白区域的中心为界，从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。

9.如权利要求8所述的装置，其中，所述第一切分单元还包括：

计算单元，用于计算该第一内容区域的高度平均值，

在所计算出的第一内容区域的高度平均值落在第一阈值范围内时，所述第一判断单元判断该第一内容区域是小说图片。

10.如权利要求9所述的装置，其中，所述计算单元还计算该第一内容区域的高度标准差，

只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时，所述第一判断单元才判断该第一内容区域是小说图片。

11.如权利要求7所述的装置，还包括：

防水印处理单元，用于在对网页图片中的像素进行逐行扫描或逐列扫描时，根据所扫描到的网页图片中的像素灰度值，对所述网页图片进行防水印处理。