CN111612003A

CN111612003A - 一种提取图片中的文本的方法和装置

Info

Publication number: CN111612003A
Application number: CN201910132046.1A
Authority: CN
Inventors: 许亮; 王晓燕; 戴钰桀; 郑志彤; 桂创华; 刘海锋
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2020-09-01
Anticipated expiration: 2039-02-22
Also published as: CN111612003B

Abstract

本发明公开了一种提取图片中的文本的方法和装置，涉及计算机技术领域。该方法的一个具体实施方式包括：在待识别图片中划分多个文本框，其中文本框中包括文本像素点和非文本像素点；对多个文本框进行合并，合并的方法至少包括以下一种：确定相邻的文本框之间是否具有重叠部分，若具有重叠部分，则合并相邻的文本框；确定相邻的文本框之间的水平距离、竖直距离或凸包距离是否不大于预设阈值，若不大于预设阈值，则连通相邻的文本框；合并后，从文本框中提取文本。该实施方式能够提高提取文本的完整性，使得提取结果更准确，尤其适用于需要翻译的情况，可以使翻译结果更准确，并可以填充图片，提高大批量图片的识别和处理效率。

Description

一种提取图片中的文本的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种提取图片中的文本的方法、装置、电子设备和计算机可读介质。

背景技术

对于带有文本(如文字等)的图片，如何对图片中的文本进行识别、提取并进一步处理一直是业界广泛关注的问题。例如在电商领域，有大量的商品、广告图片中会带有商品信息、宣传用语等文本，但是这些文本与图片融为一体，不易单独进行提取。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有的文本识别和提取手段多关注于文字信息的识别和提取，但是提取的结果多为单字、单词或者是杂乱的文字，破坏了文本的完整性。尤其是若利用提取出来的文字进行翻译时，若破坏了某句话或者某段落的整体性，很有可能会导致翻译的结果不正确。并且，对于大批量的图片，则要提取的文本数量也非常巨大，传统方法为了保证翻译的准确性多采用人工进行翻译，效率低，成本高。

发明内容

有鉴于此，本发明实施例提供了一种提取图片中的文本的方法和装置，能够提高提取文本的完整性，使得提取结果更准确，尤其适用于需要翻译的情况，可以使翻译结果更准确，并可以填充图片，提高大批量图片的识别和处理效率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种提取图片中的文本的方法，包括：在待识别图片中划分多个文本框，其中所述文本框中包括文本像素点和非文本像素点；对多个所述文本框进行合并，合并的方法至少包括以下一种：

确定相邻的所述文本框之间是否具有重叠部分，若相邻的所述文本框之间具有重叠部分，则合并相邻的所述文本框；

确定相邻的所述文本框之间的水平距离、竖直距离或凸包距离是否不大于预设阈值，若相邻的所述文本框之间的水平距离、竖直距离或凸包距离不大于所述预设阈值，则连通相邻的所述文本框；

合并后，从所述文本框中提取文本。

可选地，所述方法还包括：遍历相邻的所述文本框之间的属性是否相同；若相邻的所述文本框之间的属性相同，则确定相邻的所述文本框属于同一个段落；按段落在所述文本框中提取文本；其中，所述属性包括笔划宽度属性、文本框位置属性、背景颜色属性、文本颜色属性和识别文本属性中的一种或多种。

可选地，所述方法还包括：对所述文本框中的像素点进行二值化，形成二值化文本框；将所述文本像素点的像素值大于所述非文本像素点的像素值的所述二值化文本框作为正极性二值化文本框；将所述文本像素点的像素值小于所述非文本像素点的像素值的所述二值化文本框作为负极性二值化文本框；将所述负极性二值化文本框进行反向处理，使其变为正极性二值化文本框；根据所述正极性二值化文本框中的文本像素点的位置确定与其对应的所述文本框中的文本像素点的位置，用所述文本框中的非文本像素点填充所述文本像素点，形成背景文本框。

可选地，所述方法还包括：在所述背景文本框中添加预设文本。

可选地，在待识别图片中划分多个文本框的方法包括：使用全卷积网络模型，在所述待识别图片中划分出多个文本框，计算所述文本框中每个像素点是文本像素点的置信度，其中所述文本框的位置以旋转矩形坐标表示。

可选地，所述方法还包括：确定相邻的所述文本框中的文本的笔划宽度值是否相同；若相邻的所述文本框中的文本的笔划宽度值相同，则对相邻的所述文本框进行合并或连通。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种提取图片中的文本的装置，包括：划分模块，用于在待识别图片中划分多个文本框，其中所述文本框中包括文本像素点和非文本像素点；合并模块，用于确定相邻的所述文本框之间是否具有重叠部分，若相邻的所述文本框之间具有重叠部分，则合并相邻的所述文本框；和/或用于确定相邻的所述文本框之间的水平距离、竖直距离或凸包距离是否不大于预设阈值，若相邻的所述文本框之间的水平距离、竖直距离或凸包距离不大于所述预设阈值，则连通相邻的所述文本框；提取模块，用于从所述文本框中提取文本。

可选地，所述装置还包括：段落模块，用于遍历相邻的所述文本框之间的属性是否相同；若相邻的所述文本框之间的属性相同，则确定相邻的所述文本框属于同一个段落；其中，所述属性包括笔划宽度属性、文本框位置属性、背景颜色属性、文本颜色属性和识别文本属性中的一种或多种；所述提取模块还用于按段落在所述文本框中提取文本。

可选地，所述装置还包括：擦除模块，用于对所述文本框中的像素点进行二值化，形成二值化文本框；将所述文本像素点的像素值大于所述非文本像素点的像素值的所述二值化文本框作为正极性二值化文本框；将所述文本像素点的像素值小于所述非文本像素点的像素值的所述二值化文本框作为负极性二值化文本框；将所述负极性二值化文本框进行反向处理，使其变为正极性二值化文本框；根据所述正极性二值化文本框中的文本像素点的位置确定与其对应的所述文本框中的文本像素点的位置，用所述文本框中的非文本像素点填充所述文本像素点，形成背景文本框。

可选地，所述装置还包括：写入模块，用于在所述背景文本框中添加预设文本。

可选地，所述划分模块还用于使用全卷积网络模型，在所述待识别图片中划分出多个文本框，计算所述文本框中每个像素点是文本像素点的置信度，其中所述文本框的位置以旋转矩形坐标表示。

可选地，所述合并模块还用于确定相邻的所述文本框中的文本的笔划宽度值是否相同；若相邻的所述文本框中的文本的笔划宽度值相同，则对相邻的所述文本框进行合并或连通。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现一种提取图片中的文本的方法中任一所述的方法。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被一个或多个处理器执行时实现一种提取图片中的文本的方法中任一所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：因为采用对文本框进行合并和连通的技术手段，所以克服了传统方法划分文本框提取文本完整性差的技术问题，进而达到提高提取的文本的完整性的技术效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的一种提取图片中的文本的方法的主要步骤的示意图；

图2-1是根据本发明实施例的待识别图片示例；

图2-2是根据本发明实施例的在待识别图片中划分多个文本框的示例；

图2-3是根据本发明实施例的文本框中的某像素点的RBOX坐标示例；

图2-4是根据本发明实施例的合并和连通后的文本框示例；

图3-1、图3-2、图3-3和图3-4是根据本发明实施例的确定文本框段落示例；

图4是根据本发明实施例的一种文本擦除方法的主要步骤的示意图；

图5是根据本发明实施例的正极性二值化文本框示例；

图6是根据本发明实施例的一种优选实施方式示意图；

图7是根据本发明实施例的一种提取图片中的文本的装置的主要部分的示意图；

图8是本发明实施例可以应用于其中的示例性系统架构图；

图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的一种提取图片中的文本的方法的主要步骤的示意图，如图1所示：

步骤S101表示在待识别图片中划分多个文本框，其中所述文本框中包括文本像素点和非文本像素点。其中，在待识别图片中划分的多个文本框可以看作是在图片中划分的多个小区域，每一个小区域可看作是图片的一部分，图片是由很多个像素点构成，所以每个小区域(即每个文本框)中都包括一部分图片的像素点，这些像素点都是用来构成图片的，但是其中有些像素点的组合呈现了文本，这些像素点称为文本像素点；而其他的像素点则呈现了文本的背景等，这些像素点称为非文本像素点。

本发明的一个实施例包括使用全卷积网络(FCN，Fully ConvolutionalNetworks)模型，在所述待识别图片中划分出多个文本框，计算所述文本框中每个像素点是文本像素点的置信度，其中所述文本框的位置以旋转矩形坐标(RBOX)表示全卷积网络模型的内核可以采用VGG(Visual Geometry Group Network，视觉几何群网络)、ResNet(Residual Network，残差网络)等神经网络架构。其中使用旋转矩形表示的像素点与文本框的位置时，包括五维变量，分别为距边框顶部距离、距边框底部距离、距边框左侧距离、距边框右侧距离以及边框旋转角度。FCN模型是基于一定量的真实标注了文本的图片训练得到。置信度概率是指某个像素点是文本像素点的概率，置信度概率的计算方法是卷积神经网络基于训练数据学习，得到的某像素点为文本像素点的概率值。

如图2-1为待识别图片，其中包括三行文字，其中第二行和第三行文字为一个完整的语句——“比以往更明亮、绚丽的cellphone显示屏”。图2-2为根据FCN模型对图2-1进行识别后划分的五个文本框，分别为第一行的文本框1中包含的文本为“HD显示屏”，第二行的第一个文本框2中包含的文本为“比以往明亮的、”，第二个文本框3中包含的文本为“、绚丽的”，第三行的第一个文本框4中包含的文本为“cellphone”，第二个文本框5为“显示屏”，根据划分的文本框，现有技术提取到的文本也为以上引号中的内容，显而易见地，如此划分文本框会使得原有的完整的文本变为5个零散的单词。图2-3表示图2-1的第二行的第二个文本框内的文本的某个像素点的旋转矩形坐标(f1，f2，f3，f4，f5，theta)的值，其中该像素点距边框顶部距离f1＝2，距边框右侧距离f2＝10，距边框底部距离f3＝5，距边框左侧距离f4＝30，边框旋转角度theta＝0，该像素点的置信度概率p＝0.9。

步骤102表示对多个所述文本框进行合并，合并的方法至少包括以下一种：

确定相邻的所述文本框之间是否具有重叠部分，若相邻的所述文本框之间具有重叠部分，则合并相邻的所述文本框。形成的合并后的文本框为相邻的所述文本框的区域的并集；例如，对于图2-2中的两个相邻的文本框2和文本框3，其重叠部分均包含标点“、”，所以将这两个文本框进行合并，可对着两个文本框的区域做并集，形成合并后的文本框，对应图2-4中的文本框23。

确定相邻的所述文本框之间的水平距离、竖直距离或凸包(Convex Hull)距离是否不大于预设阈值，若相邻的所述文本框之间的水平距离、竖直距离或凸包距离不大于所述预设阈值，则连通相邻的所述文本框，形成合并后的文本框。连通两个相邻的文本框是指对于两个文本框之间距离最近的两个框打通。进一步地，连通时应注意方向，在连通之前，可以确定文本框的形状，例如，若文本框的高度小于文本框的宽度，则说明文本是横向的，所以连通时应确定相邻文本框之间的水平距离，选取左右相邻的文本框进行连通；若文本框的高度大于文本框的宽度，则说明文本是竖向的，则确定相邻文本框之间的竖直距离，连通时应选取上下相邻的文本框进行合并；若文本框是倾斜的，可根据倾斜的角度将文本框之间的距离换算成凸包之间的距离，再进行连通。例如，对于图2-2中的第三行的相邻的第一个文本框4和文本框5，由于字间距的关系，划分得到的两个文本框没有重叠部分，为两个独立的文本框，但是这两个文本框之间的水平距离非常小，若不大于预设阈值，则可以确定这两个文本框应为同一个整体，所以将两个文本框之间的区域连通，使这两个文本框合并为一个文本框，对应图2-4中的文本框45。

优选的实施方式是先对具有重叠部分的相邻文本框进行合并后，再根据相邻文本框之间的距离进一步连通。更进一步地，文本框合并或连通时还可以确定相邻的所述文本框中的文本的笔划宽度值(即笔划宽度属性)是否相同；若相邻的所述文本框中的文本的笔划宽度值相同，则对相邻的所述文本框进行合并或连通。例如可通过SWT(Stroke WidthTransform，笔划宽度变换法)计算文字笔划宽度，对含有笔划宽度值相同的文本的相邻的文本框进行合并，进一步提高合并的准确度。

进行合并和连通之后，图2-2中的五个文本框被合并为图2-4的三个文本框，即可提取到“HD显示屏”、“比以往明亮、绚丽的”和“cellphone显示屏”三个文本，可见提取文本的完整性得以提高。

经过步骤S101和步骤S102之后，就可以从所述文本框中提取文本，这样提取到的文本具有较高的完整性。

本发明实施例还包括：步骤S103表示进一步对文本框进行处理，确定文本框是否属于同一段落。步骤S104按段落在所述文本框中提取文本。目的是进一步提高识别和提取文本的完整性，尤其是对于需要翻译并回填的文本，完整的段落有利于提高翻译的准确度，译文回填时也需要对应原文段落的位置。其方法包括：

遍历相邻的所述文本框之间的属性是否相同；若相邻的所述文本框之间的属性相同，则确定相邻的所述文本框属于同一个段落。文本框的属性是指文本框具有的各种可识别的特征，例如边框高度或宽度、文本颜色、背景颜色等。属性可包括笔划宽度属性、文本框位置属性(如文本行框的顶部位置、底部位置、高度和宽度等)、背景颜色属性(文本框里面的非文本区域的颜色，可通过非文本像素的颜色均值确定，可包括三个通道，分别表示红色、绿色、蓝色)、文本颜色属性(文本框里面的文本的颜色，可通过文本像素的颜色均值确定，可包括三个通道，分别表示红色、绿色、蓝色)和识别文本属性(如文本中包括的标点符号等)等。若两个相邻的文本框之间的属性相同，则可认为这两个相邻的文本框属于同一段落，对识别得到的所有文本框确认段落归属，即可有效划分文本的段落，提高文本识别和提取的完整性。进一步地，还可以对文本框之间的水平距离、竖直距离或凸包距离进行附加限定条件，在相邻的文本框之间的属性相同，且水平距离、竖直距离或凸包距离在某一取值范围内的条件下，则确定相邻的文本框属于同一段落，该取值范围可以基于经验值确定。例如图2-4中，根据文本框23和文本框45的属性可确定文本框23和文本框45属于一个段落，所以可将文本框23和文本框45中提取的文本合并在一起，形成“比以往明亮、绚丽的cellphone显示屏”，从而进一步将零散的文本合并为完整性更高的文本。

若相邻的所述文本框之间的属性不相同，则确定相邻的所述文本框不属于同一段落。所以在相邻的两个文本框的属性完全不同或有个别属性不同时，可以认为这两个相邻的文本框不属于同一段落。需要说明的是，在判断相邻的文本框是否属于同一段落时，应该对其上下相邻和左右相邻的文本框都进行判断。

本发明的一个实施例是对于已经划分完成的文本框，先对文本行边框按照从上到下、从左到右的方式排序。对于每一个文本框(line_i)，遍历其相邻的文本框，找到离它最近的水平相邻文本框(line_i_bnn)，或离它最近的竖直的右侧相邻文本框(line_i_rnn)。如果line_i和line_rnn或line bnn在文本行框度、文本颜色、背景颜色等属性上类似，且两者间的竖直间隔小于一个预设阈值，如预设阈值为theta3与两个文本行高度的均值的乘积，0<theta3<1，则确定这两个相邻的文本框属于同一个段落(paragraph_k)。这样依次遍历完余下的所有文本框，不断更新或生成若干段落(paragraph_1–paragraph K)。类似的，对于段落的位置有交叠的情形，可将两者合并为同一个段落。如图3-1、图3-2、图3-3和图3-4所示，图3-1中文本框1和文本框2中的文本与文本框3明显高度不同，所以文本框1、文本框2和文本框3分别属于3个段落，而文本框4、文本框4、文本框5和文本框6的高度均相同，所以文本框4、文本框4、文本框5和文本框6属于同一个段落；同理，图3-2会产生两个段落；图3-3会产生1个段落；图3-4中，虽然所有的文本框高度均相等，但相邻文本框之间的水平距离过大，所以会产生3个段落。

进一步地，还可以在段落中划分列表和表格，因为列表或表格的每一个格都可以看作是独立完整的。对于本身带有边框线条的表格，可以通过线条检测或联通块检测的方式先检测出表格边框的位置，然后再确定位于表格边框内部的文本框为一个段落。对于本身不带有边框线条的表格，如图3-4，候选段落内部的文本框宽度一般较小，竖向相邻的文本框的中心线一般重合，即表格内容居中对齐；水平相邻的文本框之间距离较小，因此也可以确定这些段落为表格。对于列表的检测，首先判断段落的文本框宽度一般较小，然后再根据文本特征进一步区分，例如，列表的每个文本框的识别文本末尾没有标点符号(如逗号或句号等)，内部可能会有标点符号(如冒号)，所以根据识别得到的冒号，可以进一步确定图3-3为列表。

确定文本框的段落归属之后，按段落提取所述文本框中的文本，将所述文本转换为预设文本。如在需要将图片中的文本翻译为其他语言的情况下，按段落提取的文本具有较高的完整性，有利于提高翻译的准确度。

在一些情况下，还需要批量将图片中的文本进行替换，不管是翻译成其它语言进行替换，或者是替换成其它文本，都需要在原始图片(如前文的待识别图片)上进行修改，所以若要进行替换首先要将图片上的文本识别出来并将其擦除。

本发明实施例还提供一种对图片中的文本进行擦除的方法，如图4所示，包括：

步骤S401表示对图片进行文本检测和识别，划分文本框，对文本框中的像素点进行二值化，形成二值化文本框；可采用自适应的二值化的算法，比如全局的OTSU(最大类间方差法)方法或者局部的Sauvola(索维拉)方法。二值化的目的是将文本框中的文本像素和非文本像素区分开来，是图像分割的一种最简单的方法。二值化的基本原理是把大于某个临界灰度值的像素灰度设为灰度极大值，把小于这个值的像素灰度设为灰度极小值，从而实现二值化。根据阈值选取的不同，二值化的算法分为固定阈值和自适应阈值。比较常用的二值化方法则有：双峰法、P参数法、迭代法和OTSU法等。对文本框进行二值化可以准确区分二值化文本框中的文本像素点和非文本像素点。

步骤S402表示确定所述二值化文本框的极性；将所述文本像素点的像素值大于所述非文本像素点的像素值的所述二值化文本框作为正极性二值化文本框；将所述文本像素点的像素值小于所述非文本像素点的像素值的所述二值化文本框作为负极性二值化文本框；由于二值化文本框的像素点的像素值有两个，所以将“浅底深字”的形式(即文本像素点的像素值大于非文本像素点的像素值)预设为正极性，将“深底浅字”的形式预设为负极性。将文本框进行二值化之后，二值化文本框所表现出来的形式就只有正极性和负极性两种。如图5所示为对文本框进行二值化后的图像，框内的文字和背景为“浅底深字”的正极性。进一步地，对负极性的二值化文本框进行反向处理，如交换二值化文本框中的文本像素点和非文本像素点的像素值，可使负极性二值化文本框变为正极性二值化文本框。如图5所示，其中构成“Billing Copy”文本的像素点为深色，其他非文本像素点为浅色。

为了更快速准确地区分正极性的二值化文本框和负极性的二值化文本框，本发明的一个实施例为制作一个基于深色像素比例、连通快个数、分块的深色像素比例等几何特征的二类分类器(如基于传统的人工神经网络ANN的二类分类器或支持向量机SVM二类分类器等)，通过使用一些已知极性的二值化文本框对分类器进行训练，得到一个可以用来判定未知极性的二值化文本框的分类器，使其能够根据二值化文本框的特征对二值化文本框进行分类，当分类得到的二值化文本框为负极性时，可将其转化为正极性的二值化文本框。

步骤S403表示根据所述正极性二值化文本框中的文本像素点的位置确定与其对应的所述文本框中的文本像素点的位置，用所述文本框中的非文本像素点填充所述文本像素点，形成背景文本框。对于同一个文本框而言，以其二值化的正极性二值化文本框作为掩膜图(Mask)与该文本框进行匹配，即可确定该文本框中的像素点与该文本框的正极性二值化文本框中的像素点的对应关系，在文本框中选出文本像素点，对这些文本像素点进行擦除，即可擦除文本框中的文本。可使用其他像素点填充的方式对文本像素点进行擦除。本发明的一个实施例包括先使用膨胀、腐蚀等形态学算法对掩膜图进行平滑处理，用快速匹配的启发式填充算法(如Telea等)，使文本框中的文本像素点被周围的非文本像素点插值填充。

图6为本发明实施例的一个优选实施方式，表示在需要对图片中的文本进行翻译的情况下，使用步骤S101-步骤S104的方法对文本进行检测和识别，划分出文本框，提取到完整的文本并进行翻译。再使用步骤S401-S403的方法进行文本擦除，形成背景文本框。在对文本进行擦除之前，还可以使用颜色均值、中数等方法确定原始图片中的文本的颜色。然后使用与原始图片中的文本相同的颜色的翻译文本，在所述背景文本框中添加翻译文本(或其他预设文本)，即可按照文本的原始位置和颜色在图片中完成文本替换，最先限度地保留了原始图片的背景信息，而非直接覆盖替换。

图7是根据本发明实施例的一种提取图片中的文本的装置700的主要部分的示意图，如图7所示：

划分模块701，用于在待识别图片中划分多个文本框，其中所述文本框中包括文本像素点和非文本像素点。划分模块还用于使用全卷积网络模型，在所述待识别图片中划分出多个文本框，计算所述文本框中每个像素点是文本像素点的置信度，其中所述文本框的位置以旋转矩形坐标表示。

合并模块702，用于确定相邻的所述文本框之间是否具有重叠部分，若相邻的所述文本框之间具有重叠部分，则合并相邻的所述文本框；和/或用于确定相邻的所述文本框之间的水平距离、竖直距离或凸包距离是否不大于预设阈值，若相邻的所述文本框之间的水平距离、竖直距离或凸包距离不大于所述预设阈值，则连通相邻的所述文本框。

合并模块702还用于确定相邻的所述文本框中的文本的笔划宽度值是否相同；若相邻的所述文本框中的文本的笔划宽度值相同，则对相邻的所述文本框进行合并或连通。

提取模块703，用于从所述文本框中提取文本。

装置700还可包括：

段落模块，用于遍历相邻的所述文本框之间的属性是否相同；

若相邻的所述文本框之间的属性相同，则确定相邻的所述文本框属于同一个段落；

其中，所述属性包括笔划宽度属性、文本框位置属性、背景颜色属性、文本颜色属性和识别文本属性中的一种或多种；

提取模块703还用于按段落在所述文本框中提取文本。

装置700还可包括：

擦除模块，用于对所述文本框中的像素点进行二值化，形成二值化文本框；

将所述文本像素点的像素值大于所述非文本像素点的像素值的所述二值化文本框作为正极性二值化文本框；

将所述文本像素点的像素值小于所述非文本像素点的像素值的所述二值化文本框作为负极性二值化文本框；

将所述负极性二值化文本框进行反向处理，使其变为正极性二值化文本框；

根据所述正极性二值化文本框中的文本像素点的位置确定与其对应的所述文本框中的文本像素点的位置，用所述文本框中的非文本像素点填充所述文本像素点，形成背景文本框。

装置700还可包括写入模块，用于在所述背景文本框中添加预设文本。

图8示出了可以应用本发明实施例的一种提取图片中的文本的方法或一种提取图片中的文本的装置的示例性系统架构800。

如图8所示，系统架构800可以包括终端设备801、802、803，网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备801、802、803通过网络804与服务器805交互，以接收或发送消息等。

终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器805可以是提供各种服务的服务器，例如对用户利用终端设备801、802、803提供支持的后台管理服务器。

需要说明的是，本发明实施例所提供的一种提取图片中的文本的方法一般由服务器805执行，相应地，一种提取图片中的文本的装置一般设置于服务器805中。

应该理解，图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图9所示为适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9所示的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明公开的实施例，上文步骤图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行步骤图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质包括计算机可读信号介质或计算机可读存储介质，或者是上述两者的任意组合。计算机可读存储介质包括但不限于电、磁、光、电磁、红外线、半导体的系统、装置或器件，或者上述内容的任意组合。计算机可读存储介质具体包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述内容的任意组合。在本发明中，计算机可读存储介质包括任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用；计算机可读的信号介质包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述信号的任意组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF(射频)等，或者上述介质的任意组合。

附图中的步骤图或框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作，步骤图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以并行地执行，有时也可以按相反的顺序执行，其执行顺序依所涉及的功能而定。也要注意的是，框图或步骤图中的每个方框以及其组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块或单元也可以设置在处理器中，例如，可以描述为：一种处理器包括划分模块、合并模块和提取模块。其中，这些模块或单元的名称在某种情况下并不构成对该模块或单元本身的限定，例如，提取模块还可以被描述为“用于从所述文本框中提取文本的模块”。

另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：在待识别图片中划分多个文本框，其中所述文本框中包括文本像素点和非文本像素点；对多个所述文本框进行合并，合并的方法至少包括以下一种：

合并后，从所述文本框中提取文本。

根据本发明实施例的技术方案，能够提高提取文本的完整性，使得提取结果更准确，尤其适用于需要翻译的情况，可以使翻译结果更准确，并可以填充图片，提高大批量图片的识别和处理效率。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种提取图片中的文本的方法，其特征在于，包括：

在待识别图片中划分多个文本框，其中所述文本框中包括文本像素点和非文本像素点；

对多个所述文本框进行合并，合并的方法至少包括以下一种：

合并后，从所述文本框中提取文本。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

遍历相邻的所述文本框之间的属性是否相同；

按段落在所述文本框中提取文本；

其中，所述属性包括笔划宽度属性、文本框位置属性、背景颜色属性、文本颜色属性和识别文本属性中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述文本框中的像素点进行二值化，形成二值化文本框；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述背景文本框中添加预设文本。

5.根据权利要求1所述的方法，其特征在于，在待识别图片中划分多个文本框的方法包括：

使用全卷积网络模型，在所述待识别图片中划分出多个文本框，计算所述文本框中每个像素点是文本像素点的置信度，其中所述文本框的位置以旋转矩形坐标表示。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定相邻的所述文本框中的文本的笔划宽度值是否相同；若相邻的所述文本框中的文本的笔划宽度值相同，则对相邻的所述文本框进行合并或连通。

7.一种提取图片中的文本的装置，其特征在于，包括：

划分模块，用于在待识别图片中划分多个文本框，其中所述文本框中包括文本像素点和非文本像素点；

合并模块，用于确定相邻的所述文本框之间是否具有重叠部分，若相邻的所述文本框之间具有重叠部分，则合并相邻的所述文本框；和/或用于确定相邻的所述文本框之间的水平距离、竖直距离或凸包距离是否不大于预设阈值，若相邻的所述文本框之间的水平距离、竖直距离或凸包距离不大于所述预设阈值，则连通相邻的所述文本框；

提取模块，用于从所述文本框中提取文本。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

所述提取模块还用于按段落在所述文本框中提取文本。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

写入模块，用于在所述背景文本框中添加预设文本。

11.根据权利要求7所述的装置，其特征在于，所述划分模块还用于使用全卷积网络模型，在所述待识别图片中划分出多个文本框，计算所述文本框中每个像素点是文本像素点的置信度，其中所述文本框的位置以旋转矩形坐标表示。

12.根据权利要求7所述的装置，其特征在于，所述合并模块还用于确定相邻的所述文本框中的文本的笔划宽度值是否相同；若相邻的所述文本框中的文本的笔划宽度值相同，则对相邻的所述文本框进行合并或连通。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被一个或多个处理器执行时实现如权利要求1-6中任一所述的方法。