CN111832551A

CN111832551A - 文本图像处理方法、装置、电子扫描设备和存储介质

Info

Publication number: CN111832551A
Application number: CN202010682019.4A
Authority: CN
Inventors: 王丽瑶; 许彬; 林辉; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-10-27

Abstract

本申请的实施方式提供了一种文本图像处理方法、装置、电子设备和存储介质，所述方法包括：对目标文字进行预处理，获得所述目标文字对应的目标图像；获取所述目标图像中至少部分文字对应的文字位置信息；基于所述文字位置信息进行文字组行处理，得到单行文本或多行文本。利用本申请的实施例能够实现对扫描图像中的文本内容的定位和组行。

Description

文本图像处理方法、装置、电子扫描设备和存储介质

技术领域

本申请的实施方式涉及文本定位技术领域，具体地，本申请的实施方式涉及文本图像处理方法、装置、电子扫描设备和存储介质。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

手持式微型扫描仪例如扫描笔可通过扫描技术将图像或印刷字体等扫描到笔里存储或者传送到电脑保存，供阅读、编辑、翻译等等使用。常见的扫描笔包括光学传感器、LED灯和触控杆等。扫描时，扫描笔通过扫描例如多行文字可获得多个扫描图像，处理时，对扫描得到的图像序列进行文本定位、文本组行等处理，用以后续OCR处理。

对扫描图像的文本定位是指确定扫描图像中的文本区域的位置信息，文本定位是识别图像中文本的必要处理。例如，可通过对图像进行形态学运算处理，获取候选文本域，结合图像的笔画宽度特征合并文本域，可实现文本定位。但是，形态学运算处理的方式容易受到图像噪声、墨点、水印的影响，导致检测文本区域不准确。并且，扫描时偶尔出现的偏移和抖动会导致拼接而成的图像存在畸变，从而造成文本的弯曲形变，形态学运算处理的方式在上述复杂场景中还无法区分多行文本。

目前已出现基于卷积神经网络的文本定位方案，大致过程为预先训练基于卷积神经网络的文本行识别模型，将采集的文本行图像输入文本行识别模型，可获得文本行位置。但是，由于这种基于卷积神经网络的文本定位处理过程包括特征提取、图像行切分和行文本定位等过程，在电子扫描笔的使用场景下，算法计算量较大，文本定位耗时较长，如果在移动设备上运行，需要较长的运算时间，无法满足即时扫描识别并且翻译的需求，严重影响用户的体验。

此外，针对复杂排布的文本图像，例如弯曲文本图像、多行紧密文本图像、多噪声文本图像，已有的文本定位和文本组行引擎仍无法准确区分文本行，常常将多行文本误判为单行文本，导致文本图像识别引擎对该行文本的识别准确率较低。

发明内容

本申请期望提供一种文本图像处理方法、装置、电子扫描设备和存储介质，以至少解决部分上述技术问题。

第一方面，本申请实施例提供一种文本图像处理方法，包括：

对目标文字进行预处理，获得所述目标文字对应的目标图像；

获取所述目标图像中至少部分文字对应的文字位置信息；

基于所述文字位置信息进行文字组行处理，得到单行文本或多行文本。

根据本申请实施例的文本图像处理方法，所述对目标文字进行预处理，包括：

对通过使用扫描设备对目标对象扫描一次或多次得到的所述目标文字的扫描图像序列进行拼接处理，得到所述目标文字对应的目标图像。

根据本申请实施例的文本图像处理方法，所述图像是全景图像。

根据本申请实施例的文本图像处理方法，所述获取所述目标图像中至少部分文字对应的文字位置信息，包括：

使用基于自适应增强算法的文字检测模型处理所述目标图像，获取所述目标图像中至少部分文字对应的文字位置信息。

根据本申请实施例的文本图像处理方法，所述文字检测模型是利用训练数据对分类器进行训练而生成的，所述训练数据包括正样本数据和负样本数据，其中，

所述正样本数据包括从样本图像中截取的多个文字单元，各个文字单元对应的标签数据为各个文字单元在所述样本图像中的文字位置信息；

所述负样本数据包括多个非文本图像。

根据本申请实施例的文本图像处理方法，所述文字位置信息包括文字单元在所述样本图像中的边界框bbox的位置和尺寸信息。

根据本申请实施例的文本图像处理方法，所述文字单元中的文字符合以下至少一种条件：文字单元中不存在不完整的文字、文字单元中的文字的数目为一个、文字单元中仅包含一个完整的文字。

基于所述目标图像构建图像金字塔，将所述图像金字塔中的各层图像均作为待识别图像；

将所述图像金字塔的各层图像输入所述文字检测模型，得到所述文字检测模型输出的多个文字单元对应的多个文字位置信息。

根据本申请实施例的文本图像处理方法，所述基于所述文字位置信息进行文字组行处理，得到单行文本或多行文本，包括：

基于聚类算法，为所述多个文字位置信息设置n0个初始聚类中心；

根据所述多个文字位置信息分别与所述n0个初始聚类中心的位置关系，对所述多个文字位置信息进行聚类处理，得到单行文本或多行文本。

根据本申请实施例的文本图像处理方法，所述根据所述多个文字位置信息分别与所述n个初始聚类中心的位置关系，对所述多个文字位置信息进行聚类，包括：

将所述n0个初始聚类中心中相邻的两个初始聚类中心的中点作为分类的划分点，得到n0个类；

将各个文字位置信息分别划分到距离最近的类中；

基于划分后的n0个类中的文字位置信息，分别重新计算聚类中心，得到n1个聚类中心；

重复上述处理，直至聚类中心的数目和位置都不再变化，最终得到n个聚类中心，其中，对应于同一个聚类中心的多个文字位置信息处于同一行。

根据本申请实施例的文本图像处理方法，所述方法还包括：

将处于同一行的多个文字位置信息对应的多个边界框按照横向顺序组合为一行；

对组合为一行的所述多个边界框的高度进行调整，使所述多个边界框的高度一致；

根据所述多个边界框对应的多个文字位置信息，从所述目标图像中获取对应的多个文本像素区域；

将所述多个文本像素区域组合为单行文本。

根据本申请实施例的文本图像处理方法，其中，对所述单行文本或多行文本进行光学字符识别OCR处理。

第二方面，本申请实施例还提供一种文本图像处理装置，包括：

预处理模块，用于对目标文字进行预处理，获得所述目标文字对应的目标图像；

文字位置信息获取模块，用于获取所述目标图像中至少部分文字对应的文字位置信息；

文字组行处理模块，用于基于所述文字位置信息进行文字组行处理，得到单行文本或多行文本。

第三方面，本申请实施例还提供一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的文本图像处理方法的步骤。

第四方面，本申请实施例还提供一种非易失性计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如上所述的文本图像处理方法的步骤。

基于本申请的实施例，使用扫描设备例如电子扫描笔对目标对象扫描一次或多次，可得到目标对象对应的图像，从图像中可获取文字位置信息，实现文本定位，基于获得的文字位置信息进行组行处理，可得到目标文字对应的单行或多行文本。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

图1示意性地示出了本申请实施例文本图像处理方法的实现流程图；

图2示意性地示出了本申请实施例中的一种全景图像；

图3示意性地示出了本申请实施例处理图像金字塔的流程图；

图4示意性地示出了本申请实施例的图像金字塔的效果示意图；

图5示意性地示出了本申请实施例获取的文字单元的示意图；

图6示意性地示出了本申请实施例的文字位置信息组行的流程图；

图7示意性地示出了本申请实施例的文字位置信息聚类的流程图；

图8示意性地示出了本申请实施例对文本像素进行组行的流程图；

图9和图10示意性地示出了本申请实施例的多个bbox可视化地显示在原图像上的效果示意图；

图11和图12示意性地示出了图9和图10组合后的单行文本的示意图；

图13示意性地示出了本申请实施例的存储介质结构示意图；

图14示意性地示出了本申请实施例的文本图像处理装置结构示意图；

图15示意性地示出了本申请实施例的计算设备结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本申请的实施方式，提出了一种文本图像处理方法、装置、存储介质和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

示例性方法

下面参考图1描述根据本申请示例性实施方式的文本图像处理方法。

图1示意性地示出了根据本发明一实施方式的文本图像处理方法实现流程图，该文本图像处理方法包括以下步骤：

S101：对目标文字进行预处理，获得所述目标文字对应的目标图像；

S102：获取所目标述图像中至少部分文字对应的文字位置信息；

S103：基于所述文字位置信息进行文字组行处理，得到单行文本或多行文本。

利用本申请的实施例，使用扫描设备例如电子扫描笔对目标对象扫描一次或多次，可得到目标对象对应的图像，从图像中可获取文字位置信息，基于获得的文字位置信息进行组行处理可得到目标文字对应的单行或多行文本。

在本申请的实施例中，对目标文字进行的所述预处理可以包括：对通过使用扫描设备对目标对象扫描一次或多次得到的目标文字的扫描图像序列进行拼接处理，得到所述目标文字对应的目标图像。

在本申请的实施例中，所述目标图像是全景图像，图2示意性地示出了一个全景图像，该全景图像中包含用户扫描的文字内容。例如，用户使用电子扫描笔扫描一行或多行印刷文字，可得到印刷文字的图像序列，由于用户手持扫描笔扫描时存在一定的随意性，因此图像序列中的一系列图像有可能存在重叠、变形的情况，因此需对图像序列进行必要的处理，例如图像的配准和融合拼接，可以得到一个大视场的包含文字的全景图像，之后对全景图像中的文字进行定位。

本申请的实施例使用基于自适应增强算法(Adaptive Boosting Algorithm，简称为Adaboost算法)的文字检测模型处理目标图像，获取目标图像中的至少部分文字对应的文字位置信息，实现文字定位。

本申请实施例的基于Adaboost算法的文字检测模型是利用训练数据对分类器进行训练而生成的，所述训练数据包括正样本数据和负样本数据，其中，正样本数据包括从样本图像中截取的多个文字单元，各个文字单元对应的标签数据为各个文字单元在所述样本图像中的文字位置信息；负样本数据包括多个非文本图像。

其中，作为正样本的样本图像是含有文字的图像，作为负样本的非文本图像是不含文字的图像，例如背景图像。

可选地，所述的从样本图像中截取的文字单元中的文字符合以下至少一种条件：文字单元中不存在不完整的文字、文字单元中的文字的数目为一个、文字单元中仅包含一个完整的文字。

例如，从样本图像中截取的文字单元可以是单字图像单元，也就是仅截取一个字作为正样本数据，该文字单元中既不存在其他完整的字，也不存在其他不完整的字。这样处理的好处是，训练后的文字检测模型不会检测多个字的文字单元的位置，避免后续组行时出现文字重复或重影的情况。

这里，“单字”可以是各种语种中的单个字，例如可为单个汉字、单个外文单词、单个外文字母等。

可选地，所述的文字单元在样本图像中的文字位置信息包括：文字单元在样本图像中的边界框(bounding box，bbox)的位置和尺寸信息，例如可表示为(x,y,w,h)，其中x和y是边界框bbox的左上角顶点的坐标，w和h是边界框bbox的宽和高。

本申请的实施例利用上述训练数据训练分类器，优化分类器的参数，直至达到训练停止条件，训练后的分类器作为文字检测模型。

本申请实施例利用标注好的训练数据(或称样本数据)对分类器进行训练，使分类器不断地根据训练数据中的正样本“文本图像”与负样本“非文本图像”的分类标签来自主调整模型参数，直到例如调整后的输出结果与标注值的差别足够小，或者训练次数达到预定次数等，则停止训练，这时可认为训练好的分类器具备了区分文本图像与非文本图像的能力；并且，由于正样本标注的标签内容包括文字位置信息，因此训练后的模型能够输出文字在原图像中的文字位置信息，因此文字检测模型具备文字定位的功能。

作为一个示例，本申请实施例可通过Opencv(即基于BSD许可/开源发行的跨平台计算机视觉库)的opencv_traincascade命令构建Boosted级联分类器，设置初始化的通用参数、级联参数和特征参数，读取样本数据进行训练，生成的文字检测模型Opencv能够区分“文本图像”与“非文本图像”，并输出文本图像中的文字位置信息。

本申请实施例使用基于Adaboost算法的文字检测模型，尤其适合(使用电子扫描笔)扫描纸质文件的、较为单一的应用场景，原因在于，基于Adaboost算法的模型所需要的训练数据少，训练过程中特征筛选耗时短，训练速度快，计算成本低，因此能够以较少的投入获得符合使用需求的训练成果。

本申请实施例的基于Adaboost算法的文字检测模型，训练数据中的正样本可以是简单的文字图像，例如单字图像，负样本可以是不含文字的任意背景图像，标注成本低，得到的模型计算精度高，检测速度快，尤其适合用于满足移动设备的快速操作、快速输出结果的应用特点。

通过上述实施例可构建文字检测模型，在使用该文字检测模型处理目标图像之前，为了确保目标图像中的全部或大部分文字都被检测到，本申请实施例基于目标图像构建图像金字塔，具体地，参考图3：

S201：基于目标图像构建图像金字塔，将图像金字塔中的各层图像均作为待识别图像，待识别图像中包括待识别文本行；

S202：将图像金字塔的各层图像输入前述的文字检测模型，可得到文字检测模型输出的多个文字单元对应的多个文字位置信息，例如多个文字单元的多个bbox的(x,y,w,h)参数信息。

例如，可以利用训练的文字检测模型Opencv中的“Cascade Classifier”函数作为检测函数，该检测函数利用预设置的第一滑窗在图像金字塔的各层图像上移动，截取大量文字单元，较佳地，保留单字的文字单元，舍弃含有多字或半个字的文字单元，最后输出单字文字单元的位置信息。

作为一个示例，参考图4，对全景图像进行固定步长的缩放可得到一系列不同尺寸的图像，这些图像可构建成为一个图像金字塔，图像金字塔的每一层图像为不同尺寸的待识别的全景图像。图像金字塔的层数可根据情况设置，例如10层、45层、120层、200层等等，图像金字塔的层数越多，对文字的处理精度越高。

将该全景图像输入文字检测模型之后，利用模型的第一滑窗逐层地在图像金字塔沿待识别文本行的宽度方向按照预设步长移动，例如第一滑窗按从上至下、从左至右的顺序遍历图像金字塔，可使全景图像中每个文字都被截取到。其中，第一滑窗的宽度和高度为可设置的模型参数，可根据实际需求设置其宽度和高度的值，例如取为bbox的尺寸，或者说取为一般字体的大小(例如二号字至六号字中任一种字号的大小)等等。在图像金字塔的层数足够多的情况下，通过遍历各层图像，可获得全部有效的文字单元。

例如，参考图5，其中左侧为由第一滑窗在图像金字塔的不同层上截取到的一组文字单元，可以看到，文字单元中文字大小不一，有些截取到多个字(如第1、2个截图的“这些”、“去做”)，有些截取到的部分包含不完整的字(如第1、2、3、4和第6个截图中均含有半个字)，有些截取到单个完整的字(如第5个截图的“去”)。较佳地，图6的一组文字单元中仅保留单个完整的“去”字，并检测输出“去”字在原始的全景图像中的文字位置信息，例如“去”字的bbox的(x,y,w,h)参数。

通过上述处理，可得到全景图像中的部分或全部字的文字位置信息，为之后的文字组行处理做好准备。通常，文本组行是将属于同一行的文本图像按照行方向合并，得到完整的文本行的处理过程。

在本申请的实施例中，文字检测模型的输出是目标图像中的多个文字单元的多个文字位置信息，在此情况下，首先对多个文字位置信息进行组行，然后将各个文字位置信息在目标图像中对应的像素区域进行组行。

以下对文字位置信息的组行过程进行详细描述。

参考图6，步骤S103的基于所述文字位置信息进行文字组行处理，得到单行文本或多行文本，可包括如下步骤：

S1031：基于聚类算法，为所述多个文字位置信息设置n0个初始聚类中心；

S1032：根据所述多个文字位置信息分别与所述n0个初始聚类中心的位置关系，对所述多个文字位置信息进行聚类处理，得到单行文本或多行文本。

可以看到，本申请实施例是利用聚类算法进行文字位置信息的组行，首先假设n0个(例如2个、3个或4个等)初始聚类中心，根据多个文字位置信息与聚类中心的距离进行聚类处理，最终确定行的数目。

进一步地，步骤S1032中的根据所述多个文字位置信息分别与所述n0个初始聚类中心的位置关系，对所述多个文字位置信息进行聚类处理，参考图7，可包括如下处理：

S301：将所述n0个初始聚类中心中相邻的两个初始聚类中心的中点作为分类的划分点，得到n0个类；

S302：将各个文字位置信息分别划分到距离最近的类中；

S303：基于划分后的n0个类中的文字位置信息，分别重新计算聚类中心，得到n1个聚类中心；

S304，重复上述处理，直至聚类中心的数目和位置都不再变化，最终得到n个聚类中心，其中对应于同一个聚类中心的多个文字位置信息处于同一行。

在本申请的一些实施例中，采用k-means聚类算法，文字单元对应的文字位置信息通过文字单元的bbox的(x,y,w,h)来表示，可根据各个bbox的y值与聚类中心在纵向上的距离进行分类，如果第一bbox的y值落入第一聚类中心的类中，则该第一bbox属于该第一聚类中心的类，分类完毕后，各个聚类中心的类中的bbox属于同一行。

进一步，为了正确组行，还根据各个bbox的x值将属于同一行的多个bbox进行横向排序，并基于此实现原图像中对应的文本像素的最终组行，参考图8，可通过以下步骤处理：

S401：将处于同一行的多个文字位置信息对应的多个边界框按照横向顺序组合为一行；

S402：对组合为一行的所述多个边界框的高度进行调整，使所述多个边界框的高度一致；

S403：根据所述多个边界框对应的多个文字位置信息，从所述目标图像中获取对应的多个文本像素区域；

S404：将所述多个文本像素区域组合为单行文本。

在本申请的实施例中，将经过聚类处理属于同一行的文字位置信息的bbox按照横向顺序组合或称排列为一行，参考图9和10，示出了将同一行的多个bbox可视化地显示在原图像上的效果示意图，图9为中文文本的全景图像，图10为英文文本的全景图像，其中可以看到，各个bbox的高度不同。为了避免后续组行后出现偏移或抖动，较佳地，将属于同一行的bbox的高度调整一致，可选地，可选取一个合适的高度值作为基准来调整，例如，将同一行的所有bbox(共K个)按照h从小到大排列，取其中的第0.85×K个bbox的h值，作为整行的h值。也就是，假设第0.85×K个bbox的h值是1.2cm，则将该行的K个bbox的高度均调整为1.2cm。

较佳地，在上述调整bbox自身的高度之后，还需调整bbox在纵向上的位置，通过在纵向上平移bbox，将各个bbox调整为处于同一高度上。

最后，根据各个bbox对应的多个文字位置信息，从原图像中获取对应的多个文本像素区域，也就是将原图像中对应的各个文字进行组行，形成单行文本。图11和图12分别示出了图9和图10组合后的单行文本的示意图，组行结果准确。

基于以上描述的内容，本申请实施例利用基于Adaboost算法的文字检测模型对图像进行检测，得到图像中的多个文字位置信息，文字组行处理时，基于多个文字位置信息进行聚类处理，得到文本行数，然后通过文字位置信息的组行处理，最终能够实现对应文本像素区域的组行，利用本申请的实施例，对于复杂排布的待识别文本图像可实现准确组行，有利于提高文本识别的准确性。

在本申请的实施例中，对于得到的单行文本或多行文本，可进行光学字符识别(Optical Character Recognition，OCR)处理，OCR识别的准确性高。本申请一些实施例的电子扫描笔的显示模块包含用于显示OCR识别结果的LCD显示屏。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图13对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种计算机可读介质，其上存储有程序，当所述程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的文本图像处理方法中的步骤。

上述处理器执行上述程序时例如用于实现如下步骤：

获取所述目标图像中至少部分文字对应的文字位置信息；

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图13所示，描述了根据本发明的实施方式的介质60，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本发明不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

示例性装置

在介绍了本申请示例性实施方式的介质之后，接下来，参考图14对本申请示例性实施方式的装置进行说明。

本申请实施例还提供一种文本图像处理装置，如图14所示，文本图像处理装置可以包括：

预处理模块110，用于对目标文字进行预处理，获得所述目标文字对应的目标图像；

文字位置信息获取模块120，用于获取所述目标图像中至少部分文字对应的文字位置信息；

文字组行处理模块130，用于基于所述文字位置信息进行文字组行处理，得到单行文本或多行文本。

在一种可能的实施方式中，所述预处理模块包括：

拼接处理子模块，用于对通过使用扫描设备对目标对象扫描一次或多次得到的所述目标文字的扫描图像序列进行拼接处理，得到所述目标文字对应的目标图像。

在一种可能的实施方式中，所述图像是全景图像。

在一种可能的实施方式中，所述文字位置信息获取模块使用基于自适应增强算法的文字检测模型处理所述目标图像，获取所述目标图像中至少部分文字对应的文字位置信息。

在一种可能的实施方式中，所述文字检测模型是利用训练数据对分类器进行训练而生成的，所述训练数据包括正样本数据和负样本数据，其中，

所述负样本数据包括多个非文本图像。

在一种可能的实施方式中，所述文字位置信息包括文字单元在所述样本图像中的边界框bbox的位置和尺寸信息。

在一种可能的实施方式中，所述文字单元中的文字符合以下至少一种条件：文字单元中不存在不完整的文字、文字单元中的文字的数目为一个、文字单元中仅包含一个完整的文字。

在一种可能的实施方式中，所述文字位置信息获取模块包括：

图像金字塔构建子模块，用于基于所述目标图像构建图像金字塔，将所述图像金字塔中的各层图像均作为待识别图像；

图像金字塔处理子模块，用于将所述图像金字塔的各层图像输入所述文字检测模型，得到所述文字检测模型输出的多个文字单元对应的多个文字位置信息。

在一种可能的实施方式中，所述文字组行处理模块包括：

聚类中心设置子模块，用于基于聚类算法为所述多个文字位置信息设置n0个聚类中心；

聚类处理子模块，用于根据所述多个文字位置信息分别与所述n0个初始聚类中心的位置关系，对所述多个文字位置信息进行聚类处理，得到单行文本或多行文本。

在一种可能的实施方式中，所述聚类处理子模块包括：

分类单元，用于将所述n0个初始聚类中心中相邻的两个初始聚类中心的中点作为分类的划分点，得到n0个类；

文字位置信息划分组件，用于将各个文字位置信息分别划分到距离最近的类中；

聚类中心计算组件，用于基于划分后的n0个类中的文字位置信息，分别重新计算聚类中心，得到n1个聚类中心；

其中，所述分类单元、所述文字位置信息划分组件和所述聚类中心计算组件重复处理，直至聚类中心的数目和位置都不再变化，最终得到n个聚类中心，其中，对应于同一个聚类中心的多个文字位置信息处于同一行。

在一种可能的实施方式中，所述文字组行处理模块还包括：

边界框组行模块，用于将处于同一行的多个文字位置信息对应的多个边界框按照横向顺序组合为一行；

边界框调整模块，用于对组合为一行的所述多个边界框的高度进行调整，使所述多个边界框的高度一致；

文本像素获取模块，用于根据所述多个边界框对应的多个文字位置信息，从所述目标图像中获取对应的多个文本像素区域；

文本像素组行模块，用于将所述多个文本像素区域组合为单行文本。

在一种可能的实施方式中，所述装置还包括文本识别模块，用于对所述单行文本或多行文本进行光学字符识别OCR处理。

示例性计算设备

在介绍了本申请示例性实施方式的方法、介质和装置之后，接下来，参考图15对本申请示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本申请的各种示例性实施方式的文本图像处理方法中的步骤。

下面参照图15来描述根据本申请的这种实施方式的计算设备80。图15显示的计算设备80仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图15所示，计算设备80以通用计算设备的形式表现。计算设备80的组件可以包括但不限于：上述至少一个处理单元801、上述至少一个存储单元802，连接不同系统组件(包括处理单元801和存储单元802)的总线803。

总线803包括数据总线、控制总线和地址总线。

存储单元802可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)8021和/或高速缓存存储器8022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)8023。

存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025，这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

在一种可能的实施方式中，计算设备80包括电子扫描设备，例如电子扫描笔。

计算设备80也可以与一个或多个外部设备804(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且，计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器806通过总线803与计算设备80的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备80使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了文本图像处理装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本申请的精神和原理，但是应该理解，本申请并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种文本图像处理方法，其特征在于，所述方法包括：

获取所述目标图像中至少部分文字对应的文字位置信息；

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标图像中至少部分文字对应的文字位置信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述文字检测模型是利用训练数据对分类器进行训练而生成的，所述训练数据包括正样本数据和负样本数据，其中，

所述负样本数据包括多个非文本图像。

4.根据权利要求2所述的方法，其特征在于，所述获取所述目标图像中至少部分文字对应的文字位置信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述文字位置信息进行文字组行处理，得到单行文本或多行文本，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述多个文字位置信息分别与所述n个初始聚类中心的位置关系，对所述多个文字位置信息进行聚类，包括：

将各个文字位置信息分别划分到距离最近的类中；

重复上述处理，直至聚类中心的数目和位置都不再变化，最终得到n个聚类中心，其中对应于同一个聚类中心的多个文字位置信息处于同一行。

7.一种文本图像处理装置，其特征在于，包括：

8.一种计算设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的文本图像处理方法。

9.根据权利要求8所述的计算设备，其特征在于，

所述计算设备包括电子扫描设备。

10.一种非易失性计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的文本图像处理方法。