CN110503054B

CN110503054B - 文本图像的处理方法及装置

Info

Publication number: CN110503054B
Application number: CN201910795552.9A
Authority: CN
Inventors: 顾国生; 李奕柱; 谢创敏; 杨浩政; 李晓阳; 钟伟; 邓杰航
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2022-09-23
Anticipated expiration: 2039-08-27
Also published as: CN110503054A

Abstract

本申请提供了一种文本图像的处理方法及装置，通过获取用户输入的文本图像的特征信息；将用户输入的文本图像的特征信息输入至图像分类模型中，确定出用户输入的文本图像所属的类别；根据用户输入的文本图像所属的类别，确定与用户输入的文本图像所属的类别相对应的文字区域位置信息；将用户输入的文本图像中的文字区域位置的图像，按照单个字符进行分割，得到多个字符图像；对每一个字符的图像进行识别，得到用户输入的文本图像中的文本数据信息。由于本申请中可通过用户输入的文本图像的特征信息确定出文本图像所属的类别，实现对多种文本图像进行分类，解决了现有技术中无法采集多种类型的文本图像中的数据的问题。

Description

文本图像的处理方法及装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种文本图像的处理方法及装置。

背景技术

文本图像识别技术是指利用计算机对图像进行处理、分析和理解，以识别图像中的文本等信息的技术。文本图像识别技术应用非常广泛，尤其是在医疗领域中，通常会使用文本图像识别技术采集验单图像中的信息数据，然后再对采集到的信息数据进行分析和处理。

现有的文本图像识别方法中，只能针对同一类型的文本图像进行识别，而无法识别多种不同类别的文本图像。例如医疗领域中，不同医院使用的验单的规格可能不同，而现有的文本图像识别方法仅能对其中一种规格的验单进行识别，而不能处理多种规格的验单。因此，现有的文本图像识别方法无法满足采集多种类型的文本图像中的数据的需求。

发明内容

基于上述现有技术的不足，本申请提出了一种文本图像的处理方法及装置，能够实现对多种文本图像进行分类识别。

本发明第一方面公开了一种文本图像的处理方法，包括：

获取用户输入的文本图像的特征信息；

将所述用户输入的文本图像的特征信息输入至图像分类模型中，确定出所述用户输入的文本图像所属的类别；

根据所述用户输入的文本图像所属的类别，确定与所述用户输入的文本图像所属的类别相对应的文字区域位置信息；

将所述用户输入的文本图像中的文字区域位置的图像，按照单个字符进行分割，得到多个字符图像；

对所述每一个字符的图像进行识别，得到所述用户输入的文本图像中的文本数据信息。

可选地，在上述文本图像的处理方法中，所述图像分类模型的创建方法，包括：

构建训练集；所述训练集中包括多个文本图像；

对所述训练集中的文本图像进行分类标记；

提取所述训练集中的文本图像的特征信息；

根据所述训练集中的文本图像的特征信息以及分类标记后的训练集进行图像分类训练，得到所述图像分类模型。

可选地，在上述文本图像的处理方法中，所述将所述用户输入的文本图像中的文字区域位置的图像，按照单个字符进行分割，得到多个字符图像，包括：

对所述用户输入的文本图像中的文字区域位置的图像按照预设的标准规格进行处理；

将处理过的文字区域位置的图像进行逐行扫描；

将扫描到的字符的特征信息与特殊字符库中的每一个字符的特征信息进行比对，得到所述扫描到的字符与所述特殊字符库中的每一个字符的相似度；其中，所述特殊字符库中的字符均按照所述预设的标准规格进行过处理；

若所述扫描到的字符与所述特殊字符库中的其中一个字符的相似度高于相似度阈值，则判断出所述扫描到的字符为一个独立的字符，对所述扫描到的字符进行分割处理；

若所述扫描到的字符与所述特殊字符库中的每一个字符的相似度均小于所述相似度阈值，则判断出所述扫描到的字符为一个独立的字符的一部分，则继续进行扫描，直到扫描到的字符的宽度大于基准值，再对所述扫描到的字符进行分割处理。

可选地，在上述文本图像的处理方法中，所述构建训练集，包括：

构建文本图像集；其中，所述文本图像集中包括多个文本图像；

将所述文本图像集分成多份样本集，选取其中一份样本集作为测试集，其他样本集作为所述训练集；

其中，所述根据所述训练集中的文本图像的特征信息以及分类标记后的训练集进行图像分类训练，得到所述图像分类模型之后，还包括：

对所述测试集中的文本图像进行预标记处理；

将未进行预标记的测试集中的文本图像的特征信息输入至所述图像分类模型中，得到分类标记后的测试集；

根据所述分类标记后的测试集与进行预标记处理的测试集，计算所述图像分类模型的准确率；

将未被选为测试集的其中一份样本集作为测试集，其他样本集作为训练集，返回至所述对所述训练集中的文本图像进行分类标记的步骤，直至所有的样本集均被选为测试集为止；

判断多次得到的所述图像分类模型的准确率是否达到预设的合格标准；

若多次得到的所述图像分类模型的准确率未达到所述预设的合格标准，则返回至所述构建文本图像集的步骤。

可选地，在上述文本图像的处理方法中，所述文本图像的特征信息包括：规格特征信息、直方图特征信息、方向梯度直方图特征信息。

可选地，在上述文本图像的处理方法中，所述字符的特征信息，包括：黑像素值特征信息、粗网格特征信息、粗外围特征信息。

本发明第二方面公开了一种文本图像的处理装置，包括：

获取单元，用于获取用户输入的文本图像的特征信息；

第一确定单元，用于将所述用户输入的文本图像的特征信息输入至图像分类模型中，确定出所述用户输入的文本图像所属的类别；

第二确定单元，用于根据所述用户输入的文本图像所属的类别，确定与所述用户输入的文本图像所属的类别相对应的文字区域位置信息；

分割单元，用于将所述用户输入的文本图像中的文字区域位置的图像，按照单个字符进行分割，得到多个字符图像；

识别单元，用于对所述每一个字符的图像进行识别，得到所述用户输入的文本图像中的文本数据信息。

可选地，在上述文本图像的处理装置中，还包括：

构建单元，用于构建训练集；所述训练集中包括多个文本图像；

分类单元，用于对所述训练集中的文本图像进行分类标记；

提取单元，用于提取所述训练集中的文本图像的特征信息；

训练单元，用于根据所述训练集中的文本图像的特征信息以及分类标记后的训练集进行图像分类训练，得到所述图像分类模型。

可选地，在上述文本图像的处理装置中，所述分割单元，包括：

处理单元，用于对所述用户输入的文本图像中的文字区域位置的图像按照预设的标准规格进行处理；

扫描单元，用于将处理过的文字区域位置的图像进行逐行扫描；

比对单元，用于将扫描到的字符的特征信息与特殊字符库中的每一个字符的特征信息进行比对，得到所述扫描到的字符与所述特殊字符库中的每一个字符的相似度；其中，所述特殊字符库中的字符均按照所述预设的标准规格进行过处理；

第一分割子单元，用于若所述扫描到的字符与所述特殊字符库中的其中一个字符的相似度高于相似度阈值，则判断出所述扫描到的字符为一个独立的字符，对所述扫描到的字符进行分割处理；

第二分割子单元，用于若所述扫描到的字符与所述特殊字符库中的每一个字符的相似度均小于所述相似度阈值，则判断出所述扫描到的字符为一个独立的字符的一部分，则继续进行扫描，直到扫描到的字符的宽度大于基准值，再对所述扫描到的字符进行分割处理。

可选地，在上述文本图像的处理装置中，所述构建单元，包括：

构建子单元，用于构建文本图像集；其中，所述文本图像集中包括多个文本图像；

选取单元，用于将所述文本图像集分成多份样本集，选取其中一份样本集作为测试集，其他样本集作为所述训练集；

其中，所述文本图像的处理装置，还包括：

预标记单元，用于对所述测试集中的文本图像进行预标记处理；

分类标记单元，用于将未进行预标记的测试集中的文本图像的特征信息输入至所述图像分类模型中，得到分类标记后的测试集；

计算单元，用于根据所述分类标记后的测试集与进行预标记处理的测试集，计算所述图像分类模型的准确率；

第一返回单元，用于将未被选为测试集的其中一份样本集作为测试集，其他样本集作为训练集，返回至所述分类标记单元，直至所有的样本集均被选为测试集为止；

判断单元，用于判断多次得到的所述图像分类模型的准确率是否达到预设的合格标准；

第二返回单元，用于若多次得到的所述图像分类模型的准确率未达到所述预设的合格标准，则返回至所述构建子单元。

可选地，在上述文本图像的处理装置中，所述文本图像的特征信息包括：规格特征信息、直方图特征信息、方向梯度直方图特征信息。

可选地，在上述文本图像的处理装置中，所述字符的特征信息，包括：黑像素值特征信息、粗网格特征信息、粗外围特征信息。

从上述技术方案可以看出，本申请提供的文本图像的处理方法中，通过获取用户输入的文本图像的特征信息，将用户输入的文本图像的特征信息输入至图像分类模型中，确定出用户输入的文本图像所属的类别，再根据用户输入的文本图像所属的类别，确定与用户输入的文本图像所属的类别相对应的文字区域位置信息，将用户输入的文本图像中的文字区域位置的图像，按照单个字符进行分割，得到多个字符图像；对每一个字符的图像进行识别，得到用户输入的文本图像中的文本数据信息。由于本申请中可通过用户输入的文本图像的特征信息确定出用户输入的文本图像所属的类别，实现对多种文本图像进行分类，又根据用户输入的文本图像所属的类别，确定出与用户输入的文本图像所属的类别相对应的文字区域位置信息，进而对用户输入的文本图像中的文字区域位置的图像进行字符分割和识别，解决了现有技术中无法采集多种类型的文本图像中的数据的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种文本图像的处理方法的流程示意图；

图2为本发明实施例公开的一种图像分类模型的构建方法的流程示意图；

图3为本发明实施例公开的另一种图像分类模型的构建方法的流程示意图；

图4为本发明实施例公开的一种文本图像按字符分割的方法的流程示意图；

图5为本发明实施例公开的一种识别字符的分类器的构建方法的流程示意图；

图6为本发明实施例公开的一种文本图像的处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，本申请实施例公开了一种文本图像的处理方法，具体包括以下步骤：

S101、获取用户输入的文本图像的特征信息。

其中，文本图像指的是有包含文本信息的图像，文本信息指的是文字、数字、英文等字符信息。文本图像的特征信息指的是文本图像特有属性的参数值，例如文本图像的规格特征信息、直方图特征信息、方向梯度直方图特征信息等。

需要说明的是，获取的特征信息的类型可根据实际情况进行选择，只要获取的文本图像的特征信息可用于区分开多种类型的文本图像即可。例如，在实际应用中，我们需要采集三种类型的文本图像的数据信息，而根据多次试验发现同一类型的文本图像的规格特征信息和直方图特征信息的相似度非常高，且这三种类型的规格特征信息和直方图特征信息各不相同，这就说明通过文本图像的规格特征信息和直方图特征信息可以区分开三种类型的文本图像，因此就可以选择规格特征信息和直方图特征信息作为步骤S101中获取的文本图像的特征信息。

执行步骤S101时，先获取用户输入的文本图像，再从用户输入的文本图像中获取特征信息。

S102、将用户输入的文本图像的特征信息输入至图像分类模型中，确定出用户输入的文本图像所属的类别。

其中，图像分类模型用于根据文本图像的特征信息，对用户输入的文本图像标记上用户输入的文本图像所属的类别相对应的标签，进而确定出用户输入的文本图像所属的类别。图像分类模型是通过模型训练得到的，例如可通过训练支持向量机(Support VectorMachine，SVM)得到图像分类模型。SVM是一类按监督学习方式对数据进行二元分类的广义线性分类器。需要说明的是，可用于进行图像分类训练的模型或分类器很多，包括但不仅限于本申请实施例提出的方式。

参阅图2，可选地，在本申请一具体实施例中，图像分类模型的创建方法，包括：

S201、构建训练集。

其中，训练集中包括多个文本图像。训练集中所收集的文本图像主要是实际应用中需要进行采集文本数据的图像。例如实际应用中，需要采集血液验单图中的数据、尿液验单图中的数据以及眼球验单图中的数据。那么训练集中就需要包括多个用户的血液验单图像、多个用户的尿液验单图像以及多个用户的眼球验单图像。具体的，不同类别的图像在训练集中所占的比例可根据实际情况进行调整，若最终训练出的图像分类模型分类准确率不高，可以重新调整训练集中不同类别的图像在训练集中所占的比例来重构训练集，根据重构的训练集重新训练出新的图像分类模型。

需要说明的是，训练集的样本数越多，训练出的图像分类模型的准确率就会越高。因此当图像分类模型的准确率较低时，可以增加训练集中的样本数目，重新训练图像分类模型。

S202、对训练集中的文本图像进行分类标记。

将训练集中的文本图像用不同的标签标记来区分文本图像所属的类别。例如，实际应用中，想要区分血液验单图中的数据、尿液验单图中的数据以及眼球验单图。那么可以对训练集中的血液验单图采用第一类标签做标记、尿液验单图采用第二类标签做标记、眼球验单图采用第三类标签做标记。属于同一类别的图像采用相同的标签做标记，不同类别的图像的标签互不相同。

S203、提取训练集中的文本图像的特征信息。

其中，图1示出的步骤S101的特征信息与步骤S203中的特征信息是相同的。文本图像的特征信息是文本图像特有属性的参数值，例如文本图像的规格特征信息、直方图特征信息、方向梯度直方图特征信息等。

步骤S203选择提取的特征信息的类型可根据实际情况进行选择，提取的特征信息可以包括多种类型的特征信息，例如可以是由文本图像的规格特征信息、直方图特征信息以及方向梯度直方图特征信息组合成的特征信息。若步骤S203选择提取的特征信息，最终训练出的图像分类模型分类准确度不高，那么可以通过更换步骤S203中提取的特征信息的类型或者再增加其他类型的特征信息形成新的组合特征信息，重新训练新的图像分类模型。一般说来，需要区分的文本图像的类型越多，那么所需要提取的特征信息就越多，足够多的特征信息才能把多种类型的文本图像区分出来。但如果需要区分的文本图像的类型比较少，且不同类别的文本图像的差别较大，则仅需要较少的特征信息即可区分开。

可选地，在本申请一具体实施例中，执行步骤S203包括：

提取训练集中的文本图像的规格特征信息、直方图特征信息以及方向梯度直方图特征信息。

由于不同类别的文本图像的规格特征存在差异，直方图特征也存在较大差异，因此将两者作为提取的文本图像的特征信息，以实现提高文本图像分类的准确度。方向梯度直方图(Histogram oforiented gradient，HOG)是应用在计算机视觉和图像处理领域，用于目标检测的特征描述器。HOG描述器的原理在于：在一副图像中，局部目标的表象和形状都能够被梯度或边缘的方向密度分布很好地描述。本申请中提取HOG特征的实现方法是：将文本图像分为小的单元，统计每个单元的梯度直方图，通过将多个单元组成一个块，一个块中所有的单元特征串联起来得到该块的HOG特征，将文本图像的所有块的HOG特征串联得到最终可供分类的特征向量，选择该特征作为文本图像的分类特征之一，可降低文本图像的规格和总体直方图相似的偶然性带来的分类干扰，进一步提高文本图像分类的准确度。

可选地，本申请一具体实施例中，在执行步骤S203之前，还可以包括：

对训练集中的文本图像进行灰度化处理。

其中，训练集可以是步骤S201中未进行标记的训练集，可对未进行分类标记的训练集进行灰度化处理，然后再执行步骤S202和步骤S203。也可以是对执行完步骤S202之后的已经进行过分类标记的训练集进行灰度化处理，然后再执行步骤S203。灰度化处理会将文本图像中的颜色变成黑白色，更加凸显字符的相关特征。灰度化处理的目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，从而改进特征抽取、图像分割、匹配和识别的可靠性。因此在执行步骤S203之前对文本图像进行灰度化处理，会起到消除文本图像中的无关信息，更利于提取出文本图像中的特征信息的作用。

需要说明的是，执行步骤S203以及执行步骤S202的先后顺序不影响本申请实施例的实现。

S204、根据训练集中的文本图像的特征信息以及分类标记后的训练集进行图像分类训练，得到图像分类模型。

将训练集中的文本图像的特征信息作为输入信息，而文本图像对应的标签则是输出信息，由此可训练出一个通过输入能够得到输出的模型。具体的，可用于训练的模型很多，具体可根据实际情况选择适合训练的模型。例如对于多种眼球验单图像的分类，由于眼球验单图像的类别数并不是很大，而且同类别的眼球验单图像在整体轮廓和对应区域的位置基本是一致的，但局部具体的文本信息不同，这样的情况下，就可以使用SVM这样的小样本学习方法进行训练。

步骤S204得到的图像分类模型可应用于图1示出的步骤S102中，用于根据用户输入的文本图像的特征信息，确定出文本图像所属的类别。

可选地，参阅图3，本申请另一具体实施例中，图像分类模型的构建方法，包括：

S301、构建文本图像集。

其中，文本图像集中包括多个文本图像。文本图像集中所收集的文本图像主要是实际应用中需要进行采集文本数据的图像。例如实际应用中，需要采集血液验单图中的数据、尿液验单图中的数据以及眼球验单图中的数据。那么文本图像集中就需要包括多个用户的血液验单图像、多个用户的尿液验单图像以及多个用户的眼球验单图像。具体的，不同类别的图像在文本图像集中所占的比例可根据实际情况进行调整，若最终训练出的图像分类模型分类准确率不高，可以重新调整训练集中不同类别的图像在文本图像集中所占的比例来重构文本图像集，根据重构的文本图像集重新训练出新的图像分类模型。

S302、将文本图像集分成多份样本集，选取其中一份样本集作为测试集，其他样本集作为训练集。

其中，将文本图像集分成样本集的份数可根据实际情况进行设定。如果想要多次验证得到的图像分类模型的准确率，则可以将文本图像集分成较多的份数，如果经过试验发现实际情况中不需要验证那么多次，则只需将文本图像集分成少份的样本集即可。

文本图像集可以平均分成多份样本集，也可以不平均的分成多份样本集。文本图像集中只选取其中一小份样本集作为测试集，其他大部分样本均作为训练集。例如，将文本图像集分成10份样本集，则任意选取其中1份作为测试集，剩余9份则是训练集。

S303、对训练集中的文本图像进行分类标记。

其中，步骤S303可以与图2示出的步骤S202的原理及执行过程相同，可参见，此处不再赘述。

S304、提取训练集中的文本图像的特征信息。

其中，步骤S304可以与图2示出的步骤S203的原理及执行过程相同，可参见，此处不再赘述。

S305、根据训练集中的文本图像的特征信息以及分类标记后的训练集进行图像分类训练，得到图像分类模型。

其中，步骤S305可以与图2示出的步骤S204的原理及执行过程相同，可参见，此处不再赘述。

S306、对测试集中的文本图像进行预标记处理。

其中，预标记处理指的是对测试集中的文本图像进行分类标记。对文本图像进行分类标记的标签要与步骤S303执行分类标记时采用的标签一致。

S307、将未进行预标记的测试集中的文本图像的特征信息输入至图像分类模型中，得到分类标记后的测试集。

其中，未进行预标记处理的测试集指的是未执行步骤S306前的测试集。将未进行标记处理的测试集中的文本图像的特征信息输入至步骤S305得到的图像分类模型中，会得到分类标记后的测试集。步骤S306的预分类标记与步骤S307的分类标记不同的地方在于，步骤S306的预标记处理没有使用到图像分类模型进行分类标记，而是直接由用户使用图像分类模型中使用到的标签对测试集中的文本图像进行分类标记。而步骤S307则是通过图像分类模型进行的标记。

S308、根据分类标记后的测试集与进行预标记处理的测试集，计算图像分类模型的准确率。

其中，步骤S306得到的预标记处理的测试集是分类完全准确的测试集，将预标记处理的测试集作为标准，计算出步骤S307得到的分类标记后的测试集相对于步骤S306得到的预标记测试集中标记的准确率。具体地，计算出分类标记后的测试集与预标记处理的测试集的相似度，将计算出的相似度作为准确率，并对计算出的准确率进行存储。

S309、将未被选为测试集的其中一份样本集作为测试集，其他样本集作为训练集。

并返回至步骤S303，直至所有的样本集均被选为测试集为止。

步骤S309中重新对测试集及训练集进行选取，返回至步骤S303之后，执行步骤S303时是对步骤S309得到的训练集进行分类标记，同样的，返回执行至步骤S306时也是对步骤S309新选取的测试集进行预标记处理。

步骤S309执行的次数取决于执行步骤S302时将文本图像集分成的样本集的份数。若步骤S302将文本图像集分成了10份，那么其中的每一份均会被选作当测试集去检测图像分类模型的准确率，而剩余的样本集就会被当成训练集去训练图像分类模型。

S310、判断多次得到的图像分类模型的准确率是否达到预设的合格标准。

若多次得到的图像分类模型的准确率未达到预设的合格标准，则返回至步骤S301中，重新构建文本图像集。若多次得到的图像分类模型的准确率达到了预设的合格标准，则结束对图像分类模型的验证，将步骤S305得到的图像分类模型用于执行图1示出的步骤S102。

其中，步骤S302中将文本图像集分成了n份样本集，则步骤S308会被执行n次，得到n个图像分类模型的准确率。预设的合格标准可人为进行设置，可以是n个图像分类模型的准确率的平均值需高于阈值，也可以是n个图像分类模型的准确率均要高于阈值等等。

图3示出的方法为一种交叉验证法，交叉验证的基本思想是把在某种意义下将原始数据进行分组，一部分做为训练集，另一部分做为测试集，首先用训练集进行训练，再利用测试集来测试训练得到的模型，以此来做为评价模型的性能指标。由于图3示出的方法采用了交叉验证的思想，经过多次改变训练集进行了多次的训练，又经过多次选取测试集对得到的图像分类模型进行了多次准确率的验证，因此最终可得到稳定的、高准确率的图像分类模型。

S103、根据用户输入的文本图像所属的类别，确定与用户输入的文本图像所属的类别相对应的文字区域位置信息。

其中，用户输入的文本图像所属的类别，以及所属类别相对应的文字区域位置信息是预先存储在文字区域录入模块中的。文字区域录入模块支持添加新的文本图像的类别，且支持用户对于每一类的文本图像，可直接在该文本图像上标志出文字区域，由此文字区域录入模块可得到每一类文本图像对应的文字区域位置信息，并将文本图像所属类别以及对应的文字区域位置信息关联保存在文字区域录入模块中，执行步骤S103时，再根据用户输入的文本图像所属的类别，对文字区域录入模块进行读取，即可确定出与用户输入的文本图像所属的类别相对应的文字区域位置信息。其中，文字区域录入模块可以是一种服务器、存储器等。

S104、将用户输入的文本图像中的文字区域位置的图像，按照单个字符进行分割，得到多个字符图像。

其中，单个字符指的是一个单位的字形、类字形单位或符号的基本信息，具体表现为数字、字母、汉字及其他符号。执行步骤S104时，按照单个字符进行分割，指的是以单个字符为单位进行分割，将文字区域位置的图像分割成了多个字符图像。对用户输入的文本图像中的文字区域位置的图像进行分割，可以是先从用户输入的文本图像中提取出文字区域位置的图像，然后再对提取出的文字区域位置的图像进行分割，也可以是直接对用户输入的文本图像中文字区域所在位置的部分进行分割。

可选地，参阅图4，在本申请一具体实施例中，执行步骤S104的一种方式，包括：

S401、对用户输入的文本图像中的文字区域位置的图像按照预设的标准规格进行处理。

将文字区域位置的图像按照预设的标准规格处理，是为了在后续执行步骤S403时，即与特殊字符库中的字符进行比对时，不会受到其他无关信息的干扰。预设的标准规格可依据实际情况进行设定，预设的标准规格可以包括对文字区域位置图像进行灰度化处理、对文字区域位置图像中的字符进行位置归一化处理、对文字区域位置图像中的字符进行大小归一化处理、以及对文字区域位置图像中的字符进行笔画粗细归一化处理等。

可选地，对文字区域位置图像进行灰度化处理，可以包括：对文字区域位置图像进行灰度化，使用自适应的全局阈值对灰度化处理后的图像进行二值化，然后根据黑白像素点的占比来判断文字区域位置图像中的字符是否为黑色，若字符为黑色，则结束处理。若文字区域位置图像中的字符不是黑色，则需要进行补运算直至字符为黑色为止，其中补运算是指对二值化后的图像的每个像素取逻辑非，使得文本图像中的字符为前景。

可选地，对文字区域位置图像中的字符进行位置归一化处理，可以包括：

把文字区域位置图像中每一个字符图像的质心当作是该字符图像的中心，然后设定扫描到的字符图像将移动到的指定的位置，实现位置归一化处理。

可选地，对文字区域位置图像中的字符进行大小归一化处理，可以包括：

把扫描到的文字区域位置图像中的字符的大小设定为一个统一的预设尺寸。大小归一化简单地说就是把字符的尺寸大小归一化到同一个尺寸。即对扫描到的字符图像进行放大或者缩小。经过大小归一化后，不同字号的字符会变成统一的字号。可选地，可以采用基于散度的大小归一化处理。基于散度的大小归一化首先要计算散度。散度可用于表征空间各点矢量场发散的强弱程度。同一个字符在大小不同的时候，可以根据散度求得它们之间与预设尺寸差别的比例，因此可以用散度来进行字符的大小归一化。通过分别求出扫描到的字符的水平散度和垂直散度的，再根据预设的尺寸，分别在水平方向和垂直方向上进行放大或者缩小，从而达到归一化的效果。

可选地，文字区域位置图像中的字符进行笔画粗细归一化处理，具体包括：

对笔画粗细进行归一化就是使字符的笔画粗细变为统一个像素宽度的骨架，这个过程也称之为细化或者骨架化。细化的过程要经过一次次的剥离，从原来的字符图像中去掉一些像素，但仍要保持原有的字符的形状，直到得到字符图像的骨架。因此细化也可以看作是获取字符图像中的轴的过程。经过细化后的字符的笔画宽度是一个像素，但它保持了原来字符的结构信息，例如笔画的位置，长度，方向等等。

需要说明的是，预设的标准规格具体依据实际情况进行设定，包括但不限于本申请实施例提出的方式。

S402、将处理过的文字区域位置的图像进行逐行扫描。

其中，将处理过的文字区域位置的图像进行逐行扫描包括对处理过的文字区域位置从垂直方向进行扫描，以及从水平方向进行扫描。当在文字区域位置的图像进行扫描时，扫描到完全空白的部分，则可认为是扫描到了一个字符，进而再执行步骤S403。

S403、将扫描到的字符的特征信息与特殊字符库中的每一个字符的特征信息进行比对，得到扫描到的字符与特殊字符库中的每一个字符的相似度。

其中，特殊字符库中的字符均按照预设的标准规格进行过处理。由于特征字符库中的字符与文字区域位置的图像中的字符都采用预设的标准规格进行处理，因此在执行步骤S403时，减轻掉了很多干扰信息，更容易比对出扫描到的字符与特殊字符库多种的字符的相似度。特殊字符库中收集的字符的种类可以人为进行设定。例如，可将除了汉字以外的字符均收集在特殊字符库中，也可针对实际应用场景中出现在文本图像中的频率比较少的一些符号作为特殊字符符号。

其中，扫描到的字符的特征信息可根据实际情况进行提取。若在实际试验过程中发现，仅需要小部分的特征信息即可确定出与特殊字符库中的每一个字符的相似度，那么即可在执行步骤S403时仅提取小部分的特征信息。

可选地，在本申请一具体实施例中，字符的特征信息中包括：黑像素值特征信息、粗网格特征信息、粗外围特征信息。

黑像素特征信息用于反映扫描到的字符的整体情况。黑像素特征信息的提取方法为：对扫描到的字符图像进行二值化处理，经过二值化处理后的字符图像的前景点为1，背景点为0。黑像素值的多少代表着一个字符对模板的比例大小，反映了字符的整体情况。

粗网格特征信息用于反馈扫描到的字符的整体结构信息。粗网格特征信息的提取方法是把p×q的字符点阵分割成n×n份，n一般情况下可以取8，获取每一小份的黑像素1与整个字符像素值的比例，将所有n×n序列值排成一列，形成n×n维特征向量。n×n维特征向量的每个数据都是对每一块小的像素块的一个整体的统计，当把每一块的数据集中起来得到n×n的数据的时候，可以反馈出字符的整体结构信息。

粗外围特征信息包括第一次粗外围特征信息和第二次粗外围特征信息，粗外围特征信息可用于反映字符的整体的内部结构。粗外围特征信息的提取方法为：先求出扫描到的字符的外面的长p和宽q，再把p×q点阵字符分割成n×n份，n一般取8。从字符的上面向下面开始扫描，计算第一次与像素值为1(像素值为1的是黑像素)的字符笔画相碰的时候，前面所扫描的非字符部分的面积，这次的面积记录为第一次的粗外围特征数据。再继续扫描，获取到第二次与像素值为1(像素值为1的是黑像素)的字符笔画相遇时候的非字符信息的面积，记录为第二次粗外围特征信息。循环的操作上下左右四个方向，形成8n维的特征向量，这样子将得到64个数据。这一组数据将反映着该字符的初步外围信息特征。第一次粗外围特征的数据能够反映了文字的基本轮廓，第二次粗外围特征信息能够反映字符的内部结构。采用了二次粗外围特征的扫描，可得到字符的整体的内部结构。

通过对比扫描到的字符与特殊字符库中的每一个字符黑像素值特征信息、粗网格特征信息以及粗外围特征信息，得到扫描到的字符与特殊字符库中的每一个字符的相似度。

需要说明的是，步骤S403中提取的特征信息包括但不限于本申请实施例提出的方式。

现有的文本图像的处理方法中，对汉字与特殊字符相混合的文本图像进行分割时，经常会将汉字的偏旁当做一个字符进行分割，分割的准确率较低。相较于现有技术，本申请在分割字符时，采用将扫描到的字符的特征信息与特殊字符库中每一个字符的特征信息进行对比的方式，来确定扫描到的字符是否为特殊字符库中的一个独立的字符，由此提高了分割字符的准确率。

S404、判断扫描到的字符与所述特殊字符库中的其中一个字符的相似度是否高于相似度阈值。

若扫描到的字符与特殊字符库中的其中一个字符的相似度高于相似度阈值，则判断出扫描到的字符为一个独立的字符，执行步骤S405。若扫描到的字符与特殊字符库中的每一个字符的相似度均小于相似度阈值，则判断出扫描到的字符为一个独立的字符的一部分，例如是汉字的一个偏旁部首，因此执行步骤S406。其中，相似度阈值可人为进行设定。

S405、对扫描到的字符进行分割处理。

S406、继续进行扫描，直到扫描到的字符的宽度大于基准值，再对扫描到的字符进行分割处理。

由于步骤S401对文字区域位置的图像进行过预设的标准规格处理，因此文字区域位置的图像中的字符的字号应该是统一的。在统一字号的情况下，字符的宽度就有一个基准值，一个字符的宽度通常不会大于基准值，因此当扫描到字符的宽度大于基准值后，就进行分割处理。

现有的文本图像的处理方法中，对汉字与特殊字符相混合的文本图像进行分割时，经常会将汉字的偏旁当做一个字符进行分割，分割的准确率较低。相较于现有技术，本申请在分割字符时，通过对字符的宽度进行了判断，避免了将汉字的偏旁当做一个字符进行分割的情况，提高了分割的准确率。

S105、对每一个字符的图像进行识别，得到用户输入的文本图像中的文本数据信息。

对字符图像进行识别指的是采集字符图像中的数据信息，进而得到用户输入的文本图像中的文本数据信息。可用于进行字符识别的模型有很多，例如可通过神经网络构建出一个分类器，使用该分类器对字符进行识别。需要说明的是，可用于进行字符识别的方法有很多，包括但不限于本申请实施例提出的方式。

可选地，参阅图5，在本申请一具体实施例中，识别字符的分类器的构建方法，包括：

S501、构建字符库。

其中，字符库中包含多个字符。需要说明的是，字符库中包含的字符需涵盖用户输入的文本图像中出现的字符。

S502、为字符库中的每一个字符分配对应的标识，其中，标识用于说明字符在字符库中的排位。

为每一个字符分配对应的标识相当于为每一个字符进行分类标记，字符库中有多少个字符就分成了多少类。

S503、为字符库中的每一个字符按照预设的标准规格，生成对应的字符图片，形成训练集。

其中，步骤S503中提到的预设的标准规格与图4示出的步骤S401中提及的预设的标准规格是相同的。

S504、根据训练集中的字符图片以及字符图片对应的标识，使用神经网络进行训练，得到分类器。

训练集中的字符图片作为输入信息，字符图片对应的标识作为输出信息，通过神经网络训练得到分类器。将图1中步骤S104得到的字符图像经过预设的规格标准处理后输入至分类器中，输出标记了与字符图像对应标识的字符图像，从标记的标识中可识别出字符。

可选地，还可以选取训练集中的一部分字符图片作为测试集，测试分类器的准确率，如若准确率没有达到预设的阈值，则重新构建训练集，重新训练分类器。

可选地，步骤S105得到文本数据信息之后，还可以根据预设的特定文字区域位置信息，提取出预设的特定文字区域的文本数据信息。然后再将提取出的预设的特定文字区域位置的文本数据信息按照预设的模板进行输出。由此达到将步骤S105得到的文本数据信息按照实际应用的需求输出。

例如，实际情况中要求输出眼球验单图像中的瞳距和视力的数据信息，因此眼球验单图像中写有瞳距信息的文字区域以及写有视力信息的文字区域是预设的特定文字区域。提取了特定文字区域的文本数据信息，即提取了瞳距信息和视力信息，然后按照先输出瞳距信息后输出视力信息的顺序输出信息，即按照预设的模板输出信息。

本申请提供的文本图像的处理方法中，通过获取用户输入的文本图像的特征信息，将用户输入的文本图像的特征信息输入至图像分类模型中，确定出用户输入的文本图像所属的类别，再根据用户输入的文本图像所属的类别，确定与用户输入的文本图像所属的类别相对应的文字区域位置信息，将用户输入的文本图像中的文字区域位置的图像，按照单个字符进行分割，得到多个字符图像；对每一个字符的图像进行识别，得到用户输入的文本图像中的文本数据信息。由于本申请中可通过用户输入的文本图像的特征信息确定出用户输入的文本图像所属的类别，实现对多种文本图像进行分类，又根据用户输入的文本图像所属的类别，确定出与用户输入的文本图像所属的类别相对应的文字区域位置信息，进而对用户输入的文本图像中的文字区域位置的图像进行字符分割和识别，解决了现有技术中无法采集多种类型的文本图像中的数据的问题。

参阅图6，基于上述实施例公开的文本图像的处理方法，本申请实施例对应公开了一种文本图像的处理装置600，包括：获取单元601、第一确定单元602、第二确定单元603、分割单元604以及识别单元605。

获取单元601，用于获取用户输入的文本图像的特征信息。

第一确定单元602，用于将用户输入的文本图像的特征信息输入至图像分类模型中，确定出用户输入的文本图像所属的类别。

可选地，在本申请一具体实施例中，文本图像的特征信息包括：规格特征信息、直方图特征信息、方向梯度直方图特征信息。

第二确定单元603，用于根据用户输入的文本图像所属的类别，确定与用户输入的文本图像所属的类别相对应的文字区域位置信息。

分割单元604，用于将用户输入的文本图像中的文字区域位置的图像，按照单个字符进行分割，得到多个字符图像。

识别单元605，用于对每一个字符的图像进行识别，得到用户输入的文本图像中的文本数据信息。

可选地，在本申请一具体实施例中，文本图像的处理装置600，还包括：构建单元、分类单元、提取单元以及训练单元。

构建单元，用于构建训练集。训练集中包括多个文本图像。

分类单元，用于对训练集中的文本图像进行分类标记。

提取单元，用于提取训练集中的文本图像的特征信息。

训练单元，用于根据训练集中的文本图像的特征信息以及分类标记后的训练集进行图像分类训练，得到图像分类模型。

可选地，在本申请一具体实施例中，构建单元，包括：构建子单元和选取单元。

构建子单元，用于构建文本图像集。其中，文本图像集中包括多个文本图像。

选取单元，用于将文本图像集分成多份样本集，选取其中一份样本集作为测试集，其他样本集作为训练集。

其中，文本图像的处理装置600，还包括：预标记单元、分类标记单元、计算单元、计算单元、第一返回单元、判断单元以及第二返回单元。

预标记单元，用于对测试集中的文本图像进行预标记处理。

分类标记单元，用于将未进行预标记的测试集中的文本图像的特征信息输入至图像分类模型中，得到分类标记后的测试集。

计算单元，用于根据分类标记后的测试集与进行预标记处理的测试集，计算图像分类模型的准确率。

第一返回单元，用于将未被选为测试集的其中一份样本集作为测试集，其他样本集作为训练集，返回至分类标记单元，直至所有的样本集均被选为测试集为止。

判断单元，用于判断多次得到的图像分类模型的准确率是否达到预设的合格标准。

第二返回单元，用于若多次得到的图像分类模型的准确率未达到预设的合格标准，则返回至构建子单元。

可选地，在本申请一具体实施例中，分割单元604包括：处理单元、扫描单元、比对单元、第一分割子单元以及第二分割子单元。

处理单元，用于对用户输入的文本图像中的文字区域位置的图像按照预设的标准规格进行处理。

扫描单元，用于将处理过的文字区域位置的图像进行逐行扫描。

比对单元，用于将扫描到的字符的特征信息与特殊字符库中的每一个字符的特征信息进行比对，得到扫描到的字符与所述特殊字符库中的每一个字符的相似度。其中，特殊字符库中的字符均按照预设的标准规格进行过处理。

可选地，在本申请一具体实施例中，字符的特征信息，包括：黑像素值特征信息、粗网格特征信息、粗外围特征信息。

第一分割子单元，用于若扫描到的字符与特殊字符库中的其中一个字符的相似度高于相似度阈值，则判断出扫描到的字符为一个独立的字符，对扫描到的字符进行分割处理。

第二分割子单元，用于若扫描到的字符与特殊字符库中的每一个字符的相似度均小于所述相似度阈值，则判断出扫描到的字符为一个独立的字符的一部分，则继续进行扫描，直到扫描到的字符的宽度大于基准值，再对扫描到的字符进行分割处理。

上述本发明实施例公开的文本图像的处理装置中的各个单元具体的原理和执行过程，与上述本发明实施例公开的文本图像的处理方法相同，可参见上述本发明实施例公开的文本图像的处理方法中相应的部分，这里不再进行赘述。

本申请提供的文本图像的处理装置600中，通过获取单元601获取用户输入的文本图像的特征信息，通过第一确定单元602将用户输入的文本图像的特征信息输入至图像分类模型中，确定出用户输入的文本图像所属的类别，再通过第二确定单元603根据用户输入的文本图像所属的类别，确定与用户输入的文本图像所属的类别相对应的文字区域位置信息，分割单元604将用户输入的文本图像中的文字区域位置的图像，按照单个字符进行分割，得到多个字符图像；识别单元605对每一个字符的图像进行识别，得到用户输入的文本图像中的文本数据信息。由于本申请中第一确定单元602可通过用户输入的文本图像的特征信息确定出用户输入的文本图像所属的类别，实现对多种文本图像进行分类，第二确定单元603又根据用户输入的文本图像所属的类别，确定出与用户输入的文本图像所属的类别相对应的文字区域位置信息，进而对用户输入的文本图像中的文字区域位置的图像进行字符分割和识别，解决了现有技术中无法采集多种类型的文本图像中的数据的问题。

专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种文本图像的处理方法，其特征在于，包括：

获取用户输入的文本图像的特征信息，所述文本图像的特征信息包括：规格特征信息、直方图特征信息、方向梯度直方图特征信息；

将所述用户输入的文本图像中的文字区域位置的图像，按照单个字符进行分割，得到多个字符图像，包括：

对所述用户输入的文本图像中的文字区域位置的图像按照预设的标准规格进行处理，所述按照预设的标准规格进行处理包括对文字区域位置图像进行灰度化处理、对文字区域位置图像中的字符进行位置归一化处理、对文字区域位置图像中的字符进行大小归一化处理、以及对文字区域位置图像中的字符进行笔画粗细归一化处理；

将处理过的文字区域位置的图像进行逐行扫描；将扫描到的字符的特征信息与特殊字符库中的每一个字符的特征信息进行比对，得到所述扫描到的字符与所述特殊字符库中的每一个字符的相似度；其中，所述特殊字符库中的字符均按照所述预设的标准规格进行过处理；

若所述扫描到的字符与所述特殊字符库中的每一个字符的相似度均小于所述相似度阈值，则判断出所述扫描到的字符为一个独立的字符的一部分，则继续进行扫描，直到扫描到的字符的宽度大于基准值，再对所述扫描到的字符进行分割处理；

2.根据权利要求1所述的方法，其特征在于，所述图像分类模型的创建方法，包括：

构建训练集；所述训练集中包括多个文本图像；

对所述训练集中的文本图像进行分类标记；

提取所述训练集中的文本图像的特征信息；

3.根据权利要求2所述的方法，其特征在于，所述构建训练集，包括：

对所述测试集中的文本图像进行预标记处理；

4.根据权利要求1所述的方法，其特征在于，所述字符的特征信息，包括：黑像素值特征信息、粗网格特征信息、粗外围特征信息。

5.一种文本图像的处理装置，其特征在于，包括：

获取单元，用于获取用户输入的文本图像的特征信息，所述文本图像的特征信息包括：规格特征信息、直方图特征信息、方向梯度直方图特征信息；

所述分割单元，包括：

处理单元，用于对所述用户输入的文本图像中的文字区域位置的图像按照预设的标准规格进行处理，所述按照预设的标准规格进行处理包括对文字区域位置图像进行灰度化处理、对文字区域位置图像中的字符进行位置归一化处理、对文字区域位置图像中的字符进行大小归一化处理、以及对文字区域位置图像中的字符进行笔画粗细归一化处理；

第二分割子单元，用于若所述扫描到的字符与所述特殊字符库中的每一个字符的相似度均小于所述相似度阈值，则判断出所述扫描到的字符为一个独立的字符的一部分，则继续进行扫描，直到扫描到的字符的宽度大于基准值，再对所述扫描到的字符进行分割处理；

6.根据权利要求5所述的装置，其特征在于，还包括：

分类单元，用于对所述训练集中的文本图像进行分类标记；

提取单元，用于提取所述训练集中的文本图像的特征信息；

7.根据权利要求6所述的装置，其特征在于，所述构建单元，包括：

其中，所述文本图像的处理装置，还包括：

8.根据权利要求5所述的装置，其特征在于，所述字符的特征信息，包括：黑像素值特征信息、粗网格特征信息、粗外围特征信息。