CN116912857A

CN116912857A - 手写体和印刷体文本分离方法及装置

Info

Publication number: CN116912857A
Application number: CN202310829177.1A
Authority: CN
Inventors: 严海; 贾昌鑫; 戴建武; 冯显扬; 杜琨
Original assignee: Beijing Thunisoft Information Technology Co ltd
Current assignee: Beijing Thunisoft Information Technology Co ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-20

Abstract

本申请提供一种手写体和印刷体文本分离方法及装置，用以解决手写体文本和印刷体文本相近的情况下文本框左右粘连，造成文本区域分离错误的技术问题。具体的，一种手写体和印刷体文本分离方案，通过使用卷积神经网络预测不同的字体类型特征图，根据不同的字体类型特征图对字体类型进行预测，提高了预测准确率和泛用性。通过在标签文本区域框两端，生成以标签文本区域框的高度为直径的高斯图，根据高斯图生成边界框，通过实际文本区域框中存在两个以上边界区域框，认定实际文本区域框要分离，进而确定手写体和印刷体文本框的边界，降低了由于不同文本区域框左右粘连导致文本区域框分离错误的概率，提高了手写体文本和印刷体文本分离的准确度。

Description

手写体和印刷体文本分离方法及装置

技术领域

本申请涉及文本检测技术领域，尤其涉及一种手写体和印刷体文本分离方法及装置。

背景技术

随着人工智能进程的不断发展，自然场景下的文字识别也成为该进程中不可缺少的一环。自然场景下的文字识别主要是对视觉图像中的文字识别过程，主要分为图像中文字检测和文字内容识别两份部分，其中，文字检测的主要作用是定位图像中文字的位置便于后期对文字的识别。因此，文字检测在整个文字识别过程中有着至关重要的作用。

OCR(Optical Character Recognition)文字识别技术在多个领域有着广泛的应用，其中目前落地的场景中包含车牌识别、截图识别、无纸化办公、证件识别等。OCR技术中对手写体和印刷体文字的识别依赖于文字检测技术，同时目前普遍使用的识别模型对图像中的手写体和印刷体进行分开识别。因此需要使用文本检测技术不仅定位图像中的文字位置，而且应当将手写体和印刷体文字进行准确区分。

在实现现有技术的过程中，发明人发现：

目前已有的文本检测均是基于语义分割、目标检测的方法，二者均需要通过模板匹配的方法进一步处理。然而对于现实场景多变的文本图像，通过模板匹配的方法无法做到准确分离手写体和印刷体文字区域，当手写体文本和印刷体文本书写相近，采用模板匹配的方法会将手写体文字区域和印刷文字区域体文字区域左右粘连形成一个文字区域，造成文字区域分离错误。

因此，需要提供一种手写体和印刷体文本分离方案，用以解决在手写体文本和印刷体文本相近的情况下文本框左右粘连，造成文本区域分离错误的技术问题。

发明内容

本申请实施例提供一种手写体和印刷体文本分离方案，用以解决在手写体文本和印刷体文本相近的情况下文本框左右粘连，造成文本区域分离错误的技术问题。

具体的，一种手写体和印刷体文本分离方法，包括：

获取图像；

对图像进行预处理，生成预处理后的图像；

输入预处理后的图像至训练后的分离模型，生成图像缩进分割图、图像分类分割图、图像边界分割图；

根据图像缩进分割图中像素值大于0.3的像素点组成的文本区域，确定文本区域框；

将文本区域框映射至图像分类分割图中，确定文本区域框的字体类型；

根据图像边界分割图中像素值大于0.4的像素点组成的边界区域，确定边界区域框；

根据图像缩进分割图、图像分类分割图、图像边界分割图，确定文本分离结果。

进一步的，所述分离模型的训练过程包括：

获取训练图像；

对训练图像进行预处理，生成预处理后的训练图像；

输入预处理后的训练图像至原始模型，生成训练图像缩进分割图、训练图像分类分割图、训练图像边界分割图；

根据训练图像、标签文本框类别及坐标信息，生成标签图像缩进分割图、标签图像分类分割图、标签图像边界分割图；

使用平方差计算标签图像缩进分割图与训练图像缩进分割图之间的样本损失；

使用交叉熵损失计算标签图像分类分割图与训练图像分类分割图之间的样本损失；

使用平方差计算标签图像边界分割图与训练图像边界分割图之间的样本损失；

将标签图像缩进分割图与训练图像缩进分割图之间的样本损失、标签图像分类分割图与训练图像分类分割图之间的样本损失、标签图像边界分割图与训练图像边界分割图之间的样本损失按照1：2：5的比例进行加和，使用反向传播算法更新原始模型的神经网络参数，得到负反馈优化后的分离模型。

进一步的，将文本区域框映射至图像分类分割图中，确定文本区域框的字体类型，具体包括：

所述图像分类分割图至少包括：用于预测背景区域像素点的第一通道、用于预测印刷体区域像素点的第二通道、用于预测手写体区域像素点的第三通道；

当图像分类分割图第一通道像素点的像素值最大，认定所述像素点对应的字体类型为背景；

当图像分类分割图第二通道像素点的像素值最大，认定所述像素点对应的字体类型为印刷体；

当图像分类分割图第三通道像素点的像素值最大，认定所述像素点对应的字体类型为手写体；

根据文本区域框内像素点的字体类型，确定文本区域框的字体类型。

进一步的，根据图像缩进分割图、图像分类分割图、图像边界分割图，确定文本分离结果，具体包括：

将文本区域框按照0.4的比例扩大，确定实际文本区域框；

映射实际文本区域框至图像边界分割图；

当同一实际文本区域框中存在两个以上的边界区域框，根据实际文本区域框内的边界区域框对实际文本区域框进行分离，得到分离后的文本区域框；

映射分离后的文本区域框至图像分类分割图中，确定分离后的文本区域框的字体类型，作为文本分离结果。

进一步的，根据训练图像、标签文本框类别及坐标信息，生成标签图像缩进分割图、标签图像分类分割图、标签图像边界分割图，具体包括：

根据训练图像，生成与训练图像大小一致且像素点的像素值为0的单通道缩进分割图；

将训练图像的文本区域框映射至单通道缩进分割图，按照0.4的比例缩小文本区域框，确定缩小后的文本行区域框；

将缩小后的文本行区域框内像素点的像素值设置为1，得到标签图像缩进分割图；

根据训练图像，生成与训练图像大小一致且像素点的像素值为0的单通道分类分割图；

将训练图像中印刷体区域框和手写体区域框，映射至单通道分类分割图；

将印刷体区域框内像素点的像素值设置为1，手写体区域框内像素点的像素值设置为2，得到标签图像分类分割图；

根据训练图像，生成与训练图像大小一致且像素点的像素值为0的单通道边界分割图；

将训练图像的文本区域框，映射至单通道边界分割图；

根据文本区域框的坐标，生成以文本区域框的高度为直径的高斯图；

对高斯图的像素值进行归一化处理，得到像素值在0-1之间的高斯图；

映射像素值在0-1之间的高斯图至文本区域框两端，得到标签图像边界高斯分割图。

进一步的，输入预处理后的图像至训练后的分离模型，生成图像缩进分割图、图像分类分割图、图像边界分割图，具体包括：

输入预处理后的图像至训练后的分离模型，基于resNet50提取预处理后的图像的1/4特征图；

将预处理后的图像的1/4特征图使用单通道卷积核进行卷积，得到单通道1/4特征缩进分割图；

将单通道1/4特征缩进分割图上采样至与预处理后的图像大小一致，得到图像缩进分割图；

将预处理后的图像的1/4特征图使用三通道卷积核进行卷积，得到三通道1/4特征分类分割图；

将三通道1/4特征分类分割图上采样至与预处理后的图像大小一致，得到图像分类分割图；

将预处理后的图像的1/4特征图使用单通道卷积核进行卷积，得到单通道1/4特征边界分割图；

将单通道1/4特征边界分割图上采样至与预处理后的图像大小一致，得到图像边界分割图。

本申请实施例还提供一种手写体和印刷体文本分离装置。

具体的，一种手写体和印刷体文本分离装置，包括：

获取模块，用于获取图像；

处理模块，用于对图像进行预处理，生成预处理后的图像；还用于输入预处理后的图像至训练后的分离模型，生成图像缩进分割图、图像分类分割图、图像边界分割图；

分离模块，用于根据图像缩进分割图中像素值大于0.3的像素点组成的文本区域，确定文本区域框；还用于将文本区域框映射至图像分类分割图中，确定文本区域框的字体类型；还用于根据图像边界分割图中像素值大于0.4的像素点组成的边界区域，确定边界区域框；还用于根据图像缩进分割图、图像分类分割图、图像边界分割图，确定文本分离结果。

进一步的，所述分离模型的训练过程包括：

获取训练图像；

对训练图像进行预处理，生成预处理后的训练图像；

将文本区域框按照0.4的比例扩大，确定实际文本区域框；

映射实际文本区域框至图像边界分割图；

本申请实施例提供的技术方案，至少具有以下有益效果：

通过使用卷积神经网络预测不同的字体类型特征图，根据不同的字体类型特征图对字体类型进行预测，而不是通过模板匹配识别字体类型，提高了预测准确率和泛用性。通过实际文本区域框中存在两个以上边界区域框，认定实际文本区域框框需要分离，降低了由于不同文本区域框左右粘连导致文本区域框分离错误的概率。通过在标签文本区域框两端，生成以标签文本区域框的高度为直径的高斯图，根据高斯图生成边界框，通过实际文本区域框中存在两个以上边界区域框，认定实际文本区域框要分离，进而确定手写体和印刷体文本框的边界，降低了由于不同文本区域框左右粘连导致文本区域框分离错误的概率，提高了手写体文本和印刷体文本分离的准确度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种手写体和印刷体文本分离方法的流程框图；

图2为本申请实施例提供的一种分离模型的训练过程流程框图；

图3为本申请实施例提供的一种手写体和印刷体文本分离装置的结构示意图。

图中附图标记表示为：

100 手写体和印刷体文本分离装置

11 获取模块

12 处理模块

13 分离模块。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

目前OCR技术普遍使用针对手写体的识别模型和针对印刷体的识别模型，分别对图像中的手写体和印刷体进行识别，需要将手写体和印刷体文本进行准确分离。现有技术中通常采用模板匹配的方法，或者通过计算计算图像灰度图中像素的突变点，利用图像中不同文本行区域的突变点的方法实现分离出手写文本行和印刷体文本行。上述两种方法基于手工设置特征和参数，无法较好地适用于情况多变的现实场景中。当手写体文本和印刷体文本书写相近，采用上述两种方法会将手写体文字区域和印刷文字区域体文字区域左右粘连形成一个文字区域，造成文本区域分离错误。

请参照图1，为解决在手写体文本和印刷体文本相近的情况下文本框左右粘连，造成文本区域分离错误的技术问题，本申请提供的一种手写体和印刷体文本分离方法，包括以下步骤：

S110：获取图像。

可以理解的是，所述图像是分离手写体和印刷体文本过程中需要分离文本内容的载体。所述图像中至少包括手写体文本或印刷体文本。所述文本可以表现为文字、数字、字母、符号中至少一种字符。

S120：对图像进行预处理，生成预处理后的图像。

需要指出的是，为了加快分离模型的收敛速度，提高手写体和印刷体文本分离效率，在将图像输入至训练后的分离模型之前需要对图像进行预处理。所述预处理包括将图像随机翻转、将图像随机旋转、将图像随机扩大、将图像标准化处理、将图像尺寸随机裁剪至960*960大小。

S130：输入预处理后的图像至训练后的分离模型，生成图像缩进分割图、图像分类分割图、图像边界分割图。

需要指出的是，所述训练后的分离模型是指经过训练的分离模型。所述分离模型是指能够生成用于分离手写体文本和印刷体文本的图像缩进分割图、图像分类分割图和图像边界分割图的卷积神经网络模型，分离模型经过训练后可以根据预处理后的图像，获得能够准确分离手写体文本和印刷体文本的图像缩进分割图、图像分类分割图和图像边界分割图。

进一步的，所述基于resNet50提取预处理后的图像的1/4特征图，具体包括：

基于resNet50提取预处理后的图像的特征图尺寸至图像输入尺寸的1/32、1/16、1/8、1/4；将1/32大小特征图、1/16大小特征图、1/8大小特征图分别上采样至1/4大小特征图，然后与1/4大小特征图进行融合，即逐元素相加形成1/4大小的强化特征图；经过3层卷积层对多层尺度不一融合后的特征图进行进一步特征提取，得到1/4特征图。

可以理解的是，所述单通道卷积核大小可以为3*3，所述三通道卷积核大小可以为3*3。所述卷积核可以表现为特征提取器，经过所述卷积核卷积后的图像将特定的特征突出显示出来，便于检测图像中的内容。所述上采样是指通过差值算法将图像尺寸放大，图像经过上采样放大后能够保持图像原本的特征。

需要指出的是，所述resNet50是resNet(Residual Network残差网络)的一个重要变体。所述resNet50是一种能够训练深层网络的卷积神经网络。通过训练深层网络，提高了训练效果和模型准确率，并且通过resNent50的残差模块降低了训练过程中梯度消失的概率。

S140：根据图像缩进分割图中像素值大于0.3的像素点组成的文本区域，确定文本区域框。

需要指出的是，所述图像缩进分割图具有像素点，并且每个像素点具有各自对应的单通道像素值。将像素值大于0.3的像素点认定为文本像素。所述文本区域是指像素值大于0.3的像素点组成的区域。所述文本区域框是指通过使用连通域算法得到所述文本区域的最小外接矩形。

S150：将文本区域框映射至图像分类分割图中，确定文本区域框的字体类型。

需要指出的是，所述图像分类分割图具有像素点，并且每个像素点具有各自对应的三通道像素值。进一步的，对文本区域框的字体类型识别结果可以是背景、印刷体、手写体至少一种。

可以理解的是，通过像素点的三通道像素值确定字体类型，意味着采用三种不同维度的识别标准对像素点的字体类型进行判断。

需要指出的是，当文本区域框内既有手写体像素，又有背景像素，则认定文本区域框的字体类型为手写体；当文本区域框内既有印刷体像素，又有背景像素，则认定文本区域框的字体类型为印刷体；当文本区域框内既有手写体像素点，又有印刷体像素点，还有背景像素，则认定文本区域框的字体类型为手写体像素点和印刷体像素点之间数量较多的像素点的字体类型。

在具体应用场景中，阅读人员在阅读印刷体文本时，对印刷体文本进行标记或涂抹，若将标记、涂抹作为手写体文本，造成文本分类错误将导致后续的文本分类以及文本识别准确率降低。为此，本申请提像素点的字体类型包括背景、印刷体、手写体。通过图像分类分割图第一通道像素点的像素值最大，认定所述像素点对应的字体类型为背景，将空白区域、标记、涂抹作为背景，避免了非文本区域对手写体印刷体分离的干扰，提高了手写体印刷体文本分离准确率。若直接通过模版匹配识别字体类型，对于实际应用场景多变的图像，难以精准识别字体类型，为此本申请通过使用卷积神经网络预测不同的字体类型特征图，根据不同的字体类型特征图对字体类型进行预测，而不是通过模板匹配识别字体类型，提高了预测准确率和泛用性。

S160：根据图像边界分割图中像素值大于0.4的像素点组成的边界区域，确定边界区域框。

S170：根据图像缩进分割图、图像分类分割图、图像边界分割图，确定文本分离结果。

需要指出的是，所述图像边界分割图具有像素点，并且每个像素点具有各自对应的单通道像素值，像素值大于0.4的像素点可以认为是边界像素。所述边界区域是指边界像素组成的区域。所述边界区域框是指通过使用连通域算法得到所述边界区域的最小外接矩形。

将文本区域框按照0.4的比例扩大，确定实际文本区域框；

映射实际文本区域框至图像边界分割图；

需要指出的是，当实际文本区域框中存在两个以上边界区域框，可以理解为所述实际文本区域框是由手写体文本区域框和印刷体文本区域框粘连在一起组成的。将所述实际文本区域框根据边界区域框进行切割分离，得到分离后的文本区域框，实现准确分离书写相近的手写体文字区域和印刷体文字区域。将分离后的文本区域框映射至图像分类分割图中，根据分离后的文本区域框内像素点的字体类型，确定分离后的文本区域框的字体类型。将分离后的文本区域框的字体类型作为文本分离结果。

在具体应用场景中，当阅读人员阅读印刷体文本时，可能会在印刷体文本中进行手写批注，造成原本连续的印刷体文本之间增加了手写体文本。在这种情况下，若采用现有的模板匹配的方法往往无法准确分离手写体文本区域和印刷体文本区域，导致手写体文本区域和印刷体文本区域左右粘连在一起，造成文本区域分离错误的技术问题。本申请通过实际文本区域框中存在两个以上边界区域框，认定实际文本区域框由手写体文本区域框和印刷体文本区域框粘连在一起组成的，进而认定实际文本区域框框需要分离，解决了不同文本区域框左右粘连导致文本区域框分离错误的问题，提高了文本分离的准确率。

请参照图2，所述分离模型的训练过程具体包括：

获取训练图像；

对训练图像进行预处理，生成预处理后的训练图像；

S210：获取训练图像。

可以理解的是，训练分离模型需要提供训练图像。所述训练图像是指训练过程中需要分离文本内容的载体。所述训练图像中至少包括手写体文本或印刷体文本。所述文本可以表现为文字、数字、字母、符号中至少一种字符。具体的，所述训练图像表现为原始图像及标签文本框类别及坐标信息。

S220：对训练图像进行预处理，生成预处理后的训练图像。

需要指出的是，为了加快原始模型的收敛速度，提高手写体和印刷体文本分离效率，在将训练图像输入至原始模型之前需要对图像进行预处理。所述预处理包括将训练图像随机翻转、将训练图像随机旋转、将训练图像随机扩大、将训练图像标准化处理、将训练图像尺寸随机裁剪至960*960大小。

S230：输入预处理后的训练图像至原始模型，生成训练图像缩进分割图、训练图像分类分割图、训练图像边界分割图。

需要指出的是，所述原始模型是指生成用于分离手写体文本和印刷体文本的图像缩进分割图、图像分类分割图和图像边界分割图的未经过训练的分离模型。

进一步的，输入预处理后的训练图像至原始模型，生成训练图像缩进分割图、训练图像分类分割图、训练图像边界分割图，具体包括：

输入预处理后的训练图像至原始模型，基于resNet50提取预处理后的训练图像的1/4特征图；

将预处理后的训练图像的1/4特征图使用单通道卷积核进行卷积，得到单通道1/4特征缩进分割图；

将单通道1/4特征缩进分割图上采样至与训练图像大小一致，得到训练图像缩进分割图；

将预处理后的训练图像的1/4特征图使用三通道卷积核进行卷积，得到三通道1/4特征分类分割图；

将单通道1/4特征分类分割图上采样至与训练图像大小一致，得到训练图像分类分割图；

将预处理后的训练图像的1/4特征图使用单通道卷积核进行卷积，得到单通道1/4特征边界分割图；

将单通道1/4特征边界分割图上采样至与训练图像大小一致，得到训练图像边界分割图。

进一步的，所述基于resNet50提取预处理后的训练图像的1/4特征图，具体包括：

基于resNet50提取预处理后的训练图像的特征图尺寸至训练图像原始尺寸的1/32；将1/32大小特征图进行上采样，得到1/16大小特征图、1/8大小特征图、1/4大小特征图；将1/32大小特征图、1/16大小特征图、1/8大小特征图、1/4大小特征图与1/4大小特征图进行融合，即逐元素相加形成1/4大小的强化特征图；经过3层卷积层对多层尺度不一融合后的特征图进行进一步特征提取，得到1/4特征图。

S240：根据训练图像、标签文本框类别及坐标信息，生成标签图像缩进分割图、标签图像分类分割图、标签图像边界分割图。

可以理解的是，为了计算原始模型输出的训练图像缩进分割图、训练图像分类分割图、训练图像边界分割图的样本损失，需要确定训练图像缩进分割图对应的标签图像缩进分割图、与训练图像分类分割图对应的标签图像分类分割图、与训练图像边界分割图对应的标签图像边界分割图。

将训练图像的文本区域框映射至单通道缩进分割图，按照0.4的比例缩小训练图像的文本区域框，确定标签文本行区域框；

将训练图像的标签印刷体区域框和标签手写体区域框，映射至单通道分类分割图；

将标签印刷体区域框内像素点的像素值设置为1，标签手写体区域框内像素点的像素值设置为2，得到标签图像分类分割图；

将标签文本区域框，映射至单通道边界分割图；

根据标签文本区域框的坐标，生成以标签文本区域框的高度为直径的高斯图；

需要指出的是，所述训练图像可以的文字区域、手写体区域、印刷体区域标注出来。所述训练图像的文本区域框是指将训练图像中的文本区域标注出来的矩形框。所述标签印刷体区域框是指将训练图像中的印刷体区域标注出来的矩形框。所述标签手写体区域框是指将训练图像中的手写体区域标注出来的矩形框。所述训练图像具有坐标系，所述标签文本区域框的坐标是指通过标签文本区域框在训练图像中的位置确定的标签文本区域框四个角的坐标。

在具体应用场景中，由于所述训练图像的文本区域框是手动标注的，导致标注区域相比实际文本区域较大，存在过多的空白区域，造成神经网络学习错误。为此，本申请按照0.4的比例缩小训练图像的文本区域框，确定标签文本区域框，降低了空白区域对神经网络学习的影响，提高了神经网络学习的准确率。当手写体和印刷体文本左右粘连，采用模板匹配的方法将左右粘连的手写体印刷体文本作为同一个文本区域，造成文本区域分离错误。为此本申请提出通过在标签文本区域框两端，生成以标签文本区域框的高度为直径的高斯图，根据高斯图生成边界框，通过实际文本区域框中存在两个以上边界区域框，认定实际文本区域框要分离，进而确定手写体和印刷体文本框的边界，降低了由于不同文本区域框左右粘连导致文本区域框分离错误的概率，提高了手写体文本和印刷体文本分离的准确度。

S250：使用平方差计算标签图像缩进分割图与训练图像缩进分割图之间的样本损失。

S260：使用交叉熵损失计算标签图像分类分割图与训练图像分类分割图之间的样本损失。

S270：使用平方差计算标签图像边界分割图与训练图像边界分割图之间的样本损失。

S280：将标签图像缩进分割图与训练图像缩进分割图之间的样本损失、标签图像分类分割图与训练图像分类分割图之间的样本损失、标签图像边界分割图与训练图像边界分割图之间的样本损失按照1：2：5的比例进行加和，使用反向传播算法更新原始模型的神经网络参数，得到负反馈优化后的分离模型。

需要指出的是，为了通过分离模型生成的图像缩进分割图、图像分类分割图、图像边界分割图更准确地分离印刷体区域和手写体区域，需要尽可能降低与真实分离结果的差异。为此，需要获取训练图像缩进分割图与标签图像缩进分割图之间的样本损失、训练图像分类分割图与标签图像分类分割图之间的样本损失、训练图像边界分割图与标签图像边界分割图之间的样本损失。根据样本损失，通过反向传播算法更新原始分离模型的神经网络参数，得到训练后的分离模型，以使分离模型生成的图像缩进分割图、图像分类分割图、图像边界分割图能够更准确地分离印刷体区域和手写体区域。

综上所述，本申请提供的一种手写体和印刷体文本分离方法，通过使用卷积神经网络预测不同的字体类型特征图，根据不同的字体类型特征图对字体类型进行预测，而不是通过模板匹配识别字体类型，提高了预测准确率和泛用性。通过实际文本区域框中存在两个以上边界区域框，认定实际文本区域框框需要分离，降低了由于不同文本区域框左右粘连导致文本区域框分离错误的概率。通过在标签文本区域框两端，生成以标签文本区域框的高度为直径的高斯图，根据高斯图生成边界框，通过实际文本区域框中存在两个以上边界区域框，认定实际文本区域框要分离，进而确定手写体和印刷体文本框的边界，降低了由于不同文本区域框左右粘连导致文本区域框分离错误的概率，提高了手写体文本和印刷体文本分离的准确度。

请参照图3，为支持手写体和印刷体文本分离，本申请还提供一种手写体和印刷体文本分离装置100，其特征在于，包括：

获取模块11，用于获取图像；

处理模块12，用于对图像进行预处理，生成预处理后的图像；还用于输入预处理后的图像至训练后的分离模型，生成图像缩进分割图、图像分类分割图、图像边界分割图；

分离模块13，用于根据图像缩进分割图中像素值大于0.3的像素点组成的文本区域，确定文本区域框；还用于将文本区域框映射至图像分类分割图中，确定文本区域框的字体类型；还用于根据图像边界分割图中像素值大于0.4的像素点组成的边界区域，确定边界区域框；还用于根据图像缩进分割图、图像分类分割图、图像边界分割图，确定文本分离结果。

获取模块11获取图像。

处理模块12对图像进行预处理，生成预处理后的图像。

需要指出的是，为了加快分离模型的收敛速度，提高手写体和印刷体文本分离效率，在获取模块11将图像输入至训练后的分离模型之前需要对图像进行预处理。所述预处理包括将图像随机翻转、将图像随机旋转、将图像随机扩大、将图像标准化处理、将图像尺寸随机裁剪至960*960大小。

处理模块12输入预处理后的图像至训练后的分离模型，生成图像缩进分割图、图像分类分割图、图像边界分割图。

进一步的，处理模块12输入预处理后的图像至训练后的分离模型，生成图像缩进分割图、图像分类分割图、图像边界分割图，具体包括：

分离模块13根据图像缩进分割图中像素值大于0.3的像素点组成的文本区域，确定文本区域框。

需要指出的是，所述图像缩进分割图具有像素点，并且每个像素点具有各自对应的单通道像素值。分离模块13将像素值大于0.3的像素点认定为文本像素。所述文本区域是指像素值大于0.3的像素点组成的区域。所述文本区域框是指通过使用连通域算法得到所述文本区域的最小外接矩形。

分离模块13将文本区域框映射至图像分类分割图中，确定文本区域框的字体类型。

需要指出的是，所述图像分类分割图具有像素点，并且每个像素点具有各自对应的三通道像素值。进一步的，分离模块13对文本区域框的字体类型识别结果可以是背景、印刷体、手写体至少一种。

进一步的，分离模块13将文本区域框映射至图像分类分割图中，确定文本区域框的字体类型，具体包括：

分离模块13根据图像边界分割图中像素值大于0.4的像素点组成的边界区域，确定边界区域框。

分离模块13根据图像缩进分割图、图像分类分割图、图像边界分割图，确定文本分离结果。

进一步的，分离模块13根据图像缩进分割图、图像分类分割图、图像边界分割图，确定文本分离结果，具体包括：

分离模块13将文本区域框按照0.4的比例扩大，确定实际文本区域框；

分离模块13映射实际文本区域框至图像边界分割图；

当同一实际文本区域框中存在两个以上的边界区域框，分离模块13根据实际文本区域框内的边界区域框对实际文本区域框进行分离，得到分离后的文本区域框；

分离模块13映射分离后的文本区域框至图像分类分割图中，确定分离后的文本区域框的字体类型，作为文本分离结果。

需要指出的是，当实际文本区域框中存在两个以上边界区域框，可以理解为所述实际文本区域框是由手写体文本区域框和印刷体文本区域框粘连在一起组成的。分离模块13将所述实际文本区域框根据边界区域框进行切割分离，得到分离后的文本区域框，实现准确分离书写相近的手写体文字区域和印刷体文字区域。分离模块13将分离后的文本区域框映射至图像分类分割图中，根据分离后的文本区域框内像素点的字体类型，确定分离后的文本区域框的字体类型。将分离后的文本区域框的字体类型作为文本分离结果。

下面详细介绍所述分离模型的训练过程：

首先，获取训练图像。

可以理解的是，训练分离模型需要提供训练图像。所述训练图像是指训练过程中需要分离文本内容的载体。所述训练图像中至少包括手写体文本或印刷体文本。所述文本可以表现为文字、数字、字母、符号中至少一种字符。

之后，对训练图像进行预处理，生成预处理后的训练图像。

之后，输入预处理后的训练图像至原始模型，生成训练图像缩进分割图、训练图像分类分割图、训练图像边界分割图。

之后，根据训练图像、标签文本框类别及坐标信息，生成标签图像缩进分割图、标签图像分类分割图、标签图像边界分割图。

将标签文本区域框，映射至单通道边界分割图；

在具体应用场景中，由于所述训练图像的文本区域框是手动标注的，导致标注区域相比实际文本区域较大，存在过多的空白区域，造成神经网络学习错误。为此，本申请按照0.4的比例缩小训练图像的文本区域框，确定标签文本区域框，降低了空白区域对神经网络学习的影响，提高了神经网络学习的准确率。当手写体和印刷体文本左右粘连，采用模板匹配的方法将左右粘连的手写体印刷体文本作为同一个文本区域，造成文本区域分离错误。

为此本申请提出通过在标签文本区域框两端，生成以标签文本区域框的高度为直径的高斯图，根据高斯图生成边界框，通过实际文本区域框中存在两个以上边界区域框，认定实际文本区域框要分离，进而确定手写体和印刷体文本框的边界，降低了由于不同文本区域框左右粘连导致文本区域框分离错误的概率，提高了手写体文本和印刷体文本分离的准确度。

之后，使用平方差计算标签图像缩进分割图与训练图像缩进分割图之间的样本损失。

之后，使用交叉熵损失计算标签图像分类分割图与训练图像分类分割图之间的样本损失。

之后，使用平方差计算标签图像边界分割图与训练图像边界分割图之间的样本损失。

最终，将标签图像缩进分割图与训练图像缩进分割图之间的样本损失、标签图像分类分割图与训练图像分类分割图之间的样本损失、标签图像边界分割图与训练图像边界分割图之间的样本损失按照1：2：5的比例进行加和，使用反向传播算法更新原始模型的神经网络参数，得到负反馈优化后的分离模型。

综上所述，本申请提供的一种手写体和印刷体文本分离装置100，通过使用卷积神经网络预测不同的字体类型特征图，根据不同的字体类型特征图对字体类型进行预测，而不是通过模板匹配识别字体类型，提高了预测准确率和泛用性。通过实际文本区域框中存在两个以上边界区域框，认定实际文本区域框框需要分离，降低了由于不同文本区域框左右粘连导致文本区域框分离错误的概率。通过在标签文本区域框两端，生成以标签文本区域框的高度为直径的高斯图，根据高斯图生成边界框，通过实际文本区域框中存在两个以上边界区域框，认定实际文本区域框要分离，进而确定手写体和印刷体文本框的边界，降低了由于不同文本区域框左右粘连导致文本区域框分离错误的概率，提高了手写体文本和印刷体文本分离的准确度。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种手写体和印刷体文本分离方法，其特征在于，包括以下步骤：

获取图像；

对图像进行预处理，生成预处理后的图像；

2.如权利要求1所述的手写体和印刷体文本分离方法，其特征在于，所述分离模型的训练过程包括：

获取训练图像；

对训练图像进行预处理，生成预处理后的训练图像；

3.如权利要求2所述的手写体和印刷体文本分离方法，其特征在于，将文本区域框映射至图像分类分割图中，确定文本区域框的字体类型，具体包括：

4.如权利要求3所述的手写体和印刷体文本分离方法，其特征在于，根据图像缩进分割图、图像分类分割图、图像边界分割图，确定文本分离结果，具体包括：

将文本区域框按照0.4的比例扩大，确定实际文本区域框；

映射实际文本区域框至图像边界分割图；

5.如权利要求4所述的手写体和印刷体文本分离方法，其特征在于，根据训练图像、标签文本框类别及坐标信息，生成标签图像缩进分割图、标签图像分类分割图、标签图像边界分割图，具体包括：

将训练图像的文本区域框，映射至单通道边界分割图；

6.如权利要求5所述的手写体和印刷体文本分离方法，其特征在于，输入预处理后的图像至训练后的分离模型，生成图像缩进分割图、图像分类分割图、图像边界分割图，具体包括：

7.一种手写体和印刷体文本分离装置，其特征在于，包括：

获取模块，用于获取图像；

8.如权利要求7所述的手写体和印刷体文本分离装置，其特征在于，所述分离模型的训练过程包括：

获取训练图像；

对训练图像进行预处理，生成预处理后的训练图像；

9.如权利要求8所述的手写体和印刷体文本分离装置，其特征在于，将文本区域框映射至图像分类分割图中，确定文本区域框的字体类型，具体包括：

10.如权利要求9所述的手写体和印刷体文本分离装置，其特征在于，根据图像缩进分割图、图像分类分割图、图像边界分割图，确定文本分离结果，具体包括：

将文本区域框按照0.4的比例扩大，确定实际文本区域框；

映射实际文本区域框至图像边界分割图；