CN109117848B

CN109117848B - 一种文本行字符识别方法、装置、介质和电子设备

Info

Publication number: CN109117848B
Application number: CN201811041720.7A
Authority: CN
Inventors: 马文伟; 刘设伟; 王强
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2022-11-18
Anticipated expiration: 2038-09-07
Also published as: CN109117848A

Abstract

本发明提供了一种文本行字符识别方法、装置、介质和电子设备，该方法包括：识别待测图像的字符区域和字符间隙区域；剔除字符间隙区域，并按照字符区域的排布顺序拼接字符区域得到新待测图像；将新待测图像作为文本行字符识别模型的输入，并获取文本行字符识别模型识别新待测图像所输出的文本行字符；其中，文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。本发明在训练模型时使所训练的模型能够收敛，这就可以在模型测试时，缓解甚至避免将复杂纹理背景误识别为字符的问题，提高字符识别精度。

Description

一种文本行字符识别方法、装置、介质和电子设备

技术领域

本发明涉及图像处理技术领域，更具体地说，涉及一种文本行字符识别方法、装置、介质和电子设备。

背景技术

图像中的文本部分常包含图像的重要信息，对图像进行文本识别是实现图像内容理解的基础技术。

现阶段，常以文本行作为识别图像字符的基础。主流方法提出一种将特征提取、序列建模和转录整合到统一框架中的卷积循环神经网络。虽然此类模型在一般字符识别方面表现出较好的性能，但对于具有复杂纹理背景的图像来说，由于容易将复杂纹理背景识别为字符，就会出现误识别的问题。

发明内容

有鉴于此，本发明提供一种文本行字符识别方法、装置、介质和电子设备，以解决现有模型容易将复杂纹理背景识别为字符从而出现误识别的问题。技术方案如下：

基于本发明实施例的一方面，本发明实施例提供一种文本行字符识别方法，包括：

识别待测图像的字符区域和字符间隙区域；

剔除所述字符间隙区域，并按照所述字符区域的排布顺序拼接所述字符区域得到新待测图像；

将所述新待测图像作为文本行字符识别模型的输入，并获取所述文本行字符识别模型识别所述新待测图像所输出的文本行字符；其中，所述文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。

可选的，所述识别待测图像的字符区域和字符间隙区域，包括：

检测待测图像的文本行区域；

基于最大稳定极值MSER算法对所述文本行区域进行二值化处理得到二值图像；

采用垂直投影方法对所述二值图像进行字符分割，并结合字符分割结果确定所述待测图像的字符区域和字符间隙区域。

可选的，所述检测待测图像的文本行区域，包括：

利用所述MSER算法检测待测图像的文本行区域。

可选的，所述检测待测图像的文本行区域，包括：

利用连接文字提议网络CTPN算法检测待测图像的文本行区域。

可选的，获取去除部分纹理背景的样本图像的过程，包括：

利用样本合成方法获取原始样本图像；

对所述原始样本图像中的单个字符添加坐标信息，并按照所述坐标信息确定所述原始样本图像的样本字符区域和样本字符间隙区域；

剔除所述样本字符间隙区域，并按照所述样本字符区域的排布顺序拼接所述样本字符区域得到去除部分纹理背景的样本图像。

可选的，在所述按照所述坐标信息确定所述原始样本图像的样本字符区域和样本字符间隙区域之前，所述方法还包括：

按照所述坐标信息对所述原始样本图像中的单个字符进行外扩和/或扰动处理。

可选的，所述文本行字符识别模型识别所述新待测图像输出文本行字符的过程，包括：

所述文本行字符识别模型的卷积层提取所述新待测图像的目标特征序列；

所述文本行字符识别模型的循环层预测所述目标特征序列的标签分布；

所述文本行字符识别模型的转录层将所述目标特征序列的标签分布转换为字符串序列，并输出最高概率的字符串序列作为文本行字符。

基于本发明实施例的再一方面，本发明实施例提供一种文本行字符识别装置，包括：

识别模块，用于识别待测图像的字符区域和字符间隙区域；

剔除拼接模块，用于剔除所述字符间隙区域，并按照所述字符区域的排布顺序拼接所述字符区域得到新待测图像；

模型识别模块，用于将所述新待测图像作为文本行字符识别模型的输入，并获取所述文本行字符识别模型识别所述新待测图像所输出的文本行字符；其中，所述文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。

基于本发明实施例的再一方面，本发明实施例提供一种存储介质，其上存储有程序，所述程序被处理器执行时实现前文所述文本行字符识别方法。

基于本发明实施例的再一方面，本发明实施例提供一种电子设备，包括：

处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行前文所述文本行字符识别方法。

本发明实施例提供的文本行字符识别方法、装置、介质和电子设备，可以识别待测图像的字符区域和字符间隙区域，由于字符间隙区域属于纹理背景，因此剔除字符间隙区域、重新拼接字符区域所得的新待测图像已经去除部分纹理背景。此外，由于文本行字符模型是预先利用去除部分纹理背景的样本图像训练卷积循环神经网络所得到的，因此利用文本行字符识别模型就可以识别新待测图像中的文本行字符。

可以看出，由于本发明在训练模型时在样本图像中去除部分纹理背景区域，可以缓解特征序列与标签信息对应不一致现象，比如样本图像如果有较大的字符间隙时，在此间隙会提取出一些特征就会干扰特征序列与标签序列的对应关系，从而使所训练的模型能够收敛，这就可以在模型测试时，缓解甚至避免将复杂纹理背景误识别为字符的问题，提高字符识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的文本行字符识别方法的方法流程图；

图2为所示出的待测图像示例；

图3为本发明实施例提供的文本行字符识别方法的部分方法流程图；

图4为新待测图像的示例；

图5为本发明实施例提供的文本行字符识别方法的另一部分方法流程图；

图6为本发明实施例提供的文本行字符识别方法的再一部分方法流程图；

图7为本发明实施例提供的文本行字符识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出的文本行区域检测方法可以适用于检测场景图像中文本行字符的情况，可以由智能手机、平板电脑或者笔记本等设备来执行。如图1所示，其示出了本发明实施例提供的文本行字符识别方法的方法流程图，包括如下步骤：

S10，识别待测图像的字符区域和字符间隙区域。

待测图像分为背景和字符两部分内容，而字符嵌于背景之上。如图2所示出的待测图像示例，其字符的内容为“姓名代用名”，除去字符部分的剩余部分即为背景部分。可以看出，字符区域为虚线框所框区域，而字符区域之间的区域则为字符间隙区域，即实线框所框区域。

在具体实现过程中，步骤S10“识别待测图像的字符区域和字符间隙区域”的过程，可以具体采用以下步骤，方法流程图如图3所示：

S101，检测待测图像的文本行区域。

在执行步骤S101的过程中，可以采用MSER(Maximally Sta ble ExtrenalRegion，最大稳定极值)算法检测待测图像的文本行区域。以下对MSER算法进行简单介绍：

MSER算法，是由Matas等人提出的一种仿射特征区域提取算法，其提取的MSER区域内部灰度几乎不变，但是可以和背景产生十分强烈的对比，并且该MSER区域能够在多重阈值下保持形状不变。一般文本内部的灰度变化都比较小，而文本和背景的灰度对比度则比较大，符合最大极值稳定区域的特征，利用这一特性可以提取颜色聚类无法得到的部分连通域。

当然，由于在文本行区域检测方面，CTPN(Connectionist Text ProposalNetwork，连接文字提议网络)算法整体性能优于MSER算法，因此，为提高检测准确率，还可以采用CTPN算法检测待测图像的文本行区域。

以下对利用CTPN算法对待测图像进行文本行区域检测的过程进行介绍：

首先利用VGG网络对待测图像进行特征提取得到feature map特征图，再通过预设固定宽度，不同高度的Ancanchor(候选区域)，对之前提取的feature map特征图上的每一个像素进行预测，预测它是否为文字以及所对应文字的坐标，同时在网络中加入LSTM长短期记忆网络，由于MSER区域中的文字大多宽度较大，加入LSTM可以更好地利用文字区域周围的信息，使得文本的连续性语义信息在训练和测试中得到应用，最终得到较高准确率较快速度的检测结果，即待测图像中文字所在的区域。

S102，基于最大稳定极值MSER算法对文本行区域进行二值化处理得到二值图像。

在执行步骤S102的过程中，首先对文本行区域进行灰度转换，得到灰度图像和取反值灰度图像；进而根据对灰度图像内的区域点生成MSER+结果图像，根据取反值灰度图像内的区域点生成MSER-结果图像；再将MSER+结果图像和MSER-结果图像进行位与操作，得到二值图像。

S103，采用垂直投影方法对二值图像进行字符分割，并结合字符分割结果确定待测图像的字符区域和字符间隙区域。

在执行步骤S103的过程中，由于字符部分和纹理背景部分在二值图像中分别体现为白色像素和黑色像素，因此对二值图像做垂直投影所得到的直方图会出现一定规律的连续跳变。通过对直方图进行分析得到诸如峰距、上升点、下降点以及波谷宽度等参数，从而结合这些参数计算找出字符分割的阈值。最后以该阈值作为分割间距对待测图像进行分割。

S20，剔除字符间隙区域，并按照字符区域的排布顺序拼接字符区域得到新待测图像。

在执行步骤S20的过程中，将字符间隙区域从待测图像中剔除，并按照字符区域在待测图像中原有的排布顺序拼接为新待测图像。图4为新待测图像的示例。

S30，将新待测图像作为文本行字符识别模型的输入，并获取文本行字符识别模型识别新待测图像所输出的文本行字符；其中，文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。

首先，简单介绍卷积循环神经网络：

卷积循环神经网络(以下简称CRNN)的网络架构包括三部分：1)卷积层，从输入图像中提取特征序列；2)循环层，预测每一帧的标签分布；3)转录层，将每一帧的预测变为最终的标签序列。

在使用样本图像训练CRNN的过程中，将样本图像作为CRNN的输入，卷积层自动从样本图像中提取特征序列。循环层对卷积层输出的特征序列的每一帧进行预测，输出样本分布；转录层将样本分布转换为标签序列，并使用一个loss函数将误差反向传播回卷积层。这样就可以跟卷积层联合训练，实现了端对端的训练。

在本发明的实施例中，卷积层从样本图像中进行特征序列的提取，具体为：在CRNN模型中，通过采用标准CNN模型(去除全连接层)中的卷积层和最大池化层来构造卷积层的组件，这样的组件用于从输入图像中提取序列特征表示。由于卷积层、最大池化层和元素激活函数在局部区域上执行，因此它们是平移不变的。因此，特征图的每列对应于原始图像的一个矩形区域，并且这些矩形区域与特征图上从左到右的相应列具有相同的顺序。

在本发明的实施例中，循环层预测每一帧的标签分布，具体为：由于LSTM是定向的，它只使用过去的上下文。然而，在基于图像的序列中，两个方向的上下文是相互有用且互补的。因此，本发明的一个实施例中，将两个LSTM(一个向前和一个向后)组合到一个双向LSTM中。此外，在深度双向LSTM中堆叠多个双向LSTM结果。CRNN网络架构中将一个深度双向循环神经网络(BLSTM)建立在卷积层的顶部，作为循环层。循环层预测特征序列x＝x₁,...,x_T中每一帧x_t的标签分布y_t。

在本发明的实施例中，转录层将每一帧的预测变为最终的标签序列，具体为：转录是将RNN所做的每帧预测转换成标签序列的过程。数学上，转录是根据每帧预测找到具有最高概率的标签序列。本发明采用联接时间分裂(CTC)层中定义的条件概率。按照每帧预测y＝y₁,...,y_T对标签序列l定义概率，并忽略l中每个标签所在的位置。因此，当使用这种概率的负对数似然作为训练网络的目标函数时，只需要图像及其相应的标签序列，避免了单个字符位置的标注。

条件概率的公式简单描述如下：输入是序列y＝y₁,...,y_T，其中T是序列长度。每个y_t∈R^|L|是在集合L＝L∪上的概率分布，其中L包含了任务中的所有标签，以及由-表示的“空白”标签。序列到序列的映射函数B定义在序列π∈L'^T上，其中T是长度。B将π映射到I上，首先删除重复的标签，然后删除空白标签。其中，条件概率被定义为由B映射到I上的所有π的概率之和：

π的概率定义为

是时刻t时有标签π_t的概率。

在这种模式下，将具有方程(1)中定义的最高概率的序列I^*作为预测。由于不存在用于精确求解的可行方法，通过I^*＝B(arg max_πp(π|y))求解I^*，即在每个时间戳t采用最大概率的标签π_t，并将结果序列映射到I^*。

d.网络训练：χ＝{I_i,I_i}_i表示训练集，I_i是训练图像，I_i是真实的标签序列。目标是最小化真实条件概率的负对数似然：

y_i是循环层和卷积层从I_i生成的序列。目标函数直接从图像和它的真实标签序列计算代价值。因此，网络可以在成对的图像和序列上进行端对端训练，去除了在训练图像中手动标记所有单独组件的过程。

网络使用随机梯度下降(SGD)进行训练。梯度由反向传播算法计算。特别地，在转录层中，误差使用前向算法进行反向传播。在循环层中，应用随时间反向传播(BPTT)来计算误差。

为了优化，使用ADADELTA自动计算每维的学习率。与传统的动量方法相比，ADADELTA不需要手动设置学习率，我们使用ADADELTA的优化收敛速度比动量方法快。

其次，对于步骤S30中“获取去除部分纹理背景的样本图像”的过程进行说明，包括如下步骤，方法流程图如图5所示：

S301，利用样本合成方法获取原始样本图像。

在执行步骤S301的过程中，可以从一些任务场景的真实图像或者自然场景图中随机截取非文字区域的图像作为背景图像，再获取背景图像像素级别的深度图像，并在深度图像中拟合出垂直于法向量的平面，最后将字符安置在该平面上就可以使字符较为自然的融入背景图像中了，即可得到原始样本图像。

S302，对原始样本图像中的单个字符添加坐标信息，并按照坐标信息确定原始样本图像的样本字符区域和样本字符间隙区域。

在执行步骤S302的过程中，在为原始样本图像中的单个字符添加坐标信息之后，即可确定包围单个字符的矩形框的矩形坐标信息，从而确定样本字符区域，而样本字符区域之间的区域则为样本字符间隙区域。

S303，剔除样本字符间隙区域，并按照样本字符区域的排布顺序拼接样本字符区域得到去除部分纹理背景的样本图像。

在执行步骤S303的过程中，将样本字符间隙区域从原始样本图像中剔除，并按照样本字符区域在原始样本图像中原有的排布顺序拼接为样本图像。这样合成的样本图像中字符间只有少量的背景，避免CRNN训练过程中背景干扰影响梯度爆炸或消失现象。

此外，为提高合成样本的多样性以及更易体现算法的鲁棒性，在执行步骤S302中“按照坐标信息确定原始样本图像的样本字符区域和样本字符间隙区域”之前，还可以包括如下步骤，此时方法流程图如图6所示：

按照坐标信息对原始样本图像中的单个字符进行外扩和/或扰动处理。

需要说明的是，对单个字符进行的外扩操作为坐标轻微外扩，而扰动操作则可以为随机扰动，比如，向顺时针旋转45°。

另外，结合上述文本行字符识别模型的训练过程，对于步骤S30中“文本行字符识别模型识别新待测图像输出文本行字符”的过程进行说明，包括如下步骤：

文本行字符识别模型的卷积层提取新待测图像的目标特征序列；文本行字符识别模型的循环层预测目标特征序列的标签分布；文本行字符识别模型的转录层将目标特征序列的标签分布转换为字符串序列，并输出最高概率的字符串序列作为文本行字符。

本发明实施例提供的文本行字符识别方法，在训练模型时在样本图像中去除部分纹理背景区域，可以缓解特征序列与标签信息对应不一致现象，比如样本图像如果有较大的字符间隙时，在此间隙会提取出一些特征就会干扰特征序列与标签序列的对应关系，从而使所训练的模型能够收敛，这就可以在模型测试时，缓解甚至避免将复杂纹理背景误识别为字符的问题，提高字符识别精度。

基于前文本发明实施例提供的一种文本行字符识别方法，本发明实施例还提供一种文本行字符识别装置，如图7所示，该装置包括：

识别模块10，用于识别待测图像的字符区域和字符间隙区域；

剔除拼接模块20，用于剔除字符间隙区域，并按照字符区域的排布顺序拼接字符区域得到新待测图像；

模型识别模块30，用于将新待测图像作为文本行字符识别模型的输入，并获取文本行字符识别模型识别新待测图像所输出的文本行字符；其中，文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的。

可选的，识别模块10，具体用于：

检测待测图像的文本行区域；基于最大稳定极值MSER算法对文本行区域进行二值化处理得到二值图像；采用垂直投影方法对二值图像进行字符分割，并结合字符分割结果确定待测图像的字符区域和字符间隙区域。

可选的，识别模块10检测待测图像的文本行区域，包括：

利用MSER算法检测待测图像的文本行区域。

可选的，识别模块10检测待测图像的文本行区域，包括：

利用连接文字提议网络CTPN算法检测待测图像的文本行区域。

可选的，模型识别模块30获取去除部分纹理背景的样本图像的过程，包括：

利用样本合成方法获取原始样本图像；对原始样本图像中的单个字符添加坐标信息，并按照坐标信息确定原始样本图像的样本字符区域和样本字符间隙区域；剔除样本字符间隙区域，并按照样本字符区域的排布顺序拼接样本字符区域得到去除部分纹理背景的样本图像。

可选的，模型识别模块30在按照坐标信息确定原始样本图像的样本字符区域和样本字符间隙区域之前，还按照坐标信息对原始样本图像中的单个字符进行外扩和/或扰动处理。

可选的，模型识别模块30中文本行字符识别模型识别新待测图像输出文本行字符的过程，包括：

本发明实施例提供的文本行字符识别装置，在训练模型时在样本图像中去除部分纹理背景区域，可以缓解特征序列与标签信息对应不一致现象，比如样本图像如果有较大的字符间隙时，在此间隙会提取出一些特征就会干扰特征序列与标签序列的对应关系，从而使所训练的模型能够收敛，这就可以在模型测试时，缓解甚至避免将复杂纹理背景误识别为字符的问题，提高字符识别精度。

文本行字符识别装置包括处理器和存储器，上述识别模块10、剔除拼接模块20和模型识别模块30均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现文本行字符识别。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现前文所述文本行字符识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行前文所述文本行字符识别方法。

本发明实施例提供了一种电子设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

识别待测图像的字符区域和字符间隙区域；

检测待测图像的文本行区域；

可选的，所述检测待测图像的文本行区域，包括：

利用所述MSER算法检测待测图像的文本行区域。

可选的，所述检测待测图像的文本行区域，包括：

利用连接文字提议网络CTPN算法检测待测图像的文本行区域。

可选的，获取去除部分纹理背景的样本图像的过程，包括：

利用样本合成方法获取原始样本图像；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

识别待测图像的字符区域和字符间隙区域；

检测待测图像的文本行区域；

可选的，所述检测待测图像的文本行区域，包括：

利用所述MSER算法检测待测图像的文本行区域。

可选的，所述检测待测图像的文本行区域，包括：

利用连接文字提议网络CTPN算法检测待测图像的文本行区域。

可选的，获取去除部分纹理背景的样本图像的过程，包括：

利用样本合成方法获取原始样本图像；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种文本行字符识别方法，其特征在于，包括：

识别待测图像的字符区域和字符间隙区域，包括：检测待测图像的文本行区域；基于最大稳定极值MSER算法对所述文本行区域进行二值化处理得到二值图像；采用垂直投影方法对所述二值图像进行字符分割，并结合字符分割结果确定所述待测图像的字符区域和字符间隙区域；

将所述新待测图像作为文本行字符识别模型的输入，并获取所述文本行字符识别模型识别所述新待测图像所输出的文本行字符；其中，所述文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的；

获取去除部分纹理背景的样本图像的过程，包括：利用样本合成方法获取原始样本图像包括：随机截取非文字区域的图像作为背景图像，获取所述背景图像像素级别的深度图像，并在所述深度图像中拟合出垂直于法向量的平面，最后将字符安置在所述平面上；对所述原始样本图像中的单个字符添加坐标信息，按照坐标信息对原始样本图像中的单个字符进行外扩和/或扰动处理，并按照所述坐标信息确定所述原始样本图像的样本字符区域和样本字符间隙区域；剔除所述样本字符间隙区域，并按照所述样本字符区域的排布顺序拼接所述样本字符区域得到去除部分纹理背景的样本图像。

2.根据权利要求1所述的方法，其特征在于，所述检测待测图像的文本行区域，包括：

利用所述MSER算法检测待测图像的文本行区域。

3.根据权利要求1所述的方法，其特征在于，所述检测待测图像的文本行区域，包括：

利用连接文字提议网络CTPN算法检测待测图像的文本行区域。

4.根据权利要求1所述的方法，其特征在于，所述文本行字符识别模型识别所述新待测图像输出文本行字符的过程，包括：

5.一种文本行字符识别装置，其特征在于，包括：

识别模块，用于识别待测图像的字符区域和字符间隙区域；

所述识别模块，具体用于：检测待测图像的文本行区域；基于最大稳定极值MSER算法对所述文本行区域进行二值化处理得到二值图像；采用垂直投影方法对所述二值图像进行字符分割，并结合字符分割结果确定所述待测图像的字符区域和字符间隙区域；

模型识别模块，用于将所述新待测图像作为文本行字符识别模型的输入，并获取所述文本行字符识别模型识别所述新待测图像所输出的文本行字符；其中，所述文本行字符识别模型是预先使用获取到的去除部分纹理背景的样本图像训练卷积循环神经网络所得到的；

所述模型识别模块获取去除部分纹理背景的样本图像的过程，包括：

利用样本合成方法获取原始样本图像包括：随机截取非文字区域的图像作为背景图像，获取所述背景图像像素级别的深度图像，并在所述深度图像中拟合出垂直于法向量的平面，最后将字符安置在所述平面上；对原始样本图像中的单个字符添加坐标信息，按照坐标信息对原始样本图像中的单个字符进行外扩和/或扰动处理，并按照坐标信息确定原始样本图像的样本字符区域和样本字符间隙区域；剔除样本字符间隙区域，并按照样本字符区域的排布顺序拼接样本字符区域得到去除部分纹理背景的样本图像。

6.一种存储介质，其特征在于，其上存储有程序，所述程序被处理器执行时实现权利要求1至4中任一项所述文本行字符识别方法。

7.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至4中任一项所述文本行字符识别方法。