CN110287952B

CN110287952B - 一种维语图片字符的识别方法及系统

Info

Publication number: CN110287952B
Application number: CN201910583713.8A
Authority: CN
Inventors: 孙萍; 高岩; 陈宏江; 赵全军; 杨浩
Original assignee: Sinosoft Co ltd
Current assignee: Sinosoft Co ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2021-07-20
Anticipated expiration: 2039-07-01
Also published as: CN110287952A

Abstract

本发明公开了维语图片字符的识别方法，包括：将采集的原始图片进行标记，将标记后的图片作为待训练样本；将待训练样本输入到CNN+BiLSTM模型中以提取待训练样本的特征向量，对待训练样本的特征向量进行训练，生成维文文本区域定位网络模型；将待训练样本中包含维语文本区域的图片输入CNN网络模型，提取所述维语文本区域的特征；将维语文本区域的特征输入BiLSTM+CTC网络模型中，获得维语字符序列，根据维语字符序列生成维语字符识别网络模型；利用维文文本区域定位网络模型识别待检测图片的维语文本区域；利用维语字符识别网络模型识别待检测图片的维语文本区域中的维语字符。本发明还公开了维语图片字符的识别系统。通过本发明可以准确的识别出维语字符。

Description

一种维语图片字符的识别方法及系统

技术领域

本发明属于涉及图文处理的技术领域，尤其涉及一种维语图片字符的识别方法及系统。

背景技术

文字，区别于变幻莫测的图像和视频，有着更强的逻辑性和更概括的表达力。随着互联网和移动互联网技术的高速发展，越来越多的新型应用场景需要利用图像中的文字信息。从海量的视频中快速检索出感兴趣的文字，可以极大提高人类的认知效率。

因此，自然场景中的文字提取方法，即从照片或视频中将文字识别出来，即OCR(Optical Character Recognition)，光学字符识别，成为了近几年计算机视觉领域的热门研究课题。

在中国大部分地区，人们把汉语作为日常的交流和沟通的工具，而在西北部的新疆，维语的使用频率非常高，在新疆的地方网站上每天都有数以亿计的维语图片在上传和下载，因此迫切需要一种维语图片字符的识别方法及系统以更方便、准确地识别出图片中是否包含维语。

发明内容

有鉴于此，本发明实施例提供一种维语图片字符的识别方法及系统，用以准确、高效地识别图片中的维语字符信息，使得维语图片、文档、书籍等能够迅速走上数字化的道路。

第一方面，本发明实施例提供了一种维语图片字符的识别方法，该识别方法包括：

采集原始图片并对图片中是否包含维语以及维语所在的文本区域进行标记，将标记后的图片作为待训练样本；

将所述待训练样本输入到CNN+BiLSTM模型中以提取待训练样本的特征向量，对所述待训练样本的特征向量进行训练，生成维文文本区域定位网络模型；

将待训练样本中包含维语文本区域的图片输入CNN网络模型，提取所述维语文本区域的特征；将所述维语文本区域的特征输入BiLSTM+CTC网络模型中，获得维语字符序列，并根据所述维语字符序列生成维语字符识别网络模型；

利用维文文本区域定位网络模型识别出待检测图片的维语文本区域；

利用所述维语字符识别网络模型识别出所述待检测图片的维语文本区域中的维语字符。

第二方面，本发明实施例提供了一种维语图片字符的识别系统，该识别系统包括采集模块、区域定位模型生成模块、第一识别模块、字符识别网络模型生成模块和第二识别模块；

所述采集模块用于采集原始图片并对图片中是否包含维语以及维语所在的文本区域进行标记，将标记后的图片作为待训练样本；

所述区域定位模型生成模块将所述待训练样本输入到CNN+BiLSTM模型中以提取待训练样本的特征向量，对所述待训练样本的特征向量进行训练，生成维文文本区域定位网络模型；

所述第一识别模块将待训练样本中包含维语文本区域的图片输入CNN网络模型，提取所述维语文本区域的特征；将所述维语文本区域的特征输入BiLSTM+CTC网络模型中，获得维语字符序列，并根据所述维语字符序列生成维语字符识别网络模型；

所述字符识别网络模型生成模块利用维文文本区域定位网络模型识别出待检测图片的维语文本区域；

所述第二识别模块利用所述维语字符识别网络模型识别出所述待检测图片的维语文本区域中的维语字符。

本发明通过维文文本区域定位网络模型定位待检测图片的维语文本区域，再利用维语字符识别网络模型识别出该维语文本区域中的维语字符，可以准确的识别出维语字符；另外利用维语校正网络模型对识别的结果进行校正，可以更加快速高效地识别出维语字符，有利于将维语图片、文档、书籍迅速走上数字化的道路；同时利用本实施例中的维语图片字符识别方法可以将大量的维语文档、书籍数字化以进行保存。

附图说明

图1为本发明实施例提供的一种维语图片字符的识别方法的流程示意图；

图2为本发明实施例提供的一种维语文本区域示意图；

图3为本发明实施例提供的一种维语图片字符的识别系统的结构示意图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

一、维语图片字符的识别方法

下面介绍本发明实施例提供的一种维语图片字符的识别方法的具体实施方式，参见图1，该识别方法包括；

S100:采集原始图片并对图片中是否包含维语以及维语所在的文本区域进行标记，将标记后的图片作为待训练样本；

S200：将所述待训练样本输入到CNN+BiLSTM模型中以提取待训练样本的特征向量，对所述待训练样本的特征向量进行训练，生成维文文本区域定位网络模型；

S300：将待训练样本中包含维语文本区域的图片输入CNN网络模型，提取所述维语文本区域的特征；将所述维语文本区域的特征输入BiLSTM+CTC网络模型中，获得维语字符序列，并根据所述维语字符序列生成维语字符识别网络模型；

S400：利用维文文本区域定位网络模型识别出待检测图片的维语文本区域；

S500：利用所述维语字符识别网络模型识别出所述待检测图片的维语文本区域中的维语字符。

二、维语图片字符的识别方法的具体工作过程

(一)下面将简要描述本实施例应用的模型或方法的含义。

1.CNN(Convolutional Neural Networks):能自动抽取出维语字符的一些高级特征，对图像的噪声具有一定的鲁棒性，是目前图像特征提取常用的工具。

2.BiLSTM(Bi-directional Long Short-Term Memory，双向长短时记忆网络)：是一种特殊结构的RNN，能够解决普通RNN不能解决的长期依赖问题，记住长期的信息在实践中是LSTM的默认行为，而非需要付出很大代价才能获得的能力。

3.CTC(connectionist temporal classifier，连接时间分类器)常用于语音识别、手写识别等识别模型的输出结果对齐；若，X代表输入序列，a代表X中每个x经过模型得到的输出，Y代表label字符集。CTC可以简单地理解为：对于给定的X，为任意的一个y分配概率，即P(Y|X)，计算这种概率的关键是“CTC如何理解输入X与输出Y的对齐”；

其中，CTC的工作特性如下：

(a)如果输入X前进到下一位，则相应的输出a必须相同或前进到Y中的下一位

(b)X到Y一定是多对一的关系

(c)Y的长度不能大于X的长度

那么，对于一对儿(X，Y)来说，CTC的目标函数为：

4.softmax分类器是一种线性分类器，用于进行多目标分类。

5.VGG16网络是CNN网络的一种，包含了16个卷积层和全连接层，其优点是：简化了CNN神经网络结构。

6.Radon变换，是一种积分变换，这个变换将二维平面函数F变换成一个定义在二维空间上的一个线性函数RF(RF的意思是对F做radon变换)，而RF的值为函数F对该条线RF做积分的值。

(二)

其中，所述原始图片包括维语图片和非维语图片，本实施例中的待训练样本包括100万张维语图片和100万张非维语图片，对这些维语图片、非维语图片进行标记以及维语所在的文本区域进行标记，将标记后的图片作为待训练样本。

(三)

具体的，将待训练样本输入到CNN+BiLSTM模型中以提取待训练样本的特征向量，并且以softmax作为分类器、以交叉熵作为损失函数对所述训练样本的特征向量进行训练，获得所述维文文本区域定位网络模型。

该维文文本区域定位网络模型网络的损失函数定义如下所示：

其中，带*的都是ground truth，每个anchor都是一个训练样本；i是在mini-batch中的anchor的索引，s_i是预测anchor是文本的概率，

是ground truth，

j是y坐标回归中有效anchor的索引，有效anchor是正

或者和groundtruth文本区域iou>0.5(交并比)，v_j和

是第j个anchor的预测和真实的y坐标；k是side-anchor的索引，即实际文本行边界框的左侧或右侧水平距离内的一组anchor，o_k和

是第k个anchor的x的预测和实际偏移量。q是anchor的水平偏移距离。q_l和

是第l个anchor的q的预测和实际偏移量；

是使用Softmax回归模型区分文本和非文本的分类损失函数；

和

是回归损失函数，使用smooth L1函数来计算；

l₁，l₂和l₃是损失权重，用来平衡不同的任务，根据经验皆设为1.0；

N_sN_vN_o和N_p是标准化参数，

和

表示分别使用的anchor总数。

本实施例利用CNN+BiLSTM网络模型，可以充分地提取待训练样本的特征向量，以提高最终的维语图片字符的精确度。采用上述维文文本区域定位网络模型不仅能够获取简单背景的文本区域，而且对复杂背景的维语文本区域仍然十分有效；而且该维文文本区域定位网络模不仅能够检测出水平的文本区域，针对垂直、旋转、弯曲的文本区域同样有很好的检测效果，而且获取的文本区域为包含文本块的最小有效区域，极大地减少后续图片分析的计算量，使识别出维语图片字符的效率更高。

(四)

具体的，该维语字符识别网络模型是通过以下子步骤获得的：

S310：将待训练样本中包含维语文本区域的图片输入CNN网络模型，提取所述维语文本区域的特征；

本实施例中的可以将包含300万张32*256*1大小的包含维语文本区域的图片作为训练集，将这些训练样本输入CNN网络模型中进行训练获得维语文本区域的特征，这些训练样本中的图片中的维语字符长度为8-12不定长，图片中的维语字体多达347种。

其中，该CNN网络模型的卷积部分包含三层卷积层+池化层，具体设置如下：

第一层卷积的感受野大小为5*5，池化核尺寸为2*2，池化步长为(2，2)，第一层卷积层的输出为16*128*48；

类似地，第二层卷积的感受野大小为5*5，池化核尺寸为2*1，池化步长为(2，1)，第一层卷积层的输出为16*64*64；

第三层卷积的感受野大小为5*5，池化核尺寸为2*2，池化步长为(2，2)，第一层卷积层的输出为8*32*128；

第三层卷积层后接全连接层，全连接层输出256维的维语文本区域的特征。

S320：将所述维语文本区域的特征输入BiLSTM+CTC的网络模型中，获得维语字符序列，根据所述维语字符序列生成维语字符识别网络模型；

具体的，本实施例中，将全连接层输出的256维的维语文本区域的特征输入BiLSTM+CTC的网络模型中，获得维语字符序列，根据所述维语字符序列生成维语字符识别网络模型；其中，本实施例中的BiLSTM包含64个隐含层。

(五)

1.本步骤S400是基于以下思路来进行的；

由于文本行一般占据一定的图片区域，而且文本行中每个字都有间隔。针对这个特点，本实施例可以借助“分治算法”，即对文本进行检测、拆分并合并，具体如下：

第一步，检测文本框中的一部分区域，判断这一部分区域是否是一个文本的一部分，若是，则对文本框中的其他部分区域进行检测；

第二步，当对一幅图片里所有的小文本框都检测之后，将属于同一个文本框的小文本框进行合并，获得一个完整的、大的文本框，从而完成了文本检测步骤。

由于文本具有很强的连续字符，其中连续的上下文信息对于做出可靠决策来说很重要。在本实施例中，把一个完整的文本框拆分成多个小文本框集合，这些小文本框集可以看作一个序列模型，因此可以利用过去或未来的信息来学习和预测，所以本实施例中BiLSTM(双向LSTM)对待检测图片进行检测，因为对一个小文本框进行预测，不仅与文本框左边的小文本框有关系，而且还与文本框右边的小文本框有关系。

如果仅仅根据一个文本框的信息区预测该框内是否含有文字来识别待检测图片中的维语文本区域的方法不够准确，因此，本实施例还需要利用文本框的左边和右边的小框的信息(尤其是与其紧挨着的框)对文本区域进行检测，这样会大大提升检测出的维语文本区域的准确率。

进一步的，本实施例还借助了Faster RCNN中anchor回归机制，使得RPN能有效地采用单一尺寸的滑动窗口来检测多尺寸的物体。

其中，RPN中anchor机制是直接回归预测物体的四个参数(x,y,w,h)，但是在此采取之回归两个参数(y,h)，即anchor的纵向偏移以及该anchor的文本框的高度，因为每个候选框的宽度w已经规定为20个像素(根据维语自身特点确定)，不需要再学习，而x坐标直接使用anchor的x坐标，也不用学习，只学习y和h这两个参数来完成小候选框的检测。

跟RPN相类似，对于每个候选框都使用了k个不同的anchors(k在这里默认是10)，但是与RPN不同的是，这里的anchors的width是固定的20个像素，而height的高度范围为11～273(每次对输入图像的height除以0.7，一共K个高度)。

当然本实施例还是保留了RPN大多数的思路，比如还是需要预测候选框的分数score(该候选框有文本和无文本的得分)，除此之外还学习到了小文本框的方向θ，这些小文本框的方向对于确定整个文本行的方向至关重要，另外就是学习实际文本行边界框的左侧或右侧水平距离内的一组anchor，这对于确定文本行边界很关键，这样就可以准确地定位文本行的始末。

2.具体的，利用所述维文文本区域定位网络模型识别待检测图片中的维语文本区域包括以下子步骤S410-S440：

针对维语从左到右的书写习惯、场景图片复杂多变的背景、维语字体种类繁多的状况，本实施例中利用所述维文文本区域定位网络识别出待检测图片中的维语文本区域。

其中，S410：利用CNN卷积神经网络的VGG16提取待检测图片的特征生成待检测图片的特征图谱(feature map)，该特征图谱的结果为W×H×C；

S420：利用VGG16的卷积层对所述特征图谱进行卷积获得第一输出结果；

具体的，可以在VGG16的最后一个卷积层CONV5，用3×3的卷积核来对该特征图谱(feature map)进行卷积获得第一输出结果：W×H×C＝512。

S430：将所述第一输出结果进行重塑(reshape)并输入LSTM(Long Short-TermMemory,长短期记忆网络)中，获得第二输出结果；将该第二输出结果再输入到线性层获得第三输出结果；对第三输出结果进行reshape，从而获得第四输出结果；

其中，该LSTM可采用128个隐藏节点的双向BiLSTM，输出之后再接256×512的线性层，线性层输出之后再reshape为1×W×H×C，即和输入尺寸(即第一输出结果)一样，输出为:1×W×H×C＝512。

S440：将第四输出结果输入到全连接层FC，该线性回归层输出512×(10×2)做文本类别预测(两个类别，包括是文本和不是文本)，512×(10×2)做anchor的坐标预测，512×(10×1)做文本行水平边界预测，512×(10×1)做文本行角度预测得到预测数值，根据所述预测数值识别出待检测图片中的维语文本区域。

进一步的，根据识别出的待检测图片中的维语文本区域获得该文本区域的文本行，其中所述获得该文本区域的文本行包括以下子步骤S441-S445，参见图2；

S441：预设一个集合B，计算该集合B里面所有字符区块(segment)角度的平均值θ_b；

由于集合B中有多个相关联的字符区块(segment)待合并，且每一个字符区块(segment)都有自己的角度θ，因此这里需要计算集合B中所有字符区块(segment)角度的平均值θ_b；

S442：利用最小二乘法线性回归方法生成一条与所有字符区块(segment)的中心距离最短的直线L；

S443：沿每个字符区块(segment)的中心向直线L做垂直投影，获得多个投影点；

S444：从所述投影点中选出相距最远的两个点，记做第一坐标点(x_p,y_p)和第二坐标点(x_q,y_q)；

S445：将最终合并好的文本框的位置参数记为(x_b,y_b,w_b,h_b,θ_b)，那么x_b:＝1/2(x_p+x_q，y_b:＝1/2(y_p+y_q)，以此获得该文本区域的文本行。

其中，文本行的宽度w_b就是两个最远点的距离(即(x_p,y_p)和(x_q,y_q))再加上最远两个点所处的segment的宽度的一半(w_p和w_q)；文本行高度h_b就是所有segment高度的平均值。

一般在图片拍摄的过程中比较随意，因此获取到的待识别的图片不可避免的会产生倾斜，因此在步骤S400之前，可以进一步地对待检测的图片进行相应地倾斜校正，优选的，本实施例利用Radon变换对待检测的图片进行倾斜校正，具体步骤包括：

(1)计算待检测图片的边缘二值图像，检测出待检测图片中的直线；

(2)计算边缘图像的Radon变换，对每一个象素为1的点进行运算(可以对0-179°方向上分别做投影)以检测出Radon变换矩阵中的峰值和待检测图片的直线倾角；

其中，Radon变换矩阵中的峰值对应待检测图片中的直线；Radon变换矩阵中的这些峰值的列坐标θ就是与待检测图片的直线垂直的倾斜角度，所以待检测图片的直线的倾角为90°-θ；

(3)根据Radon变换矩阵中的峰值和待检测图片的直线倾角对待检测的图片进行倾斜校正。

(六)

本实施例中的维语字符识别网络模型的主体架构采用CNN(ConvolutionalNeural Networks)+BiLSTM(Bi-directional Long Short-Term Memory，双向长短时记忆网络)+CTC(connectionist temporal classifier，连接时间分类器)；其中，CNN用于提取维语文本区域的特征，BiLSTM+CTC用于预测维语字符,即基于所述维语文本区域的特征识别出该维语文本区域中的维语字符。

因CNN网络模型具有强大的特征提取能力，因此可以完整的提取出维语文本区域的特征，加之后续BiLSTM+CTC网络模型对字符具有的超强预测能力，因此本实施例中的维语字符识别网络模型对因有噪声污染而产生字符粘连或断裂的图片具有很好的识别效果。

(七)

S600：利用维语校正网络模型对所述维语字符进行校正以获得校正后的维语字符。

由于使用维语字符识别网络模型时识别出的维语字符不可避免会产生误识别，因此本实施例中的维语图片字符识别方法还包括该步骤S600。

其中，所述维语字符校正网络是由支持变长输入的BiLSTM+CTC网络模型组成，该BiLSTM模型含有32个隐藏层；网络的输入为长度为2-20的维语字符，输出为维语字符序列，以此保证对字符识别结果进行适度的“纠正”，净化处理，提高识别结果的可读性。

本实施例中将获取的维语字符序列输入BiLSTM+CTC网络模型中得到优化后的维语字符序列，基于所述优化后的维语字符序列得到所述维语校正网络模型。

其中，前向传播算法包括：设定前向变量为a(t,u)，该前向变量表示t时刻在节点u的前向概率值，其中u∈[2U+1]；

初始化公式如下：

a(1,u)＝0,"u>2

递推关系公式为：

其中；

注：如果l表示{c,a,t}，那么l'表示为{b,c,b,a,b,t,b}，所以原来在l中的下标u为2，在l'中的下标变u为4。

a(t,u)＝0"u<U'-2(T-t)-1

对应于图2中的右上角部分，因为时间的限制，有些节点不可能到达最后的终止节点。

其中后向传播算法包括：

初始化：

b(T,U')＝1

b(T,U'-1)＝1

b(T,u)＝0,"u<U'-2

a(1,u)＝0,"u>2

递推关系公式为：

其中；

L(x,z)＝-lnp(z|x)；

根据前、后向变量，可以得到：

其中，|z'|表示z对应的label长度的U'，a(t,u)b(t,u)表示t时刻经过节点u的所有路径的概率和。

该维语校正网络模型通过上述步骤训练生成，对字符识别的结果在语义层面进行优化处理，使得最终的识别结果更有实际语义意义，识别的结果有更强的可读性；同时该维语校正网络模型可以弥补维语字符识别网络模型的不足，从而进一步地提高识别的准确率，以生成更有实际意义的维语字符。

三、维语图片字符的识别系统

参见图3，图3为本发明实施例提供的一种维语图片字符的识别系统的结构示意图；该识别系统包括采集模块、区域定位模型生成模块、第一识别模块、字符识别网络模型生成模块和第二识别模块；

本实施例中的识别系统与上一实施例的维语图片字符识别方法的工作过程基本一致，在此不再具体赘述。

本发明的有益效果是：

本发明通过维文文本区域定位网络模型定位待检测图片的维语文本区域，再利用维语字符识别网络模型识别出该维语文本区域中的维语字符，可以准确的识别出维语字符；

另外利用维语校正网络模型对识别的结果进行校正，可以更加快速高效地识别出维语字符，有利于将维语图片、文档、书籍迅速走上数字化的道路；

可以以更便捷的方式聆听来自西北数千万维族同胞的心声，为民族团结、民族稳定贡献学术力量；

同时利用本实施例中的维语图片字符识别方法可以将大量的维语文档、书籍数字化以进行保存。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种维语图片字符的识别方法，其特征在于，该识别方法包括：

利用所述维语字符识别网络模型识别出所述待检测图片的维语文本区域中的维语字符；

利用维语校正网络模型对所述维语字符进行校正以获得校正后的维语字符，其中，所述维语校正网络模型通过以下方法获得：

将获取的维语字符序列输入BiLSTM+CTC网络模型中得到优化后的维语字符序列，基于所述优化后的维语字符序列得到所述维语校正网络模型。

2.根据权利要求1所述的识别方法，其特征在于，所述维文文本区域定位网络模型是通过以softmax作为分类器、以交叉熵作为损失函数对所述训练样本的特征向量进行训练而生成的。

3.根据权利要求1所述的识别方法，其特征在于，利用所述维文文本区域定位网络模型识别待检测图片中的维语文本区域包括以下子步骤；

利用CNN卷积神经网络的VGG16提取待检测图片的特征生成待检测图片的特征图谱；

利用VGG16的卷积层对所述特征图谱进行卷积获得第一输出结果；

将所述第一输出结果进行重塑并输入BiLSTM中，获得第二输出结果；将该第二输出结果再输入到线性层获得第三输出结果；对第三输出结果进行重塑，从而获得第四输出结果；

将第四输出结果输入到全连接层对得到所述维语文本区域的预测数值，根据所述预测数值识别出待检测图片中的维语文本区域。

4.根据权利要求3所述的识别方法，其特征在于，还包括根据所述识别出的待检测图片中的维语文本区域获得该文本区域的文本行,其中所述获得该文本区域的文本行包括以下子步骤：

预设一个集合，计算该集合里面所有字符区块角度的平均值；

利用最小二乘法线性回归方法生成一条与所有字符区块的中心距离最短的直线；

沿每个字符区块的中心向所述直线做垂直投影，获得多个投影点；

从所述投影点中选出相距最远的两个点，记做第一坐标点和第二坐标点；

根据第一、第二坐标点的坐标值及字符区块的大小得到该文本区域的文本行。

5.根据权利要求1所述的识别方法，其特征在于，在利用维文文本区域定位网络模型识别出待检测图片中的维语文本区域的步骤之前还包括对待检测的图片进行倾斜校正的步骤：

计算待检测图片的边缘二值图像，检测出待检测图片中的直线；

计算边缘图像的Radon变换，对每一个象素为1的点进行运算以检测出Radon变换矩阵中的峰值和待检测图片的直线倾角；

根据Radon变换矩阵中的峰值和待检测图片的直线倾角对待检测的图片进行倾斜校正。

6.一种维语图片字符的识别系统，其特征在于，该识别系统包括采集模块、区域定位模型生成模块、第一识别模块、字符识别网络模型生成模块、第二识别模块和校正模块；

所述第二识别模块利用所述维语字符识别网络模型识别出所述待检测图片的维语文本区域中的维语字符；

所述校正模块利用维语校正网络模型对所述维语字符进行校正以获得校正后的维语字符，其中，所述维语校正网络模型通过如下操作获得的：