CN113537189A - 手写文字识别方法、装置、设备及存储介质 - Google Patents
手写文字识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113537189A CN113537189A CN202110619522.XA CN202110619522A CN113537189A CN 113537189 A CN113537189 A CN 113537189A CN 202110619522 A CN202110619522 A CN 202110619522A CN 113537189 A CN113537189 A CN 113537189A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- angle information
- recognized
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000001514 detection method Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000013519 translation Methods 0.000 claims description 10
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000003708 edge detection Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
本申请公开了一种手写文字识别方法、装置、电子设备及存储介质,其中,该方法包括:获取待识别文本图像;检测所述待识别文本图像中文本的位置信息和角度信息,所述角度信息指示文本行相对水平方向的倾斜角度;根据所述位置信息,从所述待识别文本图像中提取文本区域图像,并根据所述角度信息对所述文本区域图像进行图像旋转处理,获得目标文本图像;对所述目标文本图像进行文本识别处理,获得文本识别结果。
Description
技术领域
本申请涉及图像处理领域,尤其是涉及一种手写文字识别方法、装置、设备及存储介质。
背景技术
手写体文字识别是一个具有挑战性的模式识别和机器学习问题,主要表现在:1)书写风格随意、不规则;2)汉字层次复杂多变;3)许多汉字外观相似,容易混淆。手写体文字识别可以分为脱机手写体文字识别和联机手写体文字识别两大类。联机手写体文字识别所处理的手写文字是书写者通过物理设备(如数字笔、数字手写板或者触摸屏)在线书写获取的文字信号,书写的轨迹通过定时采样即时输入到计算机中。而脱机手写体文字识别所处理的手写文字是通过扫描仪或摄像头等图像捕捉设备采集到的手写文字图片。联机手写体的识别对象是一系列的按时间先后排列的采样点信息,脱机手写识别则是丢失了书写笔顺信息的二维像素信息,由于没有笔顺信息,加之由于拍照扫描设备在不同光照、分辨率、书写纸张等条件下,数字化会带来一定的噪声干扰,一般来说,脱机手写文字识别比联机手写文字识别更加困难。
目前,传统的图像处理主要是利用二值化等方法分割出每一个文字字符,采用模板匹配等方法实现脱机手写识别,其分割文字不准确;例如:妈容易分割成女和马两个汉字,同时识别率低。
发明内容
本申请提供了一种手写文字识别方法、装置、设备及存储介质。
第一方面,提供了一种手写文字识别方法,包括:
获取待识别文本图像;
检测所述待识别文本图像中文本的位置信息和角度信息,所述角度信息指示文本行相对水平方向的倾斜角度;
根据所述位置信息,从所述待识别文本图像中提取文本区域图像,并根据所述角度信息对所述文本区域图像进行图像旋转处理,获得目标文本图像;
对所述目标文本图像进行文本识别处理,获得文本识别结果。
在一种可选的实施方式中,所述检测所述待识别文本图像中文本的位置信息和角度信息,包括:
将所述待识别文本图像输入文本检测模型,对所述待识别文本图像进行特征提取和上采样处理,获得与所述待识别文本图像相同尺寸的特征图;
根据所述特征图预测获得对应的概率图、阈值图和所述角度信息,所述概率图指示所述待识别文本图像中每个像素是否为文字的概率,所述阈值图为指示所述每个像素是否为文字的二值化图;
根据所述概率图和所述阈值图计算获得所述待识别文本图像的二值化图,通过对所述二值化图进行边缘检测,获得每一行文本的位置信息,由所述文本检测模型输出所述位置信息和所述角度信息。
可选的,所述文本检测模型通过以下方法训练获得:
获取包含文本的样本图像,所述样本图像标注文本位置信息和文本行的角度信息;
根据标注的文本位置信息生成样本概率图和样本阈值图;
采用所述样本图像和预设损失函数训练预设的网络模型,获得所述文本检测模型;所述预设损失函数包括概率图损失、阈值图损失与角度损失之和,所述概率图损失用于计算所述网络模型的预测概率图与所述样本概率图的差异度,所述阈值图损失用于计算所述网络模型的预测阈值图与所述样本阈值图的差异度,所述角度损失用于计算所述网络模型的预测角度信息与标注的角度信息的差异度。
在一种可选的实施方式中,所述根据所述角度信息对所述文本区域图像进行图像旋转处理,获得目标文本图像,包括:
根据所述角度信息和所述文本区域图像的中心位置,计算二维旋转的仿射变换矩阵;
基于所述仿射变换矩阵对所述文本区域图像进行图像旋转处理,获得所述目标文本图像。
在一种可选的实施方式中,所述对所述目标文本图像进行文本识别处理,获得文本识别结果,包括:
将所述目标文本图像输入文字识别模型,所述文字识别模型包括卷积层、循环网络层和翻译层;
在所述卷积层提取所述目标文本图像的特征图;
在所述循环网络层根据所述目标文本图像的特征图提取文字序列特征;
在所述翻译层,对所述文字序列特征转换为字符输出,获得所述文本识别结果。
在一种可选的实施方式中,所述卷积层包括依次级联的十四个单元,其中:
第一个单元为3×3的特征提取卷积层;
第二个、第三个和第四个单元均为3×3的瓶颈层;
第五个到第十二个单元均为5×5的瓶颈层;
第十三个单元为1×1卷积层;
第十四个单元为7×7的池化层。
在一种可选的实施方式中,所述卷积层中的第二个单元的步长设置为(1,1),第三个、第五个和第十个单元的步长均设置为(2,1)。
第二方面,提供了一种手写文字识别装置,包括:
获取模块,用于获取待识别文本图像;
文本检测模块,用于检测所述待识别文本图像中文本的位置信息和角度信息,所述角度信息指示文本行相对水平方向的倾斜角度;
文本矫正模块,用于根据所述位置信息,从所述待识别文本图像中提取文本区域图像,并根据所述角度信息对所述文本区域图像进行图像旋转处理,获得目标文本图像;
文本识别模块,用于对所述目标文本图像进行文本识别处理,获得文本识别结果。
第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如第一方面及其任一种可能的实现方式的步骤。
第四方面,提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如上述第一方面及其任一种可能的实现方式的步骤。
本申请提供一种手写文字识别方法,通过获取待识别文本图像;检测所述待识别文本图像中文本的位置信息和角度信息,所述角度信息指示文本行相对水平方向的倾斜角度;根据所述位置信息,从所述待识别文本图像中提取所述文本区域图像,并根据所述角度信息对所述文本区域图像进行图像旋转处理,获得目标文本图像;对所述目标文本图像进行文本识别处理,获得文本识别结果,在对待识别文本图像进行文本检测的同时计算出文本的角度信息,基本不增加模型的计算量也不需要额外的模型进行计算,可以根据角度信息进行文本矫正,提高手写文字识别的识别率、准确率。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例提供的一种手写文字识别方法的流程示意图;
图2为本申请实施例提供的一种文本检测算法的流程示意图;
图3A为本申请实施例提供的一种待识别文本图像示意图;
图3B为本申请实施例提供的一种文本检测获得的二值化图示意图;
图4为本申请实施例提供的一种文本识别方法的流程示意图;
图5为本申请实施例提供的一种模型文本识别流程示意图;
图6为本申请实施例提供的手写文字识别装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面结合本申请实施例中的附图对本申请实施例进行描述。
请参阅图1,图1是本申请实施例提供的一种手写文字识别方法的流程示意图。该方法可包括:
101、获取待识别文本图像。
本申请实施例中的待识别文本图像中包括文本,该文本为手写体文本,可以是脱机手写体文字或联机手写体文字。在一种可选的应用场景中,可以通过拍照或扫描等方式获得在纸张等载体上手写文本的待识别文本图像,本申请实施例对此不做限制。
本申请实施例中的执行主体为手写文字识别装置,可以实现图像中的手写文本识别。该手写文字识别装置可以为一种电子设备,具体实现中,上述电子设备为一种终端,也可称为终端设备,包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,上述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
102、检测上述待识别文本图像中文本的位置信息和角度信息,上述角度信息指示文本行相对水平方向的倾斜角度。
本申请实施例中设置文本检测模型,可以通过图像识别检测该待识别文本图像中文本的位置信息,以及文本行相对水平方向的倾斜角度,即角度信息。具体的,本申请实施例涉及的图像中可以包括多行文本,可以以每一行为单位 (即上述文本行)进行检测处理。
在一种可选的实施方式中,上述步骤102包括:
021、将上述待识别文本图像输入文本检测模型,对上述待识别文本图像进行特征提取和上采样处理,获得与上述待识别文本图像相同尺寸的特征图;
022、根据上述特征图预测获得对应的概率图、阈值图和上述角度信息,上述概率图指示上述待识别文本图像中每个像素是否为文字的概率,上述阈值图为指示上述每个像素是否为文字的二值化图;
023、根据上述概率图和上述阈值图计算获得上述待识别文本图像的二值化图,通过对上述二值化图进行边缘检测,获得每一行文本的位置信息,由上述文本检测模型输出上述位置信息和上述角度信息。
具体的,本申请实施例可以基于分割的策略采用可微二值化进行文本定位。其中,本申请实施例涉及到RGB色彩模式,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色,其中RGB值为0表示黑色,255表示黑色。
图2为本申请实施例提供的一种文本检测算法的流程示意图,如图2所示,输入图像为上述待识别文本图像,首先对输入图像经过主干网络backbone提取特征,接着,对backbone提取的特征进行上采样到输出与原输入图像相同尺寸的特征图F。进一步地,对于特征图F可以分三个分支进行预测,第一个分支预测概率图P,P表示每个像素是否为文字的概率图(0~1之间)。第二个分支预测阈值图T,T是指示每个像素是否为文字的二值化图,对应每个像素是否为文字(0或者255),第三个分支预测文本角度A,即角度信息,指示文字相对水平方向的倾斜角度。进一步地,由P和T计算可以得到输入图像的二值化图B,对于生成的二值化图B,通过寻找轮廓的边缘检测算法可以获得其中每一行文本位置,即上述位置信息,此处不做限制。通过上述步骤文本检测模型可输出文本行的位置信息和上述角度信息。
举例来讲,图3A为本申请实施例提供的一种待识别文本图像示意图,该图像中包含6行手写体文字,在实际应用中可以为任意颜色。图3B为本申请实施例提供的一种文本检测获得的二值化图示意图,该二值化图通过对图3A的待识别文本图像进行上述文本检测步骤后获得,其中白色部分对应文本区域,包括对应的6行,黑色部分为背景区域。
在一种可选的实施方式中,上述文本检测模型通过以下方法训练获得:
获取包含文本的样本图像,上述样本图像标注文本位置信息和文本行的角度信息;
根据标注的文本位置信息生成样本概率图和样本阈值图;
采用上述样本图像和预设损失函数训练预设的网络模型,获得上述文本检测模型;上述预设损失函数包括概率图损失、阈值图损失与角度损失之和,上述概率图损失用于计算上述网络模型的预测概率图与上述样本概率图的差异度,上述阈值图损失用于计算上述网络模型的预测阈值图与上述样本阈值图的差异度,上述角度损失用于计算上述网络模型的预测角度信息与标注的角度信息的差异度。
具体的,本申请实施例在传统的可微二值化算法基础上增加了一个分支预测文本的角度信息,对应模型训练的损失函数L可以如下公式(1)所示,包括概率图损失、阈值图损失和角度损失三部分之和:
其中Lb表示概率图损失,Lt表示阈值图损失,La表示角度损失,可以根据需要进行设置,比如在一种具体的实施方式中,设置β=10、γ=4;模型进行训练的时候,样本只需要对文本区域位置信息进行标注和文本行的角度进行标注即可。概率图和阈值图可以通过文本行的位置信息生成。
103、根据上述位置信息,从上述待识别文本图像中提取文本区域图像,并根据上述角度信息对上述文本区域图像进行图像旋转处理,获得目标文本图像。
对于步骤102获得的文本行的位置和角度信息,本申请实施例中可提取出文本区域图像,即采用图像处理方法从待识别文本图像中把文本行裁剪出来,再对裁剪出来的文本区域图像进行图像旋转处理,从而把文字旋转成水平方向,以便进行准确的文字识别。
在一种可选的实施方式中,上述步骤103包括:
根据上述角度信息和上述文本区域图像的中心位置,计算二维旋转的仿射变换矩阵;
基于上述仿射变换矩阵对上述文本区域图像进行图像旋转处理,获得上述目标文本图像。
在一种具体的实施方式中,可以由角度信息degree,调用cv2DRotationMatrix 函数获得二维旋转的仿射变换矩阵M,然后调用cvWarpAffine函数执行图像旋转。具体实现代码可以下式所示:
CvPoint2D32f center;
center.x=float(img->width/2.0+0.5);
center.y=float(img->height/2.0+0.5);
//计算二维旋转的仿射变换矩阵
float m[6];
CvMat M=cvMat(2,3,CV_32F,m);
cv2DRotationMatrix(center,degree,1,&M);
//变换图像,并用黑色填充其余值
cvWarpAffine(img,img_rotate,&M,CV_INTER_LINEAR+CV_WARP_FILL_OUTLIERS,cvScalarAll(0))
本申请实施例中也可以通过其他算法实现图像旋转,以上仅作示意。
104、对上述目标文本图像进行文本识别处理,获得文本识别结果。
本申请实施例中可以采用任意文字识别算法或文字识别模型对上述处理后获得的目标文本图像进行文本识别处理。
本申请实施例中通过上述方法可以有效检测出文本行的倾斜角度,在文本检测即定位文本位置的同时计算出文本的角度信息,不需要增加额外计算量,也不需要额外的模型来计算文本的角度信息。对于书写不规范、任意角度书写的手写体文字均可以有效检测和识别,提高识别率。
在一种可选的实施方式中,本申请中采用mobilenet V3作为文本检测算法的backbone,相对于一般算法采用的Resnet18作为backbone,本申请中的模型可以从25M减少到4.2M,同时推理速度加快了好几倍,可以在几乎不增加检测算法计算量的同时可以获得文本的角度信息,用于文本矫正。本申请实施例中涉及到的mobilenet V3是轻量级网络,它引入了轻量级的注意力模型,利用了 h-swish替代swish,可以明显减少模型大小。
在一种实施方式中,可以参见图4所示的一种文本识别方法的流程示意图,如图4所示,上述步骤104可包括:
401、将目标文本图像输入文字识别模型,上述文字识别模型包括卷积层、循环网络层和翻译层;
402、在上述卷积层提取上述目标文本图像的特征图;
403、在上述循环网络层根据上述目标文本图像的特征图提取文字序列特征;
404、在上述翻译层,对上述文字序列特征转换为字符输出,获得上述文本识别结果。
本申请实施例中可以预先训练上述文字识别模型来进行文本识别处理。
在一种实施方式中,对于不定长文本可采用CRNN+CTC的方法进行识别。本申请实施例中提到的CRNN(Convolutional Recurrent Neural Network),主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题;CTC(Connectionist Temporal Classification)是一种基于神经网络的时序类分类方法,引入了空白符号,解决了损失计算时,文字标注和网络输出之间的对齐问题。
本申请实施例中,上述文字识别模型可包括卷积层(Convolutional layers)、循环网络层(Recurrent Layes)和翻译层(Transcription Layer)。
其中,一般方法中,翻译层将循环网络层输出做softmax后转为字符输出,对于循环网络层如果使用常见的softmax则每一列输出都需要对应一个元素,训练的时候需要标记字符位置,在实际中文字对齐很困难,除了标记字符,还要标记每个字符的位置,工作量非常大。尤其是手写字符,汉字和汉字之间有宽有窄。为了使得不需要对齐处理,本申请实施例中采用CTC loss代替softmax loss 可以解决上述训练样本无法对齐的问题。
具体的,可以参见图5所示的一种模型文本识别流程示意图,其中,输入图像包含文本“STATE”,首先经过卷积层提取输入图像的特征图,然后经过一个循环网络层在卷积特征的基础上继续提取文字序列特征;如图5所示从特征图上获取state文本的文字序列特征,在这里会出现重识别的情况比如获得的“-s-t-aatte”中有重复字符。最后经过翻译层把循环网络层获取的分布标签通过去重等操作转换成最终识别结果“state”。
可选的,上述循环网络层为一个深层双向长短期记忆网络(Long Short-TermMemory,LSTM),在卷积特征的基础上继续提取文字序列特征。本申请实施例提到的LSTM是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。
在一种实施方式中,上述卷积层可包括依次级联的十四个单元,其中:
第一个单元为3×3的特征提取卷积层;
第二个、第三个和第四个单元均为3×3的瓶颈层;
第五个到第十二个单元均为5×5的瓶颈层;
第十三个单元为1×1卷积层;
第十四个单元为7×7的池化层。
具体的,由于文本行的特殊性,本申请实施例中将每一个文本行大小缩放成预设大小,比如32*320,文字识别模型中的卷积层可以为一个普通的卷积神经网络,用于提取图像的特征图,将图像大小为[3,32,320]转化成特征矩阵。本申请中采用mobilenet V3来提取网络特征,由于文本行宽高比的特殊性,模型结构需要针对性设置。
可以参见表1,表1为本申请实施例提供的一种mobilenet V3的网络结构示意图,具体如表1所示,其中:
第一列Input代表mobilenetV3每个特征层的shape变化;
第二列Operator代表每次特征层即将经历的block结构。可以看到在MobileNetV3中,特征提取经过了许多的bneck结构;
第三、四列分别代表了bneck内逆残差结构上升后的通道数、输入到bneck 时特征层的通道数;
第五列SE代表了是否在这一层引入注意力机制;
第六列NL代表了激活函数的种类,HS代表h-swish,RE代表RELU;
第七列s代表了每一次block结构所用的步长。
具体的,表1中第一层为特征提取卷积层,第二到第十二层为瓶颈层,第十三层为卷积层,第十四层为池化层。本申请实施例中的文字识别模型的结构在该MobileNetV3结构上进行针对性修改。
输入(Input) | 操作(Operator) | #out | SE | NL | s |
224×224×3 | Conv2d,3×3 | 16 | - | HS | 2 |
112×112×16 | bneck,3×3 | 16 | √ | RE | 2 |
56×56×16 | bneck,3×3 | 24 | - | RE | 2 |
28×28×24 | bneck,3×3 | 24 | - | RE | 1 |
28×28×24 | bneck,5×5 | 40 | √ | HS | 2 |
14×14×40 | bneck,5×5 | 40 | √ | HS | 1 |
14×14×40 | bneck,5×5 | 40 | √ | HS | 1 |
14×14×40 | bneck,5×5 | 48 | √ | HS | 1 |
14×14×48 | bneck,5×5 | 48 | √ | HS | 1 |
14×14×48 | bneck,5×5 | 96 | √ | HS | 2 |
7×7×96 | bneck,5×5 | 96 | √ | HS | 1 |
7×7×96 | bneck,5×5 | 96 | √ | HS | 1 |
7×7×96 | Conv2d,1×1 | 576 | √ | HS | 1 |
7×7×576 | pool,7×7 | - | - | - | 1 |
1×1×576 | Conv2d,1×1,NBN | 1280 | - | HS | 1 |
1×1×1280 | Conv2d 1×1,NBN | k | - | - | 1 |
表1
具体的,如表1中所示原始图像输入大小为(224*224),本申请实施例中修改为设置输入图像大小(32,320),即第一层的输入224×224×3修改为32 ×320×3。为了保证文本中有更多的文字信息,本申请中在第二层将步长设置成(1,1),特征图大小为(16*160),在模型原有的步长(2,2)设置基础上,没有减少特征图的大小,提取的信息更多,更有利于模型提取文字信息,文本识别的精度也会提高。第三层、第五层、第十层的步长设置为(2,1),垂直方向特征图减少一半,水平方向的特征图大小没有减少,因此可以提取更多文本的水平方向信息,对于文本识别很有帮助。本申请实施例中可以将表1最后两层丢弃处理。
本申请实施例中可以通过大量手写体样本训练模型,训练后的模型可以执行如图4或图5所示的文字识别处理流程,此处不再赘述。可选的,由于汉字繁多,需要大量的数据,手写体样本获取相对较难,本申请实施例可以在百万级的印刷体上训练模型,然后依次为预训练模型在手写体样本上进行迁移学习,从而模型可以基于少量手写体样本训练,取得较好的识别率。
基于手写体书写随意的特性,本申请实施例中采用CRNN+CTC,适合手写体文字的识别。本申请实施例中采用轻量级的网络可以显著加快模型的运行效率,可以不需要在服务器上运行,不需要GPU配置,方便在低端电脑和移动端部署、运行。同时,依据文本的特殊性,基于mobilenet V3网络结构进行针对性设置,可以提高模型的识别率。
基于上述手写文字识别方法实施例的描述,本申请实施例还公开了一种手写文字识别装置。请参见图6,手写文字识别装置600包括:
获取模块610,用于获取待识别文本图像;
文本检测模块620,用于检测所述待识别文本图像中文本的位置信息和角度信息,所述角度信息指示文本行相对水平方向的倾斜角度;
文本矫正模块630,用于根据所述位置信息,从所述待识别文本图像中提取文本区域图像,并根据所述角度信息对所述文本区域图像进行图像旋转处理,获得目标文本图像;
文本识别模块640,用于对所述目标文本图像进行文本识别处理,获得文本识别结果。
根据本申请的一个实施例,前述实施例中所示的方法所涉及的各个步骤均可以是由图6所示的手写文字识别装置600中的各个模块执行的,此处不再赘述。
本申请实施例中的手写文字识别装置600,可以获取待识别文本图像;检测所述待识别文本图像中文本的位置信息和角度信息,所述角度信息指示文本行相对水平方向的倾斜角度;根据所述位置信息,从所述待识别文本图像中提取所述文本区域图像,并根据所述角度信息对所述文本区域图像进行图像旋转处理,获得目标文本图像;对所述目标文本图像进行文本识别处理,获得文本识别结果,在对待识别文本图像进行文本检测的同时计算出文本的角度信息,基本不增加模型的计算量也不需要额外的模型进行计算,可以根据角度信息进行文本矫正,提高手写文字识别的识别率、准确率。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种电子设备。请参见图7,该电子设备700至少包括处理器701、输入设备702、输出设备703以及计算机存储介质704。其中,电子设备内的处理器701、输入设备702、输出设备703以及计算机存储介质704可通过总线或其他方式连接。
计算机存储介质704可以存储在电子设备的存储器中,上述计算机存储介质704用于存储计算机程序,上述计算机程序包括程序指令,上述处理器701用于执行上述计算机存储介质704存储的程序指令。处理器701(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能;在一个实施例中,本申请实施例上述的处理器701可以用于进行一系列的处理,包括前述实施例中所涉及的方法中的任意步骤等等。
本申请实施例还提供了一种计算机存储介质(Memory),上述计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括电子设备中的内置存储介质,当然也可以包括电子设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了电子设备的操作系统。并且,在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序 (包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器701加载并执行计算机存储介质中存放的一条或多条指令,以实现上述实施例中的相应步骤;具体实现中,计算机存储介质中的一条或多条指令可以由处理器701加载并执行前述实施例中方法的任意步骤,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)) 或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-only memory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。
Claims (10)
1.一种手写文字识别方法,其特征在于,所述方法包括:
获取待识别文本图像;
检测所述待识别文本图像中文本的位置信息和角度信息,所述角度信息指示文本行相对水平方向的倾斜角度;
根据所述位置信息,从所述待识别文本图像中提取文本区域图像,并根据所述角度信息对所述文本区域图像进行图像旋转处理,获得目标文本图像;
对所述目标文本图像进行文本识别处理,获得文本识别结果。
2.根据权利要求1所述方法,其特征在于,所述检测所述待识别文本图像中文本的位置信息和角度信息,包括:
将所述待识别文本图像输入文本检测模型,对所述待识别文本图像进行特征提取和上采样处理,获得与所述待识别文本图像相同尺寸的特征图;
根据所述特征图预测获得对应的概率图、阈值图和所述角度信息,所述概率图指示所述待识别文本图像中每个像素是否为文字的概率,所述阈值图为指示所述每个像素是否为文字的二值化图;
根据所述概率图和所述阈值图计算获得所述待识别文本图像的二值化图,通过对所述二值化图进行边缘检测,获得每一行文本的位置信息,由所述文本检测模型输出所述位置信息和所述角度信息。
3.根据权利要求2所述方法,其特征在于,所述文本检测模型通过以下方法训练获得:
获取包含文本的样本图像,所述样本图像标注文本位置信息和文本行的角度信息;
根据标注的文本位置信息生成样本概率图和样本阈值图;
采用所述样本图像和预设损失函数训练预设的网络模型,获得所述文本检测模型;所述预设损失函数包括概率图损失、阈值图损失与角度损失之和,所述概率图损失用于计算所述网络模型的预测概率图与所述样本概率图的差异度,所述阈值图损失用于计算所述网络模型的预测阈值图与所述样本阈值图的差异度,所述角度损失用于计算所述网络模型的预测角度信息与标注的角度信息的差异度。
4.根据权利要求1-3任一项所述方法,其特征在于,所述根据所述角度信息对所述文本区域图像进行图像旋转处理,获得目标文本图像,包括:
根据所述角度信息和所述文本区域图像的中心位置,计算二维旋转的仿射变换矩阵;
基于所述仿射变换矩阵对所述文本区域图像进行图像旋转处理,获得所述目标文本图像。
5.根据权利要求1-3任一项所述方法,其特征在于,所述对所述目标文本图像进行文本识别处理,获得文本识别结果,包括:
将所述目标文本图像输入文字识别模型,所述文字识别模型包括卷积层、循环网络层和翻译层;
在所述卷积层提取所述目标文本图像的特征图;
在所述循环网络层根据所述目标文本图像的特征图提取文字序列特征;
在所述翻译层,对所述文字序列特征转换为字符输出,获得所述文本识别结果。
6.根据权利要求5所述方法,其特征在于,所述卷积层包括依次级联的十四个单元,其中:
第一个单元为3×3的特征提取卷积层;
第二个、第三个和第四个单元均为3×3的瓶颈层;
第五个到第十二个单元均为5×5的瓶颈层;
第十三个单元为1×1卷积层;
第十四个单元为7×7的池化层。
7.根据权利要求6所述方法,其特征在于,所述卷积层中的第二个单元的步长设置为(1,1),第三个、第五个和第十个单元的步长均设置为(2,1)。
8.一种手写文字识别装置,其特征在于,包括:
获取模块,用于获取待识别文本图像;
文本检测模块,用于检测所述待识别文本图像中文本的位置信息和角度信息,所述角度信息指示文本行相对水平方向的倾斜角度;
文本矫正模块,用于根据所述位置信息,从所述待识别文本图像中提取文本区域图像,并根据所述角度信息对所述文本区域图像进行图像旋转处理,获得目标文本图像;
文本识别模块,用于对所述目标文本图像进行文本识别处理,获得文本识别结果。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的手写文字识别方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-7中任一项所述的手写文字识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110619522.XA CN113537189A (zh) | 2021-06-03 | 2021-06-03 | 手写文字识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110619522.XA CN113537189A (zh) | 2021-06-03 | 2021-06-03 | 手写文字识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113537189A true CN113537189A (zh) | 2021-10-22 |
Family
ID=78095499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110619522.XA Pending CN113537189A (zh) | 2021-06-03 | 2021-06-03 | 手写文字识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537189A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387430A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
CN114419613A (zh) * | 2022-01-17 | 2022-04-29 | 北京百度网讯科技有限公司 | 图像样本生成方法、文本识别方法、装置、设备和介质 |
CN114821601A (zh) * | 2022-04-14 | 2022-07-29 | 北京知云再起科技有限公司 | 一种基于深度学习的端到端英文手写体文本检测识别技术 |
CN115331230A (zh) * | 2022-08-17 | 2022-11-11 | 北京睿企信息科技有限公司 | 一种获取文本识别区域的数据处理系统 |
CN115588207A (zh) * | 2022-10-13 | 2023-01-10 | 成都卓视智通科技有限公司 | 一种基于ocr的监控视频日期识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009990A (zh) * | 2017-11-30 | 2018-05-08 | 北京小米移动软件有限公司 | 倾斜对象处理方法及装置 |
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN110490232A (zh) * | 2019-07-18 | 2019-11-22 | 北京捷通华声科技股份有限公司 | 训练文字行方向预测模型的方法、装置、设备、介质 |
CN111126140A (zh) * | 2019-11-19 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、电子设备以及存储介质 |
CN111428717A (zh) * | 2020-03-26 | 2020-07-17 | 京东方科技集团股份有限公司 | 文本识别方法、装置、电子设备及计算机可读存储介质 |
WO2020192433A1 (zh) * | 2019-03-26 | 2020-10-01 | 中国科学技术大学 | 多语言文本检测识别方法和设备 |
WO2020223859A1 (zh) * | 2019-05-05 | 2020-11-12 | 华为技术有限公司 | 一种检测倾斜文字的方法、装置及设备 |
CN112183372A (zh) * | 2020-09-29 | 2021-01-05 | 深圳数联天下智能科技有限公司 | 文本识别方法、装置、设备及可读存储介质 |
-
2021
- 2021-06-03 CN CN202110619522.XA patent/CN113537189A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009990A (zh) * | 2017-11-30 | 2018-05-08 | 北京小米移动软件有限公司 | 倾斜对象处理方法及装置 |
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
WO2020192433A1 (zh) * | 2019-03-26 | 2020-10-01 | 中国科学技术大学 | 多语言文本检测识别方法和设备 |
WO2020223859A1 (zh) * | 2019-05-05 | 2020-11-12 | 华为技术有限公司 | 一种检测倾斜文字的方法、装置及设备 |
CN110490232A (zh) * | 2019-07-18 | 2019-11-22 | 北京捷通华声科技股份有限公司 | 训练文字行方向预测模型的方法、装置、设备、介质 |
CN111126140A (zh) * | 2019-11-19 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、电子设备以及存储介质 |
CN111428717A (zh) * | 2020-03-26 | 2020-07-17 | 京东方科技集团股份有限公司 | 文本识别方法、装置、电子设备及计算机可读存储介质 |
CN112183372A (zh) * | 2020-09-29 | 2021-01-05 | 深圳数联天下智能科技有限公司 | 文本识别方法、装置、设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
YUNING DU等: "PP-OCR: A Practical Ultra Lightweight OCR System", 《ARXIV:2009.09941V3》, pages 138 - 139 * |
郭闯;邱晓晖;: "基于BLSTM网络的改进EAST文本检测算法", 计算机技术与发展, no. 07, pages 28 - 31 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387430A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
WO2023134073A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
CN114387430B (zh) * | 2022-01-11 | 2024-05-28 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
CN114419613A (zh) * | 2022-01-17 | 2022-04-29 | 北京百度网讯科技有限公司 | 图像样本生成方法、文本识别方法、装置、设备和介质 |
CN114821601A (zh) * | 2022-04-14 | 2022-07-29 | 北京知云再起科技有限公司 | 一种基于深度学习的端到端英文手写体文本检测识别技术 |
CN115331230A (zh) * | 2022-08-17 | 2022-11-11 | 北京睿企信息科技有限公司 | 一种获取文本识别区域的数据处理系统 |
CN115588207A (zh) * | 2022-10-13 | 2023-01-10 | 成都卓视智通科技有限公司 | 一种基于ocr的监控视频日期识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113537189A (zh) | 手写文字识别方法、装置、设备及存储介质 | |
CN110866495B (zh) | 票据图像识别方法及装置和设备、训练方法和存储介质 | |
CN110659647B (zh) | 印章图像识别方法及装置、智能发票识别设备和存储介质 | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
CN107016387B (zh) | 一种识别标签的方法及装置 | |
CN111291629A (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN111275139B (zh) | 手写内容去除方法、手写内容去除装置、存储介质 | |
CN109446873A (zh) | 手写字体识别方法、系统以及终端设备 | |
Xu et al. | End-to-end subtitle detection and recognition for videos in East Asian languages via CNN ensemble | |
CN112597940B (zh) | 证件图像识别方法、装置及存储介质 | |
US10055668B2 (en) | Method for the optical detection of symbols | |
KR20200020305A (ko) | 문자 인식을 위한 방법 및 장치 | |
CN112861842A (zh) | 基于ocr的案件文本识别方法及电子设备 | |
KR20110051374A (ko) | 단말기에서 데이터 처리 방법 및 그를 수행하는 장치 | |
CN110210480A (zh) | 文字识别方法、装置、电子设备和计算机可读存储介质 | |
CN113436222A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
CN111832551A (zh) | 文本图像处理方法、装置、电子扫描设备和存储介质 | |
CN118135584A (zh) | 一种基于深度学习的手写表单自动识别方法和系统 | |
CN111767924B (zh) | 图像处理方法、图像处理装置、电子设备、存储介质 | |
US9418281B2 (en) | Segmentation of overwritten online handwriting input | |
Xu et al. | Tolerance Information Extraction for Mechanical Engineering Drawings–A Digital Image Processing and Deep Learning-based Model | |
Susanto et al. | Javanese script recognition based on metric, eccentricity and local binary pattern | |
Zheng et al. | Recognition of expiry data on food packages based on improved DBNet | |
CN113065480B (zh) | 书法作品风格的识别方法、装置、电子装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |