CN113762269B

CN113762269B - 基于神经网络的中文字符ocr识别方法、系统及介质

Info

Publication number: CN113762269B
Application number: CN202111052414.5A
Authority: CN
Inventors: 郭认飞; 石珺; 廖伟; 李志鹏
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2024-03-22
Anticipated expiration: 2041-09-08
Also published as: CN113762269A

Abstract

本发明公开一种基于神经网络的中文字符OCR识别方法、系统、介质及应用，涉及图象识别技术领域。对输入图像进行文本检测；对检测后的文本区域图像进行文本掩膜信息提取，并定位文本区域每个字符的位置坐标，按照字符位置坐标从文本掩膜截取每个字符掩膜；对字符掩膜进行特征提取，并映射到多维向量空间得到字符向量；字符向量按照字符次序组成文本向量矩阵，利用文本向量矩阵学习上下文依赖信息，完成文本的识别。本发明解决了输入图像进行中文文本检测，截取图像文本区域，并对文本区域文字识别的问题。本发明中文字符识别准确率得到了提升；形近字识别准确率提升；字符的方向不敏感。

Description

基于神经网络的中文字符OCR识别方法、系统及介质

技术领域

本发明属于图象识别技术领域，尤其涉及一种基于神经网络的中文字符OCR识别方法、系统、介质及应用。其中OCR为Optical Character Recognition,光学字符识别，即，将图片、照片上的文字内容，直接转换为可编辑文本。

背景技术

目前，在图象识别识别技术中，有卷积神经网络(CNN)、文本检测模型EAST(Efficient and Accuracy Scene Text)、U-Net神经网络、长短时神经网络(LSTM)、VGG(Visual Geometry Group)神经网络模型。

场景文本识别旨在图像中提取文本内容，在实际应用中具有巨大的商业价值。场景文本识别，通常包括对场景文字定位和文字识别。例如在中文文本识别，国内外已经存在了大量成熟的检测识别方法，并且应用到实际工作中。这些方法不仅检测快，而且识别率良好，具有一定的优越性。

虽然，场景文本识别取得了一定的突破性成就，也产生了很多代表性的模型，但是这些模型大多数都很笨重。普遍的场景文本识别模型最后回归分类采用独热编码对每个字符进行编码，当词汇表的规模很大，那么模型的字符嵌入层和回归分类层产生的映射矩阵将会占用大量的存储容量，导致这些模型很难在移动端设备上部署，因为它消耗了大量存储资源和计算空间。

近年来，互联网科技的飞速发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在多个智能大数据图象识别领域。

某些图像识别领域为了保证业务操作的安全性，采用了OCR(OpticalCharacterRecognition，光学字符识别，即，将图片、照片上的文字内容，直接转换为可编辑文本)技术进行某些信息核对，OCR技术的引入，虽然减少了人力资源的浪费，但是当前OCR技术中的识别模型没有进行充分学习，导致OCR识别准确率低。

目前中国拥有近十亿网民，在朋友圈、社交媒体上经常发布图像已成为许多网民的日常，并且往往会在图像上添加各式各样的文本信息。社交图像数据中文OCR识别价值越来越高，但目前面向社交图像的OCR识别方法识别准确率较低。

中文特点多形近字，形近字字形相近、用法相近，目前市面上流行的OCR识别方法多是以识别英文为基础的方法，对中文的识别存在考验。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有技术中，长字符串的识别准确率下降；不能得到每个字符的位置坐标；字符方向敏感。

(2)对输入图像不能准确进行中文文本检测，不能截取图像文本区域，造成对文本区域文字识别准确性差。

解决以上问题及缺陷的难度为：

目前的主流技术手段为文本检测分割+文本识别的形式，其中文本识别是采取CRNN+CTC的框架。英文单词平均由8个字母组成，每个字母都完成定位和识别是很大的开销，算法效率低下，而这种框架就是对由简单字母组成单词，单词组成文本的英文语言特点的解决方法，通过识别字符的局部特征联系上下文语义特征从而识别字符，每个字母识别的准确性没那么重要。但是，这种方法对于中文文字的识别并不适合。中文特点是每个字既是独立的个体，每个字都有定位和识别的价值，相对英文来说字与字之间的分割相对简单；中文具有很多形近字，这种基于英文的识别方法不能够应对形近字的区分，因此这种识别方式用在中文识别存在天然缺陷。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了一种基于神经网络的中文字符OCR识别方法、系统、介质及应用。还涉及人工智能、深度学习、OCR(OpticalCharacter Recognition,光学字符识别)识别、机器视觉应用领域，具体涉及一种基于神经网络的中文字符OCR识别方法。所述技术方案如下：

根据本发明公开实施例的第一方面，提供一种基于神经网络的中文字符OCR识别方法，包括：

对输入图像进行文本检测；

对检测后的文本区域图像进行文本掩膜信息提取，并定位所述文本区域每个字符的位置坐标，按照字符位置坐标从文本掩膜截取每个字符掩膜；

对所述字符掩膜进行特征提取，并映射到多维向量空间得到字符向量；

所述字符向量按照字符次序组成文本向量矩阵，利用所述文本向量矩阵学习上下文依赖信息，完成文本的识别。

在本发明一实施例中，所述对输入图像进行文本检测具体包括：

对输入的图像经过预处理送入到文本检测模型EAST神经网络，返回文本矩形区域上左和右下顶点的坐标，通过坐标分割文本区域图像并调整图像大小；所述上左和右下顶点的坐标分别为(x1,y1),(x2,y2)。

在本发明一实施例中，获取每个字符的掩膜的方法具体包括：文本区域图像输入到U-net网络提取文本掩膜，U-net网络U型全卷积结构能充分保留文本的形态信息、边缘信息以及笔画的精细结构；在U-net网络的最后一层特征层添加RPN定位分支网络，获取每个字符的左上和右下坐标，分割文本掩膜获取每个字符的掩膜。

在本发明一实施例中，所述对所述字符掩膜进行特征提取，并映射到多维向量空间得到字符向量具体包括：

调整字符掩膜大小，输入VGG神经网络模型映射到128维向量空间获得字符向量；字符掩膜训练集经过随机旋转、翻转、线性变换、透射、遮挡预处理方法提升模型对字符方向，形态、干扰因素的识别能力；模型训练损失函数采用三元组损失函数，其公式为其中参数M表示样本总数，A⁽ⁱ⁾表示第i个样本，P⁽ⁱ⁾表示与A⁽ⁱ⁾同一个字不同形态的样本，N⁽ⁱ⁾表示与A⁽ⁱ⁾不同字的样本，参数α是超参数，通过控制α来控制不同字符间的区分距离。三元损失函数常用于人脸识别，用于提升不同人脸的区分效果。本发明中VGG神经网络训练方法是：在训练第i个字符掩码A⁽ⁱ⁾的时候，挑选一个与A⁽ⁱ⁾相同字符不同形态的字符掩码样本P⁽ⁱ⁾和一个与A⁽ⁱ⁾不同字符的掩码样本N⁽ⁱ⁾，构成三元组送入VGG神经网络计算三元组损失函数，分别计算同字符样本间的距离||f(A⁽ⁱ⁾)-f(P⁽ⁱ⁾)||²，不同字符样本间的距离||f(A⁽ⁱ⁾)-f(N⁽ⁱ⁾)||²，约束||f(A⁽ⁱ⁾)-f(P⁽ⁱ⁾)||²+α<＝||f(A⁽ⁱ⁾)-f(N⁽ⁱ⁾)||²，即同字符间的距离小于不同字符间的距离，从而实现VGG神经网络能够把同类别间字符在向量空间聚集，不同类别间字符远离，提升字符的识别。

在本发明一实施例中，所述字符向量按照字符次序组成文本向量矩阵，利用所述文本向量矩阵学习上下文依赖信息，完成文本的识别具体包括：

字符向量依次组成文本向量矩阵，输入矩阵到双向长短时神经网络Bi-LSTM模型，Bi-LSTM模型属于循环神经网络，能够学习序列特征，由单个或者数个记忆块组成，每个记忆块由遗忘门、输入门、输出门和记忆块组成，通过记忆块来决定丢弃或添加信息，实现记忆和遗忘功能。Bi-LSTM模型能够学习文本特征语义信息和上下文字符的依赖关系，通过softmax层获得字符的概率分布，softmax层的转化公式是：n表示分类数，i表示向量k中的某个分类，g_i表示向量k中该分类的数值，P(S_i)表示向量k中i分类对应字符概率。

Bi-LSTM模型的训练方法是：首先是训练样本有0.1的概率文本向量矩阵中的某一个字符向量被样本库中的随机字符向量所取代，对应样本结果标签不变，从而使Bi-LSTM模型获得学习样本上下文信息能力和字符纠错能力。通过softmax层把Bi-LSTM模型输出层向量转化成字符概率分布。

在本发明一实施例中，所述的基于神经网络的中文字符OCR识别中神经网络采用EAST神经网络和CRNN神经网络联合应用进行字符识别。

或采用基于MASK-RCNN神经网络进行字符识别。

根据本发明公开实施例的第二方面，提供一种实施基于神经网络的中文字符OCR识别系统，包括：

文本位置检测模块，用于利用EAST(Efficient and Accuracy Scene Text)网络进行检测文本位置；

单字符掩膜分割模块，用于利用在最后一层特征层添加RPN(RegionProposalNetwork)字符定位分支网络的U-net(U-net architecture)神经网络提取字符形态信息和边缘信息，获取文本掩膜，通过RPN分支网络获得的定位坐标实现单个字符掩膜分割；

字符掩膜信息映射模块，用于采用VGG(Visual Geometry Group)神经网络提取字符特征，并结合三元组损失函数优化模型非同类极相似字符的区分能力和识别能力，把字符掩膜信息映射到128维向量空间；

字符识别模块，用于基于双向长短时神经网络和softmax层Bi-LSTM(Bi-directional Long Short-Term Memory)，构建语言模型，实现字符识别。

根据本发明公开实施例的第三方面，提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的基于神经网络的中文字符OCR识别方法。

根据本发明公开实施例的第四方面，提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述的基于神经网络的中文字符OCR识别方法，包括下列步骤：

对输入图像进行文本检测；

根据本发明公开实施例的第五方面，提供一种所述的基于神经网络的中文字符OCR识别方法在人工智能、深度学习、机器视觉应用领域光学字符识别中的应用。

本发明公开的实施例提供的技术方案可以包括以下有益效果：

本发明解决了输入图像进行中文文本检测，截取图像文本区域，并对文本区域文字识别的问题。

本发明基于中文字符的形态特点，利用EAST(Efficient and Accuracy SceneText)网络检测文本位置；利用在最后一层特征层添加了RPN(RegionProposal Network)字符定位分支网络的U-net(U-net architecture)神经网络提取字符形态信息和边缘信息，获取文本掩膜，通过RPN分支网络获得的定位坐标实现单个字符掩膜分割；采用VGG(VisualGeometry Group)神经网络提取字符特征，并结合三元组损失函数优化模型非同类极相似字符的区分能力和识别能力，把字符掩膜信息映射到128维向量空间；基于双向长短时神经网络和softmax层Bi-LSTM(Bi-directional Long Short-Term Memory)，构建语言模型，实现了字符识别。

本发明中文字符识别准确率得到了提升；形近字识别准确率提升；字符的方向不敏感。目前的主流技术手段为文本检测分割+文本识别的形式，文字方向识别任务主要在文本检测分割阶段完成，文本检测算法只能检测文本框的旋转角度，然后确保文本调整至水平并输入文本识别部分完成识别任务，这种方法并不能识别文本中每个字符的方向，面对复杂场景，比如字符方向不一致、文本排列不规则等，算法鲁棒性较差。本发明的字符掩码向量化模块，在VGG网络训练过程中通过对字符掩膜随机旋转、翻转、线性变换、透射、遮挡预处理方法提升模型对字符方向、形态的抗干扰能力，因此对字符的旋转、形态变化具有很好的识别能力。

本发明相比于现有技术的优点见表1。

表1

当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本发明实施例提供的基于神经网络的中文字符OCR识别方法流程。

图2是本发明实施例提供的基于神经网络的中文字符OCR识别方法原理图。

图3是本发明实施例提供的基于神经网络的中文字符OCR识别系统示意图。

图中：1、文本位置检测模块；2、单字符掩膜分割模块；3、字符掩膜信息映射模块；4、字符识别模块。

图4是本发明实施例提供的选取的一种微博图像效果图。

图5是本发明实施例提供的对图4选取的微博图像现有技术的模型识别效果图。

图6是本发明实施例提供的对图4选取的微博图像采用本发明的模型识别效果图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

如图1所示，本发明实施例提供的基于神经网络的中文字符OCR识别方法包括：

S101，基于EAST神经网络对输入图像进行文本检测。

S102，文本区域图像通过U-net网络提取文本掩膜信息，并在U-net网络的最后一层特征层添加RPN回归网络，定位文本区域每个字符的位置坐标，按照字符位置坐标从文本掩膜截取每个字符的掩膜。

S103，字符掩膜经过VGG神经网络模型提取特征，映射到128维向量空间得到字符向量。

S104，字符向量按照字符次序组成文本向量矩阵，矩阵输入到Bi-LSTM神经网络，学习上下文依赖信息，完成文本的识别。

在步骤S101中，所述对输入图像进行文本检测具体包括：

在步骤S102中，获取每个字符的掩膜的方法具体包括：文本区域图像输入到U-net网络提取文本掩膜，U-net网络U型全卷积结构能充分保留文本的形态信息、边缘信息以及笔画的精细结构；在U-net网络的最后一层特征层添加RPN定位分支网络，获取每个字符的左上和右下坐标，分割文本掩膜获取每个字符的掩膜。

在步骤S103中，所述对所述字符掩膜进行特征提取，并映射到多维向量空间得到字符向量具体包括：

在步骤S104中，所述字符向量按照字符次序组成文本向量矩阵，利用所述文本向量矩阵学习上下文依赖信息，完成文本的识别具体包括：

下面结合具体实施例对本发明技术方案作进一步描述。

实施例如图2基于神经网络的中文字符OCR识别方法原理所示。

本发明实施例提供的基于神经网络的中文字符OCR识别方法具体包括：

1)输入的图像经过预处理送入到文本检测模型EAST神经网络，返回文本矩形区域上左和右下顶点的坐标((x1,y1),(x2,y2))，通过坐标分割文本区域图像并调整图像大小)。

2)文本区域图像输入到U-net网络提取文本掩膜，U-net网络U型全卷积结构能充分保留文本的形态信息、边缘信息以及笔画的精细结构，对后续字符的识别效果至关重要；在U-net网络的最后一层特征层添加RPN定位分支网络，获取每个字符的左上和右下坐标，分割文本掩膜获取每个字符的掩码；

3)调整字符掩膜大小，输入VGG神经网络模型映射到128维向量空间获得字符向量。为了提升VGG神经网络模型对字符的识别效果，字符掩膜训练集经过随机旋转、翻转、线性变换、透射、遮挡等预处理方法提升模型对字符方向，形态、干扰因素的识别能力；模型训练损失函数采用三元组损失函数，达到同类别间字符在向量空间聚集，不同类别间字符远离的目的，提升模型对于不同类字符的区分能力；

4)字符向量依次组成文本向量矩阵，输入矩阵到双向长短时神经网络Bi-LSTM语言模型。通过Bi-LSTM模型学习特征语义信息和上下文字符的依赖关系，构建语言模型，并通过softmax层获得字符的概率分布，识别字符并获得字符的置信度。

在本发明一优选实施例中，可基于EAST神经网络和CRNN神经网络进行字符识别，或基于MASK-RCNN神经网络进行字符识别。

如图3所示，本发明提供一种实施基于神经网络的中文字符OCR识别系统，包括：

文本位置检测模块1，用于利用EAST(Efficient and Accuracy Scene Text)网络进行检测文本位置；

单字符掩膜分割模块2，用于利用在最后一层特征层添加RPN(RegionProposalNetwork)字符定位分支网络的U-net(U-net architecture)神经网络提取字符形态信息和边缘信息，获取文本掩膜，通过RPN分支网络获得的定位坐标实现单个字符掩膜分割；

字符掩膜信息映射模块3，用于采用VGG(Visual Geometry Group)神经网络提取字符特征，并结合三元组损失函数优化模型非同类极相似字符的区分能力和识别能力，把字符掩膜信息映射到128维向量空间；

字符识别模块4，用于基于双向长短时神经网络和softmax层Bi-LSTM(Bi-directional Long Short-Term Memory)，构建语言模型，实现字符识别。

本发明主要应用于社交网络图像中文OCR识别，社交网络图像场景一般比较复杂，通常的识别方法准确率较低，为了更好的展示本方法的可行性和有效性，下载100张微博图片数据用于实验验证和评估。和主流方法统计结果对比如表1，本方法准确率取得2.09％的提升。特选取一张微博图像用于本模型和其它模型的效果对比；微博图像如图4所示。

其它模型识别效果如图5所示，字体方向倾斜的文字“照片”识别成了“照方”，“照”字虽然识别正确，但是概率低于其它水平方向文字；两组文字“住址”有一组识别为“信址”，对于形近字没能很好的区分。

本发明识别效果如图6所示，本方法相对其它模型识别效果有明显提升，倾斜字体识别准确且概率和水平字体概率在同一水平上，说明本方法相比传统方法具有方向不敏感、能准确区分形近字的效果。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

Claims

1.一种基于神经网络的中文字符OCR识别方法，其特征在于，所述基于神经网络的中文字符OCR识别方法包括：

对输入图像进行文本检测；

获取每个字符的掩膜的方法具体包括：文本区域图像输入到U-net网络提取文本掩膜，U-net网络U型全卷积结构能充分保留文本的形态信息、边缘信息以及笔画的精细结构；在U-net网络的最后一层特征层添加RPN定位分支网络，获取每个字符的左上和右下坐标，分割文本掩膜获取每个字符的掩膜；

2.根据权利要求1所述的基于神经网络的中文字符OCR识别方法，其特征在于，所述对输入图像进行文本检测具体包括：

3.根据权利要求1所述的基于神经网络的中文字符OCR识别方法，其特征在于，所述对所述字符掩膜进行特征提取，并映射到多维向量空间得到字符向量具体包括：

调整字符掩膜大小，输入VGG神经网络模型映射到128维向量空间获得字符向量；字符掩膜训练集经过随机旋转、翻转、线性变换、透射、遮挡预处理方法提升模型对字符方向，形态、干扰因素的识别能力；模型训练损失函数采用三元组损失函数，用于同类别间字符在向量空间聚集，不同类别间字符远离；

所述三元组损失函数，公式为

其中参数M表示样本总数，A⁽ⁱ⁾表示第i个样本，P⁽ⁱ⁾表示与A⁽ⁱ⁾同一个字不同形态的样本，N⁽ⁱ⁾表示与A⁽ⁱ⁾不同字的样本，参数α是超参数。

4.根据权利要求1所述的基于神经网络的中文字符OCR识别方法，其特征在于，所述字符向量按照字符次序组成文本向量矩阵，利用所述文本向量矩阵学习上下文依赖信息，完成文本的识别具体包括：

字符向量依次组成文本向量矩阵，输入矩阵到双向长短时神经网络Bi-LSTM模型，Bi-LSTM模型属于循环神经网络，能够学习序列特征，由单个或者数个记忆块组成，每个记忆块由遗忘门、输入门、输出门和记忆块组成，通过记忆块来决定丢弃或添加信息，实现记忆和遗忘功能；Bi-LSTM模型能够学习文本特征语义信息和上下文字符的依赖关系，通过softmax层获得字符的概率分布，softmax层的转化公式是：n表示分类数，i表示向量k中的某个分类，g_i表示向量k中该分类的数值，P(S_i)表示向量k中i分类对应字符概率；

Bi-LSTM模型的训练方法包括：首先是训练样本有0.1的概率文本向量矩阵中的某一个字符向量被样本库中的随机字符向量所取代，对应样本结果标签不变，使Bi-LSTM模型获得学习样本上下文信息能力和字符纠错能力；通过softmax层把Bi-LSTM模型输出层向量转化成字符概率分布。

5.根据权利要求1所述的基于神经网络的中文字符OCR识别方法，其特征在于，所述的基于神经网络的中文字符OCR识别中神经网络为EAST神经网络和CRNN神经网络联合应用进行字符识别；

或为基于MASK-RCNN神经网络进行字符识别。

6.一种实施根据权利要求1～5任意一项所述基于神经网络的中文字符OCR识别方法的基于神经网络的中文字符OCR识别系统，其特征在于，所述基于神经网络的中文字符OCR识别系统包括：

文本位置检测模块，用于利用Efficient and Accuracy Scene Text网络进行检测文本位置；

单字符掩膜分割模块，用于利用在最后一层特征层添加RegionProposal Network字符定位分支网络的U-net architecture神经网络提取字符形态信息和边缘信息，获取文本掩膜，通过RPN分支网络获得的定位坐标实现单个字符掩膜分割；

字符掩膜信息映射模块，用于采用Visual Geometry Group神经网络提取字符特征，并结合三元组损失函数优化模型非同类极相似字符的区分能力和识别能力，把字符掩膜信息映射到128维向量空间；

字符识别模块，用于基于双向长短时神经网络和softmax层Bi-directional LongShort-Term Memory，构建语言模型，实现字符识别。

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～5任意一项所述的基于神经网络的中文字符OCR识别方法。

8.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求1～5任意一项所述的基于神经网络的中文字符OCR识别方法，包括下列步骤：

对输入图像进行文本检测；