CN113762269B - 基于神经网络的中文字符ocr识别方法、系统及介质 - Google Patents
基于神经网络的中文字符ocr识别方法、系统及介质 Download PDFInfo
- Publication number
- CN113762269B CN113762269B CN202111052414.5A CN202111052414A CN113762269B CN 113762269 B CN113762269 B CN 113762269B CN 202111052414 A CN202111052414 A CN 202111052414A CN 113762269 B CN113762269 B CN 113762269B
- Authority
- CN
- China
- Prior art keywords
- character
- text
- neural network
- mask
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 93
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 230000001419 dependent effect Effects 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 102100032202 Cornulin Human genes 0.000 claims description 4
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000002203 pretreatment Methods 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 abstract description 38
- 238000005520 cutting process Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开一种基于神经网络的中文字符OCR识别方法、系统、介质及应用,涉及图象识别技术领域。对输入图像进行文本检测;对检测后的文本区域图像进行文本掩膜信息提取,并定位文本区域每个字符的位置坐标,按照字符位置坐标从文本掩膜截取每个字符掩膜;对字符掩膜进行特征提取,并映射到多维向量空间得到字符向量;字符向量按照字符次序组成文本向量矩阵,利用文本向量矩阵学习上下文依赖信息,完成文本的识别。本发明解决了输入图像进行中文文本检测,截取图像文本区域,并对文本区域文字识别的问题。本发明中文字符识别准确率得到了提升;形近字识别准确率提升;字符的方向不敏感。
Description
技术领域
本发明属于图象识别技术领域,尤其涉及一种基于神经网络的中文字符OCR识别方法、系统、介质及应用。其中OCR为Optical Character Recognition,光学字符识别,即,将图片、照片上的文字内容,直接转换为可编辑文本。
背景技术
目前,在图象识别识别技术中,有卷积神经网络(CNN)、文本检测模型EAST(Efficient and Accuracy Scene Text)、U-Net神经网络、长短时神经网络(LSTM)、VGG(Visual Geometry Group)神经网络模型。
场景文本识别旨在图像中提取文本内容,在实际应用中具有巨大的商业价值。场景文本识别,通常包括对场景文字定位和文字识别。例如在中文文本识别,国内外已经存在了大量成熟的检测识别方法,并且应用到实际工作中。这些方法不仅检测快,而且识别率良好,具有一定的优越性。
虽然,场景文本识别取得了一定的突破性成就,也产生了很多代表性的模型,但是这些模型大多数都很笨重。普遍的场景文本识别模型最后回归分类采用独热编码对每个字符进行编码,当词汇表的规模很大,那么模型的字符嵌入层和回归分类层产生的映射矩阵将会占用大量的存储容量,导致这些模型很难在移动端设备上部署,因为它消耗了大量存储资源和计算空间。
近年来,互联网科技的飞速发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在多个智能大数据图象识别领域。
某些图像识别领域为了保证业务操作的安全性,采用了OCR(OpticalCharacterRecognition,光学字符识别,即,将图片、照片上的文字内容,直接转换为可编辑文本)技术进行某些信息核对,OCR技术的引入,虽然减少了人力资源的浪费,但是当前OCR技术中的识别模型没有进行充分学习,导致OCR识别准确率低。
目前中国拥有近十亿网民,在朋友圈、社交媒体上经常发布图像已成为许多网民的日常,并且往往会在图像上添加各式各样的文本信息。社交图像数据中文OCR识别价值越来越高,但目前面向社交图像的OCR识别方法识别准确率较低。
中文特点多形近字,形近字字形相近、用法相近,目前市面上流行的OCR识别方法多是以识别英文为基础的方法,对中文的识别存在考验。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有技术中,长字符串的识别准确率下降;不能得到每个字符的位置坐标;字符方向敏感。
(2)对输入图像不能准确进行中文文本检测,不能截取图像文本区域,造成对文本区域文字识别准确性差。
解决以上问题及缺陷的难度为:
目前的主流技术手段为文本检测分割+文本识别的形式,其中文本识别是采取CRNN+CTC的框架。英文单词平均由8个字母组成,每个字母都完成定位和识别是很大的开销,算法效率低下,而这种框架就是对由简单字母组成单词,单词组成文本的英文语言特点的解决方法,通过识别字符的局部特征联系上下文语义特征从而识别字符,每个字母识别的准确性没那么重要。但是,这种方法对于中文文字的识别并不适合。中文特点是每个字既是独立的个体,每个字都有定位和识别的价值,相对英文来说字与字之间的分割相对简单;中文具有很多形近字,这种基于英文的识别方法不能够应对形近字的区分,因此这种识别方式用在中文识别存在天然缺陷。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了一种基于神经网络的中文字符OCR识别方法、系统、介质及应用。还涉及人工智能、深度学习、OCR(OpticalCharacter Recognition,光学字符识别)识别、机器视觉应用领域,具体涉及一种基于神经网络的中文字符OCR识别方法。所述技术方案如下:
根据本发明公开实施例的第一方面,提供一种基于神经网络的中文字符OCR识别方法,包括:
对输入图像进行文本检测;
对检测后的文本区域图像进行文本掩膜信息提取,并定位所述文本区域每个字符的位置坐标,按照字符位置坐标从文本掩膜截取每个字符掩膜;
对所述字符掩膜进行特征提取,并映射到多维向量空间得到字符向量;
所述字符向量按照字符次序组成文本向量矩阵,利用所述文本向量矩阵学习上下文依赖信息,完成文本的识别。
在本发明一实施例中,所述对输入图像进行文本检测具体包括:
对输入的图像经过预处理送入到文本检测模型EAST神经网络,返回文本矩形区域上左和右下顶点的坐标,通过坐标分割文本区域图像并调整图像大小;所述上左和右下顶点的坐标分别为(x1,y1),(x2,y2)。
在本发明一实施例中,获取每个字符的掩膜的方法具体包括:文本区域图像输入到U-net网络提取文本掩膜,U-net网络U型全卷积结构能充分保留文本的形态信息、边缘信息以及笔画的精细结构;在U-net网络的最后一层特征层添加RPN定位分支网络,获取每个字符的左上和右下坐标,分割文本掩膜获取每个字符的掩膜。
在本发明一实施例中,所述对所述字符掩膜进行特征提取,并映射到多维向量空间得到字符向量具体包括:
调整字符掩膜大小,输入VGG神经网络模型映射到128维向量空间获得字符向量;字符掩膜训练集经过随机旋转、翻转、线性变换、透射、遮挡预处理方法提升模型对字符方向,形态、干扰因素的识别能力;模型训练损失函数采用三元组损失函数,其公式为其中参数M表示样本总数,A(i)表示第i个样本,P(i)表示与A(i)同一个字不同形态的样本,N(i)表示与A(i)不同字的样本,参数α是超参数,通过控制α来控制不同字符间的区分距离。三元损失函数常用于人脸识别,用于提升不同人脸的区分效果。本发明中VGG神经网络训练方法是:在训练第i个字符掩码A(i)的时候,挑选一个与A(i)相同字符不同形态的字符掩码样本P(i)和一个与A(i)不同字符的掩码样本N(i),构成三元组送入VGG神经网络计算三元组损失函数,分别计算同字符样本间的距离||f(A(i))-f(P(i))||2,不同字符样本间的距离||f(A(i))-f(N(i))||2,约束||f(A(i))-f(P(i))||2+α<=||f(A(i))-f(N(i))||2,即同字符间的距离小于不同字符间的距离,从而实现VGG神经网络能够把同类别间字符在向量空间聚集,不同类别间字符远离,提升字符的识别。
在本发明一实施例中,所述字符向量按照字符次序组成文本向量矩阵,利用所述文本向量矩阵学习上下文依赖信息,完成文本的识别具体包括:
字符向量依次组成文本向量矩阵,输入矩阵到双向长短时神经网络Bi-LSTM模型,Bi-LSTM模型属于循环神经网络,能够学习序列特征,由单个或者数个记忆块组成,每个记忆块由遗忘门、输入门、输出门和记忆块组成,通过记忆块来决定丢弃或添加信息,实现记忆和遗忘功能。Bi-LSTM模型能够学习文本特征语义信息和上下文字符的依赖关系,通过softmax层获得字符的概率分布,softmax层的转化公式是:n表示分类数,i表示向量k中的某个分类,gi表示向量k中该分类的数值,P(Si)表示向量k中i分类对应字符概率。
Bi-LSTM模型的训练方法是:首先是训练样本有0.1的概率文本向量矩阵中的某一个字符向量被样本库中的随机字符向量所取代,对应样本结果标签不变,从而使Bi-LSTM模型获得学习样本上下文信息能力和字符纠错能力。通过softmax层把Bi-LSTM模型输出层向量转化成字符概率分布。
在本发明一实施例中,所述的基于神经网络的中文字符OCR识别中神经网络采用EAST神经网络和CRNN神经网络联合应用进行字符识别。
或采用基于MASK-RCNN神经网络进行字符识别。
根据本发明公开实施例的第二方面,提供一种实施基于神经网络的中文字符OCR识别系统,包括:
文本位置检测模块,用于利用EAST(Efficient and Accuracy Scene Text)网络进行检测文本位置;
单字符掩膜分割模块,用于利用在最后一层特征层添加RPN(RegionProposalNetwork)字符定位分支网络的U-net(U-net architecture)神经网络提取字符形态信息和边缘信息,获取文本掩膜,通过RPN分支网络获得的定位坐标实现单个字符掩膜分割;
字符掩膜信息映射模块,用于采用VGG(Visual Geometry Group)神经网络提取字符特征,并结合三元组损失函数优化模型非同类极相似字符的区分能力和识别能力,把字符掩膜信息映射到128维向量空间;
字符识别模块,用于基于双向长短时神经网络和softmax层Bi-LSTM(Bi-directional Long Short-Term Memory),构建语言模型,实现字符识别。
根据本发明公开实施例的第三方面,提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的基于神经网络的中文字符OCR识别方法。
根据本发明公开实施例的第四方面,提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述的基于神经网络的中文字符OCR识别方法,包括下列步骤:
对输入图像进行文本检测;
对检测后的文本区域图像进行文本掩膜信息提取,并定位所述文本区域每个字符的位置坐标,按照字符位置坐标从文本掩膜截取每个字符掩膜;
对所述字符掩膜进行特征提取,并映射到多维向量空间得到字符向量;
所述字符向量按照字符次序组成文本向量矩阵,利用所述文本向量矩阵学习上下文依赖信息,完成文本的识别。
根据本发明公开实施例的第五方面,提供一种所述的基于神经网络的中文字符OCR识别方法在人工智能、深度学习、机器视觉应用领域光学字符识别中的应用。
本发明公开的实施例提供的技术方案可以包括以下有益效果:
本发明解决了输入图像进行中文文本检测,截取图像文本区域,并对文本区域文字识别的问题。
本发明基于中文字符的形态特点,利用EAST(Efficient and Accuracy SceneText)网络检测文本位置;利用在最后一层特征层添加了RPN(RegionProposal Network)字符定位分支网络的U-net(U-net architecture)神经网络提取字符形态信息和边缘信息,获取文本掩膜,通过RPN分支网络获得的定位坐标实现单个字符掩膜分割;采用VGG(VisualGeometry Group)神经网络提取字符特征,并结合三元组损失函数优化模型非同类极相似字符的区分能力和识别能力,把字符掩膜信息映射到128维向量空间;基于双向长短时神经网络和softmax层Bi-LSTM(Bi-directional Long Short-Term Memory),构建语言模型,实现了字符识别。
本发明中文字符识别准确率得到了提升;形近字识别准确率提升;字符的方向不敏感。目前的主流技术手段为文本检测分割+文本识别的形式,文字方向识别任务主要在文本检测分割阶段完成,文本检测算法只能检测文本框的旋转角度,然后确保文本调整至水平并输入文本识别部分完成识别任务,这种方法并不能识别文本中每个字符的方向,面对复杂场景,比如字符方向不一致、文本排列不规则等,算法鲁棒性较差。本发明的字符掩码向量化模块,在VGG网络训练过程中通过对字符掩膜随机旋转、翻转、线性变换、透射、遮挡预处理方法提升模型对字符方向、形态的抗干扰能力,因此对字符的旋转、形态变化具有很好的识别能力。
本发明相比于现有技术的优点见表1。
表1
当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本发明实施例提供的基于神经网络的中文字符OCR识别方法流程。
图2是本发明实施例提供的基于神经网络的中文字符OCR识别方法原理图。
图3是本发明实施例提供的基于神经网络的中文字符OCR识别系统示意图。
图中:1、文本位置检测模块;2、单字符掩膜分割模块;3、字符掩膜信息映射模块;4、字符识别模块。
图4是本发明实施例提供的选取的一种微博图像效果图。
图5是本发明实施例提供的对图4选取的微博图像现有技术的模型识别效果图。
图6是本发明实施例提供的对图4选取的微博图像采用本发明的模型识别效果图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
如图1所示,本发明实施例提供的基于神经网络的中文字符OCR识别方法包括:
S101,基于EAST神经网络对输入图像进行文本检测。
S102,文本区域图像通过U-net网络提取文本掩膜信息,并在U-net网络的最后一层特征层添加RPN回归网络,定位文本区域每个字符的位置坐标,按照字符位置坐标从文本掩膜截取每个字符的掩膜。
S103,字符掩膜经过VGG神经网络模型提取特征,映射到128维向量空间得到字符向量。
S104,字符向量按照字符次序组成文本向量矩阵,矩阵输入到Bi-LSTM神经网络,学习上下文依赖信息,完成文本的识别。
在步骤S101中,所述对输入图像进行文本检测具体包括:
对输入的图像经过预处理送入到文本检测模型EAST神经网络,返回文本矩形区域上左和右下顶点的坐标,通过坐标分割文本区域图像并调整图像大小;所述上左和右下顶点的坐标分别为(x1,y1),(x2,y2)。
在步骤S102中,获取每个字符的掩膜的方法具体包括:文本区域图像输入到U-net网络提取文本掩膜,U-net网络U型全卷积结构能充分保留文本的形态信息、边缘信息以及笔画的精细结构;在U-net网络的最后一层特征层添加RPN定位分支网络,获取每个字符的左上和右下坐标,分割文本掩膜获取每个字符的掩膜。
在步骤S103中,所述对所述字符掩膜进行特征提取,并映射到多维向量空间得到字符向量具体包括:
调整字符掩膜大小,输入VGG神经网络模型映射到128维向量空间获得字符向量;字符掩膜训练集经过随机旋转、翻转、线性变换、透射、遮挡预处理方法提升模型对字符方向,形态、干扰因素的识别能力;模型训练损失函数采用三元组损失函数,其公式为其中参数M表示样本总数,A(i)表示第i个样本,P(i)表示与A(i)同一个字不同形态的样本,N(i)表示与A(i)不同字的样本,参数α是超参数,通过控制α来控制不同字符间的区分距离。三元损失函数常用于人脸识别,用于提升不同人脸的区分效果。本发明中VGG神经网络训练方法是:在训练第i个字符掩码A(i)的时候,挑选一个与A(i)相同字符不同形态的字符掩码样本P(i)和一个与A(i)不同字符的掩码样本N(i),构成三元组送入VGG神经网络计算三元组损失函数,分别计算同字符样本间的距离||f(A(i))-f(P(i))||2,不同字符样本间的距离||f(A(i))-f(N(i))||2,约束||f(A(i))-f(P(i))||2+α<=||f(A(i))-f(N(i))||2,即同字符间的距离小于不同字符间的距离,从而实现VGG神经网络能够把同类别间字符在向量空间聚集,不同类别间字符远离,提升字符的识别。
在步骤S104中,所述字符向量按照字符次序组成文本向量矩阵,利用所述文本向量矩阵学习上下文依赖信息,完成文本的识别具体包括:
字符向量依次组成文本向量矩阵,输入矩阵到双向长短时神经网络Bi-LSTM模型,Bi-LSTM模型属于循环神经网络,能够学习序列特征,由单个或者数个记忆块组成,每个记忆块由遗忘门、输入门、输出门和记忆块组成,通过记忆块来决定丢弃或添加信息,实现记忆和遗忘功能。Bi-LSTM模型能够学习文本特征语义信息和上下文字符的依赖关系,通过softmax层获得字符的概率分布,softmax层的转化公式是:n表示分类数,i表示向量k中的某个分类,gi表示向量k中该分类的数值,P(Si)表示向量k中i分类对应字符概率。
Bi-LSTM模型的训练方法是:首先是训练样本有0.1的概率文本向量矩阵中的某一个字符向量被样本库中的随机字符向量所取代,对应样本结果标签不变,从而使Bi-LSTM模型获得学习样本上下文信息能力和字符纠错能力。通过softmax层把Bi-LSTM模型输出层向量转化成字符概率分布。
下面结合具体实施例对本发明技术方案作进一步描述。
实施例如图2基于神经网络的中文字符OCR识别方法原理所示。
本发明实施例提供的基于神经网络的中文字符OCR识别方法具体包括:
1)输入的图像经过预处理送入到文本检测模型EAST神经网络,返回文本矩形区域上左和右下顶点的坐标((x1,y1),(x2,y2)),通过坐标分割文本区域图像并调整图像大小)。
2)文本区域图像输入到U-net网络提取文本掩膜,U-net网络U型全卷积结构能充分保留文本的形态信息、边缘信息以及笔画的精细结构,对后续字符的识别效果至关重要;在U-net网络的最后一层特征层添加RPN定位分支网络,获取每个字符的左上和右下坐标,分割文本掩膜获取每个字符的掩码;
3)调整字符掩膜大小,输入VGG神经网络模型映射到128维向量空间获得字符向量。为了提升VGG神经网络模型对字符的识别效果,字符掩膜训练集经过随机旋转、翻转、线性变换、透射、遮挡等预处理方法提升模型对字符方向,形态、干扰因素的识别能力;模型训练损失函数采用三元组损失函数,达到同类别间字符在向量空间聚集,不同类别间字符远离的目的,提升模型对于不同类字符的区分能力;
4)字符向量依次组成文本向量矩阵,输入矩阵到双向长短时神经网络Bi-LSTM语言模型。通过Bi-LSTM模型学习特征语义信息和上下文字符的依赖关系,构建语言模型,并通过softmax层获得字符的概率分布,识别字符并获得字符的置信度。
在本发明一优选实施例中,可基于EAST神经网络和CRNN神经网络进行字符识别,或基于MASK-RCNN神经网络进行字符识别。
如图3所示,本发明提供一种实施基于神经网络的中文字符OCR识别系统,包括:
文本位置检测模块1,用于利用EAST(Efficient and Accuracy Scene Text)网络进行检测文本位置;
单字符掩膜分割模块2,用于利用在最后一层特征层添加RPN(RegionProposalNetwork)字符定位分支网络的U-net(U-net architecture)神经网络提取字符形态信息和边缘信息,获取文本掩膜,通过RPN分支网络获得的定位坐标实现单个字符掩膜分割;
字符掩膜信息映射模块3,用于采用VGG(Visual Geometry Group)神经网络提取字符特征,并结合三元组损失函数优化模型非同类极相似字符的区分能力和识别能力,把字符掩膜信息映射到128维向量空间;
字符识别模块4,用于基于双向长短时神经网络和softmax层Bi-LSTM(Bi-directional Long Short-Term Memory),构建语言模型,实现字符识别。
本发明主要应用于社交网络图像中文OCR识别,社交网络图像场景一般比较复杂,通常的识别方法准确率较低,为了更好的展示本方法的可行性和有效性,下载100张微博图片数据用于实验验证和评估。和主流方法统计结果对比如表1,本方法准确率取得2.09%的提升。特选取一张微博图像用于本模型和其它模型的效果对比;微博图像如图4所示。
其它模型识别效果如图5所示,字体方向倾斜的文字“照片”识别成了“照方”,“照”字虽然识别正确,但是概率低于其它水平方向文字;两组文字“住址”有一组识别为“信址”,对于形近字没能很好的区分。
本发明识别效果如图6所示,本方法相对其它模型识别效果有明显提升,倾斜字体识别准确且概率和水平字体概率在同一水平上,说明本方法相比传统方法具有方向不敏感、能准确区分形近字的效果。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。
Claims (8)
1.一种基于神经网络的中文字符OCR识别方法,其特征在于,所述基于神经网络的中文字符OCR识别方法包括:
对输入图像进行文本检测;
对检测后的文本区域图像进行文本掩膜信息提取,并定位所述文本区域每个字符的位置坐标,按照字符位置坐标从文本掩膜截取每个字符掩膜;
获取每个字符的掩膜的方法具体包括:文本区域图像输入到U-net网络提取文本掩膜,U-net网络U型全卷积结构能充分保留文本的形态信息、边缘信息以及笔画的精细结构;在U-net网络的最后一层特征层添加RPN定位分支网络,获取每个字符的左上和右下坐标,分割文本掩膜获取每个字符的掩膜;
对所述字符掩膜进行特征提取,并映射到多维向量空间得到字符向量;
所述字符向量按照字符次序组成文本向量矩阵,利用所述文本向量矩阵学习上下文依赖信息,完成文本的识别。
2.根据权利要求1所述的基于神经网络的中文字符OCR识别方法,其特征在于,所述对输入图像进行文本检测具体包括:
对输入的图像经过预处理送入到文本检测模型EAST神经网络,返回文本矩形区域上左和右下顶点的坐标,通过坐标分割文本区域图像并调整图像大小;所述上左和右下顶点的坐标分别为(x1,y1),(x2,y2)。
3.根据权利要求1所述的基于神经网络的中文字符OCR识别方法,其特征在于,所述对所述字符掩膜进行特征提取,并映射到多维向量空间得到字符向量具体包括:
调整字符掩膜大小,输入VGG神经网络模型映射到128维向量空间获得字符向量;字符掩膜训练集经过随机旋转、翻转、线性变换、透射、遮挡预处理方法提升模型对字符方向,形态、干扰因素的识别能力;模型训练损失函数采用三元组损失函数,用于同类别间字符在向量空间聚集,不同类别间字符远离;
所述三元组损失函数,公式为
其中参数M表示样本总数,A(i)表示第i个样本,P(i)表示与A(i)同一个字不同形态的样本,N(i)表示与A(i)不同字的样本,参数α是超参数。
4.根据权利要求1所述的基于神经网络的中文字符OCR识别方法,其特征在于,所述字符向量按照字符次序组成文本向量矩阵,利用所述文本向量矩阵学习上下文依赖信息,完成文本的识别具体包括:
字符向量依次组成文本向量矩阵,输入矩阵到双向长短时神经网络Bi-LSTM模型,Bi-LSTM模型属于循环神经网络,能够学习序列特征,由单个或者数个记忆块组成,每个记忆块由遗忘门、输入门、输出门和记忆块组成,通过记忆块来决定丢弃或添加信息,实现记忆和遗忘功能;Bi-LSTM模型能够学习文本特征语义信息和上下文字符的依赖关系,通过softmax层获得字符的概率分布,softmax层的转化公式是:n表示分类数,i表示向量k中的某个分类,gi表示向量k中该分类的数值,P(Si)表示向量k中i分类对应字符概率;
Bi-LSTM模型的训练方法包括:首先是训练样本有0.1的概率文本向量矩阵中的某一个字符向量被样本库中的随机字符向量所取代,对应样本结果标签不变,使Bi-LSTM模型获得学习样本上下文信息能力和字符纠错能力;通过softmax层把Bi-LSTM模型输出层向量转化成字符概率分布。
5.根据权利要求1所述的基于神经网络的中文字符OCR识别方法,其特征在于,所述的基于神经网络的中文字符OCR识别中神经网络为EAST神经网络和CRNN神经网络联合应用进行字符识别;
或为基于MASK-RCNN神经网络进行字符识别。
6.一种实施根据权利要求1~5任意一项所述基于神经网络的中文字符OCR识别方法的基于神经网络的中文字符OCR识别系统,其特征在于,所述基于神经网络的中文字符OCR识别系统包括:
文本位置检测模块,用于利用Efficient and Accuracy Scene Text网络进行检测文本位置;
单字符掩膜分割模块,用于利用在最后一层特征层添加RegionProposal Network字符定位分支网络的U-net architecture神经网络提取字符形态信息和边缘信息,获取文本掩膜,通过RPN分支网络获得的定位坐标实现单个字符掩膜分割;
字符掩膜信息映射模块,用于采用Visual Geometry Group神经网络提取字符特征,并结合三元组损失函数优化模型非同类极相似字符的区分能力和识别能力,把字符掩膜信息映射到128维向量空间;
字符识别模块,用于基于双向长短时神经网络和softmax层Bi-directional LongShort-Term Memory,构建语言模型,实现字符识别。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~5任意一项所述的基于神经网络的中文字符OCR识别方法。
8.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求1~5任意一项所述的基于神经网络的中文字符OCR识别方法,包括下列步骤:
对输入图像进行文本检测;
对检测后的文本区域图像进行文本掩膜信息提取,并定位所述文本区域每个字符的位置坐标,按照字符位置坐标从文本掩膜截取每个字符掩膜;
对所述字符掩膜进行特征提取,并映射到多维向量空间得到字符向量;
所述字符向量按照字符次序组成文本向量矩阵,利用所述文本向量矩阵学习上下文依赖信息,完成文本的识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111052414.5A CN113762269B (zh) | 2021-09-08 | 2021-09-08 | 基于神经网络的中文字符ocr识别方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111052414.5A CN113762269B (zh) | 2021-09-08 | 2021-09-08 | 基于神经网络的中文字符ocr识别方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113762269A CN113762269A (zh) | 2021-12-07 |
CN113762269B true CN113762269B (zh) | 2024-03-22 |
Family
ID=78794109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111052414.5A Active CN113762269B (zh) | 2021-09-08 | 2021-09-08 | 基于神经网络的中文字符ocr识别方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762269B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140803B (zh) * | 2022-01-30 | 2022-06-17 | 杭州实在智能科技有限公司 | 基于深度学习的文档单字坐标检测和修正方法及系统 |
CN114372477B (zh) * | 2022-03-21 | 2022-06-10 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
CN114842474B (zh) * | 2022-05-09 | 2023-08-08 | 北京百度网讯科技有限公司 | 文字识别方法、装置、电子设备和介质 |
CN117115839B (zh) * | 2023-08-10 | 2024-04-16 | 广州方舟信息科技有限公司 | 一种基于自循环神经网络的发票字段识别方法和装置 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241904A (zh) * | 2018-08-31 | 2019-01-18 | 平安科技(深圳)有限公司 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
CN110175603A (zh) * | 2019-04-01 | 2019-08-27 | 佛山缔乐视觉科技有限公司 | 一种雕刻文字识别方法、系统及存储介质 |
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
CN111507353A (zh) * | 2020-04-17 | 2020-08-07 | 新分享科技服务(深圳)有限公司 | 一种基于文字识别的中文字段检测方法及系统 |
CN111563502A (zh) * | 2020-05-09 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 图像的文本识别方法、装置、电子设备及计算机存储介质 |
CN111723585A (zh) * | 2020-06-08 | 2020-09-29 | 中国石油大学(华东) | 一种风格可控的图像文本实时翻译与转换方法 |
CN111737455A (zh) * | 2019-12-02 | 2020-10-02 | 北京京东尚科信息技术有限公司 | 文本识别方法、装置、电子设备和介质 |
CN111985525A (zh) * | 2020-06-30 | 2020-11-24 | 上海海事大学 | 基于多模态信息融合处理的文本识别方法 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
CN112541501A (zh) * | 2020-12-18 | 2021-03-23 | 北京中科研究院 | 一种基于视觉语言建模网络的场景文字识别方法 |
WO2021081562A2 (en) * | 2021-01-20 | 2021-04-29 | Innopeak Technology, Inc. | Multi-head text recognition model for multi-lingual optical character recognition |
CN112989995A (zh) * | 2021-03-10 | 2021-06-18 | 北京百度网讯科技有限公司 | 文本检测方法、装置及电子设备 |
CN112990172A (zh) * | 2019-12-02 | 2021-06-18 | 阿里巴巴集团控股有限公司 | 一种文本识别方法、字符识别方法及装置 |
CN113095085A (zh) * | 2021-03-30 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 文本的情感识别方法、装置、电子设备和存储介质 |
CN113313064A (zh) * | 2021-06-23 | 2021-08-27 | 北京有竹居网络技术有限公司 | 字符识别方法、装置、可读介质及电子设备 |
KR20210109894A (ko) * | 2020-02-28 | 2021-09-07 | 금오공과대학교 산학협력단 | 신경망을 이용한 텍스트 인식 시스템 및 그 방법 |
-
2021
- 2021-09-08 CN CN202111052414.5A patent/CN113762269B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241904A (zh) * | 2018-08-31 | 2019-01-18 | 平安科技(深圳)有限公司 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
CN110175603A (zh) * | 2019-04-01 | 2019-08-27 | 佛山缔乐视觉科技有限公司 | 一种雕刻文字识别方法、系统及存储介质 |
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
CN112990172A (zh) * | 2019-12-02 | 2021-06-18 | 阿里巴巴集团控股有限公司 | 一种文本识别方法、字符识别方法及装置 |
CN111737455A (zh) * | 2019-12-02 | 2020-10-02 | 北京京东尚科信息技术有限公司 | 文本识别方法、装置、电子设备和介质 |
KR20210109894A (ko) * | 2020-02-28 | 2021-09-07 | 금오공과대학교 산학협력단 | 신경망을 이용한 텍스트 인식 시스템 및 그 방법 |
CN111507353A (zh) * | 2020-04-17 | 2020-08-07 | 新分享科技服务(深圳)有限公司 | 一种基于文字识别的中文字段检测方法及系统 |
CN111563502A (zh) * | 2020-05-09 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 图像的文本识别方法、装置、电子设备及计算机存储介质 |
CN111723585A (zh) * | 2020-06-08 | 2020-09-29 | 中国石油大学(华东) | 一种风格可控的图像文本实时翻译与转换方法 |
CN111985525A (zh) * | 2020-06-30 | 2020-11-24 | 上海海事大学 | 基于多模态信息融合处理的文本识别方法 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
CN112541501A (zh) * | 2020-12-18 | 2021-03-23 | 北京中科研究院 | 一种基于视觉语言建模网络的场景文字识别方法 |
WO2021081562A2 (en) * | 2021-01-20 | 2021-04-29 | Innopeak Technology, Inc. | Multi-head text recognition model for multi-lingual optical character recognition |
CN112989995A (zh) * | 2021-03-10 | 2021-06-18 | 北京百度网讯科技有限公司 | 文本检测方法、装置及电子设备 |
CN113095085A (zh) * | 2021-03-30 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 文本的情感识别方法、装置、电子设备和存储介质 |
CN113313064A (zh) * | 2021-06-23 | 2021-08-27 | 北京有竹居网络技术有限公司 | 字符识别方法、装置、可读介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113762269A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113762269B (zh) | 基于神经网络的中文字符ocr识别方法、系统及介质 | |
CN109308476B (zh) | 票据信息处理方法、系统及计算机可读存储介质 | |
Dong et al. | Tablesense: Spreadsheet table detection with convolutional neural networks | |
CN110490081B (zh) | 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN109460769A (zh) | 一种基于表格字符检测与识别的移动端系统与方法 | |
CN113537227B (zh) | 一种结构化文本识别方法及系统 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN111191649A (zh) | 一种识别弯曲多行文本图像的方法与设备 | |
CN110502655B (zh) | 一种嵌入场景文字信息的图像自然描述语句生成方法 | |
CN110347857B (zh) | 基于强化学习的遥感影像的语义标注方法 | |
CN108664975A (zh) | 一种维吾尔文手写字母识别方法、系统及电子设备 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN112686219B (zh) | 手写文本识别方法及计算机存储介质 | |
CN113378815B (zh) | 一种场景文本定位识别的系统及其训练和识别的方法 | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112766255A (zh) | 一种光学文字识别方法、装置、设备及存储介质 | |
CN112580507A (zh) | 一种基于图像矩矫正的深度学习文本字符检测方法 | |
CN112633431A (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN105184329A (zh) | 一种基于云平台的脱机手写识别方法 | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
CN112990175A (zh) | 手写中文字符的识别方法、装置、计算机设备和存储介质 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN113807218A (zh) | 版面分析方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |