CN111814508A - 一种文字识别方法、系统及设备 - Google Patents

一种文字识别方法、系统及设备 Download PDF

Info

Publication number
CN111814508A
CN111814508A CN201910284967.XA CN201910284967A CN111814508A CN 111814508 A CN111814508 A CN 111814508A CN 201910284967 A CN201910284967 A CN 201910284967A CN 111814508 A CN111814508 A CN 111814508A
Authority
CN
China
Prior art keywords
character
text image
recognized
feature
hidden layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910284967.XA
Other languages
English (en)
Other versions
CN111814508B (zh
Inventor
刘昕冉
郝志会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910284967.XA priority Critical patent/CN111814508B/zh
Publication of CN111814508A publication Critical patent/CN111814508A/zh
Application granted granted Critical
Publication of CN111814508B publication Critical patent/CN111814508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种文字识别方法、系统及设备。所述方法包括:使用机器学习模型对文本图像进行特征提取,生成文本图像的特征图;使用注意力机制Attention模型和长短期记忆网络LSTM模型逐个识别出所述文本图像中的文字,具体包括:将所述文本图像的特征图和隐层单元节点特征输入Attention模型,得到对所述文本图像中的一个待识别文字进行加权的加权特征图;将所述加权特征图、隐层单元节点特征和文字特征输入LSTM模型,得到所述待识别文字对应的文字、该文字的文字特征和隐层单元节点特征。本发明解决了现有技术中文字识别容易出现误检或漏检,识别准确性差的问题。

Description

一种文字识别方法、系统及设备
技术领域
本发明涉及计算机视觉领域,特别涉及一种文字识别方法、系统及设备。
背景技术
现有技术中,目前我们采用的光学文字识别(Optical Character Recognition,OCR)主要使用文字单字检测和文字单字识别的方法。但是传统的检测加识别的两步方法,在检测单字和识别单字时不具备上下文信息,只具有局部信息。在识别带有左右结构的汉字时,由于左右结构的汉字的左右两部分都是常见汉字,如“胖”或“材”等汉字,容易识别为两个单独的文字,字符检测时造成文字误检;在识别一些结构简单或者结构松散的汉字时,如“一”或“口”等汉字,这类字太过简单,单独出现的话,很难判断是文字还是图形或者符号,字符检测时造成误检或者漏检;在识别英文和数字组成的文本时,由于有的英文字母和数字的字符形状相近,例如英文中的“I”和数字中的“1”、英文中的“o”和数字中的“0”,单独识别时,很难判断是英文字母还是数字。可见,现有的文字识别方法,存在漏检、误检的问题,得到的识别结果的准确性差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文字识别方法、系统及设备。
第一方面,本发明实施例提供一种文字识别方法,包括如下步骤:
使用机器学习模型对文本图像进行特征提取,生成文本图像的特征图;
使用注意力机制Attention模型和长短期记忆网络LSTM模型逐个识别出所述文本图像中的文字,具体包括:
将所述文本图像的特征图和隐层单元节点特征输入Attention模型,得到对所述文本图像中的一个待识别文字进行加权的加权特征图;
将所述加权特征图、隐层单元节点特征和文字特征输入LSTM模型,得到所述待识别文字对应的文字、该文字的文字特征和隐层单元节点特征;
其中,Attention模型和LSTM模型用于识别所述文本图像中第一个文字时输入的是预设的隐层单元节点特征、预设的文字特征,用于识别第N个文字时输入的是已识别出的第N-1个文字的隐层单元节点特征、文字特征,N为大于等于2的整数。
第二方面,本发明实施例提供一种文字识别系统,包括:
特征图生成模块,用于使用机器学习模型对文本图像进行特征提取,生成文本图像的特征图;
文字识别模块,用于使用注意力机制Attention模型和长短期记忆网络LSTM模型逐个识别出所述文本图像中的文字,具体包括:
将所述文本图像的特征图和隐层单元节点特征输入Attention模型,得到对所述文本图像中的一个待识别文字进行加权的加权特征图;
将所述加权特征图、隐层单元节点特征和文字特征输入LSTM模型,得到所述待识别文字对应的文字、该文字的文字特征和隐层单元节点特征;
其中,Attention模型和LSTM模型用于识别所述文本图像中第一个文字时输入的是预设的隐层单元节点特征、预设的文字特征,用于识别第N个文字时输入的是已识别出的第N-1个文字的隐层单元节点特征、文字特征,N为大于等于2的整数。
第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述的文字识别方法。
第四方面,本发明实施例提供一种文字识别设备,包括:处理器、用于存储处理器可执行命令的存储器;其中,处理器被配置为可执行上述文字识别方法。
本发明实施例提供的上述技术方案的有益效果至少包括:
对输入的文本图像进行文字识别时,通过注意力机制和长短期记忆网络的文字识别算法,能够根据注意力机制得到权重分布矩阵,每个文字的识别过程中,都会使用权重分布矩阵进行加权得到对应于文本图像中待识别文字的加权特征图,图像特征的权重主要集中在待识别文字附近,同时能够得到待识别文字的感兴趣的区域,得到待识别文字周围的图像特征,因此在文字识别过程中,能够得到待识别文字的上下文信息,使得文字识别的结果更准确,不会造成误检或漏检。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中对一个文本图像进行识别的原理图;
图2为本发明实施例中文字识别方法流程图;
图3为本发明实施例中文字识别方法一个具体实现流程示例图;
图4为本发明实施例中一种文字识别系统的示意图;
图5为本发明实施例中另一种文字识别系统示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例针对上述现有技术存在的问题,提供了一种文字识别方法,其实现原理参照图1所示,包括:
使用机器学习模型对文本图像进行特征提取,生成文本图像的特征图;
使用注意力机制Attention模型和长短期记忆网络LSTM模型逐个识别出所述文本图像中的文字,具体包括:
将所述文本图像的特征图和隐层单元节点特征输入Attention模型,得到对所述文本图像中的一个待识别文字进行加权的加权特征图;
将所述加权特征图、隐层单元节点特征和文字特征输入LSTM模型,得到所述待识别文字对应的文字、该文字的文字特征和隐层单元节点特征;
其中,Attention模型和LSTM模型用于识别所述文本图像中第一个文字时输入的是预设的隐层单元节点特征、预设的文字特征,用于识别第N个文字时输入的是已识别出的第N-1个文字的隐层单元节点特征、文字特征,N为大于等于2的整数。
本发明实施例提供的上述文字识别方法,对输入的文本图像进行文字识别时,通过注意力机制和长短期记忆网络的文字识别算法,每个文字的识别过程中,使用注意力机制Attention模型,根据隐层单元节点特征对文本图像的特征图进行加权处理,得到对应于文本图像中待识别文字的加权特征图,得到的加权特征图中,图像特征的权重主要集中在待识别文字附近,同时能够得到待识别文字的感兴趣的区域,得到待识别文字周围的图像特征,因此在文字识别过程中,能够得到待识别文字的上下文信息,使得文字识别的结果更准确,不会造成误检或漏检。
上述方法中,使用机器学习模型、注意力机制Attention模型和长短期记忆网络LSTM模型逐个识别出文本图像中的待识别文字的过程,如图2所示,包括:
S101:使用机器学习模型对输入的文本图像进行特征提取,生成文本图像的特征图。
上述步骤S101中,使用机器学习模型对输入的文本图像进行特征提取,得到文本行的每个文字的可识别特征;根据文本行的每个文字的可识别特征,生成文本图像的特征图。
对文本图像进行特征提取所使用的机器学习模型,可以是卷积神经网络(Convolutional Neural Networks,CNN)模型,参见图1所示的CNN模型。在对CNN模型进行训练时,对输入的训练样本图像中文字的真值信息进行编码训练,学习得到跟文字的图像像素相关,并且对识别文字有意义的一组向量,每组向量对应于一个文字的笔画、边缘、结构、形状、大小、颜色等单一特征融合得到的融合特征,即文字的可识别特征。在输入文本图像进行特征提取时,在CNN模型中对输入的文本图像进行多次线性与非线性变换处理,学习得到文本行的每个文字的可识别特征;根据每个文字对应的文字的可识别特征对应文本图像的中的位置,生成文本图像的特征图。文图图像的特征图上的每个元素的值表示文图图像的像素点的编码的特征值。
S102:识别文本图像中第一个文字时,将文本图像的特征图和预设的隐层单元节点特征输入Attention模型,得到对文本图像中的第一个待识别文字进行加权的加权特征图。
上述步骤S102中,根据预设的隐层单元节点特征,确定第一个待识别文字的权重分布矩阵;根据确定出的权重分布矩阵和所述文本图像的特征图,得到对第一个待识别文字进行加权的加权特征图。
S103:识别文本图像中的第一个文字时,将对第一个待识别文字进行加权的加权特征图、预设的隐层单元节点特征和预设的文字特征输入LSTM模型,得到第一个待识别文字对应的文字、产生文本图像中第一个文字的隐层单元节点特征和文字特征。
上述步骤S103中,根据加权特征图、预设的文字特征和预设的隐层单元节点特征,使用长短期记忆网络LSTM模型进行处理,得到第一个待识别文字的解码结果;确定所述解码结果与预设的字符集中每个字符的相似度,选取相似度最高的字符作为文本图像中第一个文字的识别结果。
S104:识别文本图像中的第N个文字时,将已识别出的第N-1个文字的隐层单元节点特征输入Attention模型,得到对文本图像中的第N个待识别文字进行加权的加权特征图。
上述步骤S104中,Attention模型根据输入的第N-1个文字的隐层单元节点特征,确定第N个待识别文字的权重分布矩阵;根据确定出的权重分布矩阵和所述文本图像的特征图,得到对所述文本图像中待识别的第N个文字进行加权的加权特征图。
S105:识别文本图像中的第N个文字时,将对第N个待识别文字进行加权的加权特征图、已识别出的第N-1个文字的隐层单元节点特征和文字特征输入LSTM模型,得到第N个待识别文字对应的文字、产生文本图像中第N个文字的文字特征和隐层单元节点特征。
上述步骤S105中,LSTM模型对第N个待识别文字的加权特征图、已识别出的第N-1个文字的隐层单元节点特征和文字特征进行处理,得到第N个待识别文字的解码结果;确定所述解码结果与预设的字符集中每个字符的相似度,选取相似度最高的字符作为文本图像中第N个文字的识别结果。
在本发明的一个实施例中,由一对Attention模型和LSTM模型执行本发明实施例提供的方法,每次识别出文本图像中的一个文字,直到输出文本图像的最后一个文字识别结果后,输出截止符号,结束文字识别过程。
作为本发明实施例的一种具体实施方式,参照图1和图3所示,对本发明提供的文字识别方法进行具体说明:
S201:对文本图像进行图像预处理,得到正方形的文本图像。
上述步骤S201具体可以通过下述方式实现:对文本图像的轮廓边界向外扩展,得到文本图像的最小外接正方图像;将最小外接正方图像中位于文本图像的轮廓边界之外的像素点的像素设置为零,得到正方形的文本图像。
S202:使用机器学习模型对输入的文本图像进行特征提取,得到每个文字的可识别特征。
S203:使用机器学习模型根据每个文字的可识别特征,生成文本图像的特征图。
当待识别文字为文本图像中的第一个文字时,所述方法还包括:
S204:在Attention模型中根据输入的预设的隐层单元节点特征,确定第一个待识别文字的权重分布矩阵;所述权重分布矩阵的元素与文本图像的特征图中像素点的加权值一一对应。根据预设的隐层单元节点特征,确定第一个待识别文字的权重分布矩阵,权重分布矩阵中的所有加权值的和为1。
上述步骤S204中,根据预设的隐层单元节点特征,生成的第一个待识别文字的权重分布矩阵中每个元素的值可以是相同的,假设文本图像的特征图每层的元素组成的矩阵大小为m*n,那么,第一个待识别文字的权重分布矩阵中每个元素的值,可以使用1/(m*n)。
S205:在Attention模型中根据确定出的权重分布矩阵和文本图像的特征图,得到对第一个待识别文字进行加权的加权特征图。
上述步骤S205中,使用Attention模型根据确定出的权重分布矩阵和所述文本图像的特征图,得到对第一个待识别文字进行加权的加权特征图,是通过权重分布矩阵与文本图像的特征图相乘,使文本图像的特征图中的每一个像素点附加一个权重值,得到的加权特征图。文本图像的特征图中包括多个像素点,根据每个像素点建立与像素点数量相同的权重分布的矩阵,权重分布矩阵中的每个元素代表文图图像的特征图上的每个像素点的权重值,将权重分布矩阵与文本图像的特征图相乘得到一个新的特征图,即加权特征图。
S206:在LSTM模型中对加权特征图、预设的文字特征和隐层单元节点特征进行文字解码处理,得到第一个待识别文字的解码结果,产生文本图像中第一个文字的文字特征和隐层单元节点特征。
上述步骤S206中,LSTM模型根据加权特征图、预设的文字特征和隐层单元节点特征进行计算,通过数据变换对加权特征图、预设的文字特征和隐层单元节点特征进行解码,得到第一个待识别文字的解码结果,同时,产生文本图像中第一个文字的文字特征和隐层单元节点特征,并将得到的文本图像中第一个文字的隐层单元节点特征输出到Attention模型中,用于生成第二个待识别文字的权重分布矩阵。
S207:在LSTM模型中确定第一个待识别文字的解码结果与预设的字符集中每个字符的相似度,选取相似度最高的字符作为文本图像中第一个文字的识别结果。
上述步骤S207中,预设的字符集中每个字符是使用文字编码模块,将具体的文字编码为一组特征向量得到的。可以使用现有技术中的方法,例如Word2Vec,或者使用多层感知机实现文字的编码。LSTM模型对比第一个待识别文字的解码结果与预设的字符集中每个字符的相似度,选取相似度最高的字符作为文本图像中第一个文字的识别结果,输出文本图像的文本行的第一个文字。
当待识别文字为文本图像中第N个文字时,其中,N为大于等于2的整数,所述方法还包括:
S208:在Attention模型中根据输入的已识别出的第N-1个文字的隐层单元节点特征,确定第N个待识别文字的权重分布矩阵;所述权重分布矩阵中的元素与文本图像的特征图中像素点的加权值一一对应。根据输入的已识别出的第N-1个文字的隐层单元节点特征,确定第N个待识别文字的权重分布矩阵,权重分布矩阵中的所有加权值的和为1。
S209:在Attention模型中根据确定出的权重分布矩阵和文本图像的特征图,得到对第N个待识别文字进行加权的加权特征图。
上述步骤S209中,Attention模型根据确定出的权重分布矩阵和所述文本图像的特征图,得到对第N个待识别文字进行加权的加权特征图,是通过权重分布矩阵与文本图像的特征图相乘,使文本图像的特征图中的每一个像素点附加一个权重值,得到的加权特征图。文本图像的特征图中包括多个像素点,根据每个像素点建立与像素点数量相同的权重分布的矩阵,权重分布矩阵中的每个元素代表文图图像的特征图上的每个像素点的权重值,将权重分布矩阵与文本图像的特征图相乘得到一个新的特征图,即加权特征图。在文字识别过程中,根据输入的已识别出的第N-1个文字的隐层单元节点特征得到的权重分布矩阵中,第N个待识别文字的权重会非常高。假设第N个待识别文字的可识别特征在文本图像的特征图中主要集中在15*15这个像素点处,那么,在Attention模型中生成的第N个待识别文字的权重分布矩阵中,对应15*15这个像素点的元素的值就会大于其他元素的值,将权重分布矩阵与文本图像的特征图相乘之后,得到的加权特征图中15*15这个像素点的向量值就会大于其他像素点的向量值。
S210:在LSTM模型中对输入的对第N个待识别文字进行加权的加权特征图、已识别出的第N-1个文字的隐层单元节点特征和文字特征进行文字解码处理,得到第N个待识别文字的解码结果,产生文本图像中第N个文字的文字特征和隐层单元节点特征。
上述步骤S210中,LSTM模型根据加权特征图、已识别出的第N-1个文字的隐层单元节点特征和文字特征进行计算,通过数据变换对加权特征图、已识别出的第N-1个文字的隐层单元节点特征和文字特征进行解码,得到第N个待识别文字的解码结果,同时,产生文本图像中第N个文字的文字特征和隐层单元节点特征,并将得到的文本图像的第N个文字的隐层单元节点特征输出到下一个Attention模型中,用于生成下一个文字的权重分布矩阵。
S211:在LSTM模型中确定第N个待识别文字的解码结果与预设的字符集中每个字符的相似度,选取相似度最高的字符作为文本图像中第N个文字的识别结果。
上述步骤S211中,预设的字符集中每个字符是使用文字编码模块,将具体的文字编码为一组特征向量得到的。LSTM模型对比第N个待识别文字的解码结果与预设的字符集中每个字符的相似度,选取相似度最高的字符作为文本图像中第N个文字的识别结果,输出文本图像中文本行的第N个文字。
在本发明的一个实施例中,由一对Attention模型和LSTM模型执行步骤S204-S207识别出文本图像中的第一个文字,然后继续调用这一对Attention模型和LSTM模型循环执行上述步骤S208至S211,每次识别出文本图像中的一个文字,依次输出文本图像中除第一个文字外的每个文字的识别结果,直至得到文本图像的最后一个文字的识别结果,输出截止符号,结束文字识别。
现有技术中,在识别自然场景下的英文的文图图像时,采用基于LSTM(LongShort-Term Memory,长短期记忆网络)-CTC(Connectionist Temporal Classifier,连接主义时间分类器)的文本行识别算法对文本进行识别。本发明的发明人在进行文字识别的试验过程中发现,采用基于LSTM-CTC的文本行识别算法需要对文本行提取图像特征,然后在特征图上进行切片,将切片依次输入LSTM模型进行解码,最终再使用CTC模型端到端地优化模型参数和对齐切分的边界,输出最终的识别结果。但是在识别自然场景下的中文的文图图像时,由于中文文本行中,既有横排文本还有竖排文本,而且由于拍摄角度差异,还会存在倾斜文本,此时,由于基于LSTM-CTC的文本行识别算法的文字识别方法,只能适用于单一方向的文本识别,在使用横向文本图像训练得到的LSTM-CTC文字识别模型中,单纯的横向切片只能应用在水平或者近似水平文本的识别。当需要识别竖排文本行或者倾斜文本行时,还需要再使用竖向文本图像单独训练识别竖排文本行的LSTM-CTC文字识别模型,或使用倾斜文本图像单独训练识别倾斜文本行的LSTM-CTC文字识别模型,当文本图像中包含横排文本行、竖排文本行和倾斜文本行中的至少两种文本行时,就需要使用至少两个LSTM-CTC文字识别模型,文字识别的过程复杂、效率低下。
本发明实施例中,发明人通过采用基于Attention-LSTM(注意力机制-长短期记忆网络)的文本行识别算法,可以适用于横排、竖排或者倾斜排列等多种不同方向的文本行,即可以适用于英文文本的识别,也可以适用于中文文本的识别。
为了使横排、竖排或者倾斜排列等多种不同方向的文本行,都以相同标准形式进行图像输入,同时,为了保证不压缩文本图像的长宽比,在输入文本图像进行识别之前,可以将文本图像扩充成一个正方形的文本图像。具体的,可以是,以文本图像的轮廓边界为基础,得到文本图像的最小外接矩形,把该最小外接矩形的短边向两侧扩展,将短边补齐到与长边的长度相等,得到文本图像的最小外接正方图像;保留该最小外接正方图像内的文本图像的轮廓区域,将该最小外接正方图像中位于文本图像的轮廓边界之外的像素点的像素值设置为零,得到正方形的文本图像。
现有技术中采用OCR文字识别或LSTM-CTC文字识别时,是采用得到的文本图像的特征图的局部图像特征进行文字识别,若在生成文本图像的特征图时,文本行的初始文本框位置发生变化,就会造成对应待识别文字的图形特征位置发生变化,识别文字可能会出现偏差,造成文字识别结果不准确。本发明实施例提供的上述文字识别方法,对文本图像的每个文字进行识别时,采用注意力机制Attention模型对文本图像的特征图进行加权时,对输入文本图像的全部图像特征进行加权,得到对应于待识别文字的加权特征图,减少输入的文本图像的初始文本框框位置的影响,即使输入的文本图像的文本框位置有变动,也不会影响文字的识别结果。
参照图1所示,文本图像为包含文本“靓衣圈”三个字的文本图像,对文本图像进行图像预处理时,根据文本图像的轮廓边界,得到文本图像的最小外接矩形,即图1中的最左侧的矩形图像;对所述最小外接矩形进行图形扩展,将长方形的短边向上方和下方延长至于长方形的长边长度相等,得到文本图像的最小外接正方图像;将最小外接正方图像中除文本图像的轮廓边界之外的像素点设置为零,得到正方形的文本图像,即图1中的正方形文本图像。
由于文本图像中的“靓衣圈”三个字的文本行为倾斜排列的文本行,对文本图像进行图像预处理,得到正方形的文本图像,在输入到CNN模型时,不会压缩文本图像的长宽比。
对输入CNN模型中的正方形的文本图像进行特征提取,得到文本图像的特征图,为了便于直观的展示文本图像的特征图的每个元素,本实施例中,将多维的文本图像的特征图拉直成一条曲线,得到对应文本图像的特征图中的每个像素点的值,即y1-yn,其中n为文本图像的特征图中的像素点的个数。
在Attention模型中,根据预设的隐层单元节点特征h0生成第一个待识别文字的权重分布矩阵,将权重分布矩阵与文本图像的特征图相乘,即将权重分布矩阵中与y1-yn对应的元素与y1-yn分别相乘,得到加权特征图a0。在LSTM模型中,根据所述加权特征图a0、预设的文字特征和预设的隐层单元节点特征h0,得到对应“靓”字的解码结果,将得到的对应“靓”字的解码结果与预设的字符集中每个字符进行相似度对比,对应“靓”字的解码结果与预设的字符集中对应“靓”字的字符相似度最高,则输出文本图像的文本行的第一个文字“靓”。
在得到对应“靓”字的解码结果时,在LSTM模型中,还会得到对应“靓”字的文字特征和对应“靓”字的隐层单元节点特征h1
在Attention模型中根据对应“靓”字的隐层单元节点特征h1生成对应“依”字的新的权重分布矩阵,使用新的权重分布矩阵与y1-yn相乘,重新计算得到新的加权特征图a1
在LSTM模型中,根据a1、对应“靓”字的文字特征和h1进行文字解码处理,得到对应“依”字的解码结果,将得到的对应“依”字的解码结果与预设的字符集中每个字符进行相似度对比,选取相似度最高的字符作为“依”字的识别结果,就可以输出文本图像的文本行的第二个文字“依”字。
在得到对应“依”字的解码结果之后,在LSTM模型中,还会得到对应“依”字的文字特征和对应“依”字的隐层单元节点特征h2
在一对Attention模型和LSTM模型中,再次执行与识别“依”字相同的步骤,得到文本图像的文本行的第三个文字“圈”字。
在生成文本图像的文本行的最后一个文字“圈”字之后,在一对Attention模型和LSTM模型中,循环执行上述文字识别的步骤,不再输出文字,则确定文本图像中文字已全部识别完毕,最后,输出截止符号“EOS”,结束文字识别。
需要说明的是,图1中所示ak、hk-1分别表示文本图像中第k个待识别文字对应的加权特征图、第k-1个待识别文字对应的文字的隐层单元节点特征,k为文本图像中待识别文字的个数。
基于同一发明构思,本发明实施例还提供了一种文字识别系统、相关存储介质和文字识别设备,由于这些系统、相关存储介质和设备所解决问题的原理与前述文字识别方法相似,因此该系统、相关存储介质和设备的实施可以参见前述方法的实施,重复之处不再赘述。
参照图4所示,本发明实施例提供一种文字识别系统,包括:
特征图生成模块41,用于使用机器学习模型对文本图像进行特征提取,生成文本图像的特征图;
文字识别模块42,用于使用注意力机制Attention模型和长短期记忆网络LSTM模型逐个识别出所述文本图像中的文字,具体包括:
将所述文本图像的特征图和隐层单元节点特征输入Attention模型,得到对所述文本图像中的一个待识别文字进行加权的加权特征图;
将所述加权特征图、隐层单元节点特征和文字特征输入LSTM模型,得到所述待识别文字对应的文字、该文字的文字特征和隐层单元节点特征;
其中,Attention模型和LSTM模型用于识别所述文本图像中第一个文字时输入的是预设的隐层单元节点特征、预设的文字特征,用于识别第N个文字时输入的是已识别出的第N-1个文字的隐层单元节点特征、文字特征,N为大于等于2的整数。
在一个实施例中,参照图5所示,所述文字识别系统,还包括:
图像预处理模块40,用于对文本图像进行图像预处理,得到正方形的文本图像。
在一个实施例中,图像预处理模块40对文本图像进行图像预处理,具体包括:
对所述文本图像的轮廓边界向外扩展,得到所述文本图像的最小外接正方图像;
将所述最小外接正方图像中位于所述文本图像的轮廓边界之外的像素点的像素值设置为零,得到正方形的文本图像。
在一个实施例中,特征图生成模块41使用机器学习模型对输入的文本图像进行特征提取,生成文本图像的特征图,具体包括:
对所述文本图像进行特征提取,得到每个文字的可识别特征;
根据所述每个文字的可识别特征,生成文本图像的特征图;
所述文字的可识别特征是文字的下述特征进行融合后的融合特征:
文字的笔画、边缘、结构、形状、大小和颜色。
在一个实施例中,文字识别模块42将所述文本图像的特征图和隐层单元节点特征输入Attention模型,得到对所述文本图像中的一个待识别文字进行加权的加权特征图,包括:
根据隐层单元节点特征,确定文本图像中一个待识别文字的权重分布矩阵,的元素与文本图像的特征图中像素点的加权值一一对应,且所述权重分布矩阵中的所有加权值的和为1;
根据确定出的权重分布矩阵和所述文本图像的特征图,得到对所述待识别文字进行加权的加权特征图。
在一个实施例中,文字识别模块42将所述加权特征图、隐层单元节点特征和文字特征输入LSTM模型,得到所述待识别文字对应的文字、该文字的文字特征和隐层单元节点特征,包括:
对所述加权特征图、文字特征和隐层单元节点特征进行文字解码处理,得到所述待识别文字的解码结果,产生所述待识别文字对应的文字的隐层单元节点特征和文字特征;
确定所述解码结果与预设的字符集中每个字符的相似度,选取相似度最高的字符作为所述待识别文字对应的文字的识别结果。
在一个实施例中,文字识别模块42,还用于在得到文本图像的最后一个文字识别结果后,输出截止符号,结束文字识别。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述的文字识别方法。
本发明实施例提供了一种文字识别设备,包括:处理器、用于存储处理器可执行命令的存储器;其中,处理器被配置为可执行上述的文字识别方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种文字识别方法,其特征在于,包括:
使用机器学习模型对文本图像进行特征提取,生成文本图像的特征图;
使用注意力机制Attention模型和长短期记忆网络LSTM模型逐个识别出所述文本图像中的文字,具体包括:
将所述文本图像的特征图和隐层单元节点特征输入Attention模型,得到对所述文本图像中的一个待识别文字进行加权的加权特征图;
将所述加权特征图、隐层单元节点特征和文字特征输入LSTM模型,得到所述待识别文字对应的文字、该文字的文字特征和隐层单元节点特征;
其中,Attention模型和LSTM模型用于识别所述文本图像中第一个文字时输入的是预设的隐层单元节点特征、预设的文字特征,用于识别第N个文字时输入的是已识别出的第N-1个文字的隐层单元节点特征、文字特征,N为大于等于2的整数。
2.如权利要求1所述的方法,其特征在于,在使用机器学习模型对文本图像进行特征提取之前,还包括:
对所述文本图像进行图像预处理,得到正方形的文本图像。
3.如权利要求2所述的方法,其特征在于,对所述文本图像进行图像预处理,得到正方形的文本图像,具体包括:
对所述文本图像的轮廓边界向外扩展,得到所述文本图像的最小外接正方图像;
将所述最小外接正方图像中位于所述文本图像的轮廓边界之外的像素点的像素值设置为零,得到正方形的文本图像。
4.如权利要求1-3任一项所述的方法,其特征在于,所述使用机器学习模型对文本图像进行特征提取,生成文本图像的特征图,包括:
使用机器学习模型对所述文本图像进行特征提取,得到每个文字的可识别特征;
根据所述每个文字的可识别特征,生成文本图像的特征图;
所述文字的可识别特征是文字的下述特征进行融合后的融合特征:
文字的笔画、边缘、结构、形状、大小和颜色。
5.如权利要求1-3任一项所述的方法,其特征在于,将所述文本图像的特征图和隐层单元节点特征输入Attention模型,得到对所述文本图像中的一个待识别文字进行加权的加权特征图,包括:
根据隐层单元节点特征,确定文本图像中一个待识别文字的权重分布矩阵,所述权重分布矩阵的元素与文本图像的特征图中像素点的加权值一一对应,且所述权重分布矩阵中的所有加权值的和为1;
根据确定出的权重分布矩阵和所述文本图像的特征图,得到对所述待识别文字进行加权的加权特征图。
6.如权利要求1-3任一项所述的方法,其特征在于,所述将所述加权特征图、隐层单元节点特征和文字特征输入LSTM模型,得到所述待识别文字对应的文字、该文字的文字特征和隐层单元节点特征,包括:
对所述加权特征图、文字特征和隐层单元节点特征进行文字解码处理,得到所述待识别文字的解码结果,产生所述待识别文字对应的文字的隐层单元节点特征和文字特征;
确定所述解码结果与预设的字符集中每个字符的相似度,选取相似度最高的字符作为所述待识别文字对应的文字的识别结果。
7.如权利要求6所述的方法,其特征在于,还包括:LSTM模型输出文本图像的最后一个文字识别结果后,输出截止符号,结束文字识别。
8.一种文字识别系统,其特征在于,包括:
特征图生成模块,用于使用机器学习模型对文本图像进行特征提取,生成文本图像的特征图;
文字识别模块,用于使用注意力机制Attention模型和长短期记忆网络LSTM模型逐个识别出所述文本图像中的文字,具体包括:
将所述文本图像的特征图和隐层单元节点特征输入Attention模型,得到对所述文本图像中的一个待识别文字进行加权的加权特征图;
将所述加权特征图、隐层单元节点特征和文字特征输入LSTM模型,得到所述待识别文字对应的文字、该文字的文字特征和隐层单元节点特征;
其中,Attention模型和LSTM模型用于识别所述文本图像中第一个文字时输入的是预设的隐层单元节点特征、预设的文字特征,用于识别第N个文字时输入的是已识别出的第N-1个文字的隐层单元节点特征、文字特征,N为大于等于2的整数。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7任一项所述的文字识别方法。
10.一种文字识别设备,其特征在于,包括:处理器、用于存储处理器可执行命令的存储器;其中,处理器被配置为可执行如权利要求1-7任一项所述文字识别方法。
CN201910284967.XA 2019-04-10 2019-04-10 一种文字识别方法、系统及设备 Active CN111814508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910284967.XA CN111814508B (zh) 2019-04-10 2019-04-10 一种文字识别方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910284967.XA CN111814508B (zh) 2019-04-10 2019-04-10 一种文字识别方法、系统及设备

Publications (2)

Publication Number Publication Date
CN111814508A true CN111814508A (zh) 2020-10-23
CN111814508B CN111814508B (zh) 2024-01-09

Family

ID=72844237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910284967.XA Active CN111814508B (zh) 2019-04-10 2019-04-10 一种文字识别方法、系统及设备

Country Status (1)

Country Link
CN (1) CN111814508B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508108A (zh) * 2020-12-10 2021-03-16 西北工业大学 一种基于字根的零样本汉字识别方法
CN115063800A (zh) * 2022-08-16 2022-09-16 阿里巴巴(中国)有限公司 文本识别方法和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
WO2017162069A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 一种图像文本的识别方法和装置
CN109242140A (zh) * 2018-07-24 2019-01-18 浙江工业大学 一种基于LSTM_Attention网络的交通流预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017162069A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 一种图像文本的识别方法和装置
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
CN109242140A (zh) * 2018-07-24 2019-01-18 浙江工业大学 一种基于LSTM_Attention网络的交通流预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张艺玮;赵一嘉;王馨悦;董兰芳;: "结合密集神经网络与长短时记忆模型的中文识别", 计算机系统应用, no. 11 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508108A (zh) * 2020-12-10 2021-03-16 西北工业大学 一种基于字根的零样本汉字识别方法
CN112508108B (zh) * 2020-12-10 2024-01-26 西北工业大学 一种基于字根的零样本汉字识别方法
CN115063800A (zh) * 2022-08-16 2022-09-16 阿里巴巴(中国)有限公司 文本识别方法和电子设备

Also Published As

Publication number Publication date
CN111814508B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN108416377B (zh) 柱状图中的信息提取方法及装置
CN111709406B (zh) 文本行识别方法及装置、可读存储介质、电子设备
CN110110715A (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111291629A (zh) 图像中文本的识别方法、装置、计算机设备及计算机存储介质
CN111444919A (zh) 一种自然场景中的任意形状文本检测方法
CN110689012A (zh) 一种端到端的自然场景文本识别方法及系统
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN112070114B (zh) 基于高斯约束注意力机制网络的场景文字识别方法及系统
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
CN112926565B (zh) 图片文本的识别方法、系统、设备和存储介质
CN114021646A (zh) 一种图像描述文本确定方法及其相关设备
CN113065549A (zh) 基于深度学习的文档信息抽取方法及装置
CN111144411A (zh) 一种基于显著图的不规则文本修正与识别方法及系统
CN111814508B (zh) 一种文字识别方法、系统及设备
CN114581918A (zh) 一种文本识别模型训练方法及装置
CN114973229A (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
CN112633100B (zh) 行为识别方法、装置、电子设备和存储介质
CN111242114B (zh) 文字识别方法及装置
CN116361502B (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
CN110555462A (zh) 基于卷积神经网络的无固定多字符验证码识别方法
CN110889385A (zh) 一种基于局部邻近注意力的手写文本识别方法
Calefati et al. Reading meter numbers in the wild
CN115906786A (zh) 煤质检测报告图像的表格自动化重建方法、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant