CN110414520A - 通用字符识别方法、装置、计算机设备和存储介质 - Google Patents

通用字符识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110414520A
CN110414520A CN201910574434.5A CN201910574434A CN110414520A CN 110414520 A CN110414520 A CN 110414520A CN 201910574434 A CN201910574434 A CN 201910574434A CN 110414520 A CN110414520 A CN 110414520A
Authority
CN
China
Prior art keywords
character
identified
character picture
picture
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910574434.5A
Other languages
English (en)
Inventor
王健宗
闫旭
王威
韩茂琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910574434.5A priority Critical patent/CN110414520A/zh
Priority to PCT/CN2019/102942 priority patent/WO2020258491A1/zh
Publication of CN110414520A publication Critical patent/CN110414520A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于人工智能的通用字符识别方法、装置、计算机设备和存储介质。所述方法包括:接收待识别图像,对待识别图像进行文本检测,得到待识别字符图像;将待识别字符图像进行图像数字化处理,得到待识别字符图像对应的三维矩阵;将三维矩阵输入至预设的密集连接网络,以利用密集连接网络对待识别字符图像进行图像特征的提取,得到待识别字符图像的特征矩阵;根据待识别字符图像的特征矩阵确定待识别字符图像中的字符。采用本方法能够保证特征复用,提高字符识别的精度。

Description

通用字符识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种通用字符识别方法、装置、计算机设备和存储介质。
背景技术
通用字符是指常用可见的文本字符,包括文字、数字、字母以及特殊字符等。而随着神经网络的发展,现有通常使用层层依次连接的深度神经网络对通用字符进行识别。但是,对于通用字符识别来说,为了达到识别字符数数目多,识别精度高,可以应对复杂的文本场景等苛刻的要求,往往需要我们采用更深层的神经网络,以便进行更加复杂的特征模式的提取。然而,实验发现现有使用的深度神经网络出现了退化问题,即当增加深度神经网络的层数时,深度神经网络的准确度就会出现饱和,甚至出现下降,从而导致识别精度下降。
发明内容
基于此,有必要针对上述技术问题,提供一种实现高精度识别的通用字符识别方法、装置、计算机设备和存储介质。
一种通用字符识别方法,所述方法包括:
接收待识别图像,对所述待识别图像进行文本检测,得到待识别字符图像;
将所述待识别字符图像进行图像数字化处理,得到所述待识别字符图像对应的三维矩阵;
将所述三维矩阵输入预设的密集连接网络,以利用密集连接网络对所述待识别字符图像进行图像特征的提取,得到待识别字符图像的特征矩阵;
根据所述待识别字符图像的特征矩阵确定所述待识别字符图像中的字符。
在其中一个实施例中,所述利用密集连接网络对所述三维矩阵进行特征提取,得到待识别字符图像的特征矩阵的步骤,包括:
利用所述密集连接网络的二维卷积层对所述三维矩阵进行图像特征的提取,得到所述待识别字符图像的基础特征;
利用所述密集连接网络的密集卷积层从所述基础特征中提取所述待识别字符图像的深度特征;
将所述基础特征和所述深度特征相加,得到待识别字符图像的特征矩阵。
在其中一个实施例中,所述根据所述特征矩阵确定所述待识别字符图像中的字符的步骤,包括:
将所述特征矩阵进行池化,得到池化后的特征矩阵;
利用长短期记忆网络获取池化后的特征矩阵中各特征之间的关联信息;
根据所述关联信息确定所述待识别字符图像中的字符。
在其中一个实施例中,所述根据所述关联信息确定所述待识别字符图像中的字符的步骤,包括:
基于所述关联信息和预设的映射关系,从预设字典中映射得到识别结果;所述识别结果包括字符以及对应的识别概率;
根据所述识别概率选择字符,将选择的字符作为所述待识别字符图像中的字符。
在其中一个实施例中,所述接收待识别图像,对所述待识别图像进行预处理得到待识别字符图像的步骤,包括:
对所述待识别图像进行文本检测,得到字符候选区域以及对应的置信度;
当存在不小于预设置信度的置信度时,将对应所述置信度的字符候选区域进行缩放,得到缩放后的字符候选区域;
将所述缩放后的字符候选区域作为待识别字符图像。
在其中一个实施例中,所述将对应所述置信度的字符候选区域进行缩放,得到缩放后的字符候选区域,将所述缩放后的字符候选区域作为待识别字符图像的步骤,包括:
根据预设高度值,调整所述置信度对应的字符候选区域的高度,得到高度调整后的字符候选区域;
对所述高度调整后的字符候选区域的宽度进行补零,直到满足预设最大宽度值为止;
将所述满足预设最大宽度值的字符候选区域作为待识别字符图像。
在其中一个实施例中,所述将所述待识别字符图像转换为三维矩阵的步骤,包括:
获取所述待识别字符图像中所有像素对应的RGB值;将各所述像素对应的RGB值转换为三维矩阵。
一种通用字符识别装置,所述装置包括:
接收模块,用于接收待识别图像,对所述待识别图像进行文本检测,得到待识别字符图像;
转换模块,用于将所述待识别字符图像进行图像数字化处理,得到所述待识别字符图像对应的为三维矩阵;
提取模块,用于将所述三维矩阵输入预设的密集连接网络,以利用密集连接网络对所述待识别字符图像进行图像特征的提取,得到待识别字符图像的特征矩阵;
确定模块,用于根据所述待识别字符图像的特征矩阵确定所述待识别字符图像中的字符。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的通用字符识别方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的通用字符识别方法。
上述通用字符识别方法、装置、计算机设备和存储介质,通过对待识别图像进行文本检测,得到待识别字符图像,从而保证去掉待识别图像中的空白区域,仅保留有字符的区域。再将待识别字符图像进行图像数字化处理,得到待识别字符图像对应的三维矩阵,便于后续密集连接网络进行识别。将待识别字符图像对应的三维矩阵输入预设的密集连接网络,利用能够提升网络层数的密集连接网络对待识别字符图像进行图像特征的提取得到待识别字符的特征矩阵后,根据得到特征矩阵确定待识别字符图像中的字符,从而保证了特征的复用,实现了更高精度的字符识别。
附图说明
图1为一个实施例中通用字符识别方法的应用场景图;
图2为一个实施例中通用字符识别方法的流程示意图;
图3为一个实施例中利用密集连接网络对三维矩阵进行特征提取,得到待识别字符图像的特征矩阵步骤的流程示意图;
图4为一个实施例中密集连接网络的结构图;
图5为一个实施例中字符识别模型的结构图;
图6为一个实施例中通用字符识别装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的通用字符识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104接收终端102发送的待识别图像,服务器104对待识别图像进行文本检测,得到待识别字符图像。服务器104将待识别字符图像进行图像数字化处理,得到待识别字符图像对应的三维矩阵。服务器104将三维矩阵输入预设的密集连接网络,以利用密集连接网络对待识别字符图像进行图像特征的提取,得到待识别字符图像的特征矩阵。服务器104根据待识别字符图像的特征矩阵确定待识别字符图像中的字符。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种通用字符识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,接收待识别图像,对待识别图像进行文本检测,得到待识别字符图像。
其中,图像是最常用的信息载体,包含被描述对象的有关信息,在本实施例中,待识别图像是指包含有待识别字符的图像,例如发票图像、清单图像等。而待识别字符图像,即是指图像中只包括字符的图像,也就是不包括空白图像区域、以及除字符以外其他信息的图像。
具体地,当对图像有字符识别需求时,用户可以通过操作终端下发识别指令。终端接收到用户下发的指令后,将该识别指令以及对应的待识别图像发送至服务器。服务器响应该识别指令,对待识别图像进行裁剪等处理得到只包含字符的待识别字符图像。以发票为例,当用户在线下收集到大量发票,并且需要将发票中的报销单位、报销金额等信息录入对应的报销系统进行报销时,可以通过对该些发票进行影印或者扫描等处理获取到对应的发票图像。然后,通过在终端操作对应的报销系统将该些发票图像上传至系统当中,并且在报销系统中下发字符识别指令。则当终端的报销系统接收到用户上传的发票图像以及字符识别指令后,向报销系统对应的服务器发送字符识别的请求以及将发票图像一并发送至服务器。服务器即可对发票图像进行文本检测,通过文本检测确定得到发票图像中只包含报销单位、报销金额等字符的待识别字符区域,然后调用裁剪工具从发票图像中将待识别字符区域裁剪下来,得到该发票图像的待识别字符图像。
步骤S204,将待识别字符图像进行图像数字化处理,得到待识别字符图像对应的三维矩阵。
由于图像是由多个像素排列组成的,每个像素视为一个点或者一个小格子,由此看来,图像便是一个标准的矩形,有着一定的宽度和高度。可以理解为,通常我们所说分辨率则是指的矩形的高和宽,例如,若图像的分辨率是1280*720,则其中的1280和720分别就是图像的行数和列数。而矩阵有行和列,并且矩阵的操作在数学和计算机中的处理比较常见且很成熟。也就是说,需要对图像进行处理时,计算机通常将对图像的操作转换为对矩阵的操作。因此,对待识别字符图像进行处理时,把待识别字符图像转换为成对应的图像矩阵,以实现把对待识别字符图像的操作转换为对矩阵操作,便于服务器进行处理。其中,而根据图像类型的不同,矩阵的维度也不相同。在本实施例中,针对处理的图像为彩色图像,而彩色图像包括RGB三个分量,即每个分量对应一个矩阵,则彩色图像对应的图像矩阵为三维矩阵。也就是说,由于图像中的每个像素都包括三个通道的数据,因此将图像转换为矩阵进行操作时,是将图像转换成维数为三的数据结构的三维矩阵。也就是说,三维矩阵的大小与待识别字符图像的尺寸和通道数一致,即三维矩阵的长*宽*高等于待识别字符图像的长*宽*通道数。
在一个实施例中,将待识别字符图像进行图像数字化处理,得到待识别字符图像对应的三维矩阵,具体包括:获取待识别字符图像中所有像素对应的RGB值。将各像素对应的RGB值转换为三维矩阵。
具体地,由于待识别字符图像中的每个像素都包括三个通道的数据,该三个通道的数据即为RGB值。而每个像素的颜色均是由对应的RGB值的分量来决定的,其中,每个分量有0-255个值可取。因此,将待识别字符图像转换为三维矩阵即是将待识别字符图像中所有像素的RGB值作为矩阵元素存储至三维矩阵中。并且,由于矩阵的大小取决于图像的尺寸和通道数,因此图像中的像素分布与矩阵中元素分布是一样的,即是将所有像素的RGB值转换到0-1之间后将其存储至三维矩阵中分布对应的元素格中。
步骤S206,将三维矩阵输入至预设的密集连接网络,以利用密集连接网络对待识别字符图像进行图像特征的提取,得到待识别字符图像的特征矩阵。
其中,密集连接网络是字符识别模型其中的一层网络,字符识别模型即是本申请用于通用字符识别的模型。密集连接网络是一种将短路连接用到了极致的神经网络,即密集连接网络中的每一层网络不仅与对应的下一层进行连接,还要与后面所有层都进行连接。也就是说,对于每一层网络来说,输入的特征不仅仅只是上一层网络的输出,而是前面所有网络层的输出。
在一个实施例中,如图3所示,步骤S206,将三维矩阵输入至预设的密集连接网络,以利用密集连接网络对待识别字符图像进行图像特征的提取,得到待识别字符图像的特征矩阵包括以下步骤:
步骤S302,利用密集连接网络的二维卷积层对三维矩阵进行图像特征的提取,得到待识别字符图像的基础特征。
其中,卷积层是指用于提取输入数据特征的网络层,卷积层中一般包括多个卷积核,卷积核则是用于加权平均的函数,二维卷积层是指2D卷积层。具体地,当密集连接网络接收到待识别字符图像的三维矩阵后,利用二维卷积层中的卷积核对三维矩阵进行加权平均的计算,得到的矩阵即为待识别字符图像的基础特征。
步骤S304,利用密集连接网络的密集卷积层从基础特征中提取待识别字符图像的深度特征。
密集卷积层即是指将所有的卷积层都进行短路连接的网络层。在本实施例中,密集连接网络包括一个2D卷积层和一个密集卷积层,其中,密集卷积层包括四个卷积层,每个卷积层的输出均通过短路连接到后面所有的卷积层上。即,通过密集卷积层中的四个短路连接的卷积层对2D卷积层输出的基础特征再次进行卷积操作,提取待识别字符图像的深度特征。
参考图4,密集卷积层包括卷积层H1、卷积层H2、卷积层H3和卷积层H4,每个卷积层对应的输出为X1、X2、X3和X4,其中,X0为短路连接的四个卷积层的上一层网络的输出,即2D卷积层输出的待识别字符图像的基础特征。如图4所示,X0不仅作为卷积层H1的输入,还要作为卷积层H2、卷积层H3和卷积层H4的输入。同理,当X0输入至卷积层H1后,X0经过卷积层H1的卷积操作得到的输出X1不仅输入至卷积层H2中,还要输入至卷积层H3和卷积层H4中。而卷积层H2根据X0和X1进行卷积操作得到的X2同样分别输入至卷积层H3和卷积层H4。卷积层H3和卷积层H4如上述一致,在此不再赘述。也就是说,每一层卷积层的输出结果不仅包括本身的输出,还要包括本身的输入。
步骤S306,将基础特征和深度特征相加,得到待识别字符图像的特征矩阵。
当得到待识别字符的基础特征和深度特征之后,将基础特征与深度特征相加,即进行特征融合得到的待识别字符图像的特征矩阵。根据该特征矩阵即可确定待识别字符图像中的字符。其中,基础特征与深度特征相加,即是指基础特征与深度特征相同的行列里的特征元素值直接相加,所得到新的特征矩阵为待识别字符的特征矩阵。以图4包括四个卷积层的密集卷积层为例,最后一层卷积层H4输出结果X4,X4即为深度特征。对于X4而言,X0、X1、X2、X3是对应的基础特征,因此将X4与X0、X1、X2、X3进行特征相加之后作为下一层网路的输入。
在本实施例中,通过密集连接网络不仅可以充分提取特征,还利用短路连接的方式充分复用了各层网络提取的特征,实现更高精度的字符识别。
步骤S208,根据待识别字符图像的特征矩阵确定待识别字符图像中的字符。
其中,字符识别模型还包括转换层和长短期记忆网络。转换层包括激活函数和池化层,通过转换层对降低特征矩阵的大小,即减少像素信息,只保留重要的信息。也就是说,通过转换层可以起到压缩模型的作用,假定转换层上一层的密集连接网络得到的特征矩阵所对应的特征图的通道数为m,转换层通过卷积层可以产生[nm]个特征,其中n是压缩系数(compression rate),取值范围为(0,1]。当n=1时,特征个数经过转换层没有变化,即无压缩,而当压缩系数n小于1时,特征个数即会被压缩。而长短期记忆网络层(Long Short-TermMemory layer,LSTM layer)是一种时间递归神经网络,适合用于处理和预测时间序列中间隔和延时相对较长的重要事件。
在一个实施例中,步骤S208,根据待识别字符图像的特征矩阵确定待识别字符图像中的字符,具体包括:将特征矩阵进行池化,得到池化后的特征矩阵。利用长短期记忆网络获取池化后的特征矩阵中各特征之间的关联信息。根据关联信息确定待识别字符图像中的字符。
具体地,利用转换层对特征矩阵进行池化,即通过转换层中的激活函数进行非线性处理后,再利用池化层对特征矩阵进行池化。其中,池化一般分为最大池化和均值池化,最大池化是指选择池化区域中的最大值,而均值池化即是通过计算池化区域中所有特征值的均值,池化区域优选为2*2。当通过转换层对特征矩阵进行池化之后,将得到的池化后的矩阵输入至长短期记忆网络中,通过长短期记忆网络能够确定经过转换层后的特征矩阵中各特征之间的关联信息,基于特征之间的关系确定待识别字符图像中的字符。
上述通用字符识别方法,通过对待识别图像进行文本检测,得到待识别字符图像,从而保证去掉待识别图像中的空白区域,仅保留有字符的区域。再将待识别字符图像进行图像数字化处理,得到待识别字符图像对应的三维矩阵,便于后续密集连接网络进行识别。将待识别字符图像对应的三维矩阵输入预设的密集连接网络,利用能够提升网络层数的密集连接网络对待识别字符图像进行图像特征的提取得到待识别字符的特征矩阵后,根据得到特征矩阵确定待识别字符图像中的字符,从而保证了特征的复用,实现了更高精度的字符识别。
在一个实施例中,根据关联信息确定待识别字符图像中的字符,具体包括:基于关联信息和预设的映射关系,从预设字典中映射得到识别结果;识别结果包括字符以及对应的识别概率;根据识别概率选择字符,将选择的字符作为待识别字符图像中的字符。
其中,特征之间的关联信息即是指可以根据该关联信息对识别到的特征进行组合得到对应的字符。预设字典是指包括多种不同类型的字符的库,例如文字、数字和字母等。
具体地,根据长短期记忆网络得到的关联信息确定特征矩阵中各特征之间可以进行组合的特征。然后将可组合的特征进行组合后从预设字典中找到对应的字符,以及同时得到对应的识别概率,然后根据识别概率确定字符。例如,若特征矩阵中可以进行组合的特征包括特征1和特征2,而假设特征1为“一”,特征2“十”。将特征1“一”和特征2“十”进行组合后去预设字典中进行映射,映射得到的字符包括“土”和“士”,并且,“土”和“士”都有一个对应的识别概率,根据该识别概率从“土”和“士”选择一个字符作为最终识别得到的字符,即识别概率高的字符为被选择的字符。
在一个实施例中,接收待识别图像,对待识别图像进行文本检测,得到待识别字符图像的步骤,具体包括:对待识别图像进行文本检测,得到字符候选区域以及对应的置信度。当存在不小于预设置信度的置信度时,将对应所述置信度的字符候选区域进行缩放,得到缩放后的字符候选区域。将缩放后的字符候选区域作为待识别字符图像。
其中,文本检测可利用预设的文本检测模型对待识别图像进行文本检测,文本检测模型可为现有任意一种文本检测神经网络模型。字符候选区域为可能包含待识别字符的图像。置信度为文本检测模型进行文本检测时给出的检测概率。
具体地,通过预设的文本检测模型对待识别图像进行文本检测,得到可能包含待识别字符的字符候选区域,以及确定该区域为字符候选区域的置信度。当检测得到的置信度中有大于预设置信度的置信度时,选择大于预设置信度的置信度对应的字符候选区域。将该字符候选区域从待识别图像中裁剪下来,并对该字符候选区域进行尺寸缩放后作为待识别字符图像。在本实施例中,通过对待识别图像进行文本检测,可以初步排除不包含字符的图像区域,减少后续字符识别的工作量,保证快速识别。
在一个实施例中,将置信度对应的字符候选区域进行缩放后作为待识别字符图像的步骤,具体包括:根据预设高度值,调整置信度对应的字符候选区域的高度,得到高度调整后的字符候选区域。对高度调整后的字符候选区域的宽度进行补零,直到满足预设最大宽度值为止。将满足预设最大宽度值的字符候选区域作为待识别字符图像。
具体地,将字符候选区域进行缩放统一成相同的预设高度值,即大于预设高度值的字符候选区域进行高度缩小,小于预设高度值的字符候选区域进行高度放大。当进行高度缩放后的字符候选区域后,根据预设最大宽度值再次调整宽度,使得包含字符的字符候选区域在规定的图像尺寸内。如果调整字符候选区域宽度时,字符候选区域的宽度没有达到预设最大宽度值,则通过在字符候选区域的像素值中填0进行补充,直到满足宽度等于预设最大宽度值为止。而由于预设最大宽度值通常会大于图像的宽度,所以不存在宽度超过预设最大宽度值的字符候选区域。如上进行缩放后将字符候选区域缩放到字符识别模型规定的尺寸内,将符合模型规定尺寸的字符候选区域作为待识别字符图像。在本实施例中,通过调整字符候选区域确保满足模型要求,防止不满足要求而无法识别的情况。
在一个实施例中,字符识别模型包括密集连接网络、转换层(Transition block)、长短期记忆网络层(Long Short-Term Memory layer,LSTM layer)以及全连接层(FullyConnected layer)。其中,密集连接网络中包括2D卷积层(Convolutional 2D layer)和密集卷积层(Dense block)。可以理解为,密集卷积层(Dense block)可以根据实际所需特征深度进行相应增加,而每当增加一层密集卷积层(Dense block)则需要相应增加一层转换层(Transition block)。
如图5所示,在本实施例中,提供一种字符识别模型结构,该字符识别模型包括一个2D卷积层(Convolutional 2D layer)、两个密集卷积层(Dense block)、两个转换层(Transition block)、一个长短期记忆网络层(LSTM layer)、一个全连接层(FullyConnected layer)。
具体地,接收待识别图像,对待识别图像进行预处理得到待识别字符图像后,通过将待识别字符图像中各像素的RGB值转化得到三维矩阵。将三维矩阵输入到字符识别模型中的密集连接网络,利用密集连接网络中的Convolutional2D layer进行特征提取,得到待识别字符图像的基础特征。根据基础特征生成基础特征图。然后利用密集连接网络中的第一个Dense block将基础特征进行进一步的特征提取,得到待识别字符图像的第一深度特征。将基础特征与第一深度特征相加后得到第一特征矩阵。将第一特征矩阵输入到第一个Transition block当中,经过第一个Transition block降低第一特征矩阵的大小。然后将经过第一个Transition block的第一特征矩阵输入到第二个Dense block中,通过第二个Dense block在第一特征矩阵上再次进行深度特征提取,得到第二深度特征。然后将第二深度特征与第一特征矩阵相加后得到第二特征矩阵,将第二特征矩阵输入到第二个Transition block当中,经过第二个Transition block降低第二特征矩阵的大小后,通过长短期记忆模块确定已经经过第二个Transition block的第二特征矩阵中各特征的关联信息。最后利用全连接层,基于关联信息和预设字典得到字符以及对应的识别概率,并根据概率选择确定字符。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种通用字符识别装置,包括:接收模块602、转换模块604、提取模块606和确定模块608,其中:
接收模块602,用于接收待识别图像,对待识别图像进行文本检测,得到待识别字符图像。
转换模块604,用于将待识别字符图像进行图像数字化处理,得到待识别字符图像对应的三维矩阵。
提取模块606,用于将三维矩阵输入至预设的密集连接网络,以利用密集连接网络对待识别字符图像进行图像特征的提取,得到待识别字符图像的特征矩阵。
确定模块608,用于根据待识别字符图像特征矩阵确定待识别字符图像中的字符。
在一个实施例中,提取模块606还用于利用密集连接网络的二维卷积层对三维矩阵进行图像特的征提取,得到待识别字符图像的基础特征;利用密集连接网络的密集卷积层从基础特征中提取待识别字符图像的深度特征;将基础特征和深度特征相加,得到待识别字符图像的特征矩阵。
在一个实施例中,确定模块608还用于将特征矩阵进行池化,得到池化后的特征矩阵;利用长短期记忆网络获取池化后的特征矩阵中各特征之间的关联信息;根据关联信息确定待识别字符图像中的字符。
在一个实施例中,确定模块608还用于基于关联信息和预设的映射关系,从预设字典中映射得到识别结果;识别结果包括字符以及对应的识别概率;根据识别概率选择字符,将选择的字符作为待识别字符图像中的字符。
在一个实施例中,接收模块702还用于对待识别图像进行文本检测,得到字符候选区域以及对应的置信度;当存在不小于预设置信度的置信度时,将对应置信度的字符候选区域进行缩放,得到缩放后的字符候选区域;将缩放后的字符候选区域作为待识别字符图像。
在一个实施例中,接收模块702还用于根据预设高度值,调整置信度对应的字符候选区域的高度,得到高度调整后的字符候选区域;对高度调整后的字符候选区域的宽度进行补零,直到满足预设最大宽度值为止;将满足预设最大宽度值的字符候选区域作为待识别字符图像。
在一个实施例中,转换模块604还用于获取待识别字符图像中所有像素对应的RGB值;将各像素对应的RGB值转换为三维矩阵。
关于通用字符识别装置的具体限定可以参见上文中对于通用字符识别方法的限定,在此不再赘述。上述通用字符识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种通用字符识别方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
接收待识别图像,对待识别图像进行文本检测,得到待识别字符图像;
将待识别字符图像进行图像数字化处理,得到待识别字符图像对应的三维矩阵;
将三维矩阵输入至预设的密集连接网络,以利用密集连接网络对待识别字符图进行图像特征的提取,得到待识别字符图像的特征矩阵;
根据待识别字符图特征矩阵确定待识别字符图像中的字符。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
利用密集连接网络的二维卷积层对三维矩阵进行图像特征的提取,得到待识别字符图像的基础特征;利用密集连接网络的密集卷积层从基础特征中提取待识别字符图的深度特征;将基础特征和深度特征相加,得到待识别字符图像的特征矩阵。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将特征矩阵进行池化,得到池化后的特征矩阵;利用长短期记忆网络获取池化后的特征矩阵中各特征之间的关联信息;根据关联信息确定待识别字符图像中的字符。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于关联信息和预设的映射关系,从预设字典中映射得到识别结果;识别结果包括字符以及对应的识别概率;根据识别概率选择字符,将选择的字符作为待识别字符图像中的字符。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对待识别图像进行文本检测,得到字符候选区域以及对应的置信度;当存在不小于预设置信度的置信度时,将对应置信度的字符候选区域进行缩放,得到缩放后的字符候选区域;将缩放后的字符候选区域作为待识别字符图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据预设高度值,调整置信度对应的字符候选区域的高度,得到高度调整后的字符候选区域;对高度调整后的字符候选区域的宽度进行补零,直到满足预设最大宽度值为止;将满足预设最大宽度值的字符候选区域作为待识别字符图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取待识别字符图像中所有像素对应的RGB值;将各像素对应的RGB值转换为三维矩阵。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收待识别图像,对待识别图像进行文本检测,得到待识别字符图像;
将待识别字符图像进行图像数字化处理,得到待识别字符图像对应的三维矩阵;
将三维矩阵输入至预设的密集连接网络,以利用密集连接网络对待识别字符图进行图像特征的提取,得到待识别字符图像的特征矩阵;
根据待识别字符图特征矩阵确定待识别字符图像中的字符。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
利用密集连接网络的二维卷积层对三维矩阵进行图像特征的提取,得到待识别字符图像的基础特征;利用密集连接网络的密集卷积层从基础特征中提取待识别字符图的深度特征;将基础特征和深度特征相加,得到待识别字符图像的特征矩阵。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将特征矩阵进行池化,得到池化后的特征矩阵;利用长短期记忆网络获取池化后的特征矩阵中各特征之间的关联信息;根据关联信息确定待识别字符图像中的字符。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于关联信息和预设的映射关系,从预设字典中映射得到识别结果;识别结果包括字符以及对应的识别概率;根据识别概率选择字符,将选择的字符作为待识别字符图像中的字符。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对待识别图像进行文本检测,得到字符候选区域以及对应的置信度;当存在不小于预设置信度的置信度时,将对应置信度的字符候选区域进行缩放,得到缩放后的字符候选区域;将缩放后的字符候选区域作为待识别字符图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设高度值,调整置信度对应的字符候选区域的高度,得到高度调整后的字符候选区域;对高度调整后的字符候选区域的宽度进行补零,直到满足预设最大宽度值为止;将满足预设最大宽度值的字符候选区域作为待识别字符图像。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取待识别字符图像中所有像素对应的RGB值;将各像素对应的RGB值转换为三维矩阵。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种通用字符识别方法,所述方法包括:
接收待识别图像,对所述待识别图像进行文本检测,得到待识别字符图像;
将所述待识别字符图像进行图像数字化处理,得到所述待识别字符图像对应的三维矩阵;
将所述三维矩阵输入预设的密集连接网络,以利用密集连接网络对所述待识别字符图像进行图像特征的提取,得到待识别字符图像的特征矩阵;
根据所述待识别字符图像的特征矩阵确定所述待识别字符图像中的字符。
2.根据权利要求1所述的方法,其特征在于,所述将所述三维矩阵输入预设的密集连接网络,以利用密集连接网络对所述待识别字符图像进行图像特征的提取,得到待识别字符图像的特征矩阵的步骤,包括:
利用所述密集连接网络的二维卷积层对所述三维矩阵进行图像特征的提取,得到所述待识别字符图像的基础特征;
利用所述密集连接网络的密集卷积层从所述基础特征中提取所述待识别字符图像的深度特征;
将所述基础特征和所述深度特征相加,得到待识别字符图像的特征矩阵。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待识别字符图像的特征矩阵确定所述待识别字符图像中的字符的步骤,包括:
将所述特征矩阵进行池化,得到池化后的特征矩阵;
利用长短期记忆网络获取池化后的特征矩阵中各特征之间的关联信息;
根据所述关联信息确定所述待识别字符图像中的字符。
4.根据权利要求3所述的方法,其特征在于,所述根据所述关联信息确定所述待识别字符图像中的字符的步骤,包括:
基于所述关联信息和预设的映射关系,从预设字典中映射得到识别结果;所述识别结果包括字符以及对应的识别概率;
根据所述识别概率选择字符,将选择的字符作为所述待识别字符图像中的字符。
5.根据权利要求1所述的方法,其特征在于,所述接收待识别图像,对所述待识别图像进行文本检测,得到待识别字符图像的步骤,包括:
对所述待识别图像进行文本检测,得到字符候选区域以及对应的置信度;
当存在不小于预设置信度的置信度时,将对应所述置信度的字符候选区域进行缩放,得到缩放后的字符候选区域,将所述缩放后的字符候选区域作为待识别字符图像。
6.根据权利要求5所述的方法,其特征在于,所述将对应所述置信度的字符候选区域进行缩放,得到缩放后的字符候选区域,将所述缩放后的字符候选区域作为待识别字符图像的步骤,包括:
根据预设高度值,调整所述置信度对应的字符候选区域的高度,得到高度调整后的字符候选区域;
对所述高度调整后的字符候选区域的宽度进行补零,直到满足预设最大宽度值为止;
将所述满足预设最大宽度值的字符候选区域作为待识别字符图像。
7.根据权利要求1所述的方法,其特征在于,所述将所述待识别字符图像进行图像数字化处理,得到所述待识别字符图像对应的三维矩阵的步骤,包括:
获取所述待识别字符图像中所有像素对应的RGB值;
将各所述像素对应的RGB值转换为三维矩阵。
8.一种通用字符识别装置,其特征在于,所述装置包括:
接收模块,用于接收待识别图像,对所述待识别图像进行文本检测,得到待识别字符图像;
转换模块,用于将所述待识别字符图像进行图像数字化处理,得到所述待识别字符图像对应的三维矩阵;
提取模块,用于将所述三维矩阵输入预设的密集连接网络,以利用密集连接网络对所述待识别字符图像进行图像特征的提取,得到待识别字符图像的特征矩阵;
确定模块,用于根据所述待识别字符图像的特征矩阵确定所述待识别字符图像中的字符。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910574434.5A 2019-06-28 2019-06-28 通用字符识别方法、装置、计算机设备和存储介质 Pending CN110414520A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910574434.5A CN110414520A (zh) 2019-06-28 2019-06-28 通用字符识别方法、装置、计算机设备和存储介质
PCT/CN2019/102942 WO2020258491A1 (zh) 2019-06-28 2019-08-28 通用字符识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910574434.5A CN110414520A (zh) 2019-06-28 2019-06-28 通用字符识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110414520A true CN110414520A (zh) 2019-11-05

Family

ID=68358498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910574434.5A Pending CN110414520A (zh) 2019-06-28 2019-06-28 通用字符识别方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110414520A (zh)
WO (1) WO2020258491A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929784A (zh) * 2019-11-21 2020-03-27 上海智臻智能网络科技股份有限公司 图片中字符的识别方法、计算机设备和存储介质
CN110929724A (zh) * 2019-11-28 2020-03-27 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和存储介质
CN111738248A (zh) * 2020-06-24 2020-10-02 苏州科达科技股份有限公司 字符识别方法、字符译码模型的训练方法及电子设备
CN111931664A (zh) * 2020-08-12 2020-11-13 腾讯科技(深圳)有限公司 混贴票据图像的处理方法、装置、计算机设备及存储介质
CN113255674A (zh) * 2020-09-14 2021-08-13 深圳怡化时代智能自动化系统有限公司 字符识别方法、装置、电子设备及计算机可读存储介质
CN113344145A (zh) * 2021-08-02 2021-09-03 智道网联科技(北京)有限公司 字符识别方法、装置、电子设备和存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592717A (zh) * 2021-08-11 2021-11-02 浙江大华技术股份有限公司 视频图像字符叠加方法、装置、存储介质及电子装置
CN113722434B (zh) * 2021-08-30 2024-05-03 平安科技(深圳)有限公司 一种文本数据处理的方法、装置、计算机设备及存储介质
CN115620299B (zh) * 2022-12-14 2023-03-21 深圳思谋信息科技有限公司 图像识别方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271967A (zh) * 2018-10-16 2019-01-25 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质
CN109635810A (zh) * 2018-11-07 2019-04-16 北京三快在线科技有限公司 一种确定文本信息的方法、装置、设备及存储介质
CN109685050A (zh) * 2018-11-12 2019-04-26 平安科技(深圳)有限公司 文字识别方法、装置、设备及存储介质
CN109815946A (zh) * 2018-12-03 2019-05-28 东南大学 基于密集连接网络的多线程营业执照定位识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875722A (zh) * 2017-12-27 2018-11-23 北京旷视科技有限公司 字符识别与识别模型训练方法、装置和系统及存储介质
CN108875787B (zh) * 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 一种图像识别方法及装置、计算机设备和存储介质
CN109685100B (zh) * 2018-11-12 2024-05-10 平安科技(深圳)有限公司 字符识别方法、服务器及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271967A (zh) * 2018-10-16 2019-01-25 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质
CN109635810A (zh) * 2018-11-07 2019-04-16 北京三快在线科技有限公司 一种确定文本信息的方法、装置、设备及存储介质
CN109685050A (zh) * 2018-11-12 2019-04-26 平安科技(深圳)有限公司 文字识别方法、装置、设备及存储介质
CN109815946A (zh) * 2018-12-03 2019-05-28 东南大学 基于密集连接网络的多线程营业执照定位识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩九强等: "《数字图像处理 基于XAVIS组态软件》", 31 August 2018, 西安交通大学出版社, pages: 7 - 11 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929784A (zh) * 2019-11-21 2020-03-27 上海智臻智能网络科技股份有限公司 图片中字符的识别方法、计算机设备和存储介质
CN110929724A (zh) * 2019-11-28 2020-03-27 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和存储介质
CN111738248A (zh) * 2020-06-24 2020-10-02 苏州科达科技股份有限公司 字符识别方法、字符译码模型的训练方法及电子设备
CN111738248B (zh) * 2020-06-24 2022-07-29 苏州科达科技股份有限公司 字符识别方法、字符译码模型的训练方法及电子设备
CN111931664A (zh) * 2020-08-12 2020-11-13 腾讯科技(深圳)有限公司 混贴票据图像的处理方法、装置、计算机设备及存储介质
CN111931664B (zh) * 2020-08-12 2024-01-12 腾讯科技(深圳)有限公司 混贴票据图像的处理方法、装置、计算机设备及存储介质
CN113255674A (zh) * 2020-09-14 2021-08-13 深圳怡化时代智能自动化系统有限公司 字符识别方法、装置、电子设备及计算机可读存储介质
CN113344145A (zh) * 2021-08-02 2021-09-03 智道网联科技(北京)有限公司 字符识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2020258491A1 (zh) 2020-12-30

Similar Documents

Publication Publication Date Title
CN110414520A (zh) 通用字符识别方法、装置、计算机设备和存储介质
CN108520247B (zh) 对图像中的对象节点的识别方法、装置、终端及可读介质
Xie et al. Pyramid grafting network for one-stage high resolution saliency detection
US20210224125A1 (en) Operation Accelerator, Processing Method, and Related Device
US11609968B2 (en) Image recognition method, apparatus, electronic device and storage medium
EP2835762B1 (en) Face recognition method and device
CN110334585A (zh) 表格识别方法、装置、计算机设备和存储介质
US11238130B2 (en) Signal processing method and apparatus
CN112560980A (zh) 目标检测模型的训练方法、装置及终端设备
JP2014041486A (ja) 信号処理方法及び信号処理装置
WO2022166258A1 (zh) 行为识别方法、装置、终端设备及计算机可读存储介质
CN111696038A (zh) 图像超分辨率方法、装置、设备及计算机可读存储介质
US10452955B2 (en) System and method for encoding data in an image/video recognition integrated circuit solution
JP2023520625A (ja) 画像特徴マッチング方法及び関連装置、機器並びに記憶媒体
CN111797834A (zh) 文本识别方法、装置、计算机设备和存储介质
CN111353965B (zh) 图像修复方法、装置、终端及存储介质
CN111353442A (zh) 图像处理方法、装置、设备及存储介质
CN115187456A (zh) 基于图像强化处理的文本识别方法、装置、设备及介质
US20190220699A1 (en) System and method for encoding data in an image/video recognition integrated circuit solution
CN115630663A (zh) 一种二维码识别方法、装置及电子设备
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN114299105A (zh) 图像处理方法、装置、计算机设备及存储介质
CN108665434B (zh) 图像合成方法及装置
CN112330768A (zh) 基于数据特征的图像快速合成方法
CN111986071B (zh) 一种图片数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination