CN111178363B - 文字识别方法、装置、电子设备以及可读存储介质 - Google Patents

文字识别方法、装置、电子设备以及可读存储介质 Download PDF

Info

Publication number
CN111178363B
CN111178363B CN201911313107.0A CN201911313107A CN111178363B CN 111178363 B CN111178363 B CN 111178363B CN 201911313107 A CN201911313107 A CN 201911313107A CN 111178363 B CN111178363 B CN 111178363B
Authority
CN
China
Prior art keywords
character
segmentation
image
diagram
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911313107.0A
Other languages
English (en)
Other versions
CN111178363A (zh
Inventor
万昭祎
何明航
陈浩然
姚聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN201911313107.0A priority Critical patent/CN111178363B/zh
Publication of CN111178363A publication Critical patent/CN111178363A/zh
Application granted granted Critical
Publication of CN111178363B publication Critical patent/CN111178363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请实施例提供一种文字识别方法、装置、电子设备以及可读存储介质,旨在提高文字识别的识别准确性。所述方法包括:获得待识别图像的N个字符顺序分割图,所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第n个字符的可能性;获得所述待识别图像的M个字符类别分割图,所述M个字符类别分割图中的第m个字符类别分割图中的每个像素点的像素值表征:该像素点属于第m类字符的可能性;根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。

Description

文字识别方法、装置、电子设备以及可读存储介质
技术领域
本申请实施例涉及计算机视觉技术领域,具体而言,涉及一种文字识别方法、装置、电子设备以及可读存储介质。
背景技术
计算机视觉技术是一门利用摄像机、手机、电脑等电子设备代替人眼,对图像中的目标进行识别、跟踪或者测量的技术。其中,文字识别是计算机视觉技术领域中的重要分支技术。文字识别具有广泛的应用场景,例如证件识别、票据识别、广告商标识别、自动驾驶技术中路牌识别、车牌识别等等。
相关技术中,为了使电子设备代替人眼识别出图像中的字符串,通常将基于循环神经网络的注意力算法或者将基于语义分割的算法应用于电子设备。这两种主流的识别技术对于规整的、无畸变的、且字符间距较大的标准字符串具有良好的识别结果,但是对于不规整的、存在畸变的、字符间距较小的、或者背景环境复杂的一般字符串,难以获得准确的识别结果。例如对于字符间距较小的字符串,这两种主流的识别技术容易将两个或多个连续的字符错误地合并识别成一个字符,或者容易将一个字符错误地拆分识别成两个字符。
可见,相关技术的适用场景十分局限,利用相关技术进行文字识别的识别准确性普遍偏低。
发明内容
本申请实施例提供一种文字识别方法、装置、电子设备以及可读存储介质,旨在提高文字识别的识别准确性。
本申请实施例第一方面提供一种文字识别方法,所述方法包括:
对待识别图像进行字符类别分割,获得所述待识别图像的M个字符类别分割图,所述M个字符类别分割图与M种字符类别一一对应,所述M个字符类别分割图中的第m个字符类别分割图中的每个像素点的像素值表征:该像素点属于第m类字符的可能性;
对所述待识别图像进行字符顺序分割,获得所述待识别图像的N个字符顺序分割图,所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第n个字符的可能性;
根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
本申请实施例第二方面提供一种文字识别装置,所述装置包括:
字符类别分割模块,用于对待识别图像进行字符类别分割,获得所述待识别图像的M个字符类别分割图,所述M个字符类别分割图与M种字符类别一一对应,所述M个字符类别分割图中的第m个字符类别分割图中的每个像素点的像素值表征:该像素点属于第m类字符的可能性;
字符顺序分割模块,用于对所述待识别图像进行字符顺序分割,获得所述待识别图像的N个字符顺序分割图,所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第n个字符的可能性;
字符类别确定模块,用于根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的方法的步骤。
采用本申请提供的文字识别方法,不仅获得了待识别图像的多个字符类别分割图,还获得了待识别图像的多个字符顺序分割图。其中,一个字符类别分割图对应一种字符类别,第m个字符类别分割图中的每个像素点的像素值表征:该像素点属于第m类字符的可能性。一个字符顺序分割图对应待识别字符串中的一个字符,第n个字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第n个字符的可能性。
其中,多个字符顺序分割图使得距离较近的字符或相同字符可以分别对应不同的字符顺序分割图,从而使距离较近的字符或相同字符被有效拆分开。在识别期间,结合多个字符顺序分割图和多个字符类别分割图进行文字识别,可以获得更准确的识别结果。该识别结果中,各个字符间具有更准确的顺序性,并且多个字符的总数更准确。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是利用相关技术进行文字识别的效果图;
图2是本申请一实施例提出的文字识别方法的流程图;
图3是本申请一实施例提出的文字识别方法的示意图;
图4(a)是本申请一实施例提出的一个字符类别分割图的示意图;
图4(b)是本申请另一实施例提出的另一个字符类别分割图的示意图;
图5(a)是本申请一实施例提出的第1个字符顺序分割图的示意图;
图5(b)是本申请另一实施例提出的第5个字符顺序分割图的示意图;
图5(c)是本申请另一实施例提出的第6个字符顺序分割图的示意图;
图6是本申请一实施例提出的字符顺序分割模块的结构示意图;
图7是本申请一实施例提出的确定字符类别可能性的示意图;
图8是本申请另一实施例提出的文字识别方法的流程图;
图9是本申请另一实施例提出的文字识别方法的示意图;
图10是本申请一实施例提出的字符位置图的示意图;
图11是本申请一实施例提出的模型训练流程图;
图12是本申请一实施例提出的确定字符顺序分割图的期望结果的示意图;
图13是本申请一实施例提出的确定字符类别分割图的期望结果的示意图;
图14是本申请一实施例提出的文字识别装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在计算机视觉技术领域中,文字识别的主流技术包括:基于循环神经网络的注意力算法和基于语义分割的算法。这两种主流的识别技术对于规整的、无畸变的、且字符间距较大的标准字符串具有良好的识别结果,但是对于不规整的、存在畸变的、字符间距较小的、或者背景环境复杂的一般字符串,难以获得准确的识别结果。
参考图1,图1是利用相关技术进行文字识别的效果图。如图1所示,测试图像A中的字符串“ZOMBIES”呈现为艺术字形式,测试图像B中的字符串“KINGFISHER”也呈现为艺术字形式。此外,测试图像B中还具有一排点状的环境干扰因素。利用相关技术中的注意力算法对测试图像A和测试图像B各自的字符串分别进行识别时,由于测试图像B中字符“F”和字符“I”之间的间距较近,该注意力算法并不能很好地应对这种情况,错误地将字符“F”和“I”识别成字符“F”和“F”。利用相关技术中的语义分割算法对测试图像A和测试图像B各自的字符串分别进行识别时,该语义分割算法将测试图像A中的字符“M”错误地拆分识别成字符“M”和“L”,将测试图像A中的字符“K”“I”“N”错误地合并识别成字符“K”。
可见,相关技术的适用场景十分局限,利用相关技术进行文字识别的识别准确性普遍偏低。
有鉴于此,本申请实施例提出:对待识别图像进行字符顺序分割和字符类别分割,分别获得多个字符顺序分割图和多个字符类别分割图。其中,多个字符顺序分割图使得距离较近的字符或相同字符可以有效拆分开。在识别期间,结合多个字符顺序分割图和多个字符类别分割图进行文字识别,可以获得更准确的识别结果。该识别结果中,各个字符间具有更准确的顺序性,并且多个字符的总数更准确。
参考图2和图3,图2是本申请一实施例提出的文字识别方法的流程图,图3是本申请一实施例提出的文字识别方法的示意图。如图2所示,该方法包括以下步骤:
步骤S21:对待识别图像进行字符类别分割,获得所述待识别图像的M个字符类别分割图,所述M个字符类别分割图与M种字符类别一一对应,所述M个字符类别分割图中的第m个字符类别分割图中的每个像素点的像素值表征:该像素点属于第m类字符的可能性。
在某些实施例中,为了对待识别图像进行字符类别分割,以获得M个字符类别分割图,如图3所示,可以首先利用特征提取模块CNN对待识别图像进行特征提取,以获得该待识别图像的图像特征。然后将该图像特征输入字符类别分割模块,该字符类别分割模块包括两个卷积层和Softmax函数,两个卷积层的卷积核大小分别为3×3和1×1。在将图像特征输入该字符类别分割模块后,利用该字符类别分割模块的两个卷积层对该图像特征进行卷积处理,并利用该字符类别分割模块的Softmax函数对卷积处理后的图像特征进行归一化处理,从而获得M个字符类别分割图。其中,M个字符类别分割图相当于一个具有M个通道的特征图像。为简化附图,图3将M个通道的特征图像可视化为一个图像。
在利用上述特征提取模块CNN和字符类别分割模块获得M个字符类别分割图之前,可以预先建立特征提取模块CNN和字符类别分割模块,然后利用样本图像对其进行训练,最后利用训练完毕的特征提取模块CNN和字符类别分割模块获得M个字符类别分割图。对于具体的训练方式,请参见下文。需要说明的是,在建立字符类别分割模块时,需要根据M的具体数值,确定字符类别分割模块的参数和结构。
其中,M是大于0的整数。本申请在实施期间,可以根据欲识别的字符种类数量,确定M的数值。例如欲识别26个英文字母,则可以将M的数值确定为27,其中包括26种英文字母类别和图像背景类别。又例如欲识别26个英文字母和10种常用的标点符号,则可以将M的数值确定为37,其中包括26种英文字母类别、10种标点符号类别、以及图像背景类别。
通过执行上述步骤S21所获得的M个字符类别分割图与M种字符类别一一对应。例如第1个字符类别分割图与字符类别“A”对应,第2个字符类别分割图与字符类别“B”对应,以此类推,第26个字符类别分割图与字符类别“Z”对应。
以第1个字符类别分割图为例,参考图4(a),图4(a)是本申请一实施例提出的一个字符类别分割图的示意图,该字符类别分割图对应字符类别“A”。如图4(a)所示,该字符类别分割图中靠右上角区域(如图中的虚线框)的像素点的像素值较高,说明在待识别图像的靠右上角区域很可能存在字符“A”。
以第2个字符类别分割图为例,参考图4(b),图4(b)是本申请另一实施例提出的另一个字符类别分割图的示意图,该字符类别分割图对应字符类别“B”。如图4(b)所示,该字符类别分割图中所有像素点的像素值均很低,说明待识别图像中很可能不存在字符“B”。
需要说明的是,图4(a)和图4(b)中,像素点的像素值越高,该像素点属于对应字符类别的可能性越大,换言之,像素值与可能性呈正相关。应当理解的,在某些场景下,像素值也可以与可能性呈负相关,本申请对此不做限定。
步骤S22:对所述待识别图像进行字符顺序分割,获得所述待识别图像的N个字符顺序分割图,所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第n个字符的可能性。
换言之,第n个字符顺序分割图中的每个像素点的像素值表征:该像素点属于第n个字符的可能性。
在某些实施例中,为了对待识别图像进行字符顺序分割,以获得N个字符顺序分割图,如图3所示,可以首先获得特征提取模块CNN输出的图像特征,然后将该图像特征输入字符顺序分割模块,利用该字符顺序分割模块依次进行上采样、编码、下采样、卷积以及Softmax函数归一化处理,从而获得N个字符顺序分割图。其中,N个字符顺序分割图相当于一个具有N个通道的特征图像。对于具体的处理方式,请参见下文。为简化附图,图3将N个通道的特征图像可视化为一个图像。
在利用上述特征提取模块CNN和字符顺序分割模块获得N个字符顺序分割图之前,可以预先建立特征提取模块CNN和字符顺序分割模块,然后利用样本图像对其进行训练,最后利用训练完毕的特征提取模块CNN和字符顺序分割模块获得N个字符顺序分割图。对于具体的训练方式,请参见下文。需要说明的是,在建立字符顺序分割模块时,需要根据N的具体数值,确定字符顺序分割模块的参数和结构。
其中,N是大于0的整数。本申请在实施期间,可以根据识别规模确定N的数值。例如识别规模是:一次性可最多识别32个字符,则可以将N的数值确定为32。又例如识别规模是:一次性可最多识别128个字符,则可以将N的数值确定为128。
通过执行上述步骤S22所获得的N个字符顺序分割图中,前L个字符顺序分割图与L个字符一一对应,其中,L是小于或等于N的正整数。例如待识别图像中的字符串包括5个字符,则第1个字符顺序分割图与字符串中的第1个字符对应,则第2个字符顺序分割图与字符串中的第2个字符对应,依次类推,第5个字符顺序分割图与字符串中的第5个字符对应。
以第1个字符顺序分割图为例,参考图5(a),图5(a)是本申请一实施例提出的第1个字符顺序分割图的示意图。如图5(a)所示,该字符顺序分割图中靠左区域(如图中的虚线框)的像素点的像素值较高,说明待识别图像中的字符串的第1个字符,很可能位于该待识别图像的靠左区域。
以第5个字符顺序分割图为例,参考图5(b),图5(b)是本申请另一实施例提出的第5个字符顺序分割图的示意图。如图5(b)所示,该字符顺序分割图中靠右区域(如图中的虚线框)的像素点的像素值较高,说明待识别图像中的字符串的第5个字符,很可能位于该待识别图像的靠右区域。
以第6个字符顺序分割图为例,参考图5(c),图5(c)是本申请另一实施例提出的第6个字符顺序分割图的示意图。如图5(c)所示,该字符顺序分割图中所有像素点的像素值均很低,说明待识别图像中的字符串很可能不包括第6个字符,换言之,说明待识别图像中的字符串很可能仅包括5个字符。
可见,多个字符顺序分割图使得距离较近的字符或相同字符可以分别对应不同的字符顺序分割图,从而使距离较近的字符或相同字符被有效拆分开,确保了各个字符间具有更准确的顺序性,并且确保了字符总数的准确性。
参考图3和图6,图6是本申请一实施例提出的字符顺序分割模块的结构示意图。如图3和图6所示,为了对待识别图像进行字符顺序分割,以获得N个字符顺序分割图,可以执行以下子步骤:
子步骤S22-1:对所述待识别图像进行特征提取,获得该待识别图像的图像特征;
子步骤S22-2:将所述图像特征输入下采样路径,以针对所述图像特征执行下采样操作,获得下采样特征;
子步骤S22-3:利用循环神经网络模块对所述下采样特征进行编码,获得编码特征;
子步骤S22-4:将所述编码特征输入上采样路径,以针对所述编码特征执行上采样操作,获得上采样特征;
子步骤S22-5:对所述上采样特征进行卷积处理,获得所述待识别图像的N个字符顺序分割图。
其中,子步骤S22-1即是图3中利用特征提取模块CNN对待识别图像进行特征提取,以获得该待识别图像的图像特征的过程。如图6所示,字符顺序分割模块包括下采样路径、循环神经网络模块RNN、上采样路径、两个卷积层、以及Softmax函数。在通过执行子步骤S22-1获得图像特征后,将该图像特征被输入字符顺序分割模块的下采样路径,通过该下采样路径对该图像特征执行下采样操作后,获得下采样特征。然后利用循环神经网络模块RNN对该下采样特征进行编码,即上下文建模,获得编码特征。再将该编码特征输入字符顺序分割模块的上采样路径,通过该上采样特征对该编码特征执行上采样操作后,获得上采样特征。最后利用字符顺序分割模块的卷积层和Softmax函数,依次对上采样特征进行卷积处理和归一化操作后,获得待识别图像的N个字符顺序分割图。
其中,通过循环神经网络模块RNN对下采样特征进行编码以获得编码特征,该编码特征能反映待识别图像中的字符串的上下文信息,从而进一步确保了识别结果的顺序性,有利于进一步提高识别准确性。
如图6所示,下采样路径可以包括多个串联的下采样节点,基于多个串联的下采样节点执行上述子步骤S22-2时,具体的执行方式可以是:将所述图像特征输入所述下采样路径,使得每个下采样节点执行完下采样操作后,将操作结果传入下一个下采样节点,多个下采样节点依次获得各自对应的操作结果,多个操作结果为分辨率递减的多个下采样特征图;将分辨率最低的下采样特征图确定为所述下采样特征。
示例地,假设下采样路径包括4个下采样节点。将一个分辨率为512×384的图像特征输入下采样路径的第1个下采样节点,该下采样节点对该图像特征执行下采样操作,获得分辨率为256×192的下采样特征图。
然后将该分辨率为256×192的下采样特征图输入第2个下采样节点,该下采样节点对该下采样特征图执行下采样操作,获得分辨率为128×96的下采样特征图。
再将该分辨率为128×96的下采样特征图输入第3个下采样节点,该下采样节点对该下采样特征图执行下采样操作,获得分辨率为64×48的下采样特征图。
最后将该分辨率为64×48的下采样特征图输入第4个下采样节点,该下采样节点对该下采样特征图执行下采样操作,获得分辨率为32×24的下采样特征图,该下采样特征图即作为下采样特征。
如图6所示,上采样路径可以包括多个串联的下采样节点,基于多个串联的上采样节点执行上述子步骤S22-4时,具体的执行方式可以是:将所述下采样特征输入所述上采样路径,使得每个上采样节点执行完上采样操作后,获得该上采样节点对应的上采样特征图,然后对该上采样特征图与对应下采样特征图执行相加操作,并将所述相加操作的操作结果传入下一个上采样节点,其中,执行相加操作的上采样特征图和下采样特征图两者的分辨率相等;将所述上采样路径输出的分辨率最高的上采样特征图确定为所述上采样特征。
沿用上述示例地,假设上采样路径包括3个上采样节点。将分辨率为32×24的编码特征输入上采样路径的第1个上采样节点,该上采样节点对该编码特征执行上采样操作,获得分辨率为64×48的上采样特征图。如图6所示,将分辨率为64×48的下采样特征图与分辨率为64×48的上采样特征图相加,得到经过相加操作后的分辨率为64×48的上采样特征图。
然后将经过相加操作后的分辨率为64×48的上采样特征图输入第2个上采样节点,该上采样节点对该上采样特征图执行上采样操作,获得分辨率为128×96的上采样特征图。如图6所示,将分辨率为128×96的下采样特征图与分辨率为128×96的上采样特征图相加,得到经过相加操作后的分辨率为128×96的上采样特征图。
最后将经过相加操作后的分辨率为128×96的上采样特征图输入第3个上采样节点,该上采样节点对该上采样特征图执行上采样操作,获得分辨率为256×192的上采样特征图。如图6所示,将分辨率为256×192的下采样特征图与分辨率为256×192的上采样特征图相加,得到经过相加操作后的分辨率为256×192的上采样特征图,该下采样特征图即作为下采样特征。
其中,上采样特征图与对应下采样特征图执行相加操作是指:针对上采样特征图中的每个像素点,将该像素点的像素值加上对应下采样特征图中对应像素点的像素值。
应当理解的,图6和上述示例中所列举的分辨率数值仅发挥示意性作用,不用于限定本申请。本申请在实施期间,各个下采样特征图和上采样特征图的具体分辨率与输入图像的原始分辨率有关,且本申请也不限定输入图像的原始分辨率。
通过在上采样期间,对分辨率相同的上采样特征图和下采样特征图执行相加操作,可以使下采样特征图反映的全局特征叠加到上采样特征图反映的局部特征中,使得字符顺序分割图兼顾待识别图像的全局特征和局部特征,有利于进一步提高识别结果准确性。
步骤S23:根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
在某些实施例中,可以针对多个字符顺序分割图中的每个字符顺序分割图,根据该字符顺序分割图中的各个像素点的像素值、以及每个字符类别分割图中各个像素点的像素值,确定该字符顺序分割图对应的字符的字符类别。
示例地,假设字符类别分割图共27个,第1至第26个字符类别分割图分别对应字母“A”至字母“Z”,第27个字符类别分割图对应背景类别。
例如针对第1个字符顺序分割图,首先第1个字符顺序分割图中各个像素点的像素值,以及根据第1个字符类别分割图中各个像素点的像素值,确定待识别图像中第1个字符(即字符串中字符顺序为1的字符)的字符类别是字母“A”的可能性。
继续根据第1个字符顺序分割图中各个像素点的像素值,以及根据第2个字符类别分割图中各个像素点的像素值,确定待识别图像中第1个字符(即字符串中字符顺序为1的字符)的字符类别是字母“B”的可能性。
依此类推,确定出第1个字符属于27种类别中各个类别的可能性。然后根据27种类别各自对应的可能性,确定第1个字符的类别。通常可以将可能性最高的类别确定为第1个字符的类别。
依此类推,按照字符串中的字符顺序,依次确定出各个字符的字符类别。换言之,将针对第1个字符顺序分割图确定的字符类别,作为识别结果中的第1个字符,将针对第2个字符顺序分割图确定的字符类别,作为识别结果中的第2个字符,依此类推,依次确定出各个字符的字符类别,从而形成识别结果,即预测的字符串。
其中,针对第n个字符顺序分割图,在根据第n个字符顺序分割图中各个像素点的像素值,以及根据第m个字符类别分割图中各个像素点的像素值,确定待识别图像中第n个字符的字符类别是第m类字符的可能性时,具体地,参考图7,图7是本申请一实施例提出的确定字符类别可能性的示意图。
如图7所示,可以依次针对第n个字符顺序分割图中的每个像素点,在该像素点的像素值较大,且第m个字符类别分割图中相同位置像素点的像素值也较大的情况下,使得第n个字符顺序分割图中的该像素点获得一个较大的数值,如7中实线框所圈示的内容。否则,使得第n个字符顺序分割图中的该像素点获得一个较小的数值,如7中虚线框所圈示的内容。图7中以圈号表示像素点处获得了一个较大的数值,以叉号表示像素点处获得了一个较小的数值。
最后,统计第n个字符顺序分割图中多个像素点所获得的数值的总和,确定待识别图像中第n个字符的字符类别是第m类字符的可能性。其中,所述总和越大,所述可能性越大。
通过以图7所示的方式确定字符类别可能性,可以进一步减小识别误差。如图7所示,第m个字符类别分割图中虚线框区域内的像素值较大,但是第n个字符顺序分割图中同样区域的像素值较小,因此该区域很可能不是第n个字符的一部分。通过图7所示的方式,该区域像素点所赋予的数值较小,因此可以降低识别误差。
同样地,如图7所示,第n个字符顺序分割图中虚线框区域内的像素值较大,但是第m个字符类别分割图中同样区域的像素值较小,因此该区域很可能不是第m种字符类别,或者该区域很可能不存在字符。通过图7所示的方式,该区域像素点所赋予的数值较小,因此也可以降低识别误差。
为了实现图7所示的确定过程,在某些实施例中,可以依次针对第n个字符顺序分割图中的每个像素点,在该像素点的像素值大于第一预设阈值(例如0.6),且第m个字符类别分割图中相同位置像素点的像素值大于第二预设阈值(例如0.8)的情况下,对第n个字符顺序分割图中的该像素点赋予数值“1”,否则赋予数值“0”。
或者为了实现图7所示的确定过程,在另一些实施例中,可以采取一种计算量更小的方式。例如,可以将第n个字符顺序分割图中的各个像素点的像素值,与第m个字符类别分割图中各个像素点的像素值对应相乘。然后将第n个字符顺序分割图中每个像素点各自对应的乘积,作为赋予该像素点的数值。基于这些实施例的构思,上述步骤S23可以具体包括以下子步骤:
子步骤S23-1:针对每个字符类别分割图,将该字符类别分割图中各个像素点的像素值与该字符顺序分割图中各个像素点的像素值,按照对应位置相乘,得到该字符类别分割图中各个像素点对应的像素值乘积;
子步骤S23-2:针对每个字符类别分割图,根据该字符类别分割图中各个像素点对应的像素值乘积,确定该字符类别分割图对应的概率值,所述概率值表征:该字符顺序分割图对应的字符属于该字符类别分割图对应的字符类别的可能性;
子步骤S23-3:根据多个字符类别分割图各自对应的概率值,确定该字符顺序分割图对应的字符的字符类别。
其中,子步骤S23-1和子步骤S23-2可以通过以下公式(1)实现:
pnm=∫(x,y)∈ΩGm(x,y)*Hn(x,y)
其中,pnm表示第n个字符属于第m种字符的概率,Gm表示第m个字符类别分割图,Hn表示第n个字符顺序分割图,Ω表示在Gm和Hn平面上所有可能的像素点,积分符号表示对各对像素点乘积进行累计。依次针对各个字符类别分割图执行上述公式,可以确定第n个字符属于各种字符类别的概率。
或者,子步骤S23-1和子步骤S23-2也可以通过以下公式(2)实现:
pn=∫(x,y)∈ΩG(x,y)*Hn(x,y)
其中,pn表示第n个字符属于各种字符类别的概率向量,pn是一个M维的向量,包括M个概率值,M个概率值分别对应M种字符类别。G表示字符类别分割图,Hn表示第n个字符顺序分割图,Ω表示在G和Hn平面上所有可能的像素点,积分符号表示对各对像素点乘积进行累计。
在执行上述子步骤S23-3时,具体地,可以从所述多个字符类别分割图各自对应的概率值中确定最大概率值;在所述最大概率值大于或等于预设阈值的情况下,将所述最大概率值对应的字符类别分割图所对应的字符类别,确定为该字符顺序分割图对应的字符的字符类别。
此外,在所述最大概率值小于所述预设阈值的情况下,可以结束文字识别流程。
示例地,对于第1个字符顺序分割图,从第1个字符顺序分割图与27个字符类别分割图分别对应的概率值中确定最大概率值。如图3所示,例如第1个字符顺序分割图与第23个字符类别分割图的概率值最大,且该概率值大于预设阈值(例如0.8),则将字母“W”作为识别结果中的第1个字符。
例如第2个字符顺序分割图与第9个字符类别分割图的概率值最大,且该概率值大于预设阈值(例如0.75),则将字母“I”作为识别结果中的第2个字符。
例如第3个字符顺序分割图与第7个字符类别分割图的概率值最大,且该概率值大于预设阈值(例如0.75),则将字母“G”作为识别结果中的第3个字符。
例如第4个字符顺序分割图与第1个字符类别分割图的概率值最大,且该概率值大于预设阈值(例如0.75),则将字母“A”作为识别结果中的第4个字符。
例如第5个字符顺序分割图与第14个字符类别分割图的概率值最大,且该概率值大于预设阈值(例如0.75),则将字母“N”作为识别结果中的第5个字符。
例如第6个字符顺序分割图与第17个字符类别分割图的概率值最大,但是该概率值小于预设阈值(例如0.75),说明第6个字符可能是背景,即不存在第6个字符,则结束识别文字识别流程。如此,如图3所示,获得的识别结果是字符串“WIGAN”。
另外,本申请还可以包括另一种结束文字识别流程的方式:例如在待识别图像中的字符个数大于N的情况下,在依次针对各个字符顺序分割图执行上述公式(2)时,当序号n大于N时,结束字符识别流程。
通过执行上述包括步骤S21至步骤S23的文字识别方法,不仅获得了待识别图像的多个字符类别分割图,还获得了待识别图像的多个字符顺序分割图。其中,一个字符类别分割图对应一种字符类别,第m个字符类别分割图中的每个像素点的像素值表征:该像素点属于第m类字符的可能性。一个字符顺序分割图对应待识别字符串中的一个字符,第n个字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第n个字符的可能性。
其中,多个字符顺序分割图使得距离较近的字符或相同字符可以分别对应不同的字符顺序分割图,从而使距离较近的字符或相同字符被有效拆分开。在识别期间,结合多个字符顺序分割图和多个字符类别分割图进行文字识别,可以获得更准确的识别结果。该识别结果中,各个字符间具有更准确的顺序性,并且多个字符的总数更准确。
参考图8和图9,图8是本申请另一实施例提出的文字识别方法的流程图,图9是本申请另一实施例提出的文字识别方法的示意图。如图8所示,在执行上述步骤S23之前,还可以执行以下步骤:
步骤S22'-1:对所述待识别图像进行字符位置识别,获得所述待识别图像的字符位置图,所述字符位置图中的每个像素点的像素值表征:该像素点位于字符中心的可能性;
步骤S22'-2:针对每个字符顺序分割图,根据所述字符位置图中的各个像素点的像素值,对该字符顺序分割图中的各个像素点的像素值进行调整,获得调整后的字符顺序分割图。
在某些实施例中,为了实施上述步骤S22'-1,如图9所示,可以首先获得特征提取模块CNN输出的图像特征,然后将该图像特征输入字符位置预测模块,该字符位置预测模块包括激活函数Sigmoid函数。在将图像特征输入该字符位置预测模块后,利用该字符位置预测模块的Sigmoid函数对图像特征进行处理,从而获得字符位置图。
在利用上述特征提取模块CNN和字符位置预测模块获得字符位置图之前,可以预先建立特征提取模块CNN和字符位置预测模块,然后利用样本图像对其进行训练,最后利用训练完毕的特征提取模块CNN和字符位置预测模块获得字符位置图。对于具体的训练方式,请参见下文。
通过执行上述步骤S22'-1所获得的字符位置图中的每个像素点的像素值表征:该像素点位于字符中心的可能性。参考图10,图10是本申请一实施例提出的字符位置图的示意图。如图10所示,字符位置图具体以热力图的形式体现各个像素点的像素值,图中高亮区域的像素值较高。
在某些实施例中,在实施上述步骤S22'-2时,具体地,针对第n个字符顺序分割图中的每个像素点,在该像素点的像素值较大,且字符位置图中相同位置像素点的像素值也较大的情况下,将第n个字符顺序分割图中的该像素点的像素值调整为一个较大的数值。否则,第n个字符顺序分割图中的该像素点的像素值调整为一个较小的数值。可以理解的,该调整方式与图7中所示的方式属于类似的发明构思。
为了实现上述调整过程,可以依次针对第n个字符顺序分割图中的每个像素点,在该像素点的像素值大于第三预设阈值(例如0.6),且字符位置图中相同位置像素点的像素值大于第四预设阈值(例如0.8)的情况下,将第n个字符顺序分割图中的该像素点的像素值调整为“1”,否则调整为“0”。在第n个字符顺序分割图的各个像素点的像素值均调整完毕后,将该第n个字符顺序分割图确定为:调整后的第n个字符顺序分割图。
为了实现上述调整过程,也可以采取一种计算量更小的方式。如图9所示,可以将第n个字符顺序分割图中的各个像素点的像素值,与字符位置图中各个像素点的像素值对应相乘。然后将第n个字符顺序分割图中每个像素点各自对应的乘积,作为该像素点的调整后的像素值。在第n个字符顺序分割图的各个像素点的像素值均调整完毕后,将该第n个字符顺序分割图确定为:调整后的第n个字符顺序分割图。
如图8所示,在执行上述步骤S22'-1和步骤S22'-2之后,原步骤S23可调整为:
步骤S23':根据每个调整后的字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
在执行步骤S23'时,具体地执行方式可参考上文中对步骤S23的解释,两者的区别在于:在执行步骤S23'时,针对的是调整后的字符顺序分割图。为简化篇幅,此处对步骤S23'的具体执行方式不做赘述。
本申请通过确定字符位置图,并利用字符位置图对多个字符顺序分割图进行调整,从而修正了字符顺序分割图中的字符定位误差,使得调整后的字符顺序分割图的各个像素点中,仅处于字符中心区域的像素点具有较大的像素值,而处于字符的周围区域和图像背景区域的像素点具有较小的像素值,如图9所示。因此可以进一步使得距离较近的字符被有效拆分开,同时可以避免一个字符被错误拆分成多个字符,从而进一步提高识别结果准确性。
以上,本申请通过实施例介绍了文字识别方法的应用过程,在某些实施例中,文字识别方法的应用过程中涉及到特征提取模块CNN、字符类别分割模块、字符顺序分割模块以及字符位置预测模块。以下,本申请通过实施例介绍各个模块的训练过程。应当理解的,上述文字识别方法的实施并非必须依赖于上述各个模块,上述各个模块的应用不应理解为对本申请的限定。
参考图11,图11是本申请一实施例提出的模型训练流程图。如图11所示,该训练流程包括以下步骤:
步骤S11-1:获得包含样本字符串的样本图像,所述样本图像携带所述样本字符串的文字序列标注。
示例地,获得一张样本图像,该样本图像中包含字符串“ROLANDGARROS”,该字符串呈现为艺术字。该样本图像携带的文字序列标注为“ROLANDGARROS”,该标注体现了每个字符的顺序和类别,即第1个字符为R,第2个字符为O,依此类推,第12个字符为S。
步骤S11-2:将所述样本图像输入预设模型的特征提取模块,以获得该样本图像的图像特征;将该图像特征输入所述预设模型的字符类别分割模块、字符顺序分割模块、以及字符位置预测模块,以分别获得字符类别分割图的预测结果、字符顺序分割图的预测结果、以及字符位置图的预测结果;利用所述字符位置图的预测结果对所述字符顺序分割图的预测结果进行调整,以获得所述字符顺序分割图的调整后的预测结果。
在执行步骤S11-2之前,需要预先搭建所述预设模型。其中,预设模型的结构可参考图9所示的模型结构,具体包括:特征提取模块CNN、字符类别分割模块、字符顺序分割模块以及字符位置预测模块。其中,字符类别分割模块、字符顺序分割模块以及字符位置预测模块均与所述特征提取模块CNN连接。
在执行步骤S11-2期间,字符类别分割模块所输出的字符类别分割图的预测结果即是:M个预测的字符类别分割图。字符顺序分割模块所输出的字符顺序分割图的预测结果即是:N个预测的字符顺序分割图。字符位置预测模块所输出的字符位置图的预测结果即是:1个预测的字符位置图。
其中,利用字符位置图的预测结果对字符顺序分割图的预测结果进行调整的具体方式,可以参考上文的步骤S22'-2中的调整方式,本申请在此不做赘述。
步骤S11-3:根据所述文字序列标注和所述字符类别分割图的预测结果,确定所述字符顺序分割图的期望结果,并根据所述字符顺序分割图的期望结果和调整后的预测结果,对所述特征提取模块、字符顺序分割模块以及字符位置预测模块进行更新。
在确定字符顺序分割图的期望结果时,示例地,具体可以依次针对文字序列标注中的每个字符,从该字符对应的一个字符类别分割图中确定该字符对应的字符顺序分割图的期望结果。
以文字序列标注“ROLANDGARROS”中的第1个字符“R”为例,参考图12,图12是本申请一实施例提出的确定字符顺序分割图的期望结果的示意图。如图12所示,第1个字符“R”对应N个预测的字符类别分割图中的第18个字符类别分割图,该字符类别分割图中的每个像素点的像素值表征:该像素点属于字母R的可能性。
如图12所示,该字符类别分割图中存在两个像素值较高区域(如图12中的实线框),由于当前针对的是第1个字符,确定其对应的字符顺序分割图的期望结果,因此两个像素值较高区域中最左侧的区域对应第1个字符。如此,确定出的第1个字符顺序分割图的期望结果如图12所示。
依次类推,针对文字序列标注“ROLANDGARROS”中的每个字符,确定出各自对应的字符顺序分割图的期望结果。
在根据字符顺序分割图的期望结果和调整后的预测结果,对特征提取模块、字符顺序分割模块以及字符位置预测模块进行更新时,可以首先确定出损失值然后根据该损失值/>对特征提取模块、字符顺序分割模块以及字符位置预测模块进行更新。示例地,可以依据以下公式(3)确定损失值/>
其中,onehot()是one hot编码函数,onehot(n)表示第n个字符顺序分割图对应的期望结果,例如如图12中的期望结果图像;H(i,j)表示第n个字符对应的字符顺序分割图的调整后的预测结果;LCE()表示交叉熵损失函数;表示第n个字符在字符类别分割图上的所有对应像素点的坐标;/>表示第n个字符在字符类别分割图上的所有对应像素点的像素值之和的绝对值。
如图11所示,该训练流程还可以包括以下步骤:
步骤S11-4:根据所述文字序列标注和所述字符顺序分割图的调整后的预测结果,确定所述字符类别分割图的期望结果,并根据所述字符类别分割图的期望结果和预测结果,对所述特征提取模块和字符类别分割模块进行更新。
在确定字符类别分割图的期望结果时,示例地,具体可以依次针对文字序列标注中的每个字符,从该字符对应的一个字符顺序分割图中确定该字符对应的字符类别分割图的期望结果。
继续以文字序列标注“ROLANDGARROS”中的第1个字符“R”为例,参考图13,图13是本申请一实施例提出的确定字符类别分割图的期望结果的示意图。如图13所示,第1个字符“R”对应第1个预测的字符顺序分割图(该字符顺序分割图是调整后的),该字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第1个字符的可能性。
如图13所示,该字符顺序分割图中的靠左区域的像素值较高(如图13中的实线框),由于当前针对的是第1个字符,即针对的是字母“R”,确定其对应的字符类别分割图的期望结果。如此,确定出第18个字符类别分割图的期望结果如图13所示。
依次类推,针对文字序列标注“ROLANDGARROS”中的每个字符,确定出各自对应的字符类别分割图的期望结果。
在根据字符类别分割图的期望结果和预测结果,对特征提取模块和字符类别分割模块进行更新时,可以首先确定出损失值然后根据该损失值/>对特征提取模块和字符类别分割模块进行更新。示例地,可以依据以下公式(4)确定损失值/>
其中,onehot()是one hot编码函数,onehot(T(n))表示第n个字符对应的字符类别分割图的期望结果,例如如图13中的期望结果图像;G(i,j)表示第n个字符的字符类别所对应的字符类别分割图的预测结果;LCE()表示交叉熵损失函数;表示第n个字符在字符顺序分割图上的所有对应像素点的坐标;/>表示第n个字符在字符顺序分割图上的所有对应像素点的像素值之和的绝对值。
通过以上述步骤S11-1至步骤S11-4的方式更新预设模型的各个模块,在仅对样本图像做文字序列标注的情况下,使字符类别分割图的预测结果和字符顺序分割图的预测结果之间相互监督,以生成损失函数,从而对预设模型的各个模块进行更新。因此上述方式可以减少样本图像的标注工作量,有利于调高训练效率。
应当理解的,本申请也可以采用其他训练方式,例如在获得样本图像后,手动地针对该样本图像生成:字符类别分割图的样本标注、字符顺序分割图的样本标注、以及字符位置图的样本标注。
然后将该样本图像输入至预设模型中,预设模型的各个模块分别输出:字符类别分割图的预测结果、字符顺序分割图的预测结果、以及字符位置图的预测结果。
最后根据字符类别分割图的样本标注和预测结果,生成针对字符类别分割模块和特征提取模块的损失值,并利用该损失值更新这两个模块。
根据字符顺序分割图的样本标注和预测结果,生成针对字符顺序分割模块和特征提取模块的损失值,并利用该损失值更新这两个模块。
根据字符位置图的样本标注和预测结果,生成针对字符位置预测模块和特征提取模块的损失值,并利用该损失值更新这两个模块。
基于同一发明构思,本申请一实施例提供一种文字识别装置。参考图14,图14是本申请一实施例提出的文字识别装置的示意图。如图14所示,该装置包括:
字符类别分割模块1401,用于对待识别图像进行字符类别分割,获得所述待识别图像的M个字符类别分割图,所述M个字符类别分割图与M种字符类别一一对应,所述M个字符类别分割图中的第m个字符类别分割图中的每个像素点的像素值表征:该像素点属于第m类字符的可能性;
字符顺序分割模块1402,用于对所述待识别图像进行字符顺序分割,获得所述待识别图像的N个字符顺序分割图,所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第n个字符的可能性;
字符类别确定模块1403,用于根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
可选地,所述装置还包括:
字符位置识别模块对所述待识别图像进行字符位置识别,获得所述待识别图像的字符位置图,所述字符位置图中的每个像素点的像素值表征:该像素点位于字符中心的可能性;
调整模块,用于针对每个字符顺序分割图,用于在确定所述待识别图像中每个字符的字符顺序和字符类别之前,根据所述字符位置图中的各个像素点的像素值,对该字符顺序分割图中的各个像素点的像素值进行调整,获得调整后的字符顺序分割图;
可选地,所述字符类别确定模块具体用于:根据每个调整后的字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
可选地,所述字符顺序分割模块包括:
特征提取子模块,用于对所述待识别图像进行特征提取,获得该待识别图像的图像特征;
下采样子模块,用于将所述图像特征输入下采样路径,以针对所述图像特征执行下采样操作,获得下采样特征;
特征编码子模块,用于利用循环神经网络模块对所述下采样特征进行编码,获得编码特征;
上采样子模块,用于将所述编码特征输入上采样路径,以针对所述编码特征执行上采样操作,获得上采样特征;
卷积子模块,用于对所述上采样特征进行卷积处理,获得所述待识别图像的N个字符顺序分割图。
可选地,所述下采样子模块具体用于:将所述图像特征输入所述下采样路径,使得每个下采样节点执行完下采样操作后,将操作结果传入下一个下采样节点,多个下采样节点依次获得各自对应的操作结果,多个操作结果为分辨率递减的多个下采样特征图;将分辨率最低的下采样特征图确定为所述下采样特征。
可选地,所述上采样子模块具体用于:将所述下采样特征输入所述上采样路径,使得每个上采样节点执行完上采样操作后,获得该上采样节点对应的上采样特征图,然后对该上采样特征图与对应下采样特征图执行相加操作,并将所述相加操作的操作结果传入下一个上采样节点,其中,执行相加操作的上采样特征图和下采样特征图两者的分辨率相等;将所述上采样路径输出的分辨率最高的上采样特征图确定为所述上采样特征。
可选地,所述字符类别确定模块包括:
像素值处理子模块,用于针对每个字符顺序分割图,将该字符类别分割图中各个像素点的像素值与该字符顺序分割图中各个像素点的像素值,按照对应位置相乘,得到该字符类别分割图中各个像素点对应的像素值乘积;
概率值确定子模块,用于针对每个字符类别分割图,根据该字符类别分割图中各个像素点对应的像素值乘积,确定该字符类别分割图对应的概率值,所述概率值表征:该字符顺序分割图对应的字符属于该字符类别分割图对应的字符类别的可能性;
字符类别确定子模块,用于根据多个字符类别分割图各自对应的概率值,确定该字符顺序分割图对应的字符的字符类别。
可选地,所述字符类别确定子模块具体用于:从所述多个字符类别分割图各自对应的概率值中确定最大概率值;在所述最大概率值大于或等于预设阈值的情况下,将所述最大概率值对应的字符类别分割图所对应的字符类别,确定为该字符顺序分割图对应的字符的字符类别;
所述装置还包括:
流程结束模块,用于在所述最大概率值小于所述预设阈值的情况下,结束文字识别流程。
可选地,所述装置还包括:
样本图像获得模块,用于在对待识别图像进行字符类别分割和字符顺序分割之前,获得包含样本字符串的样本图像,所述样本图像携带所述样本字符串的文字序列标注;
预测结果获得模块,用于将所述样本图像输入预设模型的特征提取模块,以获得该样本图像的图像特征;将该图像特征输入所述预设模型的字符类别分割模块、字符顺序分割模块、以及字符位置预测模块,以分别获得字符类别分割图的预测结果、字符顺序分割图的预测结果、以及字符位置图的预测结果;利用所述字符位置图的预测结果对所述字符顺序分割图的预测结果进行调整,以获得所述字符顺序分割图的调整后的预测结果;
第一更新模块,用于根据所述文字序列标注和所述字符类别分割图的预测结果,确定所述字符顺序分割图的期望结果,并根据所述字符顺序分割图的期望结果和调整后的预测结果,对所述特征提取模块、字符顺序分割模块以及字符位置预测模块进行更新。
可选地,所述装置还包括:
第二更新模块,用于根据所述文字序列标注和所述字符顺序分割图的调整后的预测结果,确定所述字符类别分割图的期望结果,并根据所述字符类别分割图的期望结果和预测结果,对所述特征提取模块和字符类别分割模块进行更新。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的文字识别方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的文字识别方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种文字识别方法、装置、电子设备以及可读存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种文字识别方法,其特征在于,所述方法包括:
对待识别图像进行字符类别分割,获得所述待识别图像的M个字符类别分割图,所述M个字符类别分割图与M种字符类别一一对应,所述M个字符类别分割图中的第m个字符类别分割图中的每个像素点的像素值表征:该像素点属于第m类字符的可能性;
对所述待识别图像进行字符顺序分割,获得所述待识别图像的N个字符顺序分割图,所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第n个字符的可能性;
根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
2.根据权利要求1所述的方法,其特征在于,在确定所述待识别图像中每个字符的字符顺序和字符类别之前,所述方法还包括:
对所述待识别图像进行字符位置识别,获得所述待识别图像的字符位置图,所述字符位置图中的每个像素点的像素值表征:该像素点位于字符中心的可能性;
针对每个字符顺序分割图,根据所述字符位置图中的各个像素点的像素值,对该字符顺序分割图中的各个像素点的像素值进行调整,获得调整后的字符顺序分割图;
所述根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别,包括:
根据每个调整后的字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述待识别图像进行字符顺序分割,获得所述待识别图像的N个字符顺序分割图,包括:
对所述待识别图像进行特征提取,获得该待识别图像的图像特征;
将所述图像特征输入下采样路径,以针对所述图像特征执行下采样操作,获得下采样特征;
利用循环神经网络模块对所述下采样特征进行编码,获得编码特征;
将所述编码特征输入上采样路径,以针对所述编码特征执行上采样操作,获得上采样特征;
对所述上采样特征进行卷积处理,获得所述待识别图像的N个字符顺序分割图。
4.根据权利要求3所述的方法,其特征在于,所述下采样路径包括多个串联的下采样节点;所述将所述图像特征输入下采样路径,以针对所述图像特征执行下采样操作,获得下采样特征,包括:
将所述图像特征输入所述下采样路径,使得每个下采样节点执行完下采样操作后,将操作结果传入下一个下采样节点,多个下采样节点依次获得各自对应的操作结果,多个操作结果为分辨率递减的多个下采样特征图;
将分辨率最低的下采样特征图确定为所述下采样特征。
5.根据权利要求4所述的方法,其特征在于,所述上采样路径包括多个串联的下采样节点;所述将所述编码特征输入上采样路径,以针对所述编码特征执行上采样操作,获得上采样特征,包括:
将所述下采样特征输入所述上采样路径,使得每个上采样节点执行完上采样操作后,获得该上采样节点对应的上采样特征图,然后对该上采样特征图与对应下采样特征图执行相加操作,并将所述相加操作的操作结果传入下一个上采样节点,其中,执行相加操作的上采样特征图和下采样特征图两者的分辨率相等;
将所述上采样路径输出的分辨率最高的上采样特征图确定为所述上采样特征。
6.根据权利要求1所述的方法,其特征在于,所述根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别,包括:
针对每个字符顺序分割图,执行以下步骤:
针对每个字符类别分割图,将该字符类别分割图中各个像素点的像素值与该字符顺序分割图中各个像素点的像素值,按照对应位置相乘,得到该字符类别分割图中各个像素点对应的像素值乘积;
针对每个字符类别分割图,根据该字符类别分割图中各个像素点对应的像素值乘积,确定该字符类别分割图对应的概率值,所述概率值表征:该字符顺序分割图对应的字符属于该字符类别分割图对应的字符类别的可能性;
根据多个字符类别分割图各自对应的概率值,确定该字符顺序分割图对应的字符的字符类别。
7.根据权利要求6所述的方法,其特征在于,所述根据多个字符类别分割图各自对应的概率值,确定该字符顺序分割图对应的字符的字符类别,包括:
从所述多个字符类别分割图各自对应的概率值中确定最大概率值;
在所述最大概率值大于或等于预设阈值的情况下,将所述最大概率值对应的字符类别分割图所对应的字符类别,确定为该字符顺序分割图对应的字符的字符类别;
所述方法还包括:
在所述最大概率值小于所述预设阈值的情况下,结束文字识别流程。
8.根据权利要求2所述的方法,其特征在于,在对待识别图像进行字符类别分割和字符顺序分割之前,所述方法还包括:
获得包含样本字符串的样本图像,所述样本图像携带所述样本字符串的文字序列标注;
将所述样本图像输入预设模型的特征提取模块,以获得该样本图像的图像特征;将该图像特征输入所述预设模型的字符类别分割模块、字符顺序分割模块、以及字符位置预测模块,以分别获得字符类别分割图的预测结果、字符顺序分割图的预测结果、以及字符位置图的预测结果;利用所述字符位置图的预测结果对所述字符顺序分割图的预测结果进行调整,以获得所述字符顺序分割图的调整后的预测结果;
根据所述文字序列标注和所述字符类别分割图的预测结果,确定所述字符顺序分割图的期望结果,并根据所述字符顺序分割图的期望结果和调整后的预测结果,对所述特征提取模块、字符顺序分割模块以及字符位置预测模块进行更新。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述文字序列标注和所述字符顺序分割图的调整后的预测结果,确定所述字符类别分割图的期望结果,并根据所述字符类别分割图的期望结果和预测结果,对所述特征提取模块和字符类别分割模块进行更新。
10.一种文字识别装置,其特征在于,所述装置包括:
字符类别分割模块,用于对待识别图像进行字符类别分割,获得所述待识别图像的M个字符类别分割图,所述M个字符类别分割图与M种字符类别一一对应,所述M个字符类别分割图中的第m个字符类别分割图中的每个像素点的像素值表征:该像素点属于第m类字符的可能性;
字符顺序分割模块,用于对所述待识别图像进行字符顺序分割,获得所述待识别图像的N个字符顺序分割图,所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第n个字符的可能性;
字符类别确定模块,用于根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1至9任一所述的方法中的步骤。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1至9任一所述的方法的步骤。
CN201911313107.0A 2019-12-18 2019-12-18 文字识别方法、装置、电子设备以及可读存储介质 Active CN111178363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911313107.0A CN111178363B (zh) 2019-12-18 2019-12-18 文字识别方法、装置、电子设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911313107.0A CN111178363B (zh) 2019-12-18 2019-12-18 文字识别方法、装置、电子设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN111178363A CN111178363A (zh) 2020-05-19
CN111178363B true CN111178363B (zh) 2024-02-20

Family

ID=70652166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911313107.0A Active CN111178363B (zh) 2019-12-18 2019-12-18 文字识别方法、装置、电子设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN111178363B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783760B (zh) * 2020-06-30 2023-08-08 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
CN112488108A (zh) * 2020-12-11 2021-03-12 广州小鹏自动驾驶科技有限公司 一种车位号识别方法、装置、电子设备及存储介质
CN112800972A (zh) * 2021-01-29 2021-05-14 北京市商汤科技开发有限公司 文字识别方法及装置、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0684576A2 (en) * 1994-05-24 1995-11-29 International Business Machines Corporation Improvements in image processing
US5684891A (en) * 1991-10-21 1997-11-04 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5943443A (en) * 1996-06-26 1999-08-24 Fuji Xerox Co., Ltd. Method and apparatus for image based document processing
JP2014085841A (ja) * 2012-10-24 2014-05-12 Glory Ltd 文字切出装置及び文字切出方法並びに文字認識装置
CN105512611A (zh) * 2015-11-25 2016-04-20 成都数联铭品科技有限公司 一种表格图像检测识别方法
CN108509950A (zh) * 2018-03-27 2018-09-07 吴泽彬 基于概率特征加权融合的铁路接触网支柱号牌检测识别法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101733539B1 (ko) * 2009-11-24 2017-05-10 삼성전자주식회사 문자인식장치 및 그 제어방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684891A (en) * 1991-10-21 1997-11-04 Canon Kabushiki Kaisha Method and apparatus for character recognition
EP0684576A2 (en) * 1994-05-24 1995-11-29 International Business Machines Corporation Improvements in image processing
US5943443A (en) * 1996-06-26 1999-08-24 Fuji Xerox Co., Ltd. Method and apparatus for image based document processing
JP2014085841A (ja) * 2012-10-24 2014-05-12 Glory Ltd 文字切出装置及び文字切出方法並びに文字認識装置
CN105512611A (zh) * 2015-11-25 2016-04-20 成都数联铭品科技有限公司 一种表格图像检测识别方法
CN108509950A (zh) * 2018-03-27 2018-09-07 吴泽彬 基于概率特征加权融合的铁路接触网支柱号牌检测识别法

Also Published As

Publication number Publication date
CN111178363A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN109840531B (zh) 训练多标签分类模型的方法和装置
US20190095730A1 (en) End-To-End Lightweight Method And Apparatus For License Plate Recognition
CN111178363B (zh) 文字识别方法、装置、电子设备以及可读存储介质
US20180114071A1 (en) Method for analysing media content
US11755889B2 (en) Method, system and apparatus for pattern recognition
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
US11797845B2 (en) Model learning device, model learning method, and program
JP2020123330A (ja) ニューラルネットワーク学習に利用されるオートラベリングされたイメージのうちでラベル検収のためのサンプルイメージを取得する方法、及びそれを利用したサンプルイメージ取得装置
CN112232309B (zh) 用于热像人脸识别的方法、电子设备和存储介质
CN112070114B (zh) 基于高斯约束注意力机制网络的场景文字识别方法及系统
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN109858327B (zh) 一种基于深度学习的字符分割方法
CN111723841A (zh) 文本检测方法、装置、电子设备及存储介质
CN112651364B (zh) 图像处理方法、装置、电子设备及存储介质
CN112307978A (zh) 目标检测方法、装置、电子设备及可读存储介质
CN111985537A (zh) 一种目标图像识别方法、终端、系统和存储介质
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN116563840B (zh) 基于弱监督跨模态对比学习的场景文本检测与识别方法
CN114299304A (zh) 一种图像处理方法及相关设备
KR102239133B1 (ko) 영상 변환을 이용한 머신러닝 기반 결함 분류 장치 및 방법
US11989650B2 (en) Saliency prioritization for image processing
CN115346270A (zh) 交警手势识别方法、装置、电子设备及存储介质
CN111402164B (zh) 矫正网络模型的训练方法和装置、文本识别方法和装置
CN114429602A (zh) 语义分割方法、装置、电子设备及存储介质
CN115937875A (zh) 文本识别方法及装置、存储介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant