CN109522900A - 自然场景文字识别方法及装置 - Google Patents

自然场景文字识别方法及装置 Download PDF

Info

Publication number
CN109522900A
CN109522900A CN201811272122.0A CN201811272122A CN109522900A CN 109522900 A CN109522900 A CN 109522900A CN 201811272122 A CN201811272122 A CN 201811272122A CN 109522900 A CN109522900 A CN 109522900A
Authority
CN
China
Prior art keywords
network
natural scene
word sequence
text
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811272122.0A
Other languages
English (en)
Other versions
CN109522900B (zh
Inventor
鞠海玲
张默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moshanghua Technology Co Ltd
Original Assignee
Beijing Moshanghua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moshanghua Technology Co Ltd filed Critical Beijing Moshanghua Technology Co Ltd
Priority to CN201811272122.0A priority Critical patent/CN109522900B/zh
Publication of CN109522900A publication Critical patent/CN109522900A/zh
Application granted granted Critical
Publication of CN109522900B publication Critical patent/CN109522900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Abstract

本申请公开了一种自然场景文字识别方法及装置。该方法包括:将获取的自然场景图输入实例分割网络得到掩码图和像素图;根据所述掩码图确定空间变换网络的控制参数;通过设置所述控制参数的空间变换网络将所述像素图变换成纠形图;以及,采用文字识别网络识别出所述纠形图中的文字序列。该装置包括:输入单元、确定单元、变换单元及识别单元。本申请解决了由于自然场景图中文字以外的信息会干扰变换效果造成的文字序列识别准确率低的技术问题。

Description

自然场景文字识别方法及装置
技术领域
本申请涉及图像识别技术领域,具体而言,涉及一种自然场景文字识别方法及装置。
背景技术
在当前的科技发展潮流下,借助图像识别文字的技术较为常见。主要可以分为光学文字识别、自然场景中的文字识别等。
光学文字识别(OCR)主要面向高清的文档图像,此类技术假设输入图像背景干净、字体简单且文字排布整齐。在符合此前提要求的情况下,训练好的网络模型能够达到很高的识别准确率,并且训练过程较快。
自然场景中的文字识别(STR)主要面向包含文字的自然场景图像,此类技术假设图像背景复杂、字体多样、存在文字区域变形等情况。为了从此类图像中识别文字,当前流行使用基于深度学习网络的技术方法。为了保证所训练网络模型的健壮性,训练数据集中需要大量在各种拍摄角度下采集的变形文字图像,这就间接地导致图像标注工作量很大、并且网络模型训练周期很长。
目前的自然场景文字识别方法中,通常涉及文字检测和文字识别两个模块。其中,文字检测模块负责在原始图像中找到文字区域,文字识别模块负责从文字区域中识别出文字序列。在某些文字识别方法中,还在文字检测和文字识别两个模块中间加入空间变换的模块,该模块负责将检测出的文字区域进行变换,图像被变换后才可以送入识别模块。如果文字区域经过变换后其文字变形程度变小,识别模块中可以更容易得到准确的文字序列识别结果。如果图像变换模块达成预期变换效果,训练集中需要的变形文字图像数量以及对应标注工作量将可以变少,文字识别模块的训练周期也可以变短。
在包含图像变换模块的自然场景文字识别方法中,往往先要在原始文字区域特征图上计算出变换模块的控制参数,然后根据控制参数在文字区域特征图上采样计算出新文字区域特征图。由于原始文字区域特征图中还包含文字块背景信息、以及文字笔画分解等丰富信息,这类信息能一定程度上干扰图像变换模块找到合适的控制参数,从而难以输出变形程度较低的文字区域特征图,进而导致不理想的文字序列识别结果。
针对相关技术中自然场景图中文字以外的信息会干扰变换效果造成的文字序列识别准确率低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种自然场景文字识别方法及装置,以解决自然场景图中文字以外的信息会干扰变换效果造成的文字序列识别准确率低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种自然场景文字识别方法。
根据本申请的自然场景文字识别方法包括:将获取的自然场景图输入实例分割网络得到掩码图和像素图;根据所述掩码图确定空间变换网络的控制参数;通过设置所述控制参数的空间变换网络将所述像素图变换成纠形图;以及,采用文字识别网络识别出所述纠形图中的文字序列。
进一步的,将获取的自然场景图输入实例分割网络得到掩码图和像素图包括:获取自然场景图;实例分割网络检测得到读入的所述自然场景图的文本行实例的位置,并输出掩码图;根据所述文本行实例的位置计算出矩形边界框;裁减出所述矩形边界框作为所述像素图。
进一步的,根据所述掩码图确定空间变换网络的控制参数包括:空间变换网络接收所述掩码图,并预测出文本行实例的关键点列表;根据关键点列表计算所述空间变换网络的控制参数。
进一步的,将获取的自然场景图像输入实例分割网络得到掩码图和像素图之后还包括:判断是否处于网络模型的训练阶段;如果是,则所述实例分割网络接收实例分割标注;将所述实例分割标注结合所述掩码图计算出分割误差;通过所述分割误差在梯度反向传播过程中优化所述网络模型。
进一步的,通过设置所述控制参数的空间变换网络将所述像素图变换成纠形图之后还包括:判断是否处于网络模型的训练阶段;如果是,所述空间变换网络接收实例关键点标注;将所述实例关键点标注结合预测的关键点列表计算出关键点误差;通过所述关键点误差在梯度反向传播过程中优化所述网络模型。
进一步的,采用文字识别网络识别出所述纠形图中的文字序列之后还包括:判断是否处于网络模型的训练阶段;如果是,所述文字识别网络接收文字序列标注;将所述文字序列标注结合所述文字序列计算出文字序列误差;通过所述文字序列误差在梯度反向传播过程中优化所述网络模型。
为了实现上述目的,根据本申请的另一方面,提供了一种自然场景文字识别装置。
根据本申请的自然场景文字识别装置包括:输入单元,用于将获取的自然场景图输入实例分割网络得到掩码图和像素图;确定单元,用于根据所述掩码图确定空间变换网络的控制参数;变换单元,用于通过设置所述控制参数的空间变换网络将所述像素图变换成纠形图;以及,识别单元,用于采用文字识别网络识别出所述纠形图中的文字序列。
进一步的,还包括:第一模型判断单元,用于判断是否处于网络模型的训练阶段,如果是,则进入第一误差计算单元;所述第一误差计算单元,用于所述实例分割网络接收实例分割标注;将所述实例分割标注结合所述掩码图计算出分割误差;第一模型优化单元,用于通过所述分割误差的梯度反向传播优化所述网络模型。
进一步的,还包括:第二模型判断单元,用于判断是否处于网络模型的训练阶段,如果是,则进入第二误差计算单元;第二误差计算单元,用于所述空间变换网络接收实例关键点标注;将所述实例关键点标注结合预测的关键点列表计算出关键点误差;第二模型优化单元,用于通过所述关键点误差的梯度反向传播优化所述网络模型。
进一步的,还包括:第三模型判断单元,用于判断是否处于网络模型的训练阶段,如果是,则进入第三误差计算单元;第三误差计算单元,用于所述文字识别网络接收文字序列标注;将所述文字序列标注结合所述文字序列计算出文字序列误差;第三模型优化单元,用于通过所述文字序列误差的梯度反向传播优化所述网络模型。
在本申请实施例中,采用结合实例分割网络、空间变换网络和文字识别网络的方式,通过将获取的自然场景图输入实例分割网络得到掩码图和像素图,然后通过掩码图确定空间变换网络的控制参数,再通过设置该控制参数的空间变换网络将所述像素图变换成纠形图,最后采用文字识别网络识别出纠形图中的文字序列,达到了自然场景图中文字以外的信息不会干扰变换效果的目的,从而实现了提高文字序列识别准确率的技术效果,进而解决了由于自然场景图中文字以外的信息会干扰变换效果造成的文字序列识别准确率低的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的自然场景文字识别方法示意图;
图2是根据本申请实施例的自然场景文字识别装置示意图;
图3是根据本申请一优选实施例的自然场景文字识别方法流程示意图;
图4是根据本申请另一优选实施例的自然场景文字识别方法流程示意图;
图5(A)-图5(E)是根据本申请实施例的自然场景图变换示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种自然场景文字识别方法,如图1所示,该方法包括如下的步骤S100至步骤S106:
步骤S100、将获取的自然场景图输入实例分割网络得到掩码图和像素图;
具体的,将获取的自然场景图输入实例分割网络得到掩码图和像素图包括:
获取自然场景图;
实例分割网络检测得到读入的所述自然场景图的文本行实例的位置,并输出掩码图;
根据所述文本行实例的位置计算出矩形边界框;
裁减出所述矩形边界框作为所述像素图。
基于深度学习的视觉分析领域,存在多种实例分割方案。例如,深度学习网络模型PixelLink、PSENet等都可以检测出图像中的文本行实例、并输出每个实例的掩码图。本方法不限定使用的具体方案,可根据目标应用场景里文本行实例的尺寸特点来选择匹配效果最好的实例分割方案。
掩码图的尺寸,可以是文本实例原图相同大小,也可以比文本实例原图缩小数倍。如果输出掩码图的尺寸较大、分辨率较高,则后面空间变换网络的转换效果越好、但是执行速度会略慢。建议根据目标应用场景里文本行实例的尺寸特点来选择效果最好的掩码图尺寸。
本实施例中的文本行实例,在英文识别场景中通常对应一个单词,在中文识别场景中通常对应一段不包含空格的连续字符,实际应用场景中,一张自然场景图中往往包含多个文本行实例。
以如图5(A)为例,其为自然场景图中的一张图。因此,如该图所示,可以检测出该图中包含了5个文本行实例的位置,其中有水平的、倾斜的、和弯曲的;从而可以输出5个掩码图。
以如图5(D)为例,其为5个掩码图中的一个,该掩码图中,文本行实例前景位置各像素均被赋值为1,背景位置各像素均被赋值为0。
以如图5(B)和5(C)为例,其为按照文本行实例的矩形边界框,裁剪得到的图5(D)的掩码图对应的如图5(B)所示的像素图;优选的,为了避免花哨的背景图案干扰后面空间变换任务,可以进一步将像素图中文本行实例背景区域像素设置为如图5(C)所示的纯色像素图。
图5(A)中的其他文本行实例可通过实例分割网络实现掩码图和像素图的获取;进而可以按照分割的文本行实例分别进行后续的控制参数确定、空间转换;如此,可以保证空间变换的效果。
优选的,将获取的自然场景图像输入实例分割网络得到掩码图和像素图之后还包括:
判断是否处于网络模型的训练阶段;
如果是,则所述实例分割网络接收实例分割标注;
将所述实例分割标注结合所述掩码图计算出分割误差;
通过所述分割误差在梯度反向传播过程中优化所述网络模型;
如果当前输入的自然场景图像的不带有实例分割标注,则可以跳过;
如果当前处于网络模型预测阶段,也可以跳过。
特别的,本实施例中支持弱监督学习,不要求自然场景图中全部图像都带有实例分割标注。分割误差可以帮助优化网络模型参数。
步骤S102、根据所述掩码图确定空间变换网络的控制参数;
具体的,根据所述掩码图确定空间变换网络的控制参数包括:
空间变换网络接收所述掩码图,并预测出文本行实例的关键点列表;
根据关键点列表计算所述空间变换网络的控制参数。
本实施例中,不限定使用哪种类型关键点集合,可根据目标应用场景里文本行实例的尺寸特点来选择关键点数量、及其在转换后图像中的位置。
本实施例中,允许利用公开自然场景图文数据集以及合成图文数据集中的关键点标注,从而可以加速控制参数学习过程,并使得空间变换网络的文本行实例纠形效果更好。
确定空间变换网络的控制参数,从而为空间变换网络排除变换过程中,自然场景图中文字以外的信息的干扰提供保障。
步骤S104、通过设置所述控制参数的空间变换网络将所述像素图变换成纠形图;
以如图5(D)所示的纯色像素图为例,通过设置控制参数后的空间变换网络的变化,得到如图5(E)所示的纠形图;该纠形图的纠正效果较好,可以提高文字识别网络识别文字序列的准确率。
优选的,通过设置所述控制参数的空间变换网络将所述像素图变换成纠形图之后还包括:
判断是否处于网络模型的训练阶段;
如果是,所述空间变换网络接收实例关键点标注;
将所述实例关键点标注结合预测的关键点列表计算出关键点误差;
通过所述关键点误差在梯度反向传播过程中优化所述网络模型;
如果当前输入的自然场景图像中文本行实例不带有关键点标注,则可以跳过;
如果当前处于网络模型预测阶段,也可以跳过。
特别地,本实施例中支持弱监督学习方法,不要求自然场景图中全部文本行实例都带有关键点标注。关键点误差可以帮助优化网络模型参数。
步骤S106、采用文字识别网络识别出所述纠形图中的文字序列。
基于深度学习的视觉分析领域,存在多种文字识别网络实施框架。例如,深度学习网络框架CNN+DLSTM+CTC、Encoder+Attention+Decoder等都可以检测出图像中的文本行序列。本实施例中,不限定使用的具体方案,可根据目标应用场景里文本行尺寸特点以及字符集规模来选择效果最好的文字识别网络。
优选的,采用文字识别网络识别出所述纠形图中的文字序列之后还包括:
判断是否处于网络模型的训练阶段;
如果是,所述文字识别网络接收文字序列标注;
将所述文字序列标注结合所述文字序列计算出文字序列误差;
通过所述文字序列误差在梯度反向传播过程中优化所述网络模型;
如果当前处于网络模型预测阶段,则可以跳过。
文字序列误差可以帮助优化网络模型参数。
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,采用结合实例分割网络、空间变换网络和文字识别网络的方式,通过将获取的自然场景图输入实例分割网络得到掩码图和像素图,然后通过掩码图确定空间变换网络的控制参数,再通过设置该控制参数的空间变换网络将所述像素图变换成纠形图,最后采用文字识别网络识别出纠形图中的文字序列,达到了自然场景图中文字以外的信息不会干扰变换效果的目的,从而实现了提高文字序列识别准确率的技术效果,进而解决了由于自然场景图中文字以外的信息会干扰变换效果造成的文字序列识别准确率低的技术问题。
在一些实施例中,如图3所示,提供一种系统,包括实例分割网络、空间变换网络、文字识别网络;
所述实例分割网络,负责在输入的自然场景图片中检测出每个文本行实例,并为每个文本行实例输出一个掩码图和一个像素图。
所述空间变换网络负责执行图像空间变换操作,将变形的文本行实例图像变换成非形变的文本行实例图像。空间变换过程中使用的控制参数,则根据对应文本行实例的像素级掩码图来动态生成。
所述文字识别网络负责从文本行实例纠形图中得到文字序列识别结果。
在网络模型训练阶段,本实施例中采用多目标训练(即多种预测误差联合训练)策略。可以接收多种形式的标注数据,从而更有效地计算各个功能模块的局部预测误差。其中,实例分割网络可以接收实例分割标注数据,并根据标注数据和分割预测结果计算出实例分割loss;空间变换网络可以接收文本行实例关键点标注数据,并根据标注数据和关键点预测结果计算出关键点loss;文字识别网络可以接收文字序列标注数据,并根据标注数据和文字序列识别结果计算出文字序列loss。在网络模型训练阶段的梯度反向传播过程中,上述三种预测误差都可以帮助优化网络模型参数。
在一些实施例中,如图4所示,提供一种方法,包括:
步骤S11中,实例分割网络读入自然场景图像,检测出图像中的各个文本行实例的位置,并输出每个实例的掩码图。
步骤S12中,实例分割网络根据步骤S11中产生的文本行实例位置计算出文本行实例对应的矩形边界框,进而裁减出文本行实例所在的矩形区域作为该文本行实例的像素图。
步骤S13中,如果当前处于网络模型训练阶段,实例分割网络将根据输入的实例分割标注、以及步骤S11中产生的文本行实例掩码图,来计算出本训练批次内各文本行实例的分割误差(loss)。
步骤S14中,空间变换网络接收步骤S11中输出的文本行实例掩码图,预测出文本行实例的关键点列表,进而根据关键点列表计算输出空间变换过程中使用的控制参数。
步骤S15中,空间变换网络用步骤S14中新生成的控制参数执行空间变换操作,将步骤S12中得到的文本行实例像素图变换成非形变的文本行实例纠形图。
步骤S16中,如果当前处于网络模型训练阶段,空间变换网络可以接收文本行实例关键点标注,并结合标注数据和步骤S14中预测出的关键点列表计算出关键点loss。
步骤S17中,文字识别网络从步骤S15产生的文本行实例纠形图中识别出字符序列。
步骤S18中,如果当前处于网络模型训练阶段,文字识别网络可以接收文字序列标注,并结合标注数据和步骤S17中预测出的字符序列,来计算出文字序列loss。
步骤S19中,如果当前处于网络模型训练阶段,步骤S13、S16、S18中产生的三种预测误差,将在梯度反向传播过程中帮助改进网络模型参数。
模型训练阶段依次执行全部步骤,可以更有效地提升网络模型的训练效果。模型预测阶段仅顺序执行步骤S11,S12,S14,S15,S17,可以变换出规范化的矩形文本行图像并提升最终文字识别结果的准确率。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述自然场景文字识别方法的装置,如图2所示,该装置包括:输入单元10,用于将获取的自然场景图输入实例分割网络得到掩码图和像素图;确定单元20,用于根据所述掩码图确定空间变换网络的控制参数;变换单元30,用于通过设置所述控制参数的空间变换网络将所述像素图变换成纠形图;以及,识别单元40,用于采用文字识别网络识别出所述纠形图中的文字序列。
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,采用结合实例分割网络、空间变换网络和文字识别网络的方式,通过将获取的自然场景图输入实例分割网络得到掩码图和像素图,然后通过掩码图确定空间变换网络的控制参数,再通过设置该控制参数的空间变换网络将所述像素图变换成纠形图,最后采用文字识别网络识别出纠形图中的文字序列,达到了自然场景图中文字以外的信息不会干扰变换效果的目的,从而实现了提高文字序列识别准确率的技术效果,进而解决了由于自然场景图中文字以外的信息会干扰变换效果造成的文字序列识别准确率低的技术问题。
作为本实施例中优选的,还包括:第一模型判断单元,用于判断是否处于网络模型的训练阶段,如果是,则进入第一误差计算单元;所述第一误差计算单元,用于所述实例分割网络接收实例分割标注;将所述实例分割标注结合所述掩码图计算出分割误差;第一模型优化单元,用于通过所述分割误差的梯度反向传播优化所述网络模型。作为本实施例中优选的,还包括:第二模型判断单元,用于判断是否处于网络模型的训练阶段,如果是,则进入第二误差计算单元;第二误差计算单元,用于所述空间变换网络接收实例关键点标注;将所述实例关键点标注结合预测的关键点列表计算出关键点误差;第二模型优化单元,用于通过所述关键点误差的梯度反向传播优化所述网络模型。作为本实施例中优选的,还包括:第三模型判断单元,用于判断是否处于网络模型的训练阶段,如果是,则进入第三误差计算单元;第三误差计算单元,用于所述文字识别网络接收文字序列标注;将所述文字序列标注结合所述文字序列计算出文字序列误差;第三模型优化单元,用于通过所述文字序列误差的梯度反向传播优化所述网络模型。
本发明采用多目标训练(即多种预测误差联合训练)策略。本方法实施装置可以接收多种形式的标注数据,从而更有效地计算各个功能模块的局部预测误差。在网络模型训练阶段的梯度反向传播过程中,上述三种预测误差一种或多种都可以帮助优化网络模型参数。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种自然场景文字识别方法,其特征在于,包括:
将获取的自然场景图输入实例分割网络得到掩码图和像素图;
根据所述掩码图确定空间变换网络的控制参数;
通过设置所述控制参数的空间变换网络将所述像素图变换成纠形图;以及,
采用文字识别网络识别出所述纠形图中的文字序列。
2.根据权利要求1所述的自然场景文字识别方法,其特征在于,将获取的自然场景图输入实例分割网络得到掩码图和像素图包括:
获取自然场景图;
实例分割网络检测得到读入的所述自然场景图的文本行实例的位置,并输出掩码图;
根据所述文本行实例的位置计算出矩形边界框;
裁减出所述矩形边界框作为所述像素图。
3.根据权利要求1所述的自然场景文字识别方法,其特征在于,根据所述掩码图确定空间变换网络的控制参数包括:
空间变换网络接收所述掩码图,并预测出文本行实例的关键点列表;
根据关键点列表计算所述空间变换网络的控制参数。
4.根据权利要求1所述的自然场景文字识别方法,其特征在于,将获取的自然场景图像输入实例分割网络得到掩码图和像素图之后还包括:
判断是否处于网络模型的训练阶段;
如果是,则所述实例分割网络接收实例分割标注;
将所述实例分割标注结合所述掩码图计算出分割误差;
通过所述分割误差在梯度反向传播过程中优化所述网络模型。
5.根据权利要求1所述的自然场景文字识别方法,其特征在于,通过设置所述控制参数的空间变换网络将所述像素图变换成纠形图之后还包括:
判断是否处于网络模型的训练阶段;
如果是,所述空间变换网络接收实例关键点标注;
将所述实例关键点标注结合预测的关键点列表计算出关键点误差;
通过所述关键点误差在梯度反向传播过程中优化所述网络模型。
6.根据权利要求1所述的自然场景文字识别方法,其特征在于,采用文字识别网络识别出所述纠形图中的文字序列之后还包括:
判断是否处于网络模型的训练阶段;
如果是,所述文字识别网络接收文字序列标注;
将所述文字序列标注结合所述文字序列计算出文字序列误差;
通过所述文字序列误差在梯度反向传播过程中优化所述网络模型。
7.一种自然场景文字识别装置,其特征在于,包括:
输入单元,用于将获取的自然场景图输入实例分割网络得到掩码图和像素图;
确定单元,用于根据所述掩码图确定空间变换网络的控制参数;
变换单元,用于通过设置所述控制参数的空间变换网络将所述像素图变换成纠形图;以及,
识别单元,用于采用文字识别网络识别出所述纠形图中的文字序列。
8.根据权利要求7所述的自然场景文字识别装置,其特征在于,还包括:
第一模型判断单元,用于
判断是否处于网络模型的训练阶段,
如果是,则进入第一误差计算单元;
所述第一误差计算单元,用于
所述实例分割网络接收实例分割标注;
将所述实例分割标注结合所述掩码图计算出分割误差;
第一模型优化单元,用于
通过所述分割误差的梯度反向传播优化所述网络模型。
9.根据权利要求8所述的自然场景文字识别装置,其特征在于,还包括:
第二模型判断单元,用于
判断是否处于网络模型的训练阶段,
如果是,则进入第二误差计算单元;
第二误差计算单元,用于
所述空间变换网络接收实例关键点标注;
将所述实例关键点标注结合预测的关键点列表计算出关键点误差;
第二模型优化单元,用于
通过所述关键点误差的梯度反向传播优化所述网络模型。
10.根据权利要求9所述的自然场景文字识别装置,其特征在于,还包括:
第三模型判断单元,用于
判断是否处于网络模型的训练阶段,
如果是,则进入第三误差计算单元;
第三误差计算单元,用于
所述文字识别网络接收文字序列标注;
将所述文字序列标注结合所述文字序列计算出文字序列误差;
第三模型优化单元,用于
通过所述文字序列误差的梯度反向传播优化所述网络模型。
CN201811272122.0A 2018-10-30 2018-10-30 自然场景文字识别方法及装置 Active CN109522900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811272122.0A CN109522900B (zh) 2018-10-30 2018-10-30 自然场景文字识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811272122.0A CN109522900B (zh) 2018-10-30 2018-10-30 自然场景文字识别方法及装置

Publications (2)

Publication Number Publication Date
CN109522900A true CN109522900A (zh) 2019-03-26
CN109522900B CN109522900B (zh) 2020-12-18

Family

ID=65773640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811272122.0A Active CN109522900B (zh) 2018-10-30 2018-10-30 自然场景文字识别方法及装置

Country Status (1)

Country Link
CN (1) CN109522900B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919157A (zh) * 2019-03-28 2019-06-21 北京易达图灵科技有限公司 一种视觉定位方法及装置
CN110032998A (zh) * 2019-03-18 2019-07-19 华南师范大学 自然场景图片的文字检测方法、系统、装置和存储介质
CN110348339A (zh) * 2019-06-26 2019-10-18 西安理工大学 一种基于实例分割的手写文档文本行的提取方法
CN110490232A (zh) * 2019-07-18 2019-11-22 北京捷通华声科技股份有限公司 训练文字行方向预测模型的方法、装置、设备、介质
CN111160352A (zh) * 2019-12-27 2020-05-15 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及系统
CN111414905A (zh) * 2020-02-25 2020-07-14 泰康保险集团股份有限公司 一种文本检测方法、文本检测装置、电子设备及存储介质
CN111666933A (zh) * 2020-06-08 2020-09-15 广东小天才科技有限公司 一种文本检测的方法、装置、电子设备和存储介质
CN112199946A (zh) * 2020-09-15 2021-01-08 北京大米科技有限公司 数据处理方法、装置、电子设备和可读存储介质
CN113610092A (zh) * 2021-07-31 2021-11-05 福州视驰科技有限公司 一种基于信道编码的人工智能集装箱识别系统
WO2022127384A1 (zh) * 2020-12-15 2022-06-23 中兴通讯股份有限公司 文字识别方法、电子设备和计算机可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101057247A (zh) * 2004-11-15 2007-10-17 皇家飞利浦电子股份有限公司 检测及修改图像中的文字
CN101231698A (zh) * 2007-01-24 2008-07-30 三星电子株式会社 分割图像和/或接收表示分割的图像的信号的设备和方法
CN101599125A (zh) * 2009-06-11 2009-12-09 上海交通大学 复杂背景下图像处理的二值化方法
CN102208022A (zh) * 2010-03-31 2011-10-05 富士通株式会社 遮挡字符恢复装置及其方法、遮挡字符识别装置及其方法
US8189877B2 (en) * 2005-10-21 2012-05-29 Carnegie Institution Of Washington Remote sensing analysis of forest disturbances
CN103455823A (zh) * 2013-08-27 2013-12-18 电子科技大学 一种基于分类模糊及图像分割的英文字符识别方法
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104766076A (zh) * 2015-02-28 2015-07-08 北京奇艺世纪科技有限公司 一种视频图像文字的检测方法和装置
CN104978576A (zh) * 2014-04-02 2015-10-14 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN107194400A (zh) * 2017-05-31 2017-09-22 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN107705574A (zh) * 2017-10-09 2018-02-16 荆门程远电子科技有限公司 一种精准快速的道路违章停车全自动抓拍系统
CN108171235A (zh) * 2018-01-08 2018-06-15 北京奇艺世纪科技有限公司 标题区域检测方法及系统
CN108460649A (zh) * 2017-02-22 2018-08-28 阿里巴巴集团控股有限公司 一种图像识别方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101057247A (zh) * 2004-11-15 2007-10-17 皇家飞利浦电子股份有限公司 检测及修改图像中的文字
US8189877B2 (en) * 2005-10-21 2012-05-29 Carnegie Institution Of Washington Remote sensing analysis of forest disturbances
CN101231698A (zh) * 2007-01-24 2008-07-30 三星电子株式会社 分割图像和/或接收表示分割的图像的信号的设备和方法
CN101599125A (zh) * 2009-06-11 2009-12-09 上海交通大学 复杂背景下图像处理的二值化方法
CN102208022A (zh) * 2010-03-31 2011-10-05 富士通株式会社 遮挡字符恢复装置及其方法、遮挡字符识别装置及其方法
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN103455823A (zh) * 2013-08-27 2013-12-18 电子科技大学 一种基于分类模糊及图像分割的英文字符识别方法
CN104978576A (zh) * 2014-04-02 2015-10-14 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN104766076A (zh) * 2015-02-28 2015-07-08 北京奇艺世纪科技有限公司 一种视频图像文字的检测方法和装置
CN108460649A (zh) * 2017-02-22 2018-08-28 阿里巴巴集团控股有限公司 一种图像识别方法及装置
CN107194400A (zh) * 2017-05-31 2017-09-22 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN107705574A (zh) * 2017-10-09 2018-02-16 荆门程远电子科技有限公司 一种精准快速的道路违章停车全自动抓拍系统
CN108171235A (zh) * 2018-01-08 2018-06-15 北京奇艺世纪科技有限公司 标题区域检测方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032998A (zh) * 2019-03-18 2019-07-19 华南师范大学 自然场景图片的文字检测方法、系统、装置和存储介质
CN109919157A (zh) * 2019-03-28 2019-06-21 北京易达图灵科技有限公司 一种视觉定位方法及装置
CN110348339A (zh) * 2019-06-26 2019-10-18 西安理工大学 一种基于实例分割的手写文档文本行的提取方法
CN110348339B (zh) * 2019-06-26 2021-11-16 西安理工大学 一种基于实例分割的手写文档文本行的提取方法
CN110490232B (zh) * 2019-07-18 2021-08-13 北京捷通华声科技股份有限公司 训练文字行方向预测模型的方法、装置、设备、介质
CN110490232A (zh) * 2019-07-18 2019-11-22 北京捷通华声科技股份有限公司 训练文字行方向预测模型的方法、装置、设备、介质
CN111160352A (zh) * 2019-12-27 2020-05-15 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及系统
CN111160352B (zh) * 2019-12-27 2023-04-07 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及系统
CN111414905A (zh) * 2020-02-25 2020-07-14 泰康保险集团股份有限公司 一种文本检测方法、文本检测装置、电子设备及存储介质
CN111414905B (zh) * 2020-02-25 2023-08-18 泰康保险集团股份有限公司 一种文本检测方法、文本检测装置、电子设备及存储介质
CN111666933A (zh) * 2020-06-08 2020-09-15 广东小天才科技有限公司 一种文本检测的方法、装置、电子设备和存储介质
CN111666933B (zh) * 2020-06-08 2023-04-07 广东小天才科技有限公司 一种文本检测的方法、装置、电子设备和存储介质
CN112199946A (zh) * 2020-09-15 2021-01-08 北京大米科技有限公司 数据处理方法、装置、电子设备和可读存储介质
WO2022127384A1 (zh) * 2020-12-15 2022-06-23 中兴通讯股份有限公司 文字识别方法、电子设备和计算机可读存储介质
CN113610092A (zh) * 2021-07-31 2021-11-05 福州视驰科技有限公司 一种基于信道编码的人工智能集装箱识别系统
CN113610092B (zh) * 2021-07-31 2023-11-10 福州视驰科技有限公司 一种基于信道编码的人工智能集装箱识别系统

Also Published As

Publication number Publication date
CN109522900B (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN109522900A (zh) 自然场景文字识别方法及装置
Yi et al. ASSD: Attentive single shot multibox detector
Qiao et al. LGPMA: complicated table structure recognition with local and global pyramid mask alignment
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN110458095A (zh) 一种有效手势的识别方法、控制方法、装置和电子设备
WO2020122456A1 (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN109509222B (zh) 直线类物体的检测方法及装置
CN113989944B (zh) 操作动作识别方法、装置及存储介质
CN115205667A (zh) 一种基于YOLOv5s的密集目标检测方法
Uehara et al. Visual question generation for class acquisition of unknown objects
CN114998934A (zh) 基于多模态智能感知和融合的换衣行人重识别和检索方法
Jiang et al. Local and global structure for urban ALS point cloud semantic segmentation with ground-aware attention
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN115545018A (zh) 一种多模态多粒度实体识别系统及实体识别方法
CN112597956B (zh) 基于人体锚点集合与感知增强网络的多人姿态估计方法
Wang et al. Summary of object detection based on convolutional neural network
CN114494999B (zh) 一种双分支联合型目标密集预测方法及系统
CN112329389B (zh) 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法
Bakhtiarnia et al. PromptMix: Text-to-image diffusion models enhance the performance of lightweight networks
Ouyang et al. An Anchor-free Detector with Channel-based Prior and Bottom-Enhancement for Underwater Object Detection
CN113158870A (zh) 2d多人姿态估计网络的对抗式训练方法、系统及介质
CN116978052B (zh) 基于改进YOLOv5的桥梁设计图的子图布局识别方法
Pinto Object detection with artificial vision and neural networks for service robots
Lin et al. A Pointer Meter Detection Method based on Optimal SSD network
Meena Deshpande License plate detection and recognition using yolo v4

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant