CN111523539A - 一种文字检测方法及装置 - Google Patents
一种文字检测方法及装置 Download PDFInfo
- Publication number
- CN111523539A CN111523539A CN202010296274.5A CN202010296274A CN111523539A CN 111523539 A CN111523539 A CN 111523539A CN 202010296274 A CN202010296274 A CN 202010296274A CN 111523539 A CN111523539 A CN 111523539A
- Authority
- CN
- China
- Prior art keywords
- feature
- layer
- features
- attention
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本说明书摘要公开了一种文字检测方法及装置。本说明书摘要将待检测图像输入到卷积神经网络,得到卷积神经网络的各卷积层依次输出的各特征。根据各特征中的底层特征,确定注意力特征。根据注意力特征,分别对各特征中的各上层特征进行加权,得到加权后的各上层特征。针对加权后的各上层特征,根据加权后的该上层特征,对待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果。根据加权后的各上层特征分别对应的初始检测结果,确定待检测图像的最终检测结果。本说明书摘要通过注意力特征增强各上层特征中有效信息的表征能力,更容易将图像中文字的检测结果确定出来,使得文字检测的准确性较高。
Description
技术领域
本说明书涉及图像处理技术领域,尤其涉及一种文字检测方法及装置。
背景技术
人们在生产和生活中,需要处理大量的文字、报表等资料。为了提高处理这些资料的效率,人们开始研究文字识别技术。文字识别技术是一种自动识别字符的技术,能够从图像中识别出文字信息。
文字检测作为文字识别最重要的一步,一直以来都是研究的热点。文字检测的目的是为了确定图像中文字所在的位置,文字所在的位置一般用文字框来表示,因此,文字检测的结果就是确定出的文字框。文字检测之后,再对文字框中文字部分的具体内容进行识别。
如何对图像进行比较准确的文字检测,是一个亟待解决的问题。
发明内容
本说明书实施例提供一种文字检测方法及装置,以部分解决上述现有技术存在的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种文字检测方法,包括:
将待检测图像输入到卷积神经网络,得到所述卷积神经网络的各卷积层依次输出的各特征,其中,在所述各特征中,将从所述卷积神经网络的首个卷积层开始输出的指定层数的特征,作为底层特征,将除所述底层特征以外的各特征作为各上层特征;
根据所述底层特征,确定注意力特征,其中,所述注意力特征用于表征所述待检测图像中每个像素点属于文字的概率;
根据所述注意力特征,分别对所述各上层特征进行加权,得到加权后的各上层特征;
针对加权后的各上层特征,根据加权后的该上层特征,对所述待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果;
根据加权后的各上层特征分别对应的初始检测结果,确定所述待检测图像的最终检测结果。
可选的,根据所述底层特征,确定注意力特征,具体包括:将所述底层特征输入到预先训练的注意力模型,得到所述注意力模型输出的注意力特征。
可选的,根据所述注意力特征,分别对所述各上层特征进行加权,得到加权后的各上层特征,具体包括:针对所述各上层特征,采用所述注意力特征与该上层特征进行逐位点乘,得到加权后的该上层特征。
可选的,根据加权后的该上层特征,对所述待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果,具体包括:将加权后的该上层特征输入到预先训练的预测模型,以使所述预测模型对所述待检测图像进行检测,得到所述预测模型输出的用于框选文字的目标框,作为加权后的该上层特征对应的初始检测结果。
可选的,根据加权后的各上层特征分别对应的初始检测结果,确定所述待检测图像的最终检测结果,具体包括:根据加权后的各上层特征分别对应的目标框以及各目标框的置信度,采用非极大值抑制NMS方法,确定置信度最大的目标框;根据所述置信度最大的目标框,确定所述待检测图像的最终检测结果。
可选的,根据所述置信度最大的目标框,确定所述待检测图像的最终检测结果,具体包括:根据所述置信度最大的目标框以及所述注意力特征,确定所述待检测图像的最终检测结果。
可选的,根据所述置信度最大的目标框以及所述注意力特征,确定所述待检测图像的最终检测结果,具体包括:根据所述注意力特征,筛选所述待检测图像中属于文字的概率大于指定阈值的各像素点;确定所述待检测图像中属于文字的概率大于指定阈值的各像素点构成的区域,作为分割区域;根据所述分割区域的外边界,对所述置信度最大的目标框的外边界进行调整,得到文字框,作为所述待检测图像的最终检测结果。
可选的,预先训练注意力模型和预测模型,具体包括:获取已知初始检测结果的图像,作为训练样本,并将所述训练样本的初始检测结果作为标注;将所述训练样本的底层特征输入到待训练的注意力模型,得到所述待训练的注意力模型输出的注意力特征;针对所述训练样本中通过所述注意力特征加权后的各上层特征,将该上层特征输入到待训练的预测模型,得到所述待训练的预测模型输出的该上层特征对应的初始检测结果;根据所述训练样本的标注,以及所述待训练的预测模型输出的各上层特征对应的初始检测结果,确定损失;以损失最小化为训练目标,对所述待训练的注意力模型和所述待训练的预测模型进行训练。
本说明书提供的一种文字检测装置,包括:
第一特征获取模块,用于将待检测图像输入到卷积神经网络,得到所述卷积神经网络的各卷积层依次输出的各特征,其中,在所述各特征中,将从所述卷积神经网络的首个卷积层开始输出的指定层数的特征,作为底层特征,将除所述底层特征以外的各特征作为各上层特征;
注意力特征获取模块,用于根据所述底层特征,确定注意力特征,其中,所述注意力特征用于表征所述待检测图像中每个像素点属于文字的概率;
加权特征获取模块,用于根据所述注意力特征,分别对所述各上层特征进行加权,得到加权后的各上层特征;
初始检测结果确定模块,用于针对加权后的各上层特征,根据加权后的该上层特征,对所述待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果;
最终检测结果确定模块,用于根据加权后的各上层特征分别对应的初始检测结果,确定所述待检测图像的最终检测结果。
本说明书提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文字检测方法。
本说明书提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文字检测方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书实施例首先根据待检测图像中提取的底层特征(尺寸大、分辨率高)生成注意力特征,再通过注意力特征对待检测图像中提取的各上层特征进行加权,增强各上层特征中有效信息(即,文字)的表征能力。然后再对加权后的各上层特征分别检测,将各初始检测结果融合得到最终检测结果。通过本说明书实施例更容易将文字框(即,最终检测结果)确定,提高了文字检测的准确性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书实施例提供的一种文字检测系统架构图;
图2为本说明书实施例提供的一种文字检测方法的流程示意图;
图3为本说明书实施例提供的一种文字检测装置的结构示意图;
图4为本说明书实施例提供的电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
在本说明书实施例中,可采用如图1所示的文字检测系统架构获取图像中文字的最终检测结果。该系统架构主要包括卷积神经网络(Convolutional Neural Network,CNN)、注意力模型和预测模型。
将待检测图像输入到CNN,得到CNN的各卷积层依次输出的各特征。在输出的各特征中,将从CNN的首个卷积层开始输出的指定层数的特征作为底层特征,并将除底层特征以外的各特征作为各上层特征。可将底层特征输入到注意力模型,得到注意力模型输出的注意力特征,其中,输出的注意力特征用于表征待检测图像中每个像素点属于文字的概率。本说明书实施例可根据注意力特征分别对各上层特征进行加权,以此得到加权后的各上层特征。针对加权后的各上层特征,可将加权后的该上层特征输入到预测模型,以使预测模型对待检测图像进行检测,从而得到预测模型输出的用于框选文字的目标框,该目标框可作为加权后的该上层特征对应的初始检测结果。获取各初始检测结果以后,可根据加权后的各上层特征分别对应的目标框以及各目标框的置信度,采用非极大值抑制NMS方法,确定置信度最大的目标框。然后,根据注意力特征,筛选待检测图像中属于文字的概率大于指定阈值的各像素点,并确定待检测图像中属于文字的概率大于指定阈值的各像素点构成的区域,作为分割区域。最后,根据分割区域的外边界对置信度最大的目标框的外边界进行调整,得到文字框,该文字框即为待检测图像的最终检测结果。
下面将结合附图,对上述过程进行详细说明。如图2所示,图2为本说明书提供的一种文字检测方法的流程示意图,该流程示意图包括:
S100:将待检测图像输入到卷积神经网络,得到卷积神经网络的各卷积层依次输出的各特征,其中,在各特征中,将从卷积神经网络的首个卷积层开始输出的指定层数的特征,作为底层特征,将除底层特征以外的各特征作为各上层特征。
当需要对图像中文字进行检测时,先将待检测图像输入到CNN提取特征。在提取的各特征中,将从CNN的首个卷积层开始输出的指定层数的特征,作为底层特征。其中,指定层数可以为一层,也可以为多层,本说明书实施例对此不作限制。可将除底层特征以外的各特征作为各上层特征。
需要说明的是,通过上述方式获取的底层特征提取注意力特征以及通过注意力特征对各上层特征加权之前,还可对通过CNN提取的底层特征和各上层特征作进一步处理。进一步处理的方式可为:将底层特征和各上层特征输入到特征金字塔网络(Feature PyramidNetwork,FPN)生成金字塔特征。生成金字塔特征的方式可为:将一层高层特征上采样后,与一层低层特征叠加得到金字塔特征。其中,高层特征、低层特征中的“高层”、“低层”指的是:按照CNN的卷积顺序,通过在先的卷积层得到的特征为低层特征,通过在后的卷积得到的特征为高层特征。例如,若是CNN有6个卷积层,那么,第1个卷积层输出的特征与第2个卷积层输出的特征相比,第1个卷积层输出的特征为“低层特征”,第2个卷积层输出的特征为“高层特征”。第2个卷积层输出的特征与第3个卷积层输出的特征相比,第2个卷积层输出的特征为“低层特征”,第3个卷积层输出的特征为“高层特征”。综上,通过FPN网络生成的金字塔特征与未通过FPN网络生成的普通特征相比,特征的层数不会发生变化,但是金字塔特征相比于普通特征,对待检测图像的表征能力更强。通过FPN网络生成金字塔特征的方式为现有技术,此处不再赘述。
在本说明书实施例中,为了保证前后描述的一致性,底层特征和各上层特征经过FPN提取金字塔特征后,在本说明书实施例的下文中还是将其命名为“底层特征”和“各上层特征”。
另外,本说明书实施例中底层特征和各上层特征可以矩阵的形式表示,当然,也可采用其他方式,本说明书实施例对此不作限制。
S102:根据底层特征,确定注意力特征,其中,注意力特征用于表征待检测图像中每个像素点属于文字的概率。
虽然底层特征对待检测图像的表征能力比较弱,但是底层特征的尺度大、分辨率高,因此可通过底层特征确定注意力特征,本说明书实施例中的注意力特征用于表征待检测图像中每个像素点属于文字的概率。注意力特征可以Matt(i,j)表示,其中每个(i,j)位置表示待检测图像中第i行第j列的像素点属于文字的概率。针对待检测图像,若是待检测图像中存在多尺度文字,其中多尺度文字指的是:一张图像中既包含尺寸较大的文字,还包含尺寸较小的文字,即,文字之间的尺寸差异较大,那么,通过底层特征生成注意力特征的方式,能够很容易地获取小尺度文字对应的像素点属于文字的概率。
S104:根据注意力特征,分别对各上层特征进行加权,得到加权后的各上层特征。
如前所述,确定注意力特征以后,可根据注意力特征分别对各上层特征进行加权,增强各上层特征中有效信息(即,文字)的表征能力,该方式能够从一定程度上消除噪声的影响,提高后续待检测图像中文字检测结果的准确性。当然,也可采用其他方式对各上层特征进行加权,本说明书实施例对此不作限制。
S106:针对加权后的各上层特征,根据加权后的该上层特征,对待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果。
针对加权后的各上层特征,可根据加权后的该上层特征对待检测图像进行检测,得到加权后的各上层特征对应的初始检测结果。其中,初始检测结果可为待检测图像中用于框选文字的目标框。
S108:根据加权后的各上层特征分别对应的初始检测结果,确定待检测图像的最终检测结果。
通过上述的方式确定了加权后的各上层特征分别对应的初始检测结果(即,用于框选文字的目标框)之后,可融合各初始检测结果,确定待检测图像的最终检测结果,最终检测结果可为:确定出待检测图像中的文字框。
本说明书实施例首先根据待检测图像中提取的底层特征(尺寸大、分辨率高)生成注意力特征,再通过注意力特征对待检测图像中提取的各上层特征进行加权,增强各上层特征中有效信息(即,文字)的表征能力。然后再对加权后的各上层特征分别检测,将各初始检测结果融合得到最终检测结果。通过本说明书实施例能够更容易地将文字框(即,最终检测结果)确定,使得文字检测结果的准确性较高。
在图1的S102中,注意力特征的获取方式可为:将底层特征输入到预先训练的注意力模型,得到注意力模型输出的注意力特征Matt(i,j)。
在图1的S104中,根据注意力特征分别对各上层特征进行加权的方式可为:针对各上层特征,采用注意力特征与该上层特征进行逐位点乘,得到加权后的该上层特征。即,Fnew=Matt(i,j)·Fori,其中,Fnew代表加权后的该上层特征,Matt(i,j)代表注意力特征,“·”代表逐位点乘,Fori代表该上层特征(未加权)。其中,从CNN提取的各特征可以特征图的方式展示,通过注意力模型获取的注意力特征也可以特征图的方式展示,那么,在通过注意力特征对各上层特征加权时,具体可为:针对各上层特征图,先将注意力特征图缩放到与该上层特征图的尺寸相等,然后再进行逐位点乘。此时,Fnew=Reshape(Matt(i,j))·Fori,其中,Reshape代表缩放注意力特征图的尺寸,该公式中其他部分的含义如前所述,该处不再赘述。
在图1的S104中,根据注意力特征分别对各上层特征进行加权的方式还可为:针对各上层特征,采用注意力特征与该上层特征进行逐位点乘;根据逐位点乘的结果以及该上层特征,得到加权后的该上层特征。即,Fnew=Reshape(Matt(i,j))·Fori+Fori,在该公式中,各部分的含义如前所述,该处不再赘述。即,先将注意力特征与该上层特征逐位点乘,获取逐位点乘后的结果,然后将该结果与该上层特征求和,得到加权后的该上层特征。当然,也可采用其他方式对各上层特征进行加权,本说明书实施例对此不作限制。
在图1的S106中,通过上述的方式获取加权后的各上层特征之后,可根据加权后的各上层特征,对待检测图像进行检测,得到加权后的各上层特征对应的初始检测结果。具体方式可为:针对加权后的各上层特征,将加权后的该上层特征输入到预先训练的预测模型,以使预测模型对待检测图像进行检测,得到预测模型输出的用于框选文字的目标框,作为加权后的该上层特征对应的初始检测结果。
如前所述,确定各上层特征对应的初始检测结果之后,可通过各初始检测结果确定待检测图像的最终检测结果。即,可根据加权后的各上层特征分别对应的目标框以及各目标框的置信度,采用非极大值抑制(Non-Maximum Suppression,NMS)方法,确定置信度最大的目标框。然后,根据置信度最大的目标框,确定待检测图像的最终检测结果。其中,目标框的置信度与待检测图像中目标框框选的图像中属于文字的像素点的个数呈正相关,同时还与待检测图像中目标框框选的图像中不属于文字的像素点的个数呈负相关。当然,也可采用其他方式表征目标框的置信度,本说明实施例对此不作限制。在本说明书实施例中,可采用NMS方法从各上层特征中确定置信度最大的目标框。其中,NMS方法为现有技术,该处不再赘述。
本说明书实施例还可根据置信度最大的目标框以及注意力特征,确定待检测图像的最终检测结果。即,根据注意力特征,筛选待检测图像中属于文字的概率大于指定阈值的各像素点。其中,指定阈值可人为设置,比如,将指定阈值设置为70%。可将待检测图像中属于文字的概率大于指定阈值的各像素点构成的区域,作为分割区域(如图1中所示的分割区域)。分割区域的确定可以公式表示,即Mseg(i,j)=Matt(i,j)>thr,其中,Mseg(i,j)代表分割区域对应的特征,Matt(i,j)代表注意力特征,thr代表指定阈值。通过上述的方式确定分割区域以后,可根据分割区域的外边界,对置信度最大的目标框的外边界进行调整,得到文字框,作为待检测图像的最终检测结果。
本说明书实施例在对待检测图像进行文字检测之前,可预先训练注意力模型和预测模型。预先训练注意力模型和预测模型的方式可为:获取已知初始检测结果的图像,作为训练样本,并将训练样本的初始检测结果作为标注。将训练样本的底层特征输入到待训练的注意力模型,得到待训练的注意力模型输出的注意力特征,其中,注意力特征用于表征训练样本中每个像素点属于文字的概率。针对训练样本中通过注意力特征加权后的各上层特征,将该上层特征输入到待训练的预测模型,得到待训练的预测模型输出的该上层特征对应的初始检测结果,即,用于框选文字的目标框。根据训练样本的标注,以及待训练的预测模型输出的各上层特征对应的初始检测结果,确定损失。其中的损失可为训练样本的标注与待训练的预测模型输出的各上层特征对应的初始检测结果之间的差异。具体可确定已知检测结果(即,已知目标框的位置信息)与待训练的预测模型输出的各上层特征对应的初始检测结果(即,待训练的预测模型输出的各预测目标框的位置信息)之间的差异,其中,目标框的位置信息可为:目标框的中心点坐标(x,y)、目标框的宽度w、目标框的高度h等信息。确定差异以后,可以损失最小化(即,差异最小化)为训练目标,对待训练的注意力模型和待训练的预测模型同时进行训练。其中的注意力模型可为卷积神经网络(ConvolutionalNeural Network,CNN),预测模型可为Fast RCNN(一种已知的目标检测网络),当然,注意力模型和预测模型还可采用其他网络,本说明书实施例对此不作限制。另外,确定损失的方式也为多种,具体可采用Smooth L1损失函数确定损失,当然,也可采用其他函数,本说明书实施例对此不作限制。本说明书实施例可采用多任务(即,将多个相关的任务放在一起学习)的系统框架,即将注意力模型与预测模型联合训练,在联合训练过程中使各任务相互促进,使得训练出的模型的准确性更高。当然,也可将注意力模型与预测模型分别进行训练,本说明书实施例对此不作限制。
本说明书实施例将待检测图像输入到卷积神经网络,得到卷积神经网络的各卷积层依次输出的各特征。根据各特征中的底层特征,将底层特征输入到注意力模型,得到注意力特征,其中,注意力特征用于表征待检测图像中每个像素点属于文字的概率。根据注意力特征,分别对各特征中的各上层特征进行加权,增强各上层特征中有效信息(即,文字)的表征能力,得到加权后的各上层特征。针对加权后的各上层特征,根据加权后的该上层特征,对待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果。根据加权后的各上层特征分别对应的初始检测结果以及通过注意力特征确定的分割特征,确定待检测图像的最终检测结果。通过本说明书实施例能够更好地将文字框(即,最终检测结果)确定出来,使得文字检测结果的准确性较高。
本说明书提供的上述文字检测方法可用于图像中文字的检测,其中的图像可为单帧图片,也可为多帧图片。具体的应用场景可为:顾客通过手机等终端设备拍摄某个商店的店面照片,先通过本说明书实施例中的文字检测方法对商店名称进行检测,基于该检测结果,对商店的具体名称进行识别。再根据识别出的商店的具体名称,完成后续的业务操作(比如,将识别出的商店与某应用程序相关联)。当然,基于本说明书实施例中文字检测的原理,也可将该原理应用到其他目标物检测的领域,本说明书实施例对此不作限制。
以上为本说明书实施例提供的文字检测方法,基于同样的思路,本说明书还提供了相应的装置、存储介质和电子设备。
图3为本说明书实施例提供的一种文字检测装置的结构示意图,所述装置包括:
第一特征获取模块200,用于将待检测图像输入到卷积神经网络,得到所述卷积神经网络的各卷积层依次输出的各特征,其中,在所述各特征中,将从所述卷积神经网络的首个卷积层开始输出的指定层数的特征,作为底层特征,将除所述底层特征以外的各特征作为各上层特征;
注意力特征获取模块202,用于根据所述底层特征,确定注意力特征,其中,所述注意力特征用于表征所述待检测图像中每个像素点属于文字的概率;
加权特征获取模块204,用于根据所述注意力特征,分别对所述各上层特征进行加权,得到加权后的各上层特征;
初始检测结果确定模块206,用于针对加权后的各上层特征,根据加权后的该上层特征,对所述待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果;
最终检测结果确定模块208,用于根据加权后的各上层特征分别对应的初始检测结果,确定所述待检测图像的最终检测结果。
可选的,所述注意力特征获取模块202,具体用于将所述底层特征输入到预先训练的注意力模型,得到所述注意力模型输出的注意力特征。
可选的,所述加权特征获取模块204,具体用于针对所述各上层特征,采用所述注意力特征与该上层特征进行逐位点乘,得到加权后的该上层特征。
可选的,所述初始检测结果确定模块206,具体用于将加权后的该上层特征输入到预先训练的预测模型,以使所述预测模型对所述待检测图像进行检测,得到所述预测模型输出的用于框选文字的目标框,作为加权后的该上层特征对应的初始检测结果。
可选的,所述最终检测结果确定模块208,具体用于根据加权后的各上层特征分别对应的目标框以及各目标框的置信度,采用非极大值抑制NMS方法,确定置信度最大的目标框;根据所述置信度最大的目标框,确定所述待检测图像的最终检测结果。
可选的,所述最终检测结果确定模块208,还用于根据所述置信度最大的目标框以及所述注意力特征,确定所述待检测图像的最终检测结果。
可选的,所述最终检测结果确定模块208,还用于根据所述注意力特征,筛选所述待检测图像中属于文字的概率大于指定阈值的各像素点;确定所述待检测图像中属于文字的概率大于指定阈值的各像素点构成的区域,作为分割区域;根据所述分割区域的外边界,对所述置信度最大的目标框的外边界进行调整,得到文字框,作为所述待检测图像的最终检测结果。
可选的,所述装置还包括:预先训练模型模块210,所述预先训练模型模块210具体用于获取已知初始检测结果的图像,作为训练样本,并将所述训练样本的初始检测结果作为标注;将所述训练样本的底层特征输入到待训练的注意力模型,得到所述待训练的注意力模型输出的注意力特征;针对所述训练样本中通过所述注意力特征加权后的各上层特征,将该上层特征输入到待训练的预测模型,得到所述待训练的预测模型输出的该上层特征对应的初始检测结果;根据所述训练样本的标注,以及所述待训练的预测模型输出的各上层特征对应的初始检测结果,确定损失;以损失最小化为训练目标,对所述待训练的注意力模型和所述待训练的预测模型进行训练。
本说明书还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可用于执行上述图2提供的一种文字检测方法。
基于图2所示的文字检测方法,本说明书实施例还提供了图4所示的电子设备的结构示意图。如图4,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图2所述的文字检测方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (11)
1.一种文字检测方法,其特征在于,包括:
将待检测图像输入到卷积神经网络,得到所述卷积神经网络的各卷积层依次输出的各特征,其中,在所述各特征中,将从所述卷积神经网络的首个卷积层开始输出的指定层数的特征,作为底层特征,将除所述底层特征以外的各特征作为各上层特征;
根据所述底层特征,确定注意力特征,其中,所述注意力特征用于表征所述待检测图像中每个像素点属于文字的概率;
根据所述注意力特征,分别对所述各上层特征进行加权,得到加权后的各上层特征;
针对加权后的各上层特征,根据加权后的该上层特征,对所述待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果;
根据加权后的各上层特征分别对应的初始检测结果,确定所述待检测图像的最终检测结果。
2.如权利要求1所述的方法,其特征在于,根据所述底层特征,确定注意力特征,具体包括:
将所述底层特征输入到预先训练的注意力模型,得到所述注意力模型输出的注意力特征。
3.如权利要求1所述的方法,其特征在于,根据所述注意力特征,分别对所述各上层特征进行加权,得到加权后的各上层特征,具体包括:
针对所述各上层特征,采用所述注意力特征与该上层特征进行逐位点乘,得到加权后的该上层特征。
4.如权利要求2所述的方法,其特征在于,根据加权后的该上层特征,对所述待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果,具体包括:
将加权后的该上层特征输入到预先训练的预测模型,以使所述预测模型对所述待检测图像进行检测,得到所述预测模型输出的用于框选文字的目标框,作为加权后的该上层特征对应的初始检测结果。
5.如权利要求4所述的方法,其特征在于,根据加权后的各上层特征分别对应的初始检测结果,确定所述待检测图像的最终检测结果,具体包括:
根据加权后的各上层特征分别对应的目标框以及各目标框的置信度,采用非极大值抑制NMS方法,确定置信度最大的目标框;
根据所述置信度最大的目标框,确定所述待检测图像的最终检测结果。
6.如权利要求5所述的方法,其特征在于,根据所述置信度最大的目标框,确定所述待检测图像的最终检测结果,具体包括:
根据所述置信度最大的目标框以及所述注意力特征,确定所述待检测图像的最终检测结果。
7.如权利要求6所述的方法,其特征在于,根据所述置信度最大的目标框以及所述注意力特征,确定所述待检测图像的最终检测结果,具体包括:
根据所述注意力特征,筛选所述待检测图像中属于文字的概率大于指定阈值的各像素点;
确定所述待检测图像中属于文字的概率大于指定阈值的各像素点构成的区域,作为分割区域;
根据所述分割区域的外边界,对所述置信度最大的目标框的外边界进行调整,得到文字框,作为所述待检测图像的最终检测结果。
8.如权利要求4所述的方法,其特征在于,预先训练注意力模型和预测模型,具体包括:
获取已知初始检测结果的图像,作为训练样本,并将所述训练样本的初始检测结果作为标注;
将所述训练样本的底层特征输入到待训练的注意力模型,得到所述待训练的注意力模型输出的注意力特征;
针对所述训练样本中通过所述注意力特征加权后的各上层特征,将该上层特征输入到待训练的预测模型,得到所述待训练的预测模型输出的该上层特征对应的初始检测结果;
根据所述训练样本的标注,以及所述待训练的预测模型输出的各上层特征对应的初始检测结果,确定损失;
以损失最小化为训练目标,对所述待训练的注意力模型和所述待训练的预测模型进行训练。
9.一种文字检测装置,其特征在于,包括:
第一特征获取模块,用于将待检测图像输入到卷积神经网络,得到所述卷积神经网络的各卷积层依次输出的各特征,其中,在所述各特征中,将从所述卷积神经网络的首个卷积层开始输出的指定层数的特征,作为底层特征,将除所述底层特征以外的各特征作为各上层特征;
注意力特征获取模块,用于根据所述底层特征,确定注意力特征,其中,所述注意力特征用于表征所述待检测图像中每个像素点属于文字的概率;
加权特征获取模块,用于根据所述注意力特征,分别对所述各上层特征进行加权,得到加权后的各上层特征;
初始检测结果确定模块,用于针对加权后的各上层特征,根据加权后的该上层特征,对所述待检测图像进行检测,得到加权后的该上层特征对应的初始检测结果;
最终检测结果确定模块,用于根据加权后的各上层特征分别对应的初始检测结果,确定所述待检测图像的最终检测结果。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-8任一项所述的方法。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010296274.5A CN111523539A (zh) | 2020-04-15 | 2020-04-15 | 一种文字检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010296274.5A CN111523539A (zh) | 2020-04-15 | 2020-04-15 | 一种文字检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111523539A true CN111523539A (zh) | 2020-08-11 |
Family
ID=71903098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010296274.5A Withdrawn CN111523539A (zh) | 2020-04-15 | 2020-04-15 | 一种文字检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523539A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017155660A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
CN107368831A (zh) * | 2017-07-19 | 2017-11-21 | 中国人民解放军国防科学技术大学 | 一种自然场景图像中的英文文字和数字识别方法 |
CN109446328A (zh) * | 2018-11-02 | 2019-03-08 | 成都四方伟业软件股份有限公司 | 一种文本识别方法、装置及其存储介质 |
CN110349162A (zh) * | 2019-07-17 | 2019-10-18 | 苏州大学 | 一种视网膜黄斑水肿多病变图像分割方法 |
CN110502614A (zh) * | 2019-08-16 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 文本拦截方法、装置、系统以及设备 |
CN110569738A (zh) * | 2019-08-15 | 2019-12-13 | 杨春立 | 基于密集连接网络的自然场景文本检测方法、设备和介质 |
US20200026965A1 (en) * | 2017-04-07 | 2020-01-23 | Intel Corporation | Methods and systems for budgeted and simplified training of deep neural networks |
CN110837830A (zh) * | 2019-10-24 | 2020-02-25 | 上海兑观信息科技技术有限公司 | 一种基于时空卷积神经网络的图像字符识别方法 |
CN110929578A (zh) * | 2019-10-25 | 2020-03-27 | 南京航空航天大学 | 一种基于注意力机制的抗遮挡行人检测方法 |
CN111008633A (zh) * | 2019-10-17 | 2020-04-14 | 安徽清新互联信息科技有限公司 | 一种基于注意力机制的车牌字符分割方法 |
-
2020
- 2020-04-15 CN CN202010296274.5A patent/CN111523539A/zh not_active Withdrawn
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017155660A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
US20200026965A1 (en) * | 2017-04-07 | 2020-01-23 | Intel Corporation | Methods and systems for budgeted and simplified training of deep neural networks |
CN107368831A (zh) * | 2017-07-19 | 2017-11-21 | 中国人民解放军国防科学技术大学 | 一种自然场景图像中的英文文字和数字识别方法 |
CN109446328A (zh) * | 2018-11-02 | 2019-03-08 | 成都四方伟业软件股份有限公司 | 一种文本识别方法、装置及其存储介质 |
CN110349162A (zh) * | 2019-07-17 | 2019-10-18 | 苏州大学 | 一种视网膜黄斑水肿多病变图像分割方法 |
CN110569738A (zh) * | 2019-08-15 | 2019-12-13 | 杨春立 | 基于密集连接网络的自然场景文本检测方法、设备和介质 |
CN110502614A (zh) * | 2019-08-16 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 文本拦截方法、装置、系统以及设备 |
CN111008633A (zh) * | 2019-10-17 | 2020-04-14 | 安徽清新互联信息科技有限公司 | 一种基于注意力机制的车牌字符分割方法 |
CN110837830A (zh) * | 2019-10-24 | 2020-02-25 | 上海兑观信息科技技术有限公司 | 一种基于时空卷积神经网络的图像字符识别方法 |
CN110929578A (zh) * | 2019-10-25 | 2020-03-27 | 南京航空航天大学 | 一种基于注意力机制的抗遮挡行人检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113095124B (zh) | 一种人脸活体检测方法、装置以及电子设备 | |
CN108334892B (zh) | 一种基于卷积神经网络的车型识别方法、装置及设备 | |
CN109034183B (zh) | 一种目标检测方法、装置及设备 | |
CN114332873A (zh) | 一种识别模型的训练方法及装置 | |
CN111753878A (zh) | 一种网络模型部署方法、设备及介质 | |
CN113498521A (zh) | 文本检测方法及装置、存储介质 | |
CN109978044B (zh) | 训练数据生成方法和装置、以及模型的训练方法和装置 | |
CN113837257A (zh) | 一种目标检测方法及装置 | |
CN113888415A (zh) | 一种模型训练以及图像修复方法及装置 | |
CN111523539A (zh) | 一种文字检测方法及装置 | |
CN116342888B (zh) | 一种基于稀疏标注训练分割模型的方法及装置 | |
CN112365513A (zh) | 一种模型训练的方法及装置 | |
CN112949642B (zh) | 一种文字生成方法、装置、存储介质及电子设备 | |
CN114359935A (zh) | 一种模型训练以及表格识别方法及装置 | |
CN112560530B (zh) | 一种二维码处理方法、设备、介质及电子设备 | |
CN114926437A (zh) | 一种图像质量评价方法及装置 | |
CN111539962A (zh) | 一种目标图像分类方法、装置以及介质 | |
CN112115952B (zh) | 一种基于全卷积神经网络的图像分类方法、设备及介质 | |
CN114065868B (zh) | 文本检测模型的训练方法、文本检测方法及装置 | |
CN117197781B (zh) | 一种交通标志识别的方法、装置、存储介质及电子设备 | |
CN116434787B (zh) | 一种语音情感识别的方法、装置、存储介质及电子设备 | |
CN115545938B (zh) | 一种执行风险识别业务的方法、装置、存储介质及设备 | |
CN112949526B (zh) | 人脸检测方法和装置 | |
KR101991043B1 (ko) | 비디오 서머리 방법 | |
CN117934933A (zh) | 一种图像识别模型的训练方法、目标检测的方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200811 |