CN112464798A - 文本识别方法及装置、电子设备、存储介质 - Google Patents
文本识别方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN112464798A CN112464798A CN202011344719.9A CN202011344719A CN112464798A CN 112464798 A CN112464798 A CN 112464798A CN 202011344719 A CN202011344719 A CN 202011344719A CN 112464798 A CN112464798 A CN 112464798A
- Authority
- CN
- China
- Prior art keywords
- text
- feature map
- network
- key point
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 230000001172 regenerating effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
Abstract
本申请提供一种文本识别方法及装置、电子设备、存储介质,该方法包括:将待识别的文本图像输入已训练的特征提取网络,获得特征提取网络输出的第一特征图;将第一特征图输入已训练的关键点检测网络,获得关键点检测网络输出的关键点位置信息;根据关键点位置信息,在第一特征图中定位目标区域,得到文本特征图;将文本特征图输入已训练的字符识别网络,通过字符识别网络获得文本图像的文本识别结果。本申请实施例提供的方案,实现了端到端的文本识别,无需重复进行特征提取,方法快速高效,识别准确性高。
Description
技术领域
本申请涉及文本处理技术领域,特别涉及一种文本识别方法及装置、电子设备、计算机可读存储介质。
背景技术
自然场景中图像文本检测和识别技术有着广泛的应用场景。文本检测是文本识别的基础,识别的准确度很大程度上依赖于文本区域检测的准确度。自然场景中的图像文本检测和识别技术日趋成熟,文本检测技术和应用从标准的横向文本向旋转文本和任意形状文本检测方向发展。而任意形状的文本检测意味着检测功能更加具有通用性和适应性,能够应用与创意广告牌、圆形印章、不规则的LOGO等不规则文本。检测的结果是为识别服务,检测的结果能够直接快速的进行识别,达到实时的检测和识别效果。
现有的检测和识别方法,主要先进行检测,然后基于检测结果在原始图像中提取检测区域进行字符识别。该方法存在的问题是特征重复计算(检测和识别各自进行特征提取),识别误差无法反馈到检测网络中进行学习等,同时也存在计算效率低的问题。
发明内容
本申请实施例提供了文本识别方法,用以提高文本识别准确性和识别效率。
本申请实施例提供了一种文本识别方法,包括:
将待识别的文本图像输入已训练的特征提取网络,获得所述特征提取网络输出的第一特征图;
将所述第一特征图输入已训练的关键点检测网络,获得所述关键点检测网络输出的关键点位置信息;
根据所述关键点位置信息,在所述第一特征图中定位目标区域,得到文本特征图;
将所述文本特征图输入已训练的字符识别网络,通过所述字符识别网络获得所述文本图像的文本识别结果。
在一实施例中,所述将待识别的文本图像输入已训练的特征提取网络,获得所述特征提取网络输出的第一特征图,包括:
通过所述特征提取网络提取所述文本图像不同尺度的多张特征图;
将所述不同尺度的多张特征图进行融合,得到所述第一特征图。
在一实施例中,所述将所述不同尺度的多张特征图进行融合,得到所述第一特征图,包括:
按照尺度由小到大,依次将最小尺度的特征图进行上采样与前一尺度的特征图进行通道叠加,得到所述第一特征图。
在一实施例中,所述关键点位置信息包括每个关键点对应的位置坐标、偏移量以及边界距离;所述根据所述关键点位置信息,在所述第一特征图中定位目标区域,得到文本特征图,包括:
根据每个关键点的位置坐标以及偏移量,确定属于同一个文本实例的关键点;
根据同一个文本实例中每个关键点对应的位置坐标以及边界距离,确定同一个文本实例中每个关键点两侧的边界点;
依次连接所述边界点,形成所述目标区域;
在所述第一特征图中截取所述目标区域,得到所述文本实例对应的文本特征图。
在一实施例中,所述依次连接所述边界点,形成所述目标区域,包括:
连接同一文本实例的相邻关键点对应的边界点,形成四边形区域;
对所述四边形区域进行变换,形成固定尺寸的矩形区域;
属于同一文本实例的矩形区域,构成所述目标区域。
在一实施例中,所述将所述文本特征图输入已训练的字符识别网络,通过所述字符识别网络获得所述文本图像的文本识别结果,包括:
将所述文本特征图输入所述字符识别网络,获得所述字符识别网络输出的字符编码向量;
采用束搜索方式,对所述字符编码向量进行分类搜索,将概率最高的字符序列作为所述文本识别结果。
在一实施例中,在所述将待识别的文本图像输入已训练的特征提取网络之前,所述方法还包括:
获取携带标签信息的样本图像集;
对所述样本图像集进行数据增强,并重新生成训练标签,获得带有训练标签的训练图像集;所述训练标签包括关键点位置信息以及字符编码向量;
利用所述训练图像集训练所述特征提取网络、关键点检测网络以及字符识别网络,直到满足终止条件。
本申请实施例提供了一种文本识别装置,包括:
特征提取模块,用于将待识别的文本图像输入已训练的特征提取网络,获得所述特征提取网络输出的第一特征图;
关键点检测模块,用于将所述第一特征图输入已训练的关键点检测网络,获得所述关键点检测网络输出的关键点位置信息;
文本定位模块,用于根据所述关键点位置信息,在所述第一特征图中定位目标区域,得到文本特征图;
文本识别模块,用于将所述文本特征图输入已训练的字符识别网络,通过所述字符识别网络获得所述文本图像的文本识别结果。
本申请实施例提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述文本识别方法。
本申请实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述文本识别方法。
本申请实施例提供的方案,通过检测关键点,确定特征图中的文本区域,进而得到文本特征图,通过字符识别网络识别文本特征图,进而得到文本识别结果,实现了端到端的文本识别,无需重复进行特征提取,方法快速高效,识别准确性高。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的电子设备的结构示意图;
图2为本申请实施例提供的模型训练方法的流程示意图;
图3为本申请实施例提供的文本定位的原理示意图;
图4为本申请实施例提供的模型训练方法的详细流程示意图;
图5为本申请实施例提供的文本识别方法的流程示意图;
图6为图5对应实施例中步骤S530的细节流程图;
图7为本申请实施例提供的文本识别方法的详细流程示意图;
图8为本申请实施例提供的文本识别装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1是本申请实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本申请实施例提供的文本识别方法。如图1所示,该电子设备100包括:一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中,所述处理器被配置为执行本申请下述实施例提供的文本识别方法。
所述处理器102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的文本识别方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
在一实施例中,图1所示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备100也可以具有其他组件和结构。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像,并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地,该数据采集装置110可以为摄像头。
在一实施例中,用于实现本申请实施例的文本识别方法的示例电子设备100中的各器件可以集成设置,也可以分散设置,诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体,而将数据采集装置110分离设置。
在一实施例中,用于实现本申请实施例的文本识别方法的示例电子设备100可以被实现为诸如智能手机、平板电脑、智能手表、车载设备等智能终端。
本申请实施例提供的识别方法,可以用于识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。
图2是本申请实施例提供的模型训练方法的流程示意图。该模型包括特征提取网络、关键点检测网络以及字符识别网络。如图2所示,该训练过程包括以下步骤S210-步骤S230。
步骤S210:获取携带标签信息的样本图像集。
其中,样本图像集是指带有标签信息的大量图像的集合。标签信息可以包括关键点位置信息以及字符编码向量。字符编码向量是指用向量的形式来表示文本。例如字符abc,可以用向量[1,2,3]表示。关键点位置信息可以包括关键点的位置坐标、偏移量以及边界距离。其中,偏移量是指关键点与中心点的距离。边界距离是指关键点到文本边界的最小距离。如图3所示,针对任意形状的文本,标记了n=2k+1(例如7)个关键点,均位于文本的中心线上,包括一个中心点302(即其中一个关键点),位于文本的质心点(中心线的中点),中心点302两侧等间距取k个点,即关键点301,每个关键点301的两侧存在距离最近的文本边界点303。关键点301与其最近边界点303之间的距离d即为边界距离。
在一实施例中,可以采用特征热力图的方式,热力图的最亮点代表一个关键点的位置,通过n=2k+1个热力图标记对应的n=2k+1个关键点的位置。
步骤S220:对所述样本图像集进行数据增强,并重新生成训练标签,获得带有训练标签的训练图像集;所述训练标签包括关键点位置信息以及字符编码向量。
在一实施例中,数据增强可以是采用旋转、平移、裁切、对比度调整、噪声添加、图像缩放等方式对样本图像进行变换。其中,变换后的样本图像可以称为训练图像,训练图像的集合可以称为训练图像集。由于样本图像经过变换,关键点位置信息会发生变化,故基于训练图像,可以重新生成训练标签。训练标签是指训练图像的标签信息。训练标签包括关键点位置信息以及字符编码向量。
步骤S230:利用所述训练图像集训练所述特征提取网络、关键点检测网络以及字符识别网络,直到满足终止条件。
在一实施例中,可以使用随机数作为特征提取网络、关键点检测网络以及字符识别网络的初始网络权值。其中,特征提取网络的骨干网络可以使用其他数据集上的预训练权值进行初始化。
之后,可以将训练图像集作为输入,根据特征提取网络、关键点检测网络以及字符识别网络输出的结果,通过反向传播,调整各层权值,权值更新的方法包括但不限于SGD,RMSProp,Adam,Nesterov Accelerated Gradient或他们的组合,直到达到终止条件。在一实施例中,终止条件可以是达到设定的总优化次数,或者损失值小于预设值。
图4是本申请实施例提供的模型训练方法的详细流程示意图。如图4所示,包括以下步骤S401-步骤S412。
步骤S401:获取大量样本图像以及相应的标签信息;
步骤S402:对样本图像进行数据增强;
步骤S403:对数据增强后的图像重新生成标签信息;
步骤S404:初始化网络各层权重;
步骤S405:基于当前的网络权值,通过特征提取网络的骨干网络计算图像特征;
步骤S406:基于当前的网络权值,通过特征提取网络的多尺度提取网络提取图像特征的多尺度特征;
步骤S407:通过上采样的方式,将多尺度特征融合成一张特征图;
步骤S408:通过关键点检测网络(anchor-free(无锚点)检测网络)检测特征图的关键点位置、偏移量以及边界距离;
步骤S409:基于关键点位置、偏移量和边界区域可以从特征图中选取文本区域,并矫正文本区域,之后将特征图的文本区域作为字符识别网络的输出,进行特征提取,输出字符编码向量;
步骤S410:单次优化操作:基于输出的关键点位置、偏移量以及边界距离、字符编码向量可以通过反向传播,更新模型参数权值。
步骤S411:判断是否终止该分支的训练。其中,终止条件可以是设定了总优化次数,或者是损失(loss)值小于某个预设值。
步骤S412:保存网络各层权值:保存训练更新后的对应网络权值。
结束模型训练过程。上述训练是采用端到端的训练方式,模型不同阶段同步训练、同步更新、同时结束。
图5是本申请实施例提供的文本识别方法的流程示意图。如图5所示,该方法包括:步骤S510-步骤S540。
步骤S510:将待识别的文本图像输入已训练的特征提取网络,获得所述特征提取网络输出的第一特征图。
其中,第一特征图用于表征文本图像的特征。特征提取网络可以通过上文提供的方法训练得到。
在一实施例中,特征提取网络可以包括骨干网络和多尺度提取网络。通过骨干网络计算文本图像的特征向量,之后将此特征向量输入多尺度提取网络,提取不同尺寸的多张特征图。
骨干网络可以采用已有的resnet、darknet、densenet等通用网络结构中的resblock、denseblock等卷积模块,通过对这些模块进行组合,自主构建一个深度神经网络,该神经网络需满足特征图尺寸(宽、高)逐步缩小、特征图深度逐步放大的基本要求。
多尺度提取网络用于提取多尺度特征,可以采用已有的FPN、darknet等特征金字塔提取方法。多尺度提取网络的输出尺度一般可以有3-5个尺度。
将不同尺度的多张特征图进行融合,即可得到上述第一特征图。在一实施例中,可以按照尺度由小到大,依次将最小尺度的特征图进行上采样与前一尺度的特征图进行通道叠加,得到所述第一特征图。
举例来说,假设原图大小是512x512,特征提取采用了4个尺度,假设4个尺度的特征图的大小分别为128x128,64x64,32x32,16x16。最后一个尺度为16x16,先进行上采样到32x32,然后再与其前一个尺度特征图(32x32)进行融合,融合的方式是特征图通道叠加。比如:F1:尺度32x32的特征图通道数为128,F2:尺度16x16的特征通道数为256,融合的方式是F2先上采样得到新的特征图U1(32x32,通道数不变还是256),然后再与前一尺度特征F1融合,形成尺度为32x32,通道数据为128+256=384的融合特征F(相当于二合一了)。采用该方式依次与前一个尺度融合,最后得到一个特征图,即为第一特征图(第一特征图长宽分别为输入图像的1/4)。
步骤S520:将所述第一特征图输入已训练的关键点检测网络,获得所述关键点检测网络输出的关键点位置信息。
关键点检测网络可以由上文提供的方法提前训练得到。关键点检测网络是一个无锚点(anchor-free)的检测网络,通过以特征热力图的方式回归文本的关键点,以及每个关键点对应的属性,来达到文本关键点检测的目的。其中,无锚点是指训练和推理时不需要设置锚点(即预置的检测框),热力图的最亮点代表了一个关键点的位置,即需要n=2k+1个热力图回归对应的n=2k+1个关键点的位置。同时,可以回归每个关键点与中心点的偏移量,用于计算关键点属于哪个文本实例,另外,可以回归每个关键点的边界距离d。由此,关键点位置信息可以包括关键点的位置坐标、与中心点的偏移量以及边界距离d。
步骤S530:根据所述关键点位置信息,在所述第一特征图中定位目标区域,得到文本特征图。
其中,目标区域是指第一特征图中文本所在的区域,文本特征图是指第一特征图中文本所在区域的特征。
在一实施例中,如图6所示,上述步骤S530具体可以包括以下步骤S531-步骤S534。
步骤S531:根据每个关键点的位置坐标以及偏移量,确定属于同一个文本实例的关键点。
其中,文本实例是指一段连续的字符。基于每个关键点的偏移量,偏移量为0的关键点,可以认为是中心点。根据其他关键点的位置坐标,位于中心点两侧,偏移量逐渐变大的关键点,可以认为与此中心点属于同一个文本实例。
步骤S532:根据同一个文本实例中每个关键点对应的位置坐标以及边界距离,确定同一个文本实例中每个关键点两侧的边界点。
以图3为例,为一个文本实例,在确定关键点301之后,根据关键点301的边界距离d,可以在每个关键点301的两侧确定两个边界点303。使边界点303与关键点301之间的距离为d。不同关键点的边界距离可以相同,也可不同。
步骤S533:依次连接所述边界点,形成所述目标区域。
以图3为例,连接所有边界点303,围成的区域可以称为目标区域。
在一实施例,可以连接同一文本实例的相邻关键点对应的边界点,形成四边形区域;如图3所示,相邻的2个关键点生成的4个边界点,形成一个四边形区域。每个文本的n=2k+1个关键点共形成2k个多边形。对四边形区域进行投影变换,将不规则的四边形区域投影到一个规则的矩形区域,进行投影变换是考虑长宽比,保持特征没有长款比例上的大幅拉伸。
在一实施例中,由于文本的长度不等,可以矫正每个矩形区域为固定尺寸。同时,对于较短的文本,可以采用补零的方式填满固定尺寸的矩形区域,最终达到不同长度文本特征归一化的目的,最终得到多个固定尺寸的矩形区域;属于同一文本实例的多个矩形区域,构成上述目标区域。
步骤S534:在所述第一特征图中截取所述目标区域,得到所述文本实例对应的文本特征图。
由于实际应用中,一张图像可能不仅仅只有字符,还有其他各种图案,故第一特征图中除了字符特征还有其他图案特征,目标区域是文本所在区域,故可以从第一特征图中截取目标区域,即可得到文本实例的文本特征图。
步骤S540:将所述文本特征图输入已训练的字符识别网络,通过所述字符识别网络获得所述文本图像的文本识别结果。
字符识别网络可以采用上文实施例提供的模型训练方法训练得到。字符识别网络可以是一个卷积神经网络,通过2-5层卷积网络再次提取文本特征图的提取特征,并最终输出为一维向量(称为字符编码向量),用于字符序列分类。例如,假设向量为[1,2,3],可以表示字符序列是a,b,c。
由于矫正后的特征是固定大小,经过字符识别网络后,形成了固定长度的一维向量;采用beam search(束搜索)方式对一维向量进行分类搜索,输出概率最高的序列为最终识别结果序列(即文本识别结果);为了能够进行beam search,达到序列识别的目的,在训练时采用CTC(Connectionist Temporal Classification)损失函数进行训练,最终生成的一维向量即为字符编码向量。
图7是本申请实施例提供的文本识别方法的详细流程示意图,如图7所示,该方法包括以下步骤S701-步骤S07
步骤S701:采集待识别图像;
步骤S702:使用卷积神经网络对待识别图像进行特征计算;
步骤S703:通过多尺度特征提取方法提取多尺度特征;
步骤S704:将多尺度特征进行特征融合,得到第一特征图;
步骤S705:通过训练的关键点检测网络,提取第一特征图中关键点的位置、偏移量以及边界距离;
步骤S706:基于上述关键点的位置、偏移量以及边界距离,定位第一特征图中的文本区域,并对文本区域进行矫正,得到文本特征图。
步骤S707:通过字符识别网络对文本特征图进行特征提取,采用beam search(束搜索)方式对一维向量进行分类搜索,输出概率最高的序列为最终识别结果序列。
下述为本申请装置实施例,可以用于执行本申请上述文本识别方法的实施例。对于本申请装置实施例中未披露的细节,请参照本申请文本识别方法实施例。
图8为本申请实施例提供了一种文本识别装置的框图,如图8所示,该装置包括:特征提取模块810、关键点检测模块820、文本定位模块830以及文本识别模块840。
特征提取模块810,用于将待识别的文本图像输入已训练的特征提取网络,获得所述特征提取网络输出的第一特征图;
关键点检测模块820,用于将所述第一特征图输入已训练的关键点检测网络,获得所述关键点检测网络输出的关键点位置信息;
文本定位模块830,用于根据所述关键点位置信息,在所述第一特征图中定位目标区域,得到文本特征图;
文本识别模块840,用于将所述文本特征图输入已训练的字符识别网络,通过所述字符识别网络获得所述文本图像的文本识别结果。
上述装置中各个模块的功能和作用的实现过程具体详见上述文本识别方法中对应步骤的实现过程,在此不再赘述。
本申请实施例提供的方案,通过检测关键点,确定特征图中的文本区域,进而得到文本特征图,通过字符识别网络识别文本特征图,进而得到文本识别结果,实现了端到端的文本识别,无需重复进行特征提取,方法快速高效,识别准确性高。
本方案通过视觉深度学习方法,训练端到端的文本识别模型,通过一个模型直接完成文本检测和识别任务;通过设计一种基于关键点的任意形状文本表示方法,能够快速实现文本目标的检测和矫正;通过设计基于CNN的轻量级字符识别分支,实现快速的文本识别。与传统视觉技术相比,本方案使用深度学习方法,能够通过端到端的模型训练,实现任意形状文本的高效智能识别。与已有深度学习视觉方法相比,本方法使用端到端的方式,训练速度快,识别部分不依赖于循环神经网络(RNN),效率更高。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种文本识别方法,其特征在于,包括:
将待识别的文本图像输入已训练的特征提取网络,获得所述特征提取网络输出的第一特征图;
将所述第一特征图输入已训练的关键点检测网络,获得所述关键点检测网络输出的关键点位置信息;
根据所述关键点位置信息,在所述第一特征图中定位目标区域,得到文本特征图;
将所述文本特征图输入已训练的字符识别网络,通过所述字符识别网络获得所述文本图像的文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述将待识别的文本图像输入已训练的特征提取网络,获得所述特征提取网络输出的第一特征图,包括:
通过所述特征提取网络提取所述文本图像不同尺度的多张特征图;
将所述不同尺度的多张特征图进行融合,得到所述第一特征图。
3.根据权利要求2所述的方法,其特征在于,所述将所述不同尺度的多张特征图进行融合,得到所述第一特征图,包括:
按照尺度由小到大,依次将最小尺度的特征图进行上采样与前一尺度的特征图进行通道叠加,得到所述第一特征图。
4.根据权利要求1所述的方法,其特征在于,所述关键点位置信息包括每个关键点对应的位置坐标、偏移量以及边界距离;所述根据所述关键点位置信息,在所述第一特征图中定位目标区域,得到文本特征图,包括:
根据每个关键点的位置坐标以及偏移量,确定属于同一个文本实例的关键点;
根据同一个文本实例中每个关键点对应的位置坐标以及边界距离,确定同一个文本实例中每个关键点两侧的边界点;
依次连接所述边界点,形成所述目标区域;
在所述第一特征图中截取所述目标区域,得到所述文本实例对应的文本特征图。
5.根据权利要求4所述的方法,其特征在于,所述依次连接所述边界点,形成所述目标区域,包括:
连接同一文本实例的相邻关键点对应的边界点,形成四边形区域;
对所述四边形区域进行变换,形成固定尺寸的矩形区域;
属于同一文本实例的矩形区域,构成所述目标区域。
6.根据权利要求1所述的方法,其特征在于,所述将所述文本特征图输入已训练的字符识别网络,通过所述字符识别网络获得所述文本图像的文本识别结果,包括:
将所述文本特征图输入所述字符识别网络,获得所述字符识别网络输出的字符编码向量;
采用束搜索方式,对所述字符编码向量进行分类搜索,将概率最高的字符序列作为所述文本识别结果。
7.根据权利要求1所述的方法,其特征在于,在所述将待识别的文本图像输入已训练的特征提取网络之前,所述方法还包括:
获取携带标签信息的样本图像集;
对所述样本图像集进行数据增强,并重新生成训练标签,获得带有训练标签的训练图像集;所述训练标签包括关键点位置信息以及字符编码向量;
利用所述训练图像集训练所述特征提取网络、关键点检测网络以及字符识别网络,直到满足终止条件。
8.一种文本识别装置,其特征在于,包括:
特征提取模块,用于将待识别的文本图像输入已训练的特征提取网络,获得所述特征提取网络输出的第一特征图;
关键点检测模块,用于将所述第一特征图输入已训练的关键点检测网络,获得所述关键点检测网络输出的关键点位置信息;
文本定位模块,用于根据所述关键点位置信息,在所述第一特征图中定位目标区域,得到文本特征图;
文本识别模块,用于将所述文本特征图输入已训练的字符识别网络,通过所述字符识别网络获得所述文本图像的文本识别结果。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任意一项所述的文本识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的文本识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011344719.9A CN112464798A (zh) | 2020-11-24 | 2020-11-24 | 文本识别方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011344719.9A CN112464798A (zh) | 2020-11-24 | 2020-11-24 | 文本识别方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112464798A true CN112464798A (zh) | 2021-03-09 |
Family
ID=74807956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011344719.9A Pending CN112464798A (zh) | 2020-11-24 | 2020-11-24 | 文本识别方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464798A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362380A (zh) * | 2021-06-09 | 2021-09-07 | 北京世纪好未来教育科技有限公司 | 一种图像特征点检测模型训练方法、装置及其电子设备 |
CN113780098A (zh) * | 2021-08-17 | 2021-12-10 | 北京百度网讯科技有限公司 | 文字识别方法、装置、电子设备以及存储介质 |
CN114821568A (zh) * | 2022-06-27 | 2022-07-29 | 深圳前海环融联易信息科技服务有限公司 | 菜单要素提取方法、装置、计算机设备及存储介质 |
CN117292384A (zh) * | 2023-08-30 | 2023-12-26 | 北京瑞莱智慧科技有限公司 | 文字识别方法、相关装置及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
CN110929665A (zh) * | 2019-11-29 | 2020-03-27 | 河海大学 | 一种自然场景曲线文本检测方法 |
CN111046859A (zh) * | 2018-10-11 | 2020-04-21 | 杭州海康威视数字技术股份有限公司 | 字符识别方法及装置 |
CN111091123A (zh) * | 2019-12-02 | 2020-05-01 | 上海眼控科技股份有限公司 | 文本区域检测方法及设备 |
CN111428723A (zh) * | 2020-04-02 | 2020-07-17 | 苏州杰锐思智能科技股份有限公司 | 字符识别方法及装置、电子设备、存储介质 |
CN111695527A (zh) * | 2020-06-15 | 2020-09-22 | 内蒙古大学 | 一种蒙古文在线手写体识别方法 |
CN111814794A (zh) * | 2020-09-15 | 2020-10-23 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及存储介质 |
CN111860506A (zh) * | 2020-07-24 | 2020-10-30 | 北京百度网讯科技有限公司 | 识别文字的方法和装置 |
-
2020
- 2020-11-24 CN CN202011344719.9A patent/CN112464798A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046859A (zh) * | 2018-10-11 | 2020-04-21 | 杭州海康威视数字技术股份有限公司 | 字符识别方法及装置 |
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
CN110929665A (zh) * | 2019-11-29 | 2020-03-27 | 河海大学 | 一种自然场景曲线文本检测方法 |
CN111091123A (zh) * | 2019-12-02 | 2020-05-01 | 上海眼控科技股份有限公司 | 文本区域检测方法及设备 |
CN111428723A (zh) * | 2020-04-02 | 2020-07-17 | 苏州杰锐思智能科技股份有限公司 | 字符识别方法及装置、电子设备、存储介质 |
CN111695527A (zh) * | 2020-06-15 | 2020-09-22 | 内蒙古大学 | 一种蒙古文在线手写体识别方法 |
CN111860506A (zh) * | 2020-07-24 | 2020-10-30 | 北京百度网讯科技有限公司 | 识别文字的方法和装置 |
CN111814794A (zh) * | 2020-09-15 | 2020-10-23 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362380A (zh) * | 2021-06-09 | 2021-09-07 | 北京世纪好未来教育科技有限公司 | 一种图像特征点检测模型训练方法、装置及其电子设备 |
CN113780098A (zh) * | 2021-08-17 | 2021-12-10 | 北京百度网讯科技有限公司 | 文字识别方法、装置、电子设备以及存储介质 |
CN113780098B (zh) * | 2021-08-17 | 2024-02-06 | 北京百度网讯科技有限公司 | 文字识别方法、装置、电子设备以及存储介质 |
CN114821568A (zh) * | 2022-06-27 | 2022-07-29 | 深圳前海环融联易信息科技服务有限公司 | 菜单要素提取方法、装置、计算机设备及存储介质 |
CN114821568B (zh) * | 2022-06-27 | 2022-09-16 | 深圳前海环融联易信息科技服务有限公司 | 菜单要素提取方法、装置、计算机设备及存储介质 |
CN117292384A (zh) * | 2023-08-30 | 2023-12-26 | 北京瑞莱智慧科技有限公司 | 文字识别方法、相关装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151725B2 (en) | Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background | |
CN112464798A (zh) | 文本识别方法及装置、电子设备、存储介质 | |
CN109816011B (zh) | 视频关键帧提取方法 | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
AU2019268184B2 (en) | Precise and robust camera calibration | |
CN109117846B (zh) | 一种图像处理方法、装置、电子设备和计算机可读介质 | |
CN110516541B (zh) | 文本定位方法、装置、计算机可读存储介质和计算机设备 | |
CN112967341B (zh) | 基于实景图像的室内视觉定位方法、系统、设备及存储介质 | |
CN112308866B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
WO2023116231A1 (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN111008935B (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
CN110210480B (zh) | 文字识别方法、装置、电子设备和计算机可读存储介质 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN114038004A (zh) | 一种证件信息提取方法、装置、设备及存储介质 | |
CN109165654B (zh) | 一种目标定位模型的训练方法和目标定位方法及装置 | |
CN114550051A (zh) | 一种车损检测方法、装置、计算机设备及存储介质 | |
US11880913B2 (en) | Generation of stylized drawing of three-dimensional shapes using neural networks | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN111652245B (zh) | 车辆轮廓检测方法、装置、计算机设备及存储介质 | |
CN116361502B (zh) | 一种图像检索方法、装置、计算机设备及存储介质 | |
CN116310349B (zh) | 基于深度学习的大规模点云分割方法、装置、设备及介质 | |
CN114170231A (zh) | 基于卷积神经网络的图像语义分割方法、装置及电子设备 | |
CN113468906B (zh) | 图形码提取模型构建方法、识别方法、装置、设备和介质 | |
CN113808151A (zh) | 直播图像的弱语义轮廓检测方法、装置、设备及存储介质 | |
CN113808040A (zh) | 直播图像的轮廓矫正方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210309 |
|
RJ01 | Rejection of invention patent application after publication |